個別要素技術 2 疾患との関連情報の抽出 予測のための 技術開発 平成 20 年 11 月 18 日産業技術総合研究所バイオメディシナル情報研究センター分子システム情報統合チーム 今西規
1 個別要素技術 2 課題一覧 1 大量文献からの自動知識抽出と文献からの既知疾患原因遺伝子情報の網羅的収集 2 疾患遺伝子情報整備と新規疾患遺伝子候補の予測 3 遺伝子多型情報整備
1 大量文献からの自動知識抽出と 文献からの既知疾患原因遺伝子情報 の網羅的収集 2 目標 疾患との関連情報をヒト全遺伝子データベースへ格納して公開する 6 種類の疾患に対し 疾患遺伝子予測プログラムにより新規の疾患遺伝子候補の絞込みを行い 疾患との関連情報を合計で 6 万件以上 その内 新規の情報については 600 件以上の情報を格納する 主な成果 [ 目標達成 ] 文献データベース PubMed からのテキストマイニング 基づくデータベース LEGENDA では 疾患名と遺伝子名の共起する文献情報を 612 万件登録し 公開した
1 文献からの 遺伝子 - 疾患関係 (Disease-Gene Association: DGA) 情報の抽出とデータベース構築 機械学習によるテキストマイニングを使って医学文献情報 (PubMED) からの DGA 情報の抽出とデータベース化を行った これにより OMIM 等の既存データベースを超える網羅性を持つ疾患遺伝子データベースを構築し LEGENDA (Literature-Extracted GENe-Disease Association) データベースとして公開した 3
1 4 LEGENDA の提供する 共起 情報 文献数 :1,538,757 共起数 :6,122,502 遺伝子数グループ :11,498 表現 :28,941 疾患数グループ :24,667 表現 :43,138 疾患 遺伝子 共起共起共起 物質 文献数 :2,183,933 共起数 :17,114,343 遺伝子数グループ :13,387 表現 :38,161 物質数グループ :51,591 表現 :72,002 文献数 :5,136,461 共起数 :27,011,606 疾患数グループ :33,931 表現 :61,847 物質数グループ :69,184 表現 :94,832 情報量を用いたスコアによる評価とともに 間接共起 ( 予測 ) の情報も公開を開始した
2 疾患遺伝子情報整備と新規疾患遺 伝子候補の予測 5 目標 疾患との関連情報をヒト全遺伝子データベースへ格納して公開する 6 種類の疾患に対し 疾患遺伝子予測プログラムにより新規の疾患遺伝子候補の絞込みを行い 疾患との関連情報を合計で 6 万件以上 その内 新規の情報については 600 件以上の情報を格納する 主な成果 [ 目標達成 ] PANDA システムによる予測関連遺伝子の情報は 慢性関節リウマチ (207 件 ) 糖尿病 (215 件 ) 前立腺がん (782 件 ) 食道がん (64 件 ) 胃がん (261 件 ) 大腸がん (143 件 ) に対して合計 1,672 件を得た ( 平成 20 年度に公開予定 )
2 6 新規疾患候補遺伝子の予測 優先順位付け のための技術開発 ( データマイニング ) PANDA(Priority ANalysis for Disease Association) とは H-InvDBを用いたデータマイニングにより 新規疾患候補遺伝子を予測 優先順位付けするシステム 既知の疾患関連遺伝子のさまざまな特徴( 機能アノテーション 構造ドメイン 代謝経路 細胞内局在 重複遺伝子など ) をH- InvDBから抽出し その類似性に基づいて新規の疾患候補遺伝子を探すことが可能 類似性の定量化にはマハラノビス距離を用い 特徴の相関を排除
2 PANDA による候補遺伝子の表示画面 (RA) 7 スコア =(MD2 - MD1)> 閾値 の条件を満たす遺伝子を表示 Gene Symbol ゲノム領域予測スコア ゲノム領域ごとに予測スコアでソートされた候補遺伝子を表示できる
2 慢性関節リウマチ (RA) に関する予測結果の例 8 Band name 10q21 12q12 17p13 18q21 1p13 1p36 1q43 21q22.3 22q11.2 5q31 Number of all genes 105 48 317 171 197 583 43 155 257 204 Number of known genes 0 0 1 1 1 4 0 0 1 2 Gene definition MBL2 (previous known) ADAMTS20 (dermal) ATP5A1, FECH, hypothetical, DCC TNFSF12 (previous known) Gene related to asthma PADI4 (folic acid metabolism) (folic acid metabolism) MIF SLC22A4 Number of PANDA candidates excluding known genes 9 8 57 19 32 88 3 15 37 48 6p21.3 9p22 250 49 11 0 NFKBIL1, the HLA complex RRAGA & PSIP1 (previous known) 59 葉酸代謝に関与する遺伝子を予測 6
2 遺伝子リスト特徴抽出ツール ( 仮称 公開準備中 ) 入力された遺伝子セットに共通な特徴を探すツール 知識発見支援ツール 9 HIT000101492 HIT000068148 HIT000032946 ここに遺伝子リストを記入 実行ボタン 解析対象となるアノテーション項目 : InterPro GO 遺伝子ファミリー 染色体バンド 立体構造ドメイン KEGG パスウェイ 細胞内局在予測 遺伝子発現パターン ( 開発中 )
2 遺伝子リスト特徴抽出ツールの実行例 知識発見支援ツール投入した遺伝子名 : 糖尿病関連遺伝子 6 個 (ADIPOQ, CAPN10, PPARG, TCF7L2, HNF4A, HHEX) 10 * アノテーション *Fisher の正確確率 DNA 結合性転写調節核受容体ステロイドホルモン受容体ファミリ (44) ステロイドホルモン受容体リガンド依存性の核受容体活性 Zinc-finger, 核ホルモン受容体型核ホルモン受容体 リガンド結合 コア核受容体 リガンド結合ドメイン核ホルモン受容体 リガンド結合
3 遺伝子多型情報整備 11 目標疾患との関連情報をヒト全遺伝子データベースへ格納して公開する 6 種類の疾患に対し 疾患遺伝子予測プログラムにより新規の疾患遺伝子候補の絞込みを行い 疾患との関連情報を合計で 6 万件以上 その内 新規の情報については 600 件以上の情報を格納する 主な成果 [ 目標達成 ] 遺伝子多型情報に関してデータベース VarySysDB を公開し 多型のアノテーション 構造多型 連鎖不平衡の情報を統合した Yamaguchi-Kabata et al. PLOS One (2008) Shimada et al. NAR (in press)
3 遺伝子多型 (SNP, indel) に関するアノテーション Termination Codon SNP 5 UTR ORF Synonymous 40,484 Nonsynonymous 3 UTR 41369 95,496 * 53,754 85423 Nonsense (Stop codon) 1258** Synonymous 123 Extension 75 ** Total 207374 Indel Non- frameshifting 180 Cause frameshift 1289 5 UTR-inORF 2 inorf-3 UTR 3 1993 1474 4926 Total 43369 96,970 90349 8393 215767 多型データ :dbsnp build 125, 遺伝子構造 :all human gene analysis 2 における ORFを持つ代表 cdna, ゲノム : Human genome assembly build 35 * 311 個の未分類のSNPを含む ** 方向性 cdna 上の塩基と一致するタイプを祖先型とみなした Yamaguchi-Kabata et al. PLOS One (2008)
3 ヒト遺伝子多型に関するデータベース VarySysDB の開発 ゲノム多型とそのアノテーション 構造多型 連鎖不平衡の情報を統合した 13 Shimada et al. NAR (in press)
成果のまとめ 14 大量文献から疾患 遺伝子 物質の名称の共起を抽出したデータベース LEGENDA を開発 公開した 間接共起する名称を表示するシステムも公開した 多因子性疾患の既知疾患関連遺伝子の特徴に基づいて新規の関連遺伝子候補を同定する予測システム PANDA(Priority ANalysis for Disease Association) を開発し 6 種類の疾患に対して候補遺伝子の予測を行った PANDA システムの簡易版 PANDA-mini を開発して公開した また 任意の遺伝子セットから共通の特徴を抽出するための 遺伝子リスト特徴抽出ツール を開発した ヒト遺伝子多型について タンパク質に多型がおよぼす効果のアノテーションや ゲノムの構造多型 連鎖不平衡の情報を統合したデータベース VarySysDB を開発 公開した