バイオインフォマティクス配列データ解析 2 藤 博幸
データベース検索 (1) ブラウザで NCBI を検索 (2)NCBI で配列データの取得 (3)NCBI で BLAST 検索
ブラウザで NCBI を検索
ブラウザで NCBI を検索 クリック
ブラウザで NCBI を検索 NCBI トップページ National Center for Biotechnology Information 分 物学やバイオインフォマティクスの研究に いられるデータベースの構築及び運営や 研究に いられるソフトウェアの開発を っている この機関では 配列データベースである GenBank を始めとして 塩基多型 (SNP) のデータベースである dbsnp EST のデータベースである dbest 献データベース MEDLINE などのデータベース PubMed などを運営している また 各研究者が発表したゲノムデータのリアノテーションを NCBI で独 に っており その結果を Refseq として公開している また BLAST による相同性検索サービスの提供も っている 公開されているデータは基本的に無償で利 できる https://ja.wikipedia.org/wiki/ 国 物 学情報センター より
NCBI で配列データの取得 検索したい遺伝 or タンパク質のキーワードを 今回は 前回説明した PGD 合成酵素について検索する prostaglandin D synthase Homo sapiens とテキストフィールドにキーワードを して右横の search ボタンをクリック
NCBI で配列データの取得 クリック
NCBI で配列データの取得 1 希望するデータが選択されていることを確認 2 スクロールしたページの下部を る
NCBI で配列データの取得 NCBI の様々なデータベースと それぞれのヒット数が されている 今回は Proteins の中の Protein からアミノ酸配列を取得する クリック
NCBI で配列データの取得 クリック
NCBI で配列データの取得 GenPept format で表
NCBI で配列データの取得 GenBank Format ß--- p.10 遺伝 の塩基配列とそれに関連する情報 GenPept Format タンパク質のアミノ酸配列とそれに関連する情報 どちらの format も構成はほぼ同じ 下部にスクロールしながら内容を確認
NCBI で配列データの取得 LOCUS 遺伝 座 ACCESSION と同じことが多いアミノ酸残基数 GenBak format の場合は塩基数 DEFINITION タンパク質名などの説明 括弧内は種名 ACCESSION データベースの ID VERSION 遺伝 を特定する ID 同じ遺伝 座からの複数の転写物に対応 SOURCE, ORGANISM 種名と階層的分類の情報 REFERENCE この配列データに関連する論
NCBI で配列データの取得 FEATURES Source: 種名 Protein: タンパク質名 Region: ドメインの位置情報 マルチドメインの場合複数の記述がある CDD: 保存ドメインデータベースへのリンク GenPept format の説明は 尾形善之先 の 植物バイオサイエンス情報処理演習 を参考にしました
NCBI で配列データの取得 1 スクロールしてページ上部を表 2 Send to 横の をクリックしてプルダウンメニューを表
NCBI で配列データの取得 1 File をチェック 2 GenPept を FASTA に変更
NCBI で配列データの取得 Create File をクリックするとダウンロードフォルダに sequence.fasta の名前で FASTA 形式のファイルが作られる
NCBI で配列データの取得 FASTA 形式 ß-- p.9, p.163 >AAB51074.1 prostaglandin D2 synthase [Homo sapiens] MATHHTLWMGLALLGVLGDLQAAPEAQVSVQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVVA PATDGGLNLTSTFLRKNQCETRTMLLQPAGSLGSYSYRSPHWGSTYSVSVVETDYDQYALLYSQGSKGPG EDFRMATLYSRTQTPRAELKEKFTAFCKAQGFTEDTIVFLPQTDKCMTEQ
NCBI で BLAST 検索 BLAST を使って相同配列を収集 Run BLAST をクリックしても実 できるが 今回は BLAST のサイトから検索
NCBI で BLAST 検索 NCBI のロゴをクリックして NCBI のトップに戻る
NCBI で BLAST 検索 BLAST をクリック
NCBI で BLAST 検索 Basic Local Alignment Search Tool 4 つの代表的な BLAST 違いは書かれているので使い分けを理解しておくこと 今回は Protein BLAST を使う Protein BLASR をクリック
NCBI で BLAST 検索 テキストエリアに直接配列をペーストして実 できる 今回は ファイルチューザを使う 選択ボタンをクリック
NCBIでBLAST検索 ファイルを選択して 開くボタンをクリック
NCBI で BLAST 検索 選択ボタンの横に選択したファイル名前が出てくる 今回 設定はデフォルトで実 する. BLAST ボタンをクリック パラメータ ( 検索条件 ) を変更する時はココをクリック
NCBI で BLAST 検索 実 中の待機画
NCBI で BLAST 検索 検出されたデータベース中の類似配列のリスト類似性の いものが上部にあるようにソートされている チェックボックス配列の選択に利 デフォルトは全て選択されている
NCBI で BLAST 検索 Query Cover = データベース中の配列とアラインされている領域の さ 問い合わせ配列の全 問い合わせ配列 E-value = 検出された類似度 (Score) 以上の類似度を す配列の断 が データベース中から偶然 出される本数の期待値 さいほど偶然 じたとは考えにくい統計的有意性の指標 Per. Identity = 配列 致度 (%) データベース中の配列 Max Score = 類似断 中の最 の BLAST スコア Total Score = 個々の類似断 の合計の BLAST スコア Accession = 検出配列のデータベース中の ID データベースへのリンクがある
NCBI で BLAST 検索 タブをクリックすると表 が変わるデフォルトは Descriptions
NCBI で BLAST 検索 クリック
NCBI で BLAST 検索 アラインメントのページが表
NCBI で BLAST 検索 Graphic Summary タブをクリック
NCBI で BLAST 検索 問い合わせ配列に対してデータベース中に各配列のアラインされている部分をグラフィカルに表 類似度の さは で表
NCBI で BLAST 検索 Alignment タブをクリック
NCBI で BLAST 検索 Description のページで配列名をクリックした時と同じアラインメントのページが表 される Taxonomy タブをクリック
NCBI で BLAST 検索 物の分類群ごとの検出数の要約ページ Description タブをクリックして最初の出 ページに戻る
NCBI で BLAST 検索 Filter 機能を使う テキストフィールドに Homo sapiens と して Filter をクリック
NCBI で BLAST 検索 種名を ると Homo sapiens 由来の配列だけが選択されていることを確認 チェックボックスをクリックして必要のない配列のチェックを外す
NCBI で BLAST 検索
NCBI で BLAST 検索
NCBI で BLAST 検索 上にスクロールして Download をクリック FASTA 形式でダウンロード 選択した配列を FASTA 形式で取得する FASTA(complete sequence) を選択 seqdump.txt の名前のファイルがダウンロードフォルダに作られる
NCBI で BLAST 検索 seqdump.txt は multi-fasta 形式 (FASTA 形式のデータが つのファイルに複数ある )
NCBI で BLAST 検索 取得した配列は Homo sapiens でフィルタリングしたのでヒトゲノムにコードされている相同配列である これらは同じ遺伝 からよって出てきたsplicing variantやによって形成されたparalogである また 検出配列のリスト中 名前がChainではじまっているものはが決定されているものである 収集された相同配列のマルチプルアラインメントを作成し そこから配列の持つ様々な情報を得ることができる ( 次回以降 )
相同配列の 較解析の 順 第 ステップ : 相同配列の収集 第 ステップ : 相同配列のマルチプルアラインメント 第三ステップ : アラインメントからの機能 構造 進化的情報の抽出
BLAST (Basic Local Alignment Search Tool)
(1) 問い合わせ配列の word への分割
(2) 生成された word の有限オートマトンによる表現 1 0 0 1 0 1 1 0 0
(3) word のヒットの部分からのギャップなしの拡張
E-value, P-value の計算 0-1 S Y V T G P M N R T W Q T S K I I Y BLAST random walk 0 から出発し ungapped alignemnt の各サイトのアミノ酸対に対応するスコアを考え それを加算していく 加算した結果が -1 以下になったら random walk は停 するものとする この時各サイトのアミノ酸対の出現頻度は 較する 2 本の配列におけるアミノ酸の出現頻度の積で表されるものとする (BLAST の帰無仮説 ) (1) BLAST random walk の停 するまでに表れる最 値 Y( ) が y 以上である確率は geometric-like distribution となる Prob(Y > y) ~ C exp(- λy) (2) 問い合わせ配列の さをN 1, データベースから取り出した配列の さをN 2 BLAST random walkが停 するまでの平均のステップ数をAとする すると つの配列を 較する際 n = (N 1 N 2 )/A 個程度のrandom walkが じる n 個のrandom walkのいづれにおいても得られた最 スコアがy 以上である確率は 順位統計に従い以下のように計算される Prob(Y >.. y) = 1 - (1 - Cexp(-λ (y-1))) n = 1 - (1 - Cnexp(-λ (y -1))/n) n = 1 - exp(-cnexp(-λ (y -1))) = 1 - exp(-n 1 N 2 Kexp (-λy ))
ここで K = (C/A) exp(-λ) である (3) (2) で 2 本の配列を比較した時に y 以上のスコアが得られる確率が計算された 次に データベース中で y 以上のスコアを有する配列の本数の期待値を求める データベース中の配列のトータルの残基数を D とすると 長さの N 2 配列が D / N 2 本含まれていると見なす事ができる そのそれぞれが 確率 1 - exp(-n 1 N 2 Kexp (-λy )) で y 以上のスコアを有するので 二項分布を考え E-value = ((1 - exp(-n 1 N 2 Kexp (-λy )) D) / N 2 となる (4) 上記の y 以上のスコアを有する配列の本数に関する二項分布は E-value を平均と分散としたポアソン分布で近似できるものとする すると y 以上のスコアが得られる確率は そのようなスコアを有する配列の本数が 0 本である確率を 1 から引くことで得られるので P-value = 1 - exp(-e-value) として計算される 実際は edge effect に関する補正など 種々の補正が行われるので 必ずしも上の通りの計算ではない また 複数のアラインメントについては Karlin-Altschul の sum statistic が利用される
Gapped BLAST への拡張 オリジナルの BLAST はギャップを許さないので アラインメントが断 化されてしまい結果が づらかった
1)gapped-BLAST の手続き Step 1: 有限オートマトン生成までは BLAST に同じ Step 2: データベース中の各配列に次の操作を行う 2-1) 有限オートマトンによる hit を検出 ( これも BLAST に同じ ) 2-2) 同じ対角線上で十分近接した 2 個の hit から ungapped extension により HSP を求め そこから seed を決定して両側に gapped extension を行う 2-3) 有意性評価 (E-value) をして出力
Two-Hits Strategy と Gapped Extension (1) Two-hit induced ungapped extension による HSP の検出 (1-1) hit 検出 (1-2) second hit (C 末側で 距離が A 残基以内の同じ対角線上 ) 検出 (1-3) second hit から ungapped extension により HSP 検出 (2) seed となる残基対の同定 (2-1) HSP が 11 残基対以上の時 : HSP にそって 11 残基のセグメントのスコアを計算し 最大値を示すセグメントの中間を seed とする (2-2) HSP が 11 残基より短い時 : 中間の残基対を seed とする (3) gapped extension seed より両側に動的計画法により gapped extension を実行ただし この時の動的計画法は 現在見ている残基対のスコアが それ以前に達成された最高スコアから Xg 以下にならないように実行される これは ungapped extension が それ以前に達成された最高スコアから X 以下にならないように実行されることに対応している
Two-Hits Strategy 1 BLAST の各 hit ごとの ungapped extension は時間を要するので その部分を短縮 同じ対角線上にある二つの hit とは FASTA でいう所の同じオフセット値を有するタプルに相当する
Two-Hits Strategy 2 Second hit から BLAST 同様に ungapped extension を行い HSP を求める HSP が 11 残基以下の長さの時その中点の残基対を seed とする HSP が 11 残基対より長い時 11 残基対のウィンドウでスキャンし 最大スコアを示す領域を見つけその中点の残基対を seed とする
Two-Hits Strategy 3 Seed となる残基対 ここを出発点として両側に gapped extension してアラインメントを構築する
gapped externsion Seed となる残基対 seed より両側に動的計画法により gapped extension を実行ただし この時の動的計画法は Smith & Waterman 法ではない 現在見ている残基対のスコアが それ以前に達成された最高スコアから Xg 以下にならないように実行される これは ungapped extension が それ以前に達成された最高スコアから X 以下にならないように実行されることに対応している 動的計画法については次回以降に説明