- PDF 無料ダウンロード

GenBank クイックスタート GenBank は NLM/NCBI にて維持管理されている核酸配列データベースですまた GenBank は EMBL, DDBJ と三極間で連携しながら国際核酸配列データベースを共同で構築していますこれら三機関はデータを日々交換し続けておりその規模は 160000 種にも及ぶ生物種の塩基配列から成り立つまでになっていますこの GenBank クイックスタートでは 1. GenBankの歴史と発展 2. タイプの異なるエントリの種類とアクセッション番号との関連性 3. GenBankの典型的なエントリのフォーマットとそのアノテーション 4. GenBankへの配列登録ツール :BankItおよびSequinの使い方 5. GenBankにおいてどのように配列登録が行われるか 6. GenBank ftpサイトの概要 7. 効率的にGenBankからデータを取得するためのTips などを紹介していきます課題 1 課題 1-1 Entrez-Nucleotideを用いて "pannexin" という単語を含むエントリを検索してみてください何エントリがヒットしましたか? その中でCoreNucleotide ESTに含まれるエントリはそれぞれいくつですか? 検索結果を1ページ内に全件表示させてください課題 1-2 CoreNucleotide データにヒットしたエントリの中から GenBank に登録された genomic DNA 由来のエントリだけに絞り込んでください GenBank には冗長なエントリが含まれていますか? pannexin に関して複数のエクソンが含まれるエントリと個々のエクソンが登録されているエントリとを見つけてください課題 1-3 絞り込まれた検索結果の中からアクセッション番号 AY048509 のエントリを例として以下の質問に答えてみてくださいいつが最後の更新日ですか? このエントリは登録後更新されていますか? このエントリにはコード領域が完全に含まれていますか? 5'UTR はこのエントリ内のどの部分に相当しますか? このエントリに含まれるコード領域を翻訳したアミノ酸配列のアクセッション番号は何番ですか? 課題 1-4 Entrez の検索結果に戻ってくださいソースデータベースを RefSeq に変更し molecular type を mrna さらに生物種をヒトに限ってくださいいくつのエントリが表示されていますか? これら全部のエントリを FASTA 形式で保存してください課題 1-5 アクセッション番号 NM_015368 の更新履歴を見てください最新の更新はいつですか? 登録後何回更新されていま

すか? 更新日はいつですか? 課題 2 今度は FOXP2 遺伝子を使って上述した手順を繰り返して下さい課題 2-1 Entrez-Nucleotide を用いて "FOXP2" という単語を含むエントリを検索してみてください何エントリがヒットしましたか? その中で CoreNucleotide EST に含まれるエントリはそれぞれいくつですか? 検索結果を 1 ページ内に全件表示させてください課題 2-2 CoreNucleotide データにヒットしたエントリの中から GenBank に登録された genomic DNA 由来のエントリだけに絞り込んでください GenBank には冗長なエントリが含まれていますか? FOXP2 に関して複数のエクソンが含まれるエントリと個々のエクソンが登録されているエントリとを見つけてください課題 2-3 絞り込まれた検索結果の中からアクセッション番号 AF515032 のエントリを例として以下の質問に答えてみてくださいいつが最後の更新日ですか? このエントリは登録後更新されていますか? このエントリにはコード領域が完全に含まれていますか? 5'UTR はこのエントリ内のどの部分に相当しますか? このエントリに含まれるコード領域を翻訳したアミノ酸配列のアクセッション番号は何番ですか? 課題 2-4 Entrez の検索結果に戻ってくださいソースデータベースを RefSeq に変更し molecular type を mrna さらに生物種をヒトに限ってくださいいくつのエントリが表示されていますか? これら全部のエントリを FASTA 形式で保存してください課題 2-5 アクセッション番号 NM_148900 の更新履歴を見てください最新の更新はいつですか? 登録後何回更新されていますか? 更新日はいつですか? 解答解説解答 1-1 Entrez-Nucleotide を用いた検索 NCBI トップページを開きましょう

画面上部の検索窓を使って Nucleotide データベースから "pannexin" という単語を含むエントリを検索します画面上部の検索サービスは Entrez と呼ばれ文献から塩基配列 SNPs ゲノム立体構造など様々なデータベースへの検索を提供していますその中の Nucleotide データベースは GenBank, RefSeq, PDB など様々なソースから塩基配列を集めたものですプルダウンメニューから Nucleotide を選択し検索窓に pannexin と打ち込んで検索を実行します検索結果の上部から 201 エントリにヒットしたことがわかります ( 赤四角 )

また右横に書かれている情報から 201 エントリの内訳は CoreNucleotide に 175 エントリ EST に 26 エントリであることが分かりますデフォルトの検索結果画面では CoreNucleotide にヒットした 175 エントリが 20 件ずつのページに分かれて表示されています検索結果の表示件数を変える今は 175 件のヒットのうち先頭の 20 件が表示されていますこの表示件数を変えて全件が表示されるようにしてみましょうそのためには画面上部の show と書かれた右横のプルダウンメニューから 1 ページあたりの表示件数を選択します全部で 175 件なので 200 を選択します

上図のように全件が 1 ページに収まって表示できているのが確認できます解答 1-2 検索結果を絞り込む続いてヒットしたエントリから genomic DNA 由来のエントリに絞り込んでみましょう検索結果の絞込みには画面上部の "Limits" と書かれたタブから行うのが一番簡単になりますクリックしてみましょうすると下図のように様々な条件をプルダウンメニューで選んで選択しその条件で絞り込んでから先ほどと同じキーワード ( 例ですと pannexin) で検索が可能です

まず genomic DNA 由来に絞り込むには Molecule と書かれたプルダウンメニューから "genomic DNA/RNA" を GenBank に登録されたエントリに絞り込むには Only from と書かれたプルダウンメニューから "GenBank" を選択し

再度上の検索窓に "pannexin" というキーワードが入っていることを確認して検索を実行してください "Limits" タブにチェックが入って Limits:Genomic DNA/RNA, GenBank と書かれていることから絞込み検索が行われたことを確認してください ( 下図の赤く囲んだ領域 )

結果が 15 件に絞り込まれたことがわかります

結果を下のほうにスクロールしてみていくと PANX1 遺伝子のエクソンが複数登録されていることがわかりますこのように GenBank には冗長度が含まれているためユーザ側でどのエントリを用いるかをある程度判断することも必要です例えば赤く囲んだアクセッション番号 AF398508 のエントリには PANX1 遺伝子のエクソン 3,4,5 番目が完全に含まれたゲノム断片が登録されていることがわかりますし AF398507 にはエクソン 2 番目のみを含むゲノム断片が登録されていることがわかります解答 1-3 エントリの更新状況を知るでは検索結果からアクセッション番号 AY048509 のエントリをクリックして詳細を表示させてみてください

このように各エントリははじめの部分でエントリに関する情報が記述された後最後に配列が書かれています最終の更新日はエントリの 1 行目 LOCUS と書かれた行の一番右側に表示されています 2001 年 9 月 21 日に最終更新されたことがわかります次に登録後このエントリが更新されたかは VERSION と書かれた箇所を見ることでわかります GenBank では登録された時にアクセッション番号が発行されますが ( 例では AY048509) その際に VERSION 番号というものも発行されます VERSION は登録時が 1 で更新されるたびに 2,3 と数字が一つずつ増えていきますこの数字はアクセッション番号の後ろに.1,.2 というように付け加えられていますこのエントリの VERSION は AY048509.1 ですので登録時から更新されていないことがわかりますゲノムエントリからエクソン情報を知る

次にこのエントリに書かれたエクソン ( 遺伝子 ) 情報を見ていきましょうエントリのどの領域にエクソンが含まれるかなどのアノテーション情報は FEATURES に書かれていますまず簡単に情報の読み方を説明します各情報はフィールド名その位置説明という基本構成をしており "/" で始まる行はその上の行の続きであることを示しています位置は [start]..[end] という形式が基本形でエントリの何 bp(start)~ 何 bp(end) にこのフィールドがアノテートされていることを示します派生形として [start]..>[end] や [start]<..[end] といった形式があり少なくともこのフィールドが [start] から [end] までは続いているがさらに下流や上流に続いていることを示しています説明は基本的に [a]=[b] という形式をとっており [a] という特徴は [b] ですと読みます実際に見てみましょう gene フィールドからこのエントリの 606bp~1430bp に PANX1 という遺伝子が含まれていることがわかりますまた "..>1430" と書かれているのでこの遺伝子はさらに下流まで続いており一部分がエントリに含まれていることがわかります同時に start 側には < がついていないのでこのエントリの 606bp が遺伝子の 5' 端ということもわかります exon フィールドからこのエントリの 606bp~1170bp に 1 番目のエクソンが含まれていることがわかります CDS フィールドからは 990bp~1170bp に CDS の頭の部分が含まれておりさらに下流に続いていることがわかります exon フィールドの情報と組み合わせて考えるとファーストエクソンは 606bp~1170bp であり 990bp からがスタートコドンで翻訳領域となり 606bp~989bp は 5'UTR になることがわかりますまた翻訳されたアミノ酸配列は AAL06604 として登録されていることも分かります解答 1-4

検索結果を絞り込む ( その 2) 再度検索結果を絞り込んで見ましょう pannexin というキーワードで検索し Limits タブをクリックして絞込みのページに移動しますまず Only from よりソースを RefSeq に設定し Molecule より mrna に設定します生物種をヒトに限る方法ですが上部の検索窓に "pannexin" の後ろに " AND human[organism]" と入力して AND 検索により実現しますすると下図のように 3 件のヒットが確認できます

検索結果を FASTA ファイルで保存する続いて絞り込まれた 3 件のエントリを FASTA 形式で保存してみましょう画面上部 Display 横のプルダウンメニューから "FASTA" を選択し multi FASTA 形式で表示させた後

Show の二つとなりのプルダウンメニューから "File" を選択し適切な名前をつけることで検索結果を FASTA 形式で保存することができます解答 1-5 エントリの更新履歴を見る検索結果に戻ってください

エントリ NM_015368 をクリックして詳細を見てみましょう LOCUS 行の情報から最新の更新日は 2008 年 10 月 12 日であることがわかります続いて更新履歴を見てみましょう更新履歴はエントリ番号の右にある "Reports" をクリックして表示されるメニューから "Revision History" を選ぶことで表示されます

クリックしてみましょう極めて多くの更新がなされていることがわかります配列が変わることによる Version は 3 回しか更新されていませんが FEATURES などに変更があったため非常に多くの更新があったことがわかりますその日付も合わせてわかります解答解説 2 課題 1 の手順で pannexin のところを FOXP2 に変えて同じ事を実行してみてください原文更新日 : 2005 年 2 月 15 日日本語版更新日 : 2008 年 10 月 31 日