生物情報工学 BioInforma*cs 3 遺伝子データベース 17/10/17 1
国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日本 DNA データバンクが運営 ) RefSeq ( 重複のない 包括的データーベース NCBI が作成 ) n DDBJ/EMBL/GenBank 国際塩基配列データベース (INSDC) とは, 全世界の研究者が実験によって決定した DNA ( または RNA) の塩基配列データを,DDBJ/EMBL/ GenBank 国際 DNA データバンクが, 三者間で定めたデータ構築規範に沿って収集 編集し, コンピュータファイルのかたちで提供するもの
配列 立体構造データベースのデータ量の増加 ゲノムネットの HP より引用
遺伝子データベース n ポータルサイト ( 統合データベース ) GenomeNET( 京都大学化学研究所バイオインフォマティクスセンターにより運営 後述 ) hcp://www.genome.jp NCBI データベース Na,onal Center for Biotechnology Informa,on の提供する膨大なリソース hcp://www.ncbi.nlm.nih.gov/sites/gquery
ゲノムネットとは n ゲノムネットは ゲノム情報を基盤とした新しい生命科学研究と創薬 医療 環境保全への応用を推進するために 京都大学化学研究所バイオインフォマティクスセンターが提供するインターネットサービス n 1991 年 9 月に文部省ヒトゲノムプログラムの一環として 京都大学化学研究所で開発を開始 n 当初は欧米の分子生物学データベースを我が国でも統合利用できる環境作りに主眼 DBGET 等の開発 n 1995 年に生命システム情報統合データベース KEGG の構築を開始し KEGG の発展とともにゲノムネットは世界有数のバイオ情報サービスへと発展 n ( ゲノムネット HPより引用 )
ゲノムネットにアクセスする
KEGG の概要
KEGG の概要 n n KEGG は生命システムをコンピュータの中に再現した 生命システム情報統合データベース 遺伝子 タンパク質に関するゲノム情報 (KEGG GENES) 生体内外の化学物質と生体内反応に関するケミカル情報 (KEGG COMPOUND) 分子間相互作用 反応ネットワークに関するシステム情報 (KEGG PATHWAY) 分子 細胞 個体に関する様々なオブジェクトの階層と関係 (KEGG BRITE) などから構成 ゲノム情報と疾患との関係 医薬品の作用などに関するヘルス情報
遺伝子データベースをのぞいてみよう n n n まずはポータルサイトから今日紹介するのはゲノムネットのDBGET Search h<p://www.genome.jp/dbget/
puc18 の DNA 情報を調べる (1)
puc18 の DNA 情報を調べる (2)
puc18 の DNA 情報 テキスト保存しておく
NCBI database n PubMed( 先週学習した ) n Nucleotide Database (GenBank) n Protein Database n Genome Database n Taxonomy Database( 分類学情報データベース ) n SNP( 一塩基多型 ) データベース n など
NCBI database にアクセスする
演習 n n n ovalbumin の DNA データを入手する 卵白の主要タンパク質 NCBI database のサーチボックスに入力 検索
検索結果 1
検索結果 2 (PubMed)
検索結果 3 (Protein)
検索結果 4 (Structure)
演習 n n n ニワトリの ovalbumin 遺伝子を調べてみよう 塩基配列を含むデータを探し テキストファイルで保存する 来週 使用します
演習 (nucleo,de database を開く )
演習 ( キーワードを追加して絞り込む ) chicken
演習 (Advanced search を使う )
演習 (Fields を選択 )
演習 ( 生物種名の入力 )
演習 ( 生物種名の入力 )
演習 ( タンパク質名の入力 )
演習 ( タンパク質名の入力 )
演習 ( 検索結果の表示 )
演習データの見方 (1)
演習データの見方 (2)
演習データの見方 (3) ニワトリ ovalbumin をコードする遺伝子のエキソン イントロン構造 ATG( 開始コドン ) 終止コドン mrna タンパク質 ATG( 開始コドン ) 終止コドン 非翻訳領域 (untranslated region) を含む 5 UTR, 3 UTR エキソン :mrna として発現する領域 CDS: タンパク質のアミノ酸配列を指定している領域
演習データの見方 (4)
演習データの見方 (5)
演習データの見方 (6)
フォーマット変換をしてみよう (1) データベースの検索などで拾ってきた配列を plain text として表示させる時に便利 例えば.. ニワトリ ovalbumin 遺伝子の塩基配列をテキストとして保存する
フォーマット変換をしてみよう (2) 検索された配列を ただコピー / ペーストすると数字やスペースが入り込んでしまう そこで.. EMBOSS Seqret にアクセス ( リンク集にもある ) http://www.ebi.ac.uk/tools/sfc/emboss_seqret/ Plain text に変換してみよう
フォーマット変換をしてみよう (3) DNA に変える 塩基配列をペースト ( 数字やスペースはそのままでよい ) Plain text に変える
フォーマット変換をしてみよう (4) 数字やスペースが除かれたテキストが表示 この配列をテキスト保存しておきましょう
課題 ( 第 3 回講義課題 1) n ニワトリ ovalbumin のアミノ酸配列を Plain text として提出 EMBOSS Seqret を使う タンパク質の配列なので [Protein] を選択
課題 ( 第 3 回講義課題 2) n 大腸菌の RNA ポリメラーゼのサブユニットのアミノ酸配列を集めよ 大腸菌の RNA ポリメラーゼ α 2 ββ ω(+ σ ) 遺伝子名 rpoa: α サブユニット (329 aa.) rpob: β サブユニット (1342 aa.) rpoc: β サブユニット (1407 aa.) rpoz: ω サブユニット (91 aa.) complete cds. を探すこと par,al sequence ではない protein data base を検索する方が絞り込みが効果的 配列を整理して提出 ( フォーマット変換で書式を整える )
キーワードの代わりに配列で検索する n ニワトリの Ovalbumin に似たアミノ酸配列を持つタンパク質は人にも存在するの? Human, ovalbumin などのキーワードでデータベースを検索する ニワトリ ovalbumin のアミノ酸配列に似たヒトのタンパク質を検索する BLAST サーチ : 塩基配列やアミノ酸配列のデータベースを検索して 似た配列を持つ遺伝子やタンパク質を選抜することができる ( 芦苅先生の講義で詳細に説明される )
キーワードの代わりに配列で検索する NCBI- Blast を使う (hcp://blast.ncbi.nlm.nih.gov/blast.cgi) human genomic databaseへ human
キーワードの代わりに配列で検索する Blast 検索のページ (blastp に入る )
キーワードの代わりに配列で検索するニワトリ ovalbumin のアミノ酸配列をコピー 課題 1 のアミノ酸配列を使う
キーワードの代わりに配列で検索するデータベースを指定
キーワードの代わりに配列で検索する検索プログラムを指定
検索結果の表示 (1)
検索結果の表示 (2)
検索結果の表示 (3)
Ovalbumin に似たヒトのタンパク質
課題 ( 第 3 回講義課題 3) n 大腸菌の RNA ポリメラーゼ β サブユニットに似した配列を持つヒトのタンパク質は? 先ほど保存した rpob のテキストファイルを開き アミノ酸配列をコピーする NCBI- Blast へ さらに human genomic blast database に入り サーチボックスにペーストする Refseq protein (database), BLASTP (program) を選択し 検索開始 最もよく似たタンパク質の名称 サイズ ( アミノ酸数 ) アミノ酸配列を整理して提出 余裕があれば α, β サブユニットについても調べて 同時に提出