国内の主要なDBの使い方 (DDBJ, PDBj, KEGG)
|
|
|
- まいか にばし
- 7 years ago
- Views:
Transcription
1 統合データベース講習会 :AJACS 筑波 年 8 月 6 日 国内の主要な DB の使い方 (DDBJ, PDBj, KEGG) バイオサイエンスデータベースセンター (NBDC) 三橋信孝 1
2 注意点 参加人数が多いため サイトにつながりにくくなる ことが予想されます 資料を見ながら適当にタイミングをずらして実行してみてください. 反応が無くても, 何度もクリックすることはやめましょう ますます遅くなるだけです おおらかな気持ちで臨みましょう. わからないことがあったら, 講習会のスタッフに気軽に聞いてください. 2
3 DB やツールを使い倒そう : 統合 TV 統合 TV は 生命科学分野の有用なデータベースやウェブツールの活用法を動画で紹介するウェブサイトです 2007 年の開始から通算で 600 本以上の動画を制作公開しました 統合プロジェクトの講演動画 講習会動画もここから公開されています DBCLS のリサーチアシスタントが非常に大きな戦力です 3
4 代表的な生命科学関係のデータベース データベースの内容 DNA 塩基配列アミノ酸配列タンパク質立体構造アミノ酸配列ドメインアミノ酸配列モチーフパスウェイ遺伝病文献遺伝子発現 データベース例 GenBank, EMBL, DDBJ, UCSC Swiss-Prot, PIR, UniProt PDB, SCOP, CATH Pfam PROSITE, BLOCKS KEGG, Reactome OMIM MEDLINE GEO 4
5 生命科学データベース統合に関する調査研究 (H17~H19) 構築法から見たデータベースの分類 型 情報源の種類 処理方法 処理主体 データ形式 例 バンク型 測定器と登録者 不特定多数構造化 テキスト DDBJ プロジェクト型 測定器と実験者 特定人間 構造 Fantom, モデル生 物 DB プログラム型 データベースレコード 機械的処理 マシン構造 UniGene キュレーション型 データベースレコード 高度情報処理 特定人間構造 SCOP 知識モデル型 読み物 高度 情報処理 特定人間構造 KEGG 総説型 読み物 高度 情報処理 特定人間 構造化テキスト OMIM 5
6 本日紹介する DB DDBJ (DNA Data Bank of Japan) DNA 塩基配列を収集国立遺伝学研究所 DDBJセンター ( 静岡県三島市 ) PDBj (Protein Data Bank Japan) タンパク質の立体構造を収集大阪大学蛋白質研究所 KEGG (Kyoto Encyclopedia of Genes and Genomes) 生命情報をシステムとして表現京都大学化学研究所バイオインフォマティクスセンター 6
7 データバンク 全世界で解読された塩基配列 / 立体構造情報を 査定して受け入れデータベースに蓄積し公開して共有する DDBJ PDBj 中村保一 ( 国立遺伝学研究所 ) licensed under CC 表示 2.1 日本
8 遺伝子 立体構造の論文には登録が不可欠 論文投稿時の注意 : 論文の著者は 論文で言及した塩基配列や立体構造な どのデータについて インターネットで参照可能な公共データベースの登録番 号を掲載しなければならない PLoS Licensed Under CC Attribution 2.5
9 生命科学のデータベースの歴史 アミノ酸配列データベース 1968 年デイホフ Atlas of Protein Sequence and Structure 1980 年 NBRF データベース 1984 年 PIR (Protein Identification Resource) データベース 2005 年 UniProt (PIR+Swiss-Prot+TrEMBL) データベース塩基配列データベース 1982 年米国 DNA データベース GenBank ロスアラモス国立研究所 1982 年欧州 EMBL データベース欧州分子生物学研究所 1984 年日本 DDBJ(DNA Data Bank of Japan) 遺伝学研究所 1992 年 GenBank ロスアラモスから NCBI へ移管 1994 年 EMBL 本部から英国の EBI へ移転立体構造データベース 1971 年 Protein Data Bank (PDB) 米国ブルックヘブン国立研究所 1999 年 PDB Research Collaboratory for Structural Bioinformatics (RCSB) に移管文献データベース 1879 年 Index Medicus 創刊 1926 年 Biological Abstracts 米国フィラデルフィアの非営利組織 BIOSIS 1907 年 Chemical Abstracts 米国化学会 1971 年 MEDLINE オンラインサービス 1996 年 PubMed 公開 9
10 現在の塩基配列データの量 塩基数 :1,400 億 登録数 :1.5 億 中村保一 ( 国立遺伝学研究所 ) licensed under CC 表示 2.1 日本
11 世界中で進行するゲノム メタゲノムプロジェクト Genomes OnLine Database 11
12 転換期を迎える生命科学 生命科学の情報爆発 仮説検証型からデータ駆動型の科学への転換 データ, データベースを自由に使いこなす 情報学, 統計学, 数学, 計算機科学などの融合 データの統合による知識発見 12
13 DNA Data Bank of Japan 13
14 DDBJ は国際塩基配列データベースの一員 International Nucleotide Sequence Databank Collaboration (INSDC) 米国 :GenBank 欧州 :ENA 日本 :DDBJ ( 新型 )DNA シーケンサーで解読された DNA 塩基配列も収集 中村保一 ( 国立遺伝学研究所 ) licensed under CC 表示 2.1 日本
15 DDBJ 登録ファイルの例 LOCUS AB bp DNA linear BCT 02-SEP-2003 DEFINITION Gluconacetobacter xylinus cmcase, ccp genes for endo-beta-1,4-glucanase, cellulose complementing protein, complete cds. ACCESSION AB VERSION AB KEYWORDS. SOURCE Gluconacetobacter xylinus ORGANISM Gluconacetobacter xylinus Bacteria; Proteobacteria; Alphaproteobacteria; Rhodospirillales; Acetobacteraceae; Gluconacetobacter. REFERENCE 1 (bases 1 to 2109) AUTHORS Kawano,S., Tajima,K., Uemori,Y., Yamashita,H., Erata,T., Munekata,M. and Takai,M. TITLE Direct Submission JOURNAL Submitted (28-AUG-2002) to the DDBJ/EMBL/GenBank databases. Contact:Kenji Tajima Hokkaido University, Graduate School of Engineering; N13W8, Kita-ku, Sapporo, Hokkaido , Japan REFERENCE 2 AUTHORS Kawano,S., Tajima,K., Uemori,Y., Yamashita,H., Erata,T., Munekata,M. and Takai,M. TITLE Cloning of Cellulose Synthesis Related Genes from Acetobacter xylinum ATCC23769 and ATCC53582: Comparison of Cellulose Synthetic Ability Between ATCC23769 and ATCC53582 JOURNAL Unpublished (2002) COMMENT FEATURES Location/Qualifiers source /db_xref="taxon:28448" /mol_type="genomic DNA" /note="synonym:acetobacter xylinum" /organism="gluconacetobacter xylinus" /strain="atcc 53582" CDS /codon_start=1 /gene="cmcase" /product="endo-beta-1,4-glucanase" /protein_id="bac " /transl_table=11 /translation="msvmaamggaqvlsstgafadtapdavaqqwaifrakylrpsgr VVDTGNGGESHSEGQGYGMLFAASAGDLASFQSMWMWARTNLQHTNDKLFSWRFLKGH QPPVPDKNNATDGDLLIALALGRAGKRFQRPDYIQDAMAIYGDVLNLMTMKAGPYVVL MPGAVGFTKKDSVILNLSYYVMPSLLQAFDLTADPRWRQVMEDGIRLVSAGRFGQWRL PPDWLAVNRATGALSIASGWPPRFSYDAIRVPLYFYWAHMLAPNVLADFTRFWNNFGA NALPGWVDLTTGARSPYNAPPGYLAVAECTGLDSAGELPTLDHAPDYYSAALTLLVYI ARAEETIK" CDS /codon_start=1 /gene="ccp" /product="cellulose complementing protein" /protein_id="bac " /transl_table=11 /translation="msasgsdevagggqagspqdfqrvlrsfgveggqysyrpfvdrs FDVTGVPEAVERHFDQAEHDTAVEEQVTPAPQIAVAPPPPPVVPDPPAIVTETAPPPP VVVSAPVTYEPPAAAVPAEPPVQEAPVQAAPVPPAPVPPIAEQAPPAAPDPASVPYAN VAAAPVPPDPAPVTPAPQARVTGPNTRMVEPFSRPQVRTVQEGATPSRVPSRSMNAFP RTSASSISERPVDRGVADEWSPVPKARLSPRERPRPGDLSFFFQGMRDTRDEKKFFPV ASTRSVRSNVSRMTSMTKTDTNSSQASRPGSPVASPDGSPTMAEVFMTLGGRATELLS PRPSLREALLRRRENEEES" BASE COUNT 343 a 661 c 661 g 444 t ORIGIN 1 cgttccttta tgtcggtcat ggcggcgatg ggaggggcgc aggtgctttc atccaccggt 61 gcgttcgcag acaccgcccc cgatgcggtc gcgcagcaat gggccatctt ccgcgccaag 121 tatcttcgtc ccagcggacg tgtcgtggat acgggcaatg gtggcgaatc ccatagtgag 181 gggcagggct atggcatgct ctttgccgcg tcggcggggg accttgcgtc gttccagtcg 241 atgtggatgt gggcgcgcac caacctgcag cataccaatg acaagctgtt ttcctggcgg 301 ttcctcaagg ggcatcagcc cccggtgccc gacaagaaca atgccacaga tggcgacctg 361 ctgatcgcgc ttgcgcttgg tcgtgcgggc aagcgtttcc agcgccccga ttacattcag 421 gacgccatgg ccatttatgg cgatgtgctg aacctgatga cgatgaaggc gggaccgtat 481 gtcgtcctca tgcccggtgc tgtcggcttt accaagaagg acagcgtgat cctcaacctg 541 tcctattacg tcatgccctc gctgctgcag gcgttcgacc ttacggccga cccgcgctgg 601 cgtcaggtga tggaagacgg gattcgcctt gtttccgccg gccgtttcgg gcagtggcgc 661 ctgccccccg actggctggc ggtgaatcgc gccaccggtg cgctgtcgat cgcatcggga 721 tggccgccgc gcttttccta tgatgcgatt cgggtgccgc tttattttta ttgggcgcat 781 atgctggcgc cgaacgtgtt ggctgatttc acccgattct ggaataattt cggggctaat 841 gccctgccag gatgggttga tctgacaaca ggggcgcgtt cgccgtacaa cgccccgcct 901 ggatatcttg ctgttgccga atgcacgggg cttgattctg ccggggaact cccgacactg 961 gatcatgcgc ccgattatta ttccgcagcg ttgacgctgc tcgtttacat cgcgcgggcg 1021 gaggagacta taaagtgagt gcttcagggt ctgatgaggt ggctggggga gggcaggctg 1081 gaagtccgca ggattttcag cgggtcctgc gttcttttgg tgtcgaaggt gggcagtatt 1141 cctaccggcc gtttgttgac cgttcctttg atgtgacagg cgtgcccgag gctgttgaaa 1201 ggcacttcga tcaggcggag catgacacgg cggttgagga gcaggtcact cccgcgccac 1261 aaatcgcggt cgcaccgcca ccgccgccag tcgttcctga cccgcccgcc atcgtgacgg 1321 aaaccgcgcc cccgccgcct gtcgtggtca gcgctccggt cacgtatgaa cccccggctg 1381 ccgccgtgcc ggcagagcct cccgttcagg aagcccccgt gcaggcggcg ccggttcccc 1441 ccgcgcctgt gcccccgatt gcggagcagg ctcctcccgc ggcgccggac ccggcatccg 1501 tgccgtatgc gaacgtcgcg gcagcacccg ttccacctga tcccgcaccg gttacgcctg 1561 cgccgcaggc gcgcgtgacg gggccgaaca cccgtatggt ggagcccttt tcccgcccgc 1621 aggtccgcac ggtgcaggag ggggcaaccc cgtcacgtgt accttcgcgt tcaatgaacg 1681 ctttcccccg cacatcagca tcgtccataa gtgagcgtcc ggtggacagg ggtgttgccg 1741 atgaatggag tcctgttccg aaggcacgcc tcagcccgcg ggagcgtccg cgtcccggcg 1801 atctgagctt tttctttcag gggatgcgcg acacccgtga tgaaaagaag ttctttcccg 1861 tggcgtccac gcgatcagtt cgttctaatg tttccaggat gaccagcatg accaagacag 1921 acacgaattc ctctcaggct tctcgtcccg gcagccccgt cgcctcgcct gatgggtcgc 1981 ccacaatggc cgaagtgttc atgacgctgg gtggtcgtgc gacggaactc ctcagccccc 2041 gtccttcgct gcgggaggcg ctgttgcgtc gtcgtgaaaa cgaagaagaa tcctaaggcc 2101 ctatattca // 15
16 DDBJ の塩基配列の登録について 16
17 アクセション番号のプレフィックスの意味 17
18 DDBJ のデータ公開形式 (flat file) の説明 18
19 DDBJ データベースを検索してみましょう 19
20 実習 1 DDBJデータベースを ARSA という キーワード検索ツールで検索してみましょう 例としてヨーロッパブドウ ( ヴィニフェラ種 Vitis Vinifera) の全ゲノムエントリを検索してみます DDBJ にアクセスするには DDBJ で検索 もしくは を直接入力 20
21 DDBJ トップページ 21
22 getentry: アクセッション番号等によるエントリ検索 22
23 getentry を webapi で利用する URL に検索したい ID を指定するだけ データベース名 / アクセッション番号 塩基配列を fasta 形式で取得 複数アクセションの取得 たくさんのファイルを圧縮ファイルとして取得 AK378194?filetype=gz 23
24 DDBJ トップページ 24
25 ARSA: DDBJ の全文検索 vitis vinifera のゲノム配列を検索で取得してみましょう 検索結果 : ヒット数が多すぎるので絞り込みが必要 ( 件だから ) 詳細検索 (Advanced Search) へ 25
26 いくつかの特徴で絞り込み 26
27 検索結果 FN をクリックすると 1 番染色体ゲノムエントリを表示 チェックを入れて Download をクリックするとエントリ 配列をダウンロード可能 27
28 実習 2 同じ検索をNCBI の検索システム Entrez で実行してみましょう 例として vitis vinifera の全ゲノムエントリを検索してみます NCBI Entrez にアクセスするには Entrez で検索 もしくは を入力 28
29 Vitis Vinifera で検索 文献 塩基配列 EST アミノ酸配列 ゲノム配列 立体構造 29
30 ヨーロッパブドウ ( ビニフェラ種 ) ゲノムページ 30
31 アセンブル結果 31
32 豊富なリンクとツール群 塩基配列 BLAST による類似性検索 プライマー設計ツール 文献へのリンク 32
33 配列を取得したあとの解析例 blast 等の配列類似性検索を実行して類似の配列を収集する primer3 等で配列をクローニングするためのプライマを設計する clustalw 等でマルチプルアラインメントを作成し配列の共通部分や進化関係を調べる interproscan 等でモチーフ構造を調べる swiss-model 等で立体構造を予測する 33
34 統合 TV: ここまでの参考動画 DDBJ DDBJ のサービス紹介 NCBI Entrezを使って配列を検索する ~ ヒトのheat shock factor のアミノ酸配列を得る 遺伝子のRefSeq IDを調べる 2011 NCBI BioProjectの使い方 EBI Biomart v0.8 を使って ID から遺伝子情報を取得する 34
35 データを扱う際の注意点 35
36 Strange things in the Refseq / nrdb protain (183) < protein imilar to (28) < similar to simila to (22) < similar to cromosome (4) < chromosome RNA olymerase < RNA polymerase dehydrogenas, ehydrogenase transposas, ransposase 現状 ヘンなアノテーションが頻出してます 中村保一 ( 国立遺伝学研究所 ) licensed under CC 表示 2.1 日本
37 Identifier mutation by Excel 37
38 Identifier mutation by Excel 38
39 SEPT2 2-Sep case in Refseq LOCUS XM_ bp mrna linear INV 12-APR-2011 DEFINITION PREDICTED: Apis mellifera septin-2 (2-Sep), mrna. ACCESSION XM_ VERSION XM_ GI: KEYWORDS. SOURCE Apis mellifera (honey bee) ORGANISM Apis mellifera Eukaryota; Metazoa; Arthropoda; Hexapoda; Insecta; Pterygota; Neoptera; Endopterygota; Hymenoptera; Apocrita; Aculeata; Apoidea; Apidae; Apis. COMMENT MODEL REFSEQ: This record is predicted by automated computational analysis. This record is derived from a genomic sequence (NW_ ) annotated using gene prediction method: GNOMON, supported by EST evidence. Also see: Documentation of NCBI's Annotation Process septin-2 は SEPT2 と記述されるはず が Excel の自動変換機能により 2-Sep と記載されてしまった On Apr 12, 2011 this sequence version replaced gi: FEATURES Location/Qualifiers source /organism="apis mellifera" /mol_type="mrna" /strain="dh4" /db_xref="taxon:7460" /linkage_group="lg6" gene /gene="2-sep" /note="derived by automated computational analysis using gene prediction method: GNOMON. Supporting evidence includes similarity to: 436 ESTs, 11 Proteins" /db_xref="beebase:gb17411" /db_xref="geneid:408882" misc_feature /gene="2-sep" /note="upstream in-frame stop codon" CDS /gene="2-sep" /codon_start=1 /product="septin-2" /protein_id="xp_ " 教訓 1: DB のアノテーションを過信してはいけない 教訓 2: Excel を使うときには自動変換に注意 2012 中村保一 ( 国立遺伝学研究所 ) licensed under CC 表示 2.1 日本 39
40 新型シーケンサからのデータ 40
41 Sequence Read Archive Roche 454 GS System, Illumina Genome Analyzer, Applied Biosystems SOLiD System などの次世代シーク エンサからの出力データのためのデータベース DDBJ:DRA NCBI:SRA EBI:ERA 41
42 DRA については次の講習で詳しく解説 DDBJ パイプラインと DBCLS Galaxy の紹介 : 河野信 ( ライフサイエンス統合データベースセンター ) DRA Search データ構造 登録されているデータ構造は少々複雑 DRA のページでは 日本語 での詳しい説明がある 42
43 SRAs: Survey of Read Archives SRA/DRA に登録されているデータ をメタデータで整理 生物種解析プラットフォームキーワード などで検索可能 43
44 SRAs: Survey of Read Archives 統計値から分類をたどってデータにアクセスすることも可能 44
45 鎖鋸 (kusarinoko) 論文が出ている SRA/DRA エントリのまとめ 論文が出ているということは 査読を経ているので 一定のデータの質は担保されている ( はず ) 45
46 鎖鋸 (kusarinoko) 独自に FastQC をかけてそれぞれのデータの質を評価 46
47 Protein Data Bank Japan 47
48 PDB について 主にタンパク質 核酸の立体構造データを集めた データバンク 現在のエントリ数は約 83,400 ひとつのタンパク質でも, リガンドの有無や配列の改変などの違いによって, 複数のエントリが登録されていることがある Cellulose synthase operon protein D セロペンタオース 3aj1 タグがN 末かC 末か 3aj2 3a8e 工藤高裕 ( 大阪大学蛋白質研究所 ) licensed under CC 表示 2.1 日本
49 PDBj は世界蛋白質構造データバンクの一員 Worldwide Protein Data Bank (wwpdb) 米国 :RCSB-PDB (Research Collaboratory for Structural Bioinformatics) 欧州 :PDBe 日本 :PDBj 米国 :BMRB (Biological Magnetic Resonance Data Bank) X 線結晶解析, NMR, 電子顕微鏡を使った 実 験 にもとづいて決定された構造を収集 工藤高裕 ( 大阪大学蛋白質研究所 ) licensed under CC 表示 2.1 日本
50 PDB のデータ形式 3 極で提供 PDBj 独自で提供 mmcif: macromolecular Crystallographic Information File RDF: Resource Description Framework 工藤高裕 ( 大阪大学蛋白質研究所 ) licensed under CC 表示 2.1 日本
51 PDB ファイルの例 メタデータ 座標情報 51
52 実習 3 PDBj の検索サービス PDBj Mine で α アミラーゼ を検索してみましょう 同一 ID の PDB データは 3 極どこで見ても同じ ただし PDBj だと日本語でも検索可能 PDBj にアクセスするには PDBj で検索 もしくは を直接入力 52
53 PDBj トップページ 53
54 PDBj Mine 検索結果 個別エントリページへ 実際に検索に使われた文字列 ( 英語に自動変換して検索 ) 54
55 PDBj エントリページ 配列の表示 PDB ファイルのダウンロード マウスで動かせる画像を表示 JAVA の拡張機能を使っているため ビューアが起動する前に色々聞いてきます実行もしくは許可することによって 画像を表示できるようになりますインストールされている JAVA のバージョンによってはうまく表示できない場合があります 55
56 jv4 での表示 マウスでドラッグすることで 立体構造をあらゆる角度から見ることができるホイールもしくは SHIFT キーを押しながら上下にドラッグすることで拡大縮小スタイルや表示する色も変更可能 56
57 JMol で見る AMARANTH ALPHA- AMYLASE INHIBITOR 57
58 構造情報ページ タンパク質 2 分子非タンパク質 2 分子水 273 分子が登録されている 二次構造 ジスルフィド結合 結合部位情報など 58
59 実験情報ページ PDBj が文献から抽出した独自の情報 (3 極共通の PDB には入っていない ) 59
60 機能情報のページ 60
61 相同蛋白質のページ 配列が似ている PDB エントリを検索する タンパク質が複数あるエントリでは どのタンパク質を対象とするか選択する 立体構造を重ねあわせて表示することが可能 61
62 相同蛋白質のページ ここが違う 62
63 ダウンロード / 画面表示のページ PDB 形式 mmcif 形式 XML 形式 それぞれのテキストファイルを表示 もしくはデータのダウンロードが可能 圧縮非圧縮メタデータのみ ( 原子座標なし ) メタデータのみメタデータのみ (PDBj 独自 ) 原子座標データのみ ( メタデータなし ) RDF 形式データ (PDBj 独自 ) 63
64 立体構造を取得したあとの解析例 PyMol, Chimera 等で立体構造を描画する DALI, MATRAS 等で立体構造を比較する SURFNET 等でタンパク質表面のポケット ( 化合物が 結合しやすい ) を検出する DelPhi 等でタンパク質の表面電荷を計算する UCSF DOCK, AutoDock 等で化合物とのドッキン グシミュレーションを行う 64
65 統合 TV: ここまでの参考動画 PDBj PDBj Mineを使ってタンパク質を検索する 万見 (Yorodumi) の使い方 ~ 基本と連携 ~ RCSB PDBを使ってタンパク質の立体構造を調べる CueMol2でタンパク質の立体構造を見る 65
66 Kyoto Encyclopedia of Genes and Genomes 66
67 KEGG とは? 様々な種類のデータを 生命現象の総体 と して再構築 研究者の知識をゲノムレベルのデータと結びつける 時松敏明 ( 京都大学化学研究所 ) licensed under CC 表示 2.1 日本
68 KEGG トップページ KEGG はいろいろな DB の集合体システムの知識ゲノムの知識化合物の知識 68
69 ゲノムの知識データーベース ツール 69
70 ゲノムの知識データーベース ツール KEGG GENES ゲノムが解読された生物種の配列に対してKEGG 独自のアノテーションを付けたDB KEGG ORTHOLOGY (KO) 各生物のオーソログ ( 異なる生物に存在する相同な機能を持った遺伝子群 ) を集めたDB KAAS (KEGG automatic annotation server) 新規ゲノムに対して自動的にKOをアノテーション 70
71 演習 4 anthocyanidin で KEGG GENES を検索してみましょう PDBj とは異なり日本語 - 英語翻訳機能はありませんので英 語で入力します KEGG にアクセスするには KEGG で検索 もしくは を直接入力 そこから KEGG GENES をクリック 71
72 KEGG GENES 生物種リストの表示 ( 植物 ) 2 種類の検索モード bfind: キーワード検索 bget: KEGG GENES ID がわかっているとき 72
73 KEGG GENES 検索結果 73
74 KEGG ORTHOLOGY のエントリ 74
75 KAAS: 自動アノテーションツール 75
76 KAAS 入力と結果 マルチ FASTA ファイルを入力 >gi ref ZP_ hypothetical protein GXY_00005 [Gluconacetobacter hansenii ATCC 23769] MRWGLVMIQACMIVVLGKEIGHLSGSRDAAPAFGVW >gi ref ZP_ chaperone clpb [Gluconacetobacter hansenii ATCC 23769] MNIEKFTERSRGFLQAAQTIAMREYNQQLTPEHLLKALLDDDQGAASALIRAAGGQPPAIAAAVDTALAKLPKVQGGGAGQPSATPDLVRLLDAAEQAAQKAG DEYVAQDRLLAAIAASETPAGQALRAGGATPQALDKAIATIRKGRTVTSENAEASFDALKKYARDVTEIALQGKLDPVIGRDEEIRRAIQVLARRSKN >gi ref ZP_ hypothetical protein GXY_00019 [Gluconacetobacter hansenii ATCC 23769] MGAALIMITTLIAGYALCEWPPGEEVTPALMQIK TCA サイクル malate dehydrogenase が欠損 76
77 化合物の知識データーベース ツール 77
78 化合物の知識データベース ツール KEGG COMPOUND 主に代謝化合物を収録した DB KEGG REACTION 生体内反応のDB. これらをつなぎ合わせるとパスウェイになる KEGG LIGAND 化合物関係の DB を総称して LIGAND と呼んでいる 78
79 演習 5 KEGG LIGAND で anthocyanidin を検索してみ ましょう 79
80 KEGG LIGAND 検索結果 ヒット数が多いと検索結果が省略される display all をクリックすると全部表示される 80
81 KEGG COMPOUND のエントリ 81
82 KEGG REACTION のエントリ 82
83 KEGG ENZYME のエントリ 83
84 KEGG PATHWAY のエントリ 84
85 SIMCOMP/SUBCOMP 類似化合物の検索ツール 85
86 システムの知識データーベース ツール 86
87 システムの知識データベース ツール KEGG PATHWAY 代謝系, 制御系, 疾患などのネットワークを収集した DB Global Map 代謝系ネットワークを俯瞰する KEGG MAPPER それぞれの酵素や化合物の色を指定して表示 87
88 演習 6 KEGG PATHWAYで様々な生物種のパスウェイ, Global Mapを表示して, 使われているパスウェイの違いを見てみましょう 88
89 キーワード anthocyanidin で検索 89
90 KEGG PATHWAY MAP 他のパスウェイ 酵素 化合物 90
91 KEGG PATHWAY MAP この生物がもつ酵素 91
92 Global Map 92
93 Global Map (Homo sapiens) 93
94 Global Map (Vitis Vinifera) この辺りにアントシアニン合成系がある 94
95 演習 7 KEGG Mapper を使って パスウェイの色を変更 してみましょう 95
96 KEGG Mapper 2. 表示パスウェイを指定 1. 右クリックで保存 #hsa COSMIC hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: hsa: 保存したファイルを選択 4. File typeをnumerical value, log scaleに変更 96
97 KEGG Mapper の結果 指定した遺伝子が 数値の大きさによって色付けされる 97
98 統合 TV: ここまでの参考動画 KEGG KEGG GenomeNet のサービス 利用法 KEGG Atlas と KAAS アノテーション ~ KEGG にお ける最近の開発から 98
99 おわりに DDBJ, PDBj, KEGG 共に, 今回は時間の都合で 紹介できなかった機能がたくさんありますので ぜひ使ってみてください 99
国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日
生物情報工学 BioInforma*cs 3 遺伝子データベース 16/06/09 1 国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日本 DNA データバンクが運営
KEGG.ppt
1 2 3 4 KEGG: Kyoto Encyclopedia of Genes and Genomes http://www.genome.jp/kegg/kegg2.html http://www.genome.jp/kegg/kegg_ja.html 5 KEGG PATHWAY 生体内(外)の分子間ネットワーク図 代謝系 12カテゴリ 中間代謝 二次代謝 薬の 代謝 全体像 制御系 20カテゴリ
PowerPoint プレゼンテーション
2016 年 10 月 19 日 ( 水 ) バイオ情報解析演習 ウェブツールを活用した生物情報解析 (1) 配列と代謝経路の解析の基礎 有用物質生産菌を合理的に作ろう! 設計 試作 ベンチテスト 完成 プラスミド 効率的な代謝経路を設計する 文献調査代謝パスウェイの探索代謝シミュレーション 実際に微生物に組み込む データベースから有用遺伝子を探索する遺伝子組換え技術 培養をして問題点を突き止める
AJACS18_ ppt
1, 1, 1, 1, 1, 1,2, 1,2, 1 1 DDBJ 2 AJACS3 2010 6 414:20-15:20 2231 DDBJ DDBJ DDBJ DDBJ NCBI (GenBank) DDBJ EBI (EMBL-Bank) GEO DDBJ Omics ARchive(DOR) ArrayExpress DTA (DDBJ Trace Archive) DRA (DDBJ
ゲノム解析で活躍するコンピューター
ゲノム解析で活躍するコンピューター ゲノム情報のためのデータベースと遺伝子機能の解析 京都大学化学研究所バイオインフォマティクスセンター五斗進 科学カフェ京都第 62 回定例会京都大学 2010/4/10 1 本日お話する内容 ゲノムとゲノムプロジェクトについて ゲノムデータとデータベースについて ゲノムデータを使った解析について 遺伝子の機能を調べる 2 ゲノムとは ゲノム (Genome) Gene(
国立遺伝学研究所におけるDNAデータバンク:DDBJ
DNA DDBJ Introduction of the DNA Data Bank of Japan (DDBJ) DNA DDBJ DNA Data Bank of Japan 1986 DNA DDBJ GenBankEMBL 3 1984 19952001 4DDBJDDBJ DDBJ VPP5000 HPCDDBJ DNA DDBJ SE DDBJ Abstract The DNA Data
UniProt のトップページ
タンパク質配列のデータベース UniProt http://www.uniprot.org/ InterPro http://www.ebi.ac.uk/interpro/ UniProt のトップページ UniProt タンパク質の配列と機能に関する網羅的で高精度の情報を 無料で提供するデータベース 3 つのデータベースで構成されている UniProtKB (UniProt Knowledgebase)
この講義でやること PDBjのwebページの復習 webページのデータの元になっているデータ形 式の解説 上記の演習 2
新しいPDBデータの読み解き方 金城玲 大阪大学蛋白質研究所 & 日本蛋白質構造データバンク(PDBj) 204-0-0 PDBj講習会 仙台 この講義でやること PDBjのwebページの復習 webページのデータの元になっているデータ形 式の解説 上記の演習 2 PDBj PDBe RCSB PDB BMRB 3 PDBのやっていること 登録 日米欧で作業を分担 公開 データそのものは日米欧で同一
プレゼンテーション2.ppt
[email protected] BLAST Genome browser InterProScan PSORT DBTSS Seqlogo JASPAR Melina II Panther Babelomics +@ >cdna_test CCCCTGCCCTCAACAAGATGTTTTGCCAACTGGCCAAGACCTGCCCTGTGCAGCTGTGGGTTGATTCCAC ACCCCCGCCCGGCACCCGCGTCCGCGCCATGGCCATCTACAAGCAGTCACAGCACATGACGGAGGTTGTG
<4D F736F F D20838C837C815B836789DB91E890E096BE2E646F6378>
レポートについて 1. 課題 以下に記した手順に従って ヒトのヘモグロビンα 鎖タンパク質と酵素タンパク質 trypsin について その一次構造をタンパク質データベースにアクセスして調べ さらにその二次構造と三次構造を ProteinDataBank へアクセスして確認する 以上の経過と結果を いつ どこで調べたかを含めてその過程を記述し さらに検索結果である両タンパク質の一次構造 分子の形 (
NGSデータ解析入門Webセミナー
NGS データ解析入門 Web セミナー : RNA-Seq 解析編 1 RNA-Seq データ解析の手順 遺伝子発現量測定 シークエンス マッピング サンプル間比較 機能解析など 2 CLC Genomics Workbench 使用ツール シークエンスデータ メタデータのインポート NGS data import Import Metadata クオリティチェック Create Sequencing
生物物理 Vol. 45 No. 1 (2005) だけ正確なアラインメントが必要な方 (4) 立体構造とアミノ酸配列の関係, あるいは立体構造と機能との関係に興味がある方 2. おもなサービス 2.1 ペアワイズ3Dアラインメントこれは2つの構造をアラインメントする基本的な機能であり,MATRAS
生物物理 45(1),41-44(2005) 立体構造比較サーバ MATRAS の使い方 1. はじめに 奈良先端科学技術大学院大学情報科学研究科川端猛 あるタンパク質と似ている他のタンパク質を探したいとき, まず最初に試みるべきはアミノ酸配列の相同性検索であろう. しかし, 同じファミリーのタンパク質の中でも, アミノ酸配列の一致度が低くなってくると, 配列の類似性だけで議論するのには限界が出てくる.
Microsoft PowerPoint - 8_TS-0894(TaqMan_SNPGenotypingAssays_製品情報及び検索方法再修正.pptx
Applied Biosystems TaqMan SNP Genotyping Assays インターネット検索方法 2010/04/23 目次 TaqMan SNP Genotyping Assays の概要 --------------- 3 検索方法の流れ --------------- 4 TaqMan SNP Genotyping Assays 検索方法 ---------------
Microsoft PowerPoint - 3rd-jikken-vscreen [互換モード]
生命情報実験第一 ( 情報系 ) バイオインフォマティクスの道具箱 タンパク質化合物相互作用解析: バーチャルスクリーニング 慶應義塾大学生命情報学科榊原康文, 佐藤健吾 リード化合物探索とインフォマティクス High Throughput Screening 実験的検証 リード化合物 = 薬剤候補 薬剤標的タンパク質 初期候補 実験的検証 + インフォマティクス 1. 大量化合物の探索 2. 成功率向上
Bioinformatics2
バイオインフォマティクス配列データ解析 2 藤 博幸 データベース検索 (1) ブラウザで NCBI を検索 (2)NCBI で配列データの取得 (3)NCBI で BLAST 検索 ブラウザで NCBI を検索 ブラウザで NCBI を検索 クリック ブラウザで NCBI を検索 NCBI トップページ National Center for Biotechnology Information 分
GWB
NGS データ解析入門 Web セミナー : De Novo シークエンス解析編 1 NGS 新規ゲノム配列解析の手順 シークエンス 遺伝子領域の検出 アセンブル データベース検索 2 解析ワークフローと使用ソフトウェア シークエンスデータのインポート クオリティチェック 前処理 コンティグ配列の作成 CLC Genomics Workbench 遺伝子領域の検出 Blast2GO PRO データベース検索
Microsoft PowerPoint - 阿部貴志.ppt
微生物ゲノムの共通プロトコルによる 遺伝子配列情報の提供 国立遺伝学研究所生命情報 DDBJ 研究センター阿部貴志 http://gtps.ddbj.nig.ac.jp/ DNA Data Bank of Japan International Nucleotide Sequence Database Collaboration (INSDC) (DDBJ) Growth of the International
Microsoft PowerPoint - プレシジョン創薬概論 P_ex_velvet.PPT
プレシジョン創薬概論第 4 回 2019/05/13 オミクス 医療情報の統計 情報学的解析法 医薬保健研究域薬学系活性相関物理化学 髙橋広夫 授業計画 Ensembl を使った遺伝情報の取得 (5/13) UniProt を用いた配列情報取得や解析 (5/13) DDBJ を用いた解析 (5/13) velvet を用いた de novo assembly (for Windows) (5/13)
NGSハンズオン講習会
207.08.08 版 プラスアルファの内容です NGS 解析 ( 初 ~ 中級 ) ゲノムアセンブリ後の各種解析の補足資料 ( プラスアルファ ) 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム寺田朋子 門田幸二 Aug 29-30 207 Contents Gepard でドットプロット 連載第 8 回 W5-3 で最も長い sequence 同士のドットプロットを実行できなかったが
計算機生命科学の基礎II_
Ⅱ 1.4 [email protected] 812-8582 3-1-1 8 806 http://www.cell-innovator.com BioGPS Connectivity Map The Cancer Genome Atlas (TCGA); cbioportal GO DAVID, GSEA WCGNA BioGPS http://biogps.org/
Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]
遺伝子配列解析の基礎 genome=gene+ome DNA 配列からタンパク質へ cgtgctttccacgacggtgacacgcttccctggattggccagactgccttccgggtcactgccatggaggagccgcagtcagatcctagcgtcgagccccctctga gtcaggaaacattttcagacctatggaaactacttcctgaaaacaacgttctgtcccccttgccgtcccaagcaatggatgatttgatgctgtccccggacgatattga
thermofisher.com mirVana miRNA mimics/inhibitors 検索マニュアル
thermofisher.com mirvana mirna mimics/inhibitors 検索マニュアル 2018 年 10 月版 The world leader in serving science mirna mimics/inhibitors 製品ラインナップ mirna mimics / inhibitors の製品ライナップ : Mimics : Gain-of-function
Microsoft PowerPoint - PSSJ_2019神戸(栗栖)
PDBj と wwpdb の今後の活動方針について (Activity plan of PDBj and wwpdb) 栗栖源嗣 (Genji Kurisu) 大阪大学蛋白質研究所 (Institute for Protein Research, Osaka Univ.) wwpdb.org 1 生体高分子の 3 次元構造に関する情報を集めた世界に一つのデータベース 1971 年からのデータが集積され,
MolDesk Basic Ver を使用
株式会社バイオモデリングリサーチ チュートリアル マニュアルドッキング MolDesk Basic Ver. 1.1.54 を使用株式会社バイオモデリングリサーチ 2018/08/30 本チュートリアルでは MolDesk Basic を用いて マニュアルでリガンドを配置する方法につい て説明します 目次 1. 本チュートリアルの概要... 1 2. マニュアルドッキング... 2 2.1. 分子の読み込み...
PrimerArray® Analysis Tool Ver.2.2
研究用 PrimerArray Analysis Tool Ver.2.2 説明書 v201801 PrimerArray Analysis Tool Ver.2.2 は PrimerArray( 製品コード PH001 ~ PH007 PH009 ~ PH015 PN001 ~ PN015) で得られたデータを解析するためのツールで コントロールサンプルと 1 種類の未知サンプル間の比較が可能です
1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ (http://www.megasoftware.net/index.php) から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E
MEGA 5 を用いた塩基配列解析法および分子系統樹作成法 Ver.1 Update: 2012.04.01 ウイルス 疫学研究領域井関博 < 内容 > 1. MEGA 5 をインストールする 1.1 ダウンロード手順 2. 塩基配列を決定する 2.1 Alignment Explorer の起動 2.2 シークエンスデータの入力 2.2.1 テキストファイルから読み込む場合 2.2.2 波形データから読み込む場合
バクテリアゲノム解析
GCCGTAGCTACCTTTACAATA GCCGTAGCT AGCTACC GCTACCTTT CCTTTAC CTTTACAATA GCCG CCGT CGTA GTAG TAGC AGCT AGCT GCTA CTAC TACC GCTA CTAC TACC ACCT CCTT CTTT CCTT CTTT TTTA TTAC CTTT TTTA TTAC TACA ACAA CAAT AATA
thermofisher.com Silencer Select pre-designed / validated siRNA 検索マニュアル
thermofisher.com Silencer Select pre-designed / validated sirna 検索マニュアル 2018 年 10 月版 The world leader in serving science Silencer Select sirna の保証内容 Silencer Select predesigned sirna: 同一ターゲット遺伝子に対する 2
トーゴーの日シンポジウム 2016 東大弥生講堂, 5 October 2016 生命科学におけるデータサイエンスの課題と PDB 中村春木 大阪大学蛋白質研究所
トーゴーの日シンポジウム 2016 東大弥生講堂, 5 October 2016 生命科学におけるデータサイエンスの課題と PDB 中村春木 大阪大学蛋白質研究所 [email protected] http://pdbj.org/, http://wwpdb.org/ , Sir Isaac Newton (1642-1727) 3 11.3 PF ( 理化学研究所計算科学研究機構ホームページから
[Business Communication]
相互作用ネットワーク パスウェイが さくさく書けるフリーツールの紹介 バイオメディシナル情報統合チーム長井陽子 平成 23 年度第 4 回データベース講習会創薬研究における統合データベースの活用 2012/3/16 分子生物学的な知識の増加 1 つの分子でも様々な機能的役割を担っている 分子間の相互作用や因果関係は複雑で膨大である 大規模なデータの管理や知識の整理に視覚化ツールを活用することができる
7-1(DNA配列から遺伝子を探す).ppt
DNA 配列の中から遺伝子を探す Blast 解析.6 Query DNA 塩基配列アミノ酸配列 DNA 塩基配列をアミノ酸配列に変換アミノ酸配列 DNA 塩基配列をアミノ酸配列に変換 データベース DNA 塩基配列アミノ酸配列アミノ酸配列 DNA 塩基配列をアミノ酸配列に変換 DNA 塩基配列をアミノ酸配列に変換 1. 2. 3. TATGGCTTA---- T G L TATGGCTTA----
Microsoft PowerPoint - Ion Reporter?ソフトウェアを用いた変異解析4.6.pptx
Ion Reporter ソフトウェアデモンストレーション Ion AmpliSeq Comprehensive Cancer Panel を用いたがん部および非がん部の体細胞変異比較解析 1 Ion Torrent システムを用いた実験例 Ion AmpliSeq Comprehensive Cancer Panel を 2 サンプル実施 ランレポート ランレポート サンプル 1 サンプル 2 2
Structure クイックスタート このミニコースでは NCBI から提供されている Cn3D を用いてどのようにタンパク質の立体構造を可視化や注釈付けを行うか さらにはタンパク質内で保存されているドメインの確認の方法 同様のドメインを持っている他のタンパク質の探索方法 3D モデリングのテンプレートとなるタンパク質の見つけ方 BLAST では認識できないような非常に離れたホモログの検出方法について学びます
ウェブサービスとは WWWを介してデータの取得 解析などをサー バ側で行うサービス 人が直接使うことは意図されていない プログラム等を使って大量に処理できる(単純) 作業を意図している SOAP, REST
PDBj のウェブサービス 金城 玲 大阪大学蛋白質研究所 日本蛋白質構造データバンク PDBj ウェブサービスとは WWWを介してデータの取得 解析などをサー バ側で行うサービス 人が直接使うことは意図されていない プログラム等を使って大量に処理できる(単純) 作業を意図している SOAP, REST PDBjの提供するウェブサービス 大きく分けて2種類 PDBデータの取得 検索用のRESTfulウェブサービ
Slide 1
MEGA5 と Perl を用いた 分子進化解析の基礎 野澤昌文 2012 年 1 月 16 日基礎生物学研究所 ハンズオンセミナー 1 分子進化研究における一般的手法 相同な配列の比較 塩基配列 配列名塩基配列 A A T G G T A C A C B A T G A T A C A C C A T G G T A C A T アミノ酸配列 配列名 アミノ酸配列 A Met Val His B
シーケンサー利用技術講習会 第10回 サンプルQC、RNAseqライブラリー作製/データ解析実習講習会
シーケンサー利用技術講習会 第 10 回サンプル QC RNAseq ライブ ラリー作製 / データ解析実習講習会 理化学研究所ライフサイエンス技術基盤研究センターゲノムネットワーク解析支援施設田上道平 次世代シーケンサー Sequencer File Format Output(Max) Read length Illumina Hiseq2500 Fastq 600 Gb 100 bp Life
スライド 0
第 3 章さまざまな情報を取り込むテキストファイル形式の住所録や写真や GPS ログ等を取り込みます 3-1 テキスト情報の取込み テキスト情報の取り込みとは CSV 形式 またはテキスト形式で顧客管理 販売管理 年賀状ソフトなど他のアプリケーションから出力された情報をスーパーマップル デジタル上にカスタム情報として取り込むことができます 参考 一度に取り込めるデータは データ内容の容量と機種の能力によりますが
FMO法演習
FMO 法は受容体蛋白質とリガンドとの相互作用の解析に有効な手法である この相互作用エネルギーは非経験的電子軌道法近似の精度をもち また 相互作用エネルギーを各エネルギー要素に分解できる 創薬 には 様々なレベルの開発手法が必要であるが その一つの段階として 標的蛋白質と設計 合成された薬物の相互作用エネルギーを解析する事は有用である 薬物開発における FMO 法の利用方法を実習する FMO 法は京都大学薬学研究科の北浦和夫博士が発明した
Microsoft Word - Comtxt05.doc
Ⅶ データベース Ⅶ-1.データベースの 定 義 コンピュータで 情 報 処 理 を 行 いやすいように 体 系 的 に 整 理 蓄 積 し 統 合 化 されたデータの 集 合 体 のこと 一 般 にデータベースは 利 用 者 が データを 共 有 して 利 用 するため データベース 管 理 システム(DBMS) と 呼 ばれるソフトウェアによって 管 理 されている DBMSは コンピュータが
リード・ゲノム・アノテーションインポート
リード ゲノム アノテーションインポート 1 Location と Folder ロケーション フォルダ Genomics Workbenchではデータを以下のような階層構造で保存可能です フォルダの一番上位の階層を Location と呼び その下の階層を Folder と呼びます データの保存場所はロケーション毎に設定可能です たとえばあるデータは C ドライブに保存し あるデータは D ドライブに保存するといった事が可能です
Microsoft PowerPoint - BI_okuno_
バイオインフォマティクス ( 配列検索 ) & ケモインフォマティクス ( 構造検索 ) 統合薬学教育開発分野 奥野恭史 創薬におけるインフォマティクス ゲノム情報 ゲノム基盤ターゲット研究探索 ターゲット バリデーション 創薬リード探索 創薬リード最適化 前臨床研究臨床研究 創薬 ゲノム情報 (~2 万 2 千遺伝子 ) 化合物ライブラリー (10^60 化合物 ) バイオインフォマティクス ケモインフォマティクス
Microsoft Word - MacVector_Align_OP.doc
MacVector 基本操作 ( マルチプルアラインメント ) MacVector でマルチプルアラインメントをするために必要な操作の一部を紹介いたしす マルチプルアラインメントに関しての主要な操作は下記のものです A. 配列情報のファイルの入手 B. 配列情報ファイルの作成 ( 新規 ) C. マルチプルアラインメント D. 系統樹の作成 まず MacVector を起動してください ( 注意!MacVector
