<4D F736F F F696E74202D F90B695A8947A97F189F090CD8AEE91625F3189F196DA5F8E9197BF2E >

Similar documents
<4D F736F F F696E74202D F90B695A8947A97F189F090CD8AEE91625F3189F196DA5F8E9197BF2E >


配列検索 よくあるご質問

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

Bioinformatics2

Nakamura

A Constructive Approach to Gene Expression Dynamics

国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日


Microsoft PowerPoint - lecture a.pptx

Microsoft PowerPoint - BI_okuno_

AJACS_komachi.key

第4回バイオインフォマティクスアルゴリズム実習

Microsoft PowerPoint - lecture a.pptx

生命情報学

GWB

分子系統解析における様々な問題について 田辺晶史

> >TPIS_ECOLI [P04790] "Triosephosphate isomerase (EC ) (TIM) MRHPLVMGNWKLNGSRHMVHELVSNLRKELAGVAGCAVAIAPPEMYIDMAKREAEGSHIM LGAQNVDLNLSGAFTGETSA

生命情報学

相同性配列検索ツール:GHOST-MPと ヒト口腔内メタゲノム解析

1. MEGA 5 をインストールする 1.1 ダウンロード手順 MEGA のホームページ ( から MEGA 5 software をコンピュータにインストールする 2. 塩基配列を決定する 2.1 Alignment E

PowerPoint プレゼンテーション


PowerPoint Presentation

KEGG.ppt

Slide 1

Microsoft PowerPoint _生物配列解析基礎_3回目.pptx

7-1(DNA配列から遺伝子を探す).ppt

1_alignment.ppt

アルゴリズム入門

バイオインフォマティクスⅠ

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

Microsoft Word - 基礎編<20>siRNA設計.doc

基本的な利用法

nagasaki_GMT2015_key09

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

GWB

Microsoft PowerPoint - プレシジョン創薬概論 P_ex_velvet.PPT

生物物理 Vol. 45 No. 1 (2005) だけ正確なアラインメントが必要な方 (4) 立体構造とアミノ酸配列の関係, あるいは立体構造と機能との関係に興味がある方 2. おもなサービス 2.1 ペアワイズ3Dアラインメントこれは2つの構造をアラインメントする基本的な機能であり,MATRAS

バイオインフォマティクスⅠ

5_motif 公開版.ppt

Microsoft PowerPoint - 阿部貴志.ppt

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View( でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー

橡PNE記事補足

ver

Word ›žŠpŁÒ-flO“Z

人工知能補足_池村

Microsoft Word - MacVector_Align_OP.doc

ChIP-seq

Nov12_2009.pptx

第2章 生物有機化学実験及び実験法

取扱説明書 [F-08D]

分子系統解析における様々な問題について 田辺晶史

プレゼンテーション2.ppt

多重配列アラインメント 最近のソフトウェアについて た. 計算時間は数分程度である. また, 類似性の高い入力配列に限定すれば, 計算量は配列の長さの 1 乗に比例する. そのため Pfam や ASTRAL など大量のアラインメントを実行する必要のあるプロジェクトで TCoffee などとともに使

OECD QSAR Toolbox活用マニュアルv1.0

GeneWebⅡ利用の手引き

Microsoft Word - MTransㇹㇿㅼㅋ㇬㇤ㅛ+丕苬ㅦㅼㇶㅼ咂ㆂ;_ver1.7_original.docx

Microsoft PowerPoint - 8_TS-0894(TaqMan_SNPGenotypingAssays_製品情報及び検索方法再修正.pptx

バイオインフォマティクス技術者認定 試験について 試験日 : 平成 21 年 11 月 29 日 ( 日 ) 申込期間 : 平成 21 年 9 月 1 日 ( 火 )~10 月 15 日 ( 木 ) 試験会場 : 全国 6 都市 ( 札幌 仙台 東京 長浜 大阪 福岡 ) 試験方法 : 分子生物学

プレゼンテーション3

PowerPoint プレゼンテーション

タイトル

PowerPoint プレゼンテーション

PowerPoint Presentation

10D16.dvi

進捗状況の確認 1. gj も gjp も動いた 2. gj は動いた 3. gj も動かない 2

11yama

「組換えDNA技術応用食品及び添加物の安全性審査の手続」の一部改正について

分子系統樹作成方法

分子系統樹推定の落とし穴と回避法 筑波大 生命環境 田辺晶史

グーグル検索マクロの使い方

基本的な利用法

コンピュータリテラシ 第 6 回表計算 2 このスライド 例題 /reidai6.xlsx /reidai6a.xlsx 課題 12 /reidai6b.xlsx /table12_13.xlsx

国立遺伝学研究所におけるDNAデータバンク:DDBJ

NGSデータ解析入門Webセミナー

変更履歴 版数変更日変更内容 /9/1 初版設定

Excel データ出力ガイドブック 第 1.0 版平成 30 年 9 月 1 日制定 株式会社中電シーティーアイ

<4D F736F F D20838C837C815B836789DB91E890E096BE2E646F6378>

<4D F736F F F696E74202D2090B696BD979D8D488A778EC08CB F31947A957A8E9197BF205B8CDD8AB B83685D>

配列アラインメント Sequence alignment

GeneWebⅡ利用の手引き

【操作 マニュアル】

正誤表(FPT1004)

別添 2 SQL インジェクション ぜい弱性診断で最低限行うべき項目 1 ( ' ( 検索キー )''-- ( 検索キー ) and 'a'='a ( 検索キー ) and 1=1 は最低限 行うこと ) OS コマンドインジェクション 2 (../../../../../../../bin/sle

PowerPoint プレゼンテーション


ProQuest PPT Styles

PowerPoint Presentation

ProQuest PPT Styles

第 2 章 問合せの基本操作 この章では データベースから情報を検索する際に使用する SELECT コマンド および SELECT コマンドと 同時に使用する句について説明します 1. 問合せとは 2. 基本的な問合せ 3. 列の別名 4. 重複行を一意にする 5. 検索行の絞込み 6. 文字パター

Quick guide_GeneArt Primer and Construct Design Tool_v1(Japanese)

DNAFORM Clone Search Engine ユーザーズガイド

Sequence Read Archive 2013 年年 10 月 25 日 第 10 回シーケンサー利利 用技術講習会 ( 理理研横浜 ) 1

Microsoft PowerPoint - Alignment09Apr14_print [互換モード]

分子系統樹作成方法


Microsoft Word - PubMed

Microsoft Word - GCOEキャリアパス支援テクニカルセミナー090709web.doc

独立行政法人産業技術総合研究所 PMID-Extractor ユーザ利用マニュアル バイオメディシナル情報研究センター 2009/03/09 第 1.0 版

Transcription:

1 2 kiso1 3 4

5 6 7 8

9 10 11 12 AP009356 と入力

National Center for Biotechnology Information http://www.ncbi.nlm.nih.gov/ 13 All Databases データベースの統合検索システム主なデータベースは,PubMed ヌクレオチドシークエンスデータベース タンパク質シークエンスデータベース ゲノムシークエンスデータベース 3D 高分子構造データベース等. それぞれのデータベースは, 関連付けがされており一度に多くのことが調べられる. 例えば phosphofructokinase と入力してみる 14 15 16 phosphofructokinase phytoplasma と入力

17 データベースカタログ http://lifesciencedb.jp/lsdb.cgi?pg=0 18 19 20 データベース検索 ( ホモロジー検索 ) ホモロジー検索 ( 相同性検索 ) とは? ホモロジー検索は, 配列の類似性から類縁の遺伝子 タンパク質を検索する方法で, 進化 系統分類の解析, 機能解析などを目的とした配列解析の最も基本的な手法の一つである. SSEARCH http://ssearch.ddbj.nig.ac.jp/top-j.html FASTA http://fasta.genome.jp/ BLAST http://blast.genome.jp/ http://blast.ncbi.nlm.nih.gov/blast.cgi http://blast.ddbj.nig.ac.jp/top-j.html 質問配列 (Query) MMIGPIT MYLGPST MIGMMIT MDIGIT 質問配列と類似した ( 相同な ) 配列を, データベース上から探索する MIIGMIT MMIQPMMDG

アラインメント 21 アラインメントスコアの計算 22 MIGMMIT MMIGPIT アラインメント ( 並置 ) 2つの配列を要素ごとに対応づけて並べる操作 進化の過程で生じ得る配列要素の挿入 欠失をギャップ (-) で対応づける グローバルアラインメント 配列全体の類似性を考慮 a = M-IGMMIT b = MMIGP-IT 二つのアミノ酸配列を整列化させるにはどのように並べればよいか? ローカルアラインメント 局所的な類似性を考慮 a = MIGMMIT--- b = ---MMIGPIT AFDC AEEC AFDGC AEE-C 配列の類似度 =アラインメントのスコア アラインメントのスコアの計算 対応する各要素の類似度スコアの和 スペースの挿入にはペナルティを適用 s(a, A) + s(f, E) + s(d, E) + s(c, C) = 8 3-7 3 9 s(a, A) + s(f, E) + s(d, E) + space + s(c, C) = 0 3-7 3-8 9 完全に一致するアミノ酸や, 類似アミノ酸には高い点数を与えたい 各アミノ酸の点数はどのように求めればよいか? 23 BLOSUMスコア ( Henikoffらの方法 ) BLOSUM: BLOcks amino acid Substitution Matrix 同一ファミリータンパク質のギャップなしでアラインメントされた領域 ( ブロック ) に対し アミノ BLOSUM50マトリックス酸の置換の頻度を調べて作成良く似た配列の寄与が優勢になりすぎないように, 例えば62% 一致のパターンを一まとめにしてBLOSUM62を作るのに用いる. 24 Needleman-Wunschのアルゴリズム 2つの配列の最適なグローバルアラインメントを, ダイナミックプログラミング ( 動的計画法 ) により求める. Smith-Waterman のアルゴリズム 2 つの配列の部分配列間の一致を探索する 最も高いスコアをもつ一致箇所を示すアラインメントを求める ダイナミックプログラミング ( 動的計画法 )

25 26 FASTA と BLAST ダイナミックプログラミングによる方法は mnに比例した時間を要する (m, nは配列の長さ ) 配列データベースに登録されている配列の数は膨大 効率的な手法の利用 FASTA 一致する配列の断片を高速に検索 限られた候補に対して精確な手法を適用 Lipman and Pearson (1985) BLAST 局所的に類似の部分配列を高速に検索 Altschul (1990) BLAST 検索 配列を固定長の断片 ( ワード ) に区切り, ワード単位で類似する断片を検索する. これらを類似度が最大になるまで両方向に伸ばして局所的なアラインメントを行い, 最後にこれらを結合して, 最終的なアラインメントを行う手法. 他の方法に比べて高速であり, ホモロジー検索の方法として最もよく利用されている. MAGPVFGIPSCSF MAG AGP GPV MSGPVFGLP ワードの切り出し.Default の設定ではアミノ酸の場合は 3 文字, 塩基配列は 27 文字. 一致する部分を検索 一致したワードを両方向に伸ばし HSP (high score segment pair) を求める http://www.ncbi.nlm.nih.gov/ 27 BLASTP 検索 (protein blast) http://blast.ncbi.nlm.nih.gov/blast.cgi 28 2 貼り付ける >sample1 MNRVFLFGKLSFTPNRLQTKNGTLGATFSMECLDS SGFNNAKSFIRVTAWGKVASFIVAQNPGVMLFVEG RLTTYKITNSENKNTYALQVTADKIFHPDEKTTNE EPIKSTVVDSPFMNPKASVTEAEFEQAFPHQDETD FNNITPIFENDVQLEEESDD 1 配列をコピーする ( > の行は入れても入れなくてもよい ) プログラム 質問配列 (query) 検索対象 protein blast アミノ酸配列 アミノ酸配列データベース blastx 塩基配列 アミノ酸配列データベース nucleotide blast 塩基配列 塩基配列データベース tblastn アミノ酸配列 塩基配列データベース tblastx 塩基配列 塩基配列データベース 3 データベースを選ぶ (nr) 4 BLAST を押す nr : 冗長性をなくした (non-redundant) アミノ酸データベース

29 30 NCBI の ref_seq 番号 Gene データベース E-value E valueは, 現在のデータベースにおいて, 全く偶然に同じスコアになる配列の数の期待値であり,E valueが小さいほど偶然には起こり得ないことを示している. スコア E-value 相同性 (identity) 相同性 (similarity) ギャップ BLAST 検索の際にE valueのしきい値を設定することで, その値よりも小さいE valueの検索結果しか出力されなくなる. アラインメント Query : 質問配列 Sbjct : Blast 検索の結果, ヒットした配列 全長ではないので注意 ( 本当は, SDDE まで続く ) 31 32 検索結果の表示件数 blastx 塩基配列を入力 E-valueのしきい値 BLAST 検索時のWordサイズマトリックスの種類を選ぶギャップのスコア設定 6 通りの reading frame のすべてについて翻訳し, アミノ酸配列データベースに対して検索してくれる E-value 計算時の設定 冗長配列を取り除く場合はチェック 冗長配列を取り除く場合の設定小文字を無視する場合の設定 塩基配列を決定したが, 何がコードされているかわからないとき non-coding 領域に, タンパク質がコードされていないかどうか, 調べたいときなど

33 34 >sample2 ATGAAATTAAGAATCTGCGAACTTGTTATTAATAAAACTTTAATTACTAAAACTAAAATAGAAACTATTTTAGAAACTAAAAA AAAAGCCATTCAAAATTATGCCTATATTTTGCATGATAAAGATATTTATCAAAATGATAAAGAGGCTCAATTGAATGGTAAAA AAGTAGGAGATATAAAAGCTCCTCATTGGCATATATATTTAAGATTTAATTATTCACATGATACAAAAAATATCGCTCAATGG TTTAATACTGAGGATAATTTTGTTTCCAAAATAAAAGGTAGATTTAGTGATGCCTTAATGTATATGATTCATGCTAATAGGTC blastx 検索 blastn (nucleotide blast) >sample3 TTGAAGAGGACTTGGAACTTCGAT 1 配列をコピーする ( > の行は入れても入れなくてもよい ) 2 貼り付ける 3 データベースを選ぶ (nr/nt) 4 BLAST を押す と表示され, 短い配列用の設定で検索される tblastn アミノ酸配列を入力 データベース上の塩基配列を,6 通りの reading frame のすべてについて翻訳し, このアミノ酸配列データに対して検索してくれる EST 配列やドラフトゲノムなど, アノテーション情報が整備されていないデータから相同な配列を探したいときに便利 tblastx 塩基配列を入力 6 通りの reading frame のすべてについて翻訳 35 BLAST 検索 (GenomeNet) 2 貼り付ける >sample5 MDENETQFNKLNQVKNKLKIGVFGIGGAGNNIVDASLYHYPN LASENIHFYAINSDLQHLAFKTNVKNKLLIQDHTNKGFGAGG DPAKGASLAISFQEQFNTLTDGYDFCILVAGFGKGTGTGATP VFSKILKTKKILNVAIVTYPSLNEGLTVRNKATKGLEILNKA TDSYMLFCNEKCTNGIYQLANTEIVSAIKNLIELITIPLQQN IDFEDVRAFFQTKKTNQDQQLFTVTHPFSFSFDSKDSIEQFA KQFKNFEKVSYFDHSIVGAKKVLLKANINQKIVKLNFKQIQD IIWTKIDNYQLEIRLGVDFVTTIPNIQIFILSEHKNPVSLPI DNKSTENNQNKLKLLDELKELGMKYVKHQNQIY 1 配列をコピーする ( > の行は入れても入れなくてもよい ) 3Favorite organisms を選択 4 mge mpn uur と入力 mge: Mycoplasma genitalium mpn: Mycoplasma pneumoniae uur: Ureaplasma parvum 5 Compute を押す 36 データベース上の塩基配列も,6 通りの reading frame のすべてについて翻訳し, このアミノ酸配列データに対して検索 質問配列, データベースとも, アノテーション情報が整備されていない場合に有効 Ureaplasma は,ftsZ を持っていないことがわかる

37 38 スタートすべてのプログラムアクセサリコマンドプロンプト C: Users iu> > > blastp -help 39 40 Windows の場合は, どちらかをダウンロードします

41 42 Haemophilus influenzae 1.83 1995 Mycoplasma genitalium 0.58 1995 Mycoplasma pneumoniae 0.82 1996 Bacillus subtilis 4.21 1997 Escherichia coli 4.67 1997 Ureaplasma parvum 0.75 2000 test1.seq test2.seq test3.seq Mgenitalium.faa Mpneumoniae.faa Ureaplasma.faa parse-blast7.pl の 7 つのファイルをダウンロードし, C: Users iu Desktop blast に入れてください 43 > cd C: Users iu Desktop blast C: Users iu Desktop blast> > dir 44 2009/03/11 19:52 <DIR>. 2009/03/11 19:52 <DIR>.. 2005/04/21 23:34 222,447 Mgenitalium.faa 2005/04/21 23:33 307,006 Mpneumoniae.faa

45 46 データベースの準備 データベースの準備 > more Mgenitalium.faa > makeblastdb -in Mgenitalium.faa -dbtype prot more コマンドについて 指定したファイルの内容を表示します. 次ページを見るには [Space] キー, 1 行ずつ見るには [Enter] キー, 終了するには [Q] キー押します. 47 48 > more test1.seq >gi 16130505 ref NP_417075.1 uracil-dna-glycosylase [Escherichia coli str. K-12 substr. MG1655] MANELTWHDVLAEEKQQPYFLNTLQTVASERQSGVTIYPPQKDVFNAFRFTELG DVKVVILGQDPYHGPGQAHGLAFSVRPGIAIPPSLLNMYKELENTIPGFTRPNH GYLESWARQGVLLLNTVLTVRAGQAHSHASLGWETFTDKVISLINQHREGVVFL LWGSHAQKKGAIIDKQRHHVLKAPHPSPLSAHRGFFGCNHFVLANQWLEQRGET PIDWMPVLPAESE > blastp db Mgenitalium.faa query test1.seq

> blastp db Mgenitalium.faa query test1.seq out result1.txt > more result1.txt -out : 出力ファイル指定 ( 上矢印 ) を押すと, 過去に入力したコマンドが出てきます > blastp db Mgenitalium.faa query test1.seq > result1.txt 49 質問配列の名前 検索対象として用いたデータベース アラインメント BLASTP 2.2.10 [Oct-19-2004] 50 Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= hsa:7100 TLR5; toll-like receptor 5 (A) (858 letters) Database: nr-aa: Non-redundant protein sequence database Release 05-04-11 1,952,394 sequences; 634,153,439 total letters スコア Searching...done Score E Sequences producing significant alignments: (bits) Value Top 100Top 50Top 20Top 10Top 5 Select operationclustalwmafftprrndraw alignmentsearch common motifs(pfam)search common motifs(prosite) gp:ab060695_1 [AB060695] Toll-like receptor 5 [Homo sapiens] 1666 0.0 sp:tlr5_human [O60602] Toll-like receptor 5 precursor (Toll/inte... 1662 0.0 gp:ax590493_1 [AX590493] Sequence 5 from Patent WO02085933. [Hom... 1659 0.0 gpu:ab208697_1 [AB208697] Toll-like receptor 5 [Sus scrofa] 1303 0.0 sp:tlr5_mouse [Q9JLF7] Toll-like receptor 5 precursor.>prf:26102... 1203 0.0 tr:q8cb40_mouse [Q8CB40] Mus musculus adult female vagina cdna,... 1193 0.0 tr:q5gda9_chick [Q5GDA9] Toll-like receptor 5. 866 0.0 tr:q5gr02_chick [Q5GR02] Toll-like receptor 5 precursor.>gpu:aj6... 848 0.0 tr:q5u5b1_xenla [Q5U5B1] LOC495313 protein.>gpu:bc084773_1 [BC08... 738 0.0 gp:cq870716_1 [CQ870716] Sequence 9 from Patent EP1433792. [unid... 734 0.0 prf:3023356a membrane-toll-like receptor - Oncorhynchus mykiss (... 585 e-165 tr:q5h720_fugru [Q5H720] TLR5.>gpu:AC156437_1 [AC156437] TLR5 [T... 548 e-154 gp:ax590495_1 [AX590495] Sequence 7 from Patent WO02085933. [syn... 437 e-121 tr:q7zt81_oncmy [Q7ZT81] Toll-like receptor5.>gp:ab062504_1 [AB0... 366 1e-99 >gp:ab060695_1 [AB060695] Toll-like receptor 5 [Homo sapiens] Top Length = 858 Score = 1666 bits (4315), Expect = 0.0 Identities = 827/844 (97%), Positives = 827/844 (97%) Query: 15 AGPVFGIPSCSFDGRIAFYRFCNLTQVPQVLNTTERLLLSFNYIRTVTASSFPFXXXXXX 74 AGPVFGIPSCSFDGRIAFYRFCNLTQVPQVLNTTERLLLSFNYIRTVTASSFPF Sbjct: 15 AGPVFGIPSCSFDGRIAFYRFCNLTQVPQVLNTTERLLLSFNYIRTVTASSFPFLEQLQL 74 Query: 75 XXXGSQYTPLTIDKEAFRNLPNLRILDLGSSKIYFLHPDAFQGLFHLFELRLYFCGLSDA 134 GSQYTPLTIDKEAFRNLPNLRILDLGSSKIYFLHPDAFQGLFHLFELRLYFCGLSDA Sbjct: 75 LELGSQYTPLTIDKEAFRNLPNLRILDLGSSKIYFLHPDAFQGLFHLFELRLYFCGLSDA 134 E value E value 設定 51 BLASTX 52 > blastp db Mgenitalium.faa query test1.seq > more test2.seq > blastx db Mgenitalium.faa query test2.seq evalue 1e-10 out result2.txt > more result2.txt out result1.txt evalue 1e-10 > more result1.txt 1 l

大量 Query のホモロジー検索法 >gi 49176138 ref NP_416237.3 6-phosphofructokinase II [Escherichia coli K12] MVRIYTLTLAPSLDSATITPQIYPEGKLRCTAPVFEPGGGGINVARAIAHLGGSATAIFPAGGATGEHLV SLLADENVPVATVEAKDWTRQNLHVHVEASGEQYRFVMPGAALNEDEFRQLEEQVLEIESGAILVISGSL PPGVKLEKLTQLISAAQKQGIRCIVDSSGEALSAALAIGNIELVKPNQKELSALVNRELTQPDDVRKAAQ EIVNSGKAKRVVVSLGPQGALGVDSENCIQVVPPPVKSQSTVGAGDSMVGAMTLKLAENASLEEMVRFGV AAGSAATLNQGTRLCSHDDTQKIYAYLSR >gi 16132212 ref NP_418812.1 phosphoglyceromutase 2 [Escherichia coli K12] MLQVYLVRHGETQWNAERRIQGQSDSPLTAKGEQQAMQVATRAKELGITHIISSDLGRTRRTAEIIAQAC GCDIIFDSRLRELNMGVLEKRHIDSLTEEEENWRRQLVNGTVDGRIPEGESMQELSDRVNAALESCRDLP QGSRPLLVSHGIALGCLVSTILGLPAWAERRLRLRNCSISRVDYQESLWLASGWVVETAGDISHLDAPAL DELQR >gi 16131851 ref NP_418449.1 glucosephosphate isomerase [Escherichia coli K12] MKNINPTQTAAWQALQKHFDEMKDVTIADLFAKDGDRFSKFSATFDDQMLVDYSKNRITEETLAKLQDLA KECDLAGAIKSMFSGEKINRTENRAVLHVALRNRSNTPILVDGKDVMPEVNAVLEKMKTFSEAIISGEWK GYTGKAITDVVNIGIGGSDLGPYMVTEALRPYKNHLNMHFVSNVDGTHIAEVLKKVNPETTLFLVASKTF TTQETMTNAHSARDWFLKAAGDEKHVAKHFAALSTNAKAVGEFGIDTANMFEFWDWVGGRYSLWSAIGLS IVLSIGFDNFVELLSGAHAMDKHFSTTPAEKNLPVLLALIGIWYNNFFGAETEAILPYDQYMHRFAAYFQ QGNMESNGKYVDRNGNVVDYQTGPIIWGEPGTNGQHAFYQLIHQGTKMVPCDFIAPAITHNPLSDHHQKL LSNFFAQTEALAFGKSREVVEQEYRDQGKDPATLDYVVPFKVFEGNRPTNSILLREITPFSLGALIALYE HKIFTQGVILNIFTFDQWGVELGKQLANRILPELKDDKEISSHDSSTNGLINRYKAWRG 53 大量 Query のホモロジー検索法 > more test3.seq > blastp db Mgenitalium.faa query test3.seq evalue 1e-10 out result3.txt > more result3.txt 54 55 > more Mpneumoniae.faa 56 生物 1 生物 2 1 2 3 4 5 6 7 1 2 3 4 5 6 7 > blastp db Mgenitalium.faa query Mpneumoniae.faa evalue 1e-10 out result4.txt > more result4.txt

57 BLASTP 2.2.5 [Nov-16-2002] Reference: Altschul, Stephen F., Thomas L. Madden, Alejandro A. Schaffer, Jinghui Zhang, Zheng Zhang, Webb Miller, and David J. Lipman (1997), "Gapped BLAST and PSI-BLAST: a new generation of protein database search programs", Nucleic Acids Res. 25:3389-3402. Query= gi 16131851 ref NP_418449.1 glucosephosphate isomerase [Escherichia coli K12] (549 letters) Database: yeast.aa 6298 sequences; 2,974,038 total letters Score E Sequences producing significant alignments: (bits) Value ref NP_009755.1 Glucose-6-phosphate isomerase; Pgi1p 641 0.0 ref NP_011646.1 Ygr130cp 30 0.98 ref NP_013146.1 spindle pole body component; Stu2p 29 1.7 ref NP_013847.1 (putative) involved in cell wall biogenesis; Ec... 28 3.7 ref NP_013523.1 Ylr419wp 28 3.7 >ref NP_009755.1 Glucose-6-phosphate isomerase; Pgi1p Length = 554 Score = 641 bits (1654), Expect = 0.0 Identities = 326/549 (59%), Positives = 401/549 (73%), Gaps = 16/549 (2%) Query: 7 TQTAAWQALQKHFDEM-KDVTIADLFAKDGDRFSKFSATFDD----QMLVDYSKNRITEE 61 T+ AW LQK ++ K +++ F KD RF K + TF + ++L DYSKN + +E Sbjct: 13 TELPAWSKLQKIYESQGKTLSVKQEFQKDAKRFEKLNKTFTNYDGSKILFDYSKNLVNDE 72 Query: 62 TLAKLQDLAKECDLAGAIKSMFSGEKINRTENRAVLHVALRNRSNTPILVDGKDVMPEVN 121 +A L +LAKE ++ G +MF GE IN TE+RAV HVALRNR+N P+ VDG +V PEV+ Sbjct: 73 IIAALIELAKEANVTGLRDAMFKGEHINSTEDRAVYHVALRNRANKPMYVDGVNVAPEVD 132 58 > more parse-blast7.pl 59 > perl parse-blast7.pl -i result4.txt -o list1.txt スタート list1.txt をExcel 上にすべてのプログラムドラッグ & ドロップ Microsoft Office Microsoft Office Excel 60 parse-blast.pl #! /usr/local/bin/perl 質問配列の情報 BLAST 検索でヒットした配列の情報 ( ヒットしなかった場合は空欄 ) スコア,E-value,Identity use strict; use warnings; use Getopt::Std; my $mode = 0; my $name = "";.. M. genitalium ゲノム上には, これらと相同なタンパク質がコードされていない

61 kenro@hosei.ac.jp kenro@hosei.ac.jp 62 63