Bioinformatics2

Similar documents


国際塩基配列データベース n DNA のデータベース GenBank ( アメリカ :Na,onal Center for Biotechnology Informa,on, NCBI が運営 ) EMBL ( ヨーロッパ : 欧州生命情報学研究所が運営 ) DDBJ ( 日本 : 国立遺伝研内の日

生命情報学

独立行政法人産業技術総合研究所 PMID-Extractor ユーザ利用マニュアル バイオメディシナル情報研究センター 2009/03/09 第 1.0 版

A Constructive Approach to Gene Expression Dynamics

Microsoft PowerPoint - BIセンターセミナー2013.pptx[読み取り専用]

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

AJACS_komachi.key

Microsoft Word - 基礎編<20>siRNA設計.doc

Microsoft PowerPoint - 8_TS-0894(TaqMan_SNPGenotypingAssays_製品情報及び検索方法再修正.pptx

Nakamura


ver

スライド 1

ゲートウェイ ファイル形式


Microsoft Word - MacVector_Align_OP.doc

Ligases の 分類クラス下に階層構造として表 検索機能を持つ 公共データベースサイトへのリンクと構成タンパク質の LSKB 内リンクにより 当該タンパク質をターゲットとする化合物をさまざまな角度から ることができるほか タンパク質を構成するドメインや PDB 複合体リガンド 文献を参照できる

Step. ユーザ登録をする Web of Knowledge(Web of Science) のユーザ登録と共通です すでにユーザ登録されている 場合は 新たに登録する必要はありません 学内の端末から EndNote Basic にアクセスする [ アカウントの登録 ] をクリックする 画面の指示

PowerPoint Presentation

PowerPoint プレゼンテーション

Microsoft Word - EndNoteWeb( _.doc

生命情報学

Microsoft Word - PubMed

2) データの追加 一番下の行までスクロールしていき * のある行をクリックすると 新しいデータを入力できます その他の方法 Access では様々な使い方が用意されています その一例としては 右クリックを使用する方法もあります 画面の左端の部分にマウスを持っていくと が表示されます の上でクリック

CWYW(Cite While You Write) プラグインのインストール 自分が使うパソコンにあらかじめ CWYW(Cite While You Write) プラグイン をインストールしておくと 文献検索ツールから EndNote basic にデータを直接取り込めるので 作業が簡単になりま

ゲートウェイのファイル形式

5_motif 公開版.ppt

CWYW(Cite While You Write) プラグインのインストール 自分が使うパソコンにあらかじめ CWYW(Cite While You Write) プラグイン をインストールしておくと 文献検索ツールから EndNote basic にデータを直接取り込めるので 作業が簡単になりま

我々のビッグデータ処理の新しい産業応用 広告やゲーム レコメンだけではない 個別化医療 ( ライフサイエンス ): 精神神経系疾患 ( うつ病 総合失調症 ) の網羅的ゲノム診断法の開発 全人類のゲノム解析と個別化医療実現を目標 ゲノム育種 ( グリーンサイエンス ): ブルーベリー オオムギ イネ

<4D F736F F D20456E644E6F F08E6782A482C982CD C8ED08EA991528BA492CA816A2E646F63>

ネットワークストレージ (R ドライブ ) 利 の 引き 法政 学多摩情報センター ネットワークストレージとは データをネットワーク上に保存するための個人用フォルダ ( データの置き場 ) です メモリ等の持ち運びの 間も不要で インターネットができる環境なら どこからでもデータにアクセスすることが

Microsoft Word - H23_EndNoteWeb(農図書).doc

項番 取得 ボタンを押します * が鉛筆のアイコンに変化し プロジェクト と案件名がコピーされ 項番に新しい番号が入力されました 最終行にデータを入力してください 2) データの追加 一番下の行までスクロールしていき * のある行をクリックすると 新しいデータを入力できます その他の方法 Acces

NGSデータ解析入門Webセミナー

06.7 作成.EndNote Basic について -.EndNote Basic とは? EndNote は文献情報を保存 管理するツールです また 保存した文献情報をもとに文献リストを簡単に作成することができます デスクトップ版と EndNote Basic と呼ばれる Web 版があり 信州

Web_store Ver.

Microsoft PowerPoint - lecture a.pptx


Microsoft Word - CBESNet-It連携ガイドver8.1.doc

キャビネットの確認 キャビネットの確認 登録権または参照権があるキャビネットでは キャビネットの登録データを確認できます 各利用者の権限は 管理者によって設定されます キャビネットとファイル送受信の違い それぞれの特徴を確認し お客様のニーズに合わせて利用してください ファイル送受信の操作方法 ファ

Microsoft PowerPoint - PDBjing実習.ppt

PowerPoint プレゼンテーション


Joi-Tab 端末管理システム最終更新日 2015 年 3 月 13 日

Slide 1

7-1(DNA配列から遺伝子を探す).ppt

KEGG.ppt

Microsoft Word - RefWorksコース( _.doc

Microsoft PowerPoint - lecture a.pptx

ユーザーガイド

生物物理 Vol. 45 No. 1 (2005) だけ正確なアラインメントが必要な方 (4) 立体構造とアミノ酸配列の関係, あるいは立体構造と機能との関係に興味がある方 2. おもなサービス 2.1 ペアワイズ3Dアラインメントこれは2つの構造をアラインメントする基本的な機能であり,MATRAS

Microsoft Word - Word1.doc

Office365 スマートフォンからの活用 <メール/予定表/OneDrive>

別添 2 SQL インジェクション ぜい弱性診断で最低限行うべき項目 1 ( ' ( 検索キー )''-- ( 検索キー ) and 'a'='a ( 検索キー ) and 1=1 は最低限 行うこと ) OS コマンドインジェクション 2 (../../../../../../../bin/sle

クイックマニュアル(利用者編)

目次 1. VISCANA 機能の改良 VISCANA ウィンドウ外観 フラグメント番号表示 クラスタリング配列の選択機能 データ読込 保持仕様の追加 修正 CSV ファイル出力機能

Microsoft Word - CBSNet-It連携ガイドver8.2.doc

スライド 1

Microsoft PowerPoint - プレシジョン創薬概論 P_ex_velvet.PPT

ICSD web 簡単ガイド (Ver

. 起動 目次 P.. ログイン 画面 P.. メニュー 画面 P.. POS 開示 _ 指定店舗 アイテム別 期間合計 画面 ( レポート A) P. 5. POS 開示 _ 店舗別 指定アイテム 期間合計 画面 ( レポート B) ----

GWB

ゲートウェイのファイル形式

分子系統樹作成方法

Microsoft PowerPoint - KanriManual.ppt

2 研 究 資 源 共 通 化 統 合 検 索 システムソフトウェア 利 用 者 用 マニュアル(ゲートウェイシステム) 目 次 1. はじめに 主 な 利 用 の 流 れ 検 索 検 索 画 面 検 索 画 面 の 設 定...

基本的な利用法

bioinfo ppt

<4D F736F F F696E74202D20352D335F8D5C90AC CF909482CC90B690AC82C695D28F572E707074>

Microsoft PowerPoint - Biotools…}…j…–…A…‰224forFA.ppt

PMAL / Σ-alert matrix web アプリケーション版 (2DCM-web 実習サイト版 ) 操作手順書 2018 年 5 月 14 日初版

EndNote X7 クイックレファレンスガイド

Shareresearchオンラインマニュアル

第1部参考資料

更新履歴 変更履歴 版数 リリース日 更新内容 第 1 版 2017/5/15 第 1 版発行 第 2 版 2017/7/13 更新履歴 変更内容を追加 (2ページ) 編集の前に を追加(8 ページ ) ブロックエディタ スマートモード エディタモード の説明を追加 (10~12 ページ ) ブロッ

ユーザ デバイス プロファイルの ファイル形式

Microsoft Word - RefWorksコース doc

Microsoft Word - バーチャルクラス(Blackboard)ログイン方法ガイド.docx

導入設定ガイド

相同性配列検索ツール:GHOST-MPと ヒト口腔内メタゲノム解析

GWB

スライド 1

1. ウェブルートアカウントの作成 1) ウェブブラウザより以下の管理コンソールにアクセスします 2) 画面上の アカウントを作成する にある 今すぐ登録する ボタンをクリックします 3) アカウントを作成する 画

9 WEB監視

配列検索 よくあるご質問

ミーティング記録の管理

DataWare-NETご利用ガイド

0.- EndNote Web 講 習 会 共 通 テキスト 本 部 情 報 基 盤 課 [ 学 術 情 報 リテラシー 担 当 ] データベース 検 索 結 果 をダイレクトにインポート Web of Science の 場 合 EndNote Web 画 面 上 の Web of Knowled

目次 1 Agatha 管理者向けマニュアルの概要 Agatha 利用前のご確認 管理者ページ 管理者ページでできること 管理者ページへのアクセス Agatha 管理者ページ画面 ユーザー登録の流れ...

ChIP-seq

第4回バイオインフォマティクスアルゴリズム実習

V.ブラウザの使い方

Microsoft PowerPoint - Ion Reporter?ソフトウェアを用いた変異解析4.6.pptx

Winmostar- Gromacs Tutorial 2 タンパク系 (pdb2gmx を使用 ) V6.005 株式会社クロスアビリティ 2016/1/15

RCmigrationguide

Ⅴ ブラウザーの使い方 V. ブラウザーの使い方 起動 終了 画面説明 ホームページ移動 リンクを使って移動 アドレスバーからの移動 ボタンでの移動

Microsoft Word - 第4章.doc

Transcription:

バイオインフォマティクス配列データ解析 2 藤 博幸

データベース検索 (1) ブラウザで NCBI を検索 (2)NCBI で配列データの取得 (3)NCBI で BLAST 検索

ブラウザで NCBI を検索

ブラウザで NCBI を検索 クリック

ブラウザで NCBI を検索 NCBI トップページ National Center for Biotechnology Information 分 物学やバイオインフォマティクスの研究に いられるデータベースの構築及び運営や 研究に いられるソフトウェアの開発を っている この機関では 配列データベースである GenBank を始めとして 塩基多型 (SNP) のデータベースである dbsnp EST のデータベースである dbest 献データベース MEDLINE などのデータベース PubMed などを運営している また 各研究者が発表したゲノムデータのリアノテーションを NCBI で独 に っており その結果を Refseq として公開している また BLAST による相同性検索サービスの提供も っている 公開されているデータは基本的に無償で利 できる https://ja.wikipedia.org/wiki/ 国 物 学情報センター より

NCBI で配列データの取得 検索したい遺伝 or タンパク質のキーワードを 今回は 前回説明した PGD 合成酵素について検索する prostaglandin D synthase Homo sapiens とテキストフィールドにキーワードを して右横の search ボタンをクリック

NCBI で配列データの取得 クリック

NCBI で配列データの取得 1 希望するデータが選択されていることを確認 2 スクロールしたページの下部を る

NCBI で配列データの取得 NCBI の様々なデータベースと それぞれのヒット数が されている 今回は Proteins の中の Protein からアミノ酸配列を取得する クリック

NCBI で配列データの取得 クリック

NCBI で配列データの取得 GenPept format で表

NCBI で配列データの取得 GenBank Format ß--- p.10 遺伝 の塩基配列とそれに関連する情報 GenPept Format タンパク質のアミノ酸配列とそれに関連する情報 どちらの format も構成はほぼ同じ 下部にスクロールしながら内容を確認

NCBI で配列データの取得 LOCUS 遺伝 座 ACCESSION と同じことが多いアミノ酸残基数 GenBak format の場合は塩基数 DEFINITION タンパク質名などの説明 括弧内は種名 ACCESSION データベースの ID VERSION 遺伝 を特定する ID 同じ遺伝 座からの複数の転写物に対応 SOURCE, ORGANISM 種名と階層的分類の情報 REFERENCE この配列データに関連する論

NCBI で配列データの取得 FEATURES Source: 種名 Protein: タンパク質名 Region: ドメインの位置情報 マルチドメインの場合複数の記述がある CDD: 保存ドメインデータベースへのリンク GenPept format の説明は 尾形善之先 の 植物バイオサイエンス情報処理演習 を参考にしました

NCBI で配列データの取得 1 スクロールしてページ上部を表 2 Send to 横の をクリックしてプルダウンメニューを表

NCBI で配列データの取得 1 File をチェック 2 GenPept を FASTA に変更

NCBI で配列データの取得 Create File をクリックするとダウンロードフォルダに sequence.fasta の名前で FASTA 形式のファイルが作られる

NCBI で配列データの取得 FASTA 形式 ß-- p.9, p.163 >AAB51074.1 prostaglandin D2 synthase [Homo sapiens] MATHHTLWMGLALLGVLGDLQAAPEAQVSVQPNFQQDKFLGRWFSAGLASNSSWLREKKAALSMCKSVVA PATDGGLNLTSTFLRKNQCETRTMLLQPAGSLGSYSYRSPHWGSTYSVSVVETDYDQYALLYSQGSKGPG EDFRMATLYSRTQTPRAELKEKFTAFCKAQGFTEDTIVFLPQTDKCMTEQ

NCBI で BLAST 検索 BLAST を使って相同配列を収集 Run BLAST をクリックしても実 できるが 今回は BLAST のサイトから検索

NCBI で BLAST 検索 NCBI のロゴをクリックして NCBI のトップに戻る

NCBI で BLAST 検索 BLAST をクリック

NCBI で BLAST 検索 Basic Local Alignment Search Tool 4 つの代表的な BLAST 違いは書かれているので使い分けを理解しておくこと 今回は Protein BLAST を使う Protein BLASR をクリック

NCBI で BLAST 検索 テキストエリアに直接配列をペーストして実 できる 今回は ファイルチューザを使う 選択ボタンをクリック

NCBIでBLAST検索 ファイルを選択して 開くボタンをクリック

NCBI で BLAST 検索 選択ボタンの横に選択したファイル名前が出てくる 今回 設定はデフォルトで実 する. BLAST ボタンをクリック パラメータ ( 検索条件 ) を変更する時はココをクリック

NCBI で BLAST 検索 実 中の待機画

NCBI で BLAST 検索 検出されたデータベース中の類似配列のリスト類似性の いものが上部にあるようにソートされている チェックボックス配列の選択に利 デフォルトは全て選択されている

NCBI で BLAST 検索 Query Cover = データベース中の配列とアラインされている領域の さ 問い合わせ配列の全 問い合わせ配列 E-value = 検出された類似度 (Score) 以上の類似度を す配列の断 が データベース中から偶然 出される本数の期待値 さいほど偶然 じたとは考えにくい統計的有意性の指標 Per. Identity = 配列 致度 (%) データベース中の配列 Max Score = 類似断 中の最 の BLAST スコア Total Score = 個々の類似断 の合計の BLAST スコア Accession = 検出配列のデータベース中の ID データベースへのリンクがある

NCBI で BLAST 検索 タブをクリックすると表 が変わるデフォルトは Descriptions

NCBI で BLAST 検索 クリック

NCBI で BLAST 検索 アラインメントのページが表

NCBI で BLAST 検索 Graphic Summary タブをクリック

NCBI で BLAST 検索 問い合わせ配列に対してデータベース中に各配列のアラインされている部分をグラフィカルに表 類似度の さは で表

NCBI で BLAST 検索 Alignment タブをクリック

NCBI で BLAST 検索 Description のページで配列名をクリックした時と同じアラインメントのページが表 される Taxonomy タブをクリック

NCBI で BLAST 検索 物の分類群ごとの検出数の要約ページ Description タブをクリックして最初の出 ページに戻る

NCBI で BLAST 検索 Filter 機能を使う テキストフィールドに Homo sapiens と して Filter をクリック

NCBI で BLAST 検索 種名を ると Homo sapiens 由来の配列だけが選択されていることを確認 チェックボックスをクリックして必要のない配列のチェックを外す

NCBI で BLAST 検索

NCBI で BLAST 検索

NCBI で BLAST 検索 上にスクロールして Download をクリック FASTA 形式でダウンロード 選択した配列を FASTA 形式で取得する FASTA(complete sequence) を選択 seqdump.txt の名前のファイルがダウンロードフォルダに作られる

NCBI で BLAST 検索 seqdump.txt は multi-fasta 形式 (FASTA 形式のデータが つのファイルに複数ある )

NCBI で BLAST 検索 取得した配列は Homo sapiens でフィルタリングしたのでヒトゲノムにコードされている相同配列である これらは同じ遺伝 からよって出てきたsplicing variantやによって形成されたparalogである また 検出配列のリスト中 名前がChainではじまっているものはが決定されているものである 収集された相同配列のマルチプルアラインメントを作成し そこから配列の持つ様々な情報を得ることができる ( 次回以降 )

相同配列の 較解析の 順 第 ステップ : 相同配列の収集 第 ステップ : 相同配列のマルチプルアラインメント 第三ステップ : アラインメントからの機能 構造 進化的情報の抽出

BLAST (Basic Local Alignment Search Tool)

(1) 問い合わせ配列の word への分割

(2) 生成された word の有限オートマトンによる表現 1 0 0 1 0 1 1 0 0

(3) word のヒットの部分からのギャップなしの拡張

E-value, P-value の計算 0-1 S Y V T G P M N R T W Q T S K I I Y BLAST random walk 0 から出発し ungapped alignemnt の各サイトのアミノ酸対に対応するスコアを考え それを加算していく 加算した結果が -1 以下になったら random walk は停 するものとする この時各サイトのアミノ酸対の出現頻度は 較する 2 本の配列におけるアミノ酸の出現頻度の積で表されるものとする (BLAST の帰無仮説 ) (1) BLAST random walk の停 するまでに表れる最 値 Y( ) が y 以上である確率は geometric-like distribution となる Prob(Y > y) ~ C exp(- λy) (2) 問い合わせ配列の さをN 1, データベースから取り出した配列の さをN 2 BLAST random walkが停 するまでの平均のステップ数をAとする すると つの配列を 較する際 n = (N 1 N 2 )/A 個程度のrandom walkが じる n 個のrandom walkのいづれにおいても得られた最 スコアがy 以上である確率は 順位統計に従い以下のように計算される Prob(Y >.. y) = 1 - (1 - Cexp(-λ (y-1))) n = 1 - (1 - Cnexp(-λ (y -1))/n) n = 1 - exp(-cnexp(-λ (y -1))) = 1 - exp(-n 1 N 2 Kexp (-λy ))

ここで K = (C/A) exp(-λ) である (3) (2) で 2 本の配列を比較した時に y 以上のスコアが得られる確率が計算された 次に データベース中で y 以上のスコアを有する配列の本数の期待値を求める データベース中の配列のトータルの残基数を D とすると 長さの N 2 配列が D / N 2 本含まれていると見なす事ができる そのそれぞれが 確率 1 - exp(-n 1 N 2 Kexp (-λy )) で y 以上のスコアを有するので 二項分布を考え E-value = ((1 - exp(-n 1 N 2 Kexp (-λy )) D) / N 2 となる (4) 上記の y 以上のスコアを有する配列の本数に関する二項分布は E-value を平均と分散としたポアソン分布で近似できるものとする すると y 以上のスコアが得られる確率は そのようなスコアを有する配列の本数が 0 本である確率を 1 から引くことで得られるので P-value = 1 - exp(-e-value) として計算される 実際は edge effect に関する補正など 種々の補正が行われるので 必ずしも上の通りの計算ではない また 複数のアラインメントについては Karlin-Altschul の sum statistic が利用される

Gapped BLAST への拡張 オリジナルの BLAST はギャップを許さないので アラインメントが断 化されてしまい結果が づらかった

1)gapped-BLAST の手続き Step 1: 有限オートマトン生成までは BLAST に同じ Step 2: データベース中の各配列に次の操作を行う 2-1) 有限オートマトンによる hit を検出 ( これも BLAST に同じ ) 2-2) 同じ対角線上で十分近接した 2 個の hit から ungapped extension により HSP を求め そこから seed を決定して両側に gapped extension を行う 2-3) 有意性評価 (E-value) をして出力

Two-Hits Strategy と Gapped Extension (1) Two-hit induced ungapped extension による HSP の検出 (1-1) hit 検出 (1-2) second hit (C 末側で 距離が A 残基以内の同じ対角線上 ) 検出 (1-3) second hit から ungapped extension により HSP 検出 (2) seed となる残基対の同定 (2-1) HSP が 11 残基対以上の時 : HSP にそって 11 残基のセグメントのスコアを計算し 最大値を示すセグメントの中間を seed とする (2-2) HSP が 11 残基より短い時 : 中間の残基対を seed とする (3) gapped extension seed より両側に動的計画法により gapped extension を実行ただし この時の動的計画法は 現在見ている残基対のスコアが それ以前に達成された最高スコアから Xg 以下にならないように実行される これは ungapped extension が それ以前に達成された最高スコアから X 以下にならないように実行されることに対応している

Two-Hits Strategy 1 BLAST の各 hit ごとの ungapped extension は時間を要するので その部分を短縮 同じ対角線上にある二つの hit とは FASTA でいう所の同じオフセット値を有するタプルに相当する

Two-Hits Strategy 2 Second hit から BLAST 同様に ungapped extension を行い HSP を求める HSP が 11 残基以下の長さの時その中点の残基対を seed とする HSP が 11 残基対より長い時 11 残基対のウィンドウでスキャンし 最大スコアを示す領域を見つけその中点の残基対を seed とする

Two-Hits Strategy 3 Seed となる残基対 ここを出発点として両側に gapped extension してアラインメントを構築する

gapped externsion Seed となる残基対 seed より両側に動的計画法により gapped extension を実行ただし この時の動的計画法は Smith & Waterman 法ではない 現在見ている残基対のスコアが それ以前に達成された最高スコアから Xg 以下にならないように実行される これは ungapped extension が それ以前に達成された最高スコアから X 以下にならないように実行されることに対応している 動的計画法については次回以降に説明