機能ゲノム学（第6回） - PDF 無料ダウンロード

バイオインフォマティクス次世代シーケンサー (NGS) 編東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) http://www.iu.a.u-tokyo.ac.jp/~kadota/ kadota@iu.a.u-tokyo.ac.jp 1

バイオインフォマティクス人材育成講座スタンダードコース 2

自己紹介 1995 年 3 月高知工業高等専門学校工業化学科卒業 1997 年 3 月東京農工大学工学部物質生物工学科卒業 1999 年 3 月東京農工大学大学院工学研究科物質生物工学専攻修士課程修了 2002 年 3 月東京大学大学院農学生命科学研究科応用生命工学専攻博士課程修了学位論文 : cdna マイクロアレイを用いた遺伝子発現解析手法の開発 ( 指導教官 : 清水謙多郎教授 ) 2002/4/1~ 産総研生命情報科学研究センター産総研特別研究員 2003/11/1~ 放医研先端遺伝子発現研究センター研究員 2005/2/16~ 東京大学大学院農学生命科学研究科特任助手 2007/4/1~ 現在東京大学大学院農学生命科学研究科特任助教アグリバイオインフォマティクスプログラム高専時代の成績もたいしたことない門田がかれこれ 10 年以上バイオインフォマティクスの分野で楽しくやってます 3

次世代シーケンサー Next-Generation Sequencer (NGS) 塩基配列を決定する実験機器のこと特徴旧世代シーケンサーに比べ一度に多数の塩基配列を決定することができるゲノム配列決定 ( ゲノム解読 ) やトランスクリプトーム解析手段としての応用が広がっている 4

オーム (Ome) 研究 ome : 総体 DNA 遺伝子 (Gene) + ome ゲノム ( 命の設計図 ) 転写 ( 遺伝子 DNA の情報を RNA に写すこと ) RNA 転写 (Transcription) + ome トランスクリプトーム翻訳 ( 転写された RNA 情報をもとにタンパク質を作ること ) タンパク質タンパク質 (Protein) + ome プロテオーム 5

これまでの実験技術 DNA 転写 RNA 翻訳タンパク質全ゲノムショットガン法マイクロアレイ二次元電気泳動法プロテオームトランスクリプトームゲノム 6

今後の実験技術 DNA 転写 RNA 翻訳タンパク質次世代シーケンサー (NGS) 二次元電気泳動法 GS FLX+ 5500xl SOLiD HiSeq 2000 プロテオームトランスクリプトームゲノム 7

NGS でゲノム解読の成果は続々とパンダ ( 大熊猫 ) ゲノム解読 (2008 年 ) ヒトゲノム解読に 10 年半年猫よりも犬熊に近い動物アジア人 ( 中国人 ) 一個体の全ゲノム配列決定 (2008 年 ) 国際プロジェクト 1000 人ゲノム計画 (1 人 1 人の遺伝情報の違いを詳細に調査 ) 国際癌ゲノムプロジェクト感染症の同定日本人の全ゲノム配列決定 (2010 年 ) 世界で初めてサンゴの全ゲノム解読に成功 (2011 年 7 月 ) サンゴと褐虫藻との共生メカニズム解明のための基盤情報取得サンゴの白化現象 ( 褐虫藻を失うこと ) 解明のための ~ サンゴ礁の観光産業などの経済効果は 2,500 億円以上! http://www.oist.jp/ja/press-room/press-releases/150/1047-pr-first-coral-genome.html 8

NGS の利活用 ( 妄想?!) のゲノム解読絶滅危惧種関連 ( ゲノム情報は沖縄にあり!) 西表山猫とかバイオマスエタノール関連 ( エネルギー生産関連 ) サトウキビとかとの比較ゲノム解析ある有用な機能をもつ微生物 ( ) ともたないもの ( ) のみがもつその機能と関連する遺伝子の同定長寿 ( 沖縄 ) vs. 短命の県との比較トランスクリプトーム解析ある有用な機能をもつ微生物 ( ) ともたないもの ( ) 発現に違いのある遺伝子同定 9

人材育成現状 NGS データなどの大量実験データを自在に解析できるバイオインフォマティクス人材が不足スキルのある人は引く手あまた私の状況東大生のバイオインフォマティクス講義 (90 分 11 回 ) あちこちでセミナーや講習会の講師自分の研究 ( と共同研究の解析 ) を進めるメールでの質問対応 ( これも頻繁にくるので大変 ) 初心者でもコピペでデータ解析可能なウェブページの更新 (R で ) マイクロアレイデータ解析 (R で ) 塩基配列解析ここでの講義も結局は自分のため 10

ねらい次世代シーケンサー (NGS) を活用した実験解析についてトランスクリプトーム解析など最新の研究技術について学ぶ R を利用することで NGS から得られる塩基配列データの様々な解析が可能プログラミング能力がなくても使いこなし術があれば NGS 解析を全部自力でやるには Linux のノウハウがある程度必要であることを実感してもらうバイオインフォマティクスの基本的なスキルを身につけることが重要バイオインフォマティクス技術者認定試験合格を目指せ相関係数やエントロピーなどの要素技術を駆使すれば様々なデータ解析が可能であることを紹介 11

参考 1 12

参考 2 13

シーケンサー新旧比較旧世代シーケンサー (ABI3730 など ) 800 塩基程度の長さを読める数は尐ない質は高い次世代シーケンサー長さは短い (~ 数百塩基程度 ) 数は多い質は低い 800 塩基程度 GS FLX+ 5500xl SOLiD HiSeq 2000 数百塩基程度 100 塩基程度 14

ゲノム配列の決定はどうやって? 素朴な疑問 ( 何が大変なのかわからない ) Q: ゲノムが長い一本の塩基配列で旧世代シーケンサーが一度に 800 塩基程度しか読めないのはわかっただけど読めるところまで読んだら最後の塩基のところからまた順番に読んでいけばいいじゃん! A: それができないのでゲノムを物理的に切断した断片配列の配列決定 ( シークエンシング ;sequencing) を行います 800 塩基程度の配列の集合が手元にあるだけです 800 塩基程度どうやって元のゲノム配列を再構築するのか? 15

de novo genome assembly de novo: 初めから新規にの意味配列決定されたリードのみから目的生物種のゲノム配列を決めること ( 組み立てること ) 方法による分類 (Miller et al., Genomics, 95: 315-327, 2010) Overlap-Layout-Consensus (OLC) アプローチ各リードを頂点 ( ノード ) として k 個の共通連続塩基がある頂点同士を辺 ( エッジ ) で結んだグラフを作成し全ての頂点を通るパスを探索 ( ハミルトンパス問題 ) 配列一致部分がある程度の長さ分必要なため Roche 454 など比較的長いリードのアセンブルに用いられる Euler (or Eulerian path) アプローチリードを一塩基づつずらした k 個の連続塩基からなる k-mer グラフを各リードごとに作成し全リードの完全一致ノードをマージすることで de Bruijn グラフを作成し全ての辺を通るパスを探索 ( オイラーパス問題 ) Illumina などの比較的短いリードのアセンブルに用いられる 16

Overlap-Layout-Consensus (OLC) アプローチ k 個 ( 例 :k=25) の共通連続塩基があるリード ( 頂点 ) 同士を辺でむすぶ read1 :TGCCGACATGCATCCAAGTAGGAATCCTTAGCTTA read2 :CATCCAAGTAGGAATCCTTAGCTTAGCCAATGCGT リード 1 リード 2 リード 3 入力データ 35 bp read1 read2 アセンブル = 全ての頂点を通るパス ( 経路 ) を探索すること 17

Euler (or Eulerian path) アプローチ各リードを全ての可能な k-mer (k < 35 の任意の値 ; 例えば k=25) に分割して有向グラフを作成 read1 :TGCCGACATGCATCCAAGTAGGAATCCTTAGCTTA read1_1 有向グラフ read1_2 の作成 read1_3 read1_4 read1_5 read1_6 read1_7 read1_8 read1_9 read1_10 read1_11 Pevzner et al., PNAS, 98: 9748-9753, 2001 リード 1 リード 2 リード 3 入力データ 35 bp read1_1 read1_2 read1_3 隣接するノード間は (k-1) bp のオーバーラップ 18

Euler (or Eulerian path) アプローチ同一ノードをマージ read1 :TGCCGACATGCATCCAAGTAGGAATCCTTAGCTTA read2 :CATCCAAGTAGGAATCCTTAGCTTAGCCAATGCGT Pevzner et al., PNAS, 98: 9748-9753, 2001 リード 1 リード 2 リード 3 入力データ 35 bp read1_1 read1_2 read1_10 read1_11 read2_1 read2_2 read2_10 read2_11 read1_1 read1_2 read1_10 read1_11 read2_2 read2_10 read2_11 全リードの情報をもとに同一ノードをマージしたグラフ (de Bruijn グラフ ) アセンブル = 全ての辺を通るパスを探索すること 19

de novo genome assembly Overlap-Layout-Consensus (OLC) アプローチ生物種 :Drosophila (Myers et al., Science, 287: 2196-2204, 2000) 全ゲノムショットガン Euler (or Eulerian path) アプローチ生物種 :Giant panda (Li et al., Nature, 463: 311-317, 2010) Illumina Genome Analyzer (37paired-end) パンダゲノムはたまたまうまくいった?! 配列さえ読めばあとはボタン一つ押せばアセンブルされたゲノムが得られるほど簡単ではない 20

新規の (de novo) ゲノム配列決定は大変旧世代シーケンサー (ABI3730 など ) 800 塩基程度次世代シーケンサー 100 塩基程度一致 ( のりしろ ) 部分の領域大信頼性高い一致 ( のりしろ ) 部分の領域小信頼性低い 21

NGS でゲノム解読の成果は続々と? パンダ ( 大熊猫 ) ゲノム解読 (2008 年 ) ヒトゲノム解読に 10 年半年猫よりも犬熊に近い動物アジア人 ( 中国人 ) 一個体の全ゲノム配列決定 (2008 年 ) 国際プロジェクト 1000 人ゲノム計画 (1 人 1 人の遺伝情報の違いを詳細に調査 ) Resequencing( 再配列決定 ) 国際癌ゲノムプロジェクト感染症の同定日本人の全ゲノム配列決定 (2010 年 ) 世界で初めてサンゴの全ゲノム解読に成功 (2011 年 7 月 ) サンゴと褐虫藻との共生メカニズム解明のための基盤情報取得サンゴの白化現象 ( 褐虫藻を失うこと ) 解明のための ~ サンゴ礁の観光産業などの経済効果は 2,500 億円以上! http://www.oist.jp/ja/press-room/press-releases/150/1047-pr-first-coral-genome.html 22

Resequencing 既知の塩基配列と次世代シーケンサー (NGS) から得られた短い塩基配列 (short read) を比較することヒトゲノム配列は旧世代シーケンサーを用いて解読済み例 : 日本人ゲノム解読は次世代シーケンサーを用いて日本人の NGS 塩基配列データを取得しヒトゲノム配列と比較して日本人特有の領域や配列の違いなどを発見しましたということヒトゲノム配列 1 番染色体 2 番染色体 3 番染色体 NGS データ比較 23

比較? NGS データ中の数千万リード (- が数千万個あるということ ) の各々がゲノム中のどこにマップされるかマップされないのはどれかなどを調べるイメージヒトゲノム配列 1 番染色体 2 番染色体 3 番染色体 NGS データ Linux 上で動く NGS データ専用のマッピングプログラムを用いて実行できます 24

NGS 解析は Linux 上で行うのが基本理由 1:de novo assembly やマッピングなどの基本的な解析部分を行うプログラムは Linux (UNIX) 用が大多数理由 2: その後の解析は Windows 版の R でもできるが Linux 版の R でもできる ( しかも速い!) Linux に慣れてる人は R を使って行う解析も Linux 上でやる Linux を使いこなせるのがベストであることは間違いない 25

用語解説リード Sequencer で読んだ塩基配列のことコンティグ異なる複数のリードが ACGT の切れ目なく連結されたもの右図では A-D の四つのコンティグ Scaffold N50 コンティグ間の位置関係を表したもの A-D-B-C ではなく A-B-C-D という関係得られた複数のコンティグを最も長いコンティグから順番に連結していったときに combined total length の 50% になったときのコンティグの長さ断片化されたゲノム配列ペアードエンド解析アセンブル A B C D 26

用語解説など Coverage( カバレッジ ) ゲノム解読したいときなどに解読するために必要とされる指標となる数値ゲノムサイズ (X) に対する sequencer で読んだ塩基配列長の和のこと一般にこの数値が高ければ高いほどよい k の数はいくつがいいの? わかりません複数の k の値を試すみたいですアセンブル結果の評価基準は? よくわかりません平均コンティグ長や N50 が論文の表でよく記述されますこのあたりの数値を大きくするだけなら k の値を小さめにすればいいのですが同時にそれはキメラコンティグを形成してしまう確率が上昇することを意味するからですアセンブルプログラムを実行して得られる出力ファイルはどんな感じ? ( 基本的に )multi-fasta 形式のファイルです >contig1 GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT >contig2 ACGATGCAGCCTTAACGA >contig3 27

FASTQ 形式 ( と FASTA 形式 ) FASTA 形式 > ではじまる一行の description 行と配列情報からなる形式 NGS の read 長は短いので実質的に一つのリードを二行で表現 >SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT FASTQ 形式一行目 : @ ではじまる一行の description 行二行目 : 配列情報三行目 : + からはじまる一行 ( の description 行 ) 四行目 : クオリティ情報 @SEQ_ID GATTTGGGGTTCAAAGCAGTATCGATCAAATAGTAAATCCATTTGTTCAACTCACAGTTT +!''*((((***+))%%%++)(%%%%).1***-+*''))**55CCF>>>>>>CCCCCCC65 http://en.wikipedia.org/wiki/fastq_format 28

塩基配列のクオリティ情報といえば Phred スコア Phred というベースコールプログラムから得られる Quality Value(QV 値 ) のこと http://en.wikipedia.org/wiki/phred_quality_score なぜ FASTQ 形式では Phred スコアそのものでクオリティ情報を表現しないの? 29

理由 :( 容量 ) 節約のため Cock et al., Nucleic Acids Res., 38: 1767-1771, 2010 FASTQ 形式中のクオリティ情報部分 Phred スコア (QUAL 形式 ) Phred スコアが X の場合 ASCII (X+33) に対応する文字コードを割り当てる 30

実習 31

R はただの統計解析フリーソフトではありません 32

NGS を用いたトランスクリプトーム解析 DNA 転写 RNA 翻訳タンパク質次世代シーケンサー (NGS) 二次元電気泳動法 GS FLX+ 5500xl SOLiD HiSeq 2000 ゲノムではなく転写されているRNAの配列決定 (Sequencing) をするのでプロテオーム RNA-Seqと呼ばれるトランスクリプトームゲノム 33

トランスクリプトームとはある特定の状態の組織や細胞中に存在する全 RNA( 転写物 transcripts) の総体様々なトランスクリプトーム解析技術マイクロアレイ cdna マイクロアレイ Affymetrix GeneChip タイリングアレイなど配列決定に基づく方法 EST SAGE など次世代シーケンサー (NGS) 電気泳動に基づく方法 Differential Display AFLP など調べたい組織でどの遺伝子がどの程度発現しているのかを一度に観察 34

トランスクリプトームとはある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域ヒト遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 遺伝子全体 ( ゲノム ) どの染色体上のどの領域にどの遺伝子があるかは調べる個体 ( 例 : ヒト ) が同じなら不変 ( 目だろうが心臓だろうが ) AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA 転写物全体 ( トランスクリプトーム ) 遺伝子 1 は沢山転写されている ( 発現している ) 遺伝子 4 はごくわずかしか転写されてない 35

トランスクリプトームとはある状態のあるサンプル ( 例 : 目 ) のあるゲノムの領域光刺激ヒト遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 遺伝子全体 ( ゲノム ) どの染色体上のどの領域にどの遺伝子があるかは調べる個体 ( 例 : ヒト ) が同じなら不変 ( 目だろうが心臓だろうが ) AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA AAAAAAA 転写物全体 ( トランスクリプトーム ) 遺伝子 2 は光刺激に応答して発現亢進遺伝子 4 も光刺激に応答して発現亢進 36

トランスクリプトーム情報を得る手段光刺激前 (T1) の目のトランスクリプトーム遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 これがいわゆる遺伝子発現行列光刺激後 (T2) の目のトランスクリプトーム遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 マイクロアレイ RNA-Seq(NGS) SAGE 37

トランスクリプトーム取得 ( マイクロアレイ ) よく研究されている生き物は多数の遺伝子 ( の配列情報 ) がわかっている遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 光刺激前 (T1) の目のトランスクリプトーム蛍光標識ハイブリダイゼーション ( 二本鎖形成 ) わかっている遺伝子 ( の配列の相補鎖 ) を搭載したチップメーカーによって搭載されている遺伝子の種類が異なる搭載されていない遺伝子 ( 未知遺伝子含む例 : 遺伝子 4) の発現情報は測定不可 38

マイクロアレイデータ遺伝子発現行列光刺激前 (T1) の目のトランスクリプトーム蛍光標識光刺激後 (T2) の目のトランスクリプトームハイブリダイゼーション ( 二本鎖形成 ) 専用の検出器で各遺伝子に対応する領域の蛍光シグナル強度を測定ハイブリダイゼーションとシグナル検出正規化 39

ハイブリダイゼーション核酸 (DNA or RNA) 分子が相補的に複合体を形成すること核酸分子に含まれる塩基は A と T(or U) または G と C というふうに相補的に結合する性質があるのでこの性質を利用 40

マイクロアレイは実績がある MammaPrint : 乳癌予後予測検査サービス 2008 年 3 月乳癌手術を受けた患者の転移再発の可能性に関する情報提供 70 遺伝子の活性を測定不必要な補助化学療法などを避けることが可能 ( ローリスク群 ) oncotype DX : 早期浸潤性乳癌の術後再発予測サービス 2007 年 2 月再発リスクの数値化および化学療法の効果予測 21 遺伝子を解析必要以上の化学療法を回避 GeneSearch : 乳癌の術中リンパ節転移迅速診断 2007 年 7 月既に臨床診断に利用されている 41

RNA-Seq データ遺伝子発現行列次世代シーケンサー (Illumina 社の場合 ) 光刺激前 (T1) の目のトランスクリプトーム配列決定ペアードエンド法断片配列の両末端が数百塩基以内の対の二種類の配列が得られる数百塩基程度に断片化シングルエンド法約 50-125 塩基二種類のアダプター配列を両末端に付加シングルエンド法の場合アダプター 1 アダプター 2 数百塩基程度 42

RNA-Seq データ遺伝子発現行列光刺激前 (T1) の目のトランスクリプトームゲノム配列にマッピング - イメージ - 50-125 塩基程度からなる配列が沢山ある - 実際 - 数百万個の配列がありどの遺伝子に対応するか不明遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 定量化 ( 例 : 生のリード数をカウント ) 正規化 ( 短い ) 配列を読んだものという意味で ( ショート ) リードなどと呼ばれる 43

ゲノムにマップ実データ ( ヒトの場合 ) マップされる側のリファレンスゲノム配列マップする側の塩基配列 (FASTQ 形式 ) chr1 chr2 1-22 番染色体 +X+Y 約 6200 万行のファイル約 3GB のサイズ約 47 万行 1 配列 (1 read) を 4 行で表現 1 配列 35 塩基長 ( この場合 ) 各 read が染色体上のどこに一致するかという座標情報を出力するのがマッピングプログラム 44

塩基配列データ遺伝子発現行列遺伝子領域の座標データがないと遺伝子発現行列は作れないマッピング結果 T1 生リード数カウント正規化遺伝子領域の座標データ遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 45

参考塩基配列データ遺伝子発現行列遺伝子領域の座標データファイル ( 例 :refflat 形式 ) A: 遺伝子シンボル B: 遺伝子名 C: 染色体番号 D: 鎖の向き (+ 鎖 or 鎖 ) E: 転写開始位置 F: 転写終結位置 G: コーディング領域の開始位置 H: コーディング領域の終結位置 I: エクソンの数 J: エクソンの開始位置 K: エクソンの終結位置座標データファイルも無料で公開されている 46

塩基配列データ遺伝子発現行列の結果ファイル対応このサンプルを次世代シーケンサーにかけると 5087097 reads ( 重複を含む塩基配列数 ) からなるデータが得られておりそのうち 744 reads が A1BG という遺伝子上にマップされていてこの遺伝子の正規化後の発現レベルは 82.9 RPKM ですよ 47

データの正規化 RPM 正規化 ( マイクロアレイなどと同じところ ) Reads per million mapped reads の略サンプルごとに読まれた総リード ( 塩基配列 ) 数が異なる各遺伝子のマップされたリード数を総 read 数が 100 万 (one million ) だった場合に補正生 read 数 : 総 read 数 = x : 1,000,000 A1BGの場合は 744 : 5,087,097 = x : 1,000,000 1000000 1000000 x 生 read数 744 146.3 総 read数 5087097 RPKM 正規化 ( 次世代シーケンサ特有 ) Reads per kilobase of exon per million mapped reads の略遺伝子の配列長が長いほど配列決定 (sequence) される確率が上昇各遺伝子の配列長を 1000 塩基 (one kilobase) だった場合に補正 1000000 1000 生 read数総 read数配列長 1000000 1000 744 82.9 5087097 1764 48

21,717 遺伝子 Bullard et al., BMC Bioinformatics, 2010 の NGS データ遺伝子発現行列様々な解析が可能 RPKM 正規化後の遺伝子発現行列 ( ファイル名 :data.txt) 14 サンプル (A: 7 サンプル B:7 サンプル ) 49

次世代シーケンサーの無限の可能性新規 X の同定 X = エクソン, 遺伝子, T1 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 T2 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 X = エクソン X = 遺伝子 50

次世代シーケンサーの無限の可能性新規ゲノム配列決定新規 X の同定遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 X = エクソン X = 遺伝子 T1 生リード数カウント正規化遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 T1 生リード数カウント正規化遺伝子 1 遺伝子 2 遺伝子 3 遺伝子 4 これらはよりよい遺伝子発現行列を得るための基礎情報充実に貢献 51

参考電気泳動データ遺伝子発現行列マイクロアレイ ( や塩基配列データ ) では遺伝子発現行列が出発点電気泳動データは遺伝子発現行列の作成が簡単ではない比較する実験数が増えるほど同一遺伝子の認識 ( アラインメント ) 精度が下がるから遺伝子発現行列理想的なアラインメント A B C D E F G H I J K L M N 53

参考電気泳動データ遺伝子発現行列マイクロアレイ ( や塩基配列データ ) では遺伝子発現行列が出発点電気泳動データは遺伝子発現行列の作成が簡単ではない比較する実験数が増えるほど同一遺伝子の認識 ( アラインメント ) 精度が下がるから遺伝子発現行列現実 A B C D E F G H I J K L M N H I 54

参考電気泳動データ遺伝子発現行列マイクロアレイ ( や塩基配列データ ) では遺伝子発現行列が出発点電気泳動データは遺伝子発現行列の作成が簡単ではない比較する実験数が増えるほど同一遺伝子の認識 ( アラインメント ) 精度が下がるから遺伝子発現行列現実 A B C D E F G H I J K L M N G の発現パターンは本当に全部 G 由来?! 55

ここまでのまとめ様々なトランスクリプトーム解析技術を紹介マイクロアレイ配列決定に基づく方法次世代シーケンサー (NGS) 電気泳動に基づく方法遺伝子発現行列どの実験技術由来データも遺伝子発現行列の形式に変換可能 56

バイオインフォマティクス要素技術相関係数やエントロピーなどの応用例を紹介二群間比較組織特異的遺伝子 Sequence logo 分類 ( 診断 ) クラスタリング同一ピーク同定 57

心臓胃脳肺様々な遺伝子発現行列光刺激 1. 二群間比較 2. 様々な組織 ( 条件 ) 3. 時系列データ A A B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 A A B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 A xi, 1 A B B xi, 2 xi, 2 xi, 2 x i,1 x i,2 x i,3 x i,4 x i,1 x i,2 x i,3 x i,4 A A B B xn, 1 xn, 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 理想的なパターンと似たパターンを示す遺伝子を検出 58

解析例 ( 二群間比較 ) 二群間比較 A: 癌サンプル B: 正常組織サンプル腫瘍マーカー候補の探索 A A B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 A A B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 A A B B xi, 1 xi, 2 xi, 2 xi, 2 A A B B xn, 1 xn, 2 xn, 2 xn, 2 癌と正常で発現の異なる遺伝子 ( 発現変動遺伝子 ) を同定 59

解析例 ( 二群間比較 ) パターンマッチング法理想的なパターン y との類似度が高い順にランキング相関係数 r 1 n 1 y 1 n 1 n i1 ( x i i n ( xi x)( yi y) 1 ( 1 r 1) n 2 1 2 x) ( yi y) n 1 i1 r r r gene1 gene2 gene3 18.85 0.994 36.320.52 18.85 0.842 42.870.52 6.41 0.825 14.880.52 60

n genes 解析例 ( 二群間比較 ) パターンマッチング法理想的なパターン y との類似度が高い順にランキング A 群 B 群 A 群 B 群相関係数 (r) 1 Sort by r 高発現低発現相関係数 (r) -1 61

参考解析例 ( 二群間比較 ) Golub et al., Science, 1999. A:ALL(27サンプル ) B:AML(11サンプル ) 急性リンパ性白血病急性骨髄性白血病発現の異なる遺伝子群を同定するとともに分類 ( 診断 ) に適用 62

実習 ( 二群間比較 ) 63

実習 ( 二群間比較 ) 64

心臓胃脳肺様々な遺伝子発現行列光刺激 1. 二群間比較 2. 様々な組織 ( 条件 ) 3. 時系列データ A A B B x 1, 1 x 1, 2 x 1, 2 x 1, 2 A A B B x 2, 1 x 2, 2 x 2, 2 x 2, 2 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 x 1,1 x 2,1 x 1,2 x 2,2 x 1,3 x 2,3 x 1,4 x 2,4 A xi, 1 A B B xi, 2 xi, 2 xi, 2 x i,1 x i,2 x i,3 x i,4 x i,1 x i,2 x i,3 x i,4 A A B B xn, 1 xn, 2 xn, 2 xn, 2 x n,1 x n,2 x n,3 x n,4 x n,1 x n,2 x n,3 x n,4 脳特異的高発現心臓と脳特異的高発現肺特異的低発現理想的なパターンと似たパターンを示す遺伝子を検出 65

N genes 解析例 ( 多サンプル間比較 ) パターンマッチング法理想的なパターン y との類似度が高い順にランキング y 例 : 心臓特異的パターンを示す遺伝子群の検出 66

N genes 解析例 ( 多サンプル間比較 ) パターンマッチング法理想的なパターン y との類似度が高い順にランキング y 例 : 心臓特異的パターンを示す遺伝子群の検出 67

実習 ( 組織特異的遺伝子検出 ) 68

実習 ( 組織特異的遺伝子検出 ) 入力データ 1( 遺伝子発現データファイル :sample15.txt) 入力データ 2( テンプレートパターンファイル :sample15_cl.txt) 69

実習 ( 組織特異的遺伝子検出 ) 70

解析例 ( 分類 ) K-Nearest Neighbor (K- 最近傍法 ) 目的 : 未知サンプル X を A または B に分類未知サンプル X からの距離がもっとも近い K 個のサンプルのうち所属するクラスが最も多いクラスに分類 K=1 A1 A5 B1 B5 X は B 群だと分類 A2 A4 A3 X B2 B3 B4 K=3 A1 A5 B1 B5 X は A 群だと分類 A2 A4 A3 X B2 B3 B4 71

72 距離 ( 非類似度 ) の定義目的 :x と y の発現パターンの距離 D を定義したい似ていれば D が 0 になるようにしたい 1) 1 ( ) ( 1 1 ) ( 1 1 ) )( ( 1 1 1 2 1 2 1 xy xy y x y x r r y n x n y x n n i i n i i n i i i 相関係数 1 0 1 r r r y x y x y x の発現パターンがほぼ正反対との発現パターンがばらばらとの発現パターンが酷似と 2) (0 1 D r 距離 D 2 1) ( 1 1 1 0 1 0 0 1 1 1 D r D r D r X B2 n i i x i y 1 2 ) ( ユークリッド距離 D xy などでも可

解析例 ( クラスタリング ) 階層的クラスタリング発現パターンの類似した遺伝子 ( サンプル ) を集めて系統樹を作成 73

参考解析例 ( クラスタリング ) サンプル間クラスタリング Bittner et al., Nature, 2000 悪性度の高い癌のサブタイプを発見 74

解析例 ( クラスタリング ) 階層的クラスタリング 1 遺伝子間距離を計算例 :4 遺伝子の場合距離 D 1 r (0 D 2) 相関係数 r 相関係数 r 相関係数 r... 1,2 1,3 1,4 0.98 0.01 0.78 距離 D 1,2 距離 D 距離 D 1 r 距離 D 2 1,3 1,4 (0 D 1) 1 0.98 0.01 2 1 ( 0.01) 0.50 2 1 ( 0.78) 0.89 2 75

解析例 ( クラスタリング ) 階層的クラスタリング 2 樹形図を作成 1 2 3 4 D 1.0 0.5 0.0 平均連結法の場合 0.68 1 2 3 4 ( D D D 4) / 4 1, 3 1, 4 2, 3 D2, (0.50 0.89 0.47 0.84) / 4 単連結法の場合 min( D1, 3, D1, 4, D2, 3, D2, 4) 0.47 完全連結法の場合 max( D1, 3, D1, 4, D2, 3, D2, 4) 0.89 76

実習 ( サンプル間クラスタリング ) 解析したいのは 2010 沖縄講演資料フォルダ中の data.txt ファイル 77

実習 ( サンプル間クラスタリング ) 1R を起動しファイル - ディレクトリの変更で解析したいファイル (data.txt) を置いてあるディレクトリに移動 2 念のため確認 1 2 78

実習 ( サンプル間クラスタリング ) 3 入力ファイル名の部分を変更したものを用意し 4R Console 上でコピペ 3 4 79

バイオインフォマティクス要素技術相関係数やエントロピーなどの応用例を紹介二群間比較組織特異的遺伝子 Sequence logo 分類 ( 診断 ) クラスタリング同一ピーク同定 80

クラスタリングの考えを同一ピーク認識に応用 2 ピーク間距離を計算 2 クラスター間距離が最短のものをマージ 1 分子量でソート 2 9 33 3 12 4 1 52 4 81

Schug et al., Genome Biol., 6, R33, 2005 組織特異的遺伝子検出にエントロピーを利用遺伝子 i のエントロピー H(x ) i N: 組織数 (j の数 ) = 8 H の取りうる範囲 :0 H log 2 N 0 H 3 N p j ij log pij pij x 1 2 ( ), where ij / N j1 x ij 組織特異的遺伝子は低いエントロピーそうでないものは高い値 82

実習 ( 組織特異的遺伝子検出 ) 83

実習 ( 組織特異的遺伝子検出 ) 84

実習 ( 組織特異的遺伝子検出 ) 85

Schneider and Stephens., Nucleic Acids Res., 18, 6097-6100, 1990 IC 配列モチーフなどの表現にエントロピーを利用 position i の情報量 IC i ( log 2 2 N) H( x i ) N: 塩基の種類数 = 4 H の取りうる範囲 : 0 H log 2 N Sequence logo はエントロピーを計算してるだけです p 1,4 = 90% p 5,3 = 50% p 5,1 = 50% 86

実習 (Sequence logo) 87

実習 (Sequence logo) data_seqlogo.txt 88

まとめ次世代シーケンサー (NGS) を活用した実験解析についてトランスクリプトーム解析など最新の研究技術について学ぶ R を利用することで NGS から得られる塩基配列データの様々な解析が可能プログラミング能力がなくても使いこなし術があれば NGS 解析を全部自力でやるには Linux のノウハウがある程度必要であることを実感してもらうバイオインフォマティクスの基本的なスキルを身につけることが重要バイオインフォマティクス技術者認定試験合格を目指せ相関係数やエントロピーなどの要素技術を駆使すれば様々なデータ解析が可能であることを紹介次世代シーケンサデータも R のコピペで解析可能頭脳労働バイオインフォ要素技術の習得は大事だがそれだけでも様々な種類の実験データに対応可能 10:00-19:00( 完全週休二日 ) の研究生活です 89