NGSハンズオン講習会 - PDF Free Download

205.07.27 版配布する USB メモリ中の hoge フォルダをデスクトップにコピーしておいてください NGS ハンズオン講習会 :R 基礎東京大学大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/

Contents( 全体 ) 7 月 22 日 ( 水 ):84 83 名 Bio-Linux 8 と R のインストール状況確認基本自習 ( 門田寺田先生 ) 7 月 23 日 ( 木 ):92 90 名 Linux 基礎 Linux コマンドなど UNIX の基礎の理解 ( 門田 ) 7 月 24 日 ( 金 ):85 83 名スクリプト言語シェルスクリプト ( アメリエフ株式会社服部恵美先生 ) 7 月 27 日 ( 月 ):93 9 名スクリプト言語 Perl( アメリエフ服部先生 ) 7 月 28 日 ( 火 ):9 90 名スクリプト言語 Python( アメリエフ服部先生 ) 7 月 29 日 ( 水 ):94 88 名データ解析環境 R( 門田 ) R 基礎 ( 初級 ):R 言語の基礎 ( インストールから利用まで ) R 基礎 2( 初級 ): ファイルの読み込み行列演算の基本 R 各種パッケージ ( 中級 ): パッケージのインストール法と代表的なパッケージの利用法 7 月 30 日 ( 木 ):96 9 名データ解析環境 R( 門田 ) Bioconductor の利用法 ( 中級 ): データの型やバージョンの違い Bioconductor の利用法 2( 中級 ):FASTA/FASTQ ファイルの各種解析 8 月 3 日 ( 月 ):89 84 名 NGS 解析基礎 ( アメリエフ山口昌雄先生 ) 8 月 4 日 ( 火 ):85 80 名 NGS 解析ゲノム Reseq 変異解析 ( アメリエフ山口先生 ) 8 月 5 日 ( 水 ):86 8 名 NGS 解析 RNA-seq 統計解析 ( 前半 : 山口先生後半 : 門田 ) 8 月 6 日 ( 木 ):04 98 名 NGS 解析 ChIP-seq( 理研森岡勝樹先生 ) 2

各種ソフトの場所 2 4 2Excel は行列データファイルの確認用門田は EmEditor というテキストエディタを使っています 3 受講生の心構えでも書いていますが貸与 PC のほとんどは R ver. 3..2, 3..3, 3.2.0, 3.2. のいずれか ( または複数 ) がインストールされています基本的には最新版を利用 4 エディタは R 付属のものを推奨主目的は二重クォーテーション問題の回避 3

Contents R 基礎 ( 初級 ) おさらいコード内部の説明 ( ファイルの読み込み行列演算の基礎 ) リアル RNA-seq カウントデータ ( 数値行列データ ) R 各種パッケージ ( 中級 ): 代表的なパッケージの利用法 ( パッケージのインストール法 ) 基本情報取得 ( コンティグ数配列長 N50 GC 含量 ) 任意の領域の切り出し GC 含量計算部分の説明 4

おさらい hoge フォルダ中の r_seq.html をダブルクリックしてローカルで利用するのがいいかもしれませんここで示すようなクリックして眺めるだけのネットサーフィン系の部分は手を動かさずに前のスライドを見ているだけのほうがいいかもしれません 5

おさらい基本的な利用法 PDF 中の解析基礎 2 をおさらいします 6

解析基礎 2 目的 : アノテーションファイル (annotation.txt) 中の第列目に対してリストファイル (genelist.txt) 中の文字列と一致する行を抜き出して hoge.txt というファイル名で出力したい入力 : アノテーションファイル (annotation.txt) 出力 :hoge.txt 入力 2: リストファイル (genelist.txt) 7

解析基礎 2 目的 : アノテーションファイル (annotation.txt) 中の第列目に対してリストファイル (genelist.txt) 中の文字列と一致する行を抜き出して hoge.txt というファイル名で出力したい 8

解析基礎 2 作業ディレクトリはデスクトップ hoge hoge フォルダ中に annotation.txt と genelist.txt が存在するという前提貸与 PC は黒矢印部分が kadota ではなく iu 9

基本はコピペ一連のコマンド群をコピーして作業ディレクトリはデスクトッ 2R Console 画面上でペーストブラウザがプ hoge Internet hogeフォルダ中 Explorerの場合は CTRLとALT にannotation.txt キーを押しながらコードのとgenelist.txt 枠内で左クリックすると全選択できますが存在するという前提 2 0

実行結果出力ファイル名として指定した hoge.txt が生成されているのがわかる list.files() で表示される結果と実行後の hoge フォルダの中身は当然同じです実行前の hoge フォルダ実行後の hoge フォルダ

実行結果 out というオブジェクトの中身を write.table という関数でファイルに出力していますこの場合出力ファイル hoge.txt の中身は R コンソール画面中で out と打ち込むことで見られる実行後の hoge フォルダ 2

色の説明 R コード中の色の使い分けについて説明します 3

応用このサンプルコードは列目でキーワード検索する場合別のリストファイルを読み込んで 4 列目で検索したい場合のやり方を示します 4

解答例. 目的のキーワードリストを含むファイルを作成し ( 例 :list.txt) 2. 該当箇所を変更し Rコンソール画面上でコピペメモ帳など任意のエディタでリストファイル (list.txt) を作成 5

解答例. 目的のキーワードリストを含むファイルを作成し ( 例 :list.txt) 2. 該当箇所を変更し Rコンソール画面上でコピペ一連の作業手順を記述したスクリプトをつのファイルとして保存することをお勧め 6

ありがちなミス作業ディレクトリの変更を忘れているため in_f で指定した最初のファイルの読み込み段階でエラーが出るつまり実際に行ったフォルダ中には annotation.txt というファイルは存在しないということ 7

ありがちなミス 2 必要な入力ファイルが作業ディレクトリ中に存在しないこの場合 in_f2 で指定した genelist.txt が存在しないためそれの読み込み段階でエラーが出ているそれゆえその情報を用いているコマンド部分でエラーが出ている 8

ありがちなミス 3 出力予定のファイル名と同じものをエクセルなど別のプログラムで開いているため最後の write.table 関数のところでエラーが出る対処法は出力ファイル名を変更するか開いている別のプログラムを閉じる 9

ありがちなミス 4 実行スクリプトをコピーする際最後の行のところで改行を含ませずに R Console 画面上でペーストしたため最後のコマンドが実行されない ( 出力ファイルが生成されない ) これも比較的ありがちなパターンですコピペ後に無意識にリターンキーを押すことを心がけるだけでもよいでしょう 20

警告メッセージ list.txt ファイル作成時に membrane と打った後に改行を入れた場合と 2 入れない場合の挙動の違いを把握し後学のために警告メッセージの意味を理解しておくとよいこの場合は結果には影響していないことがわかる R は警告メッセージの記述内容が比較的分かりやすいのでよく読むべし 2 2

コード内部の説明コードの中身を説明します黒枠部分を再度コピペ 23

読み込み in_f で指定したファイルを読み込め 2 読み込むファイルの最初の行はヘッダー部分 3 ファイルの区切り文字はタブです 4 読み込んだ結果を data という名前で取り扱う 4 2 3 24

行列 data 2 data と打ってリターン入力ファイルの中身を正しく読み込めていることがわかる 2header=TRUE としているので 3 このように見えて列名として認識される 3 25

dim で行数と列数を表示オブジェクト data の行数と列数はと 4 2 ウェブページ中の表記が灰色なのは特にやらなくてもいいコマンドだから 2 26

行列の要素へのアクセス行列 data の要素へのアクセスは [ 行, 列 ] humei は読み込み元ファイルの annotation.txt 中では 7 行 4 列目だが 2 行目をヘッダー行としているので 3 6 行 4 列目とする必要がある利用例はファイル読み込み時に x 行 y 列目に不具合があるのようなエラーが出た時のトラブルシューティングなど 2 3 27

Tips: 上下左右の矢印キー上矢印キーを押すと直前に打ったコマンドが表示される最初から全部打ち直すのではなく上下左右の矢印キーを有効に利用し最小限の労力で打つべし! 28

行列の要素へのアクセス行列 data の要素へのアクセスは [ 行, 列 ] 2 行目の情報のみ抽出読み込み時に head=true としていたのでヘッダー行がついていることが分かる 2 29

行列の要素へのアクセス行列 data の要素へのアクセスは [ 行, 列 ] 2 列目の情報のみ抽出 30

行列の要素へのアクセス行列 data の要素へのアクセスは [ 行, 列 ] param 列目の情報のみ抽出 2param にはという数値が代入されていたのでこうなる 2 2 3

Tips: 関数とオプション参考行列 data の最初の数行を表示したい場合は head 関数を利用 n=3 というオプションを利用すると最初の 3 行分のみ表示関数ごとに様々なオプションを利用可能ですこのあたりは 2Linux とよく似ている 2 32

Tips: タブ補完参考列番号を指定する以外にも特定の列を表示するやり方がある head=true で入力ファイルを読み込むと列の名前を利用することができる subcellular_location 列の情報を抽出したい場合は 2 data$su くらいまで打ち込んでから Tab キーを押す 2 33

Tips: タブ補完参考列名中の su からはじまる文字列を補完して表示してくれる Tab キーを用いた補完機能という意味でタブ補完というこのテクニックは Linux でも利用可能 2 34

Tips:table 関数参考 table 関数はベクトル中の要素ごとの出現回数を返す NGS データ中の特定のリードの出現回数 ( 後述 ) やアノテーションファイル中の染色体ごとの遺伝子数など様々な局面で利用可能 35

Tips: ソート参考 sort 関数と併用することで全体像を俯瞰可能例えば nuclear に局在する遺伝子数が最も多く 4 個であったなどが簡単にわかる 36

Tips:is.element 関数 hoge ベクトルに対して nuclear の文字が存在する場所を TRUE 存在しない場所を FALSE として返す as.character 関数は文字列ベクトルとして取り扱いたい場合に利用 37

Tips: 二重クォーテーション二重クォーテーションが自動で変更されるエディタは非推奨です日本語の二重クォーテーションもだめです Microsoft Word や PDF ファイル中のコードのコピペ時によくハマります 38

目的をおさらい目的は数万 ~ 数百万行からなるファイルを読み込んで特定のキーワードを含む行のみ取り出すテクニックを習得 39

目的をおさらい論理値ベクトル obj を用いて TRUE の要素に対応する行を抽出している入力 2: リストファイル (genelist.txt) 40

目的をおさらいコード作成当時は as.character 関数を用いてデータの型を文字列ベクトルに揃えていた少なくとも現在 (R ver. 3..3 以降 ) はこの関数がなくても大丈夫なようだ同じ関数でもバージョンによって挙動が異なるということ ( バージョンの違いの一例 ) 4

と 2 は手順が異なるだけで実質的に同じです genelist.txt 42

このコードはヘッダー行がある場合のものです入力 : annotation.txt 出力 : hoge2.txt 43

このコードはヘッダー行がない場合のものです入力 : annotation2.txt 出力 : hoge3.txt 44

ヘッダー行がある場合ヘッダー行がない場合 45

カウントデータ目的サンプルの RNA-Seq データ mapping リファレンス配列 : ゲノム教科書 p8-89 教科書カウントデータとはマップされたリード数をカウントしたデータのこと以下の例ではサンプルなので列分のデータしかないが一般には複数サンプルのデータを取得しサンプル間比較が行われるので複数の列からなるそれゆえ数値ベクトルではなく数値行列詳細は 8/5 の RNA-seq 前半で count 遺伝子遺伝子 2 遺伝子 3 遺伝子 4 47

数値行列実験の詳細には立ち入らないが 3 生物種間比較を行った公共 RNA-seq カウントデータ (Blekhman et al., Genome Res., 200) を用いて R の王道的な使い方である数値行列解析のテクニックを伝授 8/5 の統計解析のところでこのデータを利用予定です 2 48

xls 形式ファイルも OK xls 形式のエクセルファイルを読み込むことができる ( 但しこのファイルは壊れているなどというメッセージが出ており実はタブ区切りテキストファイルなのに.xls という拡張子が無理やりつけられているというオチかもしれない )2 それほど大きなサイズでなければネットワーク経由で直接読み込むこともできる他に read.csv や readlines 関数などを駆使してファイルを読み込むことができる 2 49

# 以降は無視される 3 先頭に # がついているものは無視される ( 実行されない ) つまり 2 のコマンドは無効でのコマンドのみが実行されるだけではこのファイルをどこから取得したのかわからないがこのようにコメントアウト (# をつけること ) して完全な URL 情報がわかるようにしているこのあたりは Linux のシェルスクリプトと同じ 3 2 50

list.files, file.info getwd() で作業フォルダの確認 2list.files() で解析したいファイルの存在確認 supp を含むファイル名のもののみ出力させるテクニック 3file.info() で 4 ファイルサイズ ( 約 4.5MB) などの詳細情報がわかる 2 3 4 5

Linux の場合 2 3 参考 ( ほぼ ) 対応する Linux コマンド 4 2 3 4 52

読み込み確認黒枠部分をコピペして読み込めていることを確認 2 コピー時に 3 灰色部分は反転しないのでコピーできているか不安かもしれないがちゃんとコピーできているので気にしない 2 3 53

読み込み確認右クリックでペースト 54

読み込み確認 read.table 関数を用いて supptable.xls を読み込む際ヘッダー行あり (header=t) としてまた 2( 行名として用いるため ) 列目を行名 (row.names=) としているこのため残りのデータは 20,689 行 55 列となる 55

supptable.xls 確かに入力ファイル (supptable.xls) はの幅的にも 55 列くらいありそうだと納得できるまた 22 列目以降からすぐにカウントデータになっているわけではないこともわかる 2 56

supptable.xls 行列の一部を抽出して表示行列 hoge の -7 行目および 2-6 列目を抽出して表示こんな感じでうまく読み込めていることを確認する 2 57

head 関数 head 関数を用いて最初の行分のみ表示 55 列分もあるので行だけ表示させるのでも結構な画面サイズを要する 58

supptable.xls 別の表現方法黒枠の列以降が目的のカウント情報であることが読み取れるこれは Illumina の RNA-seq カウントデータ Illumina は実験単位をラン (Run; R) で表現するまたつの Run 中に複数のレーン (Lane; L) があるので複数サンプルを流せるそれゆえ RL.HSM は Run の Lane に流した HSM というサンプルのカウントデータと読み取る 59

supptable.xls ヒト (HS) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) チンパンジー (PT) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) アカゲザル (RM) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) このデータは 3 種類の生物種間比較ヒト (Homo sapiens; HS) チンパンジー (Pan troglodytes; PT) アカゲザル (Rhesus macaque; RM) 生物種ごとにオス 3 匹メス 3 匹雄雌を考慮しなければ biological replicates ( 生物学的な反復 ) は 6 黒枠はヒトのオスで個体識別番号が 3 のデータ (HSM3) と解釈する 60

supptable.xls ヒト (HS) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) チンパンジー (PT) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) アカゲザル (RM) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) よく見ると Run3 の Lane6 で流した HSM3 (i.e., R3L6.HSM3) 以外にも 2Run4 の Lane で流した同じ HSM3 のデータ (i.e., R4L.HSM3) が存在するこれらは同一個体由来データであるつまり technical replicates ( 技術的な反復 ) は 2 である 2 6

supptable.xls ヒト (HS) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) チンパンジー (PT) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) アカゲザル (RM) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) 個体ごとにサンプルを分割して得たデータが全個体について存在する technical replicates ( 技術的な反復 ) は 2 62

colnames 関数ヒト (HS) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) チンパンジー (PT) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) アカゲザル (RM) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) 行列 hoge の列名を表示目的のカウントデータが 20 列目以降にあることが分かる 2 63

length は要素数ヒト (HS) オス 3 匹 (M, M2, M3) メス 3 匹 (F, F2, F3) チンパンジー (PT) オス 3 匹 (M, M2, M3) メス 3 匹 (F, F2, F3) アカゲザル (RM) オス 3 匹 (M, M2, M3) メス 3 匹 (F, F2, F3) 行列 hoge の列名の 20-55 番目の要素のみを表示 (55 20 +)=36 個の要素数と手計算できるが length 関数を用いて 2 オリジナルが 55 個の要素 3 サブセットの要素数が 36 個という結果を得ることもできる length は要素数分だけループを回したりする際にも用いられる 2 3 64

列の並びがイマイチヒト (HS) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) チンパンジー (PT) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) アカゲザル (RM) 2 オス3 匹 (M, M2, M3) メス 3 匹 (F, F2, F3) 行列 hoge 中の 20-55 番目の列を抽出した結果を data に格納これが subsetting の基本形 2 行列 data の最初の行目のみ表示うまく抽出できていることがわかる 3 しかしよく見ると生物種ごとのようなきれいな並びになっていないのでイマイチ 65

嘘のようなホントの話ヒト (HS) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) チンパンジー (PT) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) アカゲザル (RM) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) 全角はアリエマセン 66

列名で並び替えヒト (HS) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) チンパンジー (PT) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) アカゲザル (RM) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) header=true としたおかげで data$ 列名 hoge$ 列名などとして特定の列のみ取り扱える 67

cbind 関数ヒト (HS) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) チンパンジー (PT) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) アカゲザル (RM) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) 任意のベクトル同士を列 (column) 方向で結合 (bind) するのが cbind 関数列を単純に結合することができる 68

cbind 関数ヒト (HS) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) チンパンジー (PT) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) アカゲザル (RM) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) こんな書き方もできるの拡張版として HSM, HSM2, HSM3, HSF,, RMF2, RMF3 のような並びにしておけば後の発現変動解析のときにいろいろと便利 2 同一個体の反復データを足す場合これは technical replicates データをマージ ( 合併 ) させることに相当する一般的な発現変動解析は technical replicates データをマージして biological replicates のみからなるデータにしたものを入力として行う 2 69

元データを整形ここまでの説明で例題 4 の下記コードの中身がかなり理解できるはずです 2 70

元データを整形例題 4 をコピペ Internet Explorer のヒトは CTRL と ALT キーを押しながらコードの枠内で左クリックすると全選択できます 7

元データを整形正常終了時の状態出力ファイル (sample_blekhman_36.txt) の中身はヘッダー行や行名部分を除くと 220,689 行 36 列からなるカウントデータ行列 2 72

データ概観最初の 2 行分を表示ヒト (HS) チンパンジー (PT) アカゲザル (RM) で意図通りに並び替えできていることがわかる 73

データ概観ヒト (HS) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) チンパンジー (PT) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) アカゲザル (RM) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) 全体的に四角で囲った technical replicates( 同一個体の反復 ) 間の類似度が biological replicates( 同一生物種の別個体 ) 間の類似度よりも高そうであることがわかる 74

EXCEL で概観出力ファイル (sample_blekhman_36.txt) を EXCEL で眺めるとこんな感じは ENSG0000000097 という遺伝子領域上に 2,262 リードマップされたことを表す 2 は ENSG0000000460 の遺伝子領域上に 3 リードマップされたことを表すもしこの 2 つの配列長が同じならマップされたリード数が多い前者の発現レベルが高いという理解でよい 2 75

EXCEL で概観サンプル ( 列 ) ごとにマップされた総リード数を計算した結果サンプル間比較の場合にはこの総リード数を揃えるのが基本戦略 76

EXCEL で概観もし揃えずに例えばと 2 のサンプル間比較 ( 発現変動遺伝子 (DEG) 検出 ) を行うとのほうが 2 に比べて全体的に (,80,009 /,346,55 =.34) 倍高発現な状態であることを意味するのでで高発現となる DEG が多く検出されるだろうもちろんそれは間違い 2 77

colsums と range colsums 関数は列ごとの総リード数を調べるときに便利 3 総リード数の最小と最大を調べる場合は range 関数を利用する 2 3 2 78

apply, min, max 2 行列演算といえば apply 関数行列 data を入力として列ごと (MARGIN=2) に 2sum 関数を実行せよという意味総リード数の最小と最大は range 関数でなくても min と max 関数を用いて別々に計算してもよい様々な関数を紹介しているが自分が使う際はどれか一つでよい一度でも見ておけば少しでも記憶に残るだろうという思想のもと羅列的に紹介している 79

colmeans, rowmeans 2 列ごとにマップされたリード数の平均を算出 2colMeans 関数も同じ機能 3 行ごとにマップされたリード数の平均を算出 4rowMeans 関数も同じ機能 5 行ごとにマップされたリード数を算出 rowsums 関数は低発現遺伝子のフィルタリング時にも利用される 3 4 5 80

EXCEL と比較 EXCEL 上での見た目とも一致してますね 8

summary 関数参考サンプルごとの要約統計量を概観する場合によく用いるここでは最初の 6 サンプル分 (HS 群のメス ) に絞って表示私の最初の着眼点は黒枠のあたり特に st Qu. ( 第一四分位数 ) が全 6 サンプルで 0 であることから 20,689 遺伝子中の少なくとも 25% はゼロカウントであることがわかる 82

summary 関数参考次に見るのは 2Median の値これは 2nd Qu. ( 第二四分位数 ) と同じであるサンプル全体にわたってここを概観するそして低発現遺伝子のフィルタリングの際に ( ここでは最初の 6 サンプル分しか示していないが ) マップされたリード数が 5 以下のものを除く処理を行うと半分以上が落とされるだろうなどの見込みをつける 2 2 83

summary 関数参考ちなみに私は 3Mean ( 平均値 ) をほとんど見ません一応見ますが重要視していません黒枠内の数値の関係 (Mean > 3rd Qu.) からごく一部の異常に高発現 ( リード数の多い ) の遺伝子の影響がカナリ大きそうだからこの種の外れ値の効果を排除できない Mean のような要約統計量は使わないほうがよいと判断します 3 3 84

実用上は総リード数補正 (RPM 補正 ) Mortazavi et al., Nat. Methods, 2008 総リード数を 00 万など一定の値に揃えるベーシックな補正外れ値に影響されやすい TMM 補正 (edger パッケージ ) Robinson and Oshlack, Genome Biol., 200 高発現側と低発現側で一定数をトリムして外れ値の影響を排除 TbT 補正 (TCC パッケージ ) Kadota et al., Algorithms Mol. Biol., 202 TMM を含む edger ( や DESeq) を内部的に利用して高発現側と低発現側の外れ値に相当する発現変動遺伝子 (DEG) をより正確に排除することで頑健な正規化を達成 DEG-elimination strategy (DEGES) の基本形を提唱した論文 DEGES 補正 (TCC パッケージ ) Sun et al., BMC Bioinformatics, 203 TCC 原著論文サンプル間比較の場合は R の発現変動解析用 R パッケージをそのまま利用すればよい ( うまくデータの正規化を行ってくれる ) 8/5 の統計解析のところで発現変動解析を行う予定です DEGES を一般化してより高速かつ頑健な正規化を達成 edger や DESeq ( 後に DESeq2) の通常の手順を内部的に繰り返し実行して頑健な結果を得る枠組みを提供 Multi-group comparison でも TCC の枠組みが有効であることを示した論文が近々 85

クラスタリング入力ファイルは 20,689 遺伝子 36 サンプルのカウントデータファイルヒト (HS) チンパンジー (PT) アカゲザル (RM) の 3 生物種のデータ各 2 サンプル TCC パッケージを用いてこれのサンプル間クラスタリングを行います 2 86

クラスタリング出力は hoge7.png という名前の PNG ファイル 2 サイズは 700 400 ピクセルこれは論文の図としても使えるレベル ( 実際我々の論文中でも使っている ) 2 hoge7.png ヒト (HS) チンパンジー (PT) アカゲザル (RM) 87

クラスタリングヒト (HS) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) チンパンジー (PT) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) アカゲザル (RM) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) hoge7.png 全個体について同一個体を分割した technical replicates のデータで末端のクラスターを形成していることが分かるこれは technical replicates のデータ同士の類似度が非常に高いことを示している妥当ですよねヒト (HS) チンパンジー (PT) アカゲザル (RM) 88

クラスタリングヒト (HS) オス 3 匹 (M, M2, M3) メス 3 匹 (F, F2, F3) チンパンジー (PT) オス 3 匹 (M, M2, M3) メス 3 匹 (F, F2, F3) アカゲザル (RM) オス 3 匹 (M, M2, M3) メス 3 匹 (F, F2, F3) hoge7.png 統計的手法で2 群間比較 ( 例えばMales vs. Females) をする目的は同一群内の別個体 (biological replicates) のばらつきの程度を見積もっておき ( モデル構築 ) 比較する2 群間で発現に変動がないという前提 ( 帰無仮説 ) からどれだけ離れているのかをp 値で評価することである p 値が低ければ低いほど発現変動していない( 帰無仮説に従う ) とは考えにくく帰無仮説を棄却して発現変動している (DEGである) と判定することになるヒト (HS) チンパンジー (PT) アカゲザル (RM) 89

サブセット抽出と整形統計的手法の多くは biological replicates のデータを前提としている technical replicates のデータをマージ (merge; collapse ともいうらしい ) したものを作成 3 出力ファイルは sample_blekhman_8.txt サンプル名部分は必要最小限の情報のみにしている 2 3 90

クラスタリング 20,689 遺伝子 8 サンプルの biological replicates のみからなるカウントデータでクラスタリング 2 9

クラスタリングヒト (HS) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) チンパンジー (PT) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) アカゲザル (RM) オス3 匹 (M, M2, M3) メス3 匹 (F, F2, F3) hoge8.png 36 サンプルのときの結果と同様全体的なトポロジーは同じこのクラスタリング結果を眺めるだけで DEG 検出結果のイメージは大体つかめる例 : HS vs. RM で得られる DEG 数のほうが HS vs. PT で得られる DEG 数よりも多そう例 2: ヒトはオス vs. メスでの DEG 数は 0 に近いだろう例 3:RMM2 が外れサンプルっぽいのでこれを除去すれば生物種間比較時に DEG 数が増えるだろう 8/5 の統計解析のところで発現変動解析を行う予定ヒト (HS) チンパンジー (PT) アカゲザル (RM) 92

https://ja.wikipedia.org/wiki/fasta FASTA 形式 R で multi-fasta ファイルを読み込んで自在に解析できますゲノム配列解析 FASTA 形式ファイルの解析ここでは全体像を完全に把握すべく hoge4.fa ファイルを仮想ゲノム配列ファイルとして取り扱う 94

ゲノム配列実際のゲノム配列はここからも取得可能 R で染色体ごとの配列長や GC 含量の計算ができる 95

入力と出力の関係入力 : hoge4.fa multi-fasta ファイルを読み込んでトータルの配列長染色体数 ( コンティグ数 ) 配列長の平均中央値最大値最小値 N50 GC 含量を計算した結果を返すコードを実行してみよう出力 : hoge.txt 96

基本情報取得ここですコードの最初のほうに入力ファイルと出力ファイルを記述するのでコピペで実行した結果としてどういう名前のファイルが出力されるべきかわかる hoge4.fa は hoge フォルダ中にもありますが 2 ここからも右クリックでダウンロードできます 2 97

getwd と list.files 例題の入力ファイル (hoge4.fa) をダウンロード 2R 上で作業ディレクトリの確認 3 作業ディレクトリに解析したい入力ファイルがあることを確認 2 3 98

コピペ一連のコマンド群をコピーして 2R Console 画面上でペーストブラウザが Internet Explorer の場合は CTRL と ALT キーを押しながらコードの枠内で左クリックすると全選択できます 2 99

実行結果コピペ後に list.files() で 2 出力ファイル名として指定した hoge.txt が作成されていることを確認 2 00

実行結果出力ファイルをテキストエディタや Excel で眺めてもよいがオブジェクト tmp の中身を出力しているだけなので R 上で眺めている 0

実行結果 contig_ の配列が最短 contig_2 の配列が最長であることがわかる入力と出力の関係を確認入力 : hoge4.fa 出力 : hoge.txt 02

N50 アセンブル結果の評価基準の一つ長いコンティグから足していって Total_length の 50% に達したときのコンティグの長さ一般に数値が大きいほどよい average だと外れ値の影響を受けやすく median だと短いコンティグが多くを占める場合に不都合らしい出力 : hoge.txt contig_2 (03 bp) Total_length 0.5 (20.5 bp) contig_3 (65 bp) contig_4 (49 bp) contig_ (24 bp) Total_length (24 bp) 03

コード内部の説明コードの中身を説明します黒枠部分を再度コピペ 04

コード内部の説明入力ファイル情報を格納したものが fasta オブジェクト width の位置にあるのがコンティグごとの配列長情報 05

コード内部の説明 width(fasta) に sum 関数を適用すればトータルの配列長 ( 配列長の総和 ) になる 06

コード内部の説明 length 関数は要素数を返すこの場合 fasta オブジェクトの要素数 ( つまりコンティグ数 ) を返す 07

Tips: 条件判定 50 bp 以上のコンティグからなるサブセットの抽出ができそうだ! 08

Tips: 条件判定コードの中身が分かると応用範囲が飛躍的に増大一定以上のスキルをもつバイオインフォマティシャンは例題を探すよりも自分で作るヒトのほうが多いかも 09

任意の領域の切り出し subseq 関数を用いて任意の領域の配列を切り出すことができます入力 :sample.fasta >kadota AGTGACGGTCTT 出力 :hoge.fasta >kadota TGACGGT

Tips: 関数のオプション subseq 関数実行時に数値を直接指定してもいいし 2 オプション名を明記してもよい入力 :sample.fasta >kadota AGTGACGGTCTT 出力 :hoge.fasta 2 >kadota TGACGGT 2

Tips: 関数のオプション原因既知状態でエラーを出す 2 3 番目の位置から 5 塩基分抽出という他のオプション (end ではなく width) を利用 2 入力 :sample.fasta >kadota AGTGACGGTCTT 出力 :hoge.fasta >kadota TGACGGT 3

Tips: 関数の使用法? 関数名で使用法を記したウェブページが開くページの下のほうに大抵の場合使用例が掲載されている使用法既知の関数のマニュアルをいくつか読んで慣れておこう 4

任意の領域の切り出し入力が multi-fasta ファイル (hoge4.fa) でリストファイル (list_sub2.txt) で指定した複数領域を切り出したい場合 2 5

任意の領域の切り出しこんな感じの結果が得られます入力 2: list_sub2.txt 6

任意の領域の切り出し入力 : hoge4.fa 入力 2: list_sub2.txt 妥当ですよね 7

FastQC と同じ結果を得る 00 万リード 207bp からなる 3 乳酸菌 RNA-seq データの FastQC 解析結果のうち例えば 4 の Overrepresented sequences と同じ結果を subseq と table 関数を使って得ることができます 3 2 4 8

FastQC と同じ結果を得る頻出する配列をリストアップ 2 トップは CCCCGGTATA という 50 塩基の配列で 4,383 回出現 Percentage は.4383% 全部で 00 万リードなので妥当オリジナル 07 bp のうち最初の 50 bp で解析している 2 result_without_nogroup.html 9

Overrepresented seq. subseq 関数を使っていますやってみましょう 2 20

Overrepresented seq. 完璧に同じ結果を得られていることが分かります 2

GC 含量計算部分の説明右のサイドバーを下に移動させると GC 含量計算部分を見られる 2 23

GC 含量計算部分の説明 fasta オブジェクトを出発点として配列全体の GC 含量 (57.68%) を得るところの説明です 24

GC 含量計算部分の説明黒枠部分を再度コピペしたのち fasta オブジェクトの中身を表示させたところ 25

GC 含量計算部分の説明 alphabetfrequency 関数は塩基ごとの出現回数を返す 26

GC 含量計算部分の説明 DNA 配列上の M は A or C R は A or G などというルールがあるようです http://en.wikipedia.org/wiki/fasta_format 27

GC 含量計算部分の説明 dim 関数は行列の行数と列数を返す alphabetfrequency 関数出力結果は 4 行 8 列からなることが分かるキーボードの上下キーを上手に利用して最小限の労力でキータイプ ( あるいはコピペ ) すべし! 28

GC 含量計算部分の説明任意のサブセットを取得可能 2:3 や c(,4) などをうまく利用 29

GC 含量計算部分の説明黒丸中の数値は contig_ 中の A の数が 4 個赤丸中の数値は contig_4 中の T の数が 0 個であるということ rowsums 関数は行ごとの和を返す 30

GC 含量計算部分の説明 rowsums 関数の入力として ACGT のみのカウント数を与えているがその結果 ( 返り値 ) は配列中に N などを含まない場合は実質的にコンティグごとの配列長と同じ 3

GC 含量計算部分の説明オブジェクト CG 中には配列 ( コンティグ ) ごとの C と G のカウント数が格納されているオブジェクト ACGT 中には配列ごとの A, C, G, T のカウント数が格納されている例えば 49 塩基からなる contig_4 中に ACGT の 4 種類の塩基が 49 個 CG の数は 25 個あることを意味する sum 関数はベクトルの要素の和を返す 32

GC 含量計算部分の説明ここでは sum 関数を用いて配列全体の総和で GC 含量計算をしているが 2sum 関数を用いずに CG/ACGT とやるとコンティグごとの GC 含量を得られる例えば contig_ は CG の数が 6 個で ACGT の数が 24 個それゆえ GC 含量は 6/24 = 0.6666667 となる 2 33

配列ごとの GC 含量計算 sum 関数を用いずに CG/ACGT とやってコンティグごとの GC 含量を得るための項目記述内容がほぼ同じであることが分かる 34

配列ごとの GC 含量計算出力ファイル (hoge.txt) 中の一番右側の列が配列ごとの GC 含量です 35

配列ごとの GC 含量計算 ACGT 列は 4 種類の塩基のみの出現数 Length 列は配列長情報を表す配列長は ACGT 以外の全てを含むので 2 つの数値の差分 (Length - ACGT) が N などの ACGT 以外の塩基のトータルの出現回数ということになる Length ACGT という関係 36