06.09.0 版 バイオインフォマティクス ~Linux で NGS 解析 ( の基礎 )~ 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究ユニット門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/
Contents イントロダクション 概要 背景 (NGS 用カリキュラム 講習会 ) Linux スキル習得の意義 ウェブ情報 ( 日本乳酸菌学会誌の NGS 連載や NGS 講習会資料 ) 実習環境に慣れる 仮想環境での作業に慣れる GUI と CUI( マウス操作かコマンド入力操作か ) ターミナルでの作業 共有フォルダの概念を理解 練習 作業ディレクトリの変更 練習用 NGS データファイルのダウンロード ファイルの確認 de novo ゲノムアセンブリ BLAST 検索 課題 グループごとに異なる課題ファイルを入力として ダウンロード de novo アセンブリ BLAST 検索 を実行し 得られた結果をレポートにまとめて発表せよ グループ は kadai.fasta グループ は kadai.fasta etc.
概要 キーワード ( 主に NGS 解析を意識した ) バイオインフォマティクススキルの習得がメインだが 何かをやったという達成感も得られるように実際の NGS データの一部を用いてゲノムアセンブリまで行う NGS, Linux, バイオインフォマティクス, 仮想環境, Bio-Linux, ゲノムアセンブリ Linux Windows や Macintosh と同じく OS の一種 バイオインフォマティクス分野でよく利用される Windows のコマンドプロンプト や Macintosh のターミナル と同じく ls や cd などの Linux コマンドを知らなければ何もできないため 慣れるまでが大変 使いこなせれば 最先端の解析用プログラムを自在にインストール 利用可能となり 効率的かつ通り一辺倒でないデータ解析も可能となる 次世代シークエンサ (NGS) 解析 NGS とは 大量の塩基配列を出力する実験機器 (Next-Generation Sequencer) またはその技術を指す 主にゲノム解析やトランスクリプトーム解析と呼ばれる分野で利用されている 塩基配列解析用プログラムは UNIX( 今の Linux) 環境で動作するものが多かった歴史的背景などから 現在でも Linux 上で動くプログラムがまず最初に開発される場合が多い 3
背景 R NGS などでググり のウェブページへ または 3 のあたりをクリック 3 4
背景 06.09--6 の講義資料に辿りつく ここは 私の講習会 講義 講演資料が公開されています をクリック 5
背景 需要の多い次世代シークエンサ (Next- Generation Sequencer; NGS) から得られる大量塩基配列データを効率的に解析するためのバイオインフォマティクス人材育成カリキュラム ( NGS 用カリキュラム ) 平成 6 年 3 月公開 6
NGS 用カリキュラム NGS 用カリキュラムの中身 NGS データ解析に最低限必要とされる知識 技術を 週間程度で身につけることを想定した 速習 と 時間をかけて習得することを想定した 速習以外 にわかれている ここで示しているのは 速習 7
NGS 用カリキュラム 速習以外 の内容 8
NGS 用カリキュラム NGS 用カリキュラムの中身 NGS データ解析に最低限必要とされる知識 技術を 週間程度で身につけることを想定した 速習 の内容をとりあえずやってみたのが 9
NGS 速習コース講習会 平成 6 年 9 月に行われた NGS 速習コース 講習会 0
NGS 速習コース講習会 カリキュラム通りに行ったので 座学 ( 講義 ) のみの時間もあった また 計 0 日間にもおよぶため 担当講師数も多く連携をとりきれなかった 結果として 3 報告書中の受講生アンケートの主な要望は 実習のみで全体の連携 をとってほしい であった 3
NGS ハンズオン講習会 平成 7 年 7-8 月に行われた NGS ハンズオン講習会 では 実習に特化した内容で実施
NGS ハンズオン講習会 Linux 基礎の項目は 日分しかないが 日で Linux の基礎を習得可能というわけではない! 3
NGS ハンズオン講習会 Linux 基礎は 事前予習事項の復習という位置づけ 講習会受講者の大半は (Windows 上で )Linux コマンドを利用可能な 3Bio-Linux8 という解析環境を自力で構築するところからスタートして 週間程度はかかる自習をしてきたヒト 3 4
NGS ハンズオン講習会 事前予習事項の Linux 部分は 日本乳酸菌学会誌に連載中の NGS 解析記事をベースとしており ウェブページ (R で ) 塩基配列解析 から全情報を取得可能 5
Contents イントロダクション 概要 背景 (NGS 用カリキュラム 講習会 ) Linux スキル習得の意義 ウェブ情報 ( 日本乳酸菌学会誌の NGS 連載や NGS 講習会資料 ) 実習環境に慣れる 仮想環境での作業に慣れる GUI と CUI( マウス操作かコマンド入力操作か ) ターミナルでの作業 共有フォルダの概念を理解 練習 作業ディレクトリの変更 練習用 NGS データファイルのダウンロード ファイルの確認 de novo ゲノムアセンブリ BLAST 検索 課題 グループごとに異なる課題ファイルを入力として ダウンロード de novo アセンブリ BLAST 検索 を実行し 得られた結果をレポートにまとめて発表せよ グループ は kadai.fasta グループ は kadai.fasta etc. 6
(R で ) 塩基配列解析 R NGS などでググる 連載原稿やウェブ資料 PDF はここからダウンロード可能 7
乳酸菌 NGS 連載 3 で示す各回の原稿 PDF (JSLAB_*_kadota.pdf) は デスクトップ上にある hoge フォルダ内にあります 3 3 8
乳酸菌 NGS 連載 原稿 PDF のページ数には制限があるため や のウェブ資料 PDF でより詳細な情報を提供しています 9
乳酸菌 NGS 連載 は (R で ) 塩基配列解析 のソースファイル ネットワーク不調時にダブルクリックで開くことで ローカル環境でウェブページを開くことができます はウェブページの各種設定情報を含むフォルダです 0
連載第 回原稿 乳酸菌 NGS 連載第 回原稿に相当する をダブルクリックで開いてみましょう
連載第 回原稿 こんな感じのものが見えるはずです 例えば原稿中の 統合 TV のサイトはググってもよいが 各回のサイトからも辿れるようにしているので 第 回のサイトをクリック
第 回のサイト 原稿中の 統合 TV のサイトは から辿れます 3
第 回のサイト 各回のウェブサイトを用意することで 統合 TV の 原著論文へのリンクや 統合 TV で提供している具体的な番組名やそのリンク先を示すことができます また 3 ページ下部に移動して眺めると 提供している情報量も膨大であることがわかります 3 4
第 回のサイト ちなみに は のリンク先と同じです 5
Tips ウェブブラウザのサイズを変更したりすると 自分がどこにいるのかよくわからなくなります その場合は 常に右下部分に見えている トップページへ をクリックして 6
Tips ウェブブラウザのサイズを変更したりすると 自分がどこにいるのかよくわからなくなります その場合は 常に右下部分に見えている トップページへ をクリックして (R で ) 塩基配列解析 のタイトルが見える一番上まで移動したのち 例えば 3NGS 連載第 回のページをクリックするなどすればよい 3 7
Tips 3 あるいは CTRL + F キーを押して 3 コマンドライン などの任意のキーワードを入力し ページ内検索をしてもよい つの項目中で示されている情報量が膨大なため 実際問題としてこのサイト利用時にはキーワード検索もよく用いる 8
NGS ハンズオン講習会 H8 年度の講習会 ( のLinux 部分 ) は 乳酸菌 NGS 連載第 -4 回を予習として課した 予習事項は大まかに 仮想環境構築 Bio- Linux 上での作業 共有フォルダやLinux 系用語に慣れる Linuxコマンドを一通り習得 9
NGS ハンズオン講習会 乳酸菌 NGS 連載第 -4 回の予習事項をマスターしておけば 後はで公開されている講義資料や動画 ( 統合 TVで今年度中に公開予定 ) で独習可能 時代はe-learningでハンズオン 30
ちなみに アグリバイオ単体で行う大学院講義では Linux 環境でのデータ解析系講義は行われません ( と思っておけば間違いありません ) 受講人数が多すぎること ( 最大で 30 名 ) 受講生の意識レベルや習熟度の差が大きく 講義として成立させることが困難なためです 3
本講義では キーワード 門田担当分は ( 主に NGS 解析を意識した ) Linux スキルの習得が主目的 何かをやったという達成感も得られるように 実際の NGS データの一部を用いてゲノムアセンブリまで行う NGS, Linux, バイオインフォマティクス, 仮想環境, Bio-Linux, ゲノムアセンブリ Linux Windows や Macintosh と同じく OS の一種 バイオインフォマティクス分野でよく利用される Windows のコマンドプロンプト や Macintosh のターミナル と同じく ls や cd などの Linux コマンドを知らなければ何もできないため 慣れるまでが大変 使いこなせれば 最先端の解析用プログラムを自在にインストール 利用可能となり 効率的かつ通り一辺倒でないデータ解析も可能となる 次世代シークエンサ (NGS) 解析 NGS とは 大量の塩基配列を出力する実験機器 (Next-Generation Sequencer) またはその技術を指す 主にゲノム解析やトランスクリプトーム解析と呼ばれる分野で利用されている 塩基配列解析用プログラムは UNIX( 今の Linux) 環境で動作するものが多かった歴史的背景などから 現在でも Linux 上で動くプログラムがまず最初に開発される場合が多い 3
本講義では 実際に行うのは の一部 それでも実際に手を動かし門田提供教材のノリに慣れておくことで の自習にもつながる の講習会やアグリバイオ大学院講義は 日本最大の受講人数規模 ( 東大生以外の学生 社会人 ポスドク 教員なども含む ) ここで紹介したやり方をベースにすれば 情報共有もやりやすいと思われます 33
Contents イントロダクション 概要 背景 (NGS 用カリキュラム 講習会 ) Linux スキル習得の意義 ウェブ情報 ( 日本乳酸菌学会誌の NGS 連載や NGS 講習会資料 ) 実習環境に慣れる 仮想環境での作業に慣れる GUI と CUI( マウス操作かコマンド入力操作か ) ターミナルでの作業 共有フォルダの概念を理解 練習 作業ディレクトリの変更 練習用 NGS データファイルのダウンロード ファイルの確認 de novo ゲノムアセンブリ BLAST 検索 課題 グループごとに異なる課題ファイルを入力として ダウンロード de novo アセンブリ BLAST 検索 を実行し 得られた結果をレポートにまとめて発表せよ グループ は kadai.fasta グループ は kadai.fasta etc. 34
VirtualBox を起動 連載第 回原稿の p88 Windows PC 上で Linux を動かす際に 仮想化ソフトを利用 貸与 PC には VirtualBox という仮想化ソフトがインストールされています デスクトップ上にある 3 のアイコンをダブルクリックで起動 3 35
VirtualBox 起動後の状態 こんな感じになります 連載第 3 回ウェブ資料 (JSLAB3_suppl_...pdf) と同じような説明 36
Linux を起動 BioLinux8 というのが見えるので 起動 37
Linux 起動後の状態 約 分でこのような状態になります Windows のログイン画面と同じ状態です ユーザ名は iu パスワードは pass409 です Linux にログインしましょう 3Guest Session からは パスワードなしでログインできますが利用しないでください! 3 38
ログイン後の状態 約 分でこのような状態になります 39
ログイン後の状態 のポップアップは Windows0 にアップグレードするか? という類のものです Don t Upgrade 40
ログイン後の状態 OK 4
BioLinux8 起動後の状態 Windows( ホスト OS) 上で BioLinux8 という Linux( ゲスト OS) が立ち上がっている状態 VirtualBox は仲介役のようなもの という理解でよい 4
対応関係 BioLinux8 の赤枠部分は Windows のタスクバーと同じようなもの 43
対応関係 赤枠部分は BioLinux8 のデスクトップ画面に相当します の部分を押して BioLinux8 の画面を最大化すれば 44
仮想 Linux 環境 仮想的に Linux 環境で仕事をしているのと同じような感じになります ただし Windows 上で Linux を動かしているので どうしても動作が重くなったり フリーズしたような感じ ( 本当にフリーズ状態のときもある ) になったりしますが 気長に待ちましょう 45
仮想 Linux 環境 一旦画面サイズを元に戻す 46
いろいろと 慣れです BioLinux8 の GUI 画面サイズを変更すべく の部分を動かしてみよう 47
いろいろと 慣れです こんな感じにしたり ガスガス変えまくっていると 動作が不安定になって落ちます 48
いろいろと 慣れです ログイン画面に戻った状態です 最初はこの程度で落ちる不安定さにイラッとしますが 慣れです パスワード (pass409) を打ち込んでログインし直しましょう この経験から 画面サイズを変更するときにはこういうことも起こるということを学んだ 49
フォルダ作成 任意の名前のフォルダを作成してみましょう 赤枠内で右クリックし New Folder 50
フォルダ作成 私は mongee というフォルダ名にしました Linux の世界では フォルダ名やファイル名に 通常日本語は利用しません また &% *? などの特殊文字やスペースも使わないのが常識です _ はよく使われます ( 第 回原稿の p69) もちろん Linux 上で作成しているので Windows のデスクトップ画面にも同じフォルダが自動作成されるわけではありません 別物です 5
ゲストとホスト 今は Windows 上で Linux を動かしています 赤枠内が Linux 環境 ( ゲスト OS 環境 ) で それ以外が Windows 環境 ( ホスト OS 環境 ) です 聞きなれない用語でしょうが 慣れです 5
念のため Windows( ホスト OS 環境 ) 上で 右クリック 新規作成 3 フォルダー の流れで新規フォルダの作成が可能です 3 53
Contents イントロダクション 概要 背景 (NGS 用カリキュラム 講習会 ) Linux スキル習得の意義 ウェブ情報 ( 日本乳酸菌学会誌の NGS 連載や NGS 講習会資料 ) 実習環境に慣れる 仮想環境での作業に慣れる GUI と CUI( マウス操作かコマンド入力操作か ) ターミナルでの作業 共有フォルダの概念を理解 練習 作業ディレクトリの変更 練習用 NGS データファイルのダウンロード ファイルの確認 de novo ゲノムアセンブリ BLAST 検索 課題 グループごとに異なる課題ファイルを入力として ダウンロード de novo アセンブリ BLAST 検索 を実行し 得られた結果をレポートにまとめて発表せよ グループ は kadai.fasta グループ は kadai.fasta etc. 54
GUI と CUI スタートメニューから コマンドプロンプトを選んで起動しましょう 55
GUI と CUI コマンドプロンプトがすぐに見つからない場合は 検索窓で cmd と打つのでもよいです cmd.exe 56
GUI と CUI コマンドプロンプト起動後の状態 貸与 PC はユーザ名 iu なので の部分が C:Users iu Macintosh のヒトは ターミナル を起動するのと同じと思えばよい 57
GUI と CUI dir と打って リターンキーを押す 赤枠で見ているものは 58
GUI と CUI スタートメニューの右上にある ユーザ名 kadota の ホームディレクトリ の中身です 59
GUI と CUI Saved Games 保存したゲーム Desktop デスクトップ などと English 日本語 の変換が自動でなされていますが これは Windows 側でよきに計らってくれているためと思えばよいです 60
GUI と CUI デスクトップをダブルクリックすると 6
GUI と CUI kadota の PC 環境では 赤枠の 3 つしかないので それに相当するものが 3 で見えています 3 6
GUI と CUI kadota さんのデスクトップ であることが で明示されているので 現在どこで作業をしているかがよくわかります の場所を 作業ディレクトリ (working directory) や カレントディレクトリ (current directory) などと呼びます フォルダとディレクトリは 同じようなものという理解でよい 63
GUI と CUI GUI (Graphical User Interface) での作業は デスクトップというフォルダをダブルクリックして そこを眺めるという流れ 64
GUI と CUI コマンドプロンプト上での作業は CUI (Character User Interface; Console User Interface) での作業に相当 CLI (Command Line Interface) などともいう マウスを操作してデスクトップアイコン上まで移動させ そこでダブルクリック などという面倒なことをせずとも コマンド入力だけで目的のディレクトリ上のものを眺めたりすることができる ただし コマンド ( 呪文 ) を知っておかねばならない 65
dir Desktop 例えば コマンドプロンプト起動直後の場所 ( ホームディレクトリという ) は この場合 C: Users kadota に相当する この場所にいながらにして Desktop 上のものを調べることができる そのやり方の つは dir Desktop 66
cd Desktop もう つのやり方は cd Desktop で作業ディレクトリを Desktop に移動してから 67
dir もう つのやり方は cd Desktop で作業ディレクトリを Desktop に移動してから 3 dir 確かに 4 同じ結果になっている 4 3 4 68
作業ディレクトリの把握 cd Desktop 実行前後で 赤下線部分が変わっていることがわかる つまり この部分を眺めることで 今自分がどこで作業をしているかがわかる 69
Contents イントロダクション 概要 背景 (NGS 用カリキュラム 講習会 ) Linux スキル習得の意義 ウェブ情報 ( 日本乳酸菌学会誌の NGS 連載や NGS 講習会資料 ) 実習環境に慣れる 仮想環境での作業に慣れる GUI と CUI( マウス操作かコマンド入力操作か ) ターミナルでの作業 共有フォルダの概念を理解 練習 作業ディレクトリの変更 練習用 NGS データファイルのダウンロード ファイルの確認 de novo ゲノムアセンブリ BLAST 検索 課題 グループごとに異なる課題ファイルを入力として ダウンロード de novo アセンブリ BLAST 検索 を実行し 得られた結果をレポートにまとめて発表せよ グループ は kadai.fasta グループ は kadai.fasta etc. 70
ターミナル Windows のコマンドプロンプトに対応するものは Linux では (Macintosh 同様 ) ターミナル 第 3 回ウェブ資料 (W8-3; スライド 50) あたり 7
ターミナル こんな感じになります これはターミナルが Linux 画面いっぱいに開いている状態です 7
ターミナル 赤枠あたりにカーソルをもっていくと メニューバーが見られます 一番左の ボタンを押すと ターミナルを終了できます ( が押さない ) 73
ターミナル 赤枠あたりで 矢印の始点から終点に向かってドラッグ & ドロップすると 74
ターミナル こんな感じになって ターミナル画面を移動させることができます そのおかげでデスクトップ画面上の アイコンも見えるようになります しかし ターミナル画面の下のほうが切れています この状況を打破するには 75
ターミナル ターミナル画面の縦幅を Linux 画面内に収めるためには 通常はターミナル画面の右下あたりで調整しますが 右下部分が見えていません を持って あちこち動かしていると縦幅を Linux 画面内に収めてくれます 横幅はどうすればいいのかわかりませんが 例えばデフォルトの全画面表示で作業してもいいと思います 76
dir ではなく ls 作業ディレクトリの中身を確認するのに Windows のコマンドプロンプト上では dir と打ち込みました Linux 環境でも一応 dir で動作しますが 通常は ls( えるえす ) と打つ 77
ls 実行結果 Linux( ホスト OS) 上での ls 実行結果は Windows 上での dir 実行結果と似たような感じであることがわかります 78
ls Desktop Desktop というディレクトリが見えているので そこの中身を表示させます ls Desktop と打てばいいですが Linux の世界では 必要最小限の労力でコマンドを入力するのが基本です 例えば ls De まで打ってから 3Tab キーを押してみましょう 3 79
タブ補完 ls Desktop/ となります このテクニックを タブ補完 などと呼ぶ 赤枠を眺めると De から始まるものは Desktop しかない このような状況で Tab キーを押すと 補完してくれます NGS 解析の実務局面では長いファイル名のものを取り扱うこともあるので タイプミスを防ぐという点でも重要なテクニックです 80
ls Desktop ls Desktop 実行結果 確かに赤枠で示すように Linux のデスクトップ画面に見えているものと同じものが見えている mongee はヒトそれぞれ ここまでの作業はターミナル起動直後の ホームディレクトリ 上で行いました 8
cd Desktop もちろん cd Desktop として Desktop ディレクトリに移動してから ls するのでも構いません 8
pwd pwd で現在の作業ディレクトリを表示させています (print working directory) 83
whoami whoami でユーザ名 (iu) を調べることができます 84
mac_share 貸与 PC は mac_share というディレクトリが反転されていると思います mac というキーワードから Macintosh を連想するヒトがいるかもしれませんが ただの文字列であり無関係です 85
clear clear と打つことで ターミナル画面をリフレッシュすることができます 86
clear こんな感じになります 87
clear pwd ls 作業ディレクトリは clear 実行前と同じです 88
mac_share mac_share ディレクトリに移動して (pwd で確認し ) ls このディレクトリ内には何もないことがわかります 3mac_share フォルダをダブルクリックして開くと 3 89
mac_share こんな感じになって このフォルダ中には何もないことがわかります で終了しておく 90
Contents イントロダクション 概要 背景 (NGS 用カリキュラム 講習会 ) Linux スキル習得の意義 ウェブ情報 ( 日本乳酸菌学会誌の NGS 連載や NGS 講習会資料 ) 実習環境に慣れる 仮想環境での作業に慣れる GUI と CUI( マウス操作かコマンド入力操作か ) ターミナルでの作業 共有フォルダの概念を理解 練習 作業ディレクトリの変更 練習用 NGS データファイルのダウンロード ファイルの確認 de novo ゲノムアセンブリ BLAST 検索 課題 グループごとに異なる課題ファイルを入力として ダウンロード de novo アセンブリ BLAST 検索 を実行し 得られた結果をレポートにまとめて発表せよ グループ は kadai.fasta グループ は kadai.fasta etc. 9
共有フォルダ Linux の mac_share と Windows の share は 共有フォルダです 3mac_share 上で ls した結果何もなかったので には何もないはず 3 9
共有フォルダ 確かに何もありません 93
共有フォルダ hoge フォルダ中の pdf ファイルを 3 share フォルダ内にコピーしてみましょう 3 94
共有フォルダ こんな感じになります 共有フォルダなので mac_share 上でも同じファイルが見えるはずです 95
共有フォルダ ls した結果 確かに見えました こんな感じで Linux 上でのプログラム実行結果を共有フォルダ経由で Windows に移動またはコピーし Windows 上で結果を整形するなどできます 共有フォルダについては NGS 連載第 3-4 回でも解説 96
Contents イントロダクション 概要 背景 (NGS 用カリキュラム 講習会 ) Linux スキル習得の意義 ウェブ情報 ( 日本乳酸菌学会誌の NGS 連載や NGS 講習会資料 ) 実習環境に慣れる 仮想環境での作業に慣れる GUI と CUI( マウス操作かコマンド入力操作か ) ターミナルでの作業 共有フォルダの概念を理解 練習 作業ディレクトリの変更 練習用 NGS データファイルのダウンロード ファイルの確認 de novo ゲノムアセンブリ BLAST 検索 課題 グループごとに異なる課題ファイルを入力として ダウンロード de novo アセンブリ BLAST 検索 を実行し 得られた結果をレポートにまとめて発表せよ グループ は kadai.fasta グループ は kadai.fasta etc. 97
練習 練習用として 仮想 NGS データファイル (hoge.fasta) の ダウンロードから 3de novo アセンブリ および 4 BLAST 検索から アセンブリ結果として得られた塩基配列が乳酸菌ゲノム配列であることの確認までを行います 4 3 98
作業ディレクトリ 手順通りにやったヒトは 作業ディレクトリが mac_share のままであり pdf ファイルが つある状態 この場合 をやる必要はないが やってもよいのでやってみる 99
コピペ 入力したいコマンド部分を反転させてコピー ターミナル画面上で右クリックしてペースト ターミナル画面は Linux の世界 Windows 上で有効な CTRL + v は通用しません 00
コピペして確認 同じディレクトリなので何も変化はありません 0
wget でダウンロード 次は wget というコマンドを用いて任意の URL 上にあるファイル (hoge.fasta) のダウンロードです 赤下線部分を丸々コピペでもいいのですが せっかくなのでより汎用性の高い方法を伝授 0
wget でダウンロード wget c ( ダブルゲット スペース ハイフンしー スペース ) まで打ってから ダウンロードしたいファイル (hoge.fasta) の URL 情報を取得 03
wget でダウンロード ダウンロードしたいファイル (hoge.fasta) 上で右クリックして ショートカットのコピー Macintosh の場合は リンク先のコピー だったと思います 04
wget でダウンロード ターミナル画面上で右クリックして ペースト 05
wget でダウンロード 赤下線部分と同じ URL 情報を ペーストできていることがわかります リターンキーを押すとダウンロードが始まります 06
wget 実行直後 無事ダウンロードが終了すると こんな感じになります 07
Contents イントロダクション 概要 背景 (NGS 用カリキュラム 講習会 ) Linux スキル習得の意義 ウェブ情報 ( 日本乳酸菌学会誌の NGS 連載や NGS 講習会資料 ) 実習環境に慣れる 仮想環境での作業に慣れる GUI と CUI( マウス操作かコマンド入力操作か ) ターミナルでの作業 共有フォルダの概念を理解 練習 作業ディレクトリの変更 練習用 NGS データファイルのダウンロード ファイルの確認 de novo ゲノムアセンブリ BLAST 検索 課題 グループごとに異なる課題ファイルを入力として ダウンロード de novo アセンブリ BLAST 検索 を実行し 得られた結果をレポートにまとめて発表せよ グループ は kadai.fasta グループ は kadai.fasta etc. 08
ls で確認 ls( えるえす ) で確認 確かにダウンロードした hoge.fasta があります 3ls l( エルエス スペース ハイフンえる ) でより詳細な情報を見ることもできます 3 09
wc で確認 wc コマンドは 主にファイルの行数を調べる目的で利用します 確かに 00,000 行になっていることがわかります NGS データの場合は 行数から ( リードと呼ばれる ) 塩基配列の数 を調べることができます 0
wc で確認 ファイルサイズ情報 ls l 実行結果として得られる 3 の値と同じです 3
head で確認 head は ( デフォルトでは ) ファイルの最初の 0 行分を表示させるコマンドです このファイルは FASTA 形式と呼ばれるもので 行で つのリードを表します
head で確認 0 塩基ごとに灰色の縦線を入れています この NGS データは ( 少なくともここで見えている最初の 5 リード分については )50 塩基の長さであることがわかります このファイル (hoge.fasta) は 00,000 行からなるので 00,000 リード このように 大量の短いリード (short read) からなるのが典型的な NGS データ 3
Contents イントロダクション 概要 背景 (NGS 用カリキュラム 講習会 ) Linux スキル習得の意義 ウェブ情報 ( 日本乳酸菌学会誌の NGS 連載や NGS 講習会資料 ) 実習環境に慣れる 仮想環境での作業に慣れる GUI と CUI( マウス操作かコマンド入力操作か ) ターミナルでの作業 共有フォルダの概念を理解 練習 作業ディレクトリの変更 練習用 NGS データファイルのダウンロード ファイルの確認 de novo ゲノムアセンブリ BLAST 検索 課題 グループごとに異なる課題ファイルを入力として ダウンロード de novo アセンブリ BLAST 検索 を実行し 得られた結果をレポートにまとめて発表せよ グループ は kadai.fasta グループ は kadai.fasta etc. 4
de novo アセンブリ このデータは乳酸菌 (Lactobacillus hokkaidonensis) ゲノムの実際の NGS データの一部 NGS データ解析の目的の つは このような短い塩基配列データを入力として より長い元のゲノム配列を再構築すること 5
de novo アセンブリ 入出力のイメージ de novoアセンブリとは リードの塩基配列情報のみを頼りに 元のリード長よりも長い配列 ( コンティグ ) を出力する作業 この例の場合 赤下線が一致部分 出力は 元のリード長よりも 塩基長いコンティグとなる入力 :NGSリードファイル リード: CACCAGGACATGAAGACGCG リード : CCAGGACATGAAGACGCGTT 出力 : コンティグ ( より長くなった塩基配列 ) CACCAGGACATGAAGACGCGTT Aug 0 06, NGS ハンズオン講習会 6
de novo アセンブリ 赤枠部分をコピペ実行 Velvet というアセンブリプログラムを実行しているが 細かいコマンドの意味などはここでは気にしなくてよい ここで重要なのは 入力は hoge.fasta であり プログラムを実行すると uge というディレクトリが作成されるということのみ そして uge ディレクトリ内にある contigs.fa が主なアセンブリ結果ファイル 7
コピペ実行直後 コピペ実行後の状態 計算自体は 0 秒程度で終わります 8
ls で確認 ls 確かに uge ディレクトリが作成されています 9
移動して確認 uge ディレクトリに移動して ls contigs.fa が主なアセンブリ結果ファイルです 0
wc で確認 wc でアセンブリ結果ファイル (contigs.fa) の行数を確認 4,038 行 入力 (hoge.fasta) は 00,000 行であることから 行数が大幅に減ったことがわかる
head で確認 head でアセンブリ結果ファイル (contigs.fa) の最初の 0 行分を表示 パッと見で 入力 (50 塩基の長さのリードが 00,000 個 ) よりも長い塩基配列 ( コンティグという ) が得られていることがわかる
Contents イントロダクション 概要 背景 (NGS 用カリキュラム 講習会 ) Linux スキル習得の意義 ウェブ情報 ( 日本乳酸菌学会誌の NGS 連載や NGS 講習会資料 ) 実習環境に慣れる 仮想環境での作業に慣れる GUI と CUI( マウス操作かコマンド入力操作か ) ターミナルでの作業 共有フォルダの概念を理解 練習 作業ディレクトリの変更 練習用 NGS データファイルのダウンロード ファイルの確認 de novo ゲノムアセンブリ BLAST 検索 課題 グループごとに異なる課題ファイルを入力として ダウンロード de novo アセンブリ BLAST 検索 を実行し 得られた結果をレポートにまとめて発表せよ グループ は kadai.fasta グループ は kadai.fasta etc. 3
BLAST 検索 世界中から得られた塩基配列のデータベース ( の一部 ) に対して 手元にある塩基配列を BLAST というプログラムを用いて検索する作業 配列相同性検索ともいいます 詳細については秋の講義科目 生物情報科学 で説明がなされると思います ここでは詳細はすっ飛ばして 必要最小限の作業を行う 4
BLAST 検索 BLAST のトップ画面 の部分にアセンブリ結果として得られた配列の一部を入力として BLAST を実行する 5
BLAST 検索 アセンブリ実行結果の 最初のコンティグ ( 反転部分 ) をコピー 6
BLAST 検索 赤枠内でペースト これが 問い合わせしたい塩基配列 (Query Sequecne) です 3 ページ下部にスクロール 3 7
BLAST 検索 BLAST ボタンを押して実行 8
BLAST 検索 こんな画面に切り替わります 9
BLAST 検索 サーバの混み具合にも依存しますが 概ね 分以内にこのような BLAST 実行結果が得られます 問い合わせ配列は塩基配列で 長さは 54 塩基だったことが分かります 3 検索対象の DB 中にヒットした ( 一致した ) ものが つだけあったと解釈する 4 ちょっと下のほうに移動 4 3 30
BLAST 検索 このあたり 検索対象の DB 中でヒットしたものは Lactobacillus hokkaidonensis ( ある乳酸菌株 ) の完全なゲノム配列 3
BLAST 検索 さらにページ下部に移動 Alignments というところ 54 塩基の問い合わせ配列 (Query) が 3 乳酸菌ゲノム配列のどのあたりにヒットしたのかを並べて (align して ) 示した結果 4 乳酸菌ゲノム配列の全長は,77,985 塩基 ( 約.3Mb; メガ base の意味 ) 3 4 3
BLAST 検索 54 塩基の問い合わせ配列 (Query sequence) が上 ヒットした乳酸菌ゲノム配列 (Subject sequence の略で Sbjct) が下 33
BLAST 検索 54 塩基の問い合わせ配列 (Query sequence) の 塩基目から 54 塩基目が ヒットした乳酸菌ゲノム配列 (Subject sequence の略で Sbjct) の 3583,59 塩基目から 4583,4 塩基目の領域で 5 完全一致していたことがわかる 5 3 4 34
Contents イントロダクション 概要 背景 (NGS 用カリキュラム 講習会 ) Linux スキル習得の意義 ウェブ情報 ( 日本乳酸菌学会誌の NGS 連載や NGS 講習会資料 ) 実習環境に慣れる 仮想環境での作業に慣れる GUI と CUI( マウス操作かコマンド入力操作か ) ターミナルでの作業 共有フォルダの概念を理解 練習 作業ディレクトリの変更 練習用 NGS データファイルのダウンロード ファイルの確認 de novo ゲノムアセンブリ BLAST 検索 課題 グループごとに異なる課題ファイルを入力として ダウンロード de novo アセンブリ BLAST 検索 を実行し 得られた結果をレポートにまとめて発表せよ グループ は kadai.fasta グループ は kadai.fasta etc. 35
課題 課題用ファイルは このあたりにあります 36
実習用 PC 環境を自力で 実習用 PC は 既に VirtualBox をインストールし Bio-Linux というものを導入 ( インポート ) し 共有フォルダを設定した後の状態です この環境を自力で構築したいヒトは 第 6 回ゲノムアセンブリ のインストール手順を参考にしてください 37
実習用 PC 環境を自力で 実習用 PC と完全に同じ環境にしたいヒトは のスライド 5 のところで私宛にメールする際に 件名を 乳酸菌連載第 4 回終了時点の ova ファイル希望 としてください 38