ゲノム情報解析基礎

Similar documents
Rインストール手順

NGS速習コース

基本的な利用法

基本的な利用法

ゲノム情報解析基礎

Rインストール手順

基本的な利用法

NGS速習コース

NGSハンズオン講習会

ゲノム情報解析基礎 ~ Rで塩基配列解析 ~

NGSハンズオン講習会

Microsoft Word - index.html

Microsoft Word - CygwinでPython.docx

リンクされたイメージを表示できません ファイルが移動または削除されたか 名前が変更された可能性があります リンクに正しいファイル名と場所が指定されていることを確認してください ここでは昨年までにいただいたご質問で多かったものについて その回答をまとめてあります 各種調査書様式の操作 Q12 調査書様

PrimerArray® Analysis Tool Ver.2.2

作業環境カスタマイズ 機能ガイド(応用編)

図 1 アドインに登録する メニューバーに [BAYONET] が追加されます 登録 : Excel 2007, 2010, 2013 の場合 1 Excel ブックを開きます Excel2007 の場合 左上の Office マークをクリックします 図 2 Office マーク (Excel 20

NGSデータ解析入門Webセミナー

試作ツールは MIT ライセンスによって提供いたします その他 内包された オープンソース ソフトウェアについてはそれぞれのライセンスに従ってご利用ください

再起動した状態になり パスワードを入力すると 図 2 のように DEXCS2011 のアイコ ンがデスクトップ上に表示される 2 端末を準備する メニューバーにある端末の形を左クリック 図 2 デスクトップ メニューバーに端末の形がない場合 図 3 メニューバー アプリケーション アクセサリー 端末

NGSハンズオン講習会

農業・農村基盤図の大字小字コードXML作成 説明書

1. はじめに 1. はじめに 1-1. KaPPA-Average とは KaPPA-Average は KaPPA-View( でマイクロアレイデータを解析する際に便利なデータ変換ソフトウェアです 一般のマイクロアレイでは 一つのプロー

フローチャート自動生成ツール yflowgen の使い方 目次 1 はじめに 本ツールの機能 yflowgen.exe の使い方 yflowgen.exe の実行方法 制限事項 生成したファイル (gml ファイル形式 ) の開

ゲームプログラミング講習 第0章 導入

Microsoft Word - VB.doc

2 Web ページの文字のサイズを変更するには 以下を実行します Alt + P キーを押して [ ページ ] メニューを選択します X キーを押して [ 文字のサイズ ] を選択します 方向キーを押して 文字のサイズを [ 最大 ] [ 大 ] [ 中 ] [ 小 ] [ 最小 ] から選択します

環境確認方法 (Windows の場合 ) OS 動作環境日本語版 Windows 7, 8, 8.1, 10 であること 確認方法 Windows キーを押しながら R キーを押します または [ スタート ] メニューから [ ファイル名を指定して実行 ] ( または [ プログラムとファイルの

在宅せりシステム導入マニュアル

Microsoft Word - _ ‘C’³_V1.6InstManual.doc

マクロの実行許可設定をする方法 Excel2010 で 2010 でマクロを有効にする方法について説明します 参考 URL:

Microsoft PowerPoint - Borland C++ Compilerの使用方法(v1.1).ppt [互換モード]

SetupVerup_dl_M

農学生命情報科学特論I

数量的アプローチ 年 6 月 11 日 イントロダクション データ分析をマスターする 12 のレッスン ウェブサポートページ ( 有斐閣 ) 水落研究室 R http:

試金石取扱説明書

鳥取県物品電子入札システムセキュリティ ポリシー設定マニュアル IC カードを利用しない応札者向け 第 1.7 版 平成 31 年 2 月鳥取県物品契約課 鳥取県物品電子入札システムセキュリティ ポリシー設定マニュアル Ver.01-07

1. 開発ツールの概要 1.1 OSS の開発ツール本書では OSS( オープンソースソフトウェア ) の開発ツールを使用します 一般に OSS は営利企業ではない特定のグループが開発するソフトウェアで ソースコードが公開されており無償で使用できます OSS は誰でも開発に参加できますが 大規模な

Microsoft Word -

厚生労働省版ストレスチェック実施プログラムバージョンアップマニュアル (Ver2.2 から Ver.3.2) 目次 1. プログラム概要 バージョンアップ実施手順 要注意 zip ファイル解凍の準備 Windows によって PC が保護されました と

シヤチハタ デジタルネーム 操作マニュアル

CONTENTS 目 次 第 1 章はじめに 2 第 2 章プログラムの更新 5 1

正誤表(FPT1501)

Microsoft Word - 浄化槽管理システム_Ver3-操作マニュアル

実習を行う上での心構えについて

1 開発ツールのインストール 最初に JDK をインストールし 次に IDE をインストールする という手順になります 1. JDK のインストール JDK のダウンロードとインストール JDK は次の URL でオラクル社のウェブページからダウンロードします

Microsoft PowerPoint - install_NGSsokushu_windows(ver2.1).pptx

WebCADD.com ご利用ガイド

Shareresearchオンラインマニュアル

F KDbarcode_CODE39 Microsoft WORD/EXCEL のアドイン製品 Kernel Computer System カーネルコンピュータシステム株式会社 本社 : パッケージ販売部 横浜市神奈川区金港町 6-3 横浜金港町ビル 6F TEL:

目次 1 はじめに 利用条件 動作環境 アドインのインストール アドインの操作方法 アドインの実行 Excel CSV の出力 テンプレートの作成 編集 テンプレートのレイアウト変更 特記

事前準備マニュアル

SetupVerup_dl_M

Microsoft PowerPoint _VL-CD2xx バージョンアップ手順(汎用版).pptx

方法 4 の手順 パソコンの条件 を確認するための画面を表示する Windows8より前のパソコンでの確認方法 () スタートボタン をクリックする () ( マイ ) コンピューター と書いてある部分を右クリックする (3) プロパティ をクリックする (4) システムの画面が表示される Wind

クライアント証明書インストールマニュアル

厚生労働省版ストレスチェック実施プログラム 設置 設定マニュアル Ver.3.0 目次 1. プログラム概要 設置手順 注意事項 動作環境 初期設定 ( 環境設定 ) 初期設定 ( パスワード変更 ) 初

機能と使い方 起動すると下のようなフォームが表示されます ボタンの大きさはあらかじめ3 種類用意してありますが 任意の大きさも指定できます ボタンに表示する文字列はあらかじめ5 種類用意してありますが 任意の文字列も指定できます ボタンの色はあらかじめ6 種類用意してありますが 任意の色も指定可能で

ChIP-seq

Microsoft Word - (修正)Internet Explorer 8 9設定手順 受注者.DOC

miChecker導入手順書

Microsoft PowerPoint ppt

出力可能なバーコードの種類 出力可能なバーコードの種類各バーコードはそれぞれのバーコードの仕様に準拠します バーコードの種類 PDF417 MICROPDF417 対応バーコードの名称 PDF417 マイクロ PDF417 操作例 PDF417 商品コードの内容を PDF417 にする 作成された

設定 1 USB キー証明書ソフトの更新手順 1 産科医療補償制度のホームページ ( へアクセスし 分娩機関の皆さまへ 加入手続き をクリックしてください 2 専用 Web システムの導入要件 をクリックしてくださ

intra-mart EX申請システム version.7.2 事前チェック

分析のステップ Step 1: Y( 目的変数 ) に対する値の順序を確認 Step 2: モデルのあてはめ を実行 適切なモデルの指定 Step 3: オプションを指定し オッズ比とその信頼区間を表示 以下 このステップに沿って JMP の操作をご説明します Step 1: Y( 目的変数 ) の

<発注書作成>

各種パスワードについて マイナンバー管理票では 3 種のパスワードを使用します (1) 読み取りパスワード Excel 機能の読み取りパスワードです 任意に設定可能です (2) 管理者パスワード マイナンバー管理表 の管理者のパスワードです 管理者パスワード はパスワードの流出を防ぐ目的で この操作

設定 1 Windows10 の規定ブラウザの変更手順について 1 Windows10 のスタートメニューから 設定 をクリックしてください 2 システム をクリックしてください -1-

情報リテラシー 第1回

OS の bit 数の確認方法 - Windows0 及び Windows8. Windows のコントロールパネルを開きます Windows0 の場合 スタート から Windows システムツール の コントロールパネル をクリックします Windows8. の場合 スタート から PC 設定

檀家管理7のインストール

Microsoft Word - IE11 設定手順書 受注者 win 7.doc

Rでゲノム・トランスクリプトーム解析

バイオインフォマティクス(学部)

1 ログインとログアウト 1.1 ログイン ログイン画面で [ password ] 欄にパスワードを入力します (図 1) 図 1 ログイン画面 正しくログインができると Ubuntu のデスクトップ画面 図2 が表示されます 図2 Ubuntu デスクトップ画面 2

本チュートリアルについて 14 部構成 比較的簡単なトピックから 各回 プログラミング言語 任意 チュートリアルで 新しい内容 宿題 プログラミング演習 次の週 結果について発表 もしくは話し合いをする スライドは Python で Python, C++, Java, Perl についての質問い答

Microsoft Word - P doc

> usdata01 と打ち込んでエンター キーを押すと V1 V2 V : : : : のように表示され 読み込まれていることがわかる ここで V1, V2, V3 は R が列のデータに自 動的につけた変数名である ( variable

セル G5 に 大手町店 の合計を求めましょう 暮らしのパソコンいろは 1 セル G5 をクリックします 2 ホーム タブをクリックします 3 編集 グループの ( 合計 ) をクリックします セル G5 と数式バーに =SUM(D5:F5) と表示され セル範囲 D5:F5 が点滅する線で囲まれま

WinXp-Rmenu

EV3 の初期設定

Episys301と見える化君の使用方法

ご利用になる前に ここでは しんきん電子記録債権システム をご利用になる前に知っておいていただきたいことがらについて説明します 1 ご利用環境と動作条件の確認 2 2 初期設定とは 4 3 ソフトウェアキーボードの使いかた 6

目次はじめに... 2 Office365ProPlus のインストール 複数の Office 製品の共存インストールについて ソフトウェア使用許諾契約の確認 Office365 ProPlus のダウンロードとインストール

クライアント証明書インストールマニュアル

目次 1. 概要 動作環境

今月の呼びかけ 添付資料 ファイル名に細工を施されたウイルスに注意! ~ 見た目でパソコン利用者をだます手口 ~ 2011 年 9 月 IPA に RLTrap というウイルスの大量の検出報告 ( 約 5 万件 ) が寄せられました このウイルスには パソコン利用者がファイルの見た目 ( 主に拡張子

PowerPoint プレゼンテーション

特定健診ソフト クイックインストールマニュアル

Microsoft PowerPoint ï½žéł»å�’å–¥æœ�ㇷㇹㅃㅀ㇤ㅳㇹㅋㅼㅫ曉逃.ppt [äº™æ‘łã…¢ã…¼ã…›]

SILAND.JP テンプレート集

メニュー 設定画面 出力可能なバーコードの種類 出力可能なバーコードの種類各バーコードはそれぞれのバーコードの仕様に準拠します バーコードの種類 対応バーコードの名称 備考 RSS-14_STANDARD GS1 DataBar Omnidirectional (RSS-14) RSS-14_TRU

目次 第 1 章はじめに 本ソフトの概要... 2 第 2 章インストール編 ソフトの動作環境を確認しましょう ソフトをコンピュータにセットアップしましょう 動作を確認しましょう コンピュータからアンインストー

Microsoft Word - Setup_Guide

PowerPoint プレゼンテーション

電子紊品チェックシステム利用マニュアル

Microsoft Word - 02_ACM2012図面の開き方と保存方法.doc

スライド 1

<4D F736F F D208E96914F8F8094F5837D836A B2E646F63>

Transcription:

ゲノム情報解析基礎 ~ R で塩基配列解析 ~ 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/

多くのヒトが感想を述べられて 感想やコメント へのコメントいました ありがとうございます コピペではなく位置から自分が入力するのは無理そう 私もからの入力は無理です そのための多数の例題であり テンプレートを基本として必要最小限の変更で実行するのが基本です 難易度の観点から バイオスタティスティクス基礎論 回目 よりも ゲノム情報解析基礎 回目 が先のほうがありがたい 他の先生方のご都合などで決まりますので難しいところですが 私も個人的にはそれがいいと思います 前向きに検討します 講義全般 Negative( 基礎科目とはいえ 講義が止まることが多すぎ ): 名 気持ちは非常によくわかりますが できるヒト向けの講義ではありません要望 ( もっと応用編の時間を増やしてほしい ): 名 NGSハンズオン講習会を受けましょうw Positive( ちょうどよい わかりやすい ): 多数 ごっつぁんです PythonやMatlabなどに比べてGUIの使いにくさやヘルプの不足が気になった Rを利用するメリットがあれば教えて 個人利用としてはRStudioというソフトがGUIやヘルプの充実という観点からいいようです 講義では取り扱いづらいため 私は使ったことはありませんが スクリプト上で色分けする手段はあるか? あれば教えて 高機能なエディタをおススメ (Windows な私はEmEditor) Linux 上で作業をする人の多くは viやemacsというエディタを使っています 課題 のcontig_8はNを含むが Nは数えるべきなのだろうか? 私も正確なところはよくわかりませんが 多分 Nを除外して考えるのが正解 ではないだろうかと思います contigごとのgc 含量を調べると何がわかるのか気になった contigごとに違いがあるかどうかがわかる とか hoge って何? 特に意味はありません その筋のヒト が何気なしに使う用語です 農学太郎 花子みたいなものです

講義予定 4 月 日月曜日 (7:5-0:30)PC 使用 嶋田透 : ゲノムからの遺伝子予測 門田幸二 : バイオインフォマティクス基礎知識 R のイントロダクション 4 月 8 日月曜日 (7:5-0:30)PC 使用 門田幸二 :R で塩基配列解析 multi-fasta ファイルの各種解析 4 月 5 日月曜日 (7:5-0:30)PC 使用 嶋田透 : ゲノムアノテーション 遺伝子の機能推定 RNA-seq などによる発現解析 比較ゲノム解析 門田幸二 :R で塩基配列解析 R パッケージ k-mer 解析の基礎 5 月 0 日月曜日 (7:5-9:00 頃 )PC 使用 勝間進 : 非コード RNA 小分子 RNA エピジェネティクス 講義後 小テスト 全て PC 使用予定です 3

Contents パッケージ CRAN と Bioconductor 推奨パッケージインストール手順のおさらい ゲノム情報パッケージ BSgenome の概観 ヒトゲノム情報パッケージの解析 連続塩基出現頻度解析 (CpG 解析 ) k-mer 解析 仮想データ 実データ ( 課題 ) 作図 4

パッケージ R 起動直後に? 関数名 と打ち込んでも 使用法を記したウェブページが開かずにエラーが出ることがあります 5

パッケージ??alphabetFrequency と打ち込むように勧められているので打ってみる 検索結果のウェブページが表示されるので それっぽい関数名のところをクリック 6

パッケージ alphabetfrequency 関数は Biostrings というパッケージから提供されているものだと読み解く?? 関数名 は 関数名は既知だがどのパッケージから提供されているものかを知りたい場合などに利用する 7

パッケージ multi-fasta ファイルを読み込んで様々な解析ができるのは Biostrings や seqinr などの塩基配列解析用パッケージのおかげです 3citation( パッケージ名 ) で引用すべき論文がわかります 3 8

パッケージ や の部分でパッケージをロードしている これで ロードしたパッケージが提供する関数群を利用可能になる 9

パッケージ 例えば Biostrings というパッケージを library 関数を用いて読み込むことによって alphabetfrequency のような Biostrings が提供する関数群を利用できるのです ここでは 意図的に library(biostrings) を 回実行して 回目は何も表示されないということを思い出させています 実際には 回のみで大丈夫です 3?alp まで打ってから Tab キーを押すなどして タブ補完 テクを有効利用 3 0

R 本体とパッケージの関係 R 本体とパッケージ の関係は パソコンとソフト Microsoft EXCEL とアドイン Cytoscape とプラグイン のようなものという理解でよい パソコンを購入しただけの状態では できることが限られています 通常は Office やウイルス撃退ソフトなどをインストールして利用します Linux をインストールしただけの状態では できることが限られています 通常は マッピングなど各種プログラムをインストールして利用します R 本体をインストールしただけの状態では できることが限られています 各種解析を行うパッケージ ( またはライブラリ ) をインストールして利用します

CRAN と Bioconductor R パッケージの 大リポジトリ ( 貯蔵庫 ) CRAN:8,000 パッケージ以上 Bioconductor:,04 パッケージ 06 年 04 月 日現在 CRAN (The Comprehensive R Archive Network) 提供パッケージは 生命科学を含む様々な分野で利用される NGS 解析は 3 主に Bioconductor 提供パッケージを利用 3

定期的にバージョンアップ 近年のリリース頻度 R 本体 (http://www.r-project.org/) 06-04-4 に ver. 3..5 をリリース 05-06-8 に ver. 3.. をリリース 04-0-3 に ver. 3.. をリリース 0-03-30 に ver..5.0 をリリース Bioconductor (http://bioconductor.org/) は半年ごとにリリース 05-0 に ver. 3. をリリース (R ver. 3.. で動作確認 ) 提供パッケージ数 :,04 05-04 に ver. 3. をリリース (R ver. 3.. で動作確認 ) 提供パッケージ数 :,04 04-0 に ver. 3.0 をリリース (R ver. 3.. で動作確認 ) 提供パッケージ数 :934 04-04 に ver..4 をリリース (R ver. 3..0 で動作確認 ) 提供パッケージ数 :84 03-0 に ver..3 をリリース (R ver. 3.0 で動作確認 ) 提供パッケージ数 :750 03-04 に ver.. をリリース (R ver. 3.0 で動作確認 ) 提供パッケージ数 :67 0-0 に ver.. をリリース (R ver..5. で動作確認 ) 提供パッケージ数 :608 0-04 に ver..0 をリリース (R ver..5.0 で動作確認 ) 提供パッケージ数 :553 バグの修正や新たな機能がどんどん追加されている 最新版の利用をお勧め 毎年 5 月と 月ごろにバージョンアップするとよいだろう 3

Bioconductor Bioconductor に関する総説 (Review) ゲノム配列やアノテーションパッケージも Bioconductor から提供されており それらに関する言及もあり 4

パッケージのインストール 必要最小限プラスアルファ の推奨インストール手順を行えば (R で ) 塩基配列解析 で利用する多くのパッケージがインストールされます 5

パッケージのインストール これらは CRAN から提供されているものたち バイオスタティスティクス基礎論 で利用予定のパッケージは ここに書き込んでいる 6

パッケージのインストール ゲノム情報のパッケージ (BSgenome ) はBioconductor から提供されています ここでは計 6パッケージをインストールしている 例えばは マウスのmm0というバージョンのゲノム配列情報を含むパッケージの名前 (BSgenome.Mmusculus.UCSC.mm0) に相当する 3 biocliteという関数を用いて該当パッケージをインストールしています 3 7

Contents パッケージ CRAN と Bioconductor 推奨パッケージインストール手順のおさらい ゲノム情報パッケージ BSgenome の概観 ヒトゲノム情報パッケージの解析 連続塩基出現頻度解析 (CpG 解析 ) k-mer 解析 仮想データ 実データ ( 課題 ) 作図 8

BSgenome 利用の意義 ゲノム配列情報は UCSC Ensembl Illumina igenomes などのウェブサイトから取得するのが一般的ではあるが R の生物種ごとに提供されている BSgenome で取得 あるいは取り扱うことも可能 ChIP-seq 用パッケージの MEDIPS は BSgenome を利用 9

BSgenome ゲノム配列 BSgenome 0

BSgenome 黒枠部分のコードをコピペ R ver. 3..3 (Bioconductor ver. 3.) で利用可能な生物種のパッケージ名をリストアップ 83 個あることが分かる R のバージョンが古いとパッケージ数は少なくなる

BSgenome 04 年 4 月リリースのゼブラフィッシュ (Danio rerio; danrer0) のパッケージもある ヒトゲノムはこのあたり 様々なバージョン (hg7, hg8, hg9, hg38) のゲノム配列が提供されていることがわかる

BSgenome 実際にインストール済みのものを調べる この PC 環境では 7 パッケージであることがわかる 3 植物のシロイヌナズナ (Arabidopsis thaliana) のパッケージは 推奨手順通りにインストール作業をしたヒトは存在するはずです 私もインストールされてなかったりしますので なければ個別インストールで対応してください 3 3

個別インストール パッケージの個別インストール方法 パッケージ名部分を変更すれば 基本どのパッケージのインストールにも対応可能 例 : BSgenome.Athaliana.TAIR.TAIR9 4

Contents パッケージ CRAN と Bioconductor 推奨パッケージインストール手順のおさらい ゲノム情報パッケージ BSgenome の概観 ヒトゲノム情報パッケージの解析 連続塩基出現頻度解析 (CpG 解析 ) k-mer 解析 仮想データ 実データ ( 課題 ) 作図 5

BSgenome 例題 9 ヒトゲノム (GRCh38) の R パッケージを入力 3multi-FASTA ファイルを出力として得る 作業ディレクトリはどこでもよいが基本はデスクトップ上の hoge 数分かかるが 約 3.3GB のファイルが生成される ( 動作が遅くなるので ) テキストエディタで開かないで! 3 6

BSgenome 出力ファイルの内容は fasta オブジェクトに格納されている 慣れれば fasta オブジェクトの中身を R 上で直接眺めるほうが全体像をつかみやすい 7

BSgenome ~ 番染色体のみ取扱いたい場合 染色体番号の数が大きくなるほど配列長が短くなっている傾向が一目瞭然 8

BSgenome X, Y, およびミトコンドリア配列も含めたい場合 配列の並びの確認は試行錯誤 3 最初から 5 番目の要素が MT( ミトコンドリア ) だとわかっていたわけではありません 3 9

BSgenome X, Y, およびミトコンドリア配列までのサブセットを hoge0.fasta で保存したい場合 上矢印キーを何回か押してファイルに保存するためのコマンドを出し 3 水色下線部分の か所を変更すればよい 3 3 30

BSgenome 参考 こんな感じで変更して実行 やらなくてよい 実行後に hoge9.fasta よりも若干ファイルサイズの小さい hoge0.fasta が生成されていることが確認できます 決してテキストエディタで開かないで! 3

BSgenome 参考 例題 0 様々な記述形式があります やらなくてよい 3

BSgenome 6 番目以降の配列は ヒトゲノムの一部ではあるものの おそらく割り当てられる染色体が定まっていないものなどです メタゲノム解析などでヒトゲノムにマップされないリードのみ取扱いたい場合には 利用可能な全配列をマッピング時のリファレンスとして用いるのが自然だと思います 33

Contents パッケージ CRAN と Bioconductor 推奨パッケージインストール手順のおさらい ゲノム情報パッケージ BSgenome の概観 ヒトゲノム情報パッケージの解析 連続塩基出現頻度解析 (CpG 解析 ) k-mer 解析 仮想データ 実データ ( 課題 ) 作図 34

R で調べることができます ヒトゲノム中の CpG 出現確率は低い 全部で 6 通りの 連続塩基の出現頻度分布を調べると CG となる確率の実測値 (0.986%) は期待値 (4.%) よりもかなり低い 期待値 ゲノム中の GC 含量を考慮した場合 : 約 4%(A:0.95, C:0.05, G: 0.05, T:0.95) なので 0.05 0.05= 4.% ゲノム中の GC 含量を考慮しない場合 : 50%(A:0.5, C:0.5, G: 0.5, T:0.5) なので 0.5 0.5= 6.5% Lander et al., Nature, 409: 860-9, 00 35

連続塩基の出現頻度 例題 全貌を把握可能な hoge4.fa を作業ディレクトリにダウンロードして実行 36

連続塩基の出現頻度 右クリックでダウンロードし 作業ディレクトリ中に hoge4.fa があることを確認 Mac のヒトは.txt が付与されてしまう拡張子問題の解決も忘れずに! 37

連続塩基の出現頻度 Internet Explorer のヒトは CTRL と ALT キーを押しながらコードの枠内で左クリックすると全選択できます 基本はコピペ 出力ファイルの中身は tmp オブジェクトの中身と同じ 38

連続塩基の出現頻度 出力ファイルは 配列ごと ( この場合コンティグごと ) に 6 種類の 連続塩基の出現頻度をカウントしたものです 出力 :hoge.txt 39

連続塩基の出現確率 出力ファイルは 配列ごと ( この場合コンティグごと ) に 6 種類の 連続塩基の出現確率をカウントしたものです as.prob オプションを TRUE にしているだけ 出力 :hoge.txt 40

Contents パッケージ CRAN と Bioconductor 推奨パッケージインストール手順のおさらい ゲノム情報パッケージ BSgenome の概観 ヒトゲノム情報パッケージの解析 連続塩基出現頻度解析 (CpG 解析 ) k-mer 解析 仮想データ 実データ ( 課題 ) 作図 4

連続塩基の出現確率 例題 7 ヒトゲノムRパッケージを入力とすることもできます 一見ややこしいですが 3fasta オブジェクトの作成までを お約束の手順 だと思えばいいのです ( 孫建強氏提供情報 ) 3 4

連続塩基の出現確率 例題 9 は 例題 7 の記述が気になるヒト用 パッケージ名をベタで書いています 3 の tmp の中身は BSgenome.Hsapiens.NCBI.GRCh38 中で利用可能なオブジェクト名です 3 43

連続塩基の出現確率 出力 :hoge7.txt 例題 7 実行結果ファイル 約 3 分 CG の連続塩基が他に比べて確かに低いことがわかる 44

参考 連続塩基の出現頻度と確率 例題 8 染色体ごとではなく 全てをひとまとめにするやり方です 連続塩基の出現頻度順にソートして CG が少ないことを確かめています 45

k 連続塩基解析 連続塩基の解析は k= のときの k 連続塩基の解析 (k-mer 解析 ) と同じです 比較ゲノム解析 k=3 or 4 付近の値を用いてゲノムごとの頻度情報を取得し 類似性尺度として利用 アセンブル ( ゲノムやトランスクリプトーム ) k=5~00 付近の値を用いて de Bruijn グラフを作成 k-mer 頻度グラフを作成して眺め Heterozygosity の有無などを調査 モチーフ解析 転写開始点の上流配列解析 古細菌の上流 50 塩基に絞って k=4 で出現頻度解析すると おそらく TATA が上位にランクイン 発現量推定 RNA-seq 解析で リファレンスにリードをマップしてリード数をカウントするのが主流だが マッピング作業をすっ飛ばして k-mer に基づく方法で定量 Sailfish (Patro et al., Nat Biotechnol., 04) や RNA-Skim (Zhang and Wang, Bioinformatics, 04) 46

課題 任意の生物種のパッケージについて 連続塩基の出現確率を調べ 得られた結果について簡単に考察せよ ( 例題 7 のヒトゲノムや hoge4.fa を除く ) どのパッケージ ( あるいは生物種 ) を解析し どういう結果 ( 期待値と実測値 ) が得られ 例えばヒトゲノムの場合と比べてどうだったか という程度でよい 47

課題の基本的な考え方 解析する生物種の GC 含量を把握し 期待値からの差分に関する議論が重要 目的 : 連続塩基の出現頻度 (or 確率 ) を調べ 偏りの有無を調査 ヒトゲノムは CG という連続塩基の出現頻度が他 ( 特に CC, GC, GG) に比べて少ないと言われており 大まかにその傾向は確認済み 他の生物種ではどういう傾向にあるのか? ということに興味をもち調べようとしている 注意点 : 生物種ごとに GC 含量が異なる GC 含量が高いということは C と G の出現頻度が高いことを意味する それは A と T の出現頻度の相対的な低下を意味する GC 含量 50% の生物種の場合 A, C, G, T の出現確率は等しい (0.5, 0.5, 0.5, 0.5) それゆえ 計 6 種類の 連続塩基の出現確率の期待値は全て 0.5 0.5 = /6 (AA, AC, AG, AT, CA, CC, CG, CT, GA, GC, GG, GT, TA, TC, TG, TT) (/6, /6, /6, /6, /6, /6, /6, /6, /6, /6, /6, /6, /6, /6, /6, /6) 極端な例として 全て C または G のみからなる GC 含量 00% の生物種の場合 (A, C, G, T) の出現確率は (0.0, 0.5, 0.5, 0.0) となる この 連続塩基出現確率の期待値 : (AA, AC, AG, AT, CA, CC, CG, CT, GA, GC, GG, GT, TA, TC, TG, TT) (0.00, 0.00, 0.00, 0.00, 0.00, 0.5, 0.5, 0.00, 0.00, 0.5, 0.5, 0.00, 0.00, 0.00, 0.00, 0.00) 48

課題の基本的な考え方 目的 : 連続塩基の出現頻度 (or 確率 ) を調べ 偏りの有無を調査 ヒトゲノムはCGという連続塩基の出現頻度が他生物にとって意味のあることなのだろう これ ( 特にGG, CC, GC) に比べて少ないと言われており 大まかにその傾向は確認済み 他の生物種ではどういう傾向にあるのか? ということに興味をもち調べようとしている 注意点 : 生物種ごとに GC 含量が異なる GC 含量 00% の場合は CとGの出現確率はそれぞれ0.5 よって CC, CG, GC, GG の出現確率は全て0.5 0.5 = 0.5となる これが期待値 もし出現確率の実測値が例えばCCのみ高い (or 低い ) だったら 何かその GC 含量が高いということは C と G の出現頻度が高いことを意味する それは A と T の出現頻度の相対的な低下を意味する GC 含量 50% の生物種の場合 A, C, G, T の出現確率は等しい (0.5, 0.5, 0.5, 0.5) それゆえ 計 6 種類の 連続塩基の出現確率の期待値は全て 0.5 0.5 = /6 (AA, AC, AG, AT, CA, CC, CG, CT, GA, GC, GG, GT, TA, TC, TG, TT) (/6, /6, /6, /6, /6, /6, /6, /6, /6, /6, /6, /6, /6, /6, /6, /6) 極端な例として 全て C または G のみからなる GC 含量 00% の生物種の場合 (A, C, G, T) の出現確率は (0.0, 0.5, 0.5, 0.0) となる この 連続塩基出現確率の期待値 : (AA, AC, AG, AT, CA, CC, CG, CT, GA, GC, GG, GT, TA, TC, TG, TT) (0.00, 0.00, 0.00, 0.00, 0.00, 0.5, 0.5, 0.00, 0.00, 0.5, 0.5, 0.00, 0.00, 0.00, 0.00, 0.00) が 差分に関する議論が重要 という意味です 49

GC 含量情報を把握 入力が BSgenome の R パッケージでも GC 含量を計算することができる 例題 50

GC 含量情報を把握 参考 入力が BSgenome のパッケージの場合 入力ファイルというものはない コピペ実行後 ( 約 分 ) に 出力ファイルの中身に相当する tmp を実行し 3GC 含量が約 4% という情報を得る 3 5

ヒトゲノムの結果 ヒトゲノム (BSgenome.Hsapiens.NCBI.GRCh38) の GC 含量は 0.40 だった これは C と G の出現確率の合計が 0.40 ということを意味する それゆえ 各々の確率に分割すると 0.40/ = 0.05 となる 解析したパッケージ名 :BSgenome.Hsapiens.NCBI.GRCh38 ヒトゲノムの全体のGC 含量 : 約 4% 各塩基 (A, C, G, T) の出現確率 : (0.95, 0.05, 0.05, 0.95) 5

ヒトゲノムの結果 解析したパッケージ名 :BSgenome.Hsapiens.NCBI.GRCh38 ヒトゲノムの全体の GC 含量 : 約 4% AとTの出現確率の合計は GC 含量 (0.40) から 0.40 = 0.590となる それゆえ AとT 各々の確率に分割すると 0.590/ = 0.95となる 3 連続塩基の出現確率は 各塩基の出現確率の掛け算で計算可能 AとTの出現確率はともに 0.95 AA, AT, TA, TTの4 種類については その出現確率の期待値 (expected) は どれも0.95 0.95 = 0.08705 ( 約 8.7%) 各塩基 (A, C, G, T) の出現確率 : (0.95, 0.05, 0.05, 0.95) 3 AA, AT, TA, TT の出現確率の期待値 = 0.95 0.95 = 8.7% 53

ヒトゲノムの結果 再び 例題 7 の 3 連続塩基の出現確率計算結果ファイル (hoge7.txt) の考察に戻る 3 54

ヒトゲノムの結果 赤枠の数値が 出力ファイル (hoge7.txt) 中の AA, AT, TA, TT の出現確率の実測値 (observed) 概ね期待値 (8.7%) 周辺の値になっていることがわかる 考察 (discussion) としては 同一種類の連続塩基 (AA and TT) のほうが 異なる種類の連続塩基 (AT and TA) に比べて出現確率が高めである が言えるのでは 55

ヒトゲノムの結果 同じノリで 4 や 5 の残りの連続塩基の出現確率の期待値を計算することができ 実測値と比較可能 解析したパッケージ名 :BSgenome.Hsapiens.NCBI.GRCh38 ヒトゲノムの全体のGC 含量 : 約 4% 各塩基 (A, C, G, T) の出現確率 : (0.95, 0.05, 0.05, 0.95) 3 AA, AT, TA, TTの出現確率の期待値 = 0.95 0.95 = 8.7% 4 CC, CG, GC, GGの出現確率の期待値 = 0.05 0.05 = 4.% 5 AC, AG, CA, CT, GA, GT, TC, TGの出現確率の期待値 = 0.05 0.95 = 6.0% 56

ヒトゲノムの結果 解析したパッケージ名 :BSgenome.Hsapiens.NCBI.GRCh38 ヒトゲノムの全体の GC 含量 : 約 4% 各塩基 (A, C, G, T) の出現確率 : (0.95, 0.05, 0.05, 0.95) 3 AA, AT, TA, TT の出現確率の期待値 = 0.95 0.95 = 8.7% 4 CC, CG, GC, GG の出現確率の期待値 = 0.05 0.05 = 4.% 例えば CC, CG, GC, GGの出現確率の期待値は 4.% 考察 : 同一種類の連続塩基 (CC and GG) のほうが 異なる種類の連続塩基 (CG and GC) に比べて出現確率が高めである という傾向は確かにありそうだ 考察 :CGの出現確率の実測値 ( 約.0%) は 期待値 ( 約 4.%) よりもかなり低い 染色体ごとに分かれている場合は 例えばbox plotで全体像を眺める 5 AC, AG, CA, CT, GA, GT, TC, TG の出現確率の期待値 = 0.05 0.95 = 6.0% 57

Contents パッケージ CRANとBioconductor 推奨パッケージインストール手順のおさらい ゲノム情報パッケージBSgenomeの概観 ヒトゲノム情報パッケージの解析 連続塩基出現頻度解析 (CpG 解析 ) k-mer 解析 仮想データ 実データ ( 課題 ) 作図 58

作図 (box plot): 基本形 例題 0 box plot を PNG 形式ファイルで出力するやり方の基本形 59

400 pixels 作図 (box plot): 基本形 PNG ファイルのサイズを指定するところ hoge0.png 700 pixels 60

作図 (box plot): 色づけ 3 例題 color という列名のところに 連続塩基の種類ごとに色を指定した 3 タブ区切りファイル (human_mer.txt) を与えて利用 4 このファイルの情報を利用しているのは コードの下のほう 4 6

作図 (box plot): 色づけ boxplot 関数実行時のcolオプション部分で3 color 列の情報を利用していることがわかる 4 expected 列情報は 例題 では利用していない 3 4 6

400 pixels 作図 (box plot): 色づけ CG の出現確率が期待値 (4.%) より少ないのは CC, 3GC, 4 GG との相対的な関係からも明白 hoge.png 4 3 700 pixels 63

作図 (box plot): 発展形 期待値との差分を評価すべく 縦軸を log( 観測値 / 期待値 ) としてプロット 0 付近にある 連続塩基は 観測値 ( 実測された出現確率 ) が期待値とほぼ同じことを意味する この縦軸のような表現方法は一般的です hoge.png 64