(R で ) 塩基配列解析 基本的な利用法 Macintosh 版 到達目標 : このスライドに書かれている程度のことは自在にできるようにしてエラーへの対処法を身につける 1. 必要なパッケージのインストールが正しくできているかどうかの自力での判定 および個別のパッケージのインストール 2. 作業ディレクトリの変更 3. テキストエディタで自在に入出力ファイル名の変更 ( どんなファイル名のものがどこに生成されるかという全体像の把握 ) 4. ありがちなミス のところで示しているエラーメッセージとその原因をきっちり理解 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム門田幸二 ( かどたこうじ ) kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/ 1
前提条件 インストールができているつもりでも 実際にはできていなかったという事例が散見されます パッケージ名のスペルミスもよく見受けられます いくつかのパッケージについて適切にインストールされているか確認しておきましょう 2
R の起動 起動直後の状態です 3
基本的な利用法 数値計算ができます 4
R の終了 通常のソフトウェアと同様 左上の赤丸ボタンを押せばよい 5
R の終了 ワークスペースのイメージファイルを保存しますか? というダイアログが出るが 最初のうちは 保存しない でよい ( 間違って 保存 を押してしまっても.Rapp.history というドットから始まる隠しファイルが作成されるだけなので特に問題はない ユーザ名 kadota の環境では /Users/kadota/.Rapp.history にイメージファイルが自動作成される 尚 隠しファイルは通常は表示されない 6
(R で ) 塩基配列解析 基本的な塩基配列解析から NGS データ取得 マッピング 統計解析 作図などができます このウェブページは サンプルデータと解析例を徹底的に充実させています 項目数が非常に多いですが 慣れです 7
解析基礎 1: 翻訳配列取得 塩基配列を入力として その翻訳されたアミノ酸配列を取得することができます 8
hoge フォルダの作成 デスクトップにある hoge フォルダ中のファイルを解析するやり方として説明します 9
ファイルの保存 1 解析したいファイル sample1.fasta を hoge フォルダ中に保存 2 勝手に.txt という拡張子が追加されてしまいますので 戻しておきましょう 1 2 10
ファイルの保存 基本 R で取り扱うので エディタも R のものを利用したほうが無難です 11
作業ディレクトリの変更 R 起動直後のデフォルトの作業ディレクトリは ユーザ名 kadota の環境では /Users/kadota です その一方で 今解析したいファイルはデスクトップ上にある hoge なので 作業ディレクトリをそこに変更する必要があります getwd() は 現在の作業ディレクトリを表示させるコマンドです 12
作業ディレクトリの変更 デスクトップの hoge を指定して 開く を押す 1 2 3 13
getwd() と打ち込んで確認 当たり前ですが 解析したいディレクトリ ( またはフォルダ ) を正しく指定できていなければエラーに遭遇します また 解析したいファイルが存在しない状態でもエラーが出ます 14
実際の hoge フォルダと R 操作画面の関係 ファイル保存前 character(0) は何もないという意味 ファイル保存後 15
基本はコピペ 1 一連のコマンド群をコピーして 2R Console 画面上でペースト 1 2 16
基本はコピペ ペースト直後の状態 リターンキー を押す 17
基本はコピペ リターンキー を押すとコピペしたコードが実行される 無事実行が終わると このような画面になる 18
実行結果 出力ファイル名として指定した hoge1.fasta が生成されていることが分かります 実行前の hoge フォルダ 実行後の hoge フォルダ 19
実行結果 list.files() で表示される結果 と 実行後の hoge フォルダの中身 は当然同じです 実行前の hoge フォルダ 実行後の hoge フォルダ 20
実行結果 入力ファイル中の塩基配列は 3 の倍数の 12 塩基長 ACGT のみからなるので何のエラーも出ない 入力 : 塩基配列ファイル (sample1.fasta) 出力 : アミノ酸配列ファイル (hoge1.fasta) 21
解析基礎 2 入力 : アノテーションファイル (annotation.txt) 目的 : アノテーションファイル (annotation.txt) 中の第 1 列目に対して リストファイル (genelist1.txt) 中の文字列と一致する行を抜き出して hoge1.txt というファイル名で出力したい 出力 :hoge1.txt 入力 : リストファイル (genelist1.txt) 22
解析基礎 2 目的 : アノテーションファイル (annotation.txt) 中の第 1 列目に対して リストファイル (genelist1.txt) 中の文字列と一致する行を抜き出して hoge1.txt というファイル名で出力したい 23
解析基礎 2 作業ディレクトリは デスクトップ hoge hoge フォルダ中に annotation.txt と genelist1.txt が存在するという前提 24
基本はコピペ 1 一連のコマンド群をコピーして 2R Console 画面上でペースト 3 リターンキー を押す 1 2 25
基本はコピペ リターンキー を押すとコピペしたコードが実行される 無事実行が終わると このような画面になる 26
実行結果 list.files() で表示される結果 と 実行後の hoge フォルダの中身 は当然同じです 実行前の hoge フォルダ 実行後の hoge フォルダ 27
実行結果 out というオブジェクトの中身を write.table という関数でファイルに出力しています それゆえ 出力ファイル (hoge1.txt) の中身は R コンソール画面中で out と打ち込むことでも見られます 実行後の hoge フォルダ 28
色の説明 R コード中の色の使い分けについて説明します 29
応用 このサンプルコードは 1 列目でキーワード検索する場合 別のリストファイルを読み込んで 4 列目で検索したい場合のやり方を示します 30
解答例 1. 目的のキーワードリストを含むファイルを作成し ( 例 :list.txt) 2. 該当箇所を変更し Rコンソール画面上でコピペ 一連の作業手順を記述したスクリプトを 1 つのファイルとして保存することをお勧め 31
ありがちなミス 1 作業ディレクトリの変更を忘れているため in_f1 で指定した最初のファイルの読み込み段階でエラーが出る つまり 実際に行ったフォルダ中には annotation.txt というファイルは存在しないということ 32
ありがちなミス 2 必要な入力ファイルが作業ディレクトリ中に存在しない この場合 in_f2 で指定した genelist1.txt が存在しないため それの読み込み段階でエラーが出ている それゆえ その情報を用いているコマンド部分でエラーが出ている 33
ありがちなミス 3 出力予定のファイル名と同じものをエクセルなど別のプログラムで開いているため 最後の write.table 関数のところでエラーが出る 対処法は 出力ファイル名を変更するか 開いている別のプログラムを閉じる これは Windows の例 Mac の場合 Excel で開いていようがおかまいなしに上書き保存されてしまうが 他のアプリケーションで開いている場合にこのようなエラーに遭遇する可能性があるため 念のため掲載 34
ありがちなミス 4 実行スクリプトをコピーする際 最後の行のところで改行を含ませずに R Console 画面上でペーストしたため 最後のコマンドが実行されない ( 出力ファイルが生成されない ) これも Windows の例 Mac の場合 コピペ後にリターンキーを押すのでこのようなミスは犯しにくいが念のため掲載 35
警告メッセージ list.txt ファイル作成時に membrane と打った後に改行を入れた場合 ( 左 ) と入れない場合 ( 右 ) の挙動の違いを把握し 後学のために警告メッセージの意味を理解しておくとよい この場合は結果には影響していないことがわかる R は警告メッセージ後の記述内容が比較的分かりやすいのでよく読むべし 36