到達目標 : このスライドに書かれている程度のことは自在にできるようにしてエラーへの対処法を身につける. 必要なパッケージのインストールが正しくできているかどうかの自力での判定 および個別のパッケージのインストール. 作業ディレクトリの変更 3. テキストエディタで自在に入出力ファイル名の変更 ( どんなファイル名のものがどこに生成されるかという全体像の把握 ) 4. ありがちなミス のところで示しているエラーメッセージとその原因をきっちり理解 Chrome で動作確認しています ブラウザによっては若干挙動が異なります (R で ) 塩基配列解析 基本的な利用法 Macintosh 版 東京大学 大学院農学生命科学研究科アグリバイオインフォマティクス教育研究プログラム寺田朋子 門田幸二 kadota@iu.a.u-tokyo.ac.jp http://www.iu.a.u-tokyo.ac.jp/~kadota/
Contents 前提条件 R の起動と終了 基本的な利用法 解析基礎 : 翻訳配列取得 イントロダクション : フォルダの作成から入力ファイルの保存まで 作業ディレクトリの変更と確認 :getwd() と list.files() コピペ実行と結果の確認 解析基礎 : 任意のキーワードを含む行を抽出 ( 基礎 ) 色の説明と応用 ありがちなミスや警告メッセージ
前提条件 の推奨手順通りにインストールができているつもりでも 実際にはできていなかったという事例が散見されます 実際の作業は と 3 ですが インストールが失敗しているパッケージについては 4 を参考にして個別対応しましょう パッケージ名や関数名のスペルミスだったというオチも散見されますので気を付けましょう 3 4 3
Contents 前提条件 R の起動と終了 基本的な利用法 解析基礎 : 翻訳配列取得 イントロダクション : フォルダの作成から入力ファイルの保存まで 作業ディレクトリの変更と確認 :getwd() と list.files() コピペ実行と結果の確認 解析基礎 : 任意のキーワードを含む行を抽出 ( 基礎 ) 色の説明と応用 ありがちなミスや警告メッセージ 4
R の起動 R アイコンをクリックして起動 Dock に登録していない場合は Macintosh HD ーアプリケーションー R.app を起動します 5
R の起動 起動した R コンソールのウィンドウサイズを適当なサイズ 位置にします 6
R の起動 赤枠で囲まれた部分が R コンソール画面 このウィンドウ名が表示されない場合は ウィンドウ メニューで タブバーを表示 を選択する 7
R の終了 通常のソフトウェア同様 左上の赤丸ボタンを押せばよい 8
R の終了 ワークスペースのイメージファイルを保存しますか? というダイアログが出る この意味が不明な最初のうちは 保存しないでよい 保存 を押してしまっても.Rapp.history と.Rhistory という つのファイルが初期作業ディレクトリに作成されるだけなので特に問題はない 前者のファイルは 保存しない を選んだ場合でも保存される なお これらは. で始まるいわゆる隠しファイルなので 通常は表示されない これらを表示させるには どこかのフォルダで command + shift +. を押します 9
Contents 前提条件 R の起動と終了 基本的な利用法 解析基礎 : 翻訳配列取得 イントロダクション : フォルダの作成から入力ファイルの保存まで 作業ディレクトリの変更と確認 :getwd() と list.files() コピペ実行と結果の確認 解析基礎 : 任意のキーワードを含む行を抽出 ( 基礎 ) 色の説明と応用 ありがちなミスや警告メッセージ 0
基本的な利用法 数値計算ができます
(R で ) 塩基配列解析 基本的な塩基配列解析から NGS データ取得 マッピング 統計解析 作図などができます このウェブページは サンプルデータと解析例を徹底的に充実させています 項目数が非常に多いですが 慣れです 項目だけのものや古いものも多数あります
Contents 前提条件 R の起動と終了 基本的な利用法 解析基礎 : 翻訳配列取得 イントロダクション : フォルダの作成から入力ファイルの保存まで 作業ディレクトリの変更と確認 :getwd() と list.files() コピペ実行と結果の確認 解析基礎 : 任意のキーワードを含む行を抽出 ( 基礎 ) 色の説明と応用 ありがちなミスや警告メッセージ 3
解析基礎 : 翻訳配列取得 をクリックすると 4
解析基礎 : 翻訳配列取得 をクリックすると のようなページに移動します ここは 塩基配列を入力として その翻訳されたアミノ酸配列を取得するための項目です クリックする場所を間違えた場合は 3トップページへ 3 5
hoge フォルダの作成 デスクトップに作成した hoge フォルダ中のファイルを解析するやり方として説明します よく hoge って何ですか? と質問されるのですが 特別な意味はありません 別の名前をつけた場合は 以後読み替えてください その場合 フォルダ名に日本語は使用しない方が無難かと思います 6
解析基礎 : 翻訳配列取得 項目名からもある程度わかるようになっていますが の部分にもう少し詳細な説明や解説があります 7
解析基礎 : 翻訳配列取得 つの項目内には大抵複数の例題があります ここでは 例題 をやっていきます 8
解析基礎 : 翻訳配列取得 例題 は sample.fasta というファイルを入力として利用します 赤枠部分のみを拡大表示します 9
解析基礎 : 翻訳配列取得 sample.fasta を デスクトップ上に作成した hoge フォルダ内に保存します 詳しい手順は 0
解析基礎 : 翻訳配列取得 sample.fasta 上で右クリックし リンク先を別名で保存 を選択 保存先はもちろん 3 ここ 3
解析基礎 : 翻訳配列取得 大抵の場合 デフォルトの保存先は Chrome の から設定を開いて 詳細設定を確認すると
解析基礎 : 翻訳配列取得 大抵の場合 デフォルトの保存先は Chrome の詳細設定を確認すると ダウンロードフォルダになっていますが 3
解析基礎 : 翻訳配列取得 大抵の場合 デフォルトの保存先はダウンロードフォルダになっていますが 今回のダウンロード先は デスクトップ上に作成したhogeフォルダです! 4
解析基礎 : 翻訳配列取得 hoge フォルダに 保存 5
解析基礎 : 翻訳配列取得 ときどきファイルの形式欄がテキストファイルと自動判定され ( つまり.txtが付加されて) しまうことがあります sample.fasta.txtになるなどしたら sample.fastaに戻してから 保存してください 6
解析基礎 : 翻訳配列取得 こんな感じに見えていれば無事ダウンロードができているはずです 7
解析基礎 : 翻訳配列取得 hogeフォルダ内に sample.fastaが見えていればok の中身は3のような感じです 3 8
目的をおさらい hoge フォルダ内にある sample.fasta 中の 3 塩基配列に対応する翻訳配列 ( アミノ酸配列 ) を得るのが目的です 3 9
目的をおさらい 実際には プログラム実行結果として で指定した名前の 翻訳配列を含む出力ファイルが hoge フォルダ中に保存されます 30
Contents 前提条件 R の起動と終了 基本的な利用法 解析基礎 : 翻訳配列取得 イントロダクション : フォルダの作成から入力ファイルの保存まで 作業ディレクトリの変更と確認 :getwd() と list.files() コピペ実行と結果の確認 解析基礎 : 任意のキーワードを含む行を抽出 ( 基礎 ) 色の説明と応用 ありがちなミスや警告メッセージ 3
R の起動 getwd() と打ち込んで リターンキーを押す 3
R の起動 こういうことです R 起動直後のデフォルトの作業ディレクトリは ユーザ名 kadota の環境では /Users/kadota です 33
Tips:R の環境設定 R を起動したときの作業ディレクトリの場所は 環境設定 起動 3 初期作業ディレクトリで設定されています 4~ はホームディレクトリ この場合 /Users/kadota ということになります 3 4 34
Tips: 文字サイズ変更 文字サイズを変更したい場合は フォーマット フォント 3 大きく 小さくまたは 4 フォントパネルを表示 4 3 35
Tips: 文字サイズ変更 フォントの種類を変更したい場合やサイズを数字で指定したい場合は フォントパネルを表示を選び フォントパネルを表示させて 3 サイズのところを適当なサイズにして ご利用ください 3 36
getwd() getwd() は 現在の作業ディレクトリを表示させるコマンドです 一方 今解析したいファイル sample.fasta は 3 デスクトップ上にある hoge フォルダにあるので 作業ディレクトリをそこに変更する必要があります 3 37
作業ディレクトリの変更 その他 作業ディレクトリの変更 38
作業ディレクトリの変更 ユーザ kadota の環境ではこのように見えている デフォルトは /Users/kadota なので の位置がハイライトされている その右の 3 デスクトップを選択すると 3 39
作業ディレクトリの変更 の部分がデスクトップに切り替わる 目的の hoge フォルダを選択 40
作業ディレクトリの変更 の部分が hoge に切り替わる 開く 4
もう一度 getwd() 一見すると 何も変わってなさそうですが もう一度 getwd() を実行すれば 作業ディレクトリが変更されていることが確認できます 4
もう一度 getwd() さきほどと同様に getwd() とベタ打ちしてもよいが キーボードの 上矢印キーを一回押すと 直前に打ち込んだコマンド ( この場合は getwd()) が表示される これは打ち込んだのと同じ意味なので そのままリターンキーを押せばよい いくつか入力したコマンドがあれば 上矢印キーを押していけば見られます 行き過ぎたら下矢印キーを押していけば戻れます 43
確認 こんな感じで 作業ディレクトリが /Desktop/hoge であれば OK 当たり前ですが 解析したいディレクトリ ( またはフォルダ ) を正しく指定できていなければエラーに遭遇します また 解析したいファイルが存在しない状態でもエラーが出ます 44
list.files() でフォルダ内を見る list.files() は 作業ディレクトリの中身を表示するコマンドです 45
list.files() でフォルダ内を見る hogeフォルダの 中身が対応づいているのがわかりますね 46
list.files() でフォルダ内を見る もしフォルダの中身が何もないときは のように見えるので覚えておきましょう character(0) は何もないという意味 47
Tips: 初期作業ディレクトリ R 起動時の作業ディレクトリを hoge に設定するなど変更する場合は 環境設定 起動 3 初期作業ディレクトリの変更から設定します 3 48
Contents 前提条件 R の起動と終了 基本的な利用法 解析基礎 : 翻訳配列取得 イントロダクション : フォルダの作成から入力ファイルの保存まで 作業ディレクトリの変更と確認 :getwd() と list.files() コピペ実行と結果の確認 解析基礎 : 任意のキーワードを含む行を抽出 ( 基礎 ) 色の説明と応用 ありがちなミスや警告メッセージ 49
基本はコピペ 一連のコマンド群をコピーして R Console 画面上でペースト 50
基本はコピペ R Console 画面上でペーストした直後 Macintosh では この状態 ( ペーストしただけ ) では実行されないようです ペースト後に必ず Enter キーを押す 5
基本はコピペ エラーなく実行できた場合の全貌 多少見栄えが異なっていても エラーという文字が見えていなければ OK 5
実行結果 出力ファイル名として指定したhoge.fasta が生成されていることが分かります 実行前のhogeフォルダ 実行後の hoge フォルダ 53
実行結果 list.files() で表示される結果と 実行後のhogeフォルダの中身は当然同じ実行前のhogeフォルダ 実行後の hoge フォルダ 54
実行結果 入力 : 塩基配列ファイル (sample.fasta) ファイルをテキストエディタで開くか または R のファイルメニューから 文書を開く を選び それぞれのファイルを開く 入力ファイル中の塩基配列は 3 の倍数の 塩基長 ACGT のみからなるので何のエラーも出ない 出力 : アミノ酸配列ファイル (hoge.fasta) 55
Contents 前提条件 R の起動と終了 基本的な利用法 解析基礎 : 翻訳配列取得 イントロダクション : フォルダの作成から入力ファイルの保存まで 作業ディレクトリの変更と確認 :getwd() と list.files() コピペ実行と結果の確認 解析基礎 : 任意のキーワードを含む行を抽出 ( 基礎 ) 色の説明と応用 ありがちなミスや警告メッセージ 56
解析基礎 目的 : アノテーションファイル (annotation.txt) 中の第 列目に対して リストファイル (genelist.txt) 中の文字列と一致する行を抜き出して hoge.txt というファイル名で出力したい 入力 : アノテーションファイル (annotation.txt) 出力 :hoge.txt 入力 : リストファイル (genelist.txt) 57
解析基礎 目的 : アノテーションファイル (annotation.txt) 中の第 列目に対して リストファイル (genelist.txt) 中の文字列と一致する行を抜き出して hoge.txt というファイル名で出力したい の 例題 をやります 58
解析基礎 作業ディレクトリは デスクトップ hoge hoge フォルダ中に annotation.txt と 3 genelist.txt が存在するという前提 3 3 3 59
基本はコピペ 一連のコマンド群をコピーして R コンソール画面上でペースト 60
実行結果 list.files() で表示される結果と 実行後の hoge フォルダの中身は当然同じ 実行前の hoge フォルダ 実行後のhogeフォルダ 6
Tips:R コンソール画面で 出力ファイル (hoge.txt) の中身 これは out というオブジェクトの中身を 3write.table という関数を用いてファイルに出力したもの 3 実行後の hoge フォルダ 6
Tips:R コンソール画面で それゆえ 出力ファイル (hoge.txt) の 中身は Rコンソール画面中で 3outと打ち込むことで確認できる 早く慣れて Rコンソール画面だけで動作確認できるようになっていこう 3 実行後の hoge フォルダ 63
Contents 前提条件 R の起動と終了 基本的な利用法 解析基礎 : 翻訳配列取得 イントロダクション : フォルダの作成から入力ファイルの保存まで 作業ディレクトリの変更と確認 :getwd() と list.files() コピペ実行と結果の確認 解析基礎 : 任意のキーワードを含む行を抽出 ( 基礎 ) 色の説明と応用 ありがちなミスや警告メッセージ 64
色の説明 R コード中の色の使い分けについて説明します はじめにに書いている の内容が全て 65
応用 例題 は 列目でキーワード検索するやり方でした つまり 3 の列が対象でした 3 66
応用 応用として 別のリストファイルを読み込んで 4 列目で検索したい場合のやり方を示します 67
リストファイルの作成 おさらい 例題 の リストファイル (genelist.txt) 中の キーワードリストは のように書かれていた 68
リストファイルの作成 今回は のような nuclear と membrane を含む行を抽出したいので のようなリストファイルを作成し list.txt というファイル名で保存しておく 当然ながら 保存場所は annotation.txt と同じ場所です 69
R エディタを起動 ファイル - 新規文書 で R エディタを起動 もちろん 他のエディタをどうしても使いたければ 二重クォーテーション問題 などに遭遇する可能性を踏まえ 自己責任でご利用ください 70
Tips:R エディタ 新規文書と 新規 Rd 文書の違い 新規文書で作成した方は 自動的に色付けがされ わかりやすい 保存する場合 拡張子.R となる 一方 Rd 文書の方は R パッケージを作成するためのエディタで 一色のみの表示 保存する場合 拡張子.Rd となる どちらも 編集ー実行 とすることは可能だが 前者がオススメだろう 7
テンプレートコードをコピペ 例題の赤枠内のコードを 起動した R エディタ上でコピペ 7
必要最小限の箇所を変更 リストファイルの名前と 列番号情報を変更 73
必要最小限の箇所を変更 list.txt 中のキーワードで 4 列目で探すからでした 74
Tips:command + return 変更後のコードを全選択 (command+a) したのち 右クリックでコピー R コンソールでペーストをしなくても 編集メニュー 実行 (command+return) を選択すると 選択部分をコピー R コンソールにペースト 実行まで行われます R エディタ以外のエディタの場合は R コンソール上にコピー & ペースト後 return キーを入力して実行する必要があります 75
Tips:command + return 実行後はこんな感じになります 一見何も変わっていないように見えて Rコンソール上で実行されています 出力ファイル名は変更していないので hoge.txtファイルに上書きされるはず もし Excelなどでhoge.txtを開いたまま実行した場合は 一度閉じてからhoge.txtを開き直してください 76
list.files() で確認 確かに出力ファイルに相当する名前は hoge.txt しかないですね 77
out の中身を確認 out と打ち込んで確認 確かに list.txt ファイル中に書き込まれたキーワードを含む行のみが抽出できていますね 78
Contents 前提条件 R の起動と終了 基本的な利用法 解析基礎 : 翻訳配列取得 イントロダクション : フォルダの作成から入力ファイルの保存まで 作業ディレクトリの変更と確認 :getwd() と list.files() コピペ実行と結果の確認 解析基礎 : 任意のキーワードを含む行を抽出 ( 基礎 ) 色の説明と応用 ありがちなミスや警告メッセージ 79
ありがちなミス 作業ディレクトリの変更を忘れているため in_f で指定した最初のファイルの読み込み段階でエラーが出る つまり 実際に解析を行ったフォルダ中には annotation.txt というファイルが存在しないということ 80
ありがちなミス 必要な入力ファイルが作業ディレクトリ中に存在しない この場合 in_f で指定した genelist.txt が存在しないため それの読み込み段階でエラーが出ている それゆえ その情報を用いているコマンド部分でエラーが出ている 8
ありがちなミス 3 実行スクリプトを R コンソール画面上にコピー & ペーストしただけで リターンキーが押されていないため コマンドが実行されない ( 出力ファイルが生成されない ) コピペ後に無意識にリターンキーを押すことを心がけるだけでもよいでしょう 8
警告メッセージ list.txt ファイル作成時に membrane と打った後に改行を入れた場合 ( 左 ) と入れない場合 ( 右 ) の挙動の違いを把握し 後学のために警告メッセージの意味を理解しておくとよい この場合は結果には影響していないことがわかる R は警告メッセージ後の記述内容が比較的分かりやすいのでよく読むべし 83
メッセージ 作業ディレクトリの変更を行った時に のようなメッセージが表示されることがあるが 基本的に気にしなくてよい これは Class FIFindeerSyncExtensionHost が 箇所で実装されており そのどちらかが使われる と言っているのですが おそらく R の使用上には問題無いでしょう 84