イントロダクション データ分析をマスターする 12 のレッスン ウェブサポートページ ( 有斐閣 ) http://yuhikaku-nibu.txt-nifty.com/blog/2017/09/22103.html 水落研究室 R http://depts.nanzan-u.ac.jp/ugrad/ps/mizuochi/r.html 1 この授業では統計ソフト R を使って分析を行います データを扱うソフトとして 皆さんは Excel を知っていると思います 簡単な分析は Excel で十分ですが 作業をするうえで Excel はけっこう面倒です 少し複雑な分析になると専用の統計ソフトが必要になります 統計ソフトにはいくつか種類がありますが高価なものが多く 将来的な利用に制約があります 例えば SPSS という統計ソフトはフルセットを買うと数十万円します R はフリーの統計ソフトですが 機能は他のソフトにひけをとりません 実際 多くの研究者が R を利用しています 1. R のインストール R を各自のパソコンにインストールします まずは R の日本語 Wiki に行きます アドレスバーに http://www.okadajp.org/rwiki/ を打ち込んで移動するか Rjp Wiki で Web 検索すると RjpWiki が見つかります R について知りたい方は このサイトの内容を読んでおいてください 手順は以下のとおりです RjpWiki のトップページ中ほどの R のインストール をクリック
次のページの Windows 版 R のインストール のところで こちら をクリック 2 右のほうにある install R for the first time をクリック Download R 3.5.0 for Windows をクリック
R-3.5.0-win.exe という実行ファイル ( 拡張子.exe) が手に入ったと思います ( ダブル ) クリックし てインストールします 続いて以下のような表示がでますので 選択しつつ進めてください 1. このアプリがデバイスに変更を加えることを許可しますか? には はい を押してください 2. インストール中に利用する言語は 日本語 のままで OK 3. 情報を確認したら 次へ 4. インストール先の指定については そのままで 次へ 5. コンポーネントの選択は 利用者向けインストール を選択して 次へ 6. 起動時オプションはそのまま いいえ で 次へ 7. プログラムグループの指定は そのままで 次へ 8. 追加タスクの選択は そのままで 次へ 3 ここでインストールが始まるので少し待ちます ( 数分?) 9. セットアップウィザードの完了画面では 完了 デスクトップに R のショートカット アイコン R i386 3.5.0 と R x64 3.5.0 ができたと思います R i386.3.5.0 は 32 ビット機用で機能が少し制限されています R x64 3.5.0 は 64 ビット機用でほとんどの方は皆さんはこちらを使用することになります ショートカットをダブルクリックして起動してみましょう コンソール コマンド プロンプト
R が立ち上がり RGui の中に R Console が表示されます なお ウィンドウの上に RGui(64-bit) と表示されていれば 64bit 用が起動されていることになります 32bit 機の人は左上に RGui(32-bit) と表示されます 少し R を操作してみます R Console のコマンドプロンプトのところに 5+3 と入力して Enter を押します すると以下のように表示されると思います 4 > 5+3 [1] 8 次に 少し長いですが以下のように打ち込んで実行 (Enter) してください > は入力する必要はありま せん curve(dchisq(x,df=4),xlim=c(0,15)) グラフが表示されたと思います 統計学を既に習った人は聞いたことがあるはずですが これは自由度 4 の χχ 2 分布です このように計算式あるいはプログラムを記述し実行することで さまざまな分析を行う のが R です 2. R の基本操作と基本統計量 R の基本操作に慣れていきましょう ファイル 新しいスクリプト で R エディタを開きます 今後 R エディタにプログラムを書きながら分析することになります
実行ボタン R エディタ 5 R エディタは記述したコマンドを保存することができるので 作業の過程を記録することができ 次回 の R 起動時に前回とまったく同じ作業を簡単に再現できます R エディタで記述したコマンドの実行結 果は R Console に表示されます ここで R エディタに以下のように記述してみます 5+3 次に R エディタをアクティブにして RGui のメニューバーにある実行ボタンを押します なお アクティブになっているかはツールバーを見るとわかります 先ほどの図の五つあるアイコンの真ん中です ショートカット Ctrl+R でも実行できます すると R Console にプログラムと結果が表示されます それでは R エディタに以下のように打ち込んでください 打ち込んだら範囲指定して あるいは 1 行ずつ実行します x <- c(2,5,6,4,1) y <- c(10,13,16,12,9) plot (x,y) なお < と - は別の文字として入力してください ここでは 変数 x y にデータをベクトルとして与えています plot は散布図を描く命令です 横軸 (X 軸 ) 縦軸(Y 軸 ) の順に記述するのがポイントです 右上がりの散布図ができたでしょうか このようにデータを R エディタに打ち込んで分析できますが 大きなデータになるとさすがに難しくなります そこで 今後は既にできている外部ファイルを読み込んで分析することになります
そこで準備をします まずデスクトップに Quant フォルダをつくっておきます 新規に Excel を開き のように打ち込んでください 6 1 行名が変数名 2~11 行目がデータとなっています ここで作成した Excel ファイルを csv 形式で Quant フォルダに保存します csv は Comma Separated Value の頭文字です カンマで区切られた値という意味になります ファイルタブ 名前を付けて保存 保存先を Quant フォルダにして ファイルの種類 から csv 形式を選択し保存します ファイル名は test としておきましょう Quant フォルダを開いてみ
て ファイルが保存されているか確認してみましょう 次に R に作業する場所が Quant フォルダであると指示します R Console をアクティブにした状態で ファイル ディレクトリの変更 をクリックし Quant フォルダを指定してください 作業場所の指定が終わったら R エディタに以下のようにコマンドして実行してください data1 <- read.csv("test.csv") data1 7 1 行目がデータ読み込みのコマンドで 2 行目が読み込んだデータを表示するコマンドです R Console のほうに 読み込まれたデータが表示されています この場合 csv ファイルとしては test というファイル名ですが R 上では data1 という名前で扱われることに注意が必要です この R 上でのデータファイルのことをデータフレームと呼びます それでは R を使って分析してみましょう 再び散布図を描いてみます plot (data1$ 勉強時間, data1$ 得点, xlab=" 勉強時間 ", ylab=" 得点 ") 散布図ができたと思います 印がそれぞれのデータを示しています 10 人分あるのがわかると思います 勉強時間が多いほど試験の点数が高くなることが確認できます まだ 統計的に関係がある と言えるかはわかりませんが 視覚的にはそう言えそうです この講義で行う分析は 基本的には このようなデータ ( 変数 ) 間の関係性を見出すことにあります 得点 10 15 20 25 1 2 3 4 5 6 7 勉強時間 なお xlab と ylab は散布図のラベルを指定するコマンドです 試しに先ほどのコマンドでラベル指定 をはずしてみましょう やや見栄えが悪いような気がします
ここで一度 作業を保存しておきます R エディタをアクティブにして ファイル 保存 と進み ファイル名をつけて 保存 を押します ここではファイル名 prog としておきました 保存が終わったら R を終えます 右上の を押してください 作業スペースの保存は いいえ を押します これで R が終了します R を再び立ち上げてください ディレクトリの変更を行います スクリプトを開く で prog ファイルを指定します R エディタが開きますので 前回の作業を再開することができます 8