TM2018 講習会資料 MTMineR を用いたテキストマイニングの基礎同志社大学文化情報学研究科データサイエンス研究室目次 1. イントロダクションテキストマイニングのプロセス 2. R 言語基礎 R 言語環境 R データ型と構造グラフィックスの作成基礎統計解析外部データ読み込み

TM2018 講習会資料 MTMineR を用いたテキストマイニングの基礎同志社大学文化情報学研究科データサイエンス研究室目次 1. イントロダクションテキストマイニングのプロセス 2. R 言語基礎 R 言語環境 R データ型と構造グラフィックスの作成基礎統計解析外部データ読み込み 3. テキストマイニングのための環境整備 Java と R のインストール日本語形態素解析器 (MeCab) の演習日本語係り受け解析器 (CaboCha) の演習 2 目次テキストマイニングのプロセス 1/4 1. イントロダクションテキストマイニングのプロセス 2. R 言語基礎 R 言語環境 R データ型と構造グラフィックスの作成基礎統計解析外部データ読み込みテキストマイニングの全体像大量のテキストから有益の情報獲得テキストデータ抽出変数テキスト 3. テキストマイニングのための環境整備 Java と R のインストール日本語形態素解析器 (MeCab) の演習日本語係り受け解析器 (CaboCha) の演習 3 結果解釈統計解析 4

テキストマイニングのプロセス 1/4 テキストマイニングのプロセステキストから抽出した特徴データに統計解析を行う STEP1: テキストファイルから特徴抽出集計テキストデータセット変数テキストテキストマイニングのプロセス 1/4 テキストマイニングのプロセステキストから抽出した特徴データに統計解析を行う STEP1: テキストファイルから特徴抽出集計特徴データ変数 STEP2: 特徴データに対して統計解析を行うテキスト記述統計 ( 平均分散など ) 推測統計 ( 推定検定など ) 多変量解析 ( 主成分分析など ) 5 6 テキストマイニングのプロセス 1/4 テキストマイニングのプロセステキストから抽出した特徴データに統計解析を行うテキストマイニングのプロセス 2/4 特徴データ目的に沿ってテキストから抽出したデータセット STEP1: テキストファイルから特徴抽出集計特徴データ変数 STEP2: 特徴データに対して統計解析を行う STEP3: 結果の可視化統計モデルの解釈テキスト記述統計 ( 平均分散など ) 推測統計 ( 推定検定など ) 多変量解析 ( 主成分分析など ) 7 目的は多種多様歌詞ブログ音程音高人称代名詞の研究 ( 私僕彼など ) 男女の言葉の違い ( 男性と女性の会話文 ) 文体変化や著者識別などの研究 ( 助詞などの文体特徴量 ) 8

テキストマイニングのプロセス 2/4 特徴データ例川端康成と三島由紀夫の助詞使用状況を考察テキストマイニングのプロセス 3/4 統計解析例 : 主成分分析特徴データ作品名 / 変数名のはにて K_ たまゆら 340 226 213 161 K_ みづうみ 1940 1510 1317 1349 K_ 再婚者 1051 800 806 680 K_ 小春日 157 122 86 102 M_ 孤閨悶々 363 260 264 301 M_ 家庭裁判 396 287 279 265 M_ 携帯用 334 295 272 241 M_ 月 372 239 228 221 9 10 テキストマイニングのプロセス 3/4 統計解析例 : 主成分分析テキストマイニングのプロセス 3/4 統計解析例 : 主成分分析三島由紀夫三島由紀夫三島由紀夫をにの多用川端康成川端康成川端康成ともの多用 11 12

テキストマイニングのプロセス 3/4 統計解析例 : 階層的クラスター分析テキストマイニングのプロセス 3/4 テキストマイニングのツール市販のソフト - Text Mining Studio - IBM SPSS Text Analytics for Surveys 研究用のソフト - KHCoder ( 樋口先生 ) - TinyTextMiner ( 松村先生 ) 三島由紀夫川端康成 13 14 テキストマイニングのプロセス 3/4 テキストマイニングのツール市販のソフト - Text Mining Studio - IBM SPSS Text Analytics for Surveys 研究用の無料ソフト - KHCoder ( 樋口先生 ) - TinyTextMiner ( 松村先生 ) Multilingual Text Miner with R = MTMineR 15 目次 1. イントロダクションテキストマイニングのプロセス 2. テキストマイニングのための環境整備 Java と R のインストール日本語形態素解析器 (MeCab) の演習日本語係り受け解析器 (CaboCha) の演習 3. R 言語基礎 R 言語環境 R データ型と構造グラフィックスの作成基礎統計解析外部データ読み込み 16

目次 R 言語環境 1/3 1. イントロダクションテキストマイニングのプロセス 2. R 言語基礎 R 言語環境 R データ型と構造グラフィックスの作成基礎統計解析外部データ読み込み R 言語統計解析向けのプログラミング言語である R のコンソール 3. テキストマイニングのための環境整備 Java と R のインストール日本語形態素解析器 (MeCab) の演習日本語係り受け解析器 (CaboCha) の演習 17 18 R 言語環境 2/3 電卓としての R 四則演算 : + - *( 掛け算 ) /( 割り算 ) 余り : 10%%3 R 言語環境 3/3 変数代入変数 : データを一定期間記憶する変数の保存 : < ーまたは = 変数の型の確認 : class() 19 20

R のデータ型と構造 1/4 ベクトル複数の数値または文字列を一つにまとめたもの関数 c( カンマで区切った数字または文字列 ) R のデータ型と構造 2/4 行列 ( マトリックス ) 複数の数値または文字列のまとまり関数 matrix( データ, 行数, 列数, 埋め込み方向 ) 21 22 R のデータ型と構造 3/4 データフレーム異なるデータ型 ( 数値文字 ) のまとまり関数 : data.frame() R のデータ型と構造 4/4 リストベクトル行列とデータフレームのまとまり関数 : list() 23 24

グラフィックス作成 1/6 アイリスデータ説明 3 種類のアヤメ : setosa, versicolor, virginica 4 つの計測値 : - がく片長 (Sepal Length), がく片幅 (Sepal Width) - 花びら長 (Petal Length), 花びら幅 (Petal Width) - 種 (Species) fix (iris) グラフィックス作成 1/6 ボーグラフ関数 : barplot() barplot(iris[1:5,1],col=c(1:5)) #shitosa がく片長さ 1~5 番 25 26 グラフィックス作成 2/6 折れ線グラフ関数 : matplot() matplot(iris[1:5,1],type = l ) #shitosa がく片長さ 1~5 番グラフィックス作成 2/6 折れ線グラフ関数 : matplot() matplot(iris[1:5,1],type = l ) 4 番目のがく片がより短い 27 28

グラフィックス作成 2/6 折れ線グラフ関数 : matplot() matplot(iris[1:5,1],type = l ) グラフィックス作成 5/6 ヒストグラムデータの分布を視覚的に示す関数 : hist() hist(iris[1:50,1], col = "blue") hist(iris[101:150,1], col = "red") 29 30 グラフィックス作成 6/6 散布図関数 plot() plot(iris[,1], iris[,3]) text(iris[,1], iris[,3]) # 萼片長と花びら長 Setosa 1~50 Virginica 101~150 Versicolor 51~100 グラフィックス作成 6/6 散布図 iris.label <- rep(c( S, C, V ),rep(50,3)) plot(iris[,1], iris[,3], type = n ) text(iris[,1], iris[,3], iris.label) Versicolor Setosa Virginica 31 32

グラフィックス作成 6/6 散布図 iris.label <- rep(c( S, C, V ),rep(50,3)) plot(iris[,1], iris[,3], type = n ) text(iris[,1], iris[,3], iris.label) 記述統計 1/2 平均中位数分散四分位数関数 : mean(), median(), var(), summary() など 33 34 記述統計 2/2 箱ひげ図関数 : boxplot() boxplot(iris[1:50,1],main="setosa がく片の長さの箱ひげ図 ") 推測統計 t 検定 2 つの母集団の間に平均の差があるか母集団の等分散性仮定 (student s t/welch s t) 関数 : t.test() 3 rd Qu. Median 1 st Qu. 35 # 母集団の等分散性を判断する F 検定 # 帰無仮説 :S と V がく片の長さの分散には差がない var.test(iris[1:50,1],iris[101:150,1]) # 母集団の等分散性を仮定できない Welch s t t.test(iris[1:50,1],iris[101:150,1],var.equal = FALSE) 結論 setosa と virginica のがく片長さの平均では有意差がある 36

主成分分析主成分分析情報損失を抑えて高次元データを低次元に圧縮関数 prcomp(), biplot() biplot(prcomp(iris[,1:4])) 階層的クラスター分析階層的クラスター分析距離で似ている個体からクラスタリング関数 dist(), biplot() iris.dist <- dist(iris[,1:4]) # ユーグリッド距離 iris.hclust <- hclust(iris.dist, method = "ward.d2") plot(iris.hclust) 37 38 外部データ読み込み 1/2 外部データ読み込み.csv ファイル read.csv().txt ファイル read.table() クリップボードから read.delim( clipboard ) 外部データ読み込み 2/2 外部データ読み込み data <- read.csv( d: KMjoshi.csv, row.names = 1) ファイルのルートファイルの行名使用 39 40

外部データによる解析主成分分析ベクトル行列とデータフレームのまとまり関数 : prcomp() biplot() biplot(procomp(data)) 川端康成三島由紀夫ともの多用川端康成三島由紀夫をにの多用 41 目次 1. イントロダクションテキストマイニングのプロセス 2. R 言語基礎 R 言語環境 R データ型と構造グラフィックスの作成基礎統計解析外部データ読み込み 3. テキストマイニングのための環境整備 Java と R のインストール日本語形態素解析器 (MeCab) の演習日本語係り受け解析器 (CaboCha) の演習 42 環境整備 1/17 MTMineRの起動 MTMineR 本体を解凍パソコンbit 数の確認 JREのインストール R 言語のインストール MeCabのインストールパス環境整備 2/17 MTMineR の起動 CaboCha のインストールパス 43 44

環境整備 3/17 よくある不具合 MTMineR は一瞬で落ちる MTMineR の bit 数は Java R と同じではない R のパネルは起動できない R のパスを通していない環境整備 4/17 PC bit 数確認 STEP1: 画面左下のstartボタンをクリック STEP2: W 欄のシステムツールをクリック形態素 / 構文解析解析がうまくいかない MeCab/CaboCha はインストールされていないかパス通していない 45 STEP3: コントロールパネルをクリック STEP4: システムアイコンをクリック 46 環境整備 5/10 PC bit 数確認環境整備 6/17 JRE のインストール https://www.java.com/ja/download/manual.jsp 47 48

環境整備 7/17 動作確認 STEP1: Window キー + R を同時に押す環境整備 8/17 動作確認成功例 STEP2: cmd を入力 Enter STEP3: C:Users [User 名 ] に Java Enter STEP4: C:Users [User 名 ] に Java -version Enter 49 50 環境整備 9/17 R 言語環境のインストール統計解析のためのプログラミング言語 https://cran.ism.ac.jp/bin/windows/base/ パスを通す環境整備 10/17 動作確認 STEP1: Window キー + R を同時に押す STEP2: cmd を入力 Enter STEP3: C:Users [User 名 ] に r Enter STEP4: bit 数を確認 51 52

環境整備 11/17 パスを通す OS にソフトウエアを呼び出せるため STEP1: C: C: Program Files R R-3.4.0 bin STEP2: コントロールパネルをクリック環境整備 12/17 MeCab のインストール日本語の形態素解析を行うツール http://taku910.github.io/mecab/#download パスを通す STEP3: システムアイコンシステム STEP4: システム詳細設定環境変数 STEP5: 新規 STEP1のパスを貼りつけ STEP6: 確定終了 53 54 環境整備 13/17 MeCab の演習形態素 : 意味を表す最小の単位品詞の情報も得られる STEP1: Window キー + R を同時に押す STEP2: cmd を入力 Enter STEP3: C:Users [User 名 ] に mecab Enter 環境整備 14/17 MeCab の演習次に示すような画面が現れたら成功学会名詞, 一般,*,*,*,*, 学会, ガッカイ, ガッカイに助詞, 格助詞, 一般,*,*,*, に, ニ, ニ参加名詞, サ変接続,*,*,*,*, 参加, サンカ, サンカする動詞, 自立,*,*, サ変スル, 基本形, する, スル, スル記号, 句点,*,*,*,*,,, 形態素品詞 STEP4: 学会に参加するを入力 Enter 55 56

環境整備 15/17 CaboCha のインストール日本語の係り受け解析を行うツール https://taku910.github.io/cabocha/ パスを通す環境整備 16/17 CaboCha の演習文節 : 言語として不自然でない程度の最小単位 STEP1: Ctrl + C を同時に押す STEP2: cabocha -f1 を入力 Enter STEP3: 学会に参加するを入力 Enter 57 58 環境整備 17/17 CaboChaの演習次に示すような画面が現れたら成功第 0 文節 * 0 1D 0/1 0.000000 学会名詞, 一般,*,*,*,*, 学会, ガッカイ, ガッカイに助詞, 格助詞, 一般,*,*,*, に, ニ, ニ * 1 1D 1/1 0.000000 参加名詞, サ変接続,*,*,*,*, 参加, サンカ, サンカする動詞, 自立,*,*, サ変スル, 基本形, する, スル, スル記号, 句点,*,*,*,*,,, 第 1 文節 59 まとめイントロダクションテキストマイニングのプロセステキストデータのクリーニング正規表現を用いた青空文庫のデータ処理テキストマイニングのための環境整備 Java と R のインストール日本語形態素解析器 (MeCab) 日本語係り受け解析器 (CaboCha) R 言語基礎 R 環境データ型とグラフィックス R 言語による記述推測統計と主成分分析 60

ご清聴どうもありがとうございました付録 61 62 正規表現を用いた前処理 1/4 前処理テキストデータを分析に耐える形にする青空文庫 : https://www.aozora.gr.jp/ 芥川龍之介羅生門正規表現を用いた前処理 1/4 前処理テキストデータを分析に耐える形にする青空文庫 : https://www.aozora.gr.jp/ 芥川龍之介羅生門分析に必要なし 63 64

正規表現を用いた前処理 2/4 テキストデータのクリーニング正規表現文字列の集合を一つの文字列で表現する方法正規表現を用いた前処理 3/4 テキストデータのクリーニング対応エディタ : 秀丸サクラエディタなど例 : 正規表現 : 講. 会講と会の間に任意一文字が入る講習会講演会など正規表現記号意味. 任意 1 文字 + 直前の文字の1 回以上の繰り返し [ ~] [] の中のどれか1 文字 n 改行青空文庫に現れるルビの共通特徴下人げにん羅生門らしょうもん山括弧で括られている 65 66 正規表現を用いた前処理 3/4 テキストデータのクリーニング対応エディタ : 秀丸サクラエディタなど正規表現を用いたルビ削除 [ ^ ] + 始まりではない任意文字繰り返し終わりで始まりで終わる真ん中にではない任意文字 67