第13章  テキストのクラスター分析

Similar documents
< F55542D303996E291E894AD8CA9365F834E E95AA90CD836D815B>

Microsoft PowerPoint - 12問題発見6_クラスタ分析.pptx

Microsoft PowerPoint - 10問題発見6_クラスタ分析.pptx

<4D F736F F F696E74202D E291E889F08C888B5A964093FC96E55F35834E E95AA90CD2E >

画像類似度測定の初歩的な手法の検証

「統 計 数 学 3」

0 21 カラー反射率 slope aspect 図 2.9: 復元結果例 2.4 画像生成技術としての計算フォトグラフィ 3 次元情報を復元することにより, 画像生成 ( レンダリング ) に応用することが可能である. 近年, コンピュータにより, カメラで直接得られない画像を生成する技術分野が生

Microsoft PowerPoint - 統計科学研究所_R_主成分分析.ppt

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - 三次元座標測定 ppt

Kumamoto University Center for Multimedia and Information Technologies Lab. 熊本大学アプリケーション実験 ~ 実環境における無線 LAN 受信電波強度を用いた位置推定手法の検討 ~ InKIAI 宮崎県美郷

日本内科学会雑誌第97巻第7号

日本内科学会雑誌第98巻第4号

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

Microsoft PowerPoint - 10.pptx

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

Probit , Mixed logit

13章 回帰分析

nlp1-12.key

Microsoft Word - 補論3.2

Microsoft PowerPoint - pr_12_template-bs.pptx

スライド 1

Chap2.key

1

Microsoft PowerPoint - 資料04 重回帰分析.ppt

スライド タイトルなし

PowerPoint Presentation

Microsoft PowerPoint 岡テキストマイニング%20提出稿[1]

(Microsoft PowerPoint - \203|\203X\203^\201[\224\255\225\\\227p\216\221\227\ ppt)

memo

第6章 実験モード解析

パソコンシミュレータの現状

Ł\”ƒ-2005

第90回日本感染症学会学術講演会抄録(I)


Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

学習指導要領

日本内科学会雑誌第102巻第4号

4 月 東京都立蔵前工業高等学校平成 30 年度教科 ( 工業 ) 科目 ( プログラミング技術 ) 年間授業計画 教科 :( 工業 ) 科目 :( プログラミング技術 ) 単位数 : 2 単位 対象学年組 :( 第 3 学年電気科 ) 教科担当者 :( 高橋寛 三枝明夫 ) 使用教科書 :( プロ

Microsoft PowerPoint - 10.pptx

データサイエンス講座第 3 回機械学習その 2 ロジスティクス回帰 カーネル法とサポートベクターマシン アンサンブル学習

Microsoft Word - Time Series Basic - Modeling.doc

C3 データ可視化とツール

Microsoft Word ã‡»ã…«ã‡ªã…¼ã…‹ã…žã…‹ã…³ã†¨åłºæœ›å•¤(佒芤喋çfl�)

Microsoft PowerPoint - 第5回電磁気学I 

分子進化モデルと最尤系統推定法 東北大 院 生命科学田邉晶史

Microsoft PowerPoint - 9.pptx

プログラム

放射線専門医認定試験(2009・20回)/HOHS‐05(基礎二次)

1/30 平成 29 年 3 月 24 日 ( 金 ) 午前 11 時 25 分第三章フェルミ量子場 : スピノール場 ( 次元あり ) 第三章フェルミ量子場 : スピノール場 フェルミ型 ボーズ量子場のエネルギーは 第二章ボーズ量子場 : スカラー場 の (2.18) より ˆ dp 1 1 =

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]


画像処理工学

Microsoft PowerPoint - 13.ppt [互換モード]

したがって このモデルではの長さをもつ潜在履歴 latent history が存在し 同様に と指標化して扱うことができる 以下では 潜在的に起こりうる履歴を潜在履歴 latent history 実際にデ ータとして記録された履歴を記録履歴 recorded history ということにする M

O1-1 O1-2 O1-3 O1-4 O1-5 O1-6

Rの基本操作

主成分分析 -因子分析との比較-

vecrot

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Microsoft PowerPoint ppt

<8D828D5A838A817C A77425F91E6318FCD2E6D6364>

Microsoft PowerPoint - 12Clustering(2).ppt [互換モード]

Progress report

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

航空機の運動方程式

スライド 1

2011年度 筑波大・理系数学

テンソル ( その ) テンソル ( その ) スカラー ( 階のテンソル ) スカラー ( 階のテンソル ) 階数 ベクトル ( 階のテンソル ) ベクトル ( 階のテンソル ) 行列表現 シンボリック表現 [ ]

Microsoft PowerPoint - ●SWIM_ _INET掲載用.pptx

gengo1-8

Microsoft PowerPoint - 9.pptx

プログラム

untitled

2011年度 大阪大・理系数学

FEM原理講座 (サンプルテキスト)

講義「○○○○」

航空機の運動方程式

Microsoft PowerPoint - H21生物計算化学2.ppt

補足 中学で学習したフレミング左手の法則 ( 電 磁 力 ) と関連付けると覚えやすい 電磁力は電流と磁界の外積で表される 力 F 磁 電磁力 F li 右ねじの回転の向き電 li ( l は導線の長さ ) 補足 有向線分とベクトル有向線分 : 矢印の位

ビジネス統計 統計基礎とエクセル分析 正誤表

バイオインフォマティクスⅠ

学力スタンダード(様式1)

線形代数とは

Microsoft PowerPoint - e-stat(OLS).pptx

学習指導要領

データ解析

最小二乗法とロバスト推定

Microsoft PowerPoint - データ解析基礎2.ppt

重要例題113

相関係数と偏差ベクトル

辛いものを作りたい! インド風? タイ風? 中国風? 検索ワードは? タイ風? カレー作りたい! 〇〇風 = 料理タイプ インド風? 日本風? ココナッツ 甘め ガラムマサラ 辛い カレールー 中辛

学習指導要領

(Microsoft Word - \221\262\213\306\230_\225\266_\213\321\220D_\215\305\217I.doc)

スライド 1

二項ソフトクラスタリング分析例 この資料では Visual Mining Studio のアイコン Dyadic Soft Clustering を使って 二項ソフトクラスタリング 分析をする方法を説明します 二項ソフトクラスタリングは一般的には PLSI, PLSA などの名前で知られています 株

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

Microsoft PowerPoint - qcomp.ppt [互換モード]

数学 ⅡB < 公理 > 公理を論拠に定義を用いて定理を証明する 1 大小関係の公理 順序 (a > b, a = b, a > b 1 つ成立 a > b, b > c a > c 成立 ) 順序と演算 (a > b a + c > b + c (a > b, c > 0 ac > bc) 2 図

Transcription:

第 13 章 テキストのクラスター分析 茨城大学工学部 高木真

概要 複数のテキストを分析する際に テキストの何らかの特徴にもとづいて似ているものごとにグループ分けする必要がある場合がある 本章ではテキスト間の類似度 ( または距離 ) にもとづいてテキストをグルーピングする方法やその応用例を説明する

テキストのクラスター分析 テキストのクラスター分析 テキストの分散 相関 類似度や距離の情報を用いてグループ分けすること クラスター分析のアプローチ. 個体の特徴の情報にもとづいて 平面や立体空間上で散布図を作成し 分布状況からクラスターの形成状況を分析する ( 主成分分析 対応分析 自己組織化マップ法 ). データの類似度あるいは距離を用いて 最も似てる個体を近い位置に配置する方法 ( 多次元尺度法 ) また 似ている個体順にグルーピングするクラスタリング法 ( 階層的クラスタリング法 )

. 全体が何グループに分けられるかを指定し それぞれのグループの中心を機械的に求め その中心までの距離が近いグループに属すると判断する方法 (kmeas 法 ) 本章では 多次元尺度法 クラスタリング法 k-meas 法などについて説明する

類似度と距離 類似度 似ているほど値が大い測度 ピアソンの相関係数 ( 最もよく知られている ) : 同じ長さの特徴ベクトル コサイン類似度 ( テキストの処理 ) 2 2 ) ( ) ( ) )( ( ), ( y y x x y y x x y x cor y x, 2 2 cos ), ( y x y x y x s

距離 似ているほど値が小さい測度 ユークリッド距離 d 現実の問題を解決するには より工夫された類 似度 距離が必要 E ( x, y) ( x y 距離 重み付きのユークリッド距離 マハラノビス距離 キャンベラ距離など 集計したデータが相対頻度である場合 IR 距離 d IR ( x, y) x 2x log x y 2 ) y 2y log x y

類似度は距離に変換して用いることも可能 コサイン類似度は以下のような変換で距離として用いられる ( 定数 kは1,2が多く用いられる ) d cos 二値データの類似度 一致係数 Jaccard 係数 表 1 両ベクトル 0,1 の対応表 2つのベクトルにおける1,0を表 1のように集計して計算したとき accard 係数とJaccardの距離は s J 11 となる ( x, y) k(1 scos 11, dj 1 10 01 ( x, y)) ベクトル x 1 0 11 11 10 01 ベクトル y 1 0 11 10 01 00 11 10 01 10 01

多次元尺度法 多次元尺度法 (MDS) 距離 ( あるいは類似度 ) データから何らかの方法で 2~ 3 次元に配置する方法 地図上の地点間の距離データから地点のマップを作成する方法 いくつかのアルゴリズムがある ( 古典的多次元尺度法 ) 距離 ( あるいは類似度 ) の測度に依存する

古典的多次元尺度法 2 点間の距離行列の要素 d について z d 1 1 d 1 1 d 1 1 のように あるいはこれに比例するように変換を施したデータの固有値と固有ベクトルを求める方法 1 2 d

本章では 11 人が2つのテーマ ( 住まい 車 ) について 1000 文字前後で書いた作文をテーマ別にグループ分けすることを例とする 作文データを形態素解析し 出現頻度が高い名詞 32 項目を抽出して用いる 図 1 ユークリッド距離 図 2 IR 距離

ユークリッド距離を用いた多次元尺度法の結果は 主成分分析の主成分得点の結果に等しい 古典的多次元尺度法をさらに発展させた多次元尺度法として sammo,somds,metamds などがある

階層的クラスタリング 階層的クラスタリング 距離行列を用いて似ているものを段階的にグルーピングする 単連結法 完全連結法 群平均法 重心法 メディア法 ウォード法などのアルゴリズムがある 大量のデータには不向き アルゴリズムごとに距離データから似ている者同士をグルーピングする方法が異なる 第 1 段階はすべて同じで 最も距離の値が小さい 2 つの個体を 1 つのグループにする 形成されたグループ c とグループ c の間の距離を求める方法が異なる

説明の便利のため グループ c に属する任意の個体 k(k c ) とグループ c に属する任意の個体 s(s c ) の間 の距離を d ks とする 単連結法 ( 最近隣法 ) グループc とc の個体間の距離の中で最小の距離をグループ間の距離とする d( c, c ) m( d ), k c, sc ks 完全連結法 ( 最遠隣法 ) グループc とc の個体間の距離の中で最小の距離をグループ間の距離とする d( c, c ) max( d ), k c, sc ks

群平均法 グループ c と c の個体間の距離の平均値を両グループ間の距離とする d( c, c ウォード法 比較的多く用いられている 分散の情報を用いる グループ内の分散が小さく かつグループ間の分散大きい組み合わせでグループ分けする 全体の偏差の 2 乗和を T グループ内の偏差の 2 乗和を W, グループ間の偏差の 2 乗和を B で表すと T=W+B が成り立つ ) 1 k1 s1 d ks, k c, s c

c d d k d ()k c k c d k c 図 3 クラスター間の距離階層的クラスタリング法のグループ間の距離は つぎの式で求めることができる d d d d, d( ) k ( ) k d, d, d k,,, k k k : 左図に示すクラス管の距離 : パラメータ ( 係数 ) d k d k

表 2 方法とパラメータの対応表 ( : クラスター c の個体数 ) 方法の名称 α α β γ 最近隣法 1/2 1/2 0-1/2 最遠隣法 1/2 1/2 0 0 群平均法 0 1/2 重心法 0 メディアン法 1/2 1/2-1/4 0 ウォード法 0 k k k k k k

階層的クラスターのグラフを樹形図と呼ぶ 図 4 作文のクラスター樹形図 ( ユークリッド距離 ウォード法 ) 樹形図は大まかに 2 つのグループに分かれている 左側のクラスターが 車 に関する作文であり 右側のクラスターのほとんどが 住まい に関する作文である 実際のテーマごとの分類と完全には一致しない

図 5 作文のクラスター樹形図 (IR 距離 ウォード法 ) すべての作文がテーマ別に正しく 2 つのクラスターに分かれている

クラスター樹形図を作成する際に用いた変数についてクラスター分析が必要な場合 変数のクラスター分析 データを転置する 転置したデータセットのキャンベラ距離を求める ウォード法によるクラスター樹形図を作成する キャンベラ距離 x y d C ( x, y) x y

図 6 作文の名詞のクラスター樹形図 ( キャンべりゃ距離 ウォード法 ) 左のクラスターは 車 と関連する語で 右側は 住まい に関する語階層的クラスタリングは 用いる距離および方法によって しばしば得られる結果が異なる 如何に客観的に分析するかが大きな課題

k-meas k-meas 法 比階層的クラスター分析 大量のデータのクラスター分析に用いられる データをいくつのグループに分けるかについてユーザが指定することが必要 いくつかのアルゴリズムが提案されている 以下に大まかな流れを示す 1. k 個の仮の初期グループの中心を何らかの方法で与える 2. すべてのデータについて k 個のグループの中心との距離を求め それぞれ最も近いグループに配属させる 3. 新たに形成されたグループの中心を求める 4. ステップ 2,3 を繰り返し グループおよびグループの中心が前の結果と同じであれば終了する

akke0 akke5 ataka0 ataka5 kaa0 kaa5 kato0 kato5 kum0 kum5 mar0 mar5 ogu0 2 1 1 1 2 1 2 1 1 1 1 1 1 ogu5 oota0 oota5 or0 or5 taka0 taka5 yuka0 yuka5 1 2 1 1 1 1 1 1 1 > table(rep(2:1,11),sb.km$clust) 1 2 1 11 0 2 7 4 誤分類 :7 個 akke0 akke5 ataka0 ataka5 kaa0 kaa5 kato0 kato5 kum0 kum5 mar0 mar5 ogu0 2 1 2 1 2 1 2 1 2 1 2 1 2 ogu5 oota0 oota5 or0 or5 taka0 taka5 yuka0 yuka5 1 2 1 2 2 2 1 2 2 > table(rep(2:1,11),sb.km$clust) 1 2 1 9 2 2 0 11 誤分類 :2 個 k-meas 法のグループ分けの精度は決して高くない k-meas 法の長所は 大量のデータにおいて計算が速いことである

系統樹 系統樹 有根系統樹と無根系統樹に分類される 階層的クラスター樹形図に似ている クラスター分類に用いることもできる 分岐させる方法でより妥当な系統関係を求めるという発想 距離データをもとに作成する NJ 法というアルゴリズムがある

Neghbor-Net 法 系統機を発展させたネットワーク ツリーという方法 NJ 法を発展させたもの

参考 1 ヨーロッパの 21 都市間の道路距離のデータをもとに古典的多次元尺度法を R で実行してみる eurodst というヨーロッパの 21 都市間の道路距離が記されているデータセットを用いた データとして都市間の距離だけをもとにして 2 次元座標を復元している

R のコマンド data(eurodst) data <- as.matrx(eurodst) result <- cmdscale(data, k = 2) ctyames <- c(" アテネ ", " バルセロナ ", " ブリュッセル ", " カレー ", " シェルブール ", " ケルン ", " コペンハーゲン ", " ジュネーブ ", " ジブラルタル ", " ハンブルク ", " オランダのフック ", " リスボン "," ライオンズ ", " マドリード ", " マルセイユ ", " ミラノ ", " ミュンヘン ", " パリ "," ローマ ", " ストックホルム ", " ウィーン ") colors <- c(2, 4, 1, 1, 1, 1, 6, 1, 1, 6, 1, 3, 1, 3, 4, 4, 5, 5, 2, 6, 5) plot(result[,1], -result[,2], type = "") text(result[,1], -result[,2], labels = ctyames, col = colors, cex = 0.8, fot = 2) データセット eurodst を利用するには mva パッケージを読み込む必要がある

参考 2 7 人の 5 教科の成績データを用いて階層的クラスター分析を R で実行してみる 表 3 成績データ 算数理科国語英語社会 田中 89 90 67 46 50 佐藤 57 70 80 85 90 鈴木 80 90 35 40 50 本田 40 60 50 45 55 川端 78 85 45 55 60 吉野 55 65 80 75 85 斉藤 90 85 88 92 95

成績データのユークリッド距離を示す田中佐藤鈴木本田川端吉野佐藤 69 鈴木 34 81 本田 60 64 53 川端 28 61 21 47 吉野 63 12 76 54 56 斉藤 68 38 88 92 68 46

R のコマンド sesek<-matrx(c(89,90,67,46,50, 57,70,80,85,90,80,90,35,40,50, 40,60,50,45,55,78,85,45,55,60, 55,65,80,75,85,90,85,88,92,95),7,5,byrow = TRUE) colames(sesek)<-c(" 算数 "," 理科 "," 国語 "," 英語 "," 社会 ") rowames(sesek)<-c(" 田中 "," 佐藤 "," 鈴木 "," 本田 "," 川端 "," 吉野 "," 斉藤 ") sesek.d<-dst(sesek) (se.hc<-hclust(se.d)) par(mfrow=c(2,2)) plot(se.hc,ma=" 最遠隣法 ") plot(se.hc,hag=-1,ma=" 最遠隣法 ") s.hc2<-hclust(se.d,method="cetrod") plot(s.hc2,hag=-1,ma=" 重心法 ") s.hc3<-hclust(se.d,method="ward") plot(s.hc3,hag=-1,ma=" ウォード法 ")