スライド 1 - PDF Free Download

データ解析特論第 5 回 ( 全 15 回 ) 2012 年 10 月 30 日 ( 火 ) 情報エレクトロニクス専攻横田孝義 1

をもっとやります 2

第 2 回 3

データマイニングの分野ではマクロ ( 巨視的 ) な視点で全体を捉える能力が求められる 1. コンピュータは数値の集合として全体を把握していますので意味ある情報として全体を見ることが不得意 2. 逆に人間にはもともと空間的に全体像を捉える能力が得意人間はこういう写真を見ると瞬間的に内容が理解できる青空木草地傾斜紅葉季節は秋など空間をうまくグループ化して認識しているコンピュータでそれを行うのは非常に大変 4

主成分の導出すなわち J1 を w1 で偏微分してそれを 0 とおく 5

主成分分析 (PCA: Principal Component Analysis) 別名 :KL 展開 (Karhunen-Loeve 展開 ) データを少ない成分であらわすこと例 :100 次元空間のデータを10 次元空間のデータで表したいこれによってデータ圧縮が可能少ない次元で表せれば保存するデータが少なくて済むデータの見通しが良くなる分析が進む 6

例えばセリーグ打撃ランキング OPS: On-base plus slugging 長打率 + 出塁率 RC27(Runs Created per 27 outs) は RC を元にある特定の選手 1 人で構成された打線で試合を行った場合 27 アウト (9 イニング 3 アウト =1 試合 ) で平均何点とれるかを算出した指標 XR27 (extrapolated Runs per 27 outs) ある打者が一人で打線を組んだ場合の1 試合 (27アウト) あたりの得点数アウトにならない間にいかに得点数を稼ぐかという野球の形式が表されておりアウト数で標準化されているので出場数の異なる複数の打者の得点創出能力を比較するような場合 XRの値そのままよりもこちらのほうが適切 8

例えばセリーグ打撃ランキング 1) どの選手がどんな能力があってどんなタイプの選手か全要素を使って説明できるか? 2) 似た選手を探したりグループ分けできるか? 打撃成績 ( 規定打席以上 ) のデータは 24 サンプルで 18 要素に過ぎない 24x18 の画像と言ったらこちらは 800x600 画素 432 画素 48 万画素無理やり画像にするとこのような画像に対応人間にはさっぱりわからないコンピュータなら空間に分けてもらうその後人間が認識すればいい 100 倍以上の画素があるが人間は内容が理解できる青空木草地傾斜紅葉など 9

長打力が無い 10

体重 w z2 z1 重い軽い身長 h 低い高い主成分 z1 軸 : 身長と体重がともに動く成分体の大きさの軸 ( これでかなり説明できる ) 主成分 z2 軸 : z1 軸で説明しきれない成分を説明肥満度の軸 11

体重 z2 z1 重い軽い情報損失量身長低い高い情報の損失を出来るだけ小さいままデータの持つ特徴を主成分で表す例えば主成分 2 の情報を無視して主成分 1 の情報だけにすれば肥満度の情報が失われるそこで情報量損失を最小に抑えるような主成分のベクトルを決定していくのが主成分分析であるこのような主成分のベクトルは各々が直交する 12

多変数の場合も同様主成分分析とは P 個の変数の持つ情報を情報の損失を最小に抑えながらの一次結合として与えられる互いに独立な M(M<P) 個の主成分すなわち総合的指標を用いて表現する手法であるは第 m 主成分と呼ばれる結合係数これをどうやって求めるか? 13

第 m 主成分結合係数これをどうやって求めるか? --- 条件 --- 第 1 主成分 z 1 の分散は分散の中で最大であることそして第 m 主成分 z m の分散は無相関な一次式の持つ分散の中で最大であるのあらゆる一次式の持つの全てとただしとする 14

例えば体重 z 1 = 身長 x0.8+ 体重 x0.6 この主成分の分散が最も大きいので第一主成分である身長 15

主成分の導出 P 個の変数について N 個のサンプルがある場合を考える主成分の分散が最大になるように主成分を決定する各変数の平均値をとして平均値からの偏差を導入する観測データ全体は以下の行列で表される 16

主成分の導出観測データ全体は以下の行列で表される第 1 主成分はその結合係数をとすると n 番目のサンプルに対応する第 1 主成分 z 1 の値 t n1 はこれを第 1 主成分得点と呼ぶ 17

主成分の導出これを第 1 主成分得点これを N 個のサンプル分のベクトルとしてまとめるととなる一方なのでが成り立つ 18

主成分の導出これを第 1 主成分得点の平均値はここで第 1 主成分 z 1 の分散はなので共分散行列で非負定値行列 Positive Definite 要素は 19

主成分の導出第 1 主成分は分散を最大にするように決めなければならない Lagrange の未定定数法の登場とおきこれを最大化するような結合係数ベクトルを求めれば良い 20

主成分の導出すなわち J1 を w1 で偏微分してそれを 0 とおく 21

データの標準化単位のことなる変数大きく分散の異なる変数分散の大きな変数の影響を受けやすい各変数の分散が 1 平均値が 0 となるように標準化する観測値をそのまま使うのではなく平均値を使う標準偏差 22

データの標準化このようにして標準化を行った後に共分散行列は相関行列になるここで標準化されたデータの行列 23

寄与率と因子負荷量寄与率主成分分析とは : 少ない数の総合的指標 ( 主成分 ) を用いて変数間の関係や特徴を把握するための統計的手法 1. 各主成分が元のデータに含まれる特徴をどの程度表現しているか? 2. 何個の主成分を採用すれば元のデータに含まれる特徴を十分に表現できるか? 寄与率および累積寄与率 24

寄与率と因子負荷量 P 個の変数の分散の和は共分散行列を V とすれば V の主体対角要素すなわち (p,p) 要素である v pp が変数 x p の分散であるから一方で第 m 主成分の分散は共分散行列 V の m 番目に大きい固有値に等しいからも成り立つ 25

寄与率と因子負荷量第 m 主成分の分散が分散の総和に占める割合を以下のように寄与率として定義するまた第 m 主成分までの分散の和が分散の総和に占める割合を累積寄与率と呼ぶ 26

寄与率と因子負荷量主成分分析の結果の解釈主成分 ( 総合的指標 ) の意味解釈主成分とは各変数の線形結合で与えられる主成分に強く影響している変数を特定することが有効主成分と変数との相関係数 : 因子負荷量 (factor loading) 27

寄与率と因子負荷量第 m 主成分 z m と p 番目の変数 x p との間の因子負荷量は z m の標準偏差 x p の標準偏差 z m, x p の共分散 28

寄与率と因子負荷量データのサンプル数を N とする ( 野球選手の人数に相当 ) は第 p 列のみを取り出すベクトルである p 行目 29

寄与率と因子負荷量一方であるので (m 番目の主成分の分散は共分散行列 V の m 番目の固有値 ) 因子負荷量で標準化されている場合は 30

演習講義を聞いているだけでは身につかない具体的なデータを扱うことで身につけてほしい 31

先週見せたデータ 32

ホームページにアップしました 33

CSV ファイルにしてアップしてい 34

What to do 教室のメンバーを数班に分けます来週の講義までに (1) このデータをまず標準化して相関行列を作ってくる (2) 固有値固有ベクトルを算出するプログラムは作るか探すか自分たちで解決すること来週班毎に発表してもらいます ( 途中経過で OK) 35