Microsoft PowerPoint - 統計科学研究所_R_主成分分析.ppt

Similar documents
スライド 1

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

主成分分析 -因子分析との比較-

「統 計 数 学 3」

スライド 1

Microsoft PowerPoint - H17-5時限(パターン認識).ppt

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな


因子分析

Microsoft PowerPoint - 資料04 重回帰分析.ppt

主成分分析 + 重回帰分析 a.2 変数群に対して, 以下のような手順を実行 ( 多変数群 ) では,2 変数群を組み合わせて実行 ) 説明変数群の主成分分析 2 基準変数群の主成分分析 3 説明変数群における 個の主成分得点に対して, 基準へ数群における主成分得点のすべてを用いて重回帰分析を反復

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

0 部分的最小二乗回帰 Partial Least Squares Regression PLS 明治大学理 学部応用化学科 データ化学 学研究室 弘昌

untitled

観測変数 1~5 因子負荷量 独自因子 a 独自因子 b 共通因子 1 独自因子 c 固有値 ( 因子寄与 ) 独自因子 d 共通因子 2 独自因子 e 共通性 補足説明因子負荷量 : 因子と観測変数の関係性を示す -1.00~+1.00 までの値を取り.60 以上で高く強い関係性があると言える.3

Microsoft Word - lec_student-chp3_1-representative

Microsoft PowerPoint - OsakaU_1intro.pptx

4.統計解析.indd

スライド 1

PowerPoint Presentation

Microsoft Word - M4_9(N.K.).docx

PowerPoint Presentation

テレビ学習メモ 数学 Ⅰ 第 40 回 第 5 章データの分析 相関係数 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します 相関係数は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータの相関関係を

> usdata01 と打ち込んでエンター キーを押すと V1 V2 V : : : : のように表示され 読み込まれていることがわかる ここで V1, V2, V3 は R が列のデータに自 動的につけた変数名である ( variable

相関係数と偏差ベクトル

untitled

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

スライド 1

心理データ解析演習(前半)藤野

スライド 1

1 SVD 1.1 SVD SVD SVD 3 I J A A = UD α V (A.1.1) D α α 1... α K K A (K min(i, J)) U, V I K, J K ( ) U U = V V = I :

Microsoft PowerPoint - 三次元座標測定 ppt

コレスポンデンス分Ⅵコレスポンデンス分析とは コレスポンデンス分析は, 多変量解析の 数量化 Ⅲ 類 と同様の手法です 行の要素と列の要素を使って数量化するとするという点で, 数量化 Ⅲ 類と基本的に同じなのですが, 数量化理論の場合は集計前のオリジナルデータから処理していくのに対し, コレスポンデ

図 1 調査事項 旅行 趣味に対する意識 旅行に対する意識の選択肢は 選択肢 1>2>3>4の順序で旅行に対する意欲を表す尺度として設定されたものであろう ただし 選択肢 2と3の大小関係はやや微妙である 質問文に 1つだけ をつける とあるから 他の選択肢に当てはまる内容はその選択肢の内容に含まれ

Microsoft Word - 補論3.2

ための手法として主成分分析がどのように使われているか例を示す. これにより, 主成分分析を事象や個人のもつ特性の識別に適応することの正当性を示す. (1) 因子分析法 各種の事物に対するイメージの共通因子を発見する手法として, 因子分析法および因子分析法を用いて行う SD(semantic diff

Medical3

画像類似度測定の初歩的な手法の検証

経済データ分析A

プログラミング基礎


資料

Chapter カスタムテーブルの概要 カスタムテーブル Custom Tables は 複数の変数に基づいた多重クロス集計テーブルや スケール変数を用いた集計テーブルなど より複雑な集計表を自由に設計することができるIBM SPSS Statisticsのオプション製品です テーブ

今日の話のメインターゲット R を ( 入れてみたが ) 使い方が分からない人 そもそも使ったことが無い人 R の存在を知らなかった人 2

ANOVA

経営統計学

memo

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

回帰分析の用途・実験計画法の意義・グラフィカルモデリングの活用 | 永田 靖教授(早稲田大学)

第4回

三科目合計の算出関数を用いて各教科の平均点と最高点を求めることにする この2つの計算は [ ホーム ] タブのコマンドにも用意されているが 今回は関数として作成する まず 表に 三科目合計 平均 と 最高点 の項目を用意する 項目を入力する際 適宜罫線などを設定し 分かりやすい表作成を心がけること

Microsoft Word - Time Series Basic - Modeling.doc

スライド 1

統計的データ解析

目次 1. はじめに Excel シートからグラフの選択 グラフの各部の名称 成績の複合グラフを作成 各生徒の 3 科目の合計点を求める 合計点から全体の平均を求める 標準偏差を求める...

Eschartマニュアル

コンピュータリテラシ 第 6 回表計算 2 このスライド 例題 /reidai6.xlsx /reidai6a.xlsx 課題 12 /reidai6b.xlsx /table12_13.xlsx

MedicalStatisticsForAll.indd

Microsoft Word - apstattext04.docx

ビジネス統計 統計基礎とエクセル分析 正誤表

散布度

PowerPoint プレゼンテーション

PowerPoint Presentation

12日目

目次 1. 研究背景 2. 研究目的 3. データ概要 4. 分析方法 5. 分析 6. 考察 7. 提案 8. 今後の課題 - 参考文献 2016 S-PLUS & VISUAL R PLATFORM 学生研究奨励賞 1

Microsoft Word - å“Ÿåłžå¸°173.docx

JUSE-StatWorks/V5 活用ガイドブック

Microsoft Word - appendix_b

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

航空機の運動方程式

JavaプログラミングⅠ

<4D F736F F F696E74202D E291E889F08C888B5A964093FC96E55F35834E E95AA90CD2E >

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

Microsoft PowerPoint - データ解析演習 0520 廣橋

Presentation Title

スライド 1

Sheet2 に作成する表 問題 2 前問の成績表 (Sheet2) の各教科の順位の列の次に評価の列を作って 生徒ごとに各教科の評価をし なさい なお評価は 各教科 A(100~85) B(84~70) C(69~55) D(54 以下 ) とする 1.4 集中力度チェックテスト自分の集中力がどの

Microsoft Word - Stattext13.doc

Microsoft PowerPoint - データ解析発表2用パワポ

Microsoft Word - SPSS_Manual_I.doc

memo

情報処理 基 礎

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

13章 回帰分析

製造ータの因果分析 | 野中 英和氏(TDK株式会社)

景気指標の新しい動向

国際数学・理科教育動向調査(TIMSS2015)のポイント

Microsoft PowerPoint - mp11-02.pptx

Microsoft Word - mstattext02.docx

C3 データ可視化とツール

条件付き書式 の ルールの管理 をクリック 2 新規ルール をクリック 1 ルール の管理をクリック 3 指定の値を含むセルだけ書式設定 を クリック 7 グレーを選び OK をクリック 4 次の値に等しい を選ぶ 5 2 と入力 6 書式をクリック 8OK をクリック 以下同様に 新規ルール をク

09.pptx

Microsoft Word - Stattext12.doc

スライド 1

Microsoft PowerPoint - 10問題発見6_クラスタ分析.pptx

第13章  テキストのクラスター分析

2/17 ページ < 国語 >7. 先生の指示は具体的でわかりやす たくわな うわな 6.4% < 国語 >8. 先生は 目標 や まとめ 授

Microsoft Word - apstattext01b.docx

Transcription:

主成分分析 1

内容 主成分分析 主成分分析について 成績データの解析 R で主成分分析 相関行列による主成分分析 寄与率 累積寄与率 因子負荷量 主成分得点 2

主成分分析 3

次元の縮小と主成分分析 主成分分析 次元の縮小に関する手法 次元の縮小 国語 数学 理科 社会 英語の総合点 5 次元データから1 次元データへの縮約 体形評価 : BMI (Body Mass Index) 判定肥満度の判定方法の1つで 次の式で得られる 2 次元データを1 次元データに縮約 4

主成分分析とは 主成分分析 多次元データのもつ情報をできるだけ損わずに低次元空間に情報を縮約する方法 多次元データを2 次元 3 次元データに縮約できれば データ全体の雰囲気を視覚化することができる 視覚化により データが持つ情報を解釈しやすくなる 5

次元の縮約と情報の損失 2 次元のデータを 1 次元に縮約することを考える A B C D E C E A D B A B C D E A B C D E 縮約の方法 1 縦軸の情報の損失 縮約の方法 2 横軸の情報の損失 6

情報量と分散 射影したデータのバラツキが大きいほど もとのデータの情報を多く含んでいると考えられる A B C D E C E A D B A B C D E A B C D E 個体差が現れやすい 情報量 分散 個体差が現れにくい 7

主成分分析の目的 もとのデータの情報の損失ができるだけ小さくなる ような軸を探したい A B C D E C E A D B A B C D E A B C D E 情報の損失が少ない 情報の損失が多い 射影したデータの分散が最大となる軸を探す 8

第 1 主成分 射影したデータの分散が最大となるような軸を探す 第 1 主成分軸 9

第 2 主成分 第 1 主成分と直交する軸の中で 軸上に射影した データの分散が最大となる軸を探す 第 2 主成分軸 第 1 主成分軸 10

3 次元空間から 2 次元空間への縮約 第 2 主成分軸 第 1 主成分軸 これらの主成分軸は R で簡単に求められる 11

主成分分析の要点 主成分の分散 : 主成分がもつ情報量 = 分散共分散行列 ( 相関行列 ) の固有値 主成分を構成する係数は 分散共分散行列 ( 相関行列 ) の固有ベクトルを求める手続きにより得られる 主成分分析では 分散共分散行列から分析を行う場合と 相関行列から行う場合で結果が異なる データが異なる尺度 ( 単位 ) で測定されている場合には 変数を基準化して分析を行う必要がある 12

具体例 : 成績データ杉山髙一著 多変量データ解析入門 中学 2 年生の成績データ 標本数 : 166 変数の数 : 科目数 =9 国語 社会 数学 理科 音楽 英語 体育 技家 英語 ダウンロードしたファイルに記載されている最後の 3 列のデータ ( 変数名 : 4year 5year 6year ) を 削除して分析を行う 9 科目の得点を適当に組み合わせた変数を作り できるだけ少ない変数で生徒の特徴を捉えたい 13

データのダウンロード 統計科学研究所のウェブサイト http://www.statistics.co.jp/index.htm 14

データのダウンロード 成績のデータの [csv] を右クリック 名前を付けて保存 15

主成分分析を行うプログラム seiseki <-read.csv( seiseki.csv", header=t) result <- prcomp(seiseki, scale=t) summary(result) biplot(result) プログラムの概要 1 行目 : データの読み込み 2 行目 : 主成分分析を行う関数 prcomp を適用 3 行目 : 主成分分析の結果の要約の出力 4 行目 : 主成分得点をプロットする関数 biplot を適用 16

相関行列から主成分分析を行う result <- prcomp(seiseki, scale=t) 引数 scale について 関数 prcomp に 引数 scale=t を指定 相関行列から主成分分析を行う 関数 prcomp に 引数 scale=f を指定 分散共分散行列から主成分分析を行う 17

分析結果の要約 分析結果に関数 summary を適用 Standard deviation ( 標準偏差 ) Proportion of Variance ( 寄与率 ) Cumulative Proportion ( 累積寄与率 ) 第 1 主成分には 全体の 67% の情報が縮約されている 第 4 主成分までで 全体の約 90% の情報を占める 18

寄与率と累積寄与率 該当する主成分がもつ情報量 全情報量のうち 該当する主成分が占める情報量の割合 選択した主成分が占める情報量の割合 次元の縮約により失う情報量を測ることができる 19

分析結果の出力 次のようにして 関数 prcomp で得られたオブジェクトから 分析結果を得ることができる 今回のプログラムの場合 result$rotation : 固有ベクトル ( 主成分軸の係数 ) result$x : 主成分得点 関数 round を使って出力結果を適当な桁数で丸めると見やすくなる round(result$x, disits=3) : 主成分得点を小数点 3 桁で表示 20

固有ベクトルの出力 round(result$rotation, 3) の出力 PC : Principal Component 主成分 21

第 1 主成分の構成 第 1 主成分 = 0.363 国語 + 0.369 社会 + 0.357 数学 + 0.367 理科 + 0.354 音楽 + 0.313 美術 + 0.139 体育 + 0.317 技家 + 0.357 英語 22

第 1 主成分の構成 第 1 主成分 = 0.363 国語 + 0.369 社会 + 0.357 数学 + 0.367 理科 + 0.354 音楽 + 0.313 美術 + 小 0.139 体育 + 0.317 技家 + 0.357 英語 第 1 主成分 筆記試験の総合得点の因子 第 1 主成分が大きい 筆記試験の総合得点が高い 23

第 2 主成分の解釈 第 2 主成分 = -0.149 国語 + 0.147 社会 + 0.181 数学 +0.251 理科 - 0.010 音楽 0.312 美術 -0.859 体育 + 0.149 技家 + 0.047 英語 第 2 主成分 体育の因子 第 2 主成分が小さい ( 符号に注意 ) 体育の得点が優れている 24

因子負荷量 各主成分の意味づけ 主成分に強く寄与している変数を見つけることが重要 因子負荷量 主成分と各変数との相関係数相関行列から分析を始めた場合の因子負荷量 参考 : 奥野忠一著 多変量解析法改訂版 日科技連 因子負荷量が1か-1に近い因子ほど 主成分に強く寄与している 因子負荷量をプロットすることにより 主成分に寄与している因子を視覚的に捉えることができる 25

因子負荷量に関するプログラム fc.l <- sweep(result$rotation, MARGIN=2, result$sdev, FUN="*") subject <- c(" 国 ", " 社 ", " 数 ", " 理 ", " 音 ", " 美 ", " 体 ", " 技 ", " 英 ") plot(fc.l[,1], pch=subject, ylim=c(-1,1), main="pc1") plot(fc.l[,2], pch=subject, ylim=c(-1,1), main="pc2") プログラムの概略 1 行目 : 因子負荷量の計算 固有ベクトル (result$rotation) と 対応した固有値の平方根 (result$sdev) との積をとる sweep 関数の使い方は apply 関数とよく似ている 参考 URL : R-Tips 24 節 applyファミリー http://cse.naro.affrc.go.jp/takezawa/r-tips/r/24.html 26

因子負荷量のプロット (1 次元 ) 3 行目のプログラムの出力 4 行目のプログラムの出力 27

因子負荷量の解釈 (1 次元 ) 主成分と弱い相関 主成分と強い相関 筆記試験の因子 体育の因子 28

因子負荷量のプロット (2 次元 ) plot(fc.l[,1], fc.l[,2], pch=subject, xlim=c(-1,1), ylim=c(-1,1), main=title) 29

因子負荷量の解釈 (2 次元 ) 第 1 主成分に強く寄与するが 第 2 主成分にはほとんど寄与しない因子 筆記試験の因子 第 2 主成分に強く寄与する因子 体育の因子 30

主成分得点の定義 主成分得点の定義 主成分に 個々のデータを代入したもの result$x 成績データの例 第 1 主成分 = 0.363 国語 + 0.369 社会 + 0.357 数学 + 0.367 理科 + 0.354 音楽 + 0.313 美術 + 0.139 体育 + 0.317 技家 + 0.357 英語 国語 社会 数学 理科 音楽 美術 体育 技家 英語 95 87 77 100 77 82 78 96 87 相関行列から分析を行う場合は 全ての変数を基準化たものを代入する 31

主成分得点 4 人目の成績 国語 社会 数学 理科 音楽 美術 体育 技家 英語 95 87 77 100 77 82 78 96 87 第 1 主成分得点 : 5.107 第 2 主成分得点 :0.228 130 人目の成績 国語 社会 数学 理科 音楽 美術 体育 技家 英語 64 36 20 31 53 68 99 7 26 第 1 主成分得点 : -0.812 第 2 主成分得点 : -2.244 32

主成分得点の出力 result$x : 主成分得点を出力する 例で見た 4 番目の生徒の 主成分得点 33

主成分得点のプロット (biplot) 主成分得点を低次元空間にプロットすると 個体の特徴や位置を把握しやすくなる R では biplot 関数を適用することで 解釈しやすい形で主成分得点のプロットを得ることができる result <- prcomp(seiseki, scale=t) biplot(result) 34

biplot の解釈 第一主成分の解釈 筆記試験の総合得点 右にあるデータほど筆記 試験の総合点が高い 第二主成分の解釈 体育の因子 下にあるデータほど体育の成績が良い 主成分の符号や ベクトルの向きに注意する 35

体育高低筆記試験総合得点高低主成分によるデータの位置づけ 主成分の解釈から 各個体を右図のように分類して考えることができる主成分得点の順にデータを並べ替えることである特性値について順位付けを行うこともできる 筆記 体育筆記 : 優共に不得意体育 : 不得意筆記 : 体育共に平均的筆記 : 不得意筆記 体育体育 : 優共に優れる 36

体育高低筆記試験総合得点高低主成分によるデータの位置づけ biplot の見方 4 番筆記試験が優れている体育は平均程度 130 番筆記試験は平均程度体育得意 8 番筆記試験も体育も平均程度 37

主成分得点とデータ 例で挙げた生徒の成績と主成分得点 PC1 : 第 1 主成分の主成分得点 PC2 : 第 2 主成分の主成分得点 国語 社会 数学 理科 音楽 美術 体育 技家 英語 PC1 PC2 4 95 87 77 100 77 82 78 96 87 5.1 0.2 8 56 54 37 59 35 64 53 67 7 0.1 0.3 130 64 36 20 31 53 68 99 7 26-0.8-2.2 平均 57.5 39.6 45.6 49.9 42.6 62.5 57.7 47.3 39.1 0 0 38

まとめ 主成分分析を行う関数 prcomp の使い方 主成分得点の出力の仕方 obj$x 固有ベクトル ( 主成分軸の係数 ) の出力の仕方 obj$rotation 因子負荷量の求め方と解釈 関数 biplot の使い方と解釈 39

参考 URL 統計科学研究所のウェブサイト http://www.statistics.co.jp/index.htm R-Tips http://cse.naro.affrc.go.jp/takezawa/r-tips/r2.html JIN S PAGE http://www1.doshisha.ac.jp/~mjin/r/ 40