導 入 1
導 入 問 題! 次 の 主 張 のどこがおかしい? 学 歴 の 高 さ と 大 学 入 試 の 数 学 成 績 は 比 例 する どうおかしいか どう 直 せばいいか 2
導 入 おかしかったところ ( 主 に) 学 歴 の 高 さ が 数 値 化 されていない これは 何 らかの 方 法 で 解 決 可 能 Y=aXの 関 係 が 成 り 立 つか? X=0でどうか? 全 部 の 点 が 直 線 上 か? 比 例 定 数 は 負 でも 良 いんですけど 言 い 訳 できない 正 確 な 表 現 は 比 例 ではなく 相 関 比 例 = 完 全 相 関 ( 相 関 係 数 1) かつ 原 点 を 通 る 場 合 右 の 例 では ( 注 :データは 適 当!) 相 関 係 数 R=0.91 決 定 係 数 R 2 =0.82 3
統 計 学 の 基 本 多 数 のデータを 扱 う 学 としての 統 計 学 4
統 計 ( 統 計 学 )とは 統 計 学 の 基 本 数 多 くのデータを 集 めて 数 値 化 し そのばらつき( 分 布 )などを 知 る データの 集 まりから 規 則 性 等 を 発 見 し 現 象 を 推 測 する 記 述 統 計 収 集 したデータの 要 約 統 計 量 を 計 算 して 分 布 を 明 らかに する 事 により データの 示 す 傾 向 や 性 質 を 知 る 推 測 統 計 データから その 元 となっている 諸 性 質 を 確 率 論 的 に 推 測 する 歴 史 的 には 国 力 の 調 査 が 起 源 5
統 計 学 の 基 本 ボウリングのスコアの 度 数 分 布 表 度 数 分 布 表 それぞれの 変 量 を ある 階 級 幅 を 取 った 階 級 の 中 に 数 え 上 げ 順 番 に 並 べた 表 階 級 の 数 は 見 やすい 程 度 に 恣 意 的 に 決 めてよい(ス タージェスの 公 式 などもあるが 参 考 程 度 に) 階 級 幅 は 通 常 一 定 にする 6
統 計 学 の 基 本 ボウリングのスコアのヒストグラム ヒストグラム 度 数 分 布 表 を グラフにしたもの 7
統 計 学 の 基 本 貯 蓄 現 在 高 のヒストグラム 8
統 計 学 の 基 本 麻 雀 における 平 均 順 位 のヒストグラム 9
確 率 と 統 計 の 違 い 統 計 学 の 基 本 確 率 起 こり 得 る 事 象 の 分 布 が 完 全 にわかっている 統 計 一 部 のデータ( 標 本 )から 全 体 ( 母 集 団 )の 性 質 ( 統 計 量 分 布 など)を 推 測 する サイコロを 振 って1が 出 る 確 率 は1/6である 実 際 に1000 回 サイコロを 振 って 統 計 をとってみたところ 50 回 しか1が 出 なかった このサイコロは 1が 出 る 確 率 が1/6ではないと 統 計 的 に 言 える サイコロを 売 ろうと 思 っている 実 際 に 製 造 したサイコロからランダムサンプリングして 各 々のサイコロを 試 験 すると 品 質 として 問 題 となる 偏 りはないと 統 計 的 にわかった 推 測 検 定 要 因 分 析 などなど 車 の 各 部 品 の 故 障 率 についての 品 質 管 理 新 薬 開 発 における2 重 盲 検 法 による 効 果 実 証 世 論 調 査 での 賛 成 反 対 の 男 女 別 の 差 の 有 無 の 検 定 広 い 湖 の 全 体 に 何 匹 の 魚 がいるかの 推 測 10
母 集 団 と 標 本 統 計 学 の 基 本 母 集 団 の 平 均 と 標 本 平 均 母 集 団 の 標 準 偏 差 と 標 本 の 標 準 偏 差 これらを 明 確 に 分 けて 理 解 しよう 母 平 均 μ 母 標 準 偏 差 σ 標 本 平 均 m 標 本 標 準 偏 差 s 母 集 団 から 一 部 のサンプル( 標 本 )を 抽 出 し( 取 り 出 し) それをもとに 推 測 を 行 う 母 集 団 の 例 : 東 京 大 学 生 全 員 無 限 回 マージャンを 打 った 結 果 製 造 された 製 品 全 体 標 本 の 例 : 東 京 大 学 生 のランダムな50 人 マージャンを1000 回 打 った 結 果 ランダムサンプリ ングした 製 品 ( 硬 度 検 査 など 再 現 性 のない 場 合 に 利 用 ) 11
基 本 統 計 量 12
基 本 的 な 統 計 量 基 本 統 計 量 平 均 値 (mean) ばらつきの) ば 中 心 の 傾 向 中 央 値 (median) 最 頻 値 (mode) 分 散 ばらつきの 大 きさを 表 す 標 準 偏 差 分 散 の 平 方 根 ( 単 位 がデータの 単 位 と 同 じ) 変 動 係 数 標 準 偏 差 平 均 ( 無 単 位 でばらつきを 表 す) 歪 度 尖 度 分 布 の 非 対 称 性 を 表 す 分 布 のとがりを 表 す データのばらつきの 形 状 ( 分 布 )を 数 値 で 表 したもの 13
問 題! 基 本 統 計 量 平 均 とは 何 を 表 す 量 でしょうか 14
解 答! 基 本 統 計 量 平 均 とは 何 を 表 す 量 でしょうか n 個 の 値 x 1,x 2,,x n に 対 して (1) ( ) 式 で 示 される 値 統 計 では 離 散 確 率 変 数 Xに 対 し 確 率 分 布 がPで 与 えられて いて 各 々の 要 素 をx i,pp i と 書 くとき (2) 式 で 示 される 値 n k = 1 xk n (1) (2) i k = 1 x i p i 算 術 平 均 の 他 にも 加 重 平 均 調 和 平 均 など 様 々な 平 均 があるが それはまた 別 の 話 15
平 均 の 意 味 を 問 い 直 す 基 本 統 計 量 真 ん 中 の 値 という 表 現 が 正 しくなるためには いくつかの 前 提 が 必 要 合 計 値 個 数 の 値 = 算 術 平 均 値 は 単 なる 指 標 にすぎない 慣 れ 親 しんでいるからイメージが 湧 きやすいだけで 中 央 値 や 標 準 偏 差 相 関 係 数 と 同 様 の 統 計 指 標 平 均 に 強 い 意 味 が 出 るのは 左 右 対 称 の 分 布 で 中 央 値 (や 最 頻 値 )と 近 くにある 場 合 16
基 本 統 計 量 平 均 は 左 右 対 称 の 時 に 有 効 ( 平 均 は はずれ はずれ 値 に 頑 健 ではない) 右 にゆがんだ 分 布 実 際 この 平 均 に 大 した 意 味 はありますか? 全 員 で 貯 蓄 を 山 分 けしたときにもらえるお 金? 誰 もくれません 17
平 均 は 左 右 対 称 の 時 に 有 効 基 本 統 計 量 18
基 本 統 計 量 平 均 分 散 と 標 準 偏 差 の 定 義 ( 離 散 的 な 場 合 ) 平 均 ( 期 待 値 ) エクセルでは AVERAGE 関 数 n x E( X ) = k = 1 k n 分 散 エクセルではVAR 関 数 ( 標 本 から 母 分 散 を 推 測 する 場 合 ) VARP 関 数 V(X) = E(X 2 ) - E(X) 2 覚 えよう: 各 々の 値 から 平 均 を 引 いたものを2 乗 して 個 数 で 割 った 値 標 準 偏 差 エクセルではSTDEV 関 数 ( 推 測 する 場 合 ) STDEVP 関 数 σ ( X ) = V ( X ) 分 散 の 平 方 根 単 位 が 平 均 と 同 じになるため 扱 いやすい 変 動 係 数 標 準 偏 差 平 均 単 位 がなくなるので スケールが 違 うもの 同 士 でのばらつき 方 の 差 を 比 較 可 能 19
参 考 各 種 統 計 量 基 本 統 計 量 20
確 率 変 数 と 分 布 21
確 率 変 数 と 分 布 ( 離 散 ) 確 率 変 数 と 確 率 分 布 事 象 1の 目 が 出 た(x 1 ) 2~4の 目 が 出 た(x 2 ) 5の 目 が 出 た(x 3 ) 6の 目 が 出 た(x 4 ) 確 率 変 数 X 0 1 8 10 確 率 変 数 の 値 確 率 P 1/6(p 1 ) 3/6(p 2 ) 1/6(p 3 ) 1/6(p 4 ) 確 率 の 値 起 こり 得 る 事 象 に 対 して ある 変 数 Xが 特 定 の 値 xを 取 る 確 率 pがそれぞ れ 与 えられているとき Xを 確 率 変 数 と 呼 ぶ 確 率 変 数 Xと その 値 をとる 確 率 Pとの 対 応 を 表 したものを 確 率 分 布 と 呼 ぶ 確 率 変 数 Xが 特 定 の 値 x k を 取 る 確 率 を P(X=x k ) と 書 く 同 様 に 確 率 変 数 Xが a 以 上 b 以 下 を 取 る 確 率 は P(a X b) と 書 く 確 率 分 布 が 与 えられているとき 期 待 値 ( 母 平 均 )は Σ Σ X P(X=x i ) である 22
確 率 変 数 と 分 布 ( 連 続 ) 確 率 変 数 と 確 率 密 度 関 数 起 こり 得 る 事 象 に 対 して ある 変 数 Xが 特 定 の 値 a~bの 間 の 値 を 取 る 確 率 P(a X b)が 次 式 で 表 されるとき f(x)を 確 率 密 度 関 数 と 呼 ぶ P( a X b) = f ( x) dx b a 通 常 は 特 定 の 値 xを 取 る 確 率 は0と 考 える( 幅 を 取 って 積 分 して 確 率 を 出 す) 期 待 値 ( 母 平 均 )は x f ( x) dx である 23
図 で 考 えてイメージを 確 率 変 数 と 分 布 24
確 率 変 数 と 分 布 なぜ 難 しく 式 で 書 いて 積 分 などするのか? 確 率 変 数 Xが ちょうど ある 特 定 の 式 で 表 される 場 合 がある 変 形 することによって 同 じ 式 で 表 すことができる 場 合 がある そもそも 真 の 確 率 が 不 明 なので 特 定 の 式 でモデルにする 場 合 もある 例 : 同 じ 性 質 を 持 った 集 団 からデータを 取 った 場 合 データから 得 られる 平 均 値 が 真 の( 集 団 全 体 の) 平 均 値 の 値 から 離 れる 度 合 いとその 確 率 は 特 定 の 式 で 表 されることがわかっている 共 通 的 に 使 える 式 の 形 がいくつも 見 つかっている また 定 積 分 計 算 値 もすぐに 出 せるようになっている よく 知 られた 式 については その 性 質 が 色 々 研 究 されている 個 別 に 確 率 の 計 算 をするよりも 楽 正 確 応 用 性 がある 25
確 率 変 数 と 分 布 例 えばコイントス 確 率 pで1( 表 ) 1-pで0( 裏 )となる 事 象 出 た 数 を 確 率 変 数 Xとすると Xは 2 項 分 布 に 従 う 26
2 項 分 布 の 特 徴 確 率 変 数 と 分 布 2 項 分 布 とは 1 回 の 試 行 で 事 象 Aが が 起 きる 確 率 をp とする この 試 行 を n 回 行 ったときに 事 象 Aが 起 きる 回 数 をXとおくとき, Xは 確 率 変 数 となり, P(X=k) = k n-k n C k p q となる このような 確 率 分 布 を 二 項 分 布 といい, B(n, p) と 書 く 期 待 値 と 分 散 確 率 変 数 Xが2 項 分 布 B(n,p) に 従 うとき ( X~B(n,p) のとき) 期 待 値 E(X)=np 分 散 V(X)=np(1-p) 正 規 分 布 による 近 似 nが 十 分 大 きいとき B(n,p) は 正 規 分 布 N(np,np(1-p)) p)) で 近 似 できる いくらくらいが 十 分 なのか np>5 かつ n(1-p)>5 が 目 安 27
確 率 変 数 と 分 布 例 えば 平 均 値 のばらつき 真 の 平 均 値 からのばらつきを 確 率 変 数 Xとすると Xは 正 規 分 布 に 従 う 28
正 規 分 布 の 特 徴 確 率 変 数 と 分 布 自 然 界 で 生 ずる 色 々な 分 布 ( 特 に 平 均 値 について)が 当 てはまる 分 布 ( 身 長 など) 大 きな 数 の 標 本 を 取 り 出 したときの 標 本 平 均 と 母 平 均 とのずれは 正 規 分 布 に 従 う 正 規 分 布 に 従 う 確 率 変 数 同 士 の 和 の 分 布 は 正 規 分 布 に 従 う これらから 色 々な 要 素 が 大 量 に ほぼ 独 立 に 影 響 を 与 え 合 っているようなものは 正 規 分 布 に 従 うことが 多 い ただし 正 規 分 布 に 従 う 確 率 変 数 の 積 は 正 規 分 布 に 従 わない 体 重 は 正 規 分 布 しない 国 語 や 英 語 の 成 績 は 正 規 分 布 に 近 い 形 だが 数 学 の 成 績 はむしろ2 山 になる 正 規 分 布 近 似 は 左 右 対 称 に 近 い 場 合 に 大 局 的 に 見 れば 数 多 くの 分 布 を それなりに 近 似 することができる(ボウリングのスコア 麻 雀 のプレイヤーの 実 力 分 布 など) なによりも 適 宜 変 数 変 換 をして 正 規 分 布 に 似 た 形 にすれば 数 学 的 に 扱 いやすい ただし! 過 信 してはならない 特 に はずれ 値 が 大 きな 影 響 を 与 える 場 合 などに 注 意 平 均 付 近 では それなりに 適 合 しても σによるリスク 管 理 は 完 璧 ではない 29
確 率 変 数 と 分 布 起 きる 確 率 が 非 常 に 低 い 事 象 が 連 続 的 な 時 間 の 中 で 何 回 起 きるか 起 きる 回 数 を 確 率 変 数 Xとすると Xは ポアソン 分 布 に 従 う λ=np 正 規 分 布 において 平 均 を 一 定 に 保 ち pを を 小 さくしてnを 無 限 大 にすると 得 られる 30
確 率 変 数 と 分 布 余 談 ちょっと 面 白 い 分 布 コイントスを 繰 り 返 し 表 なら+1 円 裏 なら-1 円 とする 正 の 金 額 を 持 っている 時 間 を 費 やす 割 合 は 時 間 とともに1/2から / 遠 ざかり 1または0に 漸 近 する 1/2となる 確 率 がもっとも 小 さい 数 学 的 なことは: 参 考 大 阪 大 学 基 礎 工 学 研 究 科 会 田 研 究 室 :http://elis.sigmath.es.osaka-u.ac.jp/~nagahata/20070816/slide.pdf 31
式 を 見 ておきましょう 確 率 変 数 と 分 布 と 思 いましたが やめました エクセルで 計 算 できればひとまず 十 分 です 32
その 他 の 分 布 t 分 布 Χ 2 (カイ 二 乗 ) 分 布 多 項 分 布 ロジスティック 分 布 F 分 布 確 率 変 数 と 分 布 その 他 色 々ありますが( 筆 者 が 知 らない 分 布 もある) とにかく ある 関 数 の 形 に 表 されている 区 間 をとって 確 率 密 度 関 数 を 積 分 すれば( 面 積 を 出 せば) 確 率 が 表 される は 覚 える 期 待 値 分 散 の 性 質 2つの 事 象 A,Bが 独 立 のとき E(A+B)=E(A)+E(B) V(A+B)=V(A)+V(B) が 成 り 立 つ 独 立 でない 場 合 は 分 散 の 和 については 共 分 散 という 概 念 が 必 要 この 講 義 では 基 礎 を 扱 うため 共 分 散 等 については 触 れません 各 自 で! 33
標 準 正 規 分 布 34
標 準 正 規 分 布 35
標 準 正 規 分 布 なぜ 多 くのものは 正 規 分 布 に 従 うのか 中 心 極 限 定 理 他 のあらゆる 分 布 であっても 独 立 同 分 布 からの 多 数 のサンプリングを 繰 り 返 せば サンプル ( 標 本 )の 平 均 の 真 の 平 均 からのずれは 正 規 分 布 に 従 う( 分 散 が0の 場 合 を 除 く) 確 率 変 数 Xがどんな 分 布 に 従 う 場 合 であっても 多 数 のサンプルを 取 得 すれば 指 定 した 精 度 で 平 均 値 を 推 測 することができる 多 数 って? 30などと な 言 われるが あくまでも 目 安 大 数 の 法 則 ( 法 則 というよりも 数 学 的 に 示 された 定 理 ) 試 行 回 数 nを 無 限 大 にすると サンプルの 平 均 値 は 母 平 均 値 に 限 りなく 近 づく ある 要 素 が 何 度 も 影 響 独 立 同 分 布 からの 試 行 の 反 復 ~ 正 規 分 布 多 数 の 要 素 が 加 算 的 に 作 用 する 正 規 分 布 同 士 の 和 ~ 正 規 分 布 36
標 準 正 規 分 布 母 平 均 の 推 測 ( 母 分 散 が 既 知 の 場 合 ) 母 集 団 の 平 均 と 標 本 平 均 母 集 団 の 標 準 偏 差 と 標 本 の 標 準 偏 差 これらを 明 確 に 分 けて 理 解 しよう 母 平 均 μ 母 標 準 偏 差 σ 標 本 平 均 m 標 本 標 準 偏 差 s 標 本 平 均 の 母 平 均 からのずれの 分 布 は 正 規 分 布 に 従 う 標 本 平 均 m の 期 待 値 = μ σ 標 本 平 均 m の 標 準 偏 差 σ ' = n 標 本 の 大 きさnが 十 分 に 大 きいとき 母 平 均 μに 対 する 信 頼 区 間 は 信 頼 度 95%では σ m 1.96 μ m + 1.96 n 信 頼 度 99%では σ m 2.58 μ m + 2. 58 n σ n σ n 37
母 分 散 の 最 尤 推 定 量 標 準 正 規 分 布 母 平 均 μ 母 標 準 偏 差 σ 標 本 平 均 m 標 本 標 準 偏 差 s 母 分 散 の 推 定 値 は σ = 2 N n 1 s 2 38
問 題! 標 準 正 規 分 布 母 比 率 の 区 間 推 定 十 分 に 大 きな n 標 本 に 内 閣 を 支 持 するか 否 かを 問 うた np 人 が 支 持 し n(1-p) 人 が 支 持 しないと 答 えた ( 支 持 率 p) (1) 確 率 変 数 X を 支 持 している 人 数 とする Xはどのような 分 布 に 従 うか (2) 確 率 変 数 Yを 標 本 における 支 持 率 ( 標 本 比 率 )とする Yの 標 準 偏 差 をn,pを 使 った 式 で 表 せ (3) 十 分 に 大 きなn,np,n(1-p)をとるとき Xはどのような p)をとるとき Xはどのような 分 布 に 近 似 できるか (4) 十 分 に 大 きなサンプルサイズであるから 母 集 団 の 支 持 率 Pは 標 本 の 支 持 率 pと 一 致 す るとしてよい 95% 信 頼 区 間 で 母 比 率 ( 母 集 団 の 支 持 率 )を 推 定 せよ ヒント:この 分 布 で 平 均 からそれ 以 上 離 れる 確 率 が5% 以 下 となる 境 界 値 を 考 えよう 39
解 答! 標 準 正 規 分 布 (1) 確 率 変 数 X を 支 持 している 人 数 とする Xはどのような 分 布 に 従 うか 二 項 分 布 (2) 確 率 変 数 Yを 標 本 における 支 持 率 ( 標 本 比 率 )とする Yの 標 準 偏 差 をn,pを 使 った 式 で 表 せ np ( 1 p) p(1 p) = n n (3) 十 分 に 大 きなn,np,n(1-p)をとるとき Xはどのような 分 布 に 近 似 できるか 正 規 分 布 (4) 十 分 に 大 きなサンプルサイズであるから 母 集 団 の 支 持 率 Pは 標 本 の 支 持 率 pと 一 致 す るとしてよい 95% 信 頼 区 間 で 母 比 率 ( 母 集 団 の 支 持 率 )を 推 定 せよ p p(1 p) p p(1 p 1.96 P + 1.96 ) n n n n 40
仮 説 検 定 の 考 え 方 41
基 本 の 流 れ 仮 説 検 定 の 考 え 方 帰 無 仮 説 H o を 立 てる 対 立 仮 説 H i を 立 てる H o と 仮 定 したとき 検 定 統 計 量 は 有 意 水 準 αにおいて 棄 却 されるか? H o を 受 容 する ( 積 極 的 にH o と 主 張 できるわけではない) H o を 棄 却 し H i を 採 択 する ( 積 極 的 にH i と 主 張 する) 有 意 水 準 αとしては 0.05(5%),0.01(1%) ( ( ) 等 を 用 いることが 多 い 簡 単 に 言 えば H 0 だとすると こんなことは1%でしか 起 きないことですよ だからH 0 で はなくH 1 ですよ と 主 張 することで H 1 を 示 す 考 え 方 平 均 値 の 差 の 検 定 分 散 の 比 の 検 定 などによって 用 いる 分 布 関 数 が 異 なるが 基 本 的 にはこの 考 え 方 が 原 理 である 42
実 例 仮 説 検 定 の 考 え 方 帰 無 仮 説 H o を 立 てる 対 立 仮 説 H i を 立 てる H o と 仮 定 したとき 検 定 統 計 量 は 有 意 水 準 αにおいて 棄 却 されるか? H o を 受 容 する ( 積 極 的 にH o と 主 張 できるわけではない) H o を 棄 却 し H i を 採 択 する ( 積 極 的 にH i と 主 張 する) 例 : 麻 雀 において n 試 合 の 対 戦 を 行 った 場 合 の 2 名 の 平 均 順 位 ( 実 測 値 )を 調 べる 実 力 順 位 x, y とする 帰 無 仮 説 H o :x = y 対 立 仮 説 H i :x y 以 下 の 検 定 統 計 量 は 標 準 正 規 分 布 に 従 う x y Z = Z 検 定 統 計 量 n 試 合 数 x, y 各 々の 平 均 順 位 1.25 2n n 2 有 意 水 準 5%の 両 側 検 定 もし Z >1.96 なら H o を 棄 却 し x y と 言 える ( 参 考 この 場 合 境 界 値 は n = 961) 43
仮 説 検 定 の 考 え 方 片 側 検 定 と 両 側 検 定 第 一 種 の 過 誤 と 第 二 種 の 過 誤 帰 無 仮 説 として x = y と 置 いた 場 合 両 側 のいずれかにずれれば 棄 却 できる 両 側 検 定 帰 無 仮 説 として x y と 置 いた 場 合 片 側 にずれれば 棄 却 できる 片 側 検 定 棄 却 域 に 用 いるパーセント 点 が 異 なる( 例 : 有 意 水 準 5%として 両 側 なら2.5% 片 側 なら5%)ので 注 意 する 第 一 種 の 過 誤 帰 無 仮 説 が 真 であるのに 棄 却 してしまう 第 二 種 の 過 誤 対 立 仮 説 が 真 であるのに 帰 無 仮 説 を 採 択 してしまう これらはトレードオフ たとえば 罹 患 検 査 では 異 常 値 の 検 出 率 を 高 めるべき( 再 検 査 ならマシだが 見 逃 すと 危 険 ) 44
仮 説 検 定 の 考 え 方 例 :Z 点 が3より 大 きい たまたま 起 きたと 考 えるより そもそも 違 っていたと 考 える 方 が 蓋 然 性 が 高 い( 合 理 的 ) 45
どんな 検 定 があるか 仮 説 検 定 の 考 え 方 検 定 使 う 分 布 平 均 値 の 検 定 : 母 分 散 が 既 知 の 場 合 正 規 分 布 平 均 値 の 検 定 : 母 分 散 が 未 知 の 場 合 t 分 布 分 散 の 検 定 χ 2 分 布 母 分 散 の 比 の 検 定 F 分 布 平 均 値 の 差 の 検 定 t 分 布 他 にも 分 布 の 正 規 性 検 定 相 関 係 数 の 有 意 性 検 定 分 散 分 析 など 様 々 ここでは 紹 介 だけ(ネット 上 にも 書 籍 にも 膨 大 に 情 報 がある) 仮 説 検 定 を 行 うには 従 う 分 布 を 知 り 帰 無 仮 説 を 立 てて 棄 却 域 に 入 るかを 調 べる ( 普 通 は 棄 却 域 に 入 れて 対 立 仮 説 を 採 択 したい) という 流 れを 覚 えよう 46
データ 分 析 の 基 礎 回 帰 分 析 多 変 量 解 析 47
データ 分 析 の 基 礎 すべての 基 本 は 散 布 図 を 描 くことから 相 関 係 数 は0.96, 0.94 094 散 布 図 を 描 き 全 体 の 傾 向 を 見 る 層 別 すべき 部 分 ( 男 女 別 理 系 文 系 別 年 度 別 )は 層 別 する 48
データ 分 析 の 基 礎 はずれ 値 の 影 響 系 統 的 誤 差 の 影 響 相 関 係 数 0.77 平 均 や 相 関 係 数 などは はずれ 値 に 対 して 頑 健 ではない 単 なる 異 常 値 ( 測 定 ミス 等 )なら 取 り 除 いて 分 析 でよいが それ 自 体 が 問 題 なら 考 える 49
データ 分 析 の 基 礎 正 規 分 布 ではないとき 単 峰 にならない 別 の 既 知 の 分 布 に 従 う 等 層 を 分 ける 変 数 変 換 を 行 う 等 で 直 線 関 係 に 対 応 づける 50
データ 分 析 の 基 礎 既 知 の 式 にできない 場 合 に 考 えること 層 を 分 けて 単 峰 にして 正 規 分 布 にする( 男 女 別 など) 変 数 変 換 する(logを 取 ると 正 規 分 布 したり ) そのまま 力 技 で 分 析 (モンテカルロ 法 なら 確 率 は 出 せる?) 51
回 帰 分 析 の 例 多 変 量 解 析 入 門 回 帰 分 析 とは 単 数 または 複 数 の 説 明 変 数 に 係 数 をかけた 項 と 定 数 項 との 和 によって 1つの 目 的 変 数 の 値 を 表 すことを 言 う 予 測 に 使 える 特 定 の 要 因 がどの 程 度 強 い 影 響 を 与 えるかを 調 べられる 目 的 変 数 麻 雀 の 成 績 ( 標 準 化 得 点 1000) = 4.134E[Ar] + 4.764E[Ak] + 5.097E[Ad] -5.901E[Fr] - 6.953E[Fk] - 3.672E[Fd]-4.987E[T] ( 係 数 説 明 変 数 )の 和 52
( 重 ) 回 帰 分 析 の 例 多 変 量 解 析 入 門 やり 方 は 実 演 しますのでごらんください なお 補 足 資 料 で エクセルを 用 いた 方 法 について 参 考 ページ 等 を 紹 介 します 注 意 点 等 相 関 と 因 果 は 必 ずしも 対 応 しない 係 数 の 大 小 がそのまま 影 響 の 大 きさとは 言 えない ある 変 数 が1 変 化 したとき 他 の 変 数 が 不 変 であれば 目 的 変 数 が 係 数 分 変 化 する 通 常 説 明 変 数 同 士 に 何 らかの 相 関 があるため 多 重 共 線 性 に 注 意 する はずれ 値 に 特 に 注 意 する 最 小 二 乗 法 によらないロバストな 回 帰 分 析 もある 基 準 化 が 必 要 な 場 合 基 準 化 してから 行 う モデル 選 択 の 目 安 にはAICなどを 使 う 得 られた 重 回 帰 式 を 積 み 重 ねてモデルを 作 成 しない 誤 差 項 が 積 み 重 なっていく 共 分 散 構 造 分 析 (SEM)などの 手 法 が 必 要 53
多 変 量 解 析 入 門 その 他 の 多 変 量 解 析 手 法 ( 一 例 ) 主 成 分 分 析 複 数 の 変 数 から 第 一 主 成 分 の 分 散 ( 情 報 量 )が 最 大 となるよう 情 報 を 集 約 する 各 々の 成 分 は 直 行 する 重 回 帰 分 析 の 前 に 多 重 共 線 性 をなくすために 使 える 複 数 の 変 数 を 視 覚 的 にグループ 分 けして 特 徴 を 捉 えられる 判 別 分 析 事 前 に 与 えられているデータを うまく 2つの( 重 判 別 分 析 では3つ 以 上 の)グループ に 分 け 新 しいデータがどちらの(どの)グループに 属 するかを 判 別 する クラスター 分 析 与 えられたデータの 特 徴 により いくつかのグループに 分 類 する 手 法 ウォード 法 な どが 代 表 的 54