Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Similar documents
Microsoft PowerPoint - データ解析基礎2.ppt

情報工学概論

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

Microsoft Word - Stattext07.doc

_KyoukaNaiyou_No.4

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

テレビ学習メモ 数学 Ⅰ 第 40 回 第 5 章データの分析 相関係数 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します 相関係数は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータの相関関係を

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

Microsoft PowerPoint - 基礎・経済統計6.ppt

スライド 1

Probit , Mixed logit

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

Microsoft PowerPoint - 測量学.ppt [互換モード]

スライド 1

モジュール1のまとめ

Microsoft Word - Stattext13.doc

Microsoft Word - lec_student-chp3_1-representative

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

Microsoft PowerPoint - stat-2014-[9] pptx

Microsoft PowerPoint - 統計科学研究所_R_主成分分析.ppt

Microsoft PowerPoint - statistics pptx

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

経営統計学

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

様々なミクロ計量モデル†

1.民営化

統計的データ解析

講義「○○○○」

EBNと疫学

数値計算法

スライド 1

<4D F736F F D208EC08CB18C7689E68A E F1918A8AD695AA90CD2E646F63>

Microsoft PowerPoint - 資料04 重回帰分析.ppt

相関係数と偏差ベクトル

Python-statistics5 Python で統計学を学ぶ (5) この内容は山田 杉澤 村井 (2008) R によるやさしい統計学 (

画像類似度測定の初歩的な手法の検証

不偏推定量

Microsoft PowerPoint - statistics pptx

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

Microsoft Word - mstattext02.docx

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

Microsoft Word - apstattext04.docx

ビジネス統計 統計基礎とエクセル分析 正誤表

日心TWS

PowerPoint Presentation

学習指導要領

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

13章 回帰分析

Microsoft PowerPoint - sc7.ppt [互換モード]

フトを用いて 質問項目間の相関関係に着目し 分析することにした 2 研究目的 全国学力 学習状況調査結果の分析を通して 本県の児童生徒の国語及び算数 数学の学習 に対する関心 意欲の傾向を考察する 3 研究方法平成 25 年度全国学力 学習状況調査の児童生徒質問紙のうち 国語及び算数 数学の学習に対

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

国語の授業で目的に応じて資料を読み, 自分の考えを 話したり, 書いたりしている

国際数学・理科教育動向調査(TIMSS2015)のポイント

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

学習指導要領

学習指導要領

カイ二乗フィット検定、パラメータの誤差

学習指導要領の領域等の平均正答率をみると 各教科のすべての領域でほぼ同じ値か わずかに低い値を示しています 国語では A 問題のすべての領域で 全国の平均正答率をわずかながら低い値を示しています このことから 基礎知識をしっかりと定着させるための日常的な学習活動が必要です 家庭学習が形式的になってい

学習指導要領

Microsoft PowerPoint - Statistics[B]

Taro-① 平成30年度全国学力・学習状況調査の結果の概要について


PowerPoint プレゼンテーション

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

Microsoft Word - Stattext12.doc

(Microsoft Word - 10ta320a_\220U\223\256\212w\223\301\230__6\217\315\221O\224\274\203\214\203W\203\201.docx)

青焼 1章[15-52].indd

(2) 学習指導要領の領域別の平均正答率 1 小学校国語 A (%) 学習指導要領の領域 領 域 話すこと 聞くこと 66.6(69.2) 77.0(79.2) 書くこと 61.8(60.6) 69.3(72.8) 読むこと 69.9(70.2) 77.4(78.5) 伝統的な言語文化等 78.3(

因子分析

(4) 学校の規則を守っていますか (5) いじめは, どんな理由があってもいけないことだと思いますか

Microsoft Word - SPSS2007s5.doc

本日の内容 相関関係散布図 相関係数偏相関係数順位相関係数 単回帰分析 対数目盛 2

Microsoft PowerPoint ppt

統計学 Ⅱ8-9 章 確率分布 確率の条件 8 ページ p: 確率関数 p は の関数とみなせる 確率分布 : すべてのに関する = または p の分布 グラフや表で表わすことが多い サイコロの例 : 計 縦軸は p または = 棒の幅は 線 確率 p.. = / / / / / / サイコロの目の

画像処理工学

学習指導要領

Microsoft Word - 補論3.2

(Microsoft Word - \207U\202P.doc)

2017 年 12 月 19 日 報道者各位 プレスリリース ~ 中学受験まであと 2 ヵ月 ~ 中高一貫校生の得意苦手科目 勉強時間 に関する調査得意科目 苦手科目ともに 数学 が 1 位 中だるみ中高一貫校生の成績を跳ね上げる 個別指導塾 WAYS を運営する株式会社メイツ ( 所在地 : 東京

0415

第2章

夏期講習高 センター数学 ⅠA テキスト第 講 [] 人の生徒に数学のテストを行った 次の表 は, その結果である ただし, 表 の数値はすべて正確な値であるとして解答せよ 表 数学のテストの得点 次

14 化学実験法 II( 吉村 ( 洋 mmol/l の半分だったから さんの測定値は くんの測定値の 4 倍の重みがあり 推定値 としては 0.68 mmol/l その標準偏差は mmol/l 程度ということになる 測定値を 特徴づけるパラメータ t を推定するこの手

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

振動学特論火曜 1 限 TA332J 藤井康介 6 章スペクトルの平滑化 スペクトルの平滑化とはギザギザした地震波のフーリエ スペクトルやパワ スペクトルでは正確にスペクトルの山がどこにあるかはよく分からない このようなスペクトルから不純なものを取り去って 本当の性質を浮き彫

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

表 6.1 横浜市民の横浜ベイスターズに対する関心 (2011 年 ) % 特に何もしていない スポーツニュースで見る テレビで観戦する 新聞で結果を確認する 野球場に観戦に行く インターネットで結果を確認する 4.

学生による授業評価のCS分析

DVIOUT

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上

H30全国HP

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

1 対 1 対応の演習例題を解いてみた 微分法とその応用 例題 1 極限 微分係数の定義 (2) 関数 f ( x) は任意の実数 x について微分可能なのは明らか f ( 1, f ( 1) ) と ( 1 + h, f ( 1 + h)

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

(3) 将来の夢や目標を持っていますか 平成 29 年度 平成 28 年度 平成

Microsoft Word - 町田・全 H30学力スタ 別紙1 1年 数学Ⅰ.doc

Transcription:

データ解析基礎. 正規分布と相関係数 keyword 正規分布 正規分布の性質 偏差値 変数間の関係を表す統計量 共分散 相関係数 散布図 正規分布 世の中の多くの現象は, 標本数を大きくしていくと, 正規分布に近づいていくことが知られている. 正規分布 データ解析の基礎となる重要な分布 平均と分散によって特徴づけることができる. 平均値 : 分布の中心を表す値 分散 : 分布のばらつきを表す値 正規分布 正規分布の形状 : 次関数の例 densty....3. f ( μ = πσ σ ( μ, σ ep - - μ σ ( : 平均, : 分散 正規分布の関数 ( 密度関数 の特徴 平均を中心にし, 左右対称である. 分布の形状は, 分散によって変化する ( μ ep y = ( b ( σ = a, μ = b - - - - - -3 σ a の値が小さくなるほどグラフの形状はシャープになる -3 - -3. -. -. -.... 3. a y = ( a= y = ( a= y = ( a= 3

正規分布の形状 標準正規分布 σ の値が小さくなるほど, 分布の形状は シャープになる densty..3... σ =. σ = σ =. - - 平均 μが分散 σ である正規分布 (*ep[ ] = e ( μ f ( μ, σ = ep ( μ: σ 平均, : 分散 πσ σ について線形変換 μ z = 標準化 σ をおこなうと, 平均が, 分散がの正規分布となり, z f ( z, = ep π と書くことができる. この正規分布を標準正規分布という. 正規分布と確率 シグマ,シグマ,3シグマの法則 観測データが正規分布に従う場合, 以下ようなの概算を見積もることができる. 標準正規分布 N(, の密度関数. μ± σの範囲内 シグマ : データ全体の約 % ( 約 / 3 が含まれる. μ± σの範囲内 densty..3 99.% 3シグマ % シグマ シグマ : データ全体の約 9% ( 約 9 / が含まれる. μ ± 3 σ の範囲内. 9% シグマ 3シグマ : データ全体の約 99.7% が含まれる.. - - 7

正規分布と偏差値 偏差値の定義 受験者全員の平均点に相当する得点を に変換し, 標準偏差の 倍だけの隔たりをに換算するような換算法によって算出される指標 偏差値 z の算出式 z = + ( : 平均点, : σ 標準偏差 σ 正規分布と偏差値 偏差値 z 確率 順位 ( 人中 7 97.7%. 93.3% 7.%. 9.% 3.% -. 3.9% 9 -.9% 3 -..7% 93 偏差値 上位 7% 7 位 ( 人 偏差値 上位 % 位 ( 人 9 変数間の関係を表す統計量 相関とは : 例題 共分散 相関係数 相関係数の意味 相関係数の定義 散布図 視覚的に変量間の関係を見る 数学 理科 国語 9 3 3 7 3 3 科目 ( 数学, 理科, 国語 について, 試験をしたところ, 3 3 7 7 3 次の結果であった. この 3 データから,3 教科について, 7 7 7 9 何らかの関係があるか. 7 9 9 7 7 3 79 7 7 3 33 7 7 3 3 3 7 3 7 3 9 7 9 7 9 7 37

相関とは : 例題 数学と理科, 国語の散布図 右肩上がりの傾向 7 3 理科 国語 7 7 7 数学の点数 右肩下がりの傾向 散布図 つの変量を, 軸とy 軸に割り当て, 観測データを座標上の点で表した図を散布図という. 変量間の関係を, 視覚的に見ることが出来る. 7 3 数学と理科, 国語の散布図 理科 国語 7 7 7 数学の点数 3 散布図からみる相関関係 変数間の関係を表す量 : 相関係数 - - 相関なし - -3 - - - - - - 正の相関 - -3 - - 負の相関 変量間 (, y の関係を測る指標 相関係数 相関係数 r(y r(,y の値 : 相関係数の値の範囲 :- r(,y に近いほど正の相関が強い - に近いほど負の相関が強い の時, 相関がない 相関係数は常に因果関係を示すものではない. - -3 - -

変数間の関係を表す量 相関係数と関係の強さ ry (,. ほとんど相関がない. < ry (,. 弱い相関がある. < ry (,.7 比較的強い相関あり.7 < ry (,. 強い相関がある 7 相関係数 つの変量を (, y で表した時, 相関係数は以下の式で定義される. 共分散の値を,- から の範囲内に標準化した数と考えることもできる. 相関係数の定義式 n ( ( y y (, n Cov y = ry (, = = Var ( Var ( y n n ( ( y y n n = = 共分散 : 変量間の関係を表現する量 第 番目の観測値を(, y で表したとき, : 方向への偏差 (devaton y y : y 方向への偏差 (devaton という. つの偏差の積をすべて足して, 標本サイズで割ったものを共分散という. n n = Cov(, y = ( ( y y 共分散の幾何学的意味 n Cov (, y = ( ( y y n = ( ( y y 7 7 理 科 y y (, y (, y ( ( y y 7 7 7 77 7 79 3 数学 y 9

共分散と分散 分散と共分散 分散 : の偏差 ( の 乗 ( の場合 共分散 : の偏差 ( と y方向への偏差 ( y y の積共分散と分散の関係式 n Var ( = Cov (, = ( ( n = 分散と共分散の値の範囲 Var(, Var( y, Cov(, y 共分散の大きさを評価することが難しい. 共分散 は大きい? タレントの人気と視聴率の関係は渡辺久哲 調査データにだまされない法 創元社より ある番組分析班が, 番組の主演タレントの人気とその番組の視聴率の関係を検討した. 分析対象は,A 局 B 局 C 局のある時間帯の番組 タレントの人気と視聴率の関係は 3テレビ局について 番組の視聴率とそこに起用したタレントの人気度について相関係数を算出. 各局ごとにタレントの人気度 ( ヨコ軸 と番組の視聴率 ( タテ軸 でプロットを作成 ほぼゼロ (. 相関係数大きい (.7 ほぼゼロ (. 3 タレントの人気と視聴率の関係は タレントの起用は番組の成功を大きく左右する要素であるが, 相関係数を見たところ B C 局のデータからは相関関係は見られなかった. 結論 A 局のみが 起用したタレントの人気が高いほど視聴率が高く 起用したタレントの人気が低いほど視聴率が低いという傾向が見られる 本当にこの結論でよいのだろうか?

タレントの人気と視聴率の関係は A 局 相関関係が見られる B 局 起用しているタレントの人気度と視聴率はほぼ無関係 ( 相関係数もゼロに近い数値 C 局 相関係数はほぼゼロに近い数値ではあるが, プロットは一風変わってU 字型になっている C 局についてはプロットを見ると, 相関がないと断言することは出来ない タレントの人気と視聴率の関係は 右半分の群からは,A 局と同じタレントの人気度が高いほど番組の視聴率が高いという傾向が読み取れる 左半分からは その逆で人気度の低いタレントでも高い視聴率をとる番組があることが読み取れる 相関係数を見ただけでは分からないことが, 散布図から分かることがある タレントの人気と視聴率の関係は なぜ 相関係数をみるだけではわからなかったのか? C 局には, タレントの人気に依存した番組と 依存していない番組の 種類があるために, 全体としてはU 字型のプロット図になっている. 相関係数では, 図にしたときの曲線的な関係の大きさをとらえることができない. 例題 : 相関係数と散布図吉田寿夫 本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本 北大路書房より 以下のデータは, ある女性が 人の男性の積極性と清潔さについて評価したデータとそれぞれの男性に対する好意度に関するデータをまとめたものです. 積極性についての評価と好意度および清潔さについての評価と好意度に関して, それぞれの相関係数と散布図を作成し, わかることを述べなさい. No 3 7 9 積極性 3 7 清潔さ 3 7 3 好意度 3 7 3 7

例題 : 回答項目 例題 : 散布図 積極性についての評価 非常に積極的 7 わりと積極的 やや積極的 どちらともいえない やや消極的 3 わりと消極的 非常に消極的 清潔さについての評価 非常に清潔 7 わりと清潔 やや清潔 どちらともいえない やや不潔 3 わりと不潔 非常に不潔 好意度 非常に好き 7 わりと好き やや好き どちらともいえない やや嫌い 3 わりと嫌い 非常に嫌い 積極性と好意度の散布図 7 相関係数 =.7 3 3 7 積極だと思う男性をより好むという傾向 7 3 清潔さと好意度の散布図 相関係数 = -.9 3 7 非常に不潔と思う男性を好まないと同時に, あまりにも清潔な男性もまた好まない 9 3 例題 : 相関係数と散布図吉田寿夫 本当にわかりやすいすごく大切なことが書いてあるごく初歩の統計の本 北大路書房より 中学生の勉強に対する努力量と学業成績の関係の検討する. 人中学 年生について, 以下の項目についてデータ得られているとしたとき, 平均学習時間と成績の関係について分析をおこなう. 家庭での英語の学習時間 ( 日あたりの平均時間 : 分 英語の通知表の成績 ( 段階評定 各生徒の知能の高さ ( 高, 低 例題 : 観測データ No. 平均学習時間通知表の成績 知能の高さ 低 低 3 7 高 低 7 高 3 低 7 9 7 低 高 9 高 3 高 3 9 高 低 3 高 低 高 7 低 3 3

例題 : 相関係数と散布図 ( 全体 例題 : 相関係数と散布図 ( 層別 平均学習時間と通知表の散布図 知能の高さがほぼ一定であれば, 英語に関して努力している生徒ほど成績が良い という正の相関関係が認められる. 通 知表 の成績 相関係数 =. 平均学習時間 通 知表 の成績 平均学習時間と通知表の散布図 知能高知能低 平均学習時間 相関係数 ( 知能高 =. 相関係数 ( 知能低 =. 33 3 例題 3: 相関係数と散布図 以下の表は, 売上本数, 広告費, キャンペーンの実施について調べたものである. 売上本数 ( 本 広告費 ( 百万円 キャンペーンの実施 月 無 月 3 無 3 月 有 月 無 月 3 無 月 有 7 月 無 月 有 例題 3: 相関係数と散布図 広告費やキャンペーンの実施が売上に影響を及ぼしているかを調べたい. 相関係数と散布図を活用した解析をおこなう 広告費と売上本数の折線グラフの描画 広告費と売上本数の散布図の描画 キャンペーン実施と売上本数の散布図の描画 3 3

例題 3: 折線グラフ 例題 3: 広告費と売上本数の散布図 広告費の売上本数の折線グラフ 売上本数 ( 本 広告費 ( 百万円 3 キャンペーン 3 キャンペーン 月 月 3 月 月 月 月 7 月 月 広告費の投入度が大の月, キャンペーン実施を行った月 ( あるいは ヵ月後 売上本数が多くなる キャンペーン 広 9 告 費(7 百 万 円3 広告費の売上本数の散布図 相関係数 =.7 3 7 9 3 売上本数 ( 本 広告費と売上本数には正の相関があることがわかる 37 3 例 3: キャンペーン実施と売上本数の散布図 キャンペーンの実施ンの実施と売上本数には正の相関があることがキャンペーンの実施の有無と売上本数の散布図ンの実施の有無と売上本数の散布図わかる売 r =.3 上本 数 キャンペーン実施なしキャンペーン実施あり 例 3: 平均値による比較 キャンペーン実施 ( あり, なし 別で, 売上本数の平均値を計算 キャンペーン実施あり : 本, 本, 本 平均値 7.7 本 キャンペーン実施なし : 本,3 本, 本,3 本, 本 平均値. 本 平均値を比較より, キャンペーン実施の効果がうかがえる 39

例 3: 相関係数と散布図の活用例 広告費やキャンペーンの実施が売上に影響を及ぼしているかを調べるる. 相関係数と散布図を活用した解析をおこなう 広告費と売上本数の折線グラフの描画 広告費と売上本数の散布図の描画 キャンペーン実施と売上本数の散布図の描画 広告費とキャンペーン実施は売上に変動を与えるン実施は売上に変動を与える要因である!! まとめ 正規分布 データ解析の基礎となる重要な分布 平均と分散によって特徴づけることができる. 相関係数 r(,y 変量間 (, y の関係を測る指標 - r(,y 散布図 つの変量を, 軸とy 軸に割り当て, 観測データを座標上の点で表した図を散布図という. 変量間の関係を, 視覚的に見ることが出来る