1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 2

Size: px
Start display at page:

Download "1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 2"

Transcription

1 記述統計と確率変数 確率分布 統計数理研究所 坂田綾香 モデリング研究系 1

2 1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 2

3 1 日目の内容 午後 確率と統計 4. 確率と統計の基礎 確率変数 確率関数と確率密度関数 確率変数の期待値 分散 共分散 相関係数 5. 推測統計学の基礎 母集団と標本 大数の法則と中心極限定理 3

4 変数と観測対象 一般的にデータは, 観測対象 変数 の形式で得られる 観測対象とは, データを取得する対象 変数とは, 人や物 時間によって値が異なる特性 身長, 年齢, 性別, 株価など 4

5 立川市の気象データ データの例 年 合計 降水量 (mm) 気温 ( ) 日照最大平均時間日最最高最低大 1 時間 (h) 10 分間 日平均 日最高 日最低 平成 20 1, , , , , , , , , ,

6 データの例 立川市のごみ排出量の推移 ( 単位 : トン ) 年度総数 小 計 収集ごみ持ち込み資源ごみ可燃物不燃物粗大ごみ 1 日当たりの排出量 19 61,844 31,972 29,006 2, ,867 11, ,826 31,456 28,673 1, ,736 10, ,391 29,669 26,902 1, ,160 11, ,399 28,764 25,414 2, ,901 11, ,334 29,109 25,629 2, ,054 11,

7 データの要約の必要性 データは一般的に巨大 眺めているだけではよく分からない そこでデータを要約する必要がある 図表による要約 度数分布表, 棒グラフ, ヒストグラムなど 数値要約 最頻値, 中央値, 平均値, 標準偏差, 相関係数など データ要約により, 必要な情報を簡潔に伝える方法を記述統計と呼ぶ 7

8 (1) データの型による分類 量的データ データの種類 連続データ : 身長 体重 温度 時間など 離散データ : 人数 カウントデータなど 質的データ 名義尺度 : 性別 天気 居住地域など 順序尺度 : 薬剤の治療効果の判定 ( 悪化 不変 改善 ) など 8

9 データの種類 (2) データの次元による分類 1 次元データ : 変数が1つだけのデータ ( 例 ) ある学年全員の数学の点数 多次元データ : 2 つ以上の変数が組となっているデータ ( 例 ) 2 次元データ : ある学年全員の数学と英語の点数 3 次元データ : ある学年全員の数学と英語と物理の点数 今日の講義では 2 次元データまでを扱います 9

10 1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 10

11 記述統計学 記述統計学とは データのもっている主要な特性をより鮮明に 表現するために, データを要約したり 作表をしたりすること一般を指す ( 統計科学事典, 清水良一訳 ) 11

12 ここで扱うデータ 統計数理研究所による 日本人の国民性調査 より あなたは結婚していらっしゃいますか? もういちど生まれかわるとしたら あなたは男と女の どちらに 生れてきたいと思いますか? あなたが最後にいらっしゃった学校はなんですか? 国税庁による 民間給与実態統計調査 ( 平成 26 年実施 ) これらのデータを以下の図表により可視化する (1) 度数分布表 (2) 棒グラフ (3) ヒストグラム (4) 折れ線グラフ (5) 円グラフ 12

13 (1) 度数分布表 観測値のとりうる値をいくつかのカテゴリ ( 階級 ) に分類 各階級で 観測値がいくつあるかを表にまとめる 度数 : 各カテゴリーに所属する観測値の数 分布 : データがある値をとる頻度を表したもの 13

14 離散変数の度数分布表 あなたは結婚していらっしゃいますか? 項目 度数 相対度数 累積相対度数 未婚 死別 離別 既婚 その他 各階級の度数を全観測数で割ったもの ( 100) 最初の階級から相対度数を足し合わせたもの 14

15 連続変数の度数分布表 連続変数の場合には階級を作り, 度数分布を作成する 男性の給与の度数分布 ( 民間給与実態統計調査 ) 階級 ( 万円 ) 度数 ( 万人 ) 相対度数 累積相対度数 200 未満 ~ ~ ~ ~ ~ ~ ~ ~ 以上

16 (2) 棒グラフ あなたは結婚していらっしゃいますか? 割合 (%) 未婚死別離別既婚その他 棒と棒はくっつけない 16

17 (2) 棒グラフ 男性の給与 ( 民間給与実態統計調査より ) 割合 (%)

18 棒グラフとヒストグラムの違い 棒グラフ : 階級 項目ごとの個体数を表す ヒストグラム : それぞれの柱の 面積 ( 太さ 高さ ) が 度数を表す 例えば 幅が 500 万円の柱は 幅が 100 万円の柱の 5 倍の太さがあるので 同じ度数でも柱の高さは 1/5 になる 18

19 ( 万人 ) (3) ヒストグラム 男性の給与 ( 民間給与実態統計調査より ) 300~400( 万円 ) の 513.8( 万人 ) を として表す ~1500( 万円 ) の 136.4( 万人 ) を として表す 0 ( 万円 ) 19

20 (3) ヒストグラム 幅のとり方で印象が異なるので注意が必要 男性の給与 ( 民間給与実態統計調査より ) 1000 万円以下を100 万円刻みにした場合 1000 万円以下を200 万円刻みにした場合

21 (4) 円グラフ あなたが 最後にいらっしゃった学校はなんですか? 2008 年 1978 年 高校大学中学校小学校その他 違いが視覚的に分かる 21

22 (5) 折れ線グラフ もう一度生まれかわるとしたら あなたは男と女のどちらに生れてきたいと思いますか? 割合 (%) 男 と回答した人の割合の変化 時系列的変化を示すのに便利 男 女 実施年 22

23 データを特徴づける 分布の性質をどのように説明するか 分布の中心的な位置は? 分布の広さはどれくらい? ピークはどれくらい急なのか? 分布の裾はどんな形なのか? 定量的に分布の特徴を記述したい これにより データの背後にある現象の解釈につながる 異なるデータとの比較を定量的に行うことができる 23

24 1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 24

25 ( 補足 ) を使った計算

26 ( 補足 ) を使った計算 4. = ( 1) 5. =

27 記述統計量 データの分布を特徴づける指標を記述統計量と呼ぶ 統計量 とは統計学で用いる指標を指す ここでは以下の記述統計量について説明する 代表値 : 分布を代表する値 散布度 : 分布の広がり ばらつきを表す指標 27

28 代表値の例 最頻値 (mode): 最も頻繁に出現する値 外れ値に強い 一つに決まらない場合がある 中央値 (median) : 真ん中の値 外れ値に強い 全てのデータを考慮できない 平均値 (mean) : 個々の値の和 対象の数 ( 個体数 ) 全てのデータを考慮できる 外れ値に弱い 対象の数 = 1 個々の値 28

29 平均の計算 3 人数 2 1 = ゴールデンウィークの休暇日数 = } = 3 29

30 代表値の例 最頻値 = 0 中央値 = 0 平均値 = 左右対称な分布では 最頻値 = 中央値 = 平均値となる 30

31 代表値の例 最頻値 = 5 中央値 = 5 平均値 = 非対称な分布では 3 つの値は一致しない 31

32 代表値の例 多峰性の分布の場合 最頻値 = 中央値 = 1.5 平均値 = 分布の 中心的な値 を表す指標として解釈できない 32

33 代表値だけでは分布を区別できない どちらの分布も = 0, = 0, =

34 代表値だけでは分布を区別できない どちらの分布も = 0, = 0, = データのばらつきを表す指標が必要 散布度 34

35 分布のばらつきを特徴づける 平均値と個々の値が 平均的にどの程度離れているかを表す指標 分散! = 1 例えば の単位が kg のとき 分散の単位は kg 2 となる 標準偏差! = 1 標準偏差の単位は の単位と同じ 35

36 分散による分布の区別 どちらの分布も = 0, = 0, = ! = 1! = 9 36

37 分散の計算 3 = 3 人数 2 1! = = 1 10 # } = 1.6 ゴールデンウィークの休暇日数 37

38 歪度 分布の左右非対称性を表す 1 % =! どちらの分布も = 1.13,! = % = 1.66 % = 0 38

39 尖度 分布のとがり具合を表す 1 ' =! どちらの分布も = 0,! = 1.56, % = ' = 3.82 ' = 3 39

40 その他の散布度指標 分位点 データを昇順に並べ 下側の p% のところにある値を p% 分位点 と呼ぶ 第 1 四分位点 :25% 分位点, 下側四分位点 第 2 四分位点 :50% 分位点, 中央値 第 3 四分位点 :75% 分位点, 上側四分位点 範囲 : データの最大値ー最小値 四分位範囲 : 上側四分位点ー下側四分位点 中央部で 50% のデータが入る範囲 40

41 箱ひげ図による表現 四分位範囲 第 3 四分位 第 1 四分位 1.5 四分位範囲 中央値 1.5 四分位範囲 ひげの中に全てのデータが収まる場合 ひげは最大値 最小値までしか延ばさない ひげの外にあるデータは点で表す 41

42 1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 42

43 標準化 基準化 異なる分布に従うデータを比較するための手続き例題 Aさんのテストの点数 数学 :75 点 英語 :65 点 Aさんは, 数学と英語のどちらの方が得意でしょうか? 点数で比較すると 数学の方が得意? 43

44 判断の手がかり 数学における1 点と, 英語における1 点は同じ価値? 学年の平均点と比較してみる Aさんの数学の得点ー数学の平均点 と Aさんの英語の得点ー英語の平均点 を比較する しかし, 数学における平均点との差と英語における平均点との差が同じ価値とは限らない Aさんよりも高い点数を取った人が少ないほど, その得点は貴重だと考える 平均値だけでなく, 点数の散らばりも考慮する必要がある 44

45 数学 英語の点の分布 数学 英語 平均 : = 65 平均 : = 50 割合 (%) 標準偏差 :! = 8 割合 (%) 標準偏差 :! = Aさん (75 点 ) 点数 Aさん (65 点 ) A さんより高い点数の人は 9.5% A さんより高い点数の人は 1% 点数 45

46 標準化 基準化 を標準化して ) とする : ) を標準得点 (z 得点 ) 標準化変量 基準化変量と呼ぶ 標準得点の平均は0, 標準偏差は1になる 標準化により 変数値の相対的 位置 を把握できる 難易度の異なる数学と英語のテストにおいて 数学でX 点を取ったことと 英語でY 点取ったことを 全体の中での位置 という観点で比較できる 46

47 標準化した数学 英語の点の分布 数学 65 標準化得点 : 8 割合 (%) 割合 (%) 4 4 英語 標準化得点 : 標準得点 標準得点 どちらも平均 0 標準偏差 1 の分布になる 47

48 A さんの得点の場合 数学の標準得点 : 英語の標準得点 : 5 割合 (%) 4 = 1.25 = 3 数学英語 英語の方が得意と言える 標準得点 48

49 ここまでの議論は 注意 データが正規分布に従うことを仮定している 平均 分散のみで形を指定できる 左右対称な分布 ( 午後の講義で詳しく扱います ) データが厳密に正規分布に従わなくても 正規分布に近い 左右対称な分布をしている場合は 標準化によるデータの比較は有効である また標準化はデータの大きさを揃える効果があるため 回帰分析において重要 49

50 標準化の実用例 偏差値 点数 を標準化したものを ) 得点と呼ぶ : ) 得点の平均は 0 標準偏差は 1. ) =! 割合 (%) 偏差値 =10 ) + 50 偏差値の平均は 50 標準偏差は 正規分布を仮定した場合の偏差値の分布 偏差値 50

51 変動係数 1 人当たり県民所得 の推移 ( 内閣府県民経済計算より ) 年平均値 ( 万円 ) 標準偏差 ( 万円 ) 最も格差が大きい年は? 標準偏差が最も大きいのは 2013 年 そもそも平均値が大きく異なる ( 貨幣価値が異なる ) が 標準偏差を単純に比較してよいのか? 51

52 変動係数 平均値の大きさを考慮したうえで ばらつきを評価する 変動係数 = 標準偏差 平均値 年平均値 ( 万円 ) 標準偏差 ( 万円 ) 変動係数 相対的な地域格差は 1955 年が最も大きい 52

53 1 日目の内容 午前 記述統計 1. データの表現 図表によるデータの可視化 2. データ分布の特徴づけ 代表値 : 平均, 中央値, 最頻値 散布度 : 分散, 標準偏差, 四分位偏差 3. データの比較 標準化 基準化 2 変数の関係 : 散布図, 共分散, 相関係数, クロス表 53

54 2 変数間の関係 統計データの解析では 複数の変数間の関係性に関心があることが多い ( 例 ) BMIが大きい人ほど血圧が高いか? 雨が降るほど渋滞が発生しやすいか? ネットでの人気と視聴率の関係は? ここでは 2 変数の関係性を表すための 記述統計学の方法をまとめる 54

55 ここで扱うデータ 平成 26 年死傷事故件数 ( 国道交通省より ) 都道府県 自動車専用道路 一般国道 ( 人口 10 万人当たり ) 一般都道府県道等 市町村道その他 北海道 宮城県 新潟県 東京都 愛知県 大阪府 広島県 福岡県 沖縄県

56 散布図 一般国道での事故数 佐賀県 兵庫県 自動車専用道路での事故数 56

57 散布図 市町村道その他での事故数 静岡県 香川県 一般都道府県道等での事故数 57

58 散布図 市町村道その他での事故数 静岡県 佐賀県 一般国道での事故数 58

59 散布図から読み取れること,,, + X が大きいほど Y も大きい Y が大きいほど X も大きい + X と Y の大きさに 関連はない + X が大きいほど Y は小さい Y が大きいほど X は小さい X と Y の間には正の相関がある X と Y は無相関である X と Y の間には負の相関がある 59

60 2 変数の関係を表す統計量 共分散 + と, の間に 正の相関があるとき 正の値をとる 相関関係が強いほど 共分散は大きくなる 負の相関があるとき 負の値をとる 相関関係が強いほど 共分散の絶対値は大きくなる 無相関のとき 0 に近い値をとる! -. = 1 / / 60

61 共分散 (4) (1) 共分散が正のとき (1), (3) にデータが多い / / 1 共分散が負のとき (2), (4) にデータが多い (3) (2) 共分散が 0 に近いとき 全ての領域にデータがまんべんなく存在 61

62 共分散 平成 26 年死傷事故件数の共分散 X 自動車専用道路 一般国道 一般都道府県道等 市町村道その他 Y 自動車専用道路 一般国道 ( 人口 10 万人当たり ) 一般都道府県道等 市町村道その他

63 X 自動車専用道路 一般国道 一般都道府県道等 市町村道その他 共分散 平成 26 年死傷事故件数の共分散 Y 自動車専用道路 一般国道 ( 人口 100 万人当たり ) 一般都道府県道等 市町村道その他 データのスケールが 10 倍になると共分散は 100 倍になる

64 相関係数 共分散を標準偏差の積で割ったものを相関係数と呼ぶ -.! - : の標準偏差,!. : / の標準偏差 データのスケールを表す標準偏差で割ることで 相関係数は 1から1の間に収まる 正の相関があるとき 0 -. は正の値をとる 無相関のとき 0 -. は0に近い 負の相関があるとき 0 -. は負の値をとる 64

65 = = 相関係数と散布図 = = = =

66 相関係数と散布図 = 0 0 = = = = =

67 平成 26 年死傷事故件数の相関係数 X 自動車専用道路 一般国道 一般都道府県道等 市町村道その他 Y 自動車専用道路 一般国道 一般都道府県道等 市町村道その他 一般に 弱い相関 中程度の相関 強い相関 非常に強い相関

68 相関係数の解釈の注意 (1) 外れ値があるとき 外れ値は相関係数の値を大きく変えてしまう (2) 曲線関係があるとき 変数変換を行う必要がある (3) 異質な集団が含まれる場合 集団ごとに相関係数を求める必要がある 相関係数だけで判断せず 散布図を描くことが大事 68

69 (1) 外れ値が相関係数に与える影響 10 8 データ点 A データ点 Aを含めた場合の相関係数 0 -. = / データ点 Aを含めない場合の相関係数 0 -. = 大きく外れたデータは相関係数の値を変えてしまう データ点 A を 外れ値 として除外してよいのか? 69

70 箱ひげ図を用いる 外れ値の見つけ方 データ点 A データが正規分布に従うと仮定すると ひげの外に値をとる確率は 0.7% しかない 箱ひげ図を描いてひげの外にあるデータは外れ値である可能性が高い +, ただし データが正規分布に従うとは限らないので 実際に除外するかどうかはよく検討する必要がある 70

71 外れ値が発生する理由 確認すべきこと 他データとの測定環境の違い 被観測個体の特殊性 データの入力ミス よほど小規模なデータでない限り ヒューマンエラーは避けられない これらの原因による外れ値であると確信できる場合は データから外れ値を除いてもよい 71

72 (2) U 字型相関 U 字型相関を示す散布図 逆 U 字型相関を示す散布図 = 0.05 / / = 無相関と考えるのは誤り 72

73 変数変換 U 字型相関を示す散布図 逆 U 字型相関を示す散布図 / / = = と / の相関は強い 73

74 (3) 異質な集団が含まれる場合 全体の相関係数 0 = 0.47 層別相関係数 の集団 : 0 = 0.89 の集団 : 0 = 0.67 散布図を描き データの構造を把握することが重要 74

75 相関関係と因果関係 相関関係があるとき因果関係もあるとは限らない ( 例 ) T 市の人口 と T 市の税収 に正の相関がある場合 次の5 通りの可能性が考えられる 人口が増えたので税収が増えた 税収が増えたので人口が増えた 人口が増えたので税収が増えたし 税収が増えたので人口が増えた T 市に大規模工場が出来たので 人口が増えたし税収も増えた 偶然 人口増と税収増が同時に起きた 因果関係がある 擬似相関がある 無関係 75

76 擬似相関 変数 1 が変数 + と変数, の間の相関をもたらすとき その相関を擬似相関と呼ぶ 変数 + ( 結果 1) 変数 1 ( 原因 ) 擬似相関 変数, ( 結果 2) 例 : 都市の大気汚染の程度 + と都市人口に占める若者の割合, の間には 擬似相関がある 変数 1 は都市の人口である 豊田秀樹, 原因を探る統計学 より 76

77 相関係数と偏相関係数 相関係数 0 -. : 変数 + と変数, の間の関連性の指標 偏相関係数 : 変数 1 の影響を変数 + と変数, から排除した上での 変数 + と変数, の間の関連性の指標

78 偏相関係数の例 +: ノロウイルス食中毒発生件数,: 台風の発生個数 月 月 ( 平成 23 年 ~27 年平均 厚生労働省 ) ( 平成 23 年 ~27 年 気象庁 ) 0 -. = 0.71 ノロウイルスが減ると台風が増える?? 78

79 偏相関係数の例 1: 平均気温 月 (1990 年 ~2013 年の平均 気象庁 ) = 0.25 ノロウイルス食中毒の減少と台風の増加は気温という原因により引き起こされていると考えられる 79

80 偏相関係数の例 0-3 = 0.92 ノロウイルス 気温 = 0.25 (0 -. = 0.71) 0.3 = 0.83 台風 80

81 偏相関係数の例 ちなみに 0-3 = 0.80 ノロウイルス 1 カ月前の気温 = 0.05 (0 -. = 0.71) 0.3 = 0.90 台風 81

82 クロス表 2 つの変数のデータを 表に集計してまとめたもの 居住年数 思う どちらかとい えば思う 立川市に住み続けたいと思いますか? どちらかといえば思わない 思わない無回答合計 生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) ~20 年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) ~13 年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6~9 年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 3~5 年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2 年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 平成 27 年度立川市市民満足度調査より 82

83 クロス表 2 つの変数のデータを 表に集計してまとめたもの 居住年数 思う どちらかとい えば思う 立川市に住み続けたいと思いますか? どちらかといえば思わない 思わない無回答合計 生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) ~20 年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 関連性の指標 1: 割合の差 ( 絶対的指標 ) 10~13 年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6~9 年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 ( 例 ) 生まれてからずっと立川市に住んでいる人のうち 住み続けたいと思う人は 思わない人より 70.3ポイント多い 3~5 年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2 年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 平成 27 年度立川市市民満足度調査より 83

84 クロス表 2 つの変数のデータを 表に集計してまとめたもの 居住年数 思う どちらかとい えば思う 立川市に住み続けたいと思いますか? どちらかといえば思わない 思わない無回答合計 生誕からずっと 111 (71.6%) 38 (24.5%) 4 (2.6%) 2 (1.3%) 0 (0.0%) 年以上 284 (62.3%) 140 (30.7%) 13 (2.9%) 13 (2.9%) 6 (1.3%) ~20 年 96 (60.4%) 50 (31.4%) 11 (6.9%) 2 (1.3%) 0 (0.0%) 159 関連性の指標 2: 割合の比 ( 相対的指標 ) 10~13 年 74 (59.7%) 42 (33.9%) 4 (3.2%) 3 (2.4%) 1 (0.8%) 124 6~9 年 44 (48.4%) 35 (38.5%) 4 (4.4%) 5 (5.5%) 3 (3.3%) 91 ( 例 ) 生まれてからずっと立川市に住んでいる人のうち 住み続けたいと思う人の割合は 思わない人の割合より 55 倍大きい 3~5 年 36 (39.6%) 34 (37.4%) 12 (13.2%) 6 (6.6%) 3 (3.3%) 91 2 年以内 33 (40.2%) 29 (35.4%) 17 (20.7%) 2 (2.4%) 1 (1.2%) 82 無回答 12 (50.0%) 10 (41.7%) 0 (0.0%) 1 (4.2%) 1 (4.2%) 24 合計 平成 27 年度立川市市民満足度調査より 84

85 クロス表の落とし穴 年代 : 乳がん外科手術後のタモキシフェンの使用とがん再発の関係について [ 佐藤 (2008)] タモキシフェン 再発あり 再発なし 合計 使用 464 (18.2%) 2085 (81.8%) 2549 未使用 424 (18.0%) 1928 (82.0%) 2352 合計 再発割合の差 :0.2 ポイント タモキシフェンにはがん再発の予防効果がほとんどない? 85

86 タモキシフェン 使用 368 (30.3%) 未使用 253 (33.3%) クロス表の落とし穴 リンパ節転移の有無で層に分けてみる リンパ節転移あり リンパ節転移なし 再発あり再発なし合計再発あり再発なし合計 847 (69.7%) 507 (66.7%) (7.2%) (10.7%) 1238 (92.8%) 1421 (89.3%) 合計 再発割合の差 : 3 ポイント 再発割合の差 : 3.5 ポイント タモキシフェンにはがん再発の予防効果がある! 86

87 クロス表の落とし穴 各集団の人数がバラバラのため 結果が覆ってしまった リンパ節転移あり リンパ節転移なし タモキシフェン 再発あり再発なし合計再発あり再発なし合計 使用 368 (30.3%) 847 (69.7%) (7.2%) 1238 (92.8%) 1334 未使用 253 (33.3%) 507 (66.7%) (10.7%) 1421 (89.3%) 1592 リンパ節転移があるときタモキシフェンを使わないことは少ない リンパ節転移がないときタモキシフェンを使わないことが多い 未使用 の全データは リンパ節転移なしの集団の影響が強い よって全データを使用した場合 未使用 で再発しなかった割合が高く見積もられる 87

88 クロス表の落とし穴 各集団の人数がバラバラのため 結果が覆ってしまった タモキシフェン 仮に 各集団が 1000 人ずつだとすると リンパ節転移あり リンパ節転移なし 再発あり再発なし合計再発あり再発なし合計 使用 未使用 タモキシフェン 再発あり 再発なし 合計 使用 375 (18.8%) 1625 (81.3%) 2000 未使用 440 (22.0%) 1560 (78.0%) 2000 全体のクロス表でも 3.2 ポイントの再発割合の差がでる 88

89 シンプソンのパラドックス データのまとめ方によって結果が覆ってしまう現象を シンプソンのパラドックスという どのクロス表での結果を採用するかを決める 方法論はない タモキシフェンの例の場合 リンパ節転移の有無は再発に大きくかかわるため 層別した場合の結果が正しいと考えられる 各データの背景にある知見と照らし合わせて データを解釈することが大事 89

90 午前中のまとめ 記述統計学によるデータ要約の方法を解説した データ要約は データに対する人間の理解を助ける しかし要約により データの一部の情報が失われることは避けられない ヒストグラムや散布図により データを 見る ことが大事 その上で データが持つ重要な情報を落とさないよう 適切な要約方法を用いる 対象についての知見を学び 先入観や願望を捨てることが重要 90

91 1 日目の内容 午後 確率と統計 4. 確率と統計の基礎 確率変数 確率関数と確率密度関数 確率変数の期待値 分散 共分散 相関係数 5. 推測統計学の基礎 母集団と標本 大数の法則と中心極限定理 91

92 午前の話 記述統計学 記述統計学とはデータのもっている主要な特性をより鮮明に表現するために, データを要約したり作表をしたりすること一般を指す ( 統計科学事典, 清水良一訳 ) つまり特定の標本データの性質を調べるための統計学 棒グラフ, ヒストグラム, 散布図などを描く 平均, 中央値, 最頻値, 分散, 標準偏差などを求める 共分散, 相関係数などを求める 92

93 母集団と標本 何らかの特徴を得る対象となる全集団を母集団と呼ぶ ( 例 ) 日本人の成人男性の平均身長は? 母集団は日本人の成人男性全員 21 時の TV ニュースを視聴していた世帯の割合は? 母集団は全世帯の数 しかし 母集団の情報を完全に把握することは困難 母集団の数が非常に大きい場合 観測が困難な場合 93

94 母集団と標本 母集団の全体調査が不可能な場合 次のように母集団の性質を推定する 1. 母集団から一部を無作為に選ぶ これを標本と呼ぶ 2. 標本について統計的分析を行い 母集団の性質を推定する ここで用いる方法論を推測統計学と呼ぶ 94

95 母集団 母集団と標本 ランダムサンプリング 標本 推測統計学 母集団の統計的性質を標本から推定する 記述統計 標本データの性質 95

96 記述統計学から推測統計学へ 推測統計学において用いる 確率 統計の基礎についてまとめる 確率変数 確率関数と確率密度関数 確率変数の期待値 分散 共分散 相関係数 96

97 確率と確率変数 確率は不確実な事象の起こりやすさを表す 確率は 0 から 1 の間の実数で表され 各事象が起こる確率をすべて足し合わせると 1 となる 確率変数とは ある確率法則に従って値が決まる変数のこと 確率変数を + と表す 実際に決まった値( 実現値 ) をとする 確率変数がとりうる値の集合 ( 標本空間 ) を Ω と表記する 標本空間 Ωに含まれる値 5が実現する確率をPr (5) と表記する 97

98 確率と確率変数の例① 当たり Ω = 当たり, はずれ はずれ +の値を確率的に決める Pr + = 当たり = 8 Pr + = はずれ = 1 8 はずれ 確率変数の値の実現 98

99 確率と確率変数の例 2 コイン投げ サイコロ投げ 確率変数 + コインの向きサイコロの目 標本空間 Ω Ω = 表, 裏 Ω = 1,2,3,4,5,6 確率変数の値を決める方法 確率変数の値が従う確率法則 コインを投げる行為 Pr + = 表 = 1 2 Pr + = 裏 = 1 2 サイコロを投げる行為 Pr + = 1 = Pr + = 2 = Pr + = 3 = Pr + = 4 = Pr + = 5 = Pr + = 6 = 1 6 ここでは歪みのないコイン サイコロを考えます 99

100 確率変数の種類 離散型確率変数 とびとびの値をとる コイン投げや さいころ投げなどの整数値データ コイン投げの場合など 表を 1 裏を 0 として数値化する 確率変数がある値をとる確率は 確率関数により与えられる 連続型確率変数 とりうる値が連続的なもの 身長 体重などの実数値データ 確率変数がある範囲の値をとる確率は 確率密度関数により与えられる 100

101 確率変数の種類 離散型確率変数 とびとびの値をとる コイン投げや さいころ投げなどの整数値データ コイン投げの場合など 表を 1 裏を 0 として数値化する 確率変数がある値をとる確率は 確率関数により与えられる 連続型確率変数 とりうる値が連続的なもの 身長 体重などの実数値データ 確率変数がある範囲の値をとる確率は 確率密度関数により与えられる 101

102 確率関数 離散型確率変数の確率分布を表す関数 Ω =,,, : のとき : Pr + = = 8,, Pr + = : = 8 : 8 = 1 とする ; = 8, ; = 8, となる関数 ;( ) を確率関数と呼ぶ 0.6 コイン投げの確率関数 0.18 サイコロ投げの確率関数 ;( ) ;( )

103 確率関数 その他の例 2 つのサイコロを同時に投げて 出た目の和の確率関数 ;( )

104 平均と分散 平均 ( 期待値とも呼ぶ ) < : : : 分散 < : : : 8 : : 確率変数が ' 番目の値をとる確率 104

105 コイン投げの場合 平均と分散の例 > + = = 0.5? + = = 0.25 サイコロ投げの場合 > + = = 3.5? + = =

106 離散型一様分布 Ω =,, : } のとき ; =,, = ; : = 1/' となる 確率関数 ;( ) を離散型一様分布と呼ぶ 0.6 コイン投げの確率関数 0.18 サイコロ投げの確率関数 ;( ) ;( ) 確率変数 + の取り得る値の下限を A 上限を B とすると > + = A + B 2,? + = B A

107 ベルヌーイ分布 事象 A, B がそれぞれ確率 8, 1 8 で起こる離散確率分布 A= 裏, B= 表 A= 成功, B= 失敗 など コイン投げは8 = 0.5に対応する = 0.2 で 0( 失敗 ) 8 = 0.8 で 1( 成功 ) となる場合のベルヌーイ分布 このような事象を起こさせることをベルヌーイ試行と呼ぶ 107

108 ベルヌーイ試行を繰り返す 事象 A,B がそれぞれ確率 8, 1 8 で起こる ベルヌーイ試行を C 回繰り返すとき 事象 A が起こる回数 は確率変数である もちろん 事象 B が起こる回数 も確率変数である コイン投げの場合 確率変数 + = 表が出る回数 とすると Ω = 0, 1, 2,, C} ただし C 回の試行の独立性を仮定する C 回の試行は互いに影響されることなく 各試行で事象 A, B が起こる確率は常に 8 と 1 8 である 例えばバスケットボールのフリースローでは独立性が成り立たない 108

109 2 項分布 事象 A,Bがそれぞれ確率 8, 1 8で起こるベルヌーイ試行をC 回繰り返すとき 確率変数 事象 Aが起こる回数 は2 項分布に従う C - - <D- C 回の試行のうち回で事象 A が起こる場合の数 事象 A が回 事象 B が C 回起こる確率 期待値 :C8 分散 :C8(1 8) 109

110 2 項分布 C = 30 回のベルヌーイ試行を行う場合 ED = = ; ;

111 ポアソン分布 事象 A,B がそれぞれ確率 8, 1 8 で起こる ベルヌーイ試行を C 回繰り返すとき 確率変数 事象 A が起こる回数 は 2 項分布に従う 特に次の条件が成立するときを考える C が非常に大きい 8 と C の間に 8 = F/C という関係があり C が非常に大きいとき 8 は非常に小さい (1 回の試行で事象 A が起こることは稀である ) このとき 2 項分布はポアソン分布となる 111

112 ポアソン分布 - DG ;( ) ;( ) F = 5 F = 期待値 分散とも F である 112

113 二項分布の性質から の意味 事象 A の起こる回数の期待値は C8 8 が C と無関係な定数 (< 1) の場合 事象 A の起こる回数は試行回数 C に比例して増える 8 = F/C の場合 C8 = F なので C が大きくなっても事象 A は F 回程度しか起きない ポアソン分布は 1 回の試行で起きることは稀だが 試行回数 C が大きければ F 回くらいは起きる事象 A が 実際に C 回の試行で + 回起きる確率を表す 113

114 ポアソン分布の実例 プロイセン陸軍で馬に蹴られて死亡した兵士数 1875 年 ~1894 年の20 年間で馬に蹴られて死亡した兵士数の分布を 200 部隊に対して調べた 死亡兵士数 観測数 割合 [Bortkiewicz 1898] 114

115 ポアソン分布の実例 プロイセン陸軍で馬に蹴られて死亡した兵士数 [Bortkiewicz 1898] 確率 実際のデータ F = 0.61 のポアソン分布 死亡兵士数 F = 0.61 のポアソン分布で近似できる 115

116 ポアソン分布の実例 その他にも 一定の時間に起こるイベント数の分布 の モデルとして用いられる 交通事故の件数 製造ラインにおける不良品の数 1 時間あたりにかかってくる電話の数 1 日あたりのタクシーの乗客数 ある地域における1ヶ月あたりの胃がんによる死亡者数 ある期間に起こる M7 以上の地震の数 など 116

117 確率変数の種類 離散型確率変数 とびとびの値をとる コイン投げや さいころ投げなどの整数値データ コイン投げの場合など 表を 1 裏を 0 として数値化する 確率変数がある値をとる確率は 確率関数により与えられる 連続型確率変数 とりうる値が連続的なもの 身長 体重 時間などの実数値データ 確率変数がある範囲の値をとる確率は 確率密度関数により与えられる 117

118 確率密度関数 ( 例 ) 1000 人の社員が会社にやってくる時間を 1 万日調べた 1000 人 1 万日 は 以下の議論に十分な数 という程度の意味です 0.8 社員の出社時刻のヒストグラム (15 分刻み ) 割合 出社時刻ー始業時刻 ( 分 ) 118

119 確率密度関数 階級の刻み幅を小さくしていく 3 分刻み 0.03 分刻み 出社時刻ー始業時刻 ( 分 ) 出社時刻ー始業時刻 ( 分 ) 刻み幅を小さくすると ヒストグラムは データの相対頻度を表す関数 へ収束 119

120 確率密度関数 連続型確率変数において ヒストグラムの刻みを無限に小さくする極限により定義される関数を確率密度関数という 確率 そのものではないが それに似た性質を持つ 連続型確率変数において ある値を持つ確率は定義できない ある範囲をとる確率は定義できる 例えば 確率変数がA 以上 B 以下の値をとる確率は Pr A + B = J K 8 確率変数がとり得る値の範囲全体で積分すると 1 になる M L 120

121 平均と分散 平均 - NOP - NQR 分散 - NOP - NQR ST:+ のとりうる最小値 UV:+ のとりうる最大値 121

122 連続型一様分布 1 8 = WB A A Bのとき 0 それ以外のとき 0.1 A = 0, B = 10 の一様分布 平均値 分散

123 正規分布 X = 40, Y = 3 平均値 X = 30, Y = 5 X = 50, Y = 10 分散

124 標準正規分布 平均値 : > + = 0 分散 :? + = 平均 0, 分散 1 の正規分布を標準正規分布と呼ぶ 正規分布に従う確率変数 + を標準化すると, それは標準正規分布に従う 124

125 正規分布の性質 平均 (X) ± 標準偏差 Y の範囲に約 68% が収まる X Y X X + Y 125

126 正規分布の性質 平均 (X) ± 2 標準偏差 Y の範囲に約 95% が収まる X 2Y X X + 2Y 126

127 シグマ区間 区間 確率 (%) 1Y Y Y Y Y Y Y Y Y

128 同時確率分布と周辺確率分布 複数の確率変数に関する確率分布 +,, という 2 種類の確率変数の組の 同時確率分布を 8(, /) と表記する 周辺確率分布. NOP - NOP 8 - = J K/ 8, / 8. / = J K 8, /. NQR + と, が互いに独立な場合には 同時確率分布は 8(, /) = 8-8. (/) となる 特に +,, が相関している場合を考える - NQR 128

129 共分散と相関 共分散 [ \ 相関係数 129

130 独立 と 無相関 ,, = , のとき + と, は独立である このとき > +, = > + >[,] 2. COV +,, = 0 であるとき + と, は無相関である 独立であれば無相関 > +, > + >, = 0 なので COV +,, = 0 無相関のとき独立であるとは限らない > +,, = 0 かつ > +, >, の少なくともどちらか 1 つが 0 の場合 + と, は独立でなくても無相関となりうる 130

131 無相関だが独立でない例 8(1,0) = 8(2,1) = 8(2, 1) = 1/3 それ以外の8(+,,) は0の場合 周辺分布 8 - (1) = 1/3, 8 - (2) = 2/3 よって >[+] = 5/3 8. (0) = 8. (1) = 8. ( 1) = 1/3 よって >[,] = 0 / COV +,, = ( ) 0 = 0 なので無相関 しかし 8 +,, (,) なので独立ではない 131

132 , / の二変量正規分布 2 変量正規分布 1 8, / = 2cY - Y. 1 d 1 ( X - ) exp 2 1 d 2d( X -)(/ X. ) + (/ X.) Y - Y - Y. Y. 周辺化分布はガウス分布となる d: 相関係数 h 8 - = J K/ 8, / Dh h 8. / = J K/ 8, / Dh = = 1 2cY exp X - - 2Y - 1 exp X. 2Y 2cY.. 132

133 2 変量正規分布の立体図 (, /) / X - = 0, Y - = 1, X. = 0, Y. = 1, d =

134 2 変量正規分布の等高線 d = 0 d = 0.4 d = / 0 / /

135 1 日目の内容 午後 確率と統計 4. 確率と統計の基礎 確率変数 確率関数と確率密度関数 確率変数の期待値 分散 共分散 相関係数 5. 推測統計学の基礎 母集団と標本 大数の法則と中心極限定理 135

136 母集団 母集団と標本 ランダムサンプリング 標本 推測統計学 母集団の統計的性質を標本から推定する 記述統計 標本データの性質 136

137 推測統計学の基礎 母集団C人(くじ引きに参加した人) 当選確率は8です 1 8 はずれ 8 当たり + 本当 当たった人の人数iは 二項分布に従う j <Dj C j 平均C8, 分散C8(1 8) 137

138 推測統計学の基礎 母集団の全数調査が困難である場合に 標本を用いて母集団の統計的性質を推測する 母集団 C 人 標本 ランダムサンプリング 真実 ( 直接観測できない ) 当たった人の人数 i は 二項分布に従う C j j <Dj 観測事実 推測統計学 平均 C8, 分散 C8(1 8) 138

139 母数と標本統計量 母数 母集団の平均 分散 相関係数など ( 本当に知りたい情報 ) 標本統計量 標本データの平均 分散 相関係数などを得る計算式のこと 特定の標本データを当てはめたものを標本統計量の実現値という ( 例 ) 標本平均の場合 標本統計量 : + +,, + = 1 + 標本統計量の実現値 : = +,, = 1 139

140 次の表記を用いる 母数と標本統計量 母集団 ( 母数 ) 平均 X 標本 ( 標本統計量の実現値 ) 標準偏差 Y! 相関係数 d 0 140

141 推測統計学の基礎 当たりを + = 1, はずれを + = 0 とする 標本平均を + = 1 とする + 母集団 (C 人 ) = 標本 ( 人 ) Ck 通りの選び方がある = = 0.5 標本平均は確率変数である 141

142 記述統計量 記述統計量と標本統計量の違い 得られたデータそのものの分布の特徴を要約するための統計量 個々のデータが確率的にばらつくものだとは考えていない 標本統計量 得られたデータは 母集団から得られたサンプルである 個々のデータは確率的にばらつくものだと仮定しており 統計量もそれに従ってばらつく 母集団についての推測を行うための統計量 142

143 標本平均の分布 8 = 0.2 の場合 0.35 = 10 = 100 = 標本サイズ が大きくなるにつれて 真の 8 に収束していく 143

144 標本平均の分散の標本サイズ依存性 8 = 0.2 の場合 ? 傾き 8(1 8) / 標本平均の分散は 1/ に比例して小さくなる 144

145 大数の法則 標本平均に関する性質 確率変数 +, +,, + が独立に同一の分布に従うとする >[+] = Xとする 大数の法則 を大きくしていくと 標本平均は確率 1 で X に収束する 標本のサイズを大きくしていくと 標本平均は母集団における平均値に必ず一致する 145

146 中心極限定理 標本統計量の分布そのものの特徴に関する重要な定理 確率変数 +, +,, + が独立に同一の分布に従うとする >[+] = X,?[+] = Y とする 中心極限定理 を大きくすると 正規分布に従う + は平均 X, 分散 Y / の 標本平均が従う確率分布は 標本サイズが大きいとき 正規分布で近似でき その平均は母集団の平均と一致 146

147 中心極限定理 母集団 (C 人 ) 標本 ( 人 ) 真実 当たった人の人数 i = + は平均 C8, 分散 C8(1 8) の二項分布に従う 中心極限定理 (C ) 当たった人の割合 + = < < 平均 8, 分散 8(1 8)/C の 正規分布に従う < + は 観測事実 + = 1 + 中心極限定理より標本平均 + は が大きいとき 平均 8, 分散 8(1 8)/ の正規分布に従う 147

148 不偏推定量 標本統計量の期待値が母数に一致するとき その標本統計量を不偏推定量と呼ぶ 標本平均は 母集団の平均の不偏推定量である 次のように定義される標本分散は 母集団の分散の不偏推定量である! +,, + =

149 不偏分散 標本サイズ の代わりに自由度 1 で割った分散を 不偏分散とよぶ > + = 0なので, 分散を計算するときに使っている 自由な 情報は 1 個である したがって, 1で割る より詳しい説明については, 以下を参照のこと統計的方法のしくみ 正しく理解するための 30 の急所, 永田靖 ( 著 ), 日科技連出版社 記述統計においても不偏分散を用いる場合がある 149

150 まとめ 記述統計学 与えられたデータそのものの統計的性質の把握を目標とする 推測統計学 与えられたデータ ( 標本 : 観測事実 ) の背後にある母集団 ( 真実 ) の統計的性質を 標本の統計的性質から推測する その際に用いる数学的ツールは確率論である 推測統計学の基本である 推定 と 検定 については 2 日目以降の講義で扱う 150

151 EXCEL: 記述統計量を求める関数 平均 :AVERAGE 中央値 :MEDIAN 最頻値 :MODE.SNGL 分散 :VARP(nで割った分散) 不偏分散 :VAR(n-1で割った分散) 標準偏差 :STDEV.P(nで割った標準偏差) 標準偏差 : STDEV.S(n-1で割った標準偏差 ) 共分散 :COVARIANCE.P(n-1で割った共分散) 共分散 :COVARIANCE.S(n-1で割った分散) 相関係数 :CORREL 四分位数 :QUARTILE.INC 標準化 基準化 :STANDARDIZE

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378> 高等学校学習指導要領解説数学統計関係部分抜粋 第 部数学第 2 章各科目第 節数学 Ⅰ 3 内容と内容の取扱い (4) データの分析 (4) データの分析統計の基本的な考えを理解するとともに, それを用いてデータを整理 分析し傾向を把握できるようにする アデータの散らばり四分位偏差, 分散及び標準偏差などの意味について理解し, それらを用いてデータの傾向を把握し, 説明すること イデータの相関散布図や相関係数の意味を理解し,

More information

Microsoft PowerPoint - 基礎・経済統計6.ppt

Microsoft PowerPoint - 基礎・経済統計6.ppt . 確率変数 基礎 経済統計 6 確率分布 事象を数値化したもの ( 事象ー > 数値 の関数 自然に数値されている場合 さいころの目 量的尺度 数値化が必要な場合 質的尺度, 順序的尺度 それらの尺度に数値を割り当てる 例えば, コインの表が出たら, 裏なら 0. 離散確率変数と連続確率変数 確率変数の値 連続値をとるもの 身長, 体重, 実質 GDP など とびとびの値 離散値をとるもの 新生児の性別

More information

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 ) データの分析 データの整理右の度数分布表は,A 高校の 0 人について, 日にみたテレビの時間を記入したものである 次の問いに答えよ () テレビをみた時間が 85 分未満の生徒は何人いるか () テレビをみた時間が 95 分以上の生徒は全体の何 % であるか (3) 右の度数分布表をもとにして, ヒストグラムをかけ 階級 ( 分 ) 階級値度数相対 ( 分 ) ( 人 ) 度数 55 以上 ~65

More information

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Excelによる統計分析検定_知識編_小塚明_1_4章.indd 第2章 1 変量データのまとめ方 本章では, 記述統計の手法について説明します 具体的には, 得られたデータから表やグラフを作成し, 意昧のある統計量を算出する方法など,1 変量データのまとめ方について学びます 本章から理解を深めるための数式が出てきますが, 必ずしも, これらの式を覚える必要はありません それぞれのデータの性質や統計量の意義を理解することが重要です 円グラフと棒グラフ 1 変量質的データをまとめる方法としてよく使われるグラフは,

More information

Microsoft Word - lec_student-chp3_1-representative

Microsoft Word - lec_student-chp3_1-representative 1. はじめに この節でのテーマ データ分布の中心位置を数値で表す 可視化でとらえた分布の中心位置を数量化する 平均値とメジアン, 幾何平均 この節での到達目標 1 平均値 メジアン 幾何平均の定義を書ける 2 平均値とメジアン, 幾何平均の特徴と使える状況を説明できる. 3 平均値 メジアン 幾何平均を計算できる 2. 特性値 集めたデータを度数分布表やヒストグラムに整理する ( 可視化する )

More information

Microsoft PowerPoint slide2forWeb.ppt [互換モード]

Microsoft PowerPoint slide2forWeb.ppt [互換モード] 講義内容 9..4 正規分布 ormal dstrbuto ガウス分布 Gaussa dstrbuto 中心極限定理 サンプルからの母集団統計量の推定 不偏推定量について 確率変数, 確率密度関数 確率密度関数 確率密度関数は積分したら. 平均 : 確率変数 分散 : 例 ある場所, ある日時での気温の確率. : 気温, : 気温 が起こる確率 標本平均とのアナロジー 類推 例 人の身長の分布と平均

More information

EBNと疫学

EBNと疫学 推定と検定 57 ( 復習 ) 記述統計と推測統計 統計解析は大きく 2 つに分けられる 記述統計 推測統計 記述統計 観察集団の特性を示すもの 代表値 ( 平均値や中央値 ) や ばらつきの指標 ( 標準偏差など ) 図表を効果的に使う 推測統計 観察集団のデータから母集団の特性を 推定 する 平均 / 分散 / 係数値などの推定 ( 点推定 ) 点推定値のばらつきを調べる ( 区間推定 ) 検定統計量を用いた検定

More information

Microsoft PowerPoint - データ解析基礎2.ppt

Microsoft PowerPoint - データ解析基礎2.ppt データ解析基礎. 度数分布と特性値 keyword データの要約 度数分布表, ヒストグラム 分布の中心を表す基本統計量 平均, 最頻値, 中央値 分布のばらつきを表す統計量 分散, 標準偏差 統計データの構造 - データ解析の目的 具体的な対象 ( 母集団 ) についての調査結果 ( 標本をどう加工 処理し, 有益な情報を引き出すかである. 加工 処理するための調査結果として, データ ( 観測データ

More information

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード] データ解析基礎. 正規分布と相関係数 keyword 正規分布 正規分布の性質 偏差値 変数間の関係を表す統計量 共分散 相関係数 散布図 正規分布 世の中の多くの現象は, 標本数を大きくしていくと, 正規分布に近づいていくことが知られている. 正規分布 データ解析の基礎となる重要な分布 平均と分散によって特徴づけることができる. 平均値 : 分布の中心を表す値 分散 : 分布のばらつきを表す値 正規分布

More information

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C> 統計の種類 統計学 データの種類データのグラフ化中心を表す特性値 記述統計母集団 ( 調査対象の集団 ) をすべて調査でき その調査結果に基づき データをまとめる統計 推測統計母集団 ( 調査対象の集団 ) をすべて調査できないが 一部のデータから母集団の状況を推測する統計 外れ値 データの中には 他の観測値に比べて著しく離れた値が含まれている場合があります ( 入力ミスではなく ) このような値のことを外れ値といいます

More information

散布度

散布度 散布度 統計基礎の補足資料 2018 年 6 月 18 日金沢学院大学経営情報学部藤本祥二 基本統計量 基本統計量 : 分布の特徴を表す数値 代表値 ( 分布の中心を表す数値 ) 平均値 (mean, average) 中央値 (median) 最頻値 (mode) 散布度 ( 分布のばらつき具合を表す数値 ) 分散 (variance) 標準偏差 (standard deviation) 範囲 (

More information

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード] データ解析基礎. 度数分布と特性値 keyword データの要約 度数分布表, ヒストグラム 分布の中心を表す基本統計量 平均, 最頻値, 中央値 分布のばらつきを表す統計量 分散, 標準偏差 統計データの構造 - データ解析の目的 具体的な対象 ( 母集団 ) についての調査結果 ( 標本をどう加工 処理し, 有益な情報を引き出すかである. 加工 処理するための調査結果として, データ ( 観測データ

More information

講義「○○○○」

講義「○○○○」 講義 信頼度の推定と立証 内容. 点推定と区間推定. 指数分布の点推定 区間推定 3. 指数分布 正規分布の信頼度推定 担当 : 倉敷哲生 ( ビジネスエンジニアリング専攻 ) 統計的推測 標本から得られる情報を基に 母集団に関する結論の導出が目的 測定値 x x x 3 : x 母集団 (populaio) 母集団の特性値 統計的推測 標本 (sample) 標本の特性値 分布のパラメータ ( 母数

More information

経営統計学

経営統計学 5 章基本統計量 3.5 節で量的データの集計方法について簡単に触れ 前章でデータの分布について学びましたが データの特徴をつの数値で示すこともよく行なわれます これは統計量と呼ばれ 主に分布の中心や拡がりなどを表わします この章ではよく利用される分布の統計量を特徴で分類して説明します 数式表示を統一的に行なうために データの個数を 個とし それらを,,, と表わすことにします ここで学ぶ統計量は統計分析の基礎となっており

More information

_KyoukaNaiyou_No.4

_KyoukaNaiyou_No.4 理科教科内容指導論 I : 物理分野 物理現象の定量的把握第 4 回 ( 実験 ) データの眺め ~ 統計学の基礎続き 統計のはなし 基礎 応 娯楽 (Best selected business books) 村平 科技連出版社 1836 円 前回の復習と今回以降の 標 東京 学 善 郎 Web サイトより データ ヒストグラム 代表値 ( 平均値 最頻値 中間値 ) 分布の散らばり 集団の分布

More information

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均 第 3 回講義の項目と概要 016.8.9 1.3 統計的手法入門 : 品質のばらつきを解析する 1.3.1 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均 :AVERAGE 関数, 標準偏差 :STDEVP 関数とSTDEVという関数 1 取得したデータそのものの標準偏差

More information

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散,

母平均 母分散 母標準偏差は, が連続的な場合も含めて, すべての個体の特性値 のすべての実現値 の平均 分散 標準偏差であると考えてよい 有限母集団で が離散的な場合, まさにその意味になるが, そうでない場合も, このように理解してよい 5 母数 母集団から定まる定数のこと 母平均, 母分散, . 無作為標本. 基本的用語 推測統計における基本的な用語を確認する 母集団 調査の対象になる集団のこと 最終的に, 判断の対象になる集団である 母集団の個体 母集団を構成する つ つのもののこと 母集団は個体の集まりである 個体の特性値 個体の特性を表す数値のこと 身長や体重など 特性値は, 変量ともいう 4 有限母集団と無限母集団 個体の個数が有限の母集団を 有限母集団, 個体の個数が無限の母集団を

More information

基礎統計

基礎統計 基礎統計 第 11 回講義資料 6.4.2 標本平均の差の標本分布 母平均の差 標本平均の差をみれば良い ただし, 母分散に依存するため場合分けをする 1 2 3 分散が既知分散が未知であるが等しい分散が未知であり等しいとは限らない 1 母分散が既知のとき が既知 標準化変量 2 母分散が未知であり, 等しいとき 分散が未知であるが, 等しいということは分かっているとき 標準化変量 自由度 の t

More information

Microsoft PowerPoint - stat-2014-[9] pptx

Microsoft PowerPoint - stat-2014-[9] pptx 統計学 第 17 回 講義 母平均の区間推定 Part-1 014 年 6 17 ( )6-7 限 担当教員 : 唐渡 広志 ( からと こうじ ) 研究室 : 経済学研究棟 4 階 43 号室 email: kkarato@eco.u-toyama.ac.j website: htt://www3.u-toyama.ac.j/kkarato/ 1 講義の目的 標本平均は正規分布に従うという性質を

More information

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - statistics pptx 統計学 第 17 回 講義 母平均の区間推定 Part- 016 年 6 14 ( )3 限 担当教員 : 唐渡 広志 ( からと こうじ ) 研究室 : 経済学研究棟 4 階 43 号室 email: kkarato@eco.u toyama.ac.jp website: http://www3.u toyama.ac.jp/kkarato/ 1 講義の目的 標本平均は正規分布に従うという性質を

More information

情報工学概論

情報工学概論 確率と統計 中山クラス 第 11 週 0 本日の内容 第 3 回レポート解説 第 5 章 5.6 独立性の検定 ( カイ二乗検定 ) 5.7 サンプルサイズの検定結果への影響練習問題 (4),(5) 第 4 回レポート課題の説明 1 演習問題 ( 前回 ) の解説 勉強時間と定期試験の得点の関係を無相関検定により調べる. データ入力 > aa

More information

Microsoft PowerPoint ppt

Microsoft PowerPoint ppt 情報科学第 07 回データ解析と統計代表値 平均 分散 度数分布表 1 本日の内容 データ解析とは 統計の基礎的な値 平均と分散 度数分布表とヒストグラム 講義のページ 第 7 回のその他の欄に 本日使用する教材があります 171025.xls というファイルがありますので ダウンロードして デスクトップに保存してください 2/45 はじめに データ解析とは この世の中には多くのデータが溢れています

More information

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成 講義ノート p.1 前回の復習 尺度について数字には情報量に応じて 4 段階の種類がある名義尺度順序尺度 : 質的データ間隔尺度比例尺度 : 量的データ 尺度によって利用できる分析方法に差異がある SPSS での入力の練習と簡単な操作の説明 変数ビューで変数を設定 ( 型や尺度に注意 ) fig. 変数ビュー データビューでデータを入力 fig. データビュー 講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する

More information

Microsoft Word - 保健医療統計学112817完成版.docx

Microsoft Word - 保健医療統計学112817完成版.docx 講義で使用するので テキスト ( 地域診断のすすめ方 ) を必ず持参すること 5 4 統計処理のすすめ方 ( テキスト P. 134 136) 1. 6つのステップ 分布を知る ( 度数分布表 ヒストグラム ) 基礎統計量を求める Ø 代表値 Ø バラツキ : 範囲 ( 最大値 最小値 四分位偏位 ) 分散 標準偏差 標準誤差 集計する ( 単純集計 クロス集計 ) 母集団の情報を推定する ( 母平均

More information

Microsoft PowerPoint - sc7.ppt [互換モード]

Microsoft PowerPoint - sc7.ppt [互換モード] / 社会調査論 本章の概要 本章では クロス集計表を用いた独立性の検定を中心に方法を学ぶ 1) 立命館大学経済学部 寺脇 拓 2 11 1.1 比率の推定 ベルヌーイ分布 (Bernoulli distribution) 浄水器の所有率を推定したいとする 浄水器の所有の有無を表す変数をxで表し 浄水器をもっている を 1 浄水器をもっていない を 0 で表す 母集団の浄水器を持っている人の割合をpで表すとすると

More information

スライド 1

スライド 1 データ解析特論重回帰分析編 2017 年 7 月 10 日 ( 月 )~ 情報エレクトロニクスコース横田孝義 1 ( 単 ) 回帰分析 単回帰分析では一つの従属変数 ( 目的変数 ) を 一つの独立変数 ( 説明変数 ) で予測する事を考える 具体的には y = a + bx という回帰直線 ( モデル ) でデータを代表させる このためにデータからこの回帰直線の切片 (a) と傾き (b) を最小

More information

様々なミクロ計量モデル†

様々なミクロ計量モデル† 担当 : 長倉大輔 ( ながくらだいすけ ) この資料は私の講義において使用するために作成した資料です WEB ページ上で公開しており 自由に参照して頂いて構いません ただし 内容について 一応検証してありますが もし間違いがあった場合でもそれによって生じるいかなる損害 不利益について責任を負いかねますのでご了承ください 間違いは発見次第 継続的に直していますが まだ存在する可能性があります 1 カウントデータモデル

More information

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - statistics pptx 統計学 第 16 回 講義 母平均の区間推定 Part-1 016 年 6 10 ( ) 1 限 担当教員 : 唐渡 広志 ( からと こうじ ) 研究室 : 経済学研究棟 4 階 43 号室 email: kkarato@eco.u-toyama.ac.jp website: http://www3.u-toyama.ac.jp/kkarato/ 1 講義の目的 標本平均は正規分布に従うという性質を

More information

3章 度数分布とヒストグラム

3章 度数分布とヒストグラム 3 章度数分布とヒストグラム データの中の分析 ( 記述統計 ) であれ データの外への推論 ( 推測統計 ) であれ まず データの持つ基本的特性を把握することが重要である 1 分析の流れ データの分布 ( 散らばり ) を 度数分布表にまとめ グラフ化する 3 章 グラフに 平均値や分散など 分布の特徴を示す客観的な数値を加える 4 5 6 章 データが母集団からのランダムサンプルならば 母集団についての推測を行う

More information

3章 度数分布とヒストグラム

3章 度数分布とヒストグラム 度数分布とヒストグラム データとは 複雑な確率ゲームから生まれたと考えてよい データ分析の第一歩として データの持つ基本的特性を把握することが重要である 分析の流れ データの分布 ( 散らばり ) を 度数分布表にまとめ グラフ化する グラフに 平均値や分散など 分布の特徴を示す客観的な数値を加える データが母集団からのランダムサンプルならば 母集団についての推測を行う 度数分布とヒストグラムの作成

More information

第4回

第4回 Excel で度数分布表を作成 表計算ソフトの Microsoft Excel を使って 度数分布表を作成する場合 関数を使わなくても 四則演算(+ */) だけでも作成できます しかし データ数が多い場合に度数を求めたり 度数などの合計を求めるときには 関数を使えばデータを処理しやすく なります 度数分布表の作成で使用する関数 合計は SUM SUM( 合計を計算する ) 書式 :SUM( 数値数値

More information

スライド 1

スライド 1 データ解析特論第 10 回 ( 全 15 回 ) 2012 年 12 月 11 日 ( 火 ) 情報エレクトロニクス専攻横田孝義 1 終了 11/13 11/20 重回帰分析をしばらくやります 12/4 12/11 12/18 2 前回から回帰分析について学習しています 3 ( 単 ) 回帰分析 単回帰分析では一つの従属変数 ( 目的変数 ) を 一つの独立変数 ( 説明変数 ) で予測する事を考える

More information

Microsoft PowerPoint - statistics pptx

Microsoft PowerPoint - statistics pptx 統計学 第 回 講義 仮説検定 Part-3 06 年 6 8 ( )3 限 担当教員 唐渡 広志 ( からと こうじ ) 研究室 経済学研究棟 4 階 43 号室 email kkarato@eco.u-toyama.ac.j webite htt://www3.u-toyama.ac.j/kkarato/ 講義の目的 つの 集団の平均 ( 率 ) に差があるかどうかを検定する 法を理解します keyword:

More information

【指導のポイント】

【指導のポイント】 教材 -B-() の解答資料の活用 分析 さいひんち 度数 最頻値 の解決のために さいひんち最頻値の相対度数の求め方 説明文 相対度数は ( 相対度数 )=( 最頻値の階級の度数 ) ( ( ア ) ) で求めることができる 最頻値の階級の度数は ( イ ), ( ア ) は, ( ウ ) であるから求める ( イ ) 相対度数は, =.9 となる ( ウ ) ( ア ) 度数の合計 ( イ )

More information

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る

確率分布 - 確率と計算 1 6 回に 1 回の割合で 1 の目が出るさいころがある. このさいころを 6 回投げたとき,1 度も 1 の目が出ない確率を求めよ. 5 6 /6 6 =15625/46656= (5/6) 6 = ある市の気象観測所での記録では, 毎年雨の降る 確率分布 - 確率と計算 6 回に 回の割合で の目が出るさいころがある. このさいころを 6 回投げたとき 度も の目が出ない確率を求めよ. 5 6 /6 6 =565/46656=.48 (5/6) 6 =.48 ある市の気象観測所での記録では 毎年雨の降る日と降らない日の割合は概ね :9 で一定している. 前日に発表される予報の精度は 8% で 残りの % は実際とは逆の天気を予報している.

More information

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー 社会人のためのデータサイエンス演習第 2 週 : 分析の概念と事例第 1 回 :Analysis( 分析 ) とは講師名 : 今津義充 1 講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデータ分析基礎

More information

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2 春学期統計学 I データの整理 : 度数分布 標本分散 等 担当 : 長倉大輔 ( ながくらだいすけ ) 1 データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの

More information

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63> 第 4 回二項分布, ポアソン分布, 正規分布 実験計画学 009 年 月 0 日 A. 代表的な分布. 離散分布 二項分布大きさ n の標本で, 事象 Eの起こる確率を p とするとき, そのうち x 個にEが起こる確率 P(x) は二項分布に従う. 例さいころを 0 回振ったときに の出る回数 x の確率分布は二項分布に従う. この場合, n = 0, p = 6 の二項分布になる さいころを

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 総務省 ICTスキル総合習得教材 概要版 eラーニング用 [ コース3] データ分析 3-3: 基本統計量 クロス集計表の作成 [ コース1] データ収集 [ コース2] データ蓄積 [ コース3] データ分析 [ コース4] データ利活用 1 2 3 4 5 座学実習紹介[3] ピボットテーブルとクロス集計表 本講座の学習内容 (3-3: 基本統計量 クロス集計表の作成 ) 講座概要 数値データの尺度に基づく

More information

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft PowerPoint - 測量学.ppt [互換モード] 8/5/ 誤差理論 測定の分類 性格による分類 独立 ( な ) 測定 : 測定値がある条件を満たさなければならないなどの拘束や制約を持たないで独立して行う測定 条件 ( 付き ) 測定 : 三角形の 3 つの内角の和のように, 個々の測定値間に満たすべき条件式が存在する場合の測定 方法による分類 直接測定 : 距離や角度などを機器を用いて直接行う測定 間接測定 : 求めるべき量を直接測定するのではなく,

More information

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て

森林水文 水資源学 2 2. 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 1 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,10 年に 1 回の渇水を対象として計画が立て . 水文統計 豪雨があった時, 新聞やテレビのニュースで 50 年に一度の大雨だった などと報告されることがある. 今争点となっている川辺川ダムは,80 年に 回の洪水を想定して治水計画が立てられている. 畑地かんがいでは,0 年に 回の渇水を対象として計画が立てられる. このように, 水利構造物の設計や, 治水や利水の計画などでは, 年に 回起こるような降雨事象 ( 最大降雨強度, 最大連続干天日数など

More information

Microsoft Word - Stattext07.doc

Microsoft Word - Stattext07.doc 7 章正規分布 正規分布 (ormal dstrbuto) は 偶発的なデータのゆらぎによって生じる統計学で最も基本的な確率分布です この章では正規分布についてその性質を詳しく見て行きましょう 7. 一般の正規分布正規分布は 平均と分散の つの量によって完全に特徴付けられています 平均 μ 分散 の正規分布は N ( μ, ) 分布とも書かれます ここに N は ormal の頭文字を 表わしています

More information

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル 春学期統計学 I 記述統計と推測統計 担当 : 長倉大輔 ( ながくらだいすけ ) 1 本日の予定 本日はまず記述統計と推測統計の違い 推測統計学の基本的な構造について説明します 2 記述統計と推測統計 統計学とは? 与えられたデータの背後にある 特性 法則 を 検証 発見 分析 するための手法の開発 その応用などに関わる学問の事です 3 記述統計と推測統計 データの種類 データの種類はおおまかに

More information

学習指導要領

学習指導要領 (1) 数と式 ア数と集合 ( ア ) 実数数を実数まで拡張する意義を理解し 簡単な無理数の四則計算をすること 絶対値の意味を理解し適切な処理することができる 例題 1-3 の絶対値をはずせ 展開公式 ( a + b ) ( a - b ) = a 2 - b 2 を利用して根号を含む分数の分母を有理化することができる 例題 5 5 + 2 の分母を有理化せよ 実数の整数部分と小数部分の表し方を理解している

More information

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順 SPSS 講習会テキスト 明治大学教育の情報化推進本部 IZM20140527 目次 1 章 SPSS の基礎 基本... 3 1.1 はじめに... 3 1.2 基本操作方法... 3 2 章データの編集... 6 2.1 はじめに... 6 2.2 値ラベルの利用... 6 2.3 計算結果に基づく新変数の作成... 7 2.4 値のグループ化... 8 2.5 値の昇順 降順... 10 3

More information

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション 1/X Chapter 9: Linear correlation Cohen, B. H. (2007). In B. H. Cohen (Ed.), Explaining Psychological Statistics (3rd ed.) (pp. 255-285). NJ: Wiley. 概要 2/X 相関係数とは何か 相関係数の数式 検定 注意点 フィッシャーのZ 変換 信頼区間 相関係数の差の検定

More information

夏期講習高 センター数学 ⅠA テキスト第 講 [] 人の生徒に数学のテストを行った 次の表 は, その結果である ただし, 表 の数値はすべて正確な値であるとして解答せよ 表 数学のテストの得点 次

夏期講習高 センター数学 ⅠA テキスト第 講 [] 人の生徒に数学のテストを行った 次の表 は, その結果である ただし, 表 の数値はすべて正確な値であるとして解答せよ 表 数学のテストの得点 次 夏期講習高 センター数学 ⅠA テキスト第 講 第 講 三角比 データの分析 ABC は AB=,BC=,AC= を満たす ⑴ cos B= アイ である 辺 BC 上に点 D を取り, ABD の外接円の半径を R とするとき, AD R = ウであり, 点 D を点 B から点 C まで移動させるとき,R の最小値はエである ただし, 点 D は点 B とは異なる点とする ⑵ ABD の外接円の中心が辺

More information

ビジネス統計 統計基礎とエクセル分析 正誤表

ビジネス統計 統計基礎とエクセル分析 正誤表 ビジネス統計統計基礎とエクセル分析 ビジネス統計スペシャリスト エクセル分析スペシャリスト 公式テキスト正誤表と学習用データ更新履歴 平成 30 年 5 月 14 日現在 公式テキスト正誤表 頁場所誤正修正 6 知識編第 章 -3-3 最頻値の解説内容 たとえば, 表.1 のデータであれば, 最頻値は 167.5cm というたとえば, 表.1 のデータであれば, 最頻値は 165.0cm ということになります

More information

数値計算法

数値計算法 数値計算法 008 4/3 林田清 ( 大阪大学大学院理学研究科 ) 実験データの統計処理その 誤差について 母集団と標本 平均値と標準偏差 誤差伝播 最尤法 平均値につく誤差 誤差 (Error): 真の値からのずれ 測定誤差 物差しが曲がっていた 測定する対象が室温が低いため縮んでいた g の単位までしかデジタル表示されない計りで g 以下 計りの目盛りを読み取る角度によって値が異なる 統計誤差

More information

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft PowerPoint - e-stat(OLS).pptx 経済統計学 ( 補足 ) 最小二乗法について 担当 : 小塚匡文 2015 年 11 月 19 日 ( 改訂版 ) 神戸大学経済学部 2015 年度後期開講授業 補足 : 最小二乗法 ( 単回帰分析 ) 1.( 単純 ) 回帰分析とは? 標本サイズTの2 変数 ( ここではXとY) のデータが存在 YをXで説明する回帰方程式を推定するための方法 Y: 被説明変数 ( または従属変数 ) X: 説明変数

More information

Microsoft PowerPoint - Statistics[B]

Microsoft PowerPoint - Statistics[B] 講義の目的 サンプルサイズの大きい標本比率の分布は正規分布で近似できることを理解します 科目コード 130509, 130609, 110225 統計学講義第 19/20 回 2019 年 6 月 25 日 ( 火 )6/7 限 担当教員 : 唐渡広志 ( からと こうじ ) 研究室 : email: website: 経済学研究棟 4 階 432 号室 kkarato@eco.u-toyama.ac.jp

More information

統計学 Ⅱ8-9 章 確率分布 確率の条件 8 ページ p: 確率関数 p は の関数とみなせる 確率分布 : すべてのに関する = または p の分布 グラフや表で表わすことが多い サイコロの例 : 計 縦軸は p または = 棒の幅は 線 確率 p.. = / / / / / / サイコロの目の

統計学 Ⅱ8-9 章 確率分布 確率の条件 8 ページ p: 確率関数 p は の関数とみなせる 確率分布 : すべてのに関する = または p の分布 グラフや表で表わすことが多い サイコロの例 : 計 縦軸は p または = 棒の幅は 線 確率 p.. = / / / / / / サイコロの目の 統計学 Ⅱ8-9 章 章確率と確率分布. 確率変数と離散的確率分布 確率変数 確率分布. 確率変数の平均と分散 確率変数 の平均と期待値 確率変数 の分散 期待値の性質 期待値の一般的な定義 基準化確率変数 歪度 尖度. 同時確率 周辺確率 条件付確率 項確率モデル 同時確率と同時確率分布 周辺確率 一般的な場合の同時確率 周辺確率 条件付確率 ベイズの定理. つの確率変数の平均 分散 共分散 変数の関数の期待値

More information

テレビ学習メモ 数学 Ⅰ 第 40 回 第 5 章データの分析 相関係数 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します 相関係数は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータの相関関係を

テレビ学習メモ 数学 Ⅰ 第 40 回 第 5 章データの分析 相関係数 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します 相関係数は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータの相関関係を テレビ学習メモ 第 40 回 第 5 章データの分析 監修 執筆 湯浅弘一 今回学ぶこと データの分析の最終回 今までの代表値を複合し ながら 2 種類のデータの関係を数値化します は 相関がどの程度強いのかを表しています 学習のポイント 12 種類のデータのを 1 つの数値で表す 2共分散と 3実際のデータからを求める ポイント 1 2 種類のデータのを 1 つの数値で表す 2 種類のデータの散らばりは散布図で見ることができました

More information

Probit , Mixed logit

Probit , Mixed logit Probit, Mixed logit 2016/5/16 スタートアップゼミ #5 B4 後藤祥孝 1 0. 目次 Probit モデルについて 1. モデル概要 2. 定式化と理解 3. 推定 Mixed logit モデルについて 4. モデル概要 5. 定式化と理解 6. 推定 2 1.Probit 概要 プロビットモデルとは. 効用関数の誤差項に多変量正規分布を仮定したもの. 誤差項には様々な要因が存在するため,

More information

データ解析

データ解析 データ解析 ( 前期 ) 最小二乗法 向井厚志 005 年度テキスト 0 データ解析 - 最小二乗法 - 目次 第 回 Σ の計算 第 回ヒストグラム 第 3 回平均と標準偏差 6 第 回誤差の伝播 8 第 5 回正規分布 0 第 6 回最尤性原理 第 7 回正規分布の 分布の幅 第 8 回最小二乗法 6 第 9 回最小二乗法の練習 8 第 0 回最小二乗法の推定誤差 0 第 回推定誤差の計算 第

More information

データの種類とデータの分布

データの種類とデータの分布 データの種類とデータの分布 統計基礎の補足資料 218 年 6 月 4 日金沢学院大学経営情報学部藤本祥二 2( 教科書 P.52) データのばらつき 分布について データの分布データ全体のばらつき具合 ( 広がり具合 ) 等の全体的な様子をとらえたもの 度数 ( 頻度数 ) ある項目, 又はある値, 又は範囲にデータがどれくらい存在するのかを頻度で示したもの 度数分布度数に関するデータ全体の様子

More information

Microsoft PowerPoint 確率レジュメA

Microsoft PowerPoint 確率レジュメA 確率統計レジュメ集 ( 前半 ) 202.04.0 版 立命館大学 電子情報デザイン学科 この講義の目標 進め方 この講義は指定教科書の内容をしっかりと理解することを目的とする. 配布するレジュメは その理解を助けるための資料である. 必ず 教科書に書かれた基礎的な内容をひとつひとつ理解するように努めること. レジュメの空欄の箇所は 教科書からそのヒントを見つけることができる. 予習時に教科書を読み

More information

基礎統計

基礎統計 基礎統計 第 2 回講義資料 講義資料 テキスト 入門統計解析 倉田博史 星野崇宏, 新世社,2009. (2500 円 + 税 ) スライド資料 http://lecture.ecc.u-tokyo.ac.jp/~candoma/ 基礎統計 ( 16) にてスライド資料 (PDF ファイル ) 学内の PC 端末からアクセスするには 情報教育棟にある PC 端末で Safari を起動すると 講義用

More information

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63> 第 7 回 t 分布と t 検定 実験計画学 A.t 分布 ( 小標本に関する平均の推定と検定 ) 前々回と前回の授業では, 標本が十分に大きいあるいは母分散が既知であることを条件に正規分布を用いて推定 検定した. しかし, 母集団が正規分布し, 標本が小さい場合には, 標本分散から母分散を推定するときの不確実さを加味したt 分布を用いて推定 検定しなければならない. t 分布は標本分散の自由度 f(

More information

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ : 統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ : https://goo.gl/qw1djw 正規分布 ( 復習 ) 正規分布 (Normal Distribution)N (μ, σ 2 ) 別名 : ガウス分布 (Gaussian Distribution) 密度関数 Excel:= NORM.DIST

More information

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典 多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典 重回帰分析とは? 重回帰分析とは複数の説明変数から目的変数との関係性を予測 評価説明変数 ( 数量データ ) は目的変数を説明するのに有効であるか得られた関係性より未知のデータの妥当性を判断する これを重回帰分析という つまり どんなことをするのか? 1 最小 2 乗法により重回帰モデルを想定 2 自由度調整済寄与率を求め

More information

基礎統計

基礎統計 基礎統計 第 4 回講義資料 本日の講義内容 第 3 章 : 次元データの整理 散布図 [ グラフ ] 共分散と相関係数 [ 数値 ] 回帰分析 [ 数値とグラフ ] 偏相関係数 [ 数値 ] 第 3 章 次元のデータ 第 3 章 : 次元のデータ ( 目的 ) 変数間の関係を探る 相関と回帰 ( 相関 ) 変数を区別せず対等にみる ( 相関関係 ) 身長と体重, 教科目の成績 ( 回帰 ) 一方が他方に影響を与える

More information

Blue circle & gradation

Blue circle & gradation 数学 1 に関連した統計教材 Takakazu Sugiyama http://www.statistics.co.jp/ これは 2013 年に東京都教育委員会の要請による講演のパワーポイントです. データの要約をしよう! 1.1 データの性格 日本人の死因を集積したデータ アンケートや問診票にある性別 薬局の満足度を 非常に満足 やや満足 どちらともいえない やや不満 非常に不満 によって評価したデータなどのように

More information

Microsoft Word - Stattext12.doc

Microsoft Word - Stattext12.doc 章対応のない 群間の量的データの検定. 検定手順 この章ではデータ間に 対 の対応のないつの標本から推定される母集団間の平均値や中央値の比較を行ないます 検定手法は 図. のようにまず正規に従うかどうかを調べます 但し この場合はつの群が共に正規に従うことを調べる必要があります 次に 群とも正規ならば F 検定を用いて等分散であるかどうかを調べます 等分散の場合は t 検定 等分散でない場合はウェルチ

More information

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード] R で統計解析入門 (4) 散布図と回帰直線と相関係数 準備 : データ DEP の読み込み 1. データ DEP を以下からダウンロードする http://www.cwk.zaq.ne.jp/fkhud708/files/dep.csv 2. ダウンロードした場所を把握する ここでは c:/temp とする 3. R を起動し,2. の場所に移動し, データを読み込む 4. データ DEP から薬剤

More information

<4D F736F F D208FAC8A778D5A8A778F4B8E7793B CC81698E5A909495D2816A2E646F6378>

<4D F736F F D208FAC8A778D5A8A778F4B8E7793B CC81698E5A909495D2816A2E646F6378> 小学校学習指導要領解説算数統計関係部分抜粋 第 3 章各学年の内容 2 第 2 学年の内容 D 数量関係 D(3) 簡単な表やグラフ (3) 身の回りにある数量を分類整理し, 簡単な表やグラフを用いて表したり読み取ったりすることができるようにする 身の回りにある数量を分類整理して, それを簡単な表やグラフを用いて表すことができるようにする ここで, 簡単な表とは, 次のような, 観点が一つの表のことである

More information

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好 . 内容 3. 質的データの解析方法 ( 名義尺度 ).χ 検定 タイプ. 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 点比較法 点識別法 点嗜好法 3 点比較法 3 点識別法 3 点嗜好法 : 点比較法 : 点識別法 配偶法 配偶法 ( 官能評価の基礎と応用 ) 3 A か B かの判定において 回の判定でAが選ばれる回数 kは p の二項分布に従う H :

More information

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63> 第 4 回二項分布, ポアソン分布, 正規分布 実験計画学 A. 代表的な分布. 離散分布 二項分布大きさ n の標本で, 事象 Eの起こる確率を p とするとき, そのうち x 個にEが起こる確率 P(x) は二項分布に従う. 例さいころを 0 回振ったときに の出る回数 x の確率分布は二項分布に従う. この場合, n 0, p 6 の二項分布になる さいころを 0 回振ったときに が 0 回出る

More information

統計学の基礎から学ぶ実験計画法ー1

統計学の基礎から学ぶ実験計画法ー1 第 部統計学の基礎と. 統計学とは. 統計学の基本. 母集団とサンプル ( 標本 ). データ (data) 3. 集団の特性を示す統計量 基本的な解析手法 3. 統計量 (statistic) とは 3. 集団を代表する統計量 - 平均値など 3.3 集団のばらつきを表す値 - 平方和 分散 標準偏差 4. ばらつき ( 分布 ) を表す関数 4. 確率密度関数 4. 最も重要な正規分布 4.3

More information

不偏推定量

不偏推定量 不偏推定量 情報科学の補足資料 018 年 6 月 7 日藤本祥二 統計的推定 (statistical estimatio) 確率分布が理論的に分かっている標本統計量を利用する 確率分布の期待値の値をそのまま推定値とするのが点推定 ( 信頼度 0%) 点推定に ± で幅を持たせて信頼度を上げたものが区間推定 持たせた幅のことを誤差 (error) と呼ぶ 信頼度 (cofidece level)

More information

Microsoft PowerPoint - Inoue-statistics [互換モード]

Microsoft PowerPoint - Inoue-statistics [互換モード] 誤差論 神戸大学大学院農学研究科 井上一哉 (Kazuya INOUE) 誤差論 2011 年度前期火曜クラス 1 講義内容 誤差と有効数字 (Slide No.2~8 Text p.76~78) 誤差の分布と標準偏差 (Slide No.9~18 Text p.78~80) 最確値とその誤差 (Slide No.19~25 Text p.80~81) 誤差の伝播 (Slide No.26~32 Text

More information

統計的データ解析

統計的データ解析 統計的データ解析 011 011.11.9 林田清 ( 大阪大学大学院理学研究科 ) 連続確率分布の平均値 分散 比較のため P(c ) c 分布 自由度 の ( カイ c 平均値 0, 標準偏差 1の正規分布 に従う変数 xの自乗和 c x =1 が従う分布を自由度 の分布と呼ぶ 一般に自由度の分布は f /1 c / / ( c ) {( c ) e }/ ( / ) 期待値 二乗 ) 分布 c

More information

MedicalStatisticsForAll.indd

MedicalStatisticsForAll.indd みんなの 医療統計 12 基礎理論と EZR を完全マスター! Ayumi SHINTANI はじめに EZR EZR iii EZR 2016 2 iv CONTENTS はじめに... ⅲ EZR をインストールしよう... 1 EZR 1...1 EZR 2...3...8 R Console...10 1 日目 記述統計量...11 平均値と中央値... 11...12...15...18

More information

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. ( 統計学ダミー変数による分析 担当 : 長倉大輔 ( ながくらだいすけ ) 1 切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. ( 実際は賃金を就業年数だけで説明するのは現実的はない

More information

stat-base_ppt [互換モード]

stat-base_ppt [互換モード] データ解析の基礎ーデータの分類とまとめ方ー 統計学と統計について 統計学 statistics とは何か? 髙木廣文東邦大学看護学部国際広域保健分野 統計 : 統計をとる (?) 統計学 : 統計学を使う (?) e-mail: halwin@med.toho-u.ac.jp http://homepage2.nifty.com/halwin/takagi.html 1 2 統計をとる とは? アンケート調査で学生のアルバイト実施を調べる

More information

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上

平成 7 年度数学 (3) あるゲームを 回行ったときに勝つ確率が. 8のプレイヤーがいる このゲームは 回ごとに独 立であるとする a. このゲームを 5 回行う場合 中心極限定理を用いると このプレイヤーが 5 回以上勝つ確率 は である. 回以上ゲームをした場合 そのうちの勝ち数が 3 割以上 平成 7 年度数学 数学 ( 問題 ) 問題 から問題 3 を通じて必要であれば ( 付表 ) に記載された数値を用いなさい 問題. 次の ()~() の各問について 空欄に当てはまる最も適切なものをそれぞれの選択肢 の中から選び 解答用紙の所定の欄にマークしなさい なお 同じ選択肢を複数回選択してもよい 各 5 点 ( 計 6 点 ) ()つのサイコロを振る試行を 回繰り返すこととする 回目と 回目の試行でともにの目が出る事象を

More information

青焼 1章[15-52].indd

青焼 1章[15-52].indd 1 第 1 章統計の基礎知識 1 1 なぜ統計解析が必要なのか? 人間は自分自身の経験にもとづいて 感覚的にものごとを判断しがちである 例えばある疾患に対する標準治療薬の有効率が 50% であったとする そこに新薬が登場し ある医師がその新薬を 5 人の患者に使ったところ 4 人が有効と判定されたとしたら 多くの医師はこれまでの標準治療薬よりも新薬のほうが有効性が高そうだと感じることだろう しかし

More information

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Excelによる統計分析検定_知識編_小塚明_1_4章.indd 第1章 母集団と統計データ 本章では, ビジネスのさまざまな場面において統計データを扱ううえで, もっとも基本的事項となる母集団の概念と統計データの種類についてまとめています 母集団の統計的性質を調べるためにとても重要な概念であるサンプリングについて述べるとともに, ランダムサンプリングの重要性についても説明します 統計分析の考え方 ビジネスの多くの場面において, 統計分析は重要です この場合の統計分析とは,

More information

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研

CAEシミュレーションツールを用いた統計の基礎教育 | (株)日科技研 CAE シミュレーションツール を用いた統計の基礎教育 ( 株 ) 日本科学技術研修所数理事業部 1 現在の統計教育の課題 2009 年から統計教育が中等 高等教育の必須科目となり, 大学でも問題解決ができるような人材 ( 学生 ) を育てたい. 大学ではコンピューター ( 統計ソフトの利用 ) を重視した教育をより積極的におこなうのと同時に, 理論面もきちんと教育すべきである. ( 報告 数理科学分野における統計科学教育

More information

0415

0415 今回の授業の狙い 基本的な統計量を求め 活用できること 章統計量と確率分布のと確率分布の活用 part 統計解析で用いる代表的な確率分布の特徴を 把握すること 統計解析の全体像 統計解析での注意点 ()( サンプリング サンプル 測定 母集団 何らかの意味で同質性が期待できるものの集団 e 日本人男性同じ条件で作った製品 母集団 推定 アクション 事実に基づく判断 データからモノをいう データ解析

More information

Microsoft PowerPoint - statistics08_03.ppt [互換モード]

Microsoft PowerPoint - statistics08_03.ppt [互換モード] 授業担当 : 徳永伸一 東京医科歯科大学教養部 数学講座 前回 ( 第 2 回 ) の授業の概要 : 第 1 回 ( 教科書第 9 章 順列 組合せと確率 ほぼ全部 ) の復習 教科書第 10 章 記述統計 S. TOKUNAGA 2 1 Overview 確率 (9 章 ) 記述統計 (10 章 ) 情報の要約 表やグラフで表す 代表値 ( 平均など ) や散布度 ( 分散など ) を求める 確率モデル

More information

モジュール1のまとめ

モジュール1のまとめ 数理統計学 第 0 回 復習 標本分散と ( 標本 ) 不偏分散両方とも 分散 というのが実情 二乗偏差計標本分散 = データ数 (0ページ) ( 標本 ) 不偏分散 = (03 ページ ) 二乗偏差計 データ数 - 分析ではこちらをとることが多い 復習 ここまで 実験結果 ( 万回 ) 平均 50Kg 標準偏差 0Kg 0 人 全体に小さすぎる > mea(jkke) [] 89.4373 標準偏差

More information

Microsoft PowerPoint - CVM.ppt [互換モード]

Microsoft PowerPoint - CVM.ppt [互換モード] 遺伝子組み換えコーン油を事例とした CVM 質問 問 1 現在 遺伝子組み換えトウモロコシを原料として使っているコーン油が 1 本 900gあたり約 600 円で販売されています もし 遺伝子組み換え原料を完全に使っていないコーン油を販売しようとすれば それは 流通管理を徹底しなければならないことから 値段がより高くなることが予想されます あなたは 900g のコーン油 1 本について 追加的な値上がりが何円までだったら

More information

相関係数と偏差ベクトル

相関係数と偏差ベクトル 相関係数と偏差ベクトル 経営統計演習の補足資料 07 年 月 9 日金沢学院大学経営情報学部藤本祥二 相関係数の復習 r = s xy s x s y = = n σ n i= σn i= n σ n i= n σ i= x i xҧ y i തy x i xҧ n σ n i= y i തy x i xҧ x i xҧ y i തy σn i= y i തy 式が長くなるので u, v の文字で偏差を表すことにする

More information

学習指導要領

学習指導要領 (1) 数と式 学習指導要領 数と式 (1) 式の計算二次の乗法公式及び因数分解の公式の理解を深め 式を多面的にみたり目的に応じて式を適切に変形したりすること 東京都立町田高等学校学力スタンダード 整式の加法 減法 乗法展開の公式を利用できる 式を1 つの文字におき換えることによって, 式の計算を簡略化することができる 式の形の特徴に着目して変形し, 展開の公式が適用できるようにすることができる 因数分解因数分解の公式を利用できる

More information

日心TWS

日心TWS 2017.09.22 (15:40~17:10) 日本心理学会第 81 回大会 TWS ベイジアンデータ解析入門 回帰分析を例に ベイジアンデータ解析 を体験してみる 広島大学大学院教育学研究科平川真 ベイジアン分析のステップ (p.24) 1) データの特定 2) モデルの定義 ( 解釈可能な ) モデルの作成 3) パラメタの事前分布の設定 4) ベイズ推論を用いて パラメタの値に確信度を再配分ベイズ推定

More information

スライド 1

スライド 1 計測工学第 12 回以降 測定値の誤差と精度編 2014 年 7 月 2 日 ( 水 )~7 月 16 日 ( 水 ) 知能情報工学科 横田孝義 1 授業計画 4/9 4/16 4/23 5/7 5/14 5/21 5/28 6/4 6/11 6/18 6/25 7/2 7/9 7/16 7/23 2 誤差とその取扱い 3 誤差 = 測定値 真の値 相対誤差 = 誤差 / 真の値 4 誤差 (error)

More information

Microsoft Word - Stattext13.doc

Microsoft Word - Stattext13.doc 3 章対応のある 群間の量的データの検定 3. 検定手順 この章では対応がある場合の量的データの検定方法について学びます この場合も図 3. のように最初に正規に従うかどうかを調べます 正規性が認められた場合は対応がある場合の t 検定 正規性が認められない場合はウィルコクソン (Wlcoxo) の符号付き順位和検定を行ないます 章で述べた検定方法と似ていますが ここでは対応のあるデータ同士を引き算した値を用いて判断します

More information

テレビ講座追加資料1105

テレビ講座追加資料1105 数学類題にチャレンジ 資料の活用 資料の活用語句のまとめ 階級 資料を整理したときの つ つの区間のこと 階級の幅 区間の幅のこと 各階級の最大値と最小値の差 度数 各階級にはいる資料の個数 ( 人数 ) のこと 度数分布表 資料をいくつかの階級に分け 階級ごとに度数を示して分布の様子をわかりやすくした表のこと 階級値 度数分布表で 各階級の真ん中の値のこと ヒストグラム 度数分布多角形 ( 度数折れ線

More information

第7章

第7章 5. 推定と検定母集団分布の母数を推定する方法と仮説検定の方法を解説する まず 母数を一つの値で推定する点推定について 推定精度としての標準誤差を説明する また 母数が区間に存在することを推定する信頼区間も取り扱う 後半は統計的仮説検定について述べる 検定法の基本的な考え方と正規分布および二項確率についての検定法を解説する 5.1. 点推定先に述べた統計量は対応する母数の推定値である このように母数を一つの値およびベクトルで推定する場合を点推定

More information

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝

ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝 ダンゴムシの 交替性転向反応に 関する研究 3A15 今野直輝 1. 研究の動機 ダンゴムシには 右に曲がった後は左に 左に曲がった後は右に曲がる という交替性転向反応という習性がある 数多くの生物において この習性は見受けられるのだが なかでもダンゴムシやその仲間のワラジムシは その行動が特に顕著であるとして有名である そのため図 1のような道をダンゴムシに歩かせると 前の突き当りでどちらの方向に曲がったかを見ることによって

More information

学習指導要領

学習指導要領 (1) 数と式 ア数と集合 ( ア ) 実数数を実数まで拡張する意義を理解し 簡単な無理数の四則計算をすること 自然数 整数 有理数 無理数の包含関係など 実数 の構成を理解する ( 例 ) 次の空欄に適当な言葉をいれて, 数の集合を表しなさい ア イ 無理数 整数 ウ 無理数の加法及び減法 乗法公式などを利用した計 算ができる また 分母だけが二項である無理数の 分母の有理化ができる ( 例 1)

More information

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

Excelによる統計分析検定_知識編_小塚明_5_9章.indd 第7章57766 検定と推定 サンプリングによって得られた標本から, 母集団の統計的性質に対して推測を行うことを統計的推測といいます 本章では, 推測統計の根幹をなす仮説検定と推定の基本的な考え方について説明します 前章までの知識を用いて, 具体的な分析を行います 本章以降の知識は操作編での操作に直接関連していますので, 少し聞きなれない言葉ですが, 帰無仮説 有意水準 棄却域 などの意味を理解して,

More information

画像類似度測定の初歩的な手法の検証

画像類似度測定の初歩的な手法の検証 画像類似度測定の初歩的な手法の検証 島根大学総合理工学部数理 情報システム学科 計算機科学講座田中研究室 S539 森瀧昌志 1 目次 第 1 章序論第 章画像間類似度測定の初歩的な手法について.1 A. 画素値の平均を用いる手法.. 画素値のヒストグラムを用いる手法.3 C. 相関係数を用いる手法.4 D. 解像度を合わせる手法.5 E. 振れ幅のヒストグラムを用いる手法.6 F. 周波数ごとの振れ幅を比較する手法第

More information

横浜市環境科学研究所

横浜市環境科学研究所 周期時系列の統計解析 単回帰分析 io 8 年 3 日 周期時系列に季節調整を行わないで単回帰分析を適用すると, 回帰係数には周期成分の影響が加わる. ここでは, 周期時系列をコサイン関数モデルで近似し単回帰分析によりモデルの回帰係数を求め, 周期成分の影響を検討した. また, その結果を気温時系列に当てはめ, 課題等について考察した. 気温時系列とコサイン関数モデル第 報の結果を利用するので, その一部を再掲する.

More information

stat-base [互換モード]

stat-base [互換モード] データ解析の基礎ーデータの分類とまとめ方ー 統計学と統計について 統計学 statistics とは何か? 高木廣文東邦大学看護学部国際保健看護学研究室 統計 : 統計をとる (?) 統計学 : 統計学を使う (?) e-mail: halwin@med.toho-u.ac.jp http://homepage2.nifty.com/halwin/takagi.html 1 2 統計をとる とは?

More information

memo

memo 数理情報工学特論第一 機械学習とデータマイニング 4 章 : 教師なし学習 3 かしまひさし 鹿島久嗣 ( 数理 6 研 ) kashima@mist.i.~ DEPARTMENT OF MATHEMATICAL INFORMATICS 1 グラフィカルモデルについて学びます グラフィカルモデル グラフィカルラッソ グラフィカルラッソの推定アルゴリズム 2 グラフィカルモデル 3 教師なし学習の主要タスクは

More information

Medical3

Medical3 Chapter 1 1.4.1 1 元配置分散分析と多重比較の実行 3つの治療法による測定値に有意な差が認められるかどうかを分散分析で調べます この例では 因子が1つだけ含まれるため1 元配置分散分析 one-way ANOVA の適用になります また 多重比較法 multiple comparison procedure を用いて 具体的のどの治療法の間に有意差が認められるかを検定します 1. 分析メニュー

More information

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな RSS Higher Certiicate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question (i) 帰無仮説 : 00C と 50C において鉄鋼の破壊応力の母平均には違いはない. 対立仮説 : 破壊応力の母平均には違いがあり, 50C の方ときの方が大きい. n 8, n 7, x 59.6,

More information

Microsoft Word - appendix_b

Microsoft Word - appendix_b 付録 B エクセルの使い方 藪友良 (2019/04/05) 統計学を勉強しても やはり実際に自分で使ってみないと理解は十分ではあ りません ここでは 実際に統計分析を使う方法のひとつとして Microsoft Office のエクセルの使い方を解説します B.1 分析ツールエクセルについている分析ツールという機能を使えば さまざまな統計分析が可能です まず この機能を使えるように設定をします もし

More information