本日のテーマ 1. データの分類 2. データを簡単にまとめる (1 変数の場合 ) 特に, 代表値と散布度 3.2 変数を合わせてまとめる ~ここまでのクイズ~ 4. 推定と検定 略 5. まとめたデータから解析手法へ 2

Similar documents
Microsoft Word - 保健医療統計学112817完成版.docx

青焼 1章[15-52].indd

EBNと疫学

平均値 () 次のデータは, ある高校生 7 人が ヵ月にカレーライスを食べた回数 x を調べたものである 0,8,4,6,9,5,7 ( 回 ) このデータの平均値 x を求めよ () 右の表から, テレビをみた時間 x の平均値を求めよ 階級 ( 分 ) 階級値度数 x( 分 ) f( 人 )

<4D F736F F F696E74202D B835E82CC8EED97DE B835E82CC834F BB F0955C82B793C190AB926C>

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

ビジネス統計 統計基礎とエクセル分析 正誤表

情報工学概論

<4D F736F F D208D A778D5A8A778F4B8E7793B CC A7795D2816A2E646F6378>

Medical3

stat-base_ppt [互換モード]

第 3 回講義の項目と概要 統計的手法入門 : 品質のばらつきを解析する 平均と標準偏差 (P30) a) データは平均を見ただけではわからない 平均が同じだからといって 同一視してはいけない b) データのばらつきを示す 標準偏差 にも注目しよう c) 平均

多変量解析 ~ 重回帰分析 ~ 2006 年 4 月 21 日 ( 金 ) 南慶典

スライド 1

スライド 1

Microsoft Word - lec_student-chp3_1-representative

Blue circle & gradation

PowerPoint プレゼンテーション

PowerPoint プレゼンテーション

Microsoft PowerPoint - 基礎・経済統計6.ppt

stat-base [互換モード]

1. 多変量解析の基本的な概念 1. 多変量解析の基本的な概念 1.1 多変量解析の目的 人間のデータは多変量データが多いので多変量解析が有用 特性概括評価特性概括評価 症 例 主 治 医 の 主 観 症 例 主 治 医 の 主 観 単変量解析 客観的規準のある要約多変量解析 要約値 客観的規準のな

目次 1 章 SPSS の基礎 基本 はじめに 基本操作方法 章データの編集 はじめに 値ラベルの利用 計算結果に基づく新変数の作成 値のグループ化 値の昇順

モジュール1のまとめ

講座内容 第 1 週 データサイエンスとは 第 2 週 分析の概念と事例ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )1 第 3 週 分析の具体的手法ビジネス課題解決のためのデータ分析基礎 ( 事例と手法 )2 第 4 週 ビジネスにおける予測と分析結果の報告ビジネス課題解決のためのデー

Microsoft Word - Stattext13.doc

自動車感性評価学 1. 二項検定 内容 2 3. 質的データの解析方法 1 ( 名義尺度 ) 2.χ 2 検定 タイプ 1. 二項検定 官能検査における分類データの解析法 識別できるかを調べる 嗜好に差があるかを調べる 2 点比較法 2 点識別法 2 点嗜好法 3 点比較法 3 点識別法 3 点嗜好

散布度

<4D F736F F D208EC08CB18C7689E68A E F AA957A82C682948C9F92E82E646F63>

経営統計学

Microsoft PowerPoint - 統計科学研究所_R_重回帰分析_変数選択_2.ppt

Microsoft PowerPoint ppt

Microsoft PowerPoint - sc7.ppt [互換モード]

Microsoft PowerPoint - データ解析基礎2.ppt

(3) 検定統計量の有意確率にもとづく仮説の採否データから有意確率 (significant probability, p 値 ) を求め 有意水準と照合する 有意確率とは データの分析によって得られた統計値が偶然おこる確率のこと あらかじめ設定した有意確率より低い場合は 帰無仮説を棄却して対立仮説

Microsoft Word - Stattext12.doc

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

1.民営化

Excelによる統計分析検定_知識編_小塚明_1_4章.indd

Microsoft PowerPoint - A1.ppt [互換モード]

MedicalStatisticsForAll.indd

Microsoft PowerPoint - 代表値と散布度.ppt [互換モード]

データの種類とデータの分布

Microsoft PowerPoint - 資料04 重回帰分析.ppt

統計学 - 社会統計の基礎 - 正規分布 標準正規分布累積分布関数の逆関数 t 分布正規分布に従うサンプルの平均の信頼区間 担当 : 岸 康人 資料ページ :

代表値

Excelによる統計分析検定_知識編_小塚明_5_9章.indd

<4D F736F F D208EC08CB18C7689E68A E F1939D8C E82E646F63>

講義「○○○○」

はじめに Excel における計算式の入力方法の基礎 Excel では計算式を入力することで様々な計算を行うことができる 例えば はセルに =SQRT((4^2)/3+3*5-2) と入力することで算出される ( 答え ) どのような数式が使えるかは 数式

Microsoft PowerPoint - R-stat-intro_04.ppt [互換モード]

心理学統計法科目コード FB3537 単位数履修方法配当年次担当教員 2 R or SR( 講義 ) 2 年以上河地庸介 2017 年度以前 2018 年度以降に入学した方どちらも履修登録できます 2017 年度以前入学者で 心理学研究法 Ⅱ を履修登録しておらず認定心理士の取得を目指す方 および

Microsoft Word - mstattext02.docx

RSS Higher Certificate in Statistics, Specimen A Module 3: Basic Statistical Methods Solutions Question 1 (i) 帰無仮説 : 200C と 250C において鉄鋼の破壊応力の母平均には違いはな

13章 回帰分析

データ解析

Microsoft PowerPoint - データ解析基礎4.ppt [互換モード]

統計的データ解析

Microsoft PowerPoint - R-stat-intro_12.ppt [互換モード]

PowerPoint プレゼンテーション

JMP による 2 群間の比較 SAS Institute Japan 株式会社 JMP ジャパン事業部 2008 年 3 月 JMP で t 検定や Wilcoxon 検定はどのメニューで実行できるのか または検定を行う際の前提条件の評価 ( 正規性 等分散性 ) はどのメニューで実行できるのかと

不偏推定量

基礎統計

講義ノート p.2 データの視覚化ヒストグラムの作成直感的な把握のために重要入力間違いがないか確認するデータの分布を把握する fig. ヒストグラムの作成 fig. ヒストグラムの出力例 度数分布表の作成 データの度数を把握する 入力間違いが無いかの確認にも便利 fig. 度数分布表の作成

日心TWS

Microsoft Word - Stattext07.doc

当し 図 6. のように 2 分類 ( 疾患の有無 ) のデータを直線の代わりにシグモイド曲線 (S 字状曲線 ) で回帰する手法である ちなみに 直線で回帰する手法はコクラン アーミテージの傾向検定 疾患の確率 x : リスクファクター 図 6. ロジスティック曲線と回帰直線 疾患が発

Microsoft Word - SPSS2007s5.doc

と 測定を繰り返した時のばらつき の和が 全体のばらつき () に対して どれくらいの割合となるかがわかり 測定システムを評価することができる MSA 第 4 版スタディガイド ジャパン プレクサス (010)p.104 では % GRR の値が10% 未満であれば 一般に受容れられる測定システムと

Microsoft PowerPoint - 医学統計のつぼ.ppt

Medical3

学習指導要領

学力スタンダード(様式1)

<4D F736F F D204B208C5182CC94E497A682CC8DB782CC8C9F92E BD8F6494E48A722E646F6378>

<4D F736F F D2090B695A8939D8C768A E F AA957A82C682948C9F92E8>

学習指導要領

Microsoft PowerPoint - statistics pptx

データの整理 ( 度数分布表とヒストグラム ) 1 次元のデータの整理の仕方として代表的な ものに度数分布表とヒストグラムがあります 度数分布表観測値をその値に応じていくつかのグループ ( これを階級という ) に分類し 各階級に入る観測値の数 ( これを度数という ) を数えて表にしたもの 2

<4D F736F F D208EC08CB18C7689E68A E F193F18D8095AA957A C C839395AA957A814590B38B4B95AA957A2E646F63>

学習指導要領

3章 度数分布とヒストグラム

3章 度数分布とヒストグラム

Microsoft PowerPoint - e-stat(OLS).pptx

Microsoft PowerPoint - 測量学.ppt [互換モード]

Microsoft Word - å“Ÿåłžå¸°173.docx

<4D F736F F F696E74202D208EC0926E89758A7782CC82BD82DF82CC939D8C765F939693FA2E >

相関係数と偏差ベクトル

Microsoft PowerPoint - 14都市工学数理ノンパラ.pptx

基礎統計

<4D F736F F F696E74202D B835E89F090CD89898F4B81408F6489F18B4195AA90CD A E707074>

切片 ( 定数項 ) ダミー 以下の単回帰モデルを考えよう これは賃金と就業年数の関係を分析している : ( 賃金関数 ) ここで Y i = α + β X i + u i, i =1,, n, u i ~ i.i.d. N(0, σ 2 ) Y i : 賃金の対数値, X i : 就業年数. (

統計学の基礎から学ぶ実験計画法ー1

学習指導要領

EBNと疫学

異文化言語教育評価論 ⅠA 第 4 章分散分析 (3 グループ以上の平均を比較する ) 平成 26 年 5 月 14 日 報告者 :D.M. K.S. 4-1 分散分析とは 検定の多重性 t 検定 2 群の平均値を比較する場合の手法分散分析 3 群以上の平均を比較する場合の手法 t 検定

ファイナンスのための数学基礎 第1回 オリエンテーション、ベクトル

相関分析・偏相関分析

Microsoft Word - apstattext04.docx

Microsoft PowerPoint - stat-2014-[9] pptx

Chapter 1 Epidemiological Terminology

Transcription:

平成 25 年度新潟精神看護研究会秋季研修会 2. データをうまくまとめるには 講師 : 赤城病院副院長 群馬大学医学部医学統計学講師 ( 非常勤 ) 藤田晴康 1

本日のテーマ 1. データの分類 2. データを簡単にまとめる (1 変数の場合 ) 特に, 代表値と散布度 3.2 変数を合わせてまとめる ~ここまでのクイズ~ 4. 推定と検定 略 5. まとめたデータから解析手法へ 2

1. データの分類を知ろう 3

尺度による分類 どの教科書にも登場する 分類 ( 水準 ) 例別分類 名義尺度 職業 性別 背番号 診断名 順序尺度服のサイズ (L M S) 薬効 ( 悪化 無効 有効 著効 ) 質的データ ( カテゴリカル データ ) 間隔尺度 比尺度 摂氏 ~ 華氏の温度 暦年 長さ 重さ 濃度 人数 絶対温度 量的データ 4

この分類の特徴 質的データ とは数え上げて解析するデータ 質的研究 とは別 分類 ( 水準 ) 例別分類 (1) 名義尺度職業 性別 背番号 診断名下に行くほど情報量が多い (2) 下から上への変換可だが, 逆は不可順序尺度服のサイズ (L M S) 155,167,184 低, 中, 薬効 ( 悪化 無効 有効 著高 効 ) 質的データ ( カテゴリカル データ ) 間隔尺度 比尺度 摂氏 ~ 解析実務上まとめて華氏の温度 暦年よいことが多い長さ 重さ 濃度 人数 間隔尺度以上 とよぶ絶対温度 量的データ 5

問. 順序尺度の差や比は? 質問票の回答データで 1. 少ない 2. 中程度 3. 多い この 1,2,3 は 量 ではない 1 と 2,2 と 3 の間が等しいとは限らない 解析に工夫が必要 量データを順位に変換して解析することあり (2.4,3.6,1.7,3.8) (2,3,1,4) 小さい方から 2 位,3 位,1 位, 6

別の分類 連続量 ( 実数で )/ 離散量 ( 整数で ) 二値データ (0-1 データ ): 男女, 生死等 循環するデータ : じゃんけん ( グー チョキ パー ) や 12~24 時間制の時刻 7

2. データを簡単にまとめる (1 変数のまとめ ) 8

健診結果の例 どのようなデータか? 簡約表現できるか? 9

データをまとめる基本 1) カテゴリカルデータ ( 分類 ) の場合 まず数え上げる : 集計 割合を求める AB O A B 2) 量的データ ( 連続量 ) の場合 グラフ化 指標計算 ( 中心とばらつき ) 10

図はこんなふうに見て下さい 正規分布の場合 分布 実データ 表示 11

問. 棒グラフとヒストグラムの違い 棒グラフ ヒストグラム 棒の間が空いている? 棒が接している? 12

2 つのグラフが異なるとき 階級の幅が等しい場合同じに見えるが 階級の幅が等しくない場合は, 下記のように異なる 40 50 60 70 才代 40 50 60 70 才 +80 才代 13

横軸が問題! 棒グラフ ヒストグラム 分類 離散量 連続量 14

注意 ばらつき 歪み 偏り ばらつきが大きい 歪みが大きい 偏りがある 15

アメリカの高校の問題 問. 次の分布の形を言葉で表してください a) b) 答.a)Approximately normal with an outlier ほぼ正規分布しているが, はずれ値あり b)bi-modal, somewhat skewed to the left 二峰性で, やや左に歪んでいる 16

2-1. 分布の中心 ( 代表値 ) 17

量的データを 2つの指標でまとめる! 中心の位置とばらつきの程度がわかればよい 頻度 値 18

問. 平均値の欠点は? 分布が左右対称でないときは平均値は代表値らしくない 3 3 多くの値が代表値より小さくなってしまう 2 3 7 100 3 7 ( 平均値 =16) 算術平均は物理学で 重心 19

平均値以外に中央値を知ろう 上下に 50% ずつのデータがある 分布が歪んでいるときの代表値としてよい 中央値 平均値 年収 生存時間など 20

中央値を求めるには 1) データが奇数個の場合 1, 1, 1, 2, 3, 3, 99 の中央値は 2( 平均値は 55) 2) データが偶数個の場合 中央 2 個の平均 1, 1, 1, 2, 3, 3, 3, 99 の中央値は 2.5( 平均値は 56.5) 21

2-2. バラツキの指標 ( 散布度 ) 22

数理的に扱いやすい指標 分散 (V,σ 2 ) 分散 = ( m) å x i - n 2 中心からのずれ : (x i 平均値 ) の 2 乗を使う ( 総合して 1 つの値 平均をとる ) 23

実務でよく使われる指標 標準偏差 (SD,σ) 標準偏差 = 分散 これだけ! 24

標準偏差は 正規分布と相性が良い 正規分布は平均値と標準偏差 (σ) で決まる μ-3σ μ-2σ μ-σ μ μ+σ μ+2σ μ+3σ 中心から 2σ 離れると約 95% が入る 中心から 3σ 離れると 99.7% ( ほぼ全部 ) 入る 25

標準偏差の 1.96 倍 ( 切りのよい数値 ) ±2σ よりやや内側 -1.96σ 0 +1.96σ 1.96 は統計学でよく登場 26

問 : クラスの身長の標準偏差は? 平均値 155cm, 最大値 170cmとする 身長データは正規分布に従うとする 標準偏差 (SD) =15 3 =5 正規分布の性質を利用して 155cm 15 170cm 中心から最大まで 3σ 27

ここに戻ります 中心の位置とばらつきの程度 がわかればよい 平均値と標準偏差 中央値と? 頻度 値 28

中央値は二分割した ~ 今度は四分割して考える ~ 25% の人 25% の人 第 1 四分位点中央値第 3 四分位点 四分位範囲 ( 四分位偏差 ) これをばらつきの指標に中央 50% が入る 29

歪んだ分布で便利な箱ひげ図 体重のヒストグラム ( 回転して表示 ) 箱ひげ図 ヒゲはばらつきの目安 箱の上下間で全体の 50% 箱中の線は中央値 箱の縦幅が四分位範囲 30

表 グラフ表現のまとめ A1) 平均値と標準偏差を ± でつないで記す 37.2 ± 5.8(mean ± SD) A2) 中央値と四分位範囲の表記は定型なし B1) 棒グラフ + エラーバー バーの端は最大値ではない B2) 箱ひげ図四分位範囲 5.8 37.2 これは ひげ 中央値を示すことが多い 31

3.2 つの変数を合わせて簡約記述 32

2 変数の簡約記述 ここでは 2 つの変数 ( 項目 ) をまとめて簡約記述する場合を説明する 1 つずつの変数 ( 項目 ) について記述する場合と異なり,2 者の関係性が問題となる 33

(1)2 つの質的変数の関係の強さとは? 下の2つのクロス集計からみて, 病気になりやすさ と 性別 の間の関連が強そうなのはA,Bのいずれであろうか? 直観的に左の疾患 Aの方であるとわかる 疾患 A 疾患 B あり なし あり なし 性別 男 100 20 女 10 150 性別 男 50 80 女 60 90 34

(2)2 つの量的変数の関係の強さ 相関係数 という指標に注目 直線的な関係の強さを表す 点の並びがどの程度直線に近いか 散布図 単位は無い 正 負がある -1 相関係数 1 記号はρ( ロー ),r 70 60 50 40 体重30 140 150 160 170 性別 女性男性 180 身長 35

相関係数の例 (1): 身長と体重 20 歳 ~62 歳の男性 1936 名 r=0.454 140 120 100 80 60 体重40 140 150 160 170 180 190 200 身長 36

相関係数の例 (2): 腹囲と体重 20 歳 ~62 歳の男性 561 名 r=0.858 140 120 100 80 60 体重40 60 70 80 90 100 110 120 体重との相関は身長より腹囲の方が大きい! 腹囲 37

相関の大小の基準 相関係数がどの程度あれば相関が大といえるか? 明確な基準はない 人間の感覚と相関係数の 2 乗が合致するといわれる 38

39

注意 相関係数解釈 1) 曲線的な関係性がある場合 (U 字型ではr =0) 2) はずれ値に影響される場合 3)2つ以上の集団が混在している場合 4) 本来の集団の一部のみを見ている場合散布図で検討するとよい 1) 2) 3) 4) 40

質的変数 量的変数のまとめ 平均値を棒グラフなどで表すことが多い. エラーバー ( 標準偏差など ) を付ける ストリップチャート or ドットチャート A B C A B C 41

2 変数でまとめるとよい 3 つに分けると見通しが良くなる 変数 質的 質的 量的 量的 質的 量的 図表 クロス集計表 散布図 棒グラフ 箱ひげ図 指標 関連係数 相関係数 ( 相関比 ) 解析 χ 2 検定 相関 回帰 t 検定 分散分析 42

記述統計ができれば 全くの初心者から大きな一歩前進??? えーとあれがこうで, これはああで 正規分布していて平均値 57.3 標準偏差 11.8 ね! 2 変数の相関係数は 0.87 と大きい! 43

確認クイズ ( 記述統計 ) Q1. 棒グラフとヒストグラムの使い分けは? Q2. 平均値と中央値の使い分けは? Q3. 分散と標準偏差の違いは? Q4. 標準偏差はなぜよく使われる? Q5. 平均値と標準偏差を組み合わせる では中央値と組み合わせるのは? Q6. 相関係数が 0 ならば,2 変数の間に関係性はない?[ 正 誤 ] 44

4. 推定と検定 46

5. まとめたデータから解析へ 47

解析手法は沢山あって覚えられない!? Mann-Whitney のU 検定 解析目的とデータ構造を基に

再 2 変数でまとめるとよい 3 つに分けると見通しが良くなる 変数 質的 質的 量的 量的 質的 量的 図表 クロス集計表 散布図 棒グラフ 箱ひげ図 指標 関連係数 相関係数 ( 相関比 ) 解析 χ 2 検定 相関 回帰 t 検定 分散分析 49

復習 対応のある / ないの別に注意 1) 対応のない (non-paired) 場合 疾患群 健常群 バイアスの入る余地あり : 性別, 年齢などいずれかが多いなど 2) 対応のある (paired) 場合 ( 同じ人を 2 回測定 ) 処置前 処置後 この差 ( ) の 1 群を問題にする 50

解析手法選択の視点 A B 視点選択肢注釈 何を行うか 変数の種類 比較 予測や判別 検定手法で多い差の有無, 大小を知る 回帰分析 内部構造を知る因子分析など 量的変数 質的変数 手法が多い質的変数に変換可能 数え上げたデータ ( 何人, 何個 ) を用いる 51

解析手法選択 : もう少し細かく 1 データの種類 2 視点例注釈 解析対象 ( 群の特性 ) 名義 / 順序 / 量 平均値 / 中央値 / 3 群の数 1 群 /2 群 / 多群 =3 群以上 1 の制約を受ける 4 データの構造 2 群では, 対応あり / なし多群では一元配置 / 二元配置 / 52

1. クロス集計表のデータから (1) 一般に,χ 2 検定 2 2 表では比率の差の検定と同じ (2) セルの期待値 <5 があるとき Fisher の正確確率検定 (3)2 群の比較 (2 k 表 ) で, 順位のみを利用し Mann-Whitney の U 検定 53

2. 量としての x と Y の関係を追及 (1) 相関係数と無相関の検定 (2)x,yが1つずつなら,( 単 ) 回帰分析 (3) 説明変数 (x) が複数なら, 重回帰分析 y =β 0 + β 1 x 1 + β 2 x 2 + + β p x p 体重 y = 定数 + 身長 x 1 の何倍 + 腹囲 x 2 の何倍 + 年齢 x 3 の何倍 + 54

2.x や y が質の場合 (1) 説明変数 (x) が質ならダミー変数を用いた重回帰分析 (2) 従属変数 (y) が 0-1(2 値 ) ならば logistic 回帰 55

3. 群の平均値等の比較 (1) 平均値の比較 (1-1)2 群の場合 t 検定 ( 対応有無 ) (1-2)3 群以上の場合 分散分析, 多重比較 (2) 中央値等の比較 ノンパラメトリック法 (Mann-Whitney,Wilcoxon,etc) 56

フローチャートは役に立つか? 1) 基本概念を知らないと選択できません 2) 統計の知識でデータの種類や構造を変更してフローの選択を変えることも可 ( 例 : 何も知らなければ自然に右のコースだが難解, しかし, ちょっと知識を使うと簡明な左のコースに行けるなど ) これでは何のためのフローチャートか? フローチャートは全体を知らないと役に立たないが, 全体を学習してしまえば, フローチャートは不要? 分野を限定すれば役に立つかもしれません 57

Petrie & Sabin 著, 吉田監訳 一目でわかる医科統計学 ( メテ ィカル サイエンス インターナショナル )2006 年による広範囲のフローチャート 58

部分的なフローの例 あるブログより http://ken7821.exblog.jp/m2011-09-01/ 3 標本以上の差の検定方法について表をのせています とあるが, 読みこなすのはなかなか難しそうです 59

バラツキを評価して真理へ ~ 推定や検定の考え方の基本 ~ 61

問 1. 2 つの観測値の差 1) 条件 A で 1 つの観測値 3.6 を得た 2) 条件 B で 1 つの観測値 3.5 を得た 2 つの観測値の差を表現するにはどうしたらよいか? A B 62

差を論文に記すには? (1)3.6-3.5 と引き算の結果を記す (2)0.1 とわずかなので 差なし とする (3) 統計学的に 差の推定 を行う A B 63

統計学の基礎は誤差の評価 反復測定でないと偶然誤差の大きさが評価できず, 信頼性が不明 反復数 (n) が多いとより有利! 1 回の測定では誤差の評価不可 次の測定値も同じ様 次の測定値は? 64

問 2. 今度は n が多い! 1) 群 A で標本平均値 3.6 を得た (n=50) 2) 群 B で標本平均値 3.5 を得た (n=52) これら 2 つの標本平均値の差を表現するにはどうしたらよいか? A B 65

論文に記すのは? (1)3.6-3.5 と引き算の結果を記す (2)0.1 とわずかなので 差なし とする (3) 統計学的に 差の推定 を行う A B 66

標本の特性を表現するのは記述 1) まとめる : 手元のデータを ( 記述 ) 手元のデータは? 2) 推し量る : 標本データから母集団を ( 推測 ) 母集団では? 67

問 3. 似て非なる問題! 1) 群 A で標本平均値 3.6 を得た (n=50) 2) 群 B で標本平均値 3.5 を得た (n=53) これら 2 群の母集団での平均値の差を表現するにはどうしたらよいか? A B 68

研究では母集団について知りたい 1) まとめる : 手元のデータを ( 記述 ) 手元のデータは? 2) 推し量る : 標本データから母集団を ( 推測 ) 母集団では? 69

3 つの問の違い! 問 1. 2 つの観測値の差を表現するにはどうしたらよいか? 問 2. 2 つの標本平均値の差を表現するにはどうしたらよいか? 問 3. 2 つの母平均値の差を表現するにはどうしたらよいか? 70

71

幹葉図で中央値等を例示 3. 9 4. 02234 4. 55566777899 5. 00000111222223444 5. 5556667789 6. 001122334 6. 5679 7. 001 8. 3 25% ずつ色分けしてみた 61 人のデータ中央値は 53 第 1 四分位点 48.5 第 3 四分位点 60.5 四分位範囲 12 72

歪んだ分布でも中央値は万能でない 高値の重症者に奏功して正常化した場合 処置 A 中央値は変化せず効果が分からない! 平均値は小さくなるが t 検定不可 73

アメリカの 高校の問題 問.1 から 5 までの 15 個の整数値の分布がヒストグラムで示されている.SD が最も小さいのはどれか? 答.a: 中央に集中した ( 平均値に近い ) 値が多い. 逆に SD 最大は c ( m) å x i - n 2 これは 1 が最少で 5 が最多 74

箱ひげ図の描き方 Tukey 先生 C * far out = 極外値 (extreme value): C よりも外れの値 ヒンジ巾 1.5 outside= 外れ値 (outlier): BC 間の値 ヒンジ巾 1.5 B ひげ端 : AB 間で最外の実値 ( 全体の最大値, 最小値を用いることもある ) A 中央値 : この上下に 50% ずつ ヒンジ巾 四分位範囲 John W. Tukey Exploratory Data Analysis Addison-Wesley 1977 年,p.44 75

蛇足 正確に説明するのは難しい うまくいおうとして, ちょっとウソをついてしまうってことがある あのときの王子くん ( 星の王子さま の大久保ゆう訳 ) より

統計学の全体 統計学の仕事記述 :description 簡約表現 1 変数,2 変数推測 :inference 標本を基に母集団の特性は 推定 :estimation 点推定 母数はいくつ 区間推定 いくつからい 検定 :test 母集団である仮説が成り立つ Yes/No