るそんな解析もしてみたいと好奇心が刺激されます二つ目の理由は統計解析を受け止める立場の話です猛烈に発信されるデータは現在さまざまに解釈されながらマスコミ等で発表されています困ったことはその解析は必ずしも正しいとは限らないことですです一を聞いて十を知るという諺がありますが 1

はじめに統計解析って統計学とどう違うんだろう? そんな疑問をもっている方が多いのではないでしょうか実際統計学がわかるといった本を読んでなんとなく理屈がわかったとしてもそのあと現実の場で統計の知識を活かして使っている方はほとんど見あたりませんそれは統計解析の知識が不足しているからといってよいでしょう統計解析というのは統計学の知識を応用しつつ実際に統計データの分析を行なえるようにすることなのですですから統計解析を身につけることは統計の知識を実践的に使うことでありまた特別な準備も不要です本書では統計をイチから説明していますしその使い方がわかるよう具体的な事例を通して伝えていきますただあなたに一つだけ用意しておいてほしいのは統計学とは何か? 統計学はどう利用されるのか? という好奇心だけです情報化時代といわれて久しいですが最近ではツイッターブログなども含め日々新しく生まれるデータがますます巨大化しそれらのデータが互いに融合し複雑化していますそれをビッグデータの時代などとも呼んでいますこのような時代にあって統計的分析能力の素養を身につけておくことはますます重要さを増していますそれには二つの理由があります一つ目の理由は統計解析を活用する立場から見たものです IT 社会であふれるデータの活用法を知らないとデータは単にゴミの山にしか見えませんけれどもほんの少しでも統計解析の素養を持っているとそれは情報の宝の山にも変容しますデータに対してこんな見方もでき 3

るそんな解析もしてみたいと好奇心が刺激されます二つ目の理由は統計解析を受け止める立場の話です猛烈に発信されるデータは現在さまざまに解釈されながらマスコミ等で発表されています困ったことはその解析は必ずしも正しいとは限らないことですです一を聞いて十を知るという諺がありますが 1を調べてすべてを知ることが統計的推定の極意なのです翌日 A 君は平均値が99.7gであるという事実を上司に報告しましたすると今度は次のように命じられましたしかしほんの少しの統計解析の素養さえ持っていればその誤りを見抜くことができます統計の扱いを評した有名な言葉がありますなるほど原因としては製造ラインの機械が狂っているのかもしれないし単なる誤差かもしれないな確かめてみなさい確かにたまたま検査した 100 袋の平均値が 99.7g にすぎず 1 万袋を There are three kinds of lies: lies, damned lies, and statistics. ( 世の中には 3 つのウソがあるウソと大ウソそして統計だ ) 検査してみれば 100g だったかもしれませんとすると製造誤差の許容範囲内ともいえますがもしこれが 99.5g だったらどうなのかさてどう対応すればよいものかとまたまた A 君は悩みましたこれは 19 世紀後半のイギリスの首相ベンジャミンディズレーリの言葉ですディズレーリは統計のウソはウソの中でも最大級だとしているわけですがそれだけに統計のウソを見抜くには統計解析の素このような問題に応えるのが検定 ( 統計的検定ともいう ) です得られた少ないデータから製品の内容量は 100g で正しいという仮定が正しいか否かそれを判定する手段を提供してくれます養が必要なのですさてその統計解析ですが具体的にはどんなものなのでしょうか次の A 君の話からイメージが得られると思いますこうして A 君は上司に対してどうにか報告を済ませたところ数か月後再び難題が降りかかりましたスナック菓子 S の製造ラインの効率を上げるために 3 案 X Y Z が出されたのですがそれらの優劣を確かめ工場の製品管理部門に回された新入社員の A 君は次のように上司から命じられました当社の人気商品のスナック菓子 S の内容量が 100g ずつ正確に入っているかどうか調べなさいそこで A 君は製造ラインから 100 袋を無むさく作い為 ( アットランダム ) に抜き出し調べましたその平均値を計算すると 99.7g となりましたこの値から A 君はどうやってラインで製造される菓子の平均内容量を知ることができるでしょうかこのようなケースに対処する統計解析法が推定 ( 統計的推定ともいう ) るためのチーム主任に任命されたのですそこで A 君は実験用ラインを設け従来方式も含めて各案をテストすることにしました各案を採用したラインから1 分間に製造される製品数を5 回に分けて計測すると次の結果が得られました 1 回目 2 回目 3 回目 4 回目 5 回目平均従来 30 29 31 33 32 31.0 X 案 31 32 30 33 32 31.6 Y 案 31 33 29 33 33 31.8 Z 案 32 33 31 33 34 32.6 4 5

X ~ Z の各案はすべて従来方式よりも 1 分間当たりの製造数は増えていますその中でも Z 案が最も優れた結果を出していますしかしたった 5 回しかテストしていないのですから誤差の範囲とも思えますなどの統計データとともに予報官の経験やカンが蓄積としてあるわけですベイズ統計はこれらの個人的な蓄積も情報として取り入れて確率を算出できます人間味のある統計学なのです A 君の報告書しだいでは会社は製造ラインの変更という大きな投資を決定するかもしれないので A 君は心配です A 君はこの場合改善の効果はあったという報告書を書くべきなのでしょうかそれとも従来方式に比べどの案も新規に採用するほどの効果は見いだせなかったと報告すべきなのでしょうかこのA 君の疑問に応えるのが分散分析です分散分析は得られたデータから効果の有無を検証してくれます改善案の違いの効果はあったなどという結論を勘 ( カン ) ではなく統計的に導き出してくれるのです以上のA 君の例で統計解析の日常性と重要性そして面白さが垣間見えたと思います最初に示したように統計学のアイデアやそれを実現する解析法をマスターするのにむずかしい準備は不要です面倒な計算はExcel 等の統計解析ツールが実行してくれるからです大切なことは何が問題でどうやってその結論が出るのかその過程を理解しておくことです本書はそのために例題を通してそれらが身につくように詳述してあります例題の意図と解決の流れをゆっくり追っていけば統計解析のエッセンスがつかめるはずです報告書作成に疲れたA 君は週末山に行くことにしましたホームページで週末の天気予報を調べると雨の確率が 30% と表示されています A 君雨の確率が 30% かそれを聞いた同僚の B 子さんは A 君に質問しました B 子雨の確率が 30% ってどう意味かしら? A 君同じ条件の日が100 日あったならそのうちの30 日に雨が降るという意味だと思うけどと教科書的に応えましたするとB 子さんは次のように反論したので本書の解説には中学までの数学しか利用していません代わりに統計学で訴えたいアイデアはグラフに示しています掲載したグラフを眺めながら本文の意味を確認していただければと思います本書によって情報化社会においてデータの山に呑まれず情報の海に染まらずそれらを活用する素養が提供されることを深く希望します今後私たちの周りはますますネットワーク化されデータ情報が氾濫していくでしょうそれに対応するためにもこの社会を楽しめる武器として統計解析の力を身につけてくださいす B 子気象って複雑でしょ同じ条件の日が100 日もあるわけはないでしょうそういわれるともっともな話です A 君は確率に関する知識が不足していることを知り困惑してしまいました A 君のこの困惑に応えるのがベイズ統計学です気象予報には気圧配置涌井貞美 6 7

1. 統計学を2つに分類すると ~ 一部から全体を推し量る世の中では統計学という言葉がいろいろな意味に使われているけれど大きく分けると記述統計学と推測統計学に記述統計学は見やすくまとめること統計学の狙いを一言でいえばデータの裏にある本質を理解することにありますそのアプローチの方法によって統計学は記述統計学と推測統計学の 2 つに大きく分類することができます調査や実験で集めたデータをまとめて整理し表にしたりグラフ化するのが記述統計学です得られたデータをビジュアルにして直感的に理解できるようにすることでデータの裏にある本質に迫ろうとするわけですさらにまた次のグラフは棒グラフですこれは 2 人以上の世帯がどれくらいの貯蓄額があるかを示したグラフです ( 平成 23 年調べ ) 帯グラフ以上にデータの特性を細かく表示するのに向いていますたとえば次のグラフを見てみましょうこれは 1 世帯あたり (2 人以上 ) の平均貯蓄額 1664 万円 ( 平成 23 年 ) が預金や株などどのような形で保有されているかを示したもので帯グラフです帯グラフはこのように全体に占める構成の割合を示すのに優れています次ページのグラフは 2 人以上の勤労者世帯の平均可処分所得の月額 420,500 円 ( 平成 23 年 ) がどのような構成かを表わしたグラフです帯グラフに加え中央に円グラフが載せられています円グラフも帯グラフ同様全体に占める構成の割合を示すのに優れていますさてこの最後のグラフには中央値平均値という言葉が記入されていますこれらは資料の代表値と呼ばれる数です集めた膨大なデータを整 14 1 章統計学にもいろいろある 1. 統計学を 2 つに分類すると 15

理し大まかな数として表現しますそうすることで細部に入り込みすぎると見えにくくなる大きな全体の姿が見えるようになります木を見て森を見ずという表現がありますがそうならないために不可欠な表現法ですグラフ表示だけでなくこのような数値化も記述統計学の大切な仕事です推測統計学は一部から全体を推し量る統計学のもう一つの分野である推測統計学を見てみましょう次の2つの統計的な記述を見てくださいたとえば上記の喫煙率の例でいうとたかだか2 万人から得た喫煙率 21.1% というデータから 1 億人以上の日本人成人全体の喫煙率が本当にわかるのか? という疑問が生まれますわずか0.02% の人から取ったアンケート結果 ( 標本調査 ) なのですから当然ですこの疑念難問に応えようとするのが推測統計学の仕事なのです我々の目にする資料の多くは標本調査によるものですアンケート調査品質調査実験結果などはほとんどが全数調査ではなくほんの一部を抜き出して調査しますそこで推測統計学の出番は非常に多いことがわかります警察庁の発表によると 2011 年の女性の運転免許保有者数の割合は 44% である平成 24 年全国たばこ喫煙者率調査 (JT) によると約 2 万人を対象にした調査の結果日本人成人の平均喫煙率は 21.1% であった統計数字に惑わされてはならない統計学というのは資料を扱う幅広い分野を指しますその1 分野に統計解析があります統計解析は最初に述べた記述統計学 ( グラフ表示など ) ではなくあとで説明した推測統計学を中心とする実用的な統計分析の手法を提供します統計的な推定検定分散分析相関分析な前者の女性の運転免許保有者数の割合は 44% という数値は警察庁が日本全国からデータを収集して算出した結果です日本人すべての運転免許保有者数を対象にしていますからこれを全数調査と呼びます全数調査は多くの手間と時間そして予算が必要になりますそれに対して後者の喫煙率が 21.1% という数値は日本人すべてを対象にした結果ではありません 1 億人余りの日本人成人の中から 2 万人むを無さく作い為に選び出し喫煙実態を調査した結果ですこのようにたくさんの中から一部を取り出して調査する方法を標本調査と呼びます標本調査の良い所は対象が小さい分時間と手間と予算が節約できることです推測統計学が本領を発揮するのはこの標本調査により得られた資料の分析ですただし標本調査には常に次のような疑念が伴います一部から得られた結果を全体にあてはめて大丈夫か? どが具体的なテーマなのですところで統計学の対象となるデータは人が集めるものであり統計学の結果を発表するのも人発表された結果を受け止めるのも人ですしたがって扱い方によって解釈はさまざまで誤用され意図して悪用されますそれを言い表わしたのがはじめににも示した次の言葉です重要な言葉ですのでもう 1 回掲載してみました There are three kinds of lies: lies, damned lies, and statistics. ( 世の中には 3 つのウソがあるウソと大ウソそして統計だ ) 統計学の分析結果は単純に数値でありそれを解釈するのは人間ですたいじそのことを常に肝に銘じ統計学の結果に対して公平無私の態度で対峙する習慣をつけることが最も大切なことなのです 16 1 章統計学にもいろいろある 1. 統計学を 2 つに分類すると 17