春学期統計学 I 記述統計と推測統計 担当 : 長倉大輔 ( ながくらだいすけ ) 1
本日の予定 本日はまず記述統計と推測統計の違い 推測統計学の基本的な構造について説明します 2
記述統計と推測統計 統計学とは? 与えられたデータの背後にある 特性 法則 を 検証 発見 分析 するための手法の開発 その応用などに関わる学問の事です 3
記述統計と推測統計 データの種類 データの種類はおおまかに 2 つに分けられます 1 つ目は実験により育成される実験データと呼ばれるもの 2 つ目は実験から生み出されたものではない非実験データです 4
記述統計と推測統計 実験データ これは分析者によってデータが育成される条件 状態を管理できる環境で生み出されるようなデータで 物理学や化学などで用いられるようなデータです このようなデータでは他の条件を同じにして特定の条件を変えた場合のデータの変動が測定できるため データに含まれる変動の規則性を見つける事が容易といえます 5
記述統計と推測統計 非実験データ これは気象学や経済学で観測されるようなデータで 分析者はデータが育成される条件 状態を管理できません 実現した値を観測する事ができるだけです このようなデータではいろんな諸条件が組み合わさった状態でデータが育成されるため そこに隠された法則などを見つける事が実験データに比べると難しくなります 経済やファイナンスのデータはほとんどが非実験データです 6
記述統計と推測統計 記述統計 記述統計 ( 統計的記述 ) とは与えられたデータに対して そのデータの特徴を要約 ( 記述 ) する事です 具体的には よく知られたもので平均 今日説明するものでは中央値 最頻値 今後説明するものでは分散 などがあげられます 7
記述統計と推測統計 推測統計 多くの場合 データは分析したい対象全体の一部分に関してのみ与えられます それら一部分から対象全体に関する特性を推測する事を推測統計 ( 統計的推測 ) といいます 8
記述統計と推測統計 記述統計と推測統計の例 今 私たちはある工場で作られた電球の品質を分析したいとします 与えられたデータ ( 観測値 ) は電球 20 個の寿命です 例えば電球 1 の寿命 150 時間電球 2 の寿命 130 時間 電球 20 の寿命 90 時間などです 9
記述統計と推測統計 記述統計と推測統計の例 ここで私たちはまずこれら 20 個の 電球は大体何時間くらいで寿命がつきてしまっているのか? という事に関心があるとします 与えられた 20 個のデータを眺めているだけではなかなかわかりません この場合よく使われるのが ( 標本 ) 平均という統計量です 標本とはデータの事で 統計量とは標本から計算されるもの ( より正確には標本の関数 ) のことです 10
記述統計と推測統計 記述統計と推測統計の例 これら 20 個の電球の寿命の平均は 120 時間だったとしましょう これはこのデータ (20 個の電球 ) においてだいたい 120 時間あたりの値をとる電球が多いと言うことを意味します これでこの 20 個の電球 についての特徴のひとつが明らかになりました これがデータの特性を記述するということです 11
記述統計と推測統計 記述統計と推測統計の例 しかし私たちが本当に関心があるのは この 20 個の 電球の寿命ではなく むしろこの工場でつくられる電球の寿命の平均はどれくらいか? という事でしょう ここで問題はこの工場で作られた 20 個の電球 ( 全体の一部 ) の寿命の平均が 120 時間である事から この工場で作られる電球の平均寿命は 120 時間 と結論してよいか? です 12
記述統計と推測統計 記述統計と推測統計の例 20 個の電球の寿命の平均からいかに全体の電球の寿命の平均について推測するかを問題にするのが 推測統計 の問題です ここでは 20 個の電球の寿命の平均 ( 標本平均 ) は 全体の電球の寿命の平均 ( 母平均 ) の推定値とみなされます 推定値とはそれが真の値ではなく 誤差をともなっているという事を意味します 13
記述統計と推測統計 記述統計と推測統計の例 このように推定を行った場合 興味のある問題として この推定値は全体の電球の寿命の平均を どれくらい正確に推定しているか? ということがあります 誤差が小さい場合と大きい場合では結論がまったく違うものになります 他にも どのようにすれば誤差を小さく推定できるだろうか? という問題にも興味があるでしょう 推測統計はそのような問題について考えます 14
母集団と標本 母集団と標本 観測対象の事を母集団といい ( 例 : ある工場で作られた電球の寿命 ) 母集団からの観測される値を標本といいます ( 例 :20 個の電球の寿命 ) 全標本 もし母集団全ての値が観測できた場合 それを全標本といいます 15
母集団と標本 全数調査と標本調査 全数調査とは全標本が得られる場合の調査の事であり 標本調査とは母集団の一部分しか観測できない調査の事です 全数調査は多くの場合非常に時間と経費がかかります ( 不可能である場合も多い ) 電球の寿命 の例などは全数調査が不可能な例です 16
母集団と標本 全数調査と標本調査の例 ( 全数調査の例 ) 国勢調査 5 年ごとに日本に住んでいる全ての人を対象に調査 ( 標本調査の例 ) 家計調査 毎月農家を除く全ての世帯の暮らし向きを把握するために全体の 5000 分の 1 を対象に調査 17
母集団と標本 無作為標本 標本の採り方の代表的な例に無作為標本というものがあります これは母集団から標本を無作為に ( より厳密には確率的独立に ) とるというやり方のことです これは標本から母集団に関する推測をする際に極めて重要になってきます 18
母集団と標本 無作為標本に失敗した例 無作為標本に失敗するとどうなるかという例として有名なものとして 1936 年のアメリカ大統領選挙の話があります この時ある新聞社は 200 万人規模の ( 標本 ) 調査を行い共和党のランドン氏の大勝利を予想しました しかし結果は民主党のルーズベルト氏の圧勝に終わりました この新聞社の調査はどこがまずかったのでしょうか? 19
母集団と標本 無作為標本に失敗した例 この新聞社の調査の問題点は調査の対象を同誌の購買者と電話保有者に限定した事にありました 当時はまだ電話を所有できるのは高所得者に限り 高所得者は共和党を支持する傾向が高かったため 調査では共和党の勝利という結果になったのです これは一部で全体を代表させるのに失敗した例です 20
記述統計 - データの中心 標本平均 平均という言葉は 平均点 平均気温 平均降水量 など 日常でよく使われているので すでになじみの深いものだと思いますが これもれっきとした統計用語です 21
記述統計 - データの中心 平均の定義今 n 個の観測値からなる標本 { x 1, x 2, x n } が得られたとします この時平均 ( より正確には標本平均 ) は x x x x 1 2... n n と定義されます ( 平均はしばしばと書かれます ) x 22
記述統計 - データの中心 平均の意味 解釈 平均はデータがどの値の周りに多く分布しているかを表していると解釈する事ができます 言い換えるとデータの中心を表していると考えられます 23
記述統計 - データの中心 Σ ( シグマ ) 記号 平均の定義の分子の部分は Σ 記号を使うとより簡便に表せます Σ 記号とは n i1 の事です これによって平均は と表わされます x x x... x i x 1 n 1 2 n i1 x i n 24
記述統計 - データの中心 Σ( シグマ ) 記号の性質 Σ 記号は統計学で非常に頻繁に登場するのでここでその性質を確認します (1) 各 x i を c 倍して和を取ったものは となります n i1 cx i c n i1 x i 25
記述統計 - データの中心 Σ( シグマ ) 記号の性質 (2) 定数 c に対して となります (3) 2 組の観測値 { y 1,,y n } と { x 1,,x n } に対して が成り立ちます n i1 n i1 ( x i c cn y i ) n i1 x i n i1 y i 26
27 27 記述統計 - データの中心 Σ( シグマ ) 記号の性質 (1) - (3) より 例えばなどが導けます n c x c x c x n i i n i i n i i 2 1 1 2 1 2 2 ) (
記述統計 - データの中心 メディアン ( 中位点 中央点 ) 観測値を大小順番に並べ 真ん中に位置する値を中位点 またはメディアンといいます ただし観測値の数が偶数の場合 ちょうど真ん中にくる数はないので 真ん中の 2 つの観測値の平均をメディアンとします 28
記述統計 - データの中心 ( 例 ) メディアン ( 標本数が奇数の場合 ) 標本が { x 1, x 2,,x 5 } = { 7, 9, 4, 2, 5 } であるとすると まず小さい順に並べて { 2, 4, 5, 7, 9 } 次にメディアンなので その真ん中の値を取ります { 2, 4, 5, 7, 9 } よってメディアンは 5 となります ちなみにこの標本の平均は 5.4 となります 29
記述統計 - データの中心 メディアン ( 標本数が偶数の場合 ) 標本 { x 1, x 2,, x 6 } = { 10, 7, 9, 4, 2, 5 } であるとすると まず小さい順に並べると { 2, 4, 5, 7, 9, 10 } です 次にその真ん中の 2 つの観測値の平均をとります { 2, 4, 5, 7, 9, 10 } (5 + 7)/2 = 6 よってメディアンは 6 となります ちなみにこの標本の平均は 37/6 6.2 です 30
記述統計 - データの中心 メディアンの定義 標本 { x 1, x 2,, x n } を小さい順に並べたものを とします { x (1), x (2),., x (n) } ( 標本の数 n が奇数の時 ) この時メディアンは x ((n+1)/2) です ( 標本の数 n が偶数の時 ) この時メディアンは (x (n/2) +x (n/2 + 1) )/2 です 31
記述統計 - データの中心 メディアンの特性 平均もメディアンも共にデータの中心を測るものですが ( どのあたりの値のデータが多く観測されているかを見る ) メディアンは平均に比べて異常値 ( 外れ値 ) の影響を受けにくいという特徴があります 32
記述統計 - データの中心 メディアンの特性 例えば今 5 人の人の年収が ( 単位は円 ) {500 万 600 万 700 万 800 万 900 万 } だとすると 平均は 700 万 メディアンも 700 万です ここである年収 1 兆円の大富豪がこの標本に加わったとしましょう {500 万 600 万 700 万 800 万 900 万 1 兆円 } この場合平均は (1 兆 3500 万 )/6 で 1666 億 7250 万になります しかしメディアンは 750 万です どちらの方が どの値の周りにこのグループの標本の値が多いか をよく表しているか明らかでしょう 33
記述統計 - データの中心 モード ( 最頻値 ) 標本の中で最も頻繁に出た値をモード または最頻値といいます 例えば標本 { 3, 10, 7, 9, 4, 3, 5 } が与えらた時に 3 が 2 つあり 最も頻繁に観測されています よってこの場合はモードは 3 となります ちなみにこのデータのメディアンは 5 平均は約 5.9 となります 34
記述統計 - データの中心 モード ( 最頻値 ) 平均やメディアンと違い モードは一つとは限りません 例えば標本 { 2, 10, 7, 9, 4, 2, 5, 9 } が与えらた時には 2 と 9 が共に 2 つあるので モードは 2 と 9 になります 35
記述統計 - データの中心 演習問題男女 5 人ずつに1 週間にコンビニエンスストアを利用する回数を聞いたところ 男性は 5 回 2 回 3 回 3 回 4 回 女性は 1 回 1 回 5 回 4 回 4 回という解答が得られた (1) 男性 5 人の平均 メディアン モードを求めて下さい (2) 女性 5 人の平均 メディアン モードを求めてください (3) 男女 10 人合計の平均 メディアン モードを求めて下さい 36