Microsoft Word - Stattext07.doc

7 章正規分布正規分布 (ormal dstrbuto) は偶発的なデータのゆらぎによって生じる統計学で最も基本的な確率分布ですこの章では正規分布についてその性質を詳しく見て行きましょう 7. 一般の正規分布正規分布は平均と分散のつの量によって完全に特徴付けられています平均 μ 分散の正規分布は N ( μ, ) 分布とも書かれますここに N は ormal の頭文字を表わしています確率変数 X がこの分布に従うとき X ~ N( μ, ) 分布のように表わされます平均 μ 分散 f (x は以下の式で与えられることが知られていますの正規分布の確率密度関数 ) ( x μ ) f ( x) = e π この章で説明する正規分布の性質は上の式からすべて導かれますがこの本ではあまりこの式にこだわらないように話を進めますこの関数のグラフを描くと図 7- のようになります 0.4/ 0./ μ-3 μ- μ- μ μ+ μ+ μ+3 図 7- N(μ, ) 分布の密度関数ここに左右対称の山の中央が平均値 μ となり中間値も最頻値も平均値に一致します山の高さは確率密度関数の重要な性質全面積がであるというところから求まりますその値 f ) は標準偏差のを用いて以下のように表わされます (μ 7-

0.3989L f ( μ) = = π 確率密度関数の全面積の値はに決まっていますので分布の拡がりを表わす標準偏差が大きくなると確率密度関数の山の高さは当然低くなりますさてこのグラフから確率変数 X が a の値以下となる確率を考えてみますこれは図 7- のグラフでは x = a の位置から左側の面積に相当します P (X a ) a x 図 7- 正規分布の確率面積は積分で表わされる話はしましたので確率は以下のように表わされます確率 a P ( X a) = f ( x) dx この値は一般に数式による積分では求められずコンピュータ等による数値計算で値が求められます平均と分散が与えられた場合のこの確率の計算は Excel の関数を用いて求めることができますが次に学ぶ標準正規分布に従う場合の計算の方がより覚え易いのでここでは説明しないことにします全確率はグラフの全範囲の積分ですから以下のようになります全確率 P ( < X < ) = f ( x) dx = 平均と分散がそれぞれ μ, で表わされるということは式で表現すると以下のようになります確率変数の平均確率変数の分散 E ( X ) = xf ( x) dx V = μ ( X ) = E(( X μ ) ) = ( x μ) f ( x) dx = これらの全確率や平均分散の計算は f (x) として上で表わした式を用いると計算に慣れた人なら簡単に示すことができますがこの本では省略します 7. 標準正規分布ここでは正規分布の中で特によく利用される特別なものを紹介しましょうこれ 7-

は平均が 0 で分散がの正規分布です平均と分散の記号を使うと μ = 0, = となりますこれは N (0,) 分布とも表示され特別に標準正規分布 (stadard ormal dstrbuto) と呼ばれています一般的な正規分布の確率密度関数を表わす式の中で μ = 0, = とおくと標準正規分布に対する以下のような確率密度関数が得られます x f ( x) = e π この関数をグラフで表わすと図 7-3 のようになります 0.4 0. -3 - - 0 3 図 7-3 標準正規分布のグラフすぐ分かるようにこの関数の最大値は f ( 0) = π = 0.3989L です一般の正規分布では確率の具体的な計算を省略しましたがここでは確率変数 X の値 x と図 7-4 で与えられる確率 p = P( X x) との関係を Excel によって求めてみます P (X a ) a x 図 7-4 標準正規分布の確率これらの関係は以下のつの関数で与えられます p = ormsdst(x) x = ormsv( p) この関数は正規 ormal 標準 stadard 分布 dstrbuto 逆 verse という言葉の合成で名前が付けられています具体的な計算は次のでやってみて下さい標準正規分布に対して以下の確率を求めよ 7-3

) P ( X ) ) P ( X ) 3) P ( X ) 4) P ( X, X ) 5) P ( X ) 解答 ) P ( X ) = ormsdst() = 0.9775 ) P ( X ) = ormsdst() = 0.075 3) P ( X ) = ormsdst() = 0.58655 4) P ( X, X ) = ormsdst( ) = 0.373 5) P ( X ) = ormsdst() ormsdst( ) = 0.68689 7.3 正規分布の性質 7.3. 確率の概数正規分布は平均と分散によって分布が完全に決まる確率分布です例えば平均 μ から標準偏差以内に含まれる確率 P( μ X μ + ) は μ やの大きさに関係なくすべて同じ大きさになりますこの性質を利用して平均から標準偏差で測って区切りの良い距離までの確率の概数を覚えておくとおおよその確率を推測するのに便利です区切りの良い距離としては標準偏差の倍倍 3 倍がとられていますその様子を図 7-5 に表わしてみました 0.4/ 0./ α/ α/ μ-3 μ- μ- μ μ+ μ+ μ+3 図 7-5 正規分布と確率これらの範囲に含まれる確率及び両端の確率の合計 α の概数は以下で与えられます P ( μ X μ + ) = 0.683 α = 0.37 P ( μ X μ + ) = 0.954 α = 0.046 7-4

P ( μ 3 X μ + 3 ) = 0.997 α = 0.003 細かいところは大変でしょうから指定された範囲の両端の確率として以下のように覚えておきましょうまでなら 3% までなら 5% 3 までなら 0.3% この数値はいろいろな場面で役に立つはずですある集団の身長の分布は平均 70cm 標準偏差 0cm の正規分布であった以下の確率の概数を求めよ ) P ( 60 X 80) ) P ( 50 X 90) 3) P ( X 90) 解答 ) 00-3 = 68% ) 00 5 = 95% 3) 5 / =.5% 7.3. 偏差値について [Skp OK] ここでは試験などでよく利用される偏差値について説明しますデータの平均と分散が x, s のとき x の偏差値を以下で定義します x x 偏差値 = 50 +0 s これは暗黙の前提として正規分布に近い分布を想定しています x の値が平均点 x に等しいなら試験の点数に似た得点として偏差値 50 点としますそして 3 離れたら外側には 0.3% であるということから計算式が簡単で試験の点数風に見えるように標準偏差の幅を 0 点となるように決めていますそうすると偏差値の範囲はほぼ 0 点と 80 点の間に収まるはずですもちろん得点の分布は正規分布から外れることもありますので以下で述べる順位等を考える際にはつの目安として偏差値を利用すべきでしょうこの偏差値を利用すると正規分布の場合受験生の中での自分の位置が比較的容易に分かります例えば 000 人中偏差値 70 の人の場合上位にずれているわけですから上側には約.5% の人がいます即ち上には 5 人程度の人がいることが分かります具体的に以下のをやってみて下さい 000 人が受験した試験の成績の分布は平均 60 点標準偏差 5 点の正規分布であ 7-5

った A, B, C 君の点数がそれぞれ 75 点,90 点,45 点であるとき以下の問いに答えよ ) A 君の偏差値を求めよ ) B 君の偏差値を求めよ 3) C 君の偏差値を求めよ 4) B 君の順位はおよそ何番か 5) C 君の順位はおよそ何番か解答 ) 60 ) 70 3) 40 4) およそ 5 番 5) およそ 840 番 7.3.3 標準正規分布への変換以前 6.3 節で確率変数の平均と分散の性質について述べましたがここでは確率変数が正規分布に従うときの性質について見てみましょう確率変数 X の平均が μ 分散がのとき新しい確率変数 X = cx + d の平均は c μ + d 分散は c で与えられることは分布の形によらない性質でしたから X が正規分布でももちろん成り立ちますでは X の分布を正規分布に限るとどこが違うのでしょうかそれは X が平均 c μ + d 分散 c の正規分布になるというところです一般の分布では次式によって新しい確率変数を作った場合新しい確率変数がどのような分布に従うか簡単な公式はありませんしかし正規分布の場合変換後もやはり正規分布になるところが特徴的ですこのことを記号を使って表現すると以下のようになります X ~ N( μ, ) 分布ならば X = cx + d ~ N( cμ + d, c ) 分布この関係を利用すると一般の正規分布から簡単に標準正規分布に従う確率変数を作り出すことができます X μ X ~ N( μ, ) 分布ならば X = ~ N(0,) 分布この表式は 6.3 節のにもなっていましたここで述べた性質は数式を使って比較的簡単に証明することができますが積分を用いますので省略することにしますこのように正規分布する確率変数はどんなものでも標準正規分布する確率変数に変えられることは確率の計算の際に非常に便利です例えば身長のデータで平均 7cm, 標準偏差 6cm の集団から人選び出したときその人が 80cm 以上である確 7-6

X μ 80 7 率を求める場合 X = の変換から x = =.333333 とするとこの 6 値は標準正規分布する確率変数の値に変わっていますそこで Excel の標準正規分布の確率を求める関数を利用して以下のようになります P ( X 80) = P( X.333333) = ormsdst(.333333) = 0.09 0.09 コンピュータを利用できないとき正規分布の確率を求めるには数表を用いますそのため殆どの統計学の教科書の巻末には正規分布の数表が付いていますしかし表は平均や分散の大きさごとに用意することはできませんので標準正規分布の場合の値が掲載されていますここで述べた確率変数の性質はすべての正規分布でこの数表が利用できることを保証しています X ~ N(67., 46.35) 分布のとき以下の確率を求めよ ) P ( X 60) ) P ( X 80) 3) P ( 60 X 70) 解答 ) 0.457 0.45 ) 0.030046 0. 030 3) 0.54438 0.54 7.3.4 正規分布の合成ここでは正規分布する確率変数の和について考えます一般の確率変数 X, X について平均と分散がそれぞれ μ, 及び μ, で与えられるとき新しい確率変数 X = X + X の平均と分散はそれぞれ μ + μ, + で与えられますこれは 6.3 節で述べた一般的性質です正規分布の場合和を取った確率変数もやはり正規分布になるというところが重要ですこれを記号を用いて表わしてみましょう X ~ N( μ, ) 分布, X ~ N( μ, ) 分布のとき X = X + X ~ N( μ + μ, + ) 分布正規分布する確率変数はいくつ足してもやはり正規分布します互いに独立な確率変数 X, X が X ~ N(0,9) 分布, X ~ N(7,6) 分布である 7-7

とするとき以下の確率変数 X の分布を求めよ ) X = X + X ) X = X + X 3) X = X X 解答 ) X ~ N(7,5) 分布 ) X ~ N(7,5) 分布 3) X ~ N(3,5) 分布互いに独立な確率変数 X ( =,, L, ) がそれぞれ N ( μ, ) 分布に従うとき以下の変数の分布を求めよ x = ( X + X + L + X 解答 x ~ N( μ, ) 分布 ) ある商品の製造は3つの工程からなり各工程に要する日数は以下のような正規分布に従うとする平均標準偏差第工程 3 第工程 0 3 第 3 工程 5 ) 完成までに要する時間の平均と標準偏差を求めよ ) 納期を 0 日とするとき納期に遅れる確率を求めよ解答 ) 平均 8 日, 標準偏差 3.74 日 ( 分散 4 日 ) 0 8 ) x = = 0.5345 より 3.74 p = ormsdst(0.5345) = 0.9649 0.96 7.3.5 中心極限定理 [Skp OK] 正規分布に関する性質として最後に最も重要で利用範囲の広い中心極限定理と呼ばれるものについて説明しますこれは簡単に言うとどんな分布の確率変数でも十分多くの平均を取るとその平均の分布は正規分布になるという驚くべき定理ですこのことがこれまで正規分布を統計の基本と言ってきた理由であり正規分布の重 7-8

要性を示す性質です以下にこの定理を書いておきましょう中心極限定理独立な確率変数 X ( =,, L, ) が平均 μ 分散の一般的な確率分布に従うとき容易に満たされるある条件のもとで以下となる lm = ( X μ ) Σ ~ N(0,) 分布 = まず確率変数 X について X なりますそれを合計した = すさらに ( X μ ) Σ = = μ にすると平均は 0 分散はもとのとおりのに ( X μ ) については平均が 0 分散がになりま = とすると平均が 0 分散がになりますこれは一般的性質です中心極限定理はここからが重要でこのを十分大きくするとこれが正規分布になるというところですもう少し実用的な表示法を考えてみましょう独立な確率変数 X, X, L, X から新しい確率変数として X = X を作ります一般的性質として確率変数 X の平 = 均は μ 分散は = となることは容易に分かると思います中心極限定理 = はを十分大きくすると X が正規分布になるというところです = = + + + X X ( X X L X ) ~ N μ, 分布 = = = 直感的に理解し易い特別な場合として各確率変数の平均と分散が等しい場合を考えてみましょう標本の個のデータの平均を求めるときがこれに相当します独立な確率変数 X, X, L, X が平均 μ 分散の確率分布に従うとき確率変 μ 数 X = X の平均は = μ 分散は = = 標準偏差はとなります X = X = ( X + X + L + X ) ~ N( μ, ) 分布 = 7-9

この確率変数 X は標本平均を表わしています実験データで個の測定データの平均を取ってつのデータとするときこのばらつきの統計量 ( 標準誤差 ) としてここで与えた標本平均の標準偏差が用いられます以上のことからたくさんのデータの平均を取るという操作にはつの意味があることが分かりますつは一般的な性質として分散の値がデータの個数に反比例して小さくなり測定の精度が上がるということもうつは分布の形の分からないデータでも平均化したものは性質が完全に分かっている正規分布に従うということです後者こそが中心極限定理の本質です最後にここで述べたたくさんのデータというのはどの程度でしょうかデータの分布にもよりますが 6 個程度の平均でもかなり正規分布に近付くようなものもあります資料の重さ (mg) を 0 回測定したところ測定誤差があり以下の結果を得た平均と標準偏差を求めそれから平均の標準偏差 ( 標準誤差 ) を求めよ 7.5, 7.3, 70.8, 7., 70.9, 7., 7.4, 7.5, 70.9, 7.3 解答平均 7.9, 標準偏差 0.558 0.558, 平均の標準偏差 0.080898 0.08090 つの処理に平均 3.54 分標準偏差 0.47 分かかるとする同じ処理を 0 回繰り返すとき 38 分以上かかる確率を求めよ解答 0 回の処理で平均 35. 4 分分散.09 標準偏差.4867 38 35.4 x = =.749345.4867 p = ormsdst(.749345) = 0.0406 0.040 7-0