lim xx x llllll tt =logx! xx ですつまり xxが十分に大きければ llllll tt logx! ですこの式は単純な式で慣れてくれば直感的にわからないこともないのですがきちんとこれを証明するには手間がかかり途中でいくつかのテクニックを使う必要がありますこの証

3-4. 正規分布 3-4-. 二項分布から正規分布を導く二項分布は比率データーに関する確率分布ですから不連続です nnが大きくなったら次第になめらかな曲線に近くなってくるでしょう nnを無限個にすれば完全に滑らかになるはずです nnを無限大にするときにつの方向が考えられます一つは ppを一定にして nnを無限大に大きくする方向ですこれが正規分布ですすでに二項分布のところで pp を一定にしながらnnを大きくするということを試してみましたこれら例からわかるように次第に左右相称になり分散が一定の値に近づきます二項分布の正規分布への拡張の目的の一つは身長や体重のような比率データーではない連続した値をとるデーターを統計的に扱うための拡張ですいくつかのグループのデータを比較してその差の有意性を判断することを可能にするためです拡張のもう一つの方向は平均値 nnnnを一定にして pp を小さくしてnnを大ききしていく方向ですその結果分布は大きく偏っていきますこれがポアソン分布です ppを小さくすることからわかるようにポアソン分布は極めてまれに起こる現象についての分析に使いますポサソン分布は水産の世界ではたとえばプランクトンの計数などのときにきわめて稀な種類が計数版の方形枠の中に現れたり現れなかったりする場合などに使いますここではまず正規分布について考えます二項分布の正規分布への拡張二項分布 B(nn, pp) で確率 ppの現象が現れる回数 k の関数としてあらわすと WW(kk) = nn CC kk pp kk qq ( kk) コンビネーション記号を書き換えて分数で表すと WW(kk) = nn! kk!(nn kk)! ppkk qq (nn kk) p+q= これを対数にすると logw(kk) = log(nn!) log(kk!) log(nn kk)! + kk log(pp) + (nn kk) log(qq) となりますこうすると複雑な式が対数の足し算に単純化できます掛け算の形が足し算になったためにそれぞれの項を独立して考えることができますここでは k を連続変数 ( 整数にかかぎらず様々な値をとる実数 ) として W(k) の形を考えるのですから k=x と書き換えておきましょう ( 一種の習慣です kは様々な値をとる不連続な整数のイメージですこれに対して x は連続して様々な値をとる実数のイメージです ) 突然ですが logw(xx) = log(nn!) log(xx!) log(nn xx)! + kk log(pp) + (nn xx) log(qq) 式 7

lim xx x llllll tt =logx! xx ですつまり xxが十分に大きければ llllll tt logx! ですこの式は単純な式で慣れてくれば直感的にわからないこともないのですがきちんとこれを証明するには手間がかかり途中でいくつかのテクニックを使う必要がありますこの証明をしますが長い退屈な証明なのでそういうことが嫌いな人はここは適当に読み飛ばしてくださいそれでも問題ないと思いますが何をしているのか理解するためには読んでおくと参考になるかもしれませんの証明この式は lim xx x llllll tt = x log ee tttttt lim x log ee xx! = の変形です元の式の意味を考えながらこの形に持っていきます元の式の極限記号の中 x log tttttt の意味は曲線 log t と x 軸直線 x=x に囲まれた次の図形の面積を求めるということです.5.5 -.5 3 4 x 5 6 - 図 8-, 対数の積分の極限の計算 - この図に次のようにいくつかの長方形を書き加えます

.5.5 -.5-3 4 5 6 x 図 8-, 対数の積分の極限式の計算 - この図は以下のつの図と log t の曲線を重ね合わせたものです図 8-3, 対数の積分の極限式の計算 -3 図 8-4, 対数の積分の極限式の計算 -4 図 8-3 の4つの4 角形の面積の合計を考えますつの4 角形の幅はですそうするとたとえば一番左の四角形の面積は log =log ですね 4つの四角形の面積の合計は log +log3+log4+log5 ですつまり log5! になります X がもっと大きくなった場合について一般化すると面積の合計は logx! です同じようにして図 8-4 の黄色い四角形の面積の合計は log(x-)! ですここで面積の大きさを比べると図 8-3 の四角形の面積の合計が一番大きくて次が x log tttttt で図 8-4 の四角形の面積の合計が一番小さいということに気が付きます不等号で表すと次のようになります

x log(xx )! < log tttttt < X は以上の整数なのだから log xx! は正の値になりますしたがって log xx! で各辺を割っても不等号の向きは変わらないでしょうですから log(xx )! < xx log tttttt < 右辺がであることは明らかです ( 分母と分子が同じだから ) そこで一番左の辺についてその極限を考えます = log(xx )! = log(xx ) + log(xx ) + + log log xx + log(xx ) + log(xx ) + + log log xx = log xx log xx = この式で x が無限大に大きくなれば式の項目はに近づくでしょうこのことは私には自明のように思えますがこの辺の感覚は人によって違うかもせれません念のために手数をかけて証明しておきましょうありそうなのは以下の証明です証明したい内容はですまず以下の式がなりたつことを示します lim xx log xx = log kk! > log kk + log(kk ) + + log kk > kk ) log kk この式の意味は以下の通りですまず k ですがここでは k 半分を超えない整数の意味で使っていますたとえば k=5 の時は k = k=4 の時も k = 左辺と真ん中の辺のlog kk! > log kk + log(kk ) + + log kk のところは部分が全体を超えることはないと言っているだけです log kk! = log kk + log(kk )! + + log

でこれは正の数を足し合わせただけのものですこれの値がそれよりも少ない工数を足し合わせた log log kk + log(kk ) + + log kk よりも大きいのは当然です分かりにくいのは右の不等式ですこれは次の図に示したことを言っているのです.5 黄色で示した四角形の面積の総和は青で示した四角形の面積の総和を超えない.5 これで log kk! > kk -.5 k/ 3 ) log kk 4 5 6 - を示すことができました k 図 9 大小関係 log xx これをに戻って考えると x がより大きいのでこの値は正ですから次のようになりますなお分子が変わらずに分母により小さなものが入るので不等号の向きは反対になります < log xx < log x xx logxx = log xx = xx (log xx log ) xx ( log xx ) lim xx xx = ( log xx ) ですから挟み撃ちの原理ではさんでいる両側がなのだからはさまれているものもですということは log xx lim xx = log xx lim ( xx ) = log(xx )! lim = xx

log(xx )! < xx log tttttt < = で左辺も x を無限大にしたときの極限はですからこれも挟み撃ちの原理で当然 xx log tttttt についても xx log tttttt lim x です分数の値がということは分母分子が同じということですからというか x が十分大きい時です長かったけど証明終わり lim x xx log tttttt = = xx log tttttt ということで式 7 に戻ります logw(xx) log(n!) log(xx!) log(nn xx)! + xxlog(pp) + (nn xx) log(qq) xx nn xx log(nn!) log tttttt log tttttt + xx log pp + (nn xx) log qq この両辺を微分します {log WW(xx} [log tt] xx + [log tt] nn xx + log pp log qq p+q= log= ですから {log WW(xx} [log tt] xx + [log tt] nn xx + log pp log pp log xx + log(nn xx)+log pp log( pp) (nn xx)pp log xx( pp) log = ですからこの関数がになるのは (nn xx)pp x( pp) = の時ですこれを解いて (nn xx)pp = xx( pp) nnnn xxxx = xx xxxx xx = nnp となります nn xxに具体的な数字を入れてみるとわかりますが {log WW(xx} は減少関数ですから logw(x) は xx = nnp 極大になりますということは W(x) も x=np で極大になるということです

この場合極大値が一つしかありませんから最大値になりますその値になる確率が最も高いその値が出てくる頻度が最も高いということですねそういう値を最頻値といいますところで nnp とはいったい何でしょうかこれはすでに二項分布のところでやりました試行の回数にある現象が現れる確率を掛けたものですね例を挙げると正確なサイコロを振った時にもしが出たら円もらえるとしますサイコロを3 回振ったらいくらもらえることが期待できますかというような問題の時に 3 = 6 と計算しますがこの例では nnが 3 で nn が nnnnがということですつまりある確率 6 で起こる現象があってそれが現れるかどうn 回試した時に何回現れるかを予想した値ですこれを期待値と言います普通期待値はμという記号で表します実際のデーターからμを予想するときはデーターの平均値 xx をその予測値としますつまり µ = nnnn ですあることが起こるということとあることが起こらないいいかえればお互いに同時に起こることがない事象ですがこれを反事象と言います起こらない確率をqqとすると pp + qq = ですまた起こらない回数をzとすると nn = xx + zz ですそこで pp = qq xx = nn z を式にいれます (nn xx)pp x( pp) = nn (nn zz) ( qq) (nn zz) ( qq) = zz( qq) (nn zz)qq = 右辺がだから左辺の分母分子を入れ替えてつまり式と同じ形になって (nn zz)qq zz( qq) = zz = nnnn μμ = nnnn となります右から見ても左から見ても式の形は同じということですねまたもともと項分布なのですから p を一定にして n を大きくしていけば左右対称に近づきます nnを無限大にすればその分布の形も左右平等です

つまり期待値 = 最頻値 = 中央値ということです ( これは項分布の性質でもありますね ) 次にもう一回微分します式の段階前の形で微分したほうが定数項が対数の外側に出ているので計算しやすいですね {log WW(xx} { log xx + log(nn xx) + log pp log( pp) } { log xx} + {log(nn xx)} xx nn xx この回と回の微分式からどこか一点の微分値を求めてそれを使って Taylor 展開をしたいのです今わかっているのは x=np で {log WW(xx} = ということですこれを利用したいので x=np の時の {log WW(xx} を求めます {log WW(xx} xx nn xx {log WW(nnnn} nnnn nn nnnn nn ( pp + pp ) nnnn( pp) ところで式 4 で示したように二項分布では nnnn( pp) = σσ ですから {log WW(xx} σσ こでで式 7 を Taylor 展開します Taylor 展開を知っていることは全体を理解するために必ずしも必要ではないのですが何をやっているのかわからないといきなり式が書き換えられたような気がして話についていきにくくなります Taylor 展開とは複雑な式を分かりやすい多項式の式に近似的に変換するテクニックです与えられた式を何回か微分してそれらの微分式を別々の項として足し合わせる形に近似して式を扱いやすい形に変形します Taylor 展開が何か知りたい人は 3-4-.Taylor 展開を読んでください Taylor 展開の中身を知らなくても Taylor 展開とは式を何回か微分して微分したものの和の形で式を近似的に簡略化することだと理解してくださいここでは回まで微分します幸い私たちは式 7 logw(xx) = log(n!) log(xx!) log(n xx)! + k log(p) + (n xx) log(q) の

回微分と回微分の結果を知っていますどこかの xx の値の近傍で考えるならば三回微分以降の式の値は十分小さいので無視できますということで二回微分の項まで式 7 を Taylor 展開しますどの値の近傍で Taylor 展開するかが問題になりますがもっともなだらかで変化が少ないと考えられるところが良いでしょうまたわかりやすいところの方が良いでしょうそこで考えられるのは期待値 μの近傍で Taylor 展開することです log WW(xx) の一回微分の x=μにおける値すなわち (logw(μ) がであることは確認ずみですね logw(xx) = log(n!) log(xx!) log(n xx)! + k log(p) + (n xx) log(q) logw(μμ) + (log(μμ))! (xx μμ) + (log(μμ)) (xx μμ)! = log WW(μμ) + (log(xx)) (xx μμ) =log WW(μμ) + σσ (xx μμ) となるのですがこれを対数式でなくもとの式に戻します log ee ee = ですからこれをつかって次のように変形します著者注ちなみにここで e は自然対数の底として知られるもので数学的にはネイピア数と言います高校の数学でネイピア数とは何かしっかりとした説明を受けていない人が多いということを最近知りましたそこでネイピア数についての解説を (3-4-3. ネイピア数 ) に書いておきました参考にしてくださいしっかり理解すると以下の説明がわかりやすくなりますなお記号の約束事として特に断らない限り対数 log AAと書いたときのlog は log ee AAのことで対数はネイピア数を底とする自然対数だと理解してくださいなお対数 dd log xx の微分 = 指数の微分 ddee xx = xx eexx は知っているものとして話を進めますこれがわからない人は (3-4-3. ネイピア数 ) を読んでください log WW(xx) log WW(μμ) + (xx μμ) σσ = log ee WW(μμ) + σσ (xx μμ) log ee ee = log ee WW(μμ) + log ee ee σσ (xx μμ) = log ee WW(μμ) + log ee ee σσ (xx μμ)

となるので対数の中だけを考えれば = log ee WW(μμ)ee σσ (xx μμ) W(x) W(µ)ee σσ (xx μμ) となります数学の答えとしてはこれで良いのかもしれませんがこれではあまりよく意味がわからないし正規分布として私たちが知っている式とも表現の仕方が違います式 8 式に含まれている W(μ) は μ が与えられば一定の値として定数になるはずですがこれがどのような値なのかは少なくとも知りたいところですそこで何らかの条件を与えて W(μ) の値を求めることを考えますすぐに気が付く条件はこの式は確率分布の式なのだからその面積の総和はということですつまり - からまで積分すればその値はになるということですですから W(µ) = A として A について以下の式を解けばよいことになります WW(μμ)ee xx μμ σσ = AA ee xx μμ σσ = A ee xx μμ σσ ここではあまり関係がないのですが指数のカッコの中の xx μμ について考えておきますこの値は期待値 ( 母集団の平均値中央値 ) と実際に得られたデーターを標準偏差で割ったものですねつまり μを起点 () としたときに μからデーター x までの距離を表十偏差 σを単位として表したものですつまり正規分布するデーターをそのばらつきの大きさにかかわらず標準化して表すときの距離ということになりますそういうことも意識しながらと置いて式を単純化します両辺を x で微分すると xx μμ σσ = XX xx μμ X = σσ = σσ 計算の便宜上 dx = σdxと分離できるものとして σσ

A ee xx μμ σσ を A ee xx μμ σσ = A ee XX σσσσσσ = σσσσ ee XX と変形しますこれは分布の中心をとして σ を単位にした距離に変換する標準化のための作業ですつまりこの問題は ee XX の答えを出す問題という問題に還元されます答えを先に言うとです ee XX = ππ 式 9 一般の証明で変数を X と書くのはあまり一般的でないので変数を xx と表して説明します原点を中心に左右対称なので II = 突然ですがここで両辺を二乗します II 4 II = ee xx ee xx = ee xx ee xx 右辺の番目の定積分と番目の定積分を区別して別々に計算するものとして番目の定積分の変数をyとして書き換えます II 4 = ee xx ee yy これは積分したものの掛け算なのですが x とyが互いに独立で直行しているとすれば積分したものを掛け合わせることと重積分することは同じ結果になります ee x ee yy = ee xx ee yy ということですわざわざつの確率分布の掛け算の形にして複雑化していますここだけで考えるとこの作業は正規分布の記述を簡略化するためなのですがもう少し深く考えるとこの作

業によって確率分布同士の掛け算として分散を確率的に扱うことを可能にしていると言えます作業の内容は立体空間にできた確率分布を新たに作った一つの軸で説明できるように書きなおすという作業ですこの作業を畳み込みというようです作業のプロセスは立体空間の体積を記述する式を作ることその立体に新たな座標軸を作ってその座標軸での積分で体積を表現できるようにすることです畳み込みと座標変換については別に項を設けて説明したのでそちらを参照してください (3-4-4. 畳み込み ( 重積分と座標変換 ) 畳み込みを使って式を変形していく流れだけを追います ee x ee yy = ee xx = ee (xx +yy ) ee yy 何をやっているのかというとつの変数の積分の積をつの変数の積の積分として表しそれを x=rcos θθ y=rsin θθという極座標に変換して θで積分するため無理やり x +y を作っているのですそれができたのであらためて x = r cos θθ y = r sin θθ で極座標変換するとまず内側の積分とおいて II 4 = ee (xx +yy ) = ee rr rrrrrrrrrr ee rr rrrrrr について ee rr rr = ss r = rrrrrr = = rrrrrr = ee ss ee ss = [ ee ss ] ππ

= ee ee = { ( )} = II 4 の式に戻って ππ II 4 = ee rr rrrrrrrrrr ππ = ee ss ππ = ππ = ππ = [θθ] = ππ = ππ 4 したがって II 4 = ππ 4 ところで制約条件は II = ππ I = ππ です式 9 に戻ると A AA ee xx μμ σσ ee xx μμ σσ = = σσσσ = σσσσσσ ee XX

したがってとなって A の値が決まりますもう忘れてしまったかもしれませんがとしたのでしたねそこで式 8 にこの結果を戻して = σσ ππaa = ππσσa ππσσσσ = A = ππσσ W(µ) = A W(xx) W(µ)ee σσ (xx μμ) W(xx) eeσσ (xx μμ) ππσσ W(xx) ππσσ ee xx μμ σσ これは正規分布の式です平均が µ 分散がσσ の正規分布をN(µ, σ) と書きあらわします N(, ) の正規分布を標準正規分布と言います xxがn(µ, σ) に従うとき P(xx) = ππσσ ee xx μμ σσ 式確かにnnが十分に大きければ項分布は正規分布に近づくことが示されました正規分布は二項分布の極限だと説明されることが多いと思います確かにそうなのですがそれ以上に個の同じ二項分布を重ね合わせて畳み込んで4つ折りすることによって確率の式の中に分散という中心からの距離の尺度を持ち込んだことが大きいと思います畳込の操作を理解するとこの感覚が納得できると思います