平 成 10 年 度 数 学 への 誘 い ( 筑 波 大 学 数 学 体 験 学 習 教 材 ) 統 計 学 は 未 来 を 予 測 できるか? 赤 平 昌 文 ( 筑 波 大 学 数 学 系 ) 1. はじめに 最 近 の 世 の 中 の 状 況 をみると, 従 来 のシステムがうまく 機 能 しなくなり, 大 幅 な 改 革 を 余 儀 なくされている. このような 混 沌 として 先 の 見 えない 時 代 に 統 計 学 は 有 効 であろうか. 統 計 学 は, 本 来, データに 基 づいて, そのデータの 源 泉 である 母 集 団 の 特 性 について 推 測 するものであるが, さらに 拡 張 することによって, 統 計 的 予 測 問 題 を 考 察 することもできる. その 際, 観 測 されたデータ X に 基 づいて 未 来 ( 未 観 測 ) の 確 率 変 数 Y を 予 測 することになるが, 通 常, X, Y の 分 布 が 未 知 の 母 数 (パ ラメータ) に 依 存 するので, そのことを 十 分 考 慮 しなければならない. このことは, ある 時 点 までに 得 られたデータに 基 づいて 未 来 を 予 測 できることを 示 している. そ のようなことは, 実 際 に 可 能 であろうか? 本 論 においては, まず, ベルリンの 壁 の 崩 壊 年 の 予 測 について 述 べ, 1999 年 の 日 本 のプロ 野 球 チームのある 時 点 での 勝 数 X に 基 づいて, 残 り 試 合 での 勝 数 の 予 測 問 題 について 考 え, さらに 1999 年 の 米 国 の 大 リーグにおいてホームラン 数 の 新 記 録 達 成 を 競 った 選 手 のある 時 点 までのホームラン 数 X に 基 づいて, 残 り 試 合 での ホームラン 数 の 予 測 問 題 について 考 察 する. そして, 現 実 のデータに 基 づいて 予 測 した 結 果 と 実 際 に 起 こった 結 果 を 照 らし 合 わせて, 本 論 の 統 計 的 定 式 化 の 下 での 予 測 法 の 妥 当 性 を 確 かめる. 2. ベルリンの 壁 の 崩 壊 年 の 予 測 1969 年 に 米 国 の 青 年 が 夏 休 みを 欧 州 で 過 ごしていたとき, ふ. と. ベルリンの 壁 を 訪 れた. 東 西 冷 戦 の 象 徴 であるベルリンの 壁 は 1961 年 に 築 かれていて, ちょうど 8 年 が 経 過 していた. その 青 年 はその 壁 に たい じ 対 峙 して, この 壁 の 存 在 する 状 況 はあと どのくらい 続 くかを 考 えた. そのとき, その 青 年 は 築 年 数 だけでその 壁 の 存 続 期 間 を 見 積 もる 方 法 を 思 いついた. まず, その 訪 れた 時 点 は 壁 が 存 在 する 期 間 の 任 意 の 時 点 であり, 何 か 特 別 な 時 点 ではないと 考 えた. そして, 壁 が 築 かれてから 存 続 する 期 間 を θ 年 とすれば, 区 間 [1961 + (θ/4), 1961 + (3θ/4)] の 中 に, 訪 れている 時 点 (1961 + X) 年 が 入 る 可 能 性 が 確 率 50% であると 考 えた. 実 際, 壁 がその 時 点 (1961 + X) 年 から 存 続 する 期 間 は (θ X) 年 であるから, θ/4 X 3θ/4 より X 3 θ X 3X 1
となり, 壁 を 訪 れた 時 点 からその 壁 が 存 続 する 期 間 が 築 年 数 の 1/3 倍 から 築 年 数 の 3 倍 になる 確 率 が 50% となる. 今 の 場 合, X =8であるから, その 青 年 がその 壁 を 去 る 前 に, この 壁 の 存 続 期 間 は 50% の 確 率 で 2 年 8ヶ 月 以 上 24 年 以 下 であろう と 友 人 に 予 言 した. 実 際, この 壁 は 20 年 後 の 1989 年 11 月 に 崩 壊 した. その 崩 壊 は 突 然 ではあったがその 予 言 はほぼ 予 想 通 りであった. 同 様 の 考 え 方 で, 壁 を 訪 れた 時 点 からその 壁 が 存 続 する 期 間 は 築 年 数 の 1/39 倍 から 築 年 数 の 39 倍 になる 確 率 は 95% であることが 示 される. なお, この 青 年 は 後 に, 米 国 のプリンストン 大 学 教 授 ( 宇 宙 物 理 学 ) になった. 3. 統 計 的 予 測 問 題 と 準 備 本 論 では 2 つの 具 体 的 な 予 測 問 題 について 考 えてみよう. [ 問 題 1] 1998 年 の 日 本 のプロ 野 球 では, シーズン 後 半 にセ リーグの 横 浜, 中 日, 巨 人 の 3 チームが 優 勝 争 いを 展 開 した. このとき, 各 チームは 残 り 試 合 において 何 勝 するだろうか? [ 問 題 2] 1998 年 の 米 国 の 大 リーグではホームラン 数 の 新 記 録 達 成 の 可 能 性 につい て, 多 くの 人 達 の 注 目 を 集 めた. 残 り 試 合 数 が 少 なくなった 時 点 で, マグワイア 選 手 やソーサ 選 手 があと 何 本 ホームランを 打 つのかという 話 題 で 興 奮 するのは 当 然 である. さて, 残 り 試 合 で 両 選 手 のホームラン 数 は 何 本 であろうか? そこで, 上 記 のような 問 題 を 取 り 組 む 際 に 統 計 的 定 式 化 が 必 要 になるが, そのた めの 準 備 をしよう. 3.1. 2 項 分 布 まず, 1 枚 のコインを 用 意 し, コインを 投 げる 実 験 をするときに, このコインは 表 か 裏 のいずれかが 出 るとし, また, 表 が 出 る 確 率 が p (0 <p<1) とし, さらにこの 実 験 を 通 してこの 確 率 は 変 わらないとする. このとき 裏 が 出 る 確 率 は q =1 p に なる. 一 般 に, このような (2 値 性, 定 常 性 をもつ) 実 験 を 行 うことを 2 項 試 行 (また はベルヌイ 試 行 ) という. つぎに, 上 のコイン 投 げ 実 験 の 試 行 を 1 回 行 ったときの 結 果 を X とし X = ( 1 ( 表 が 出 たとき), 0 ( 裏 が 出 たとき) とする. このとき, X =1 をとる 確 率 (probability) は p になり, これを 記 号 で, P {X =1} = p で 表 わし, 同 様 に P {X =0} = q で 表 わす. ここで, X は 変 数 で, X のとり 得 る 値 に 対 してその 確 率 が 定 まるとき, X を 確 率 変 数 という. さら 2
に, この 試 行 を n 回 独 立 に 繰 り 返 したときの 結 果 を X 1,,X n として, その 和 を Y = P n i=1 X i (n 回 のうち 表 が 出 る 回 数 ) とすれば, Y は 確 率 変 数 で, その 確 率 分 布 は f Y (k) =P {Y = k} = n C k p k q n k (k =0, 1,,n) (1) になり, これを 2 項 分 布 (binomial distribution) といい, 記 号 で B(n, p) で 表 す ( 図 1~3 参 照 ). 上 記 の X の 確 率 分 布 は, (1)で n =1の 場 合 であり, f X (x) =P {X = x} = p x q 1 x (x =0, 1) になり, これは 2 項 分 布 B(1,p)(またはベルヌイ 分 布 ) である. なお, (1)は (p + q) n の 2 項 展 開 の p k q n k の 項 になっていることに 注 意. また, Y が 2 項 分 布 B(n, p) に 従 うとき, Y の 平 均 µ, 分 散 σ 2 はそれぞれ nx nx µ = kf Y (k) =np, σ 2 = (k µ) 2 f Y (k) =npq になる. k=0 k=0 図 1. 2 項 分 布 B(10, 0.2) 図 2. 2 項 分 布 B(10, 0.5) 図 3. 2 項 分 布 B(10, 0.8) 3.2. ポアソン 分 布 上 記 において, 離 散 的 な 時 点 でランダムに 起 こる 現 象 に 注 目 したときに 2 項 試 行 列 でとらえたが, 連 続 な 時 点 の 場 合 にはどうであろうか. 区 間 (0,t) を 幅 h = t/n の n 個 の 小 区 間 に 分 割 して, 各 小 区 間 ではある 事 象 が 2 回 以 上 起 こり 得 ないほど n を 十 分 大 きくとるとする. 各 小 区 間 においてその 事 象 が 1 回 起 こる 確 率 を p とし, 区 間 (0,t) においてその 事 象 が 起 こる 小 区 間 の 数 を X とし, X が n 回 の 独 立 な 2 項 試 行 の 結 果 の 和 と 見 なせるとき, X は B(n, p) に 従 う. いま, 区 間 (0,t) におけるそ の 事 象 の 平 均 生 起 数 を λ で 一 定 とすれば, np = λ となる. このとき, n (すな わち p 0) とすれば f X (k) =P {X = k} = n C k p k (1 p) n k = λk e λ k! 3 n(n 1) (n k +1) k! µ k µ λ 1 λ n k n n
になる. ただし, 1+ 1 n n e (n ) とする. そこで, 確 率 変 数 Y が 確 率 分 布 f Y (k) =P {Y = k} = λk e λ k! (k =0, 1, 2, ; λ > 0) に 従 うとき, これをポアソン 分 布 (Poisson distribution) といい, 記 号 で Po(λ) で 表 わす ( 図 4, 5, 6 参 照 ). 実 際 には, 一 定 の 時 間 間 隔 内 における 機 器 の 故 障 数, 電 話 がかかってくる 回 数, 交 通 事 故 数 などがポアソン 分 布 に 従 うことが 知 られている. また, Y がポアソン 分 布 Po(λ) に 従 うとき, その 平 均 µ, 分 散 σ 2 はそれぞれ µ = X kf Y (k) =λ, σ 2 = k=0 X (k µ) 2 f Y (k) =λ k=0 になる. 図 4. ポアソン 分 布 Po(1) 図 5. ポアソン 分 布 Po(5) 図 6. ポアソン 分 布 Po(9) 4. 予 測 問 題 の 統 計 的 定 式 化 とその 解 決 観 測 データ ( 確 率 変 数 ) を X, 未 観 測 確 率 変 数 を Y とし, X, Y が 未 知 の 母 数 θ を もつある 確 率 分 布 に 従 っているとする. このとき, 任 意 の α (0 < α < 1) に 対 して, X に 基 づく 区 間 [a(x),b(x)] をとって, Y がこの 区 間 に 入 る 確 率 が 1 α 以 上 にな る, すなわち, すべての θ について P θ {a(x) Y b(x)} 1 α (2) となるとき, この 区 間 [a(x),b(x)] を 信 頼 度 1 α の 予 測 区 間 という. また, X が 実 現 値 x をとるとき, 区 間 [a(x),b(x)] を 信 頼 係 数 100(1 α)% の 予 測 区 間 という ( 図 7 参 照 ). 4
図 7. 信 頼 係 数 100(1 α)% の 予 測 区 間 [a(x),b(x)] 4.1. [ 問 題 1] の 統 計 的 定 式 化 とその 解 決 まず, プロ 野 球 で, あるチームが m 試 合 消 化 した 段 階 で X 勝 しているとき, 残 り n 試 合 での 勝 数 Y を 区 間 予 測 しよう. このとき, 試 合 の 結 果 は 勝 ちか 負 けか の 2 通 りで 引 き 分 けは 除 いて 考 え, そのチームの 1 試 合 当 り 平 均 勝 率 を p とすれ ば, X, Y はそれぞれ 2 項 分 布 B(m, p), B(n, p) に 従 うと 考 えられる. ただし, p は 0 <p<1 で 未 知 とする. また X, Y は 互 いに 独 立, すなわち 任 意 の x, y について P {X = x, Y = y} = P {X = x}p {Y = y} と 見 なせるから, T = X + Y とおくと, T も 2 項 分 布 B(m + n, p) に 従 う. さらに, T = t を 与 えたときの Y の 条 件 付 確 率 分 布 f Y T (y t) =P {Y = y T = t} = P {Y = y, T = t}/p {T = t} (P {T = t} > 0) は, 超 幾 何 分 布 になり, これは p に 無 関 係 になる. そして f Y T (y t) は 図 8 のように 与 え られる. そこで, m, n が 大 きいとき, f Y T (y t) を 正 規 分 布 によって 近 似 して, (2)よ り 各 t について 分 布 の 両 裾 の 確 率 ( 面 積 ) がそれぞれ α/2 となるように 定 められた 予 測 曲 線 Y = a(x), Y = b(x) を 近 似 的 に 求 めることができ, 信 頼 度 1 α の 予 測 区 間 も 得 る. 次 に, その 応 用 をもっと 具 体 的 なデータに 基 づいて 考 えてみよう 5
図 8. T = t を 与 えたときの Y の 条 件 付 確 率 分 布 例 1(ミラクルは 起 こるのか?). 日 本 のプロ 野 球 も 大 詰 めを 迎 えた (1999 年 9 月 8 日 ) 現 在, セ リーグにおいて 巨 人 は 2 位 であるが, 果 たしてミラクルは 起 こるの か? そこで, 横 浜, 中 日 も 含 めた 残 り 試 合 での 勝 数 Y の 区 間 予 測 を 行 うと, Y の 信 頼 係 数 100(1 α)% の 予 測 区 間 と 予 測 曲 線 を 得 る ( 表 1, 図 9 参 照 ). 信 頼 係 数 (%) 中 日 巨 人 横 浜 99 [ 6.699, 19.861] [ 5.444, 18.403] [ 5.870, 19.924] 95 [ 8.349, 18.437] [ 7.018, 16.952] [ 7.533, 18.308] 90 [ 9.194, 17.686] [ 7.829, 16.191] [ 8.395, 17.466] 80 [10.167, 16.802] [ 8.767, 15.301] [ 9.396, 16.484] 70 [10.821, 16.195] [ 9.400, 14.693] [10.074, 15.816] 60 [11.340, 15.708] [ 9.904, 14.206] [10.615, 15.282] 50 [11.783, 15.286] [10.335, 13.785] [11.079, 14.822] 表 1. 残 り 試 合 での 各 チームの 勝 数 の 予 測 区 間 6
図 9. 中 日 の 勝 数 Y の 予 測 曲 線 また, 前 半 が 終 了 した 1999 年 7 月 24 日 現 在 のセ リーグの 上 位 3 チームの 成 績 は 次 表 のようであった. チーム 試 合 数 勝 数 負 数 引 分 残 り 試 合 数 中 日 83 50 33 0 52 巨 人 81 44 37 0 54 横 浜 81 40 41 0 54 表 2. 1999 年 7 月 24 日 現 在 の3チームの 成 績 このとき, 各 チームの 後 半 での 勝 数 の 信 頼 係 数 100(1 α)% の 予 測 区 間 と 予 測 曲 線 を 得 る ( 表 3, 図 10 参 照 ). 信 頼 係 数 (%) 中 日 巨 人 横 浜 99 [19.430, 42.233] [17.159, 41.077] [14.697, 38.698] 95 [22.285, 39.784] [20.025, 38.387] [17.471, 35.899] 90 [23.750, 38.488] [21.510, 36.976] [18.918, 34.441] 80 [25.439, 36.959] [23.232, 35.324] [20.606, 32.743] 70 [26.576, 35.909] [24.398, 34.196] [21.755, 31.588] 60 [27.477, 35.064] [25.327, 33.292] [22.673, 30.667] 50 [28.247, 34.333] [26.123, 32.512] [23.463, 29.875] 表 3. 後 半 戦 における3チームの 勝 数 の 予 測 区 間 7
図 10. 中 日 の 勝 数 Y の 予 測 曲 線 4.2. [ 問 題 2] の 統 計 的 定 式 化 とその 解 決 プロ 野 球 で, ある 選 手 がある 時 点 で, それまでに 打 ったホームラン 数 X に 基 づい て 残 り 試 合 におけるホームラン 数 Y を 区 間 予 測 しよう. このとき, その 選 手 の 1 試 合 当 たりの 平 均 ホームラン 数 を λ とすれば, X, Y はそれぞれポアソン 分 布 Po(mλ), Po(nλ) に 従 うと 考 えられる. ただし, λ > 0 で 未 知 とする. また, X, Y は 互 いに 独 立 と 見 なせるから, T = X + Y とおくと, T もポアソン 分 布 Po((m + n)λ) に 従 う. さらに, T = t を 与 えたときの Y の 条 件 付 確 率 分 布 f Y T (y t) =P {Y = y T = t} = P {Y = y, T = t}/p {T = t} (P {T = t} > 0) は 2 項 分 布 B(t, n/(m + n)) になり, これは λ に 無 関 係 になる. そして, f Y T (y t) も 図 8 と 同 様 の 形 で 与 えられる. そこ で, [ 問 題 1] の 場 合 と 同 様 にして, m, n が 大 きいとき, f Y T (y t) を 正 規 分 布 によって 近 似 して, (2)より 各 t について 分 布 の 両 裾 の 確 率 ( 面 積 ) がそれぞれ α/2 となるよ うに 定 めた 予 測 曲 線 Y = a(x), Y = b(x) を 近 似 的 に 求 めることができ, 信 頼 度 1 α の 予 測 区 間 も 得 る. 次 に, その 応 用 をもっと 具 体 的 なデータに 基 づいて 考 えてみよう. 例 2(マグワイアとソーサはあと 何 本 ホームランを 打 つか). 米 国 の 大 リーグのソー サ 選 手 とマグワイア 選 手 は, 1999 年 9 月 6 日 現 在, ソーサ 選 手 は 136 試 合 消 化 した 時 点 で 58 本 のホームランを 打 って, 残 り 試 合 は 26 試 合 である. マグワイア 選 手 は 139 試 合 消 化 した 時 点 で 54 本 のホームランを 打 って, 残 り 試 合 は 23 試 合 である. そ 8
の 時 点 での 各 選 手 のホームラン 数 を X とするとき 各 選 手 の 残 り 試 合 でのホームラ ン 数 Y の 区 間 予 測 を 行 うと, Y の 信 頼 係 数 100(1 α)% の 予 測 区 間 と 予 測 曲 線 を 得 る ( 表 4, 図 11, 12 参 照 ). 信 頼 係 数 (%) ソーサ マグワイア 99 [3.174, 22.060] [2.016, 18.798] 95 [4.814, 19.132] [3.428, 16.147] 90 [5.712, 17.711] [4.207, 14.864] 80 [6.799, 16.134] [5.154, 13.445] 70 [7.564, 15.108] [5.824, 12.523] 60 [8.190, 14.313] [6.374, 11.811] 50 [8.740, 13.646] [6.858, 11.214] 表 4. ソーサ, マグワイア 両 選 手 の 残 り 試 合 でのホームラン 数 の 予 測 区 間 図 11. ソーサのホームラン 数 Y の 予 測 曲 線 9
図 12. マグワイアのホームラン 数 Y の 予 測 曲 線 5. おわりに 本 論 の 統 計 的 定 式 化 による 区 間 予 測 は, 第 4 節 の 現 実 の 問 題 への 適 用 結 果 からみ て 妥 当 なものと 思 われるであろう. ここでは, プロ 野 球 の 話 題 について 考 察 したが, 気 候 の 予 測 や 経 済 予 測 の 問 題 などにも 適 用 可 能 であろう. なお, 本 論 の 第 2 節 は [1], 第 4 節 は [2], [3] を 参 照 した. 参 考 文 献 [1] Gott III, J. R. (1997). A grim reckoning. New Scientist, 36 39, Nov. 15 ( 邦 訳 : サイアス ( 朝 日 新 聞 社 ), 1998 年 1 月, 78-79). [2] 飛 田 英 祐, 赤 平 昌 文 (1999). 離 散 指 数 型 分 布 族 における 区 間 予 測 とその 応 用. 京 都 大 学 数 理 解 析 研 究 所 講 究 録 ( 掲 載 予 定 ). [3] 竹 内 啓 (1975). 統 計 的 予 測 論. 培 風 館. 10