情報基礎論 Ⅱ( 担当 : 二宮智子先生 ) 後期最終課題 過去 5 年間のプロ野球勝利要因分析 ~ どの指標の組み合わせが最も勝利に影響したのか ~ () はじめに ( 目的 ) 私は千葉出身という事もあって 小さい時から大の千葉ロッテマリーンズのファンで 昨年は見事 3 年ぶりの優勝を果たす事が出来 念願の勝利の美酒を味わう事が出来た 昨年の千葉ロッテは ボビー マジック と呼ばれるボビー バレンタイン監督の采配の元 優勝したわけだが その裏で大活躍していたのが統計アナリストと言われている その例が 28 種類にわたる日替わりオーダーである ( 昨年は 36 試合行われた ) このオーダーはどれも相手との相性やここ数試合の活躍を統計データに基づいて 研究し 決められたものである そこで 本稿では 実際に千葉ロッテの統計アナリストが行っていた分析までとはいかないが 過去 5 年間のプロ野球の勝利要因を プロ野球公式記録を使用することによって導きたい そして 最終的にはこれら数値的データ分析に基づいて どの指標の組み合わせが最も勝利に影響したのかを重回帰分析を使う事によって考察していきたい (2) 仮説と分析方法について ( データについて ) 野球の基本は 走 攻 守 と言われている そこで 本稿では 盗塁数が多く 打率 が高く 防御率が低いチームが勝つ可能性が高い という仮説を立てる事によって分析を
進めていきたい 従属変数 ( 目的変数 ) に 勝率 を置いた理由は年度ごとに試合数が違うためである そして 仮説を立てた後 その他の指標 ( 例えば 本塁打 など ) に関しても勝率とどのような影響があるのかを相関係数を求める事によって求めていきたい データは 日本野球機構公式記録 過去 5 年分 (200-2005 年 ) の 2 球団の記録を使用し 指標は以下のものを使用する 独立変数( 説明変数 ) 盗塁 打率 防御率 試合数 打者 得点 安打 二塁打 三塁打 本塁打 打点 三振 四球 犠打 犠飛 投手 被安打 被本塁打 奪三振 与四球 失点 従属変数 ( 目的変数 ) 勝率 チーム 200-2005 年データ千葉ロッテマリーンズ ( 千葉ロッテ ) 北海道日本ハムファイターズ ( 日本ハム ) 2004 年から本拠地が東京から北海道に 西武ライオンズ ( 西武 ) 阪神タイガース ( 阪神 ) 中日ドラゴンズ ( 中日 ) 横浜ベイスターズ ( 横浜 ) ヤクルトスワローズ ( ヤクルト ) 読売ジャイアンツ ( 巨人 ) 広島カープ ( 広島 ) 200-2004 年データ福岡ダイエーホークス ( ダイエー ) 2005 年に球団名変更オリックスブルーウェーブ ( オリックス ) 近鉄バッファローズ( 近鉄 ) 2005 年に合併 2005 年データ福岡ソフトバンクホークス ( ソフトバンク ) オリックスバッファローズ ( オリックス ) 東北楽天ゴールデンイーグルス ( 東北楽天 ) (3) 分析のプロセスと結果. 基本統計量と分析.. 勝率 ( 図 参照 ) 2
勝率は全試合に占める勝った試合の割合を示したものである 求め方は シーズン勝数 ( シーズン勝数 +シーズン負数 ) によって求められる サンプル数 =60 平均値 標準偏差 最小値 最大値 中央値 0.499 0.798 0.28 0.664 0.5055 - - 2005 年東北楽天 2005 年ソフトバンク - 平均は 0.499 と限りなく 5 割に近く 0.45~0.55 にほとんどのチームが固まっている また 標準偏差は 0.7980 とばらつきはものすごく小さく かなり信頼出来る値と言える はずれ値も 2003 年横浜ベイスターズの 0.324 と 2005 年東北楽天ゴールデンイーグルスの 0.28 だけである 最大値は 2005 年の福岡ソフトバンクホークスだが 千葉ロッテとのプレーオフに敗れたため 惜しくも日本一にはなれなかった.2. 盗塁数 ( 図 2 参照 ) サンプル数 =60 平均値 標準偏差 最小値 最大値 中央値 69.883 24.003 25 47 68.5 - - 2004 年巨人 2003 年ダイエー - 平均は 69.883 個で ほとんどのチームが 50~75 個の間に固まっている 標準偏差は 4 つの指標 ( 盗塁 打率 防御率 勝率 ) の中で最も大きい 24.003 という値を示し 尐しばらつきがあると言える はずれ値も 2003 年福岡ダイエーホークスが記録した 47 個という極端に多い値だけである ちなみに 2003 年福岡ダイエーホークスは日本シリーズで阪神タイガースを倒し 見事日本一になっている つまり 2003 年のペナントレースは盗塁が勝率に影響していると言えるかもしれない 3
ヒストク ラム 20 5 度数 0 5 0 0.30 0.40 0.50 0.60 0.70 勝率 Mean = 0.4998 Std. Dev. = 0.0798 N = 60 0.70 0.60 0.50 0.40 30 0.30 6 勝率 図 : 勝率 4
ヒストク ラム 4 2 0 度数 8 6 4 2 0 25.00 50.00 75.00 00.00 25.00 50.00 盗塁 Mean = 69.8833 Std. Dev. = 24.0036 N = 60 50.00 3 25.00 00.00 75.00 50.00 25.00 盗塁 図 2: 盗塁数 5
.3. 打率 ( 図 3 参照 ) 打率は 安打 打数 で導かれ 一般に 3 割 (0.3) 以上だと一定の評価をされる サンプル数 =60 平均値 標準偏差 最小値 最大値 中央値 0.264 0.02 0.235 0.297 0.269 - - 2002 年オリックス 2003 年ダイエー - 平均 0.264 標準偏差 0.02 はずれ値もなしとほとんどばらつきがなく かなり信頼した値と言える 最大値は先程の 盗塁数 と同じく 2003 年福岡ダイエーホークスが記録した 0.297 で 打率も 2003 年のペナントレースにおいて 勝率に影響していると言えるかもしれない また 最小値は 2002 年にオリックスブルーウェーブが記録した 0.235 で この年は最下位に沈んだ.4. 防御率 ( 図 4 参照 ) 9 回を投げた場合の投手の平均自責点を表し 求め方は ( 自責点 9) 投球回 で求 められる サンプル数 =60 平均値 標準偏差 最小値 最大値 中央値 4.4 0.66 3.04 5.95 4.0 - - 2002 年巨人 2003 年オリックス - 平均値 4.4 標準偏差 0.66 とほとんどばらつきはなく かなり信頼した値と言える 防御率 を見る上で注意しなければならないのは 防御率は小さいほど良い という事である したがって 2002 年の読売ジャイアンツが記録した 3.04 が過去 5 年間の中で最も良い ちなみに 2002 年の読売ジャイアンツは日本シリーズで西武を4 勝 0 敗と一回も負ける事なく 圧倒的な強さで日本一に輝いている 従って 2002 年ペナントレースは防御率が勝率に影響していると言えるかもしれない 6
ヒストク ラム 0 8 度数 6 4 2 0 0.24 0.25 0.26 0.27 0.28 0.29 0.30 打率 Mean = 0.2674 Std. Dev. = 0.0244 N = 60 0.30 0.29 0.28 0.27 0.26 0.25 0.24 0.23 打率 図 3: 打率 7
ヒストク ラム 2 0 8 度数 6 4 2 0 3.00 3.50 4.00 4.50 5.00 5.50 6.00 防御率 Mean = 4.44 Std. Dev. = 0.6684 N = 60 6.00 36 624 5.50 5.00 4.50 4.00 3.50 3.00 防御率 図 4: 防御率 8
2. 相関関係 ( 図 5 6) 次に 二変量間の相関関係 ( 従属変数である 勝率 と独立変数 盗塁 打率 防 御率 の関係 ) について調べた ( 図 5 6 参照 ) 結果は以下の通りである 勝率 盗塁 打率 防御率 Pearson の相関係数有意確率 ( 両側 ) N Pearson の相関係数有意確率 ( 両側 ) N Pearson の相関係数有意確率 ( 両側 ) N Pearson の相関係数有意確率 ( 両側 ) N 相関係数 *. 相関係数は 5% 水準で有意 ( 両側 ) です **. 相関係数は % 水準で有意 ( 両側 ) です 勝率 盗塁 打率 防御率.294*.555** -.572**..022.000.000 60 60 60 60.294*.235 -.67.022..07.203 60 60 60 60.555**.235.69.000.07..98 60 60 60 60 -.572** -.67.69.000.203.98. 60 60 60 60 図 5 二変量間の相関係数 勝率 盗塁 打率 防御率 勝率盗塁打率防御率 図 6 仮説における二変量間の相関関係 9
相関関係を調べた結果 勝率 はどの指標に対してもある程度の相関関係を持っている事がわかった まず 盗塁数 を見ると 盗塁数 は 勝率 に対して 0.294 という相関関係を持っており 弱い正の関係がある事と 5% 水準で有意であることがわかった 次に 打率 を見ると 打率 は 勝率 に対して 0.555 という相関関係を持っており かなりの正の関係がある事と % 水準で有意であることがわかった 最後に 防御率 を見ると 防御率 は 勝率 に対して-0.572 という相関関係を持っており かなりの負の関係がある事と % 水準で有意であることがわかった つまり 以上の事から 打率 と 防御率 に関しては強い相関関係がありそうだが 盗塁 に関してはそれほど強い相関関係は言えなそうである 以下では 単回帰と重回帰分析をする事によって もっと詳しく見ていきたい 3. 単回帰分析 3.. 盗塁数は勝率に影響する まず 有意確率は.022 であることから % 有意基準で帰無仮説は棄却出来ない つまり 仮説は % 有意基準では成立しないと言える また R2 乗値 ( 決定係数 ) を調べると 0.07 である事から説明力は約 7.% と説明力がないことがわかる a. 集計 調整済み 推定値の R R2 乗 R2 乗 標準誤差.294 a.087.07.07692 予測値 : ( 定数 ) 盗塁 回帰残差全体 a. 予測値 : ( 定数 ) 盗塁 b. 従属変数 : 勝率 分散分析 b 平方和 自由度 平均平方 F 値 有意確率.033.033 5.507.022 a.343 58.006.376 59 係数 a ( 定数 ) 盗塁 a. 従属変数 : 勝率 標準化係 非標準化係数 数 B 標準誤差 ヘ ータ t 有意確率.43.03 4.008.000.00.000.294 2.347.022 0
0.70 0.60 勝率 0.50 0.40 0.30 R Sq Linear = 0.087 25.00 50.00 75.00 00.00 25.00 50.00 盗塁 3.2. 打率は勝率に影響する まず 有意確率は.000 であることから % 有意基準で帰無仮説は棄却され 仮説は成立 する 次に モデル係数より回帰方程式を求めると以下のようになる y 0.3563x 0.453 そして R2 乗値 ( 決定係数 ) を調べると.297 である事から説明力は約 29.7% とまずまずの 説明力があることがわかる 集計 R R2 乗 調整済み R2 乗 推定値の標準誤差.555 a.309.297.06693 a. 予測値 : ( 定数 ) 打率
回帰残差全体 a. 予測値 : ( 定数 ) 打率 b. 従属変数 : 勝率 分散分析 b 平方和 自由度 平均平方 F 値 有意確率.6.6 25.880.000 a.260 58.004.376 59 係数 a a. ( 定数 ) 打率 従属変数 : 勝率 標準化係 非標準化係数 数 B 標準誤差 ヘ ータ t 有意確率 -.453.87-2.46.09 3.563.700.555 5.087.000 0.70 0.60 勝率 0.50 0.40 0.30 R Sq Linear = 0.309 0.23 0.24 0.25 0.26 0.27 0.28 0.29 0.30 打率 2
3.3. 防御率は勝率に影響する まず 有意確率は.000 であることから % 有意基準で帰無仮説は棄却され 仮説は成立する 次に モデル係数より回帰方程式を求めると以下のようになる y 0.704x 0.806 そして R2 乗値 ( 決定係数 ) を調べると.35 である事から説明力は約 3.5% とまずまずの説明力があることがわかる 0.70 0.60 勝率 0.50 0.40 0.30 R Sq Linear = 0.327 3.00 3.50 4.00 4.50 5.00 5.50 6.00 防御率 集計 R R2 乗 調整済み R2 乗 推定値の標準誤差.572 a.327.35.06603 a. 予測値 : ( 定数 ) 防御率 3
回帰残差全体 a. 予測値 : ( 定数 ) 防御率 b. 従属変数 : 勝率 分散分析 b 平方和 自由度 平均平方 F 値 有意確率.23.23 28.77.000 a.253 58.004.376 59 係数 a a. ( 定数 ) 防御率 従属変数 : 勝率 標準化係 非標準化係数 数 B 標準誤差 ヘ ータ t 有意確率.806.058 3.84.000 -.074.04 -.572-5.308.000 4. 重回帰分析 4.. 盗塁数が多く 打率が高く 防御率が低いチームが勝つ可能性が高い まず 決定係数を見ると 0.752( 説明力約 75.2%) とかなり説明力は上昇したものの 盗塁数 の有意確率が 0.73 である事から 盗塁数 を回帰に使用するのは適切ではないと言える 次は 盗塁数 を除いて 分析する a. 集計 調整済み 推定値の R R2 乗 R2 乗 標準誤差.875 a.765.752.0397 予測値 : ( 定数 ) 防御率, 盗塁, 打率 係数 a a. ( 定数 ) 盗塁打率防御率 従属変数 : 勝率 標準化係 非標準化係数 数 B 標準誤差 ヘ ータ t 有意確率 -.28.3-2.492.06.000.000.025.369.73 4.26.438.664 9.730.000 -.088.009 -.680-0.099.000 回帰残差全体 分散分析 b 平方和 自由度 平均平方 F 値 有意確率.287 3.096 60.767.000 a.088 56.002.376 59 a. 予測値 : ( 定数 ) 防御率, 盗塁, 打率 b. 従属変数 : 勝率 4
4.2. 打率が高く 防御率が低いチームが勝つ可能性が高い 有意確率を見ると 2 つとも 0.000 である事と決定係数が 0.756( 説明力 75.6%) である事からこのモデルが最適のモデルと言える また モデル係数より回帰方程式を求めると以 のようになり 標準化係数によって改めて求められる回帰式は2のようになる ( 勝率 )=4.305 ( 打率 )- 0.89 ( 防御率 )- 2.84 ( 勝率 )=0.67 ( 打率 )- 0.68 ( 防御率 ) 2 a. 集計 調整済み 推定値の R R2 乗 R2 乗 標準誤差.874 a.764.756.0394 予測値 : ( 定数 ) 防御率, 打率 係数 a a. ( 定数 ) 打率防御率 従属変数 : 勝率 標準化係 非標準化係数 数 B 標準誤差 ヘ ータ t 有意確率 -.284.2-2.545.04 4.305.48.67 0.288.000 -.089.008 -.685-0.503.000 回帰残差全体 分散分析 b 平方和 自由度 平均平方 F 値 有意確率.287 2.44 92.484.000 a.089 57.002.376 59 a. 予測値 : ( 定数 ) 防御率, 打率 b. 従属変数 : 勝率 5
5. その他の指標はどうか その他の指標はどうなのかを勝率との相関係数を求める事によって示したい 結果は以 下の通りである 得点安打二塁打三塁打本塁打打点三振四球 勝率 0.63 0.53 0.32 0.402 0.3 0.632-0.268 0.336 犠打犠飛被安打被本塁打奪三振与四球失点 勝率 0.026 0.374-0.524-0.373 0.364-0.27-0.593 % 水準で有意だったのは 得点 安打 三塁打 打点 四球 犠飛 被安打 被本塁打 奪三振 失点 である 従って 勝利を高めるためには 得点を多く取り 失点を極力尐なくする のは当たり前だが 玉数を多く投げさせて 四球 を選んだり ランナーが塁にいる時に確実に外野にフライを打って ( 犠飛 ) ランナーを確実に進めたりするのが重要であると言えるだろう その他には めったに出ない 三塁打 を打った時や 奪三振 を多く奪った時は勝つ傾向にある そして 意外にも 本塁打 (5% 水準で有意 ) や 犠打 が多い時や 四球 が尐ない時(5% 水準で有意 ) はそれ程 勝利には影響を与えない事がわかった (4) 結論と考察今回の結果から勝率は 打率 が高い時と 防御率 が低い時に高まる事がわかり 盗塁数 はそれほど重要ではないことがわかった また 先程も述べたように 得点を多く取り 失点を極力尐なくする のは当たり前だが 玉数を多く投げさせて 四球 を選んだり ランナーが塁にいる時に確実に外野にフライを打って ( 犠飛 ) ランナーを確実に進めたりという確実な戦略が野球では重要な事がわかった 従って 野球で勝利するには 本塁打を打って派手に勝つチーム よりも 確実に 粘り強く相手を攻めるチーム の方が良く 投手は 極力 四球を出さず 三振を多く奪って 最小失点で乗り切る事の出来る能力 が求められている この傾向は昨年優勝した千葉ロッテマリーンズの戦術であり この分析は正しいのではないかと私は思う まもなく 2006 年シーズンが開幕するが 今年はどこのチームがどのような戦術で優勝するか楽しみである しかし 今年もぜひチーム一丸となって 千葉ロッテマリーンズに優勝してもらいたいと私は願っている 今回の分析は前期に比べて 上手く出来たのではないかと思います もし 機会があったら 今度は年度ごとでどのように違うのかも自分なりに調べてみたいと思います 年間という短い期間でしたが 何とか SPSS に対しての知識が深められました これから卒業論文を書く際に生かしたいと思います 年間ありがとうございました 6