先月、
『プロ野球でわかる! はじめての統計学』(技術評論社刊)を上梓したアナリストのStudent氏は、本サイトの2017年のNPB順位予想で、プロ野球解説者の予想とその的中状況を元にアプローチする方法をとった。この予想方法についての詳細を解説する。
「解説者の一致した意見」に着目する
先日公開された、DELTAのアナリストによる2017年のNPBの順位予想(パ・リーグ/セ・リーグ)ですが、自分は以下のように予想しました。
パ・リーグ
1位 福岡ソフトバンクホークス
2位 北海道日本ハムファイターズ
3位 東北楽天ゴールデンイーグルス
4位 千葉ロッテマリーンズ
5位 埼玉西武ライオンズ
6位 オリックス・バファローズ
セ・リーグ
1位 読売ジャイアンツ
2位 広島東洋カープ
3位 阪神タイガース
4位 横浜DeNAベイスターズ
5位 中日ドラゴンズ
6位 東京ヤクルトスワローズ
今回はこの予想に至った過程を解説してみたいと思います。この順位予想は、少し変わった角度から考えてみようということで、毎年恒例の野球解説者がメディアで発表している順位予想に注目しました。そして、彼らの予想について以下のような仮説を立ててみました。
「『あるチームを、ある順位に、多くの解説者が推している』ということには、意味があるのではないか?」
解説者の予想は様々ですが、その中から多くの解説者の「予想が一致する」という事実は信頼できる情報なのではないか、つまりその予想は的中する可能性が高いのではないかという仮説です。この仮説を検証するために、「過去の予想」と「実際の順位」を比較しどの程度的中したのかの関係を分析しました。そして、その結果を2017年の解説者の予想に適用することで順位予想をしてみようというのが今回のコンセプトです。解説者によるプロ野球の順位予想については、開幕前になればあちこちから報告がありますが、今回は記録として残っているため利用しやすい『週刊ベースボール』(ベースボール・マガジン社刊)上で2001年から2016年に発表された予想と実際の順位の関係を分析しました。
「1位が6ポイント、2位が5ポイント……」とする方法
ところで、週刊ベースボールでは毎年の順位予想を集計してポイント化しています。一部例外の年もありますが、解説者がそれぞれのチームに対して予想した順位に以下のようなポイントを与えています。
1位 6ポイント
2位 5ポイント
3位 4ポイント
4位 3ポイント
5位 2ポイント
6位 1ポイント
長打率の計算方法のような感じですね。2017年(4月3日号)の順位予想ではこのようなポイント化をしていなかったのですが、この方法を用いて集計した結果を表1に示します。
表1にも記載していますが、このポイントを合計すると、その年の予想順位をつけることができます。多くの解説者から上位に推されるほどポイントが高くなるので、これも解説者の予想から導かれたデータということができるでしょう。では、このポイントによるランキングが、過去どれくらい的中してきたのか、2001年から2016年までの実績をまとめたものを図1に示します。
解説者の予想を「1位が6ポイント、2位が5ポイント……」として合計した数字は、6チームの順位を全て的中させたという例はなく、せいぜい半分の3チーム、パ・リーグに至っては全部外した年もちらほらあるという結果でした。ですが、これで「解説者の予想なんて当てにならん!」と見限ってしまうのは早計です。ポイント化の方法に問題がある可能性もあるからです。
「予想の一致率」と「的中率」の関係
というわけで、あらためて解説者の予想と実際の順位の関係を見直そうということで、「予想の一致率」に注目し、実際の順位の的中率との関係を求めてみることにしました。予想の一致率とは、例えば表1の2017年の例を見ると、パ・リーグでは7人の解説者全員が1位予想としてソフトバンクを挙げています。このようなケースを「一致率100%」として数値化します。この一致率が高くなることで実際の順位が高くなるかどうかを、2001年から2016年までのデータを用いて、それぞれの順位で関係を求めてみました。結果を図2に示します。
このグラフは右に行くほど一致率が高く、上に行くほど予想の的中率が高くなることを示しています。データを見ると、一致率と的中率の関係は順位によって異なることがわかります。最も「一致率が高くなると的中率も高くなる」のは6位に予想されたチームで、その次が5位に予想されたチームでした。これらをまとめると順位ごとの的中率は次のようになりました。
高的中率→低的中率
6位→5位→1位→4位→2位→3位
解説者の予想が一致することで的中率が高くなるのは、6、5位といった下位チームであること、次いで1位と4位が高いということになります。3位に至っては、一致率が高くなっても的中率は上がません。こうした関係性の違いは、それぞれの順位で一致率がどれくらい頼りになるかということを示しています。この結果より、「『あるチームを、ある順位に、多くの解説者が推している』ということには、意味があるのではないか?」という仮説に対する答えは、「意味がある順位もあれば、そうでもない順位もある」というものだと言えそうです。
では、この2001年から2016年のデータから求められた一致率と的中率の関係を、2017年の解説者による予想状況に当てはめるとどのようになるのでしょうか。それぞれの順位で期待できる予想の的中率を求めたものを表2に示します。
この分析結果をもとに、一致率が高いほど的中率も高かった順位から優先的に自分の予想順位を決めていきました。つまり、最初に6位の中で的中率の最も高いチームを選び、次いで5位、1位、4位、2位、3位という順番でチームを選んでいくということです。その際、例えば6位で選択されたチームは、他の順位で的中率が高くても選ばないというルールにしています。
パ・リーグはこのルールで決まりましたが、セ・リーグの場合は、4位の候補だった広島、DeNA、阪神の予想的中率が同じだったため、2位と3位の的中率との兼ね合い(2位では広島が高く、3位では阪神が高い)でDeNAを選びました。
こうして決めていったものが、冒頭で示した予想順位です。週刊ベースボールの「合計ポイント」や昨年の順位と比較したものを表3に示します。「合計ポイント」との違いは、どの順位を優先して予想していくかという部分が反映されたものになっています。
データを増やせばまた違う結果も
以上、少し変わった角度からではありますが、順位予想をしてみました。
毎年、かつての所属先などひいきのチームを1位と予想する解説者がいるように、順位予想とは開幕前のお祭りのような一面もあると思います。お祭りをにぎやかにするという意味では、今回やったような“からめ手”からの分析があってもよいのではないかと思っています。
最後に今回の順位予想の改善案をいくつかあげるとすれば、「リーグを分けて分析を行う」「データ(対象とする解説者の予想の数)を増やす」「的中率の高い解説者の予想を重く扱う」といったところでしょうか。順位予想は、数多くの解説者が発表していますので、そうした情報を集めれば、また違う結果が見えてくるかもしれません。また、今回はサンプル数不足を危惧しセ・パ両リーグを合わせた数字で一致率と的中率の関係を見ましたが、データを増やせばリーグ別の予想も可能になります。
さらに、今回は全ての解説者の予想を同じ1票として扱いましたが、解説者の中には的中率の高い人もいれば、低い人もいると思います。こうした実績の差を票の重さとして計算に反映すれば、さらに精度を高められるかもしれません。
順位予想は本来、前年までのデータに、選手の成長や衰え、故障といった不確定要素をいかに数値化し採り入れていくかという難しいテーマです。ですが、そうした本筋からはずれたようなところで重ねた検討結果や培われたテクニックが、本筋で活きるという可能性もあります。色々とトライしてみる価値はあるかと思います。