ある選手がどれほどの活躍を見せるか、未来を見渡すことができたらどれほど有益だろうか。当然、完全な予知は難しい。しかし予測することは可能だ。MLBでは、ある選手がどれほどの成績を残すか、未来を機械的に予測するシステムが存在する。
「プロジェクション・システム」である。過去の研究によりわかった傾向から、選手成績を機械的に予測するのだ。これにより、これまでは抽象的にしかつかめなかった選手の将来性や市場価値を定量化することが可能となる。球団編成には極めて有用なツールだ。筆者は今回、これまで得られた知見を応用し、NPBについても同様の成績予測システムを開発した。その名も
“D-CAST”だ。今回はこの“D-CAST”で予測を導き出す手法と、実際に予測された成績について紹介を行いたい。
予測の三大要素
現在、MLBには成績予測システムが複数存在している。大統領選挙の予測で注目を集めたNate Silverが開発したPECOTA、FangraphsのDan Szymborskiが開発したZiPSなど、それぞれ独自の手法で予測が行われている。
ただ独自とはいえ、これら予測がまったく異なる手法で行われているわけではない。多くのシステムは共通した要素を用いて予測を行っている。その要素は主に3つ。「過去数年の成績」、「平均への回帰」、「年齢の影響」だ。
- 1.過去数年の成績
- 2.平均への回帰
- 3.年齢の影響
革新的な分析でセイバーメトリクスを進歩させてきたTom Tangoが開発したMercelは、翌年以降の選手成績を、なんとこの3要素のみを使って予測する。にもかかわらずMercelの予測精度は極めて高い。リーグや選手タイプなどさまざまな要素を考慮する他のシステムと比較しても、同等以上の精度を発揮しているのだ。3要素が最重要視される背景には、こうした文脈がある。
よって今回、DELTAで開発したD-CASTも、この3要素を使うロジックを採用した。
以降は、今季56本塁打を放った村上宗隆(ヤクルト)が、来季どれだけの本塁打を放つかを例に、予測の手法を紹介していく。また予測可能な範囲は来季だけでなく通算成績にまで及ぶ。村上は王貞治(元読売)がもつ通算868本塁打の世界記録にどれだけ迫れるだろうか。
手法の解説 ~村上は2023年に何本塁打を放つのか~
ステップ1:過去の成績
前述のとおり、多くの予測システムでは選手の過去成績を予測要素としている。過去数シーズンの成績を平均すれば、翌年の成績から大きく外れることは稀だ。これは多くのファンが身をもって感じているところではないだろうか。
ただ、平均を行うにも、過去数シーズンの価値がそれぞれ等価なわけではない。翌年に記録されるであろう成績に最も影響を与えやすいのは、直近シーズンだ。よって成績予測システムでは直近シーズンの成績が最重視される。例えばMercelは過去3年の成績を用いて予測を行うが、直近シーズンに向かうほどに重み付けがなされる設計となっている。
D-CASTではMercelの重みづけの考え方に則り、直近3シーズンの成績を直近に向かうほど重み付けがなされるロジックを採用。これにプレーの機会数(打席数)の影響を加味し、成績予測式を作成した。
この式を用いて、村上の本塁打÷打席、つまり本塁打が発生する割合を予測する。計算の結果、2023年の村上は打席数あたりでリーグ平均比3.09倍の本塁打を打つと予測された。
(編集部注:初出時、ステップ1の計算式、説明に誤り、誤解を招く表現がありました。現在は修正しております。失礼しました)
ステップ2:平均への回帰
ステップ2では、ステップ1で得られた3.09倍という数字に「平均への回帰」を加味する。野球選手が残す成績は毎シーズン、バラつきがでる。ただそのバラつきの出方、つまりランダム性は指標によってさまざまだ。
例えば、本塁打の確率が極端に変動する打者は少ないだろう。前年30本塁打の打者が、翌年同程度出場して、1本塁打に終わることはあまりない。一方、三塁打については、バラつきが出やすい。例えば2021年シーズンの佐藤輝明(阪神)は455打席に立ち三塁打が1本もなかったが、2022年は603打席で8本も放った。このようにランダム性は指標ごとに強弱があるのだ。
こういった事実を踏まえ、それぞれの指標についてランダム性を均す仕組みを取り入れる。例えばランダム性が高い三塁打が、ある年に極端に多くなった打者がいれば、これを上振れと判断し、翌年はリーグ平均に近づける補正を行うのだ。これを「平均への回帰」という。
平均への回帰は以下の式で行うが、詳細はこちらを参照されたい。
村上の過去3 年の打席数から本塁打÷打席の信頼性は0.939となる。ステップ1の予測に平均への回帰を加味すると、2023 年の村上は打席数あたりでリーグ平均比2.96倍の本塁打を打つと予測された。
ステップ3:年齢の影響
ステップ3では、ステップ2までで得られた予測成績に年齢の影響を加味する。選手の成績変化は年齢の影響を大きく受ける。若い選手であれば成績を伸ばしやすく、ベテランであれば落としやすいのは皆がイメージするとおりだ。この傾向を予測に加味する。
2023年シーズン開始時点で村上は23歳である。過去の統計から、23歳の本塁打÷打席数は平均して前年比1.07倍となる傾向がわかっている。ステップ2の予測に年齢の影響を加味すると、2023年の村上は打席数あたりでリーグ平均比3.17倍の本塁打を打つと予測された。
2022年セ・リーグの本塁打÷打席数(投手除く)は0.0226となる。ステップ2までの予測に平均への回帰を加味すると、2023年の村上は打席の7.14%で本塁打が出ると予測される。
ステップ4:打席数の予測
ここまでで、先ほど紹介した3要素について算出過程を紹介した。ただそこで導き出された村上の値は7.14%。本塁打を数ではなく、率でしか表現できていない。これを数で表現するには率に掛けあわせる機会数、つまり打席の予測が必要になる。
打席数の予測はすでにステップ1と3で行っている。これまでのシーズンでの打席の傾向と、年齢の影響から推測するのだ。例えば若手であればこれから打席を増やしていくだろうし、ベテランであれば減らしていくだろうという予測だ。こうして予測された2023年村上の打席数予測は650打席となった[1]。
さてこれで2023年シーズンの村上宗隆の打席数と本塁打率が予測できた。この2つがあれば村上の本塁打数を予測できる。打席数650に本塁打率7.14%を掛け合わせると、46.4。D-CASTは2023年の村上の本塁打数を46本と予測した。56本塁打を放った今季に比べインパクトが小さいと感じるかもしれない。これは今季急激に伸びた成績に対し、平均への回帰が強く働いたためだ。
王貞治の世界記録868本塁打への挑戦。村上は通算何本塁打を放つか
ここまでの予測は2023年シーズン、つまり翌年に絞ったものだった。しかし同じロジックで計算を繰り返せば、翌々年以降の成績予測も可能となる。つまり村上がNPBでプレーし続けた場合、通算何本塁打を放つことができるのか、王貞治の868本塁打を超えることができるのかを、現時点で予測することが可能なのだ。
これを行ったのが以下の表1だ。2022年に56本塁打を放った村上の2023年予測本塁打は46本。その翌シーズンは48本塁打、49本塁打、49本塁打と、毎年50本弱の本塁打をコンスタントに放つことが予測されている。そしてこれを合計すると683。現時点で村上はNPB通算683本塁打を放つと予測された。王の868本塁打には及ばないが、2位野村克也の657本を大きく上回る数字だ。
22歳の若さで王のシーズン本塁打記録を超えた村上であれば、通算記録でも王に迫っておかしくないように思える。なぜこれほど大きな差がついたのだろうか。これは村上に問題があったのではなく、王が成績予測の傾向に抗う例外的な活躍を見せたためだ。王の本塁打と村上の本塁打予測を年齢別に比較してみると(表1)、村上が30歳前後で本塁打数を落とすのに対し、王は晩年まで全盛期に近い数字が続く。加齢による衰えに抗う活躍を見せ続けたのだ。逆に考えると、村上が王の通算本塁打にどれだけ迫れるかは、30歳以降でどれだけ年齢に抗う活躍を見せられるかによると言える。
なお予測は残した成績によって更新され続ける。村上が来季続けて2022年並の本塁打を放つことができれば、予測でも王の記録に迫っていくはずだ。
総合指標WARを予測する
ここまでは本塁打に焦点を当てたが、もちろん予測できるのはそれに限らない。同様の手法で単打や四球なども計算可能だ。2023年以降の村上について本塁打以外についても計算を行ったのが以下の表2である。
そしてこのように一般的な成績を予測できるとなると、打撃成績を得点の単位で評価するセイバーメトリクススタッツについても予測可能だ。またそれだけでなく同様の手法で走塁指標や守備指標についても算出することができる。リーグ平均に比べ、打撃(wRAA)で、走塁(BsR)[2]で、守備(Defense)[3]で、どれだけ得点を増やしたか、失点を減らしたかを予測したものが以下の表3である。
ここまで計算を行うことができれば、これらパーツを活用することで総合指標WAR(Wins Above Replacement)の算出が可能だ。2022年にWAR10.3を記録した村上の来季予測WARは9.9。その後はコンスタントに10以上のWARを記録し、2026年にキャリアハイとなるWAR10.9を記録すると予測されている。全盛期は数年後に訪れそうだ。
ちなみに投手についても同じ手法でWARを算出することができる[4]。今季衝撃的な活躍を見せた佐々木朗希(ロッテ)について来季以降を予測したものが以下の表4である。今季WAR6.1を残した佐々木の来季予測WARは4.5。その後も今後数年、5.0前後のWARを残し続けると予測されている。今季の鮮烈な投球からすると、インパクトの小さい数字に感じられるかもしれない。しかし故障でキャリアを棒に振る可能性なども含め予測を行うと、妥当なラインはこのレベルと見積もることができる。予測としては素晴らしい数字だ。
予測精度についても確認を行おう。野手は200打席以上、投手は50イニング以上を記録した選手について、予測値と実測値を比較する散布図を作成した。決定係数は投手WARの0.31に対し、野手WARが0.44。D-CASTでは野手のほうが精度よく予測できているようだ。これはチーム編成の観点で、野手戦力の充実がチームの安定につながる可能性を示唆している。投手の予測が難しいのは、故障リスクの大きさなども関係しているだろう。
D-CASTの予想を上回った、下回った選手
村上宗隆はどれほど予測を上回ったのか
最後に、D-CASTの観点から2022年シーズンに予測を上回った、下回った選手を取り上げたい。はじめに取り上げたいのがさきほど紹介した村上だ。村上の2022年シーズンは、2021年終了時点の予測をどれほど上回っていたのだろうか(表5)。
予測値と実測値を比較すると、あらゆる数字において村上は予測値を上回る活躍を見せている。今季の村上はD-CASTでは37本塁打を放つと予測されていたが、結果はご存知のとおりである。三振%は予測値に近いが、四死球%や長打の発生(ISO)について大幅に上回っている。特に長打についてはシーズンを跨いでも安定しやすい。今季の活躍により村上の今後のキャリア予測は大幅に上方修正されることとなった。
坂本勇人は3000本安打を達成できるのか?
もう1人、通算記録で注目を集めるのが坂本勇人(読売)だ。キャリア初期にレギュラーに定着し、安打を積み重ねた坂本は31歳10ヶ月で2000本安打を達成。夢の3000本安打、また張本勲(元ロッテ)がもつ3085安打のNPB記録更新も期待されている。
ただD-CASTの予測によると、記録更新の雲行きは怪しい。今季坂本の安打数は87。D-CASTによる予測は112安打であったため、事前の予測を下回る結果となっている。今季の坂本は故障や新型コロナウイルス感染により出場機会が大きく減少。これが伸び悩みにつながった。今季の成績を受け、坂本の通算安打数は2468安打に終わることが予測されている(表7)。大きく下方修正されたかたちだ。3000本安打達成には年齢曲線に抗う活躍が必要となる。
また坂本は出場数が減少しただけでなく、長打力を示す指標ISOでも予測値を大きく下回った(表6)。出場の量だけでなく、質においても予測を下回っていたようだ。もちろん坂本の成績低下は新型コロナウイルス感染などここ数年特有の事情もあった。ただこうして見ると、コンディション不良がキャリアに与える影響の大きさを表しているようにも考えられる。
個々の予測の当たり外れより重要なこと
今回の手法では野手WARで一定の予測精度を見せた一方、投手WARの予測は不安定で、選手の傾向やチーム編成への示唆に富む結果となった。もちろんこの手法はあくまで一例。アメリカでは様々な要素を考慮した予測ロジックが構築されている。ただし、どのシステムにおいても、予測値が大きく異なることは少ない。これは三大要素による予測の強さを示している。
もちろん予測が大きく外れることもある。しかし成績予測の意義は、個々の予測の当たり・外れのみにあるわけではない。重要なのは、定量的に、具体的な数字をもって未来を把握できることだ。成績予測は特別なことをしているわけではなく、これまで行われていたなんとなくの予測に機械的な道筋を与えたに過ぎない。しかしそこから得られる客観的な情報は非常に多くの示唆に富む。
そしてD-CASTを使えば、データ分析の幅は格段に広がる。成績予測はファンタジーベースボールや順位予想などでも数多く活用されるが、最大の威力を発揮するのは、FAやトレードなど、球団内での選手獲得時の検討においてだ。誰がどの程度の貢献度を見せるかを予測できれば、それに対しどの程度の投資を行うべきかも見当がついてくる。DELTAでは今後、2022年のFA市場について、D-CASTを使って評価・分析する企画も行う予定だ。こちらも楽しみにしてほしい。
宮下 博志@saber_metmh
学生時代に数理物理を専攻。野球の数理的分析に没頭する。 近年は物理的なトラッキングデータの分析にも着手。2021年からアナリスト兼エンジニアとしてDELTAに合流