April 09, 2012

たまにウェブを検索していると、特にセイバー系とか自称する、数字で野球を語るウェブサイトやブログで、次のような「相関係数を使ったと自称する笑い話」に出くわす。こういう「鼻高々に間違えたことを発言しているサイト」は案外多い(笑)

チームの四球数と得点数の相関係数を調べると
両者にはかなり強い相関関係がある。四球は重要。

四球とシングルヒットとで、得点との相関係数を調べると、四球の相関係数のほうがよりが大きい。だから、四球のほうが、より得点力への関連が強い。


(このネタ、さまざまなバリエーションがある。比較対象をシングルヒットではなく「打率」にするパターンもあれば、総得点を使う人、平均得点を使う人もあるようだ。まぁ、話のくだらなさに差はない。だいいち、彼らの主張する「得点と四球の相関」の相関係数は0.7以下程度しかないのだから、決定係数は0.5以下しかない。つまり事象の半分以下しか説明できないわけで、こんな低い相関関係の、どこをどう間違うと、「四球は野球の戦略上、重要」だの言い切れるのか、気がしれない)

得点総数と四球総数を照らし合わせた程度のくだらない作業、それも低い数値の相関から、何か真実が見えてくる、わけがない。


例えばこんな計算をしてみる。

チーム総得点と総RBIの相関(2011ア・リーグ)

これ、何かというと、
2011年ア・リーグ全チームの、総得点数と、総RBI(打点)数を、グラフ化したものだ。

相関係数(r)=0.996851
決定係数(r2 つまり相関係数の2乗)=0.9937


相関係数と決定係数が、ほぼ「」である。
これが何を意味するか。わかる人には、わかるだろう。
チームの得点数とRBIは、
 ほぼ完全な相関関係にある
ということだ。得点とRBIの相関関係が決定的なのがわかれば、当然のことながら、次の結論は間違いなく正しい。
チームの得点力というものは、RBI、
 つまり打点にほぼ完全に依存して決まる


相関係数で得点相関をうんぬんしたいなら、
打点こそ王道であり、打点こそ正義である。


と、まぁ、とりあえず書いてみる(笑)
すると、どうなるか。
もちろん興味の無いほとんどの人はこんな計算など無視する。それはいいとして、中には、相関係数とかいう手法の「ものものしさ」に負け、よく考えてみもせずに鵜呑みにしてしまう気弱な人もいれば、逆に、自分の先入観にまみれたまま、何も考えもせず反対してくるアタマの悪い人もいる。


「得点とRBIのほぼ完全な相関関係に、どういう意味があるか」という議論それ自体は、実は無意味ではない。それどころか、かなり面白い議論ではあるのだが、それはそれとして、上のグラフの目的は、そこではない。
単に「相関係数を使って、どれだけ、あたかも自分の出す結論が正しいように見せかけることができるか」を、「やってみせている」だけの話。まぁ、一種の「手品の種明かし」みたいなものだ。


例えば、いくら得点とRBIの相関係数が、たとえ「完全な相関」を意味する「1」に近いとしても、「野球というスポーツにおいては、RBIだけが重要」なんて子供じみた単純な結論にはならないのが、野球という現象の複雑さであり、統計とかいうやつ本来のややこしさだ。
AとB、2つの事象の相関係数が十二分に高かったからといっても、AとBの相関関係がすぐに判明するわけではない。相関係数の判定の難しさについては、Wikiにも書いてある。

AとB、2つの事象の相関関係には、少なくとも以下の3パターンある。
「A が B を発生させる」
「B が A を発生させる」
「第3の変数C が A と B を発生させる」


たとえ「得点と打点の相関係数」が「カンペキな相関関係」を意味する数値を叩きだしたとしても、例えばだが、「得点でもない、打点でもない、『第3の要素』が、得点と打点を同時に変化させている可能性」についても、きちんと検証を終えることができないかぎり、得点と打点の相関関係をパーフェクトだと言い切るわけにはいかない、のである。

まして、決定係数0.5以下という、全体の半分の事象すら説明できないような数値に無理矢理ヘリクツをつけて、得点と四球の相関が野球というスポーツの法則ででもあるかのようなことを語っているようでは、まるでお話にならない。冷笑にも値しない。


別の例をみてみる。
ここに1シーズンで、同じ四球数、同じ得点数を稼いだ2つの野球チーム、AとB、があるとする。
Aでは、四球の20%が得点にからんだ。
Bでは、四球の80%が得点にからんだ。

こういうことは、十分ありえる。
たとえ見た目の総得点数と四球数が同じでも、四球数のどの程度の割合が得点にからむか、なんてことは、そのチームの攻撃スタイルや、打線の構成によって左右される。
(もちろん、日本野球における四球に対する感覚が、そのままMLBで通用するはずもない。四球のランナーを送りバントで得点につなげようとする日本と、MLBとの間にある根本的な野球文化の違いも、大いに考慮してモノを言うべきだ)

まとめれば、得点にからむ四球もあれば、全く無関係な四球もある。そのパーセンテージは、相関係数からは、まったくわからない、ということだ。 当然の話だ。

以下に挙げる例も含めていうと、
総得点が多い(あるいは少ない)こと、
総四球数が多い(あるいは少ない)こと、
この2つの数値の数学的関係を、相関係数を使って語る(もしくは騙る)行為そのものに、実は、意味が無い
のである。

(よく考えればわかることだが、「数値と数値の間に一定の相関係数を見出す」ために必要な「2つの数値」というのは、実は全く無関係な数値同士でも全くかまわない。例えば右肩上がりの2つの数値、例えば「マグロの消費量と、リンゴの価格」をもってくれば、両者の時系列変化が右肩上がりで似ているという、たったそれだけの理由から、両者に一定の相関係数がはじき出せてしまう可能性があり、その結果、「マグロの消費にはリンゴの価格が大いに関係している」と結論づけることくらい、まったく難しくない。
言い換えると、「相関係数」は、2つの数値系列の配列パターンが相互にどれだけ「似ているか」をパーセンテージとして示しているだけで、実は「結論の正しさをまったく保証などしていない」ということだ)

また、こういうこともありえる。
1シーズンに500個の四球を挙げた2つのチーム、AとBがあるとする。
Aの総得点が500点
Bの総得点は700点

1シーズンに850得点を挙げた2つのチーム、AとBがあるとする。
Aの四球数が600個
Bの四球数は450個


実際、2011年のア・リーグにおいて、こういう対照的な2チームが存在した。
ヤンキース 867得点 627四球(リーグ1位)
テキサス  855得点 475四球(平均以下)


こういう実例を示しても、「それはヤンキースとテキサスのようなコンテンダーが、統計上の例外にあたるだけで、得点と四球の強い相関関係に『例外』は寄与しないのだから、特殊な2チームの成績など、検討する価値はない」とか、なんとか、わけのわからない反論をしてくる根っからの数字馬鹿が必ず現れるだろう(笑)
いや。ぜひ現れて、積極的に笑いモノになってもらいたい(笑)

そういう、数字だけで野球を語れると勘違いする発想こそ、スポーツを体感したことのない、ホンモノの「数字馬鹿」だ。



実際の野球の最前線は、0.5以下の弱い決定係数が想定する偏差の範囲、数値レンジなど越えた領域に、本来の価値がある。相関係数など飛び越えられるチームでなければ、優勝などできないのである。

リーグ優勝であれ、ホームラン王や首位打者などのタイトルであれ、「飛びぬけた成績を納めることで、スポーツのトップに君臨する」ことを実現するのは、まさに「積極的に『例外』を目指す、つまり、人のしてないことを実現する行為」そのものだ。
「平均的、統計的に行動する」という生ぬるい思考方法から、トップに君臨できる選手やチームなど生まれない。
「他の追随を許さない独自のチームコンセプト」や、「常識はずれの多額の予算」、「飛びぬけた天才プレーヤーの集結」、「無敵の先発ローテーション」、「飛びぬけたトレード戦略」、そういった「特別さ」をしっかりとキープできもしないチームが、「数学的平均」とやらに沿った行動様式を採用していて、他チームを置き去りになど、できるわけがない。
統計上の偏差の中に納まる生ぬるいプレイを重視すれば、得点が伸びて、順位が上がる、などという馬鹿げた発想は、ただの数字遊びであり、もはやスポーツですらない。


だが、世間によくいる「相関係数の単純な計算結果を提示することで、四球の重要性を持ち上げたつもりになっている輩」というのは、「相関係数さえ計算しておけば、四球の得点に対する影響力が全て計算し尽された」ように思いこんで世間に発表したりしているわけだから、本当に始末が悪い(笑)
古くからあるOPS信仰と同じで、これは本来「野球をネタにした、デキの悪い笑い話」のひとつで、こんなのは、ただの「薄っぺらな数字ごっこ」だ。
ダメ捕手、城島健司。The Johjima Problem.:指標のデタラメさ(OPS、SLG、パークファクターなど)

書いたご当人は、大真面目にこういうおかしなを信じて書いているのだとは思うが、いまだにああいう誰でも薄っぺらさが理解できるギミックを信じて野球を見ている輩がたくさんいると思うと、このブログもまったくもって安泰だ。なんの心配もいらない。好きなことだけ書いていれば、永遠に揺るぎない(笑)
こういう子供じみた数字遊びがいまだに堂々とまかり通っているのを見ると、「やっぱり『自分のアタマを使って考えることのできる人』は、実はほとんどいないのだな」と、いつも思う。



2011年にワールドシリーズに進出したテキサス・レンジャーズは、得点数はア・リーグNo.1レベルだが、そのことが特徴的なのではなくて、「ワールドシリーズ常連だったア・リーグ東地区のコンテンダーになかった、『ほとんど四球に頼らない得点パターン』を追求して、成功をおさめ、彼らからワールドシリーズ常連の座を奪い去ったこと」、ここに特徴がある。
それは、ホームランと四球の両立を追求したが、実際には得点力を大きく低下させてしまい、投手力でなんとか持ちこたえただけのタンパベイ・レイズとも、低打率ではあったがホームラン攻勢で得点数をなんとか維持できたヤンキースとも、待球を強く指示して四球と狭い球場を生かした2塁打で例年得点を伸ばすワンパターンなレッドソックスとも違った、四球大好きな東地区にない、ユニークなチーム・コンセプトだ。
(また、ヤンキースのようなチームにありがちな高い得点力と四球の多さの相関にしても、「四球が原因で、得点が結果」と、一義的に言い切れるわけではない。逆に「得点が原因で、四球が生まれる」、例えばホームランへを警戒しすぎて四球が増えるだけで、実際には、ヤンキースの得点に対する四球の本当の寄与度は、実は他チームと変わらないか、低い可能性だって無いわけではない。「事象A が 事象B を発生させている」のか、逆に「B が A を発生させている」のかは、相関係数だけで判明するわけではない)

むしろ、ユニークな攻撃パターンをとって勝ち進んだテキサスの855得点の全パターンを調べ、どの得点に、どう四球がからんだか、また、それぞれの得点において四球が果たした役割を積み上げる形で具体化することでもしないかぎり、もともと相関があるかどうかさえハッキリしない四球総数と得点総数の関係を、子供のままごとのように並べて相関係数を計算する程度の簡単なデスクワークで、「相関係数、高いでちゅね」だの、「打率より四球のほうが得点相関が高い」だのなんだの、寝言を言ってもらっては困る。


ちなみに、出塁率の高低にしても、チームごとの格差をもたらしているファクターは、四球数ではない。この点については、既に一度指摘した。もう一度書いておこう。
四球と打率とで、出塁率とより強い相関関係にあるのは、四球ではない。「打率」である

「一方で出塁率が大事だといい、他方では四球が大事だという、都合のいいデタラメな論理」は、とっくの昔に破綻していることがわかっている。もし「出塁率を向上させることが大事だ」とか言い張り続けたいのなら、打率を重視すべきと発言するのでなければ、スジが通らない。

2011ア・リーグ 打率と出塁率の比例関係(ホーム)
2011ア・リーグ 打率と出塁率の比例関係(ホーム)

2011ア・リーグ 打率と出塁率の比例関係(ビジター)
2011ア・リーグ 打率と出塁率の比例関係(ビジター)

ダメ捕手、城島健司。The Johjima Problem.:2011年9月3日、チームというマクロ的視点から見たとき、「出塁率」を決定している唯一のファクターは「打率」であり、四球率は無関係、という仮説。


あと、蛇足としていうなら、
得点の重み、必要度というものは、チームによって異なる。得点パターンも、目標とする点数も、チーム事情によって違う。いいかえると、チームによっては、無限に得点が必要なわけじゃなく、必要なだけ得点があれば十分というチームもある

例えば、先発投手に大きなウエイトを置くチームAでは、得失点1点の重みが重く、1試合あたり3点程度挙げておけば、先発投手が毎回完投してくれて、それなりの勝率が挙げられるかもしれない。
また、投手にあまりウエイトを置かず、毎日のように打撃戦を戦っているようなチームBでは、1点の重みは軽く、細かい野球など必要ないから、四球とホームランだけを狙っていく戦略が通用するかもしれない。
もちろんテキサスのように、チームによっては、四球などなくても大量点が入れられるチームもある。(だからこそ、テキサスはユニークで、ユニークだったからこそチャンピオンなのだ。マネーボールも、ボストンも、テオ・エプスタインも、もはやユニークでもなんでもない)
スラッガーを並べて四球と長打だけを狙い、大量点獲得を目指す打撃優先チームもあるかもしれないし、四球や盗塁を元に必要十分なだけの得点を狙う投手優先チームもあるかもしれない。また、四球のランナーに盗塁させるチームもあれば、そうでないチームもある。


四球の生かし方なんてものは、チーム事情によって異なる。


同地区のライバルのチームコンセプトと比較して、どう戦うとより勝ち星が増えるかも考えなくてはならないし、結局、問題なのは、非常に複雑な選択肢の中から、どれをどう選択すると最大の効果が得られるか、だ。平均的、統計的にやっていれば勝てるなんていう、なまぬるいやり方など、通用しない。
Copyright © damejima. All Rights Reserved.

チーム総得点と総ヒット数の決定係数
(2011ア・リーグ)

チーム総得点と総ヒット数の相関(2011ア・リーグ)

チーム総得点数と総ホームラン数の決定係数
(2011ア・リーグ)

チーム総得点数と総ホームラン数の決定係数(2011ア・リーグ)


Play Clean
日付表記はすべて
アメリカ現地時間です

Twitterボタン

アドレス短縮 http://bit.ly/
2020TOKYO
think different
 
  • 2014年10月31日、PARADE !
  • 2013年11月28日、『父親とベースボール』 (9)1920年代における古参の白人移民と新参の白人移民との間の軋轢 ヘンリー・フォード所有のThe Dearborn Independent紙によるレッドソックスオーナーHarry Frazeeへの攻撃の新解釈
  • 2013年11月8日、『父親とベースボール』 (8)20世紀初頭にアメリカ社会とMLBが経験した「最初の大衆化」を主導した「外野席の白人移民」の影響力 (付録:ユダヤ系移民史)
  • 2013年11月8日、『父親とベースボール』 (8)20世紀初頭にアメリカ社会とMLBが経験した「最初の大衆化」を主導した「外野席の白人移民」の影響力 (付録:ユダヤ系移民史)
  • 2013年11月8日、『父親とベースボール』 (8)20世紀初頭にアメリカ社会とMLBが経験した「最初の大衆化」を主導した「外野席の白人移民」の影響力 (付録:ユダヤ系移民史)
  • 2013年6月1日、あまりにも不活性で地味な旧ヤンキースタジアム跡地利用。「スタジアム周辺の駐車場の採算悪化」は、駐車場の供給過剰と料金の高さの問題であり、観客動員の問題ではない。
  • 2012年7月3日、『父親とベースボール』 (2)南北戦争100年後のアフリカ系アメリカ人の「南部回帰」と「父親不在」、そしてベースボールとの距離感。
  • 2012年7月3日、『父親とベースボール』 (2)南北戦争100年後のアフリカ系アメリカ人の「南部回帰」と「父親不在」、そしてベースボールとの距離感。
  • 2012年6月29日、『父親とベースボール』 (1)星一徹とケン・バーンズに学ぶ 『ベースボールにおける父親の重み』。
Categories
ブログ内検索 by Google
ブログ内検索 by livedoor
Thank you for visiting
  • 今日:
  • 昨日:
  • 累計:

free counters

by Month