Пифагорейское ожидание

редактировать

Пифагорейское ожидание - это формула спортивной аналитики, разработанная Биллом Джеймсом для оценки процента игр, которые бейсбольная команда «должна» выиграть, исходя из количества забитых и разрешенных пробежек. Сравнение фактического и пифагорейского процента побед команды может быть использовано для прогнозирования и оценки того, какие команды работают лучше или хуже. Название происходит от сходства формулы с теоремой Пифагора.

Основная формула:

{\ displaystyle \ mathrm {Win \ Ratio} = {\ frac {{\ text {пробежки с оценкой}} ^ {2}} {{\ text {пробеги с оценкой}} ^ {2} + {\ text {пробеги разрешены}} ^ {2}}} = {\ frac {1} {1 + ({\ text {пробеги разрешены}} / {\ text {пробеги оценены}}) ^ {2}}}}

{\ displaystyle \ mathrm {Win \ Ratio} = {\ frac {{\ text {пробежки с оценкой}} ^ {2}} {{\ text {пробеги с оценкой}} ^ {2} + {\ text {пробеги разрешены}} ^ {2}}} = {\ frac {1} {1 + ({\ text {пробеги разрешены}} / {\ text {пробеги оценены}}) ^ {2}}}}

где Win Ratio - коэффициент выигрыша, рассчитанный по формуле. Ожидаемое количество побед - это ожидаемый коэффициент выигрыша, умноженный на количество сыгранных игр.

СОДЕРЖАНИЕ

1 Эмпирическое происхождение
2 победы "второго порядка" и "третьего порядка"
3 Теоретическое объяснение
4 Использование в баскетболе
5 Использование в Национальной футбольной лиге
6 Использование в хоккее
7 См. Также
8 Примечания
9 Внешние ссылки

Эмпирическое происхождение

Эмпирически эта формула довольно хорошо коррелирует с тем, как на самом деле выступают бейсбольные команды. Однако статистики с момента изобретения этой формулы обнаружили, что она имеет довольно обычную ошибку, обычно около трех игр. Например, « Нью-Йорк Янкиз» 2002 года набрала 897 пробежек и разрешила 697 пробежек. Согласно первоначальной формуле Джеймса, янки должны были выиграть 62,35% своих игр.

{\ displaystyle {\ text {Win}} = {\ frac {897 ^ {2}} {897 ^ {2} + 697 ^ {2}}} = 0,623525865}

{\ displaystyle {\ text {Win}} = {\ frac {897 ^ {2}} {897 ^ {2} + 697 ^ {2}}} = 0,623525865}

Исходя из 162 игр в сезоне, «Янки» должны были выиграть 101,01 игру. Янки 2002 года на самом деле пошли 103–58.

Пытаясь исправить эту ошибку, статистики провели многочисленные поиски идеального показателя степени.

При использовании однозначного показателя степени 1,83 является наиболее точным и используется baseball-reference.com. Таким образом, обновленная формула гласит:

{\ displaystyle {\ text {Win}} = {\ frac {{\ text {пробежки с оценкой}} ^ {1.83}} {{\ text {пробеги с оценкой}} ^ {1.83} + {\ text {пробеги разрешены}} ^ {1.83}}} = {\ frac {1} {1 + ({\ text {запуски разрешены}} / {\ text {пробеги оценены}}) ^ {1.83}}}}

{\ displaystyle {\ text {Win}} = {\ frac {{\ text {пробежки с оценкой}} ^ {1.83}} {{\ text {пробеги с оценкой}} ^ {1.83} + {\ text {пробеги разрешены}} ^ {1.83}}} = {\ frac {1} {1 + ({\ text {запуски разрешены}} / {\ text {пробеги оценены}}) ^ {1.83}}}}

Наиболее широко известна формула Пифагенпорта, разработанная Клэем Дэвенпортом из Baseball Prospectus :

{\ displaystyle \ mathrm {Exponent} = 1,50 \ log \ left ({\ frac {R + RA} {G}} \ right) +0,45}

{\ displaystyle \ mathrm {Exponent} = 1,50 \ log \ left ({\ frac {R + RA} {G}} \ right) +0,45}

Он пришел к выводу, что показатель степени следует рассчитывать для данной команды на основе количества забитых пробежек (R), разрешенных пробежек (RA) и игр (G). Не уменьшая показатель степени до одного числа для команд в любом сезоне, Давенпорт смог сообщить среднеквадратичную ошибку 3,9911, в отличие от среднеквадратичной ошибки 4,126 для показателя степени 2.

Менее известна, но не менее (если не более) эффективна формула Пифагенпата, разработанная Дэвидом Смитом.

{\ displaystyle {\ text {Exponent}} = \ left ({\ frac {R + RA} {G}} \ right) ^ {0.287}}

{\ displaystyle {\ text {Exponent}} = \ left ({\ frac {R + RA} {G}} \ right) ^ {0.287}}

Давенпорт выразил свою поддержку этой формулы, сказав:

После дальнейшего обзора я (Клей) пришел к выводу, что так называемый метод Смита / Патриота, он же Пифагенпат, больше подходит. В этом случае X = (( rs + ra) / g) ^0,285, хотя есть некоторое пространство для разногласий в показателе степени. Как бы то ни было, это уравнение проще, элегантнее и дает лучший ответ в более широком диапазоне забитых запусков, чем Pythagenport, включая обязательное значение 1 при 1 RPG.

Эти формулы необходимы только в экстремальных ситуациях, когда среднее количество забитых ранов за игру либо очень велико, либо очень мало. В большинстве случаев простое возведение каждой переменной в квадрат дает точные результаты.

Существуют некоторые систематические статистические отклонения между фактическим процентом выигрыша и ожидаемым процентом выигрыша, которые включают качество КПЗ и удачу. Кроме того, формула имеет тенденцию регрессировать к среднему значению, поскольку команды, выигравшие много игр, как правило, недостаточно представлены формулой (что означает, что они «должны» выиграть меньше игр), а команды, которые проигрывают много игр, обычно перепредставлены (им "следовало" выиграть больше). Ярким примером является Техасские Рейнджерс 2016 года, которые превзошли свой прогнозируемый рекорд на 13 игр, установив рекорд 95-67, имея при этом ожидаемый рекорд побед-поражений всего 82-80.

Победы «второго порядка» и «третьего порядка»

В «Скорректированном отчете о турнирной таблице» Бейсбольный проспект указывает на разные «порядки» побед для команды. Основной порядок выигрышей - это просто количество выигранных игр. Однако, поскольку послужной список команды может не отражать ее истинный талант из-за удачи, были разработаны различные меры таланта команды.

Выигрыши первого порядка, основанные на чистой разнице пробежек, - это количество ожидаемых выигрышей, генерируемых формулой "pythagenport" (см. Выше). Вдобавок, чтобы еще больше отфильтровать искажения удачи, саберметристы также могут рассчитать ожидаемые забеги команды, набранные и разрешенные, с помощью уравнения типа созданных прогонов (наиболее точным на уровне команды являются базовые заезды ). Эти формулы приводят к ожидаемому количеству пробежек команды с учетом их атакующих и защитных характеристик (общее количество одиночных игр, парных ударов, ходьбы и т. Д.), Что помогает исключить фактор удачи, связанный с порядком, в котором команды наносили удары и проходили в пределах тайма. Используя эту статистику, саберметристы могут подсчитать, сколько пробежек команда «должна» забить или разрешить.

Подставляя эти ожидаемые забитые и разрешенные раны в формулу Пифагора, можно генерировать победы второго порядка, количество побед, которых заслуживает команда, в зависимости от количества ранов, которые они должны были забить и разрешить, учитывая их составляющую наступательную и оборонительную статистику. Выигрыши третьего порядка - это победы второго порядка, которые были скорректированы с учетом силы расписания (качества подачи и удара соперника). Было показано, что процент выигрышей второго и третьего порядка предсказывает будущий фактический процент выигрыша команды лучше, чем фактический процент выигрыша и процент выигрыша первого порядка.

Теоретическое объяснение

Изначально корреляция между формулой и фактическим процентом выигрыша была просто экспериментальным наблюдением. В 2003 году Хайн Хундал дал неточный вывод формулы и показал, что показатель Пифагора составляет примерно 2 / ( σ √ π), где σ - стандартное отклонение запусков, набранных всеми командами, деленное на среднее количество набранных запусков. В 2006 году профессор Стивен Дж. Миллер представил статистический вывод формулы при некоторых предположениях о бейсбольных играх: если прогоны каждой команды следуют распределению Вейбулла, а количество забитых и разрешенных за игру прогонов статистически не зависит, то формула дает вероятность того, что победа.

Проще говоря, формула Пифагора с показателем степени 2 немедленно следует из двух предположений: что бейсбольные команды выигрывают пропорционально их «качеству», и что их «качество» измеряется отношением их забитых забегов к их разрешенным забегам. Например, если команда А забила 50 пробежек и разрешила 40, ее показатель качества будет 50/40 или 1,25. Показателем качества для ее (коллективной) команды соперника B в играх против A будет 40/50 (поскольку забеги, забитые A, разрешены для B, и наоборот), или 0,8. Если каждая команда выигрывает пропорционально ее качеству, вероятность победы A будет 1,25 / (1,25 + 0,8), что равно 50 ² / (50 ² + 40 ²), формула Пифагора. То же самое соотношение верно для любого количества набранных и разрешенных прогонов, что можно увидеть, записав вероятность «качества» как [50/40] / [50/40 + 40/50] и очистив дроби.

Предположение о том, что одним из показателей качества команды является соотношение количества забитых и разрешенных пробежек, является естественным и правдоподобным; это формула, по которой определяются индивидуальные победы (игры). [Существуют и другие естественные и правдоподобные кандидаты для измерения качества команды, которые при допущении «качественной» модели приводят к соответствующим формулам ожидания процента выигрыша, которые примерно так же точны, как и пифагоровы.] Предположение о том, что бейсбольные команды выигрывают пропорционально своей качество не естественное, но правдоподобное. Это неестественно, потому что степень, в которой спортсмены выигрывают пропорционально их качеству, зависит от роли, которую шанс играет в спорте. Если шанс играет очень большую роль, то даже команда с гораздо более высоким качеством, чем ее противники, будет побеждать лишь немного чаще, чем проигрывает. Если шанс играет очень небольшую роль, то команда с чуть более высоким качеством, чем ее противники, будет выигрывать гораздо чаще, чем проигрывать. Последнее в большей степени характерно для баскетбола по разным причинам, в том числе из-за того, что набирается гораздо больше очков, чем в бейсболе (давая более качественной команде больше возможностей продемонстрировать это качество и, соответственно, меньше возможностей для случая или удачи, чтобы позволить более низкой команде). качественная команда для победы.)

В бейсболе есть как раз то количество шансов, которое позволяет командам выигрывать примерно пропорционально их качеству, то есть давать примерно пифагоровский результат с показателем два. Более высокий показатель баскетбола около 14 (см. Ниже) объясняется меньшей ролью, которую в баскетболе играет случай. И тот факт, что наиболее точный (постоянный) показатель Пифагора для бейсбола составляет около 1,83, что чуть меньше 2, можно объяснить тем фактом, что в бейсболе (по-видимому) немного больше шансов, чем позволяло бы командам выиграть в точной пропорции. их качество. Билл Джеймс осознал это давно, когда заметил, что повышение точности его исходной формулы Пифагора с показателем два может быть достигнуто простым добавлением некоторого постоянного числа к числителю и удвоенной константы к знаменателю. Это немного приближает результат к 0,500, что имеет немного большую роль для случая, а также то, что при использовании показателя степени 1,83 (или любого положительного показателя степени меньше двух). Можно попробовать различных кандидатов на эту константу, чтобы увидеть, что лучше всего соответствует реальным данным.

Тот факт, что наиболее точный показатель для формул Пифагора для бейсбола - это переменная, которая зависит от общего количества пробежек за игру, также объясняется ролью случайности, поскольку чем больше набранных пробежек, тем меньше вероятность того, что результат будет получен. случайности, а не к более высокому качеству команды-победителя, проявившейся во время возможности подсчета очков. Чем больше показатель степени, тем дальше от процента выигрыша 0,500 является результат соответствующей формулы Пифагора, что является тем же эффектом, что и уменьшение роли случая. Тот факт, что точные формулы для переменных показателей дают более высокие показатели при увеличении общего количества пробежек за игру, таким образом, согласуется с пониманием роли, которую играет случай в спорте.

В своем резюме по бейсболу 1981 года Джеймс явно разработал другую формулу, названную формулой log5 (которая с тех пор оказалась эмпирически точной), используя понятие, что 2 команды имеют процент личных побед друг против друга пропорционально мера «качества». Его показатель качества составлял половину «коэффициента побед» (или «шансов на победу») команды. Отношение побед или шансы на победу - это отношение побед команды против лиги к ее проигрышам против лиги. [Джеймс в то время, похоже, не знал, что его показатель качества выражается в соотношении побед. Поскольку в модели качества любой постоянный фактор в показателе качества в конечном итоге отменяется, показатель качества сегодня лучше воспринимать как просто само соотношение выигрышей, а не его половину]. Затем он заявил, что формула Пифагора, которую он ранее разработал эмпирически. для прогнозирования процента выигрышей в результате выполнения «то же самое», что и формула log5, хотя и без убедительной демонстрации или доказательства. Его предполагаемая демонстрация того, что они были одними и теми же, сводилась к тому, чтобы показать, что две разные формулы упрощаются до одного и того же выражения в частном случае, который сам по себе трактуется расплывчато, и нет признания того, что частный случай не является общим. Впоследствии он также не обнародовал какой-либо явной, основанной на качестве модели формулы Пифагора. По состоянию на 2013 год в саберметрическом сообществе все еще мало осведомленности о том, что простая модель «команды выигрывают пропорционально качеству», использующая соотношение прогонов в качестве меры качества, напрямую ведет к исходной формуле Пифагора Джеймса.

В Резюме 1981 г. Джеймс также говорит, что он сначала попытался создать формулу «log5», просто используя процент побед команд вместо прогонов в формуле Пифагора, но это не дало достоверных результатов. Причина, неизвестная Джеймсу в то время, заключается в том, что его попытка формулировки подразумевает, что относительное качество команд определяется соотношением их процентов побед. Однако это не может быть правдой, если команды выигрывают пропорционально их качеству, поскольку команда 0,900 побеждает своих оппонентов, общий процент побед которых составляет примерно 0,500, в соотношении 9: 1, а не их соотношении 9: 5. От 900 до 0,500 процентов выигрыша. Эмпирическая неудача его попытки привела к его окончательному, более окольному (и гениальному) и успешному подходу к log5, в котором по-прежнему использовались соображения качества, хотя и без полного понимания предельной простоты модели, ее более общей применимости и истинной структурной характеристики. сходство с его формулой Пифагора.

Использование в баскетболе

Американские спортивные исполнительный Дэрил Мори был первым адаптировать Пифагор ожидание Джеймса в профессиональный баскетбол в то время как исследователь STATS, Inc.. Он обнаружил, что использование 13,91 для показателей обеспечивает приемлемую модель для прогнозирования процентного соотношения выигранных и проигранных:

{\ displaystyle \ mathrm {Win} = {\ frac {{\ text {points for}} ^ {13.91}} {{\ text {points for}} ^ {13.91} + {\ text {points against}} ^ { 13.91}}}.}

{\ mathrm {Win}} = {\ frac {{\ text {очков за}} ^ {{13.91}}} {{\ text {очков за}} ^ {{13.91}} + {\ text {очков против} } ^ {{13.91}}}}.

«Модифицированная теорема Пифагора» Дэрила была впервые опубликована в журнале STATS Basketball Scoreboard, 1993–94.

Известный баскетбольный аналитик Дин Оливер также применил теорию Пифагора Джеймса к профессиональному баскетболу. Результат был похож.

Другой известный баскетбольный статистик Джон Холлингер использует аналогичную формулу Пифагора, за исключением того, что показатель степени равен 16,5.

Использование в Национальной футбольной лиге

Формула также использовалась в Национальной футбольной лиге веб-сайтом футбольной статистики и издателем Football Outsiders, где она известна как проекция Пифагора.

Формула используется с показателем 2,37 и дает прогнозируемый процент выигрыша. Затем этот процент побед умножается на 17 (для количества игр, сыгранных в сезоне НФЛ с 2021 года), чтобы получить прогнозируемое количество побед. Это прогнозируемое число, заданное уравнением, называется выигрышами Пифагора.

{\ displaystyle {\ text {Pythagorean wins}} = {\ frac {{\ text {points for}} ^ {2.37}} {{\ text {points for}} ^ {2.37} + {\ text {points against} } ^ {2.37}}} \ times 17.}

{\ displaystyle {\ text {Pythagorean wins}} = {\ frac {{\ text {points for}} ^ {2.37}} {{\ text {points for}} ^ {2.37} + {\ text {points against} } ^ {2.37}}} \ times 17.}

В « Альманахе аутсайдеров футбола» 2011 года говорится: «С 1988 по 2004 год 11 из 16 Суперкубков были выиграны командой, возглавлявшей НФЛ по пифагорейским победам, в то время как только семь были выиграны командой с наиболее реальными победами. Чемпионы Суперкубка которые лидировали в лиге по пифагорейским победам, но не по фактическим победам, включая Patriots 2004 года, 2000 Ravens, 1999 Rams и 1997 Broncos ».

Хотя в Football Outsiders Almanac признается, что эта формула была менее успешной при отборе участников Суперкубка в 2005–2008 годах, она вновь подтвердила себя в 2009 и 2010 годах. Кроме того, «[t] прогноз Пифагора также по-прежнему является ценным предсказателем от года к году. -годовое улучшение. Команды, выигравшие минимум на одну полную игру больше, чем их прогноз Пифагора, имеют тенденцию к регрессу в следующем году; команды, которые выиграли как минимум на одну полную игру меньше, чем их прогноз Пифагора, как правило, улучшают в следующем году, особенно если они на уровне 0,500 или выше, несмотря на их невысокие результаты.

Например, New Orleans Saints 2008 года набрал 8–8 очков, несмотря на 9,5 пифагорейских побед, намекая на улучшение, которое произошло с сезоном чемпионата следующего года ».

Использование в хоккее

В 2013 году статистик Кевин Дайаратна и математик Стивен Дж. Миллер представили теоретическое обоснование применения пифагорейского ожидания к хоккею с шайбой. В частности, они обнаружили, что, делая те же предположения, которые Миллер сделал в своем исследовании 2007 года о бейсболе, а именно о том, что забитые и голы позволяют следовать статистически независимым распределениям Вейбулла, пифагорейское ожидание работает так же хорошо для хоккея с шайбой, как и для бейсбола.. Исследование Даяратны и Миллера подтвердило статистическую правомерность этих предположений и оценило показатель Пифагора для хоккея с шайбой немного выше 2.

Смотрите также

Примечания

внешние ссылки

Миллер (2007) [2005]. "Вывод формулы Пифагора выигрыша-проигрыша в бейсболе". Журнал "Шанс". 20 (1): 40–48. arXiv : math.ST/0509698. Bibcode : 2005math...... 9698M. DOI : 10.1080 / 09332480.2007.10722831.
Текущее ожидание Пифагора Высшей лиги бейсбола.
Уточнение футбольной теоремы Пифагора