9 мин.

Бостон Ред Сокс-2013. Прогнозы систем PECOTA и ZiPS. Часть 1. Введение в предмет

До начала бейсбольного сезона остаётся больше месяца, и учитывая то, что 95% приобретений и трейдов межсезонья уже совершены, фанатам только и остаётся, что следить за информацией из тёплых Аризоны и Флориды, где уже полным ходом кипит подготовка к сезону. Но ни игры третьего по счёту WBC, ни игры Весенних Тренировок, ни, тем более, обычные тренировочные занятия, которые проходят сейчас, не удовлетворят настоящего фаната, который с нетерпением ожидает бейсбольного сезона. Слухи о потенциальных приобретениях уже практически затухли (если бы не никому не нужный Кайл Лоуш, и вовсе бы затухли), финализированные сделки давно обсосаны до косточек. Что же делать?

И тут на помощь приходят прогностические системы, финальные версии которых появляются в Интернет-пространстве как раз в такой "мёртвый сезон" (и это объяснимо - пока составы максимально не устаканятся, смысл что-то прогнозировать?) - PECOTA от сайта Baseball Prospectus и ZiPS от сайта Fangraphs. Изначально я хотел ограничиться обзором PECOTA, так как контент сайта Fangraphs бесплатный, а для Baseball Prospectus нужна подписка, которая у меня имеется, а у большинства моих читателей - нет (то есть, я бы дал ту информацию, которой у них нет). Но поскольку так получилось, что релиз PECOTA и статья ZiPS о Ред Сокс вышли в один день (11 февраля), я решил всё же объединить обзор обеих систем в один пост - для сравнения. Правда, больший акцент буду делать всё же на PECOTA, по причинам, которые объясню ниже. Надеюсь, этот анализ будет интересным для широкого круга фанов Ред Сокс.

В первой части я кратко ознакомлю вас с тем, что это за зверь такой PECOTA и брат его ZiPS, поясню, что скрывается за аббревиатурами в таблицах, а также в качестве бонуса дам прогноз PECOTA на выход в плей-офф команд AL East.

Что собой представляют прогностические системы и как они работают?

PECOTA расшифровывается как Player Empirical Comparison and Optimization Test Algorithm - тестовый алгоритм для эмпирического сравнения и оптимизации игроков (но изначально название было выбрано по фамилии "идеально среднего" игрока Билла Пекоты). Система разработана в 2003 году статистиком и саберметриком Нэйтом Силвером, который тогда работал аналитиком сайта Baseball Prospectus, а впоследствии переключился на политику (и совсем недавно на основании своих статистических систем абсолютно точно предсказал результаты президентских выборов в США во всех штатах, хотя до самих выборов над некоторыми его прогнозами откровенно смеялись), и прогнозирует будущую продуктивность игроков. Она базируется на трёх компонентах:

  1. коэффициент MLB, который позволяет спрогнозировать продуктивность игрока в MLB на основании статистики майнор лиг;

  2. базовые прогнозы, которые используют усреднённые показатели для выделения настоящего качества игры игрока;

  3. карьерная корректировка, которая включает информацию о том, как изменялась с возрастом статистика похожих игроков.

ZiPS расшифровывается как SZymborski Projection System, и разработана статистиком и саберметриком Дэном Симборски (отсюда и первое слово аббревиатуры) в 2003 году. Принципы ZiPS и PECOTA в целом, конечно же, схожи, но одно серьёзное отличие имеется. ZiPS больше ориентируется на процентные показатели продуктивности, а не на количественные, и игровое время берёт, исходя из прошлогодних. Поэтому ZiPS не так показательна для игроков, у которых кардинально поменялась роль в команде и для проспектов, оценка которых идёт по статистике майнор лиг, где они, само собой, игроки основы, тогда как PECOTA пытается вместе с прогнозом продуктивности прогнозировать и игровое время в зависимости от того, какая роль у игрока сейчас, а для проспектов используется минимум проведённого времени, который для хиттеров составляет 250 выходов на биту. Это вкупе с недоступностью PECOTA и является главной причиной тому, что прогнозам PECOTA я уделю больше внимания, а ZiPS оставлю "в довесок".

Словарь терминов

Для любой таблицы с кучей статистических данных нужны пояснения, тем более, что многие саберметрические показатели нашему читателю мало, а то и совсем не знакомы. Само построение основной статистической таблицы состоит из трёх строк - в первой указана статистика игрока в сезоне 2012 года, во второй - прогноз PECOTA на сезон 2013 года, в третьей - прогноз ZiPS на сезон 2013 года. Учитывая то, что в некоторых столбцах объединяются две похожие, но всё-таки по-разному вычислящиюеся статистики (допустим, WARP в PECOTA и fWAR в ZiPS), уточняю, что в строке показателей сезона 2012 года я использовал статистику Baseball Prospectus, то есть, ту, которая указана в PECOTA.

После основной таблицы следуют две дополнительные мини-таблицы. В первой показаны дополнительные прогностические коэффициенты улучшения или ухудшения показателей игрока от PECOTA, во второй - указанные похожие игроки по версиям обеих систем (PECOTA даёт троих самых похожих, ZiPS - самого-самого похожего). Подробно - ниже.

Более подробный словарь по каждому пункту таблиц:

Показатели только для хиттеров:

  • PA - количество выходов на биту.

  • R - количество принесённых ранов.

  • H - количество выбитых хитов.

  • - количество выбитых даблов.

  • - количество выбитых триплов.

  • HR - количество выбитых хоум-ранов.

  • SB - количество украденных баз.

  • ВВ - количество выработанных уоков.

  • SO - количество страйкаутов.

  • AVG - batting average, показывает, как часто бэттер выбивает хиты.

  • OBP - on-base percentage, показывает, как часто игрок попадает на базу любым способом.

  • SLG - slugging percentage, показывает качество хитов - каждая лишняя база, занятая последствием хита, ценится выше.

  • TAv/wOBA. TAv - это true average, основной комплексный статистический показатель хиттинга, применяемый Baseball Prospectus. Он оптимизирован под шкалу AVG, так что оценивать TAv игрока легче легкого - например, если AVG .300 это очень хорошо, то и TAv .300 это точно так же хорошо. wOBA - это weighted on-base average, основной комплексный статистический показатель хиттинга, применяемый Fangraphs. Он оптимизирован под шкалу OBP, так что оценивать wOBA игрока легче легкого - например, если OBP .380 это очень хорошо, то и wOBA .380 это точно так же хорошо. Подробнее о wOBA можно прочитать тут, точно так же работает и TAv, только формула другая и адаптация чуть другая. Поэтому эти два очень похожих по своей сути показателя и объединены в одну колонку.

Показатели только для питчеров:

  • G/GS - количество проведённых игр и количество стартов.

  • IP - количество отработанных иннингов.

  • H - количество выданных хитов.

  • ER - количество выданных заслуженных ранов.

  • HR - количество выданных хоум-ранов.

  • BB - количество выданных уоков.

  • SO - количество сделанных страйкаутов.

  • BB/9 - количество выданных уоков за 9 иннингов.

  • SO/9 - количество сделанных страйкаутов за 9 иннингов.

  • WHIP - walks plus hits per inning pitched, показывает, сколько в среднеем раннеров питчер пропускает на базы путём уоков и хитов за иннинг работы (ZiPS почему-то не прогнозирует этот показатель).

  • ERA - earned run average, показывает, сколько заслуженных ранов выдаёт питчер за 9 иннингов работы.

  • FRA/FIP. FRA - это fair run average, статистический показатель, который показывает то, как бы должна выглядеть ERA питчера, если бы в неё не вмешивались побочные факторы (удача, качество защиты и т.д.). Он оптимизирован под шкалу ERA, так что оценивать FRA игрока легче легкого - например, если ERA 3.00 это очень хорошо, то и FRA 3.00 это точно так же хорошо. FIP - это fielding independent pitching, статистический показатель, который показывает то, как бы должна выглядеть ERA питчера, если бы в неё не вмешивались побочные факторы (удача, качество защиты и т.д.). Он оптимизирован под шкалу ERA, так что оценивать FIP игрока легче легкого - например, если ERA 3.00 это очень хорошо, то и FIP 3.00 это точно так же хорошо. Подробнее о FIP можно прочитать тут, точно так же работает и FRA, только кроме статистик, которые питчер может контролировать (страйкауты, уоки и хоум-раны), она учитывает не только то, что у питчера получилось, а и в какой ситуации (то есть, например, страйкаут при загруженных базах ценится выше страйкаута при пустых базах). Поэтому эти два очень похожих по своей сути показателя и объединены в одну колонку (Baseball Prospectus использует и обычный FIP, но PECOTA почему-то его не прогнозирует.).

Показатели, общие для хиттеров и питчеров:

  • WARP/fWAR - это WAR разных сайтов (WARP - Baseball Prospectus, fWAR - Fangraphs), показатель, который, грубо говоря, показывает, сколько побед прибавляет команде этот игрок лично по сравнению с игроком запаса. Подробнее о WAR можно прочитать тут.

  • Breakout - процентный шанс того, что продуктивность игрока улучшится минимум на 20% по сравнению с его средней статистикой последних сезонов (например, как Эллсбери в 2011).

  • Improve - процентный шанс того, что продуктивность игрока вообще улучшится по сравнению с его статистикой последних сезонов. Для игрока, которому прогнозируют выступление на точно том же уровне, что и раньше, этот показатель будет составлять 50%.

  • Collapse - процентный шанс того, что продуктивность игрока упадёт минимум на 25% по сравнению с его средней статистикой последних сезонов (например, как Лэки в 2011).

  • Attrition - процентный шанс того, что игровое время игрока уменьшится минимум на 50% по сравнению с его средним игровым временем последних сезонов. Это, в первую очередь, указывает на риск травм, во вторую - на риск резкого ухудшения игры и смены роли в команде.

  • Похожие игроки - тут вроде всё и так ясно, но необходимо заметить, что если, к примеру, PECOTA сравнивает Педройю с Майсером Изтурисом, то это значит только то, что это сравнение исключительно 29-летнего Педройи и 29-летнего Изтуриса, не их карьеры в целом. Так что не крутите пальцем у виска, видя такие, на первый взгляд, неадекватные сравнения (то же самое и если наоборот - вроде бы слабого игрока Ред Сокс сравнивают с звездой). Контекст важнее всего.

Почему в основных таблицах выбраны именно эти показатели, а не другие? Потому что они наиболее важны в плане прогноза выступления игрока, а на то, чтобы добавить ещё парочку показателей (BABIP в первую очередь), просто не хватило ширины полосы блога. Плюс, несмотря на схожесть двух систем, у них нет стандартного набора статистик, которые они прогнозируют - например, важный показатель ISO PECOTA, в отличие от ZiPS, почему-то не прогнозирует, иначе, думаю, я впихнул бы его в таблицу вместо украденных баз, а у питчеров ZiPS не прогнозирует ни WHIP (который я всё же вставил в таблицу), ни процент граундболов (которому места не нашлось). Ну а неподходящие для общей оценки уровня игрока показатели вроде RBI для хиттеров или W-L для питчеров я оставил за рамками по причине их бесполезности в данном аспекте.

Прогнозы PECOTA на выход в плей-офф команд AL East

Пояснение к таблице:

  • Win % - процент побед.

  • W - количество побед.

  • L - количество поражений.

  • Div % - шанс на победу в дивизионе.

  • WC % - шанс на попадание в Уайлд Кард.

  • PO % - шанс на попадание в плей-офф.

  • DS % - шанс на попадание в Divisional Series.

  • WS % - шанс на победу в Мировых Сериях.

Как видим, PECOTA к шансам Ред Сокс относится весьма оптимистично. Чего и вам советую.