8 мин.

Построение прогностической модели для КХЛ на основе статистики

В современном хоккее аналитика играет ключевую роль не только для тренеров и менеджеров команд, но и для болельщиков и специалистов, стремящихся глубже понимать игру. Сравнить, например, оборонительного защитника и забивного форварда, центрального нападающего, активно работающего в своей зоне, и вратаря, играющего за спинами претендента на чемпионство, — на первый взгляд простая задача, которая на практике оказывается почти нерешаемой.  Особенно явно это можно увидеть на примере коллег со Sports, которые попытались оценить эффективность контрактов игроков в прошлом сезоне, разделив сумму контракта на количество очков. Очевидный минус такого подхода в том, что оборонительные игроки и команды с акцентом на защиту неизбежно оказываются недооценёнными.

В НХЛ для оценки игроков внедрено множество метрик, в том числе:

- доля бросков команды с игроком на льду (Corsi%);

- доля ожидаемых голов (xG%);

- доли стартов в зоне нападения и защиты;

- уровень соперничества.

В качестве ориентира я использовал модель Дома Лучичина (Dom Luczyczyn), опубликованную в Athletic. Такая модель пересчитывает атакующие и защитные показатели игроков в общий рейтинг, который на уровне команд позволяет с высокой степенью достоверности оценить эффективность команд в течение сезона.

Выбор статистических показателей

Выбор статистических показателей для использования в модели

Создание модели началось с выбора ключевых статистических показателей. Она отличается от американской версии прежде всего набором метрик, подаваемых на вход. Модель Дома использует ожидаемые голы команды (xGF) и ожидаемые голы соперника (xGA), как одну из метрик, оценивающих эффективность игроков на льду в ситуации 5-на-5. Для КХЛ сейчас в открытом доступе подобных данных нет. Появляются данные с xG для отдельных игроков, но на командном уровне нет ни данных типа Corsi, ни xGF. Самым близким аналогом стали результативные действия своей команды и соперника, заложенные в показатель полезности.

В защитном рейтинге модели учитываются как индивидуальные показатели (шрафное время, блоки, отборы, выигранные вбрасывания), так и влияние на игру в меньшинстве и действия соперника в равных составах. Атакующий рейтинг базируется на голах, передачах, бросках, разнице вбрасываний, командной результативности и игре в большинстве. Для вратарей сейчас уже общепринято использовать спасенные голы выше ожидаемого (GSAx), но так как в свободном доступе для КХЛ таких данных тоже пока нет, были выбраны сейвы и пропущенные голы.

Расчет рейтинга

Каждому игроку был присвоен атакующий и защитный рейтинги, рассчитанные на основе статистических метрик и скорректированные с учетом аналитических коэффициентов, зависящих от позиции.

Затем регрессионный анализ позволил перевести рейтинги игроков в реальные игровые показатели — разницу шайб. На основе данных сезонов 2023–24 и 2024–25 была построена модель, формула которой легла в основу прогноза.

Корреляция общего рейтинга команд, полученного в модели и реальной разницей шайб в регулярном сезоне

Прогнозирование показателей на новый сезон

С помощью весового распределения прошлогодней статистики и усреднённой возрастной дельты по каждому показателю я спрогнозировал ключевые метрики на сезон 2025–26, а затем преобразовал их в рейтинг игроков.

В дальнейшем рейтинги выравниваются, чтобы в конкретном сезоне медианный рейтинг выравнивался в 0. Таким образом, полученный рейтинг игроков является не только отражением их прошлой результативности, но и предсказанием их будущего вклада.

Результаты

Лучшие игроки КХЛ по рейтингу

Лучшие игроки КХЛ по общему рейтингу.

Относительно неожиданным лидером общего рейтинга стал Александр Хмелевский («Салават Юлаев»), ставший лучшим по атакующим показателям (+16,9) и крепкую игру в обороне. Кроме того, он входит в число лучших игроков лиги по игре на точке и входит в топ-10 по очкам два сезона подряд. Модель прогнозирует продолжение сильной игры, но остается вопрос, как он сможет проявить себя в обновленном составе клуба.

Лучшим защитником по общему рейтингу стал лидер обороны «Адмирала» - Либор Шулак (+15,8), немного опередивший Дамира Шарипзянова (+14). Настоящая машина бросков, Шулак отлично проявил себя в качестве партнера, находясь на льду при 39% голов команды в прошлом сезоне и при 40% в сезоне 2022-23. Он лишь немного уступал лидерам по этому показателю - Дамиру Шарипзянову (42%) и Александру Никишину (40%). Шулак стал последним защитником после Александра Никишина (космические 53% в сезоне 2023-2024), кто достиг отметки в 40%.

Лучшие игроки исходя из позиции

В отсутствие xGF и xGA модель делает акцент на действиях в обороне, что иногда приводит к переоценке команд, проводящих большую часть времени в своей зоне. Несмотря на это, результаты все равно довольно интересные: лучшей оборонительной командой, как и ожидалось, стал «Локомотив», поэтому логично видеть среди лучших оборонительных игроков сразу пять игроков из Ярославля.

Лидером в оборонительном рейтинге стал Алексей Василевский — машина по производству заблокированных бросков и один из лидеров команды по игре в меньшинстве, входящий в топ-4 по этому показателю. Главный преследователь, Тимур Ахияров, занял второе место в Лиге по игре в меньшинстве (после Дамира Шарипзянова) и вошел в топ-6 по заблокированным броскам.

Лидером по оборонительному рейтингу среди нападающих стал Георгий Иванов. В прошлом сезоне он был признан лучшим игроком Лиги по игре на точке при 5 на 5 и являлся одним из ключевых игроков «Локомотива» в меньшинстве. Остальные высокие места в оборонительном рейтинге среди нападающих остались в основном заняли сильные двусторонние центры.

Среди лучших атакующих игроков встречаются хорошо знакомые звездные дуэты из «Салавата» и «Динамо»: Ливо с Хмелевским, Гусев с Уилом, и такие звезды как Буше и Голдобин, а также Яшкин и участник лучшего звена КХЛ Пилипенко. Интересно, что трое из них уже сменили клуб по ходу межсезонья. Никита Гусев при этом должен по прогнозу стать лучшим ассистентом и набрать больше всех очков.

Для атакующих защитников, помимо уже упомянутых Шарипзянова и Шулака, тройку замыкает Тревор Мёрфи. Новичок СКА, по прогнозу, станет лучшим бомбардиром среди защитников в предстоящем сезоне.

Командные рейтинги и глубина состава

Пример глубины состава для ХК "Локомотив" (Ярославль)

Исходя из ориентировочных составов команд на сезон, рейтинги игроков были агрегированы в общий командный рейтинг. Гистограммы рейтингов были нормированы исходя из максимального значения для каждой позиции. Например, для левого нападающего первого звена минимальным значением диаграммы является минимальный рейтинг среди всех ЛН1, а максимальным, соответственно, — максимальный рейтинг. Такая схема применялась ко всем позициям и для каждого из атакующего, защитного и общего рейтингов.

На примере схемы «Локомотива» видно, что исходя из модели центр уровня Георгия Иванова во втором звене является настоящей роскошью, составляя ключевую центральную ось обороны. А вот Алексей Береглазов, в свою очередь, не совсем оправдывает аванс для игрока первой пары обороны, но вполне уместно смотрелся бы в третей паре.

Вратарский рейтинг учитывался в общем защитном рейтинге команды. Прогнозируемый вратарский рейтинг пересчитывался исходя из прогнозируемого количества игр каждого вратаря, так что для каждого суммарно учитывалось 68 игр.

Прогнозирование исходов

Этот рейтинг затем использовался в модели пифагорейского ожидания (из бейсбольной аналитики Билли Джеймса), что позволило оценить вероятность победы в каждом матче в зависимости от разницы в рейтинге между двумя играющими командами. На основе этих вероятностей происходит симуляция «гладкой» части сезона и плей-офф, формируя распределение по очкам, итоговым местам в регулярном чемпионате и шансам на прохождение в Кубке. По сути вероятность победы «Локомотива» в Кубке Гагарина составляет 10%, что говорит о том, что в 1’000 симуляций из 10’000, именно действующий чемпион одержал бы победу, что соответствует третьим шансам в Лиге.

Пример прогноза для ХК "Локомотив" (Ярославль)

Заключение

Эта модель не претендует на абсолютную точность, но служит интересной отправной точкой для переосмысления оценки игроков и команд КХЛ, в том числе позволяет:

- учитывать и анализировать индивидуальные показатели игроков и вклад каждого;

- прогнозировать результаты матчей и сезона благодаря гибкости и адаптивности модели по ходу турнира;

- выявлять переоцененных и недооцененных игроков;

- помогает наглядно представить силу команд и игроков.