8 мин.

Разработка аналитической модели ожидаемых голов для КХЛ

При работе с прогностической моделью оценки действий игроков довольно быстро стало очевидно, что ее точность и предсказательные способности ограничены без данных по xG. Так как модель изначально обучалась именно под прогнозирование разницы шайб, то сразу появляется проблема в том, что разница шайб часто зависит от везения, в то время как в показатель xG нет. К примеру, точность модели на дистанции последнего месяца в части определения победителя конкретного матча составляет (74%), если победителя по xG, то - 71%. На той же дистанции команды с большим xG команды выигрывают в основное время или ОТ в 69% случаев (и не проигрывают в 79%).

Входные данные

На сайте КХЛ можно найти данные по координатам бросков, игрокам, а также игровому времени их совершения за последние полтора сезона. После их обработки уже можно посмотреть, как, например, бросают лучшие снайперы прошлого регулярного сезона.

Тепловые карты бросков лучших 6 снайперов прошлого сезона

Казалось бы, для хорошей аналитической модели – это очень слабый набор данных, поэтому на следующем этапе необходимо сгенерировать дополнительные признаки. Первым делом посмотрим отчего же зависит реализация бросков.

Все вроде бы очевидно – от позиции игрока. В целом верно, и данные это подтверждают – с пятака реализуется львиная доля бросков. Красные всполохи за синей линией – это броски по пустым воротам. Из-за того, что оттуда совершается очень мало бросков, единичные точные выстрелы искажают картину. Отчасти это коррелирует и с тем, что защитники реализуют свои броски почти в 3 раза хуже, чем нападающие: 11,3% против 4,4%.

Карта реализации бросков с сезона 2024/25 (0 - 20%)

Из позиционных координат можно узнать дальность броска и угол. Как видно из графика, броски с ближней дистанции совершаются сильно реже, но при этом реализуются в каждом пятом случае.

В то время как зависимость реализации от дистанции до ворот практически линейна, то для угла броска зависимость сложнее. Интересно, что минимальная часть бросков совершатся по оси ворот, но там же реализуется наименьшее количество бросков.

Зависимость реализации от дистанции броска
Зависимость реализации от угла броска

На следующем этапе мы оценим ситуационную составляющую. Например, совершается ли бросок в большинстве или в равных составах. Вроде бы интуитивно кажется, что бросок в большинстве опаснее, но статистически в большинстве реализуется 8,6% бросков, тогда как в равных составах – 9,3%. Любопытно также, что на реализацию совершенно не влияет проходит игра дома или в гостях: и там, и там процент замер на 9,2%.

При наличии временных меток можем также выделить добивания - это будут броски, нанесенные с минимальной разницей по времени между ними. Чтобы определить это временное значение, взглянем на график. Максимальный скачок в реализации происходит при бросках, нанесенных менее чем через 4 секунды после предыдущего. Такие броски реализуются более чем в 25% случаев.

Зависимость реализации от временной разницы между бросками

Последняя метрика, влияние которой на реализацию мы можем рассмотреть, это разница в счете, при которой происходит бросок. Очевидно, что проигрывающая команда будет пытаться отыграться, что должно привести к большему количеству бросков, и данные это подтверждают. При этом команды, уступающие в счёте, не только больше бросают, но и реализуют меньше бросков. С другой стороны реализация команд, которые ведут в 2 и больше шайбы практически в 2 раза больше, чем в равных составах.

Зависимость реализации от разницы в счёте

В итоге для обучения модели были использованы данные о координатах броска, позиции игрока, дистанции и угле нанесения броска, разнице во времени между бросками, формате игры и разнице в счете. Для анализа была выбрана логистическая регрессия. Для валидационного множества точность модели составила 89,7%, но это не совсем показательная метрика, так как относительно всех бросков гол - статистически редкое событие.

Результаты

По командам

Ожидаемые и реальные голы в сезоне КХЛ 2025/26

Модель явно ждет большего числа голов. В этом плане особенно выделяется Адмирал, который по xG недобирает 20 заброшенных шайб. Обратная ситуация для Металлурга, Авангарда и Драконов, которые по xG должны были забить чуть меньше. Отчасти это может быть связано с тем, что модель никак не учитывает качество исполнителей.

Ожидаемые и реальные пропущенные голы в сезоне КХЛ 2025/26

По допущенным моментам (xGA) таблица в целом отражает реальность. Сразу выделяется огромная разница в 22 шайбы для Амура, где Максим Дорожко должен быть в топ-3 лучших вратарей сезона. Интересно, что оборона Спартака по ожидаемым пропущенным голам входит в топ-10, хотя по реальным голам является четвертой с конца.

Ожидаемая и реальная разница голов в сезоне КХЛ 2025/26

По ожидаемой разнице шайб (xGD) картина довольно близка к реальной. С одной стороны, выделяются Автомобилист и Драконы, которые по xGD ненамного выше трех худших команд этого сезона. С другой стороны, все тот же Адмирал, который из раза в раз по модели должен выглядеть лучше, чем на самом деле, и минское Динамо, ставшее лучшей командой по всем ожидаемым метрикам xG.

По игрокам

Лучшие игроки по xG в сезоне КХЛ 2025/26

Немного скептически отношусь к использованию xG именно для прогнозирования голов игроков. Как упоминал выше, модель не знает, кто именно бросает, поэтому не может учитывать, что, например, Джошуа Ливо реализует в среднем за карьеру 12,5% бросков, что на 4% выше среднего. Ливо кстати 11-й в xG таблице.

Лучшие вратари по GSAx в сезоне КХЛ 2025/26

Для вратарей xG наконец дает возможность более-менее точно оценить их вклад в результаты команды через спасенные голы выше ожидаемого (GSAx). И если Максим Дорожко и Филипп Долганов остаются в топе, то дальше несколько новых имен. Семен Вязовой имеет один из лучших показателей по количеству спасенных голов среднем за игру (1,0 GSAA/И) и третий показатель по спасенным голам с 12,0. Из основных вратарей выше сейчас только Илья Самсонов, пока спасающий в среднем больше гола за игру в Сочи (1,1).

Худшие вратари по GSAx в сезоне КХЛ 2025/26

В хвосте рейтинга - оба стартера ЦСКА. Спенсер Мартин замкнул таблицу, пропустив почти на 7 голов выше ожидаемого. Примерно на том же уровне пока защищают ворота Илья Набоков и Артём Загидулин, пропускающие в среднем по 0,4 гола GSAx/И.

Итоги

Для первой итерации такой модели уже получились довольно интересные результаты. В плане развития можно было бы использовать такие данные, как тип броска (например, щелчок, кистевой бросок), расположение игроков на момент броска (это бы вообще наконец позволило бы довольно сильно развить модель), но таких данных, по крайней мере, в открытом доступе пока нет. К тому же возможно на модель влияет наличие в исходных данных голов в пустые ворота, которые в явном виде невозможно отфильтровать.

Данные по xG и другую аналитику можно посмотреть в моем Telegram-канале.