7 мин.

«Зенит» – чемпион на 96%, а у «Спартака» больше шансов на вылет, чем на ЛЧ. Это итог 20 тысяч симуляций РПЛ

По методу Монте-Карло!

Краткая история для старта: во время президентской гонки-2008 в США набрал популярность блог с прогнозами и раскладами Daily Kos. Он предсказал, что Барак Обама опередит Хиллари Клинтон на внутрипартийных выборах и станет единым кандидатом от демократов, а топовые медиа (от The New York Times до National Journal) это процитировали. Daily Kos отличался от других рейтингов необычной методологией – в подсчетах он использовал не только данные опросов, но и демографический состав штатов и историю предыдущих голосований.

К октябрю 2008-го посещаемость сайта выросла до 2,5 млн пользователей в неделю, а в ноябре Daily Kos выпустил финальный прогноз на выборы: победа Обамы с 353 голосами в коллегии выборщиков. В итоге Обама победил с 365 голосами, прогноз блога совпал по всем штатам, кроме Индианы и второго округа Небраски.

После выборов основатель Daily Kos Нэйт Силвер стал звездой, в 2010-м права на его блог выкупила The New York Times и переименовала в «FiveThirtyEight: политический калькулятор» (в названии стоит 538 – именно столько голосов в коллегии выборщиков США, которая выбирает президента и вице-президента).



В 2013-м Сильвера наняла ESPN и расширила горизонты: математика работала не только в политических прогнозах, но и в спортивных и культурных. Например, в 2016-м сайт верно предсказал победителей премии «Оскар» в четырех номинациях из шести ключевых.

Правда, за год до этого случился большой провал – FiveThirtyEight дал Трампу всего 2-процентный шанс на выдвижение от республиканцев. В мае 2016-го, когда нынешний президент США на максимальной скорости летел в предвыбороной гонке, Нэйт Силвер опубликовал гигантскую объяснительную под заголовком «Как я был прогнозистом и облажался». Краткий смысл: впервые на FiveThirtyEight субъективная оценка победила объективную, авторы модели подогнали цифры под предполагаемый разумом результат. Это и правда был нетипичный ход: FiveThirtyEight как раз и ценили за подробное описание методологии. 



Сейчас FiveThirtyEight входит в систему АВС News (как и ESPN, принадлежит The Walt Disney Company) и каждый месяц собирает по 20 млн уникальных пользователей. В январе 2017-го они запустили постоянно обновляемый прогноз на топовые лиги, а с августа 2018-го расширились до 35 лиг. Теперь математическая модель считает даже РПЛ.

Вот таблица вероятностей чемпионата России

Первое, что бросается в глаза, – таблица не совсем соответствует турнирной. «Спартак» выше «Уфы» и «Урала», а «Ростов» замыкает топ-5. Сравните.

А теперь выводы:

• Чемпионской интриги нет.

• На три места в ЛЧ всерьез претендуют пять команд, включая «Ростов».

• За выживание будут биться пять клубов. А если «Тамбову» не повезет, то шесть.

• Пять клубов застряли без особых задач, но их может взбодрить борьба за Лигу Европы.

• Бонус: у «Спартака» больше шансов вылететь, чем попасть в ЛЧ.

Как это считается: 20 тысяч симуляций по методу Монте-Карло, распределение Пуассона

Кратко: FiveThirtyEight присваивает каждой команде собственный рейтинг – на его основе высчитывается вероятность результата каждого матча. Далее – 20 тысяч симуляций всех игр сезона, а на выходе итоговая таблица с шансами команды на чемпионство, попадание в ЛЧ и вылет.

Теперь чуть подробнее – если не хотите вникать в детали, смело мотайте к следующему подзаголовку.

• Основа – индекс SPI, он показывает, сколько процентов от максимально возможного количества очков команда должна взять в этом сезоне. Перед началом каждого сезона рейтинг корректируется: 63% индекса составляют прошлогодний SPI, а оставшиеся 37% – стоимость команды на Transfermarkt. Эти 37% вызывают вопросы, ведь стоимость игрока на Transfermarkt формируется исходя из возраста и перспективы, а не реальной силы. Условно: Криштиану Роналду там дешевле, чем Жоау Феликс, который из-за травм (или еще чего-то) проводит средний сезон.

• Индекс SPI формируется из двух компонентов: атакующий рейтинг и защитный.

Атакующий и защитный рейтинг – это количество голов, которые команда должна забить/пропустить в матче против усредненного соперника в лиге. Например, текущие показатели «Зенита» 2.0 – 0.6, «Краснодара» 1,8 – 0,8, ЦСКА 1,6 – 0,8, а «Спартака» 1,3 – 1,0. Рейтинг меняется в течение сезона на основе трех компонентов.

1) Скорректированные голы – учитывает условия, при которых был забит каждый гол. Голы, забитые в большинстве и при победном счете, стоят гораздо ниже, чем другие.

2) xG – те самые ожидаемые голы, которые захватили мир данных. Вот трактат про xG от Вадима Лукомского.

3) xG без учета ударов. Ожидаемые голы, которые могли быть забиты в атаках без ударов по воротам. Например, по подсчетам составителей рейтинга перехват в штрафной – гол с 9-процентной вероятностью. А точный пас во вратарскую – гол с 14-процентной вероятностью.

Атакующий рейтинг – усредненный показатель всех трех компонентов, а защитный – средний атакующий показатель соперника.

• Для каждого матча составляется матрица возможных результатов. Рассчитывается количество голов, которые должна забить команда, чтобы сохранить текущий рейтинг. Далее по распределению Пуассона высчитывается вероятность 0 голов, 1 гола, 2 голов и так далее.

Вот как выглядит матрица для матча из 2018-го «Ливерпуль» – «Брайтон» (самый вероятный счет – 2:0, но на самом деле сыграли – 4:0).

• Когда есть вероятность для каждого матча, можно запускать симуляцию всего сезона. Ее проводят 20 тысяч раз по методу Монте-Карло и высчитывают шансы команд на победу в турнире, выход в ЛЧ и вылет. После каждого тура процесс повторяется – чтобы сохранять актуальность таблицы.

При составлении матрицы вероятностей учитывается даже важность матча для команды, и это самое интересное. FiveThirtyEight определяет, как сильно результат конкретной игры влияет на итоговое место. Лучше всего объяснить на примере: предположим, что в случае победы над «Оренбургом» вероятность вылета «Крыльев» упадет до 30%, а в случае поражения – взлетит до 50%. Чем выше разница (в данном случае она 20%), тем важнее матч для конкретной команды. Условный пример: если матч одинаково важен для «Крыльев» и «Оренбурга», то победа хозяев – 50%, гостей – 25%. Если этот матч важен для «Крыльев» и не имеет особого значения для «Оренбурга», то вероятность победы «Крыльев» повышается до 58%.

• FiveThirtyEight прогнозирует и еврокубки, они придумали метод, как сравнивать команды из разных лиг. На старте разработки индекса силы лиги предполагается, что все лиги равны. Составляются ожидаемые результаты матчей между командами из разных стран на основе их внутренних рейтингов. Условно: в матче «Зенита» и «Ливерпуля» шансы 50 на 50. Далее берутся реальные результаты матчей между клубами из этих стран за пять лет и соотносятся с прогнозируемыми. По этой разнице выводится индекс силы лиги, который корректируется с учетом усредненной стоимости игрока конкретной лиги на Transfermarkt. После этих вычислений шансы «Ливерпуля» против «Зенита» приближаются к 100%. Правда, тут есть вопросы: FiveThirtyEight не уточняет формулы расчетов.

А теперь прогноз на топ-лиги: «Ман Сити» ближе всех к победе в ЛЧ

Начнем с АПЛ – с чемпионской гонкой здесь все ясно, а вот Жозе Моуринью светит Лига Европы в следующем сезоне.

Теперь все остальное.

• Обратите внимание, что в ЛЧ фаворит именно «Ман Сити». Все потому, что по индексу SPI команда Пепа сильнее «Ливерпуля».

• Неожиданно высоко «Лейпциг» – даже выше «Боруссии». Вероятно, сказывается общий рейтинг Бундеслиги, который несколько лет поднимала «Бавария».

• Вычисления подтверждают тезис, что в Серии А сейчас как никогда весело. Точно веселее, чем в остальных топ-лигах.

Все хотят взломать футбол: «Арсенал» тратится на алгоритм для скаутов, а Депай выбрал «Лион» математическим моделированием

Фото: Gettyimages.ru/Win McNamee; РИА Новости/Александр Ступников