Справедливый «Золотой мяч»: я создал свою систему награждения в Excel (ч. 1)
«Золотой мяч» — одна из самых дискуссионных тем в футболе последние 15 лет. Каждый год любители футбола собираются у телеэкранов или мониторов, чтобы в очередной раз сказать, что эта награда уже давно не объективна, а Месси и Роналду ее обесценили, но все же до последнего следят за победителем.

Но что, если убрать субъективный фактор, пиар-кампании клубов и симпатии журналистов? Что останется? Голая статистика. Сухие цифры, которые, как считается, не могут передать всей красоты и влияния футболиста. Я решил проверить эту аксиому на практике и создал в Excel собственную систему награждения «Золотым мячом». Цель была проста: найти не самого популярного, а самого результативного и полезного игрока сезона. Результат оказался не просто неожиданным — он бросил вызов моим собственным представлениям о том, кто же был лучшим.
Моя система представляет собой своего рода идеальную вселенную, в которой:
Золотой мяч вручается каждый год и всегда по итогам сезона (в отличие от печальной истории с отменой награды в 2020 году, когда главным фаворитом был Роберт Левандовски, или спорного решения 2013 года, на которое, по слухам, повлиял хет-трик Криштиану Роналду в стыковом матче со Швецией). Сезоном считается временной период с 01.08 до 31.07 следующего года, то есть летние турниры сборных включаются в расчет. Мне этого не хотелось, но я решил все же не делать свою вселенную слишком параллельной. Следовательно, претенденты из чемпионатов с системой весна-осень оцениваются на общих основаниях: чего успел добиться с июля по июль, то и твое.
Золотой мяч вручается всегда по одинаковым критериям, вне зависимости от эпохи. О них я расскажу подробнее ниже.
Критерии подсчета
FIFA недавно снизошла до смертных и опубликовала свои критерии награждения. Критерии следующие:
1. Личные выступления, в том числе в решающие моменты.
2. Командные выступления и достижения.
3. Мастерство и честная игра.
Если вы из этого списка не смогли вычленить ничего конкретного, то вы не одиноки. Если первые 2 пункта еще можно понять (условно, статистика и трофеи команд), то на слове «мастерство» мозг категорически отказывается что-либо понимать.
Я решил сделать список критериев, который был бы максимально понятен и прозрачен:
Индивидуальная статистика.
Командные трофеи.
Индивидуальные награды.
Индивидуальная статистика
Здесь учитываются основные аспекты игры футболиста в сезоне:
Количество сыгранных минут за клуб и сборную.
Оценки WhoScored и SofaScore за сезон (знаю, что это далеко не профессиональные инструменты, которые дают лишь приблизительную картину качества игры, но и я не в «Реал» устраиваюсь).
«Гол + пас» за клуб и сборную.
Количество сухих матчей за клуб и сборную.
По поводу последних двух пунктов важная оговорка: для футболистов разных позиций они имеют разный вес. Я ввел 5 базовых позиций футболистов для простоты расчета: В (вратари), Л (латерали, т.е. крайние защитники и полузащитники), ЦЗ (центральные защитники), ЦП (центральные полузащитники и опорники), А (атакующие футболисты, включая вингеров, Озилов и форвардов). Соответственно, чтобы уравновесить влияние игроков разных амплуа, и введены эти 2 примерно равноценных критерия.
Так, с вратарей абсолютно снимается обязанность забивать и отдавать (прости, Эдерсон), а с атакующих игроков — приводить команды к сухим матчам (прости, Симеоне). Эти показатели просто умножаются на ноль.

Командные трофеи
Этот раздел включает в себя все трофеи, выигранные за сезон с клубом и сборной. Здесь все просто: каждый выигранный турнир или финал турнира (или 2 место в чемпионате) имеют свой коэффициент. Если турнир состоит из одного матча (как в суперкубках), то, естественно, за выход в финал никакого вознаграждения нет. Показатель трофеев — это сумма таких коэффициентов.
Естественно, на тему важности турниров можно дискутировать, но я постарался создать более-менее объективную картину:


Индивидуальные награды
Наконец, последний (но далеко не по значению) критерий — это награды футболистов. Здесь принцип тот же, что с трофеями, только пришлось основательно подумать, какие награды будут достаточно значимыми для награды, а какие не очень. Все-таки не будем же мы включать лучшего молодого игрока лиги чемпионов ОФК в список претендентов на ЗМ. Ведь не будем же?..

В итоге остановился на таком списке:

Естественно, этот список не является истиной в последней инстанцией. Если у вас будут какие-то правки или пожелания к любому фрагменту моей системы, смело пишите в комментарии.
Что с этим всем происходит дальше?
Вопрос отличный, потому что, насколько я вижу по мейнстримным футбольным СМИ, мало кто может на него ответить. Кто-то просто складывает баллы как есть (29 лет + 7,5 за Whoscored + 1300 голов + количество подписчиков в запрещенной соцсети), кто-то ранжирует (1 балл за 1 место в Whoscored, 2 балла за 2-е, и т.д.), но, к сожалению, ни одна из этих систем не может объективно оценить отрыв одного футболиста от другого. Поэтому данные нормализуются: это значит, что они приводятся к диапазону от 0 до 1. То есть, лучший результат по каждому показателю будет 0, а худший — 1.


На скриншотах выше вы видите, как сырые данные по футболистам преобразуются в нормализованный вид (от 0 до 1). Постараюсь сильно не вдаваться в технические детали, но вот что важно в этом расчете:
По индивидуальной статистике берется среднее из 4 показателей. Между Whoscored и Sofascore также берется среднее (по мере наличия данных).
Трофеи берутся не как абсолютная сумма исходя из принадлежности к клубу, а умножается на вклад футболиста в трофей: проведенные минуты за клуб/сборную на поле делятся на максимально возможное количество минут. Следовательно, если ты на поле не выходил, то тебе трофей не достанется.
А теперь главный вопрос, который может у вас возникнуть: а откуда взялись эти огромные цифры в синих полях (6,04, 8,18)? Ведь вроде договаривались, что нормализация — это от 0 до 1. Тут мы подходим к одной из самых интересных концепций моего подхода, а именно к коэффициентам важности для статистики, трофеев и наград.
Как я определил, какой критерий самый важный при оценке?
В начале я писал, что создаю параллельную вселенную, где ходят единороги и все счастливы. Но! При таком подходе неизбежно встает вопрос: а как понять, что твоя система правильна? На что ориентироваться? На мнение журналистов, комментаторов, окружений Неймара? Или на свое внутреннее ощущение, что «вроде норм»? Тщательно поразмыслив, я понял, что оба подхода не дадут мне правильного ответа, как бы притягательны ни были. Поэтому я вновь пришел к цифрам!
Несмотря на то, что моя система старается избавиться от пороков реальной, она все же старается быть максимально близкой к реальному распределению голосов на ЗМ. Поэтому у меня отдельно хранятся в таблице очки голосования в разные годы и вычисляется корреляция с моими итоговыми баллами.
Я начал с того, что дал всем 3 системам одинаковый коэффициент (точнее, 1, т.е. отсутствие коэффициента как такового) и решил проверить, что больше всего коррелирует с реальным распределением баллов — статистика, трофеи или награды? Ну, думаю я, все очевидно: трофеи правят бал, за ними дышит в спину статистика, ну а на закуску уже награды. Вроде во всех футбольных видосах мыслят примерно так: мол, Жоржиньо выиграл Евро и ЛЧ и получил дырку от бублика, але, добрый вечер!
Какого же было мое удивление, когда все оказалось… с точностью до наоборот! Итак, вот как коррелируют с баллами на ЗМ мои критерии:
Статистика — всего 30% корреляции (неожиданно, но ладно, допустим).
Трофеи — 55%.
Награды — 67%!!!
Это стало для меня настоящим открытием. Для справки отмечу, что в математике корреляция оценивается примерно так:

То есть, статистика коррелирует слабо, трофеи — средне, а награды — выше среднего! Выходит, что для получения ЗМ не так важно, что ты выиграл и сколько забил, как какие награды ты уже получил. Иными словами, награды притягивают награду.
Был даже случай, когда у одного футболиста было ровно 0 в графе «Трофеи», но он выбился в лидеры за счет выдающегося списка наград в сезоне! О конкретных результатах моего исследования я расскажу в следующем посте, пока лишь дам подсказку, что этот футболист внешне похож на легенду «Ювентуса» :)

Ладно, не буду сильно останавливаться на степени разложения моего мозга в момент осознания. Здесь важно то, что я пришел к следующему: каждый критерий необходимо умножать на определенный коэффициент, который приведет к максимальной корреляции с реальными баллами ЗМ.
Поэтому на данный момент методом тыка и небольшого количества программирования я пришел к таким коэффициентам (на данный момент средняя корреляция по всем сезонам — 72%):

Естественно, он динамичен и меняется при появлении новых сезонов. Таким образом, возвращаясь к моей системе подсчета, нормализованные баллы умножаются на эти коэффициенты и складываются в итоговую сумму. Формула для математиков:
Σ = Крит. 1 * Коэф. 1 + Крит. 2 * Коэф. 2 + Крит. 3 * Коэф. 3
Что дальше?
В следующих частях я покажу, как моя система уже отработала на 7 сезонах (18/19 — 24/25) и какие получились результаты. Местами они совпали с реальными, местами — очень и очень удивили.
Моя система гибкая и динамичная, поэтому буду рад почитать в комментариях ваши предложения по ее улучшению! И в целом буду рад любому фидбеку, в том числе по самой статье.
Для затравки оставлю итоги этого сезона, которые не сильно противоречат реальному голосованию. Пишите в комментариях, что думаете!

Для тех, кто желает поковыряться и посмотреть, как все работает, отправлю ссылку на таблицу.
До новых встреч!













Отличный уход от ямальщины, основанный на цифрах, а не на ощущениях и «он такой юный».
Единственное, что удивило - низкое место Салаха. Пока читал, предполагал, что он будет в топ-5 вместе с Рафиньей. Ну и 17ое место Невеша.
> добавив рейтинг fotmob и оценивая по совокупности трёх рейтингов.
> коэффициенты веса изменить с 1/4/15 на 1/3/10
это вероятно поправит низкие оценки Витиньи и Кейна и завышенную оценку Дембеле, у которого не должно быть такого отрыва
Начало текста: ЗМ не объективен, давайте определим "самого результативного и полезного игрока сезона" с помощью объективных критериев.
Конец текста: а теперь, когда у нас есть цифры для каждого игрока, давайте выберем коэффициенты так, чтобы была корреляция с ЗМ.
Да, безусловно, то, что получилось, лучше, чем субъективное голосование.
Но в то же время странно решительно отвергать (и по делу!) субъективные мнения, а потом всё равно сверяться с ними же.
Для ЦП ставить 0.75 для Г+П и только 0.25 для СМ неправильно.
Центральные полузащитники выбивают много Г+П, только если они скрытые нападающие, как Беллингем позапрошлого сезона, Лэмпард или Яя Туре. Но это не совсем ЦП - это так называемые "ложные десятки". Они в большей степени атакующие игроки, чем полузащитники.
Центральным полузащитникам надо с большим коэффициентом, чем другим амплуа давать баллы за командные трофеи. Потому что есть поговорка "Покажи мне свою полузащиту - и я скажу, насколько сильна твоя команда". В обратную сторону это тоже работает. Если команда побеждает, то следует признать силу её центральных полузащитников.
Педри на 20-м месте - это серьёзная проблема модели. В реальности ему дали 11-е место и многие именно на это указывают, как на главную несправедливость голосования. Слишком низко! У тебя же двадцатое... Это, просто, кошмар.
Вратарям надо учитывать только разницу между GA и xGA(учитывая только удары в створ). Причём не при любом счёте. При равном счёте или разрыве в один мяч сэйв (или, наоборот, пропущенный гол) должны весить больше, чем при разрыве в 2 мяча и значительно больше, чем при разрыве в 3 мяча. При разрыве в 4 мяча и больше можно вообще не начислять ни балов за сэйв, ни штрафов за пропущенный гол.
Для Г+П тоже должна быть такая же шкала. При равном счёте или разрыве в один мяч в пользу любой из команд, результативное действие полноценное. При разнице в 2 мяча должен быть понижающий коэфициент. При разнице в 3 мяча результативное действие не должно стоить почти ничего, а при разнице в 4 мяча и больше - вообще ничего не должно стоить результативное действие. Гол в ворота развалившегося или расслабившегося соперника не имеет ценности.
Центральных защитников через цифры оценить невозможно. Значение имеет, наверное, только процент сыгранных минут (с поправкой на доступность/недоступность из-за травм, но не с полной компенсацией, т.к. здоровье - это тоже мастерство/профессионализм) и количество допущенной остроты (хGA) в пересчёте на 90 минут. Всё остальное от их мастерства зависит слабо.
Латералям, действительно, адекватно давать одинаковый коэффициент за атакующие и оборонительные действия. Тут я согласен.
Голы с пенальти не должны учитываться, а заработанные пенальти должны учитываться (на правах голевой передачи). Пенальтистам можно добавлять немножко рэйтинга за процент реализации выше среднестатистического и, соответственно, убавлять немножко рейтинга за процент реализации ниже среднестатистического.
Предголевые надо тоже учитывать (с понижающим коэффициентом в сравнении с голевыми).
В общем, надо развивать и корректировать статистическую модель.
А индивидуальные награды из рассмотрения неплохо бы исключить. У них лучшая корреляция с итогами голосования, но это потому, что у них та же природа, что и у итогов голосования (по сути, это промежуточные/частичные итоги голосования). Надо добиваться от статистической модели предсказательной силы для итогов голосования, не включая в неё результаты промежуточных итогов голосования.
Можно ли выложить ради интереса более объективные рейтинги, без 15х коэффицентов за награды?
Также, баллами за чемпионат тоже не очень корректно приравнивать Лигу 1 и АПЛ. Возможно, если ввести привязку ценности лиги к её суммарной трансферной стоимости, то было бы интереснее.