Справедливый «Золотой мяч»: я создал свою систему награждения в Excel (ч. 1)
«Золотой мяч» — одна из самых дискуссионных тем в футболе последние 15 лет. Каждый год любители футбола собираются у телеэкранов или мониторов, чтобы в очередной раз сказать, что эта награда уже давно не объективна, а Месси и Роналду ее обесценили, но все же до последнего следят за победителем.

Но что, если убрать субъективный фактор, пиар-кампании клубов и симпатии журналистов? Что останется? Голая статистика. Сухие цифры, которые, как считается, не могут передать всей красоты и влияния футболиста. Я решил проверить эту аксиому на практике и создал в Excel собственную систему награждения «Золотым мячом». Цель была проста: найти не самого популярного, а самого результативного и полезного игрока сезона. Результат оказался не просто неожиданным — он бросил вызов моим собственным представлениям о том, кто же был лучшим.
Моя система представляет собой своего рода идеальную вселенную, в которой:
Золотой мяч вручается каждый год и всегда по итогам сезона (в отличие от печальной истории с отменой награды в 2020 году, когда главным фаворитом был Роберт Левандовски, или спорного решения 2013 года, на которое, по слухам, повлиял хет-трик Криштиану Роналду в стыковом матче со Швецией). Сезоном считается временной период с 01.08 до 31.07 следующего года, то есть летние турниры сборных включаются в расчет. Мне этого не хотелось, но я решил все же не делать свою вселенную слишком параллельной. Следовательно, претенденты из чемпионатов с системой весна-осень оцениваются на общих основаниях: чего успел добиться с июля по июль, то и твое.
Золотой мяч вручается всегда по одинаковым критериям, вне зависимости от эпохи. О них я расскажу подробнее ниже.
Критерии подсчета
FIFA недавно снизошла до смертных и опубликовала свои критерии награждения. Критерии следующие:
1. Личные выступления, в том числе в решающие моменты.
2. Командные выступления и достижения.
3. Мастерство и честная игра.
Если вы из этого списка не смогли вычленить ничего конкретного, то вы не одиноки. Если первые 2 пункта еще можно понять (условно, статистика и трофеи команд), то на слове «мастерство» мозг категорически отказывается что-либо понимать.
Я решил сделать список критериев, который был бы максимально понятен и прозрачен:
Индивидуальная статистика.
Командные трофеи.
Индивидуальные награды.
Индивидуальная статистика
Здесь учитываются основные аспекты игры футболиста в сезоне:
Количество сыгранных минут за клуб и сборную.
Оценки WhoScored и SofaScore за сезон (знаю, что это далеко не профессиональные инструменты, которые дают лишь приблизительную картину качества игры, но и я не в «Реал» устраиваюсь).
«Гол + пас» за клуб и сборную.
Количество сухих матчей за клуб и сборную.
По поводу последних двух пунктов важная оговорка: для футболистов разных позиций они имеют разный вес. Я ввел 5 базовых позиций футболистов для простоты расчета: В (вратари), Л (латерали, т.е. крайние защитники и полузащитники), ЦЗ (центральные защитники), ЦП (центральные полузащитники и опорники), А (атакующие футболисты, включая вингеров, Озилов и форвардов). Соответственно, чтобы уравновесить влияние игроков разных амплуа, и введены эти 2 примерно равноценных критерия.
Так, с вратарей абсолютно снимается обязанность забивать и отдавать (прости, Эдерсон), а с атакующих игроков — приводить команды к сухим матчам (прости, Симеоне). Эти показатели просто умножаются на ноль.

Командные трофеи
Этот раздел включает в себя все трофеи, выигранные за сезон с клубом и сборной. Здесь все просто: каждый выигранный турнир или финал турнира (или 2 место в чемпионате) имеют свой коэффициент. Если турнир состоит из одного матча (как в суперкубках), то, естественно, за выход в финал никакого вознаграждения нет. Показатель трофеев — это сумма таких коэффициентов.
Естественно, на тему важности турниров можно дискутировать, но я постарался создать более-менее объективную картину:


Индивидуальные награды
Наконец, последний (но далеко не по значению) критерий — это награды футболистов. Здесь принцип тот же, что с трофеями, только пришлось основательно подумать, какие награды будут достаточно значимыми для награды, а какие не очень. Все-таки не будем же мы включать лучшего молодого игрока лиги чемпионов ОФК в список претендентов на ЗМ. Ведь не будем же?..

В итоге остановился на таком списке:

Естественно, этот список не является истиной в последней инстанцией. Если у вас будут какие-то правки или пожелания к любому фрагменту моей системы, смело пишите в комментарии.
Что с этим всем происходит дальше?
Вопрос отличный, потому что, насколько я вижу по мейнстримным футбольным СМИ, мало кто может на него ответить. Кто-то просто складывает баллы как есть (29 лет + 7,5 за Whoscored + 1300 голов + количество подписчиков в запрещенной соцсети), кто-то ранжирует (1 балл за 1 место в Whoscored, 2 балла за 2-е, и т.д.), но, к сожалению, ни одна из этих систем не может объективно оценить отрыв одного футболиста от другого. Поэтому данные нормализуются: это значит, что они приводятся к диапазону от 0 до 1. То есть, лучший результат по каждому показателю будет 0, а худший — 1.


На скриншотах выше вы видите, как сырые данные по футболистам преобразуются в нормализованный вид (от 0 до 1). Постараюсь сильно не вдаваться в технические детали, но вот что важно в этом расчете:
По индивидуальной статистике берется среднее из 4 показателей. Между Whoscored и Sofascore также берется среднее (по мере наличия данных).
Трофеи берутся не как абсолютная сумма исходя из принадлежности к клубу, а умножается на вклад футболиста в трофей: проведенные минуты за клуб/сборную на поле делятся на максимально возможное количество минут. Следовательно, если ты на поле не выходил, то тебе трофей не достанется.
А теперь главный вопрос, который может у вас возникнуть: а откуда взялись эти огромные цифры в синих полях (6,04, 8,18)? Ведь вроде договаривались, что нормализация — это от 0 до 1. Тут мы подходим к одной из самых интересных концепций моего подхода, а именно к коэффициентам важности для статистики, трофеев и наград.
Как я определил, какой критерий самый важный при оценке?
В начале я писал, что создаю параллельную вселенную, где ходят единороги и все счастливы. Но! При таком подходе неизбежно встает вопрос: а как понять, что твоя система правильна? На что ориентироваться? На мнение журналистов, комментаторов, окружений Неймара? Или на свое внутреннее ощущение, что «вроде норм»? Тщательно поразмыслив, я понял, что оба подхода не дадут мне правильного ответа, как бы притягательны ни были. Поэтому я вновь пришел к цифрам!
Несмотря на то, что моя система старается избавиться от пороков реальной, она все же старается быть максимально близкой к реальному распределению голосов на ЗМ. Поэтому у меня отдельно хранятся в таблице очки голосования в разные годы и вычисляется корреляция с моими итоговыми баллами.
Я начал с того, что дал всем 3 системам одинаковый коэффициент (точнее, 1, т.е. отсутствие коэффициента как такового) и решил проверить, что больше всего коррелирует с реальным распределением баллов — статистика, трофеи или награды? Ну, думаю я, все очевидно: трофеи правят бал, за ними дышит в спину статистика, ну а на закуску уже награды. Вроде во всех футбольных видосах мыслят примерно так: мол, Жоржиньо выиграл Евро и ЛЧ и получил дырку от бублика, але, добрый вечер!
Какого же было мое удивление, когда все оказалось… с точностью до наоборот! Итак, вот как коррелируют с баллами на ЗМ мои критерии:
Статистика — всего 30% корреляции (неожиданно, но ладно, допустим).
Трофеи — 55%.
Награды — 67%!!!
Это стало для меня настоящим открытием. Для справки отмечу, что в математике корреляция оценивается примерно так:

То есть, статистика коррелирует слабо, трофеи — средне, а награды — выше среднего! Выходит, что для получения ЗМ не так важно, что ты выиграл и сколько забил, как какие награды ты уже получил. Иными словами, награды притягивают награду.
Был даже случай, когда у одного футболиста было ровно 0 в графе «Трофеи», но он выбился в лидеры за счет выдающегося списка наград в сезоне! О конкретных результатах моего исследования я расскажу в следующем посте, пока лишь дам подсказку, что этот футболист внешне похож на легенду «Ювентуса» :)

Ладно, не буду сильно останавливаться на степени разложения моего мозга в момент осознания. Здесь важно то, что я пришел к следующему: каждый критерий необходимо умножать на определенный коэффициент, который приведет к максимальной корреляции с реальными баллами ЗМ.
Поэтому на данный момент методом тыка и небольшого количества программирования я пришел к таким коэффициентам (на данный момент средняя корреляция по всем сезонам — 72%):

Естественно, он динамичен и меняется при появлении новых сезонов. Таким образом, возвращаясь к моей системе подсчета, нормализованные баллы умножаются на эти коэффициенты и складываются в итоговую сумму. Формула для математиков:
Σ = Крит. 1 * Коэф. 1 + Крит. 2 * Коэф. 2 + Крит. 3 * Коэф. 3
Что дальше?
В следующих частях я покажу, как моя система уже отработала на 7 сезонах (18/19 — 24/25) и какие получились результаты. Местами они совпали с реальными, местами — очень и очень удивили.
Моя система гибкая и динамичная, поэтому буду рад почитать в комментариях ваши предложения по ее улучшению! И в целом буду рад любому фидбеку, в том числе по самой статье.
Для затравки оставлю итоги этого сезона, которые не сильно противоречат реальному голосованию. Пишите в комментариях, что думаете!

Для тех, кто желает поковыряться и посмотреть, как все работает, отправлю ссылку на таблицу.
До новых встреч!
Отличный уход от ямальщины, основанный на цифрах, а не на ощущениях и «он такой юный».
Единственное, что удивило - низкое место Салаха. Пока читал, предполагал, что он будет в топ-5 вместе с Рафиньей. Ну и 17ое место Невеша.
> добавив рейтинг fotmob и оценивая по совокупности трёх рейтингов.
> коэффициенты веса изменить с 1/4/15 на 1/3/10
это вероятно поправит низкие оценки Витиньи и Кейна и завышенную оценку Дембеле, у которого не должно быть такого отрыва
Начало текста: ЗМ не объективен, давайте определим "самого результативного и полезного игрока сезона" с помощью объективных критериев.
Конец текста: а теперь, когда у нас есть цифры для каждого игрока, давайте выберем коэффициенты так, чтобы была корреляция с ЗМ.
Да, безусловно, то, что получилось, лучше, чем субъективное голосование.
Но в то же время странно решительно отвергать (и по делу!) субъективные мнения, а потом всё равно сверяться с ними же.