Как оценивать вратарей по статистическим показателям
Сегодня я отойду от основной темы блога (и сайта) — «Спартака» — и поговорю о более общих вещах: о том, как правильно оценивать (или не оценивать) вратарей на основе статистических показателей. Впрочем, к «Спартаку» этот вопрос имеет прямое отношение, т.к. мы совсем недавно подписали Александра Селихова, и в некоторых СМИ делались попытки сравнить его с Артемом Ребровым по статистическим показателям.
Главная мысль заключается в том, что вратарей категорически неправильно оценивать на основе процента отраженных ударов. Я сначала разовью эту мысль, а потом поговорю о том, как все-таки можно оценивать вратарей.
Для начала сделаю две оговорки.
Во-первых, хотя данный пост и не является прямым переводом какого-то существующего текста, он основывается на двух англоязычных статьях: раз и два. Именно авторы этих статей первыми высказали некоторые идеи, которые я постараюсь развить и объяснить, и я им за это очень благодарен. Без их статей не было бы и этого поста.
Во-вторых, под «оценкой вратарей» в данном тексте я буду понимать только способность отражать удары, а не игру вратаря в целом, которая включает еще игру на выходах, ввод мяча в игру, подстраховку защитников, командование обороной и т.п. Я не встречал хороших способов оценивать игру вратаря в целом, поскольку задача это крайне сложная, и поэтому речь пойдет о наиболее простом и понятном аспекте игры вратаря.
Итак, почему же нельзя оценивать вратарей по проценту отраженных ударов, который журналисты так часто приводят в своих статьях?
Давайте рассмотрим простой пример. Допустим, что у нас есть два вратаря, А и Б, и по их воротам наносят два типа ударов: дальние удары с 30 метров и удары после выходов один на один с 10 метров.
Вратарь А отбивает 90% дальних ударов и 60% ударов при выходах один на один. Вратарь Б отбивает 80% дальних ударов и 40% ударов при выходах один на один. Казалось бы, очевидно, что вратарь А лучше, чем вратарь Б, потому что он лучше отбивает удары обоих типов.
Теперь представим, что за сезон по воротам вратаря А наносится 30 ударов (здесь и далее предполагаем, что все удары попадают в створ) после выходов один на один и 20 дальних ударов (например, защита его команды играет высоко и допускает много выходов один на один). По воротам вратаря Б наносится лишь 10 ударов после выходов один на один и 90 дальних ударов (защита его команды играет низко, поэтому выходы один на один редки, а вот дальних ударов много).
Тогда вратарь А пропустит (1-0,6)*30+(1-0,9)*20=14 голов, и его процент сейвов будет равен (1-14/50)*100%=72%. Вратарь Б пропустит (1-0,4)*10+(1-0,8)*90=24 гола, и его процент сейвов будет равен (1-24/100)*100%=76%.
Получается, что, несмотря на то что вратарь А лучше отбивает удары обоих типов, его процент отраженных ударов ниже, чем у вратаря Б (в статистике такое явление называется парадоксом Симпсона). Другими словами, если бы мы не знали процент отраженных ударов каждого типа и смотрели бы только на общий процент сейвов, то решили бы, что вратарь Б лучше вратаря А. Происходит это потому, что общий процент отраженных ударов зависит не только от процента сейвов по каждому типу ударов отдельно, но и от композиции нанесенных ударов. Понятно, что реальность сложнее, чем наша простая модель с двумя типами ударов, но общий вывод остается неизменным: у вратарей, по воротам которых наносят больше сложных ударов, автоматически будут получаться меньший процент сейвов.
Чтобы избавиться от этого недостатка, можно перейти от процента отраженных ударов к модели ожидаемых голов, xG. Допустим, мы знаем, что в среднем по лиге вратари отражают 50% ударов после выходов один на один и 85% дальних ударов. Если бы вратарь А отражал удары так же, как средний вратарь в лиге, он бы пропустил (1-0,5)*30+(1-0,85)*20=18 голов. Если бы вратарь Б отражал удары так же, как средний вратарь в лиге, он бы пропустил (1-0,5)*10+(1-0,85)*90=18,5 голов (закроем глаза на то, что число получилось нецелое).
Теперь подсчитаем соотношение ожидаемых голов к реально пропущенным. У вратаря А оно составит 18/14=1,29, а у вратаря Б — 18,5/24=0,77. Это говорит о том, что вратарь А пропускает в 1,29 раз меньше голов, чем можно было бы ожидать от среднего вратаря лиги, если бы он играл вместо вратаря А; вратарь Б пропускает в 0,77 раз меньше (т.е. в 1,3 раза больше) голов, чем можно было бы ожидать от среднего вратаря лиги. Таким образом, чем выше соотношение ожидаемых и реально пропущенных голов, тем лучше играет вратарь.
Стоит заметить, что данный показатель все же не позволяет полностью устранить зависимость от композиции нанесенных ударов, но остающаяся зависимость, если хотите, второго порядка, а не первого. Ее тоже можно устранить, если для всех вратарей использовать не реальную композицию ударов (разную для разных вратарей), а одну и ту же (например, среднюю по лиге). Поскольку текст и так получился достаточно длинный, то углубляться в детали я здесь не буду.
Я надеюсь, что этот текст на примере моей простой модели убедил вас, что процент отраженных ударов — это совершенно бессмысленный показатель для оценки вратарей. К сожалению, большинство журналистов продолжают использовать именно его, а не более совершенные показатели.
В завершение скажу, что я не знаю, считает ли кто-то соотношение ожидаемых и реальных голов для вратарей российского чемпионата, а вот для британской Премьер-лиги такие расчеты есть, и с их результатами можно ознакомиться здесь и здесь.