Как трактовать xG?

Часто размышляю над статистикой, и вот вчера совпали мысли по поводу важности дистанции. Тот же xG, чтоб вы знали, пришел из бейсбола. В регулярном чемпионате MLB команда играет 162 игры, это без учета плей-офф и Мировой серии. И это больше, чем одна команда АПЛ проводит за 4 сезона(!). В любом американском спорте, откуда и дует ветер продвинутого анализа, команды в плей-офф проводят между собой минимум 4 игры (это не считая регулярки) – редкий случай для одного сезона в европейском футболе. Часто встречаются ситуации, когда регрессия к среднему демонстрируется не в текущем, а уже в следующем сезоне (пример «Суонси» сезонов-2014/15 и 2015/16 очень показателен). 

Вдобавок понятно, что система неполноценна, к примеру, в ней не учитываются:

1 Позиция вратаря и полевых игроков соперника. У вас же нет сомнений, что удар после короткой передачи в позиции 1 на 1 перед кипером и удар после паса со свободного удара, когда 7 полевых игроков стоит на ленточке обладают разной опасностью и весом xG?

Загружаю...

2) Расположение своих игроков. Например, регулярно возникают ситуации, когда лучшим решением был бы пас на партнера, находящегося в более удобной позиции.

3) Мелкие тонкости типа двух и более ударов в одной атаке, которые решаются с помощью простого тервера.

Скажем, если вероятность того, что первый удар будет забит равна 0,8, но он не забивается, а затем наносится второй с xG 0,6, то сумма атаки, конечно, не может быть 1,4. Но этот вопрос решается достаточно просто и красиво с помощью формулы полной вероятности: вероятность того, что первый удар не будет забит – 0,2, а если мяч оказался после него в поле и последовал второй удар, то его вес уже равен 0,6*0,2 = 0,12. Таким образом, у вас никогда не возникнет ситуации, что xG будет больше или равен единице, даже если за одну атаку вы нанесете сотню ударов.

В общем виде будет выглядеть так: 

Еще очень активно обсуждаются следующие моменты:

1)      Качества вратаря (к примеру, тот же Оспина хорош в ближнем бою, но испытывает регулярные проблемы с дальними ударами). То есть возможна ситуация, когда удар с 30 метров с отскоком от газона по воротам Оспины будет весить, скажем 0,15 xG, а против Де Хеа – 0,1 xG. А, к примеру, удар с 10-11 метров против Оспины – 0,5 xG, когда против Манноне, скажем, 0,55 xG. Но мне непонятно, как такая модель вообще будет реализована – выглядит утопично, поскольку в таком случае она будет основана только на данных, взятых из предыдущих игр и совсем не будет учитывать возможный прогресс/регресс, вытекающий из тренировочного процесса.  

Загружаю...

2)      Качества бьющего, поскольку понятно, что все реализуют моменты по-разному.

Но ключевым, на мой взгляд, при разговоре об уровне вратаря и уровне бьющего является следующее – от этого не зависит качество созданного момента, а зависит только его реализация. Еще раз: качество момента не зависит от уровня бьющего и уровня вратаря. То есть модель любая модель xG в нынешнем виде отлично подходит для того, чтобы оценить, как команда создает моменты и как предотвращает. И в большинстве случаев это даст нам ответ на вопрос, кто играл лучше. Но это подталкивает и к другим выводам: если на дистанции (а в случае с тем же «Арсеналом» 4 года – это дистанция) у тебя отличный показатель xG, но сильно меньше голов, значит, грубо говоря, надо менять форварда. Если же отличные показатели xGa, но много пропускаешь, значит что-то не в порядке с вратарем. То есть модель вполне может быть хороша для оценки везения/невезения в одном отдельном матче, но на дистанции из нее следует делать более детальные выводы (иначе это просто неуважение к модели).

Модель xG надо уважать. Во-первых, она дает отличный базис, от которого можно отталкиваться и использовать для более продвинутого анализа. И это лучшее, что есть в этом виде на данный момент.

Во-вторых, она развивается. Еще несколько лет назад в модели самого известного аналитика xG ударов с лицевой достигал 60%, а некоторые удары в упор весили больше единицы, но эти баги были пофиксены. Сейчас мы можем заглянуть гораздо глубже, чем, скажем лет 5 назад. И прогресс этот будет продолжаться, поскольку за дело наконец взялись американцы. А если ученые из США начинают обсчитывать какой-то спорт, то рано или поздно добиваются своего. Это единственные ребята, которые коллективно двигают спортивную статистику вперед.

Загружаю...

Важно, что модели постоянно модифицируются, потому что футбол, в отличие от бейсбола, который, по сути, является игрой-набором «стандартных положений» и баскета – самого результативного вида спорта, где регрессия зачастую наблюдается внутри одного матча. Скажем, если команды наливают трехи с процентом 70 в первой четверти, то во второй – третьей вы смело можете ставить низ, потому что будет регрессия к 40-45%. Их доместиковые виды спорта уже обсчитываются не хуже, чем проекты небоскребов и мостов. Обсчет и рассекречивание кода футбола – дело максимум 5-6 лет. И горькое разочарование ждет тех, кто рассказывает про «горящие глаза» и «познание гармонии алгеброй» (мы это уже прошли на примере Билла Джеймса и бейсбола и цифровой революции в баскетболе).

Если вы считаете, что нет зависимости между выступлением команд и игроков в предыдущих сезонах и в нынешнем, то не стоит безапелляционно об этом говорить и смотреть на игру слишком упрощенным взглядом. Нужно разобраться, а почему этой зависимости действительно нет, либо доказать обратное.

Футбольным статистикам еще только предстоит пережить непростые времена и придумать, как разрешить проблемы, которые я изложил выше (некоторые, на мой взгляд, вообще неразрешимы). А нам необходимо находить новые подходы к анализу существующих моделей и результатов гораздо скрупулезнее и разнообразнее. Иначе рискуем превратиться в Бубнова, который выставляет клоуном не только себя, но и Бескова с Лобановским. Хотя они опередили свое время, и в отличии от Бубнова несомненно подстроились бы под текущие реалии, просто в 70-90-е было невозможно придумать что-то кардинально лучше, чем подсчет всех ТТД вместе и анализ в терминах «150 ТТД и 20% брака», что, как мы сейчас понимаем, является совершенно неграмотным подходом.

Загружаю...

Подумайте над этим, а я пойду считать xG. С этого тура мы обсчитываем чемпионат России: берегись, «Спартак». 

Этот пост опубликован в блоге на Трибуне Sports.ru. Присоединяйтесь к крупнейшему сообществу спортивных болельщиков!
Другие посты блога
Без лжи об xG
Популярные комментарии
over_mars
Таких неувязок слишком много, чтобы вокруг xG (в нынешнем виде по крайней мере) выстраивать какие-то аналитические модели. Я могу перечислять их до бесконечности. Конечно, на дистанции в 100 матчей общая картина кое-как просматривается, на дистанции 200 матчей - еще точнее. Но в футболе на таких дистанциях меняются и игровые модели, и форма, и игроки, и даже тренеры и клубная политика. Поэтому xG - это просто одна отдельно взятая стата. такая же, как забитые голы, фолы, офсайды или владение мячом. Я понимаю, что хочется увидеть в ней нечто большее, очень хочется расшифровать футбол просто и элегантно, но я из практики скажу, что наиболее удачные модели в нв учитывают более ста таких характеристик, как xG, и все продолжают усложняться - и все равно случай определяет в разы больше, чем все формулы вместе взятые. это не значит, что не стоит заморачиваться и считать, это значит, что нужно держаться в рамках логики и извлекать то полезное, что можно извлечь, не претендуя на универсализм
MallBare
Именно так. Немного знаком со спецификой работы компании, считающей статистику и пишущей отчеты для клубов РФПЛ и АПЛ - они всегда говорят, что нельзя делать выводы из статистики: всегда статистические показатели должны подтверждать сделанные выводы по игре. Причем использовать следует именно те данные, которые нельзя трактовать неоднозначно. Их отчет состоит из 20 листов, среди которого вы не найдете xG, во многом потому, что этот индекс пытается объять необъятное - объяснить качество игры только количеством/качеством нанесенных ударов. Это несильно отличается от трактовки результата в зависимости от разницы мячей и уж точно никак не объясняет тот или иной результат. Кстати, раз Арсенал практически чемпион мира по xG, то низкую позицию в чемпионате можно объяснить целым рядом причин, от количества травм, использованного Вадимом в своем анализе, до качества игры вратаря или игрой обороны (слишком много пропускают из того, что не должны были), плохой игрой нападающих, их несоответсвие уровню Арсенала; плохой последний пас, из-за которого игроки наносят правильные удары не той ногой или с недостатком времени на раздумья, да чем угодно. Однако используются именно выводы, напрашивающиеся и без этого самого xG (травмы, тренерская философия), к которой за уши притягивается статистика и возводится в абсолют. ИМХО
Ответ на комментарий Сергей Зигблинс
Вопрос в заголовке очень хороший. Основной скепсис со стороны тех, кто не является правоверным последователем xG, именно насчёт выводов. Цифры одно, а логические связки это совсем другое. Даже из самых прямых и очевидных стат.данных можно делать прямо противоположные выводы. Что уж говорить об оценочных данных вроде xG. А объявлять на основе созданных возможностей чей-то футбол лучшим - дикая вкусовщина. Это вроде того, что начать говорить - кто больше всех забил (владел мячом, подал угловых) тот и лучшая команда. Придумали себе игрушку.
Сергей Зигблинс
Вопрос в заголовке очень хороший. Основной скепсис со стороны тех, кто не является правоверным последователем xG, именно насчёт выводов. Цифры одно, а логические связки это совсем другое. Даже из самых прямых и очевидных стат.данных можно делать прямо противоположные выводы. Что уж говорить об оценочных данных вроде xG. А объявлять на основе созданных возможностей чей-то футбол лучшим - дикая вкусовщина. Это вроде того, что начать говорить - кто больше всех забил (владел мячом, подал угловых) тот и лучшая команда. Придумали себе игрушку.
Еще 62 комментария
65 комментариев Написать комментарий