15 мин.

Мы выиграли хакатон с идеей xS – как xG, но для вратарей! Теперь я буду работать с клубами Бундеслиги

От редакции: привет! Ниже – текст блогера Трибуны Кирилла Серых, который живет в Германии и примером доказывает: футбол – больше не закрытый клуб. Раньше мы просто смотрели игру, потом радовались возможностям свободно писать о ней, а теперь оказалось, что в футболе можно работать и делать его лучше. Кирилл вместе с напарником презентовал статистическую метрику для вратарей и впечатлил главу отдела анализа матчей и скаутинга Немецкой федерации футбола. А теперь подробности.

В прошлом посте я писал про DFB-Akademie (Академия Немецкой футбольной федерации) – новую футбольную академию, создание и развитие которой – один из приоритетов немецкого футбола. Тот текст – моя домашняя работа в школе журналистики Sports.ru, в конце марта ребята набрали курс из 40 человек, и 2 месяца учили как молодых, так и опытных блогеров Трибуны. И эта история повлияла (правда, косвенно) на мою карьеру.

Когда искал информацию о DFB-Akademie, узнал, что Немецкий футбольный союз проводит хакатоны – соревнования по анализу футбольных данных, где участники делятся на команды и решают поставленные задачи за установленное время. В 2020 году все топовые клубы используют анализ продвинутых данных в повседневной работе (доказательства: раз и два), но есть проблема: люди из спорта и обладатели технических навыков фактически говорят на разных языках. Для устранения проблемы немцы и организовывают подобные соревнования, привлекая людей не из спорта, готовых внести свежий взгляд. 

Что из себя представляют эти хакатоны?

На хакатоны приходят специалисты из IT-индустрии, активно интересующиеся футболом и умеющие внятно объяснять сложные математические концепты и визуализировать выводы. Это упрощает общение с людьми из мира футбола и помогает эффективно использовать продвинутые данные.  Первый хакатон прошел год назад, его центральная тема – матч Германия – Голландия. Две команды немецких и голландских аналитиков накануне и в день игры слушали лекции от приглашенных гостей из футбольной и IT-сфер, а после финального свистка за 12 часов анализировали данные и предлагали свои решения к поставленным задачам.

Многие из участников первого хакатона жаловались на слишком интенсивный режим соревнований, поэтому в феврале DFB объявил о начале Hackathon2 – 4-месячном марафоне, проводимом совместно с франкфуртским Айнтрахтом и Sportec Solutions (компания-провайдер данных). Участвовать в нем мог любой желающий, нужно было лишь зарегистрироваться на сайте – как одному, так и в составе команды. Организаторы сформулировали 25 различных вопросов, на решение которых отводилось 3,5 месяца. 9 февраля все участники встретились во Франкфурте в офисе DFB, где каждой из команд раздали темы, а вечером посетили матч Кубка Германии «Франкфурт» – «Айнтрахт». 

Планировалось, что участники будут встречаться во Франкфурте каждый месяц: в марте нужно было презентовать свою идею, в апреле – написать статью на три страницы с деталями и результатами решения. Топ-5 лучших команд по сумме оценок за идею и статью (каждая из частей оценивалась членами жюри) должны были презентовать свои решения и вживую проанализировать матч последнего тура Бундеслиги «Айнтрахт» – «Падеборн» на «Коммерцбанк-Арене» 16 мая.

Но из-за пандемии коронавируса все затянулось, и это сыграло мне на руку.

Как я попал на хакатон, пропустив дедлайн

Почти весь январь я провел дома в России, где готовился к экзамену на тренерскую категорию С и не особо следил за немецкими новостями, поэтому не знал про хакатон.

В начале февраля мой новый работодатель в Берлине расторг со мной контракт за 2 дня до его начала – из-за смены внутренней стратегии компании. Я остался совсем без работы. Потом еще 2 месяца сидел уже в Берлине в поисках новой. Из-за этой неопределенности и из-за начинающейся пандемии у меня появилось время для школы журналистики Спортса. Идея про статью о футбольной Академии возникла еще на тренерских курсах во Франкфурте, когда наши лекторы рассказывали нам о новом большом проекте DFB.

Собирая информацию об Академии для статьи, я увидел знакомое имя – Паскаль Бауэр. Впервые я узнал о нем на канале Friends of Tracking – во время пандемии один из самых известных популяризаторов футбольной аналитики Дэвид Сламптер (профессор университета Дании, а также автор известной книги Soccermatics) вместе с профессиональными аналитиками делился опытом и показывал базовые вещи по программированию различных алгоритмов (кстати, если только начинаете интересоваться анализом данных, то очень советую посмотреть все видео с этого канала). В первом видео Дэвид пригласил четверых экспертов поделиться опытом, и одним из них был Паскаль. Уже второй год он работает в DFB руководителем всех проектов, связанных с машинным обучением и анализом данных. 

Зайдя на сайт хакатона, я увидел, что теперь из-за пандемии все встречи перенесены в онлайн, на них могут зарегистрироваться все желающие, а следующая состоится уже на следующий день. Понял, что пропустил хакатон, но хотя бы получил шанс послушать лекции. Я написал Паскалю в Linkedin, рассказал о себе и скинул свое резюме. Паскаль ответил почти сразу: из-за лимита по количеству участников и необходимости подписания NDA (соглашение о неразглашении информации) он не мог пообещать участие во встрече, но неожиданно предложил поучаствовать в хакатоне, так как некоторые участники отказались из-за коронавируса. 

Еще лучше! Я согласился, подписал все необходимые документы и получил контакты моего сокомандника – Феликса Шмидта. Феликс живет в Цюрихе, работает директором по разработке софта в Oracle, тренирует вратарей в академии «Цюриха», а также руководит небольшой компанией Deepsports, занимающейся сбором и анализом GPS-данных, а также связанными с этим консалтинговыми услугами.

Наша идея на хакатон – аналог xG для вратарей

Феликс работал над созданием метрики для голкиперов – в частности, над оценкой качества их игры в ситуациях 1-на-1. Большинство уже разработанных метрик фокусируются на игроках атаки. Отчасти это связано с отсутствием трекинговых данных (в следующем предложении остановимся на них подробнее): например, для построения базовых xG-моделей достаточно знать положение мяча, угол по отношению к воротам и координату вратаря. Трекинговые данные (нужные для оценки вратарей) более детальны – они показывают координаты каждого из игроков и мяча за очень маленький промежуток времени – например, 1/25 секунды), поэтому это позволяет проанализировать действия нападающего, защиты и вратаря за секунды до удара. 

Иными словами, широко доступные ивент-данные фиксируют только события (пас, удар, перехват и тд), но не изменение состояния игры (а именно положения игроков и мяча), приводящее к этому событию. Имея обе разновидности данных по играм «Айнтрахта» за два сезона, мы и придумывали что-то новое. 

По итогам первого этапа Феликс вошел в топ-5 лучших команд, и теперь у нас оставалось время до середины июля, чтобы реализовать идею и написать статью. Так как мы оба работаем в IT-индустрии, нам была знакома выбранная организаторами инфраструктура – они заключили партнерство с Google и дали участникам доступ ко всем данным через Google Cloud Platform (облачная платформа Google, позволяющая хранить и использовать большие данные на серверах компании, а также внедрять алгоритмы машинного обучения с помощью языков R и Python, используя встроенную платформу). После двух месяцев работы с данными (выгрузка из баз данных, предобработка и чистка), а также построения модели мы получили итоговые результаты, отправили статью, и в середине августа нас позвали презентовать наше решение лично во Франкфурте 28 августа. 

Идея метрики достаточно проста: мы придумывали альтернативу xG, но такую, которая бы оценивала ситуацию с позиции вратаря. Мы не стали придумывать новое название и назвали ее xS – expected Saves. Такие модели уже существуют, но чаще всего xS рассчитвается как 1 минус xG. Нам было интересно рассмотреть вероятность сэйва именно с акцентом на действия вратаря.

При подготовке вратарей немецкие и швейцарские тренеры используют концепцию трех зон:

 

  • Зона блокировки удара – 3 и менее метров от мяча, в ней вратарь может заблокировать удар

  • Зона реакции – 8 и более метров от мяча, в ней вратарь имеет достаточно времени, чтобы поймать мяч

  • Красная зона – от 3 до 8 метров, в ней вратарь не успевает ни среагировать и поймать мяч, ни эффективно блокировать удар, поэтому если бьющий находится в этой зоне, он имеет большое преимущество перед вратарем

Исходя из этого мы предположили, что основное решение вратаря в ситуациях 1-на-1 – выбор из двух опций: либо отходить назад в сторону линии ворот, либо выходить из ворот в сторону мяча. Чтобы понять, правильное ли решение принял вратарь, мы отобрали 133 «чистых» удара, удовлетворяющих следующим условиям:

  • Удар должен быть нанесен из штрафной, но не из вратарской

  • Удар должен быть не со штрафного, не с пенальти и не головой

  • Удар должен быть нанесен в створ или пройти рядом со створом ворот

  • Игроки своей и чужой команды не должны блокировать удар (исключает рикошеты)

  • Ассист перед ударом не должен быть ударом или скидкой головой

 

Затем построили модель, показывающую, как уменьшается или увеличивается вероятность сэйва в зависимости от изменения факторов из двух следующих групп:

Факторы времени: как меняются следующие переменные каждые полсекунды в течение 2 секунд до удара (мы предположили, что именно эти 2 секунды – решающие для вратаря для принятия решения):

  • Расстояние до мяча 

  • Видимая зона бьющего (площадь треугольника, составляемого штангами и позицией мяча), умноженная на 2,44 (высота ворот)

  • Пропорция тени вратаря (часть ворот, которую вратарь может покрыть, если будет прыгать за мячом) по отношению к видимой зоне бьющего

  • Уровень контроля поля вратарем (метрика Pitch Control, вычисляющая вероятность достичь той или иной части поля каждым игроком обеих команд). Для этого мы внедрили нашу собственную реализацию модели, основанную на методах аналитика «Ливерпуля» Уильяма Спирмана и открытой реализации кода Лори Шоу, доступной на канале Friends of Tracking 

Факторы во время удара: угол удара, позиция (координаты) вратаря, количество прессингующих защитников, скорость мяча

После этого для каждого из ударов мы построили два альтернативных сценария – вратарь отходит назад к линии ворот и вратарь сближается с мячом на расстояние 2 метра.

Сценарий, получивший большее значение xS, и будет предпочтительным для вратаря. 

Конечно, модель ограничена многими условиями: небольшое количество данных в целом (всего 68 матчей одной команды), фильтрация выбранных ударов (например, для оценки стандартов или ударов с угловых нужно придумать немного другие сценарии), упрощенное моделирование альтернативных сценариев (не всегда вратарь может за несколько секунд добраться на расстояние 2 метра к мячу), но даже с такими ограничениями модель показывает резонные результаты. Приведу два примера: гол Кингсли Комана в домашней игре «Баварии» против «Айнтрахта» в сезоне-18/19.

График ниже показывает бэйслайн (слева – первоначальная средняя оценка вероятности сэйва для всех ударов, если бы никакие факторы не были включены в модель) и ее изменение в зависимости от добавления новых факторов. Сумма всех изменений и дает итоговую оценку для каждого из ударов. Для этого удара мы оценили вероятность сэйва в 36,4%.

Самое негативное влияние (суммарно около 20 процентов) на итоговую вероятность дали уменьшение расстояния между Траппом и Команом, а также пропорция тени к видимой зоне удара Комана в интервале с 1,5 до 0,5 секунды до удара. 

Но если бы вратарь переместился назад в сторону линии, а не стал выходить вперед, то вероятность сэйва увеличилась бы более чем в 2 раза и осталась бы практически на уровне бэйслайна – 81,1%.

Второй пример – удар Оскара Вендта в домашнем матче «Айнтрахта» против «Гладбаха» в сезоне-18/19 показывает, что решение остаться недалеко от линии и сместиться к ближней штанге было верным – модель оценила вероятность сэйва в 88,7%. 

Если бы вратарь сборной Германии отошел глубже или же, наоборот, вышел вперед, то xS снизился бы в обоих случаях примерно до 65%.

Мы победили в хакатоне, а в декабре я получил новую работу в компании, которая сотрудничает с Бундеслигой

Это решение мы и презентовали в конце августа во Франкфурте. Ивент транслировался онлайн – можно было зарегистрироваться заранее и даже задавать вопросы презентующим в чате. Сначала мы послушали небольшие вступительные слова от двух главных членов жюри – Оливера Бирхоффа и Фреди Бобича.

Вместе с ними в жюри входили Расмус Анекерсен (спортивный директор «Брентфорда» и «Мидтьюлланда»), Хендрик Вебер (CEO Sportec Solutions), Кристоф Клеменс (глава отдела анализа матчей и скаутинга в DFB) и Себастьян Зелиховски (бывший глава отдела анализа матчей «Айнтрахта»). Решения наших конкурентов рассказывали о новых подходах в подсчете Packing (метрика подсчета отрезанных передачами соперников) и EPV (ожидаемая ценность владения мячом), вычислении фитнес-метрик и анализе игры при аутах. 

Самое интересное, что до самого конца не было известно, что же будет главным призом хакатона. Только потом мы узнали, что один из трех организаторов заключит с нами контракт на дальнейшую разработку решения, а также нам дадут возможность оказаться на базе сборной Германии во время подготовки к одному из матчей, пообщаться с тренерами и посетить сам матч. 

Наше решение особенно оценили Клеменс и Вебер: им понравился новый подход к рассмотрению проблемы с точки зрения именно вратаря, а глава Sportec Solutions особенно интересовался возможными дополнительными сценариями игры и объяснением итогового числа для телезрителя. Ведь одно из направлений Sportec Solutions – использование данных не только в клубах, но и для широкого зрителя, который не так детально знаком с миром данных. К тому же остальные решения либо уже описывали то, что было сделано, но с новыми данными (как EPV или вычисление фитнес-метрик), либо (как в случае Packing) уже внедрялись внутри DFB, и хакатон был лишь площадкой для презентации проекта. Все вышеперечисленное выделяло нашу идею среди остальных и позволило в итоге победить.

Через несколько дней после победы в хакатоне в LinkedIn я наткнулся на объявление о вакансии на должность Football Data Scientist (аналитик футбольных данных) в Sportrec Solutions. Я сразу же отправил CV, так как это именно то, чем мы занимались на хакатоне, плюс мне действительно понравилось работать с данными Sportec. Спустя практически 3 месяца и нескольких интервью я все же прошел отбор и с 1 марта начну работать в структуре DFL (Немецкая Футбольная Лига) – с недавних пор Sportec Solutions принадлежит Deltatre (компания, предоставляющая услуги бродкастинга, инфографики и технологий в спортивных медиа) и DFL практически в равных долях.

В моей новой команде шесть человек, мы отвечаем за футбольную составляющую работы с данными и их интерпретации, основная задача – придумывать новые (и внедрять уже существующие) футбольные метрики, основанные на трекинговых данных.

Получая фидбэки аналитиков команд первой и второй Бундеслиги, мы будем разрабатывать и внедрять в инфраструктуру данных (к ней есть доступ у всех команд первых двух Бундеслиг) усложненные метрики вроде Pitch Control и EPV. А также будем отвечать за инфографику во время трансляций матчей – она ориентирована на более широкого зрителя. Если смотрели матчи Бундеслиги, то могли видеть такую плашку – Bundesliga Match Facts powered by AWS, и это именно то, что делает Sportec Solutions. Вся статистика (в том числе и чуть более продвинутая – например, xG), а также инфографика (например, средние позиции игроков на поле) считаются нашей командой с помощью инфраструктуры AWS. 

Сейчас я дорабатываю последние месяцы на текущей работе и параллельно работаю на фрилансе в компании своего сокомандника (Deepsports), помогая анализировать GPS-данные с тренировок и матчей команд Швейцарских суперлиги и челлендж-лиги (1 и 2 лиги). Компания Феликса специализируется именно на анализе GPS-данных, собираемых с помощью датчиков компании Advanced Sport Instruments (сертифицированы УЕФА). Этот сертификат позволяет использовать их во время игры, поэтому синхронизируем эту информацию с ивент-данными различных известных провайдеров, чтобы предоставлять полный комплекс данных (трекинговые, ивент и фитнес-метрики) клубам.

К сожалению, я не смогу совмещать эти две работы по контракту со Sportec, но до февраля мы должны успеть внедрить совмещение данных и их интеграцию в платформу. В марте же я наконец начну работать в Sportec Solutions. Скажу честно – очень жду этого момента и уже с трудом дорабатываю на своей текущей работе, ведь спустя практически два года с моего первого поста на Спортсе о поездке на футбольную конференцию в Амстердаме я наконец-то буду работать в профессиональном футболе.

Все же если очень захотеть, то мечты сбываются!

Телеграм-канал «Laptop Coach», где я выкладываю информацию о футбольной аналитике и опыте тренерства в Германии