StatsBomb Conference 2023: главное про одну из лучших конференций футбольной аналитики
Индустрия футбольной аналитики сейчас растет самыми большими темпами с момента ее основания – на рынке появляется все большее количество как провайдеров данных (из последнего и актуального, в России появился проект Яндекса и Ростелекома – , ставший официальным провайдером РПЛ), так и различных компаний и консалтингов (, , Scoutastic, и многие другие), помогающих с анализом данных клубам, лигам и медиа. Поэтому для общего развития индустрии важно, чтобы люди, работающих в ней с разных сторон, встречались и обсуждали текущее положение вещей, а это позволяют сделать конференции.
Футбольные конференции компании StatsBomb — одного из главных провайдеров футбольных данных, это, наверное, на данный момент одни из лучших конференций в мире футбольной аналитики. Они стартовали в 2019 году и проходили cперва на Стэнфорд Бридж. Тогда я еще не работал в футбольной индустрии, но посетил конференцию слушателем. Это дало огромный толчок к уходу со своей работы и попытке найти работу в футболе. На таких событиях можно легко познакомиться с лидерами индустрии, обзавестись нужными связями и знакомствами или же просто получить большое вдохновление. Например, тогда удалось пообщаться с Яном Грэмом – легендой футбольной аналитики и одним из драйверов успехов Ливерпуля 2017-2019 годов. Меня восхитило, что мы говорили практически час и он уделил моим, как теперь уже понимаю, профанским вопросам, столько времени и объяснил кучу нюансов начала работы с футбольными данными. Отчет об этой поездке можно почитать здесь.
В 2020 году конференция была отменена из-за пандемии, а в 2021 году я уже работал Data Scientist’ом в структуре DFL и смог выступить на конференции с докладом, детальное описание которого можно прочитать вот здесь. К сожалению, я не выступал лично – вместо меня выступали мои коллеги Егор Гумин и Самер Фатайри, потому что моя британская виза была задержана (правда, из-за этой задержки я познакомился с будущей женой, поэтому это даже и к лучшему). В прошлом году, когда конференция переехала на Уэмбли, я не поехал из-за большой нагрузки на работе в DFL. А в этом году все наконец срослось и удалось полететь в Лондон, чтобы посмотреть, что же нового происходит в индустрии.
Как и всегда, на конференции было 2 трека – главный и исследовательский. В первом выступали профессионалы индустрии, а во втором в основном Data Scientist’ы, представляющие свои исследования на основе данных StatsBomb’a. В этом году давали несколько сезонов данных StatsBomb 360 (ивент-данные, обогащенные координатой каждого игрока, который попал в объектив бродкастинговой камеры во время самого ивенты) и обычные данные StatsBomb (с одним-двумя игроками, непосредственно участвующими в том или ином событии), что неявно повышало качество исследований банально из-за большей выборки.
Я решил посетить только главный трек (за исключением пары докладов из исследовательского, когда были перерывы на нетворкинг) по довольно простой причине – так как в DFL мы работаем только с обоими типами данных – и с ивент, и с трекинговыми данными, мне уже не так интересны исследования, основанные только на ивент-данных, хотя по пути на конференцию я и прочитал презентуемые доклады. Безусловно, для большинства клубов работа с ивент-данными занимает большую часть времени, ведь для многих лиг просто нет никакого трекинга в доступе, либо он очень дорогой. Но так как сейчас активно развивается распознание ивентов по видео, а также трекинговые данные, собираемые по видео, становятся все дешевле, то мне кажется, что работа только с ивентами через несколько лет станет уже неактуальной, тем более, что на подходе уже новый тип данных – лимб-данные, дающие информацию о положении в пространстве частей тела игрока.
Тем не менее, если Вам интересны статьи, то можно почитать white papers здесь или же посмотреть записи некоторых докладов здесь. Также Андрей Шелопугин из блога Fit Predict у себя в телеграм-канале выложил небольшое саммари по каждой из статей.
Ted Knutson – Introduction | StatsBomb
Очевидно, что первым докладом на любой из подобных конференций будет выступление CEO или кого-либо еще C-уровня с презентацией об успехах и новых фичах компании. Как и всегда, первым выступил CEO StatsBomb’a Тед Натсон.
Из интересного:
StatsBomb наконец-то начал собирать трекинговые данные – пока только в амфуте, но валидирует свои алгоритмы на футболе.
Обновили BI-платформу StatsBomb IQ – добавили новые фильтры и визуализации, опцию фильтровать данные с помощью текста (привет генеративным моделям), а также выкатили версии для телефонов и планшетов
Добавили интеграцию видео в платформу StatsBomb IQ – теперь можно связать все статистики и сырые данные вместе с видео, как это было частично сделано, например, у Wyscout. Фича будет доступна в бета-версии для некоторых клиентов, ожидается, что ее выкатят в середине 2024.
Karun Singh – Unified Model and its Applications | Arsenal FC
Карун – один из новаторов индустрии аналитики, во многом известный тем, что популяризировал PV (posession value) – модели через понятие ожидаемой угрозы (Expected Threat, оно же xT). Если очень сильно обобщать, то PV-модели, включая xT, показывают это ценность того или иного атакующего действия во владении. Сейчас Карун работает Data Scientist’ом в Арсенале и на конференции представил часть работы дата-отдела лондонского клуба.
Кстати, на той же позиции в Арсенале работает человек из России – Михаил Жилкин, написавший отличную книгу об использовании Data Science в бизнесе и в футболе – Data Science Without Makeup: A Guidebook for End-Users, Analysts, and Managers. Крайне рекомендую к прочтению, если интересуетесь Data Science. А здесь можно прочитать про разные отделы лондонского клуба и кто в них работает. Это один из нескольких докладов, запись которого не будет выложена на Ютуб (видимо, из-за использования видео игр АПЛ) но скрины слайдов и небольшое саммари на английском можно прочитать в треде здесь.
Я же выделю основные пункты доклада, которые успел записать:
На основе тренинговых данных есть несколько групп моделей, которые важны в клубе: Фазы игры, ожидаемая угроза, доступные опции паса, забивания / вбегания, определение формации игры и определение контратаки
Из-за того, что для разных лиг доступны разные данные (где-то все полноценный трекинг и ивенты, где-то бродкастинговый трекинг и ивенты, где-то только ивенты), приходится строить или разные модели, или же одну уникальную для всех типов данных. Все это нужно как постоянно поддерживать и улучшать, так и каким-то образом сравнивать результаты между собой, что занимает огромное количество времени.
Поэтому они решили использовать трансформеры, которые отлично умеют определять последовательности (а по сути, любое событие в футболе – гол, владение и тп – это и есть набор последовательностей тренинговых данных, то есть перемещений игроков и мяча) вместо добавления кучи вручную генерированных фичей в модель для ее улучшения, они дают на вход трекинговые данные, а на выход уже вышеупомянутые результаты моделей, тогда нужные фичи уже находятся самостоятельно.
3 практических применения, которые могут быть актуальны для Артеты и его штаба
Живая тактическая доска: вместе с видео, тренер получает тактическую доску с положениями всех игроков на поле, которые можно передвигать и значениями Posession Value для команды, что позволяет понять, что можно было бы сделать лучше в той или иной ситуации.
Поиск похожих ситуаций: например, можно найти все проходы Люка Шоу среди всех ситуаций Манчестер Юнайтед и посмотреть ситуации, когда Арсенал пропускал в такие же моменты.
Живые дэшборды - те или иные статистики можно смотреть прямо во время матча, например состояние игры (momentum) – разницу в xT по интервалам в несколько минут, показывающую, какая команда была «опаснее» в тот или иной момент времени, или же, например, статистика по разным фазам игры.
Sam Goldberg – The Next 20 Years | New York Red Bulls
Как по мне – один из двух лучших докладов конференции, так как выделенные в нем концепции это ровно то, от чего мы отталкиваемся на работе, развивая компанию и выбирая проекты для дальнейшей работы. Сэм Голдберг – проект-менеджер и аналитик данных в структуре Ред Булла, поделился видением индустрии на следующие 20 лет. Он выделяет 4 взаимосвязанных направления:
Соревновательность – если траты будут регулированы в Европе, как сейчас в МЛС, что предстоит изменить клубам? В большинстве спортивных лиг США отсутствует историческая корреляция между уровнем трат и процентом побед, за небольшим исключением НБА, где присутствует налог на роскошь и случилось подписание «Большой тройки» Майами Хит – Леброна, Уэйда и Боша. В Европе же наоборот – прямая корреляция (по крайней мере, по последнему сезону). В МЛС за последние 10 лет было 9 чемпионов, тогда как в топ-5 лигах за это же время было максимум 5 (АПЛ), а в Бундеслиге всего один.
Развитие игроков внутри клуба – следствие соревновательности, клубам приходиться использовать технологии: в бейсболе это pitching & hitting labs, где с помощью VR-очков игрокам симулируются игровые ситуации, в NBA это детальный анализ данных, к которому прислушиваются тренеры и игроки. В сравнении с 5-10 годами назад, в бейсболе такие лаборатории были у единиц, теперь же у 10-20 команд. В NBA же темп чуть медленнее – 4-6 команд создали data-driven систему развития игроков.
Скаутинг – поиск игроков вне клуба. Разные метрики вроде вышеупомянутых xT, OBV и т.д. отвечают на вопрос «хорош ли данный игрок?», но не отвечают на вопрос «почему этот игрок хорош?». Здесь помогут новые уровни данных – вышеупомянутые лимб-данные в комбинации с трекинговыми данными, что помогает понять, как игрок сканирует пространство и принимает решения. Это улучшит процесс поиска игроков.
Принятие решений во время игры. Тогда если клуб учится тренировать то, что делает игрока хорошим на основе или с помощью того, как определить то, что игрок хороший, то тогда можно вносить коррективы в действия как игроков, так и команды во время игры.
Для того, чтобы каждое из направлений развивалось равномерно внутри клуба, необходимо, чтобы в клубе существовали:
Культура – среда, где люди готовы брать на себя риски и осознавать, что возможны неудачи в принятых решениях
Коммуникация между отделами клуба и развитие в научно-исследовательских проекты для успехов в 4 направлениях, упомянутых выше
Принятие обязательств спортивными директорами и тренерами на трату времени и ресурсы для принятия оптимальных решений с помощью развивающейся аналитики
Ravi Ramineni – Decisions in Football – The Power of Compounding: src | ftbl
Один из корифеев футбольной аналитики, а также основатель консалтингового агентства src | ftbl вместе со своей женой Сарой Радд (стоявшей также у истоков футбольной аналитики и много лет проработавшей в Арсенале, немного о том, что она делала, можно почитать вот здесь) рассказывал о принятии решений футбольным менеджментом. Это второй доклад, который я бы хотел выделить.
За более чем 10 лет работы с разными клубами, Рави обращает внимание на следующее:
Огромное количество информации об игроках, неструктированно и разнородно – статистические платформы, разные скаутинговые отчеты, социальные сети игроков.
Крайне сложно оценить, а было ли принятое решение об игроке правильным? Например, на людей часто влияет желание оценить решение на основе результата (outcome bias) Также часто одно хорошее решение влияет на будущую логику принятия решений ( Еще негативно влияет отсутствие явной стратегии – хочет ли клуб получить быстрый результат (выигранный матч / чемпионат) или же долгий, а также цели тренеров и менеджмента разнятся и зачастую несравнимы / несравниваемы.
Но все же, как это можно оценить? 4 пункта, на которые стоит смотреть: 1. Как определить ожидаемое значение решения и его «пользу» с помощью аналитики? 2. Затраты / прибыль и анализ рисков – разные решения требуют разного анализа сопряженных рисков, приводящие к разным затратам и прибыли 3. В клубе превалирует долгосрочное или краткорсрочное планирование? 4. Opportunity costs – поставить молодого игрока, который может развиться и дать результат в дальнейшем или опытного, который уже знаком?
Например, в больших компаниях наподобие Microsoft, есть специальные люди, ответственные за оценку принятия решений - Decision Scientist’ы. Клубам же нужна хотя бы некая концепция, позволяющая оценить влияние на будущее разных вариантов принятия решения (к примеру, подписать того или иного игрока).
Неоптимальное (или субоптимальное) решение опасно для клуба, потому что его урон оценивается долгую и может привести к плеяде таких же решений, которые могут сделать только хуже
Все выше упомянутое становится более сложным, но в то же время особенно релевантным для клубных холдинговых компаний (City Football Group, Red Bull, и т.д.), где принятые решения влияют на все клубы в структуре.
Koen Vossen – Linking Data Fanatics with Pro Sports | PySport / TeamTV
Этот доклад от Кёна Воссена – наверное, одного из самых известных open-source контрибутеров в футбольной аналитике. Многие в индустрии работают с open-source библиотеками, позволяющими преобрабатывать данные от футбольных провайдеров, а также строить визуализации на основе этих данных. Эти библиотеки поддерживаются энтузиастами, и один из способов завести знакомства и потом войти в индустрию – помочь в поддержании этих библиотек. Несколько лет назад Кён начал создавать такие библиотеки, а теперь основал свое коммьюнити – , где все желающие могут добавить свои библиотеки для разных видов спорта. Учитывая, что почти в каждом клубе пользуются такими библиотеками как kloppy (одним из основых создателей является Кён), mplsoccer и многими другими, его история очень вдохновляющая.
Alison Lukas – Data Driven Storytelling | Seattle Kraken
Честно говоря, не могу сказать, что этот доклад мне сильно зашел, хотя Элисон говорила о теме, с которой мы в DFL довольно много работаем: сторителлинг, основанный на данных. Если Вы работаете в медиа, то может быть, найдете что-то интересное, но как по мне, кроме очевидных вещей наподобие «убедиться в том, что твоя аудитория поймет то, что ты хочешь сказать», там ничего не было.
Tom Gardner – Delivering Football Performance Insights | FIFA
В своем докладе Том рассказывает об устройстве работы с данными в отделе Football Performance, за развитие в том числе отвечает Арсен Венгер.
Имея нескольких провайдеров данных для разных соревнований, они хотели иметь единый источник данных, которым они смогли бы делиться с футбольными ассоциациями стран, участвующих в соревнованиях FIFA. Для сбора и анализа данных у них есть команда, состоящая из сборщиков данных,, аналитиков данных, дата саентистов и инженеров, а также футбольных экспертов, отвечающих за тактическую составляющую. Во время матча собираются ивент- и трекинговые данные. Для унификации ФИФА создала свой футбольный язык – словарь определений, используемый для работы с данными. На основе этого языка 21 аналитик собирает данные по матчу (1 человек ответственен за 1 игрока). Далее во время матча дата-саентисты на основе их считают различные метрики. После получения информации от футбольных экспертов о матче, через 4 часа итоговые отчеты по матчу распространяются для всех футбольных ассоциаций.
Так выглядит пайплайн сбора данных в ФИФА:
На основе собранных данных ФИФА в своем Training Center составляет и дополняет уже созданные отчеты и подготавливает статьи о матчах, чтобы повысить уровень грамотности данных не только среди профессионалов (что они делают, например, на тренерских форумах) но и среди зрителей. Пример отчета по прошедшему финалу ЧМ-2022 можно найти здесь.
Мои личные выводы о конференции (и в целом о состоянии индустрии)
Такие ивенты очень отрезвляют и возвращают в реальность: если ты работаешь в индустрии, то вылезаешь из рутины и смотришь, что происходит вокруг: если ты только хочешь попасть в нее – видишь массу возможностей и вдохновляющих примеров. Да и в целом здорово встречать людей, с которыми в основном общаешься онлайн.
Несмотря на гораздо большее количество рабочих мест, порог вхождения существенно возрастает. Уже недостаточно иметь опыт работы с 1-2 провайдерами, уметь строить базовые визуализации, знать базовые метрики и когда-то работать с Tableau / Power BI – требуется гораздо больше. Плюс в том, что можно углубиться в ту сферу, которая интересна – будь то именно анализ данных, Data Science, Data Engineering или что-то еще. Во многих клубах и организациях все эти роли зачастую смешаны, но лет 5-7 назад было вообще хорошо, если этим всем занимался один человек (и не умирал спустя несколько лет такой работы).
В основном весь бизнес происходит в Англии и США – там наибольшее количество потенциальных клиентов, и как следствие, денег. Это и подтверждается и количеством участников из этих стран, и общим мнением внутри индустрии.
В Германии сейчас однозначный лидер по количеству и качеству выполняемой работы – РБ Ляйпциг. Там собралась очень сильная команда, имеющая четкую стратегию использования данных внутри всей корпорации.
В очередной раз от огромного количества людей получаю сомнения о дальнейшей работе в футболе – хоть это все безумно интересно, количество работы и ее оплата все еще оставляют желать лучшего. Многие не выдерживают, уходят в пользу лучшего work-life balance, и на их места гигантским потоком хотят прийти другие. Из плюсов – оценка работы людей из дата-отделов в клубах становится все более заметной.
Поэтому многие выбирают другую альтернативу – работать вне / внутри футбола, но консультировать клубы / компании по тем или иным темам. К этому в начале года пришел и я.
Через несколько недель я начинаю обучение в магистратуре спортивного университета Кельна по специальности «аналитика игровых видов спорта» с фокусом на прикладное применение анализа видео и данных в футболе, поэтому следующий пост в блоге будет об этом.
Мой телеграм-канал о работе в DFL и футбольном обучении в Германии, а также о Data Science в футболе