Как «с нуля» создать отдел аналитики в футбольном клубе и начать получать пользу от данных. Пример команды из Дании
Для того чтобы построить полноценный и эффективный отдел аналитики данных в рамках футбольного клуба необходимо следующее:
доступ к футбольным данным
специалисты, владеющие инструментами работы с данными (чаще всего язык программирования python)
инфраструктура для удобной и эффективной работы с данными (сбор, хранение, последующий анализ и визуализация данных)
Про типы данных, которые используются в футбольной аналитике, и про инструменты работы с ними подробно говорилось в моих предыдущих статьях. Сегодня основной фокус обзора будет направлен на описание того, как правильно решать инфраструктурные задачи, и почему об инфраструктуре важно думать на самых ранних этапах внедрения аналитических инструментов в клубе.
В основе статьи будет лежать презентация, подготовленная руководителем аналитического департамента Брондбю - клуба из высшей лиги Дании (чемпионы прошлого сезона). Эта презентация была представлена на онлайн конференции Training Ground Guru BIG DATA 2021, которая проходила в конце октября текущего года. Ее основными партнерами были HUDL, StatsPerfom и Twenty3.
Часть 1 - Вступление от HUDL
HUDL - это американская компания, которая специализируется на решениях для анализа игровых показателей и удобной работы с видео в различных видах спорта. В 2019 г американский гигант приобрел Wyscout - крупного поставщика футбольных event-данных, чем обозначил свой интерес к данной индустрии.
Во вступительном слове консультант из Hudl сделал акцент на одной из основных тем, обсуждаемых с клиентами по всему миру - централизации данных. Данные могут приходить в клуб из нескольких источников: разные провайдеры и собственные системы сбора. Собираемые данные имеют разную исходную структуру и зачастую могут храниться в разрозненном виде внутри клуба, что осложняет работу с ними как с единым целым. Для решения этой проблемы необходимо строить единое хранилище данных.
Также специалист Hudl'а продемонстрировал типовую структуру отдела по работе с данными в футбольных клубах и ключевые роли сотрудников.
Data Architect (архитектор данных) - проектирует, строит и управляет хранилищем данных, настраивает процессы получения данных из различных источников и их первичную обработку. Иногда вы можете увидеть схожий или пересекающийся функционал с должностью, которая сегодня называется Data Engineer.
Technical Analyst (технический аналитик) - строит на основе данных готовые отчеты и интерпретирует результаты анализа так, чтобы это было понятно футболистам, тренерам и другим сотрудникам клуба, которые принимают решения на основе анализа данных. Иногда эта позиция называется Data Analyst.
Data Scientist - смотрит на данные под разными углами и ищет в них закономерности, строит математические модели, которые позволяют решать различные задачи. Например: Оценить эффективность действий футболистов на поле с помощью ожидаемых метрик - xG, xP, EPV, предсказывать ожидаемую нагрузку на тренировках в зависимости от интенсивности упражнений, автоматически распознавать игровые формации и фазы игры и т д.
Tactical Analyst (тактический аналитик / видеоаналитик) - обычно занимается видеоанализом, на основе которого готовит отчеты и тактические разборы. Результаты своей работы зачастую дополняет результатами анализа данных от Technical Analyst и Data Scientist. Находится в постоянном контакте с тренерским штабом и игроками, которым помогает доносить основной смысл полученных выводов из анализа.
Нужно понимать, что реальная структура может меняться от клуба к клубу. Если клуб ограничен в бюджете или же находится на начальном этапе построения процессов работы с данными, то это зачастую приводит к тому, что одному человеку приходится выполнять смешанный функционал или вовсе закрывать сразу нескольких позиций. Каких-то ролей на первых порах может и вовсе не быть в рамках клуба. Но в целом, для первоначального представления можно использовать такую картину от Hudl'а.
Часть 2 - Знакомство с историей главного аналитика Брондбю
Основным докладчиком в презентации выступал Миккель Кельдманн. Он пришел в Брондбю аналитиком на стажировку в 2015. Через год уже работал на полставки и параллельно получал степень магистра по экономике. В 2017 стал работать в должности Data Scientist-а. Наконец в 2020 возглавил небольшой аналитический отдел внутри клуба.
Миккель попытался на примере своей истории продемонстрировать, как в клубе за несколько лет кардинально изменилась работа по анализу данных. От ручного анализа в Microsoft Excel одним человеком они перешли к полноценному аналитическому отделу, построив при этом инфраструктуру для работы с данными и автоматизировав многие процессы.
Часть 3 - Отправная точка (2015-2016)
Ниже будет описано, как велась работа с данными в Брондбю, когда Миккель только пришел на стажировку.
1. В клубе уже работали с программами от компаний Amisco / Prozone (были event данные)
Amisco - французская компания, пионер в области видеотрекинга в футболе. Данные, которые собирала Amisco, использовались в сборной Франции в рамках подготовки к чемпионату мира уже в 1998 г. В 2011 г Amisco приобрела своего основного конкурента - английскую компанию Prozone и на какой-то период времени стала лидером в индустрии. (В 2000-ых первым крупным клиентом Prozone по инициативе Арсена Венгера стал лондонский Арсенал.)
Эти компании поставляли видеосистемы на основе нескольких камер, которые располагались вокруг стадиона, и программные продукты для обработки видео в реальном времени. Детектирование игроков и определение координат проводилось в полуавтоматическом режиме. Неотъемлемым элементом данной системы был оператор, который вручную фиксировал некоторые события и контролировал корректность собираемых данных.
На основе собираемых трекинговых данных по всем игрокам на поле Amisco дополнительно считала базовые данные о событиях, которые уже предоставляла пользователям для самостоятельного анализа.
Также Amisco имела удобную платформу для послематчевого анализа, в которой по трекинговым данным проводилась двумерная реконструкция футбольного матча.
Первые задачи Миккеля были связаны с работой в этой программе и выгрузкой event данных в excel для последующего анализа. Он работал в плотном контакте со специалистом, который занимался тактическим и видеоанализом игровых характеристик футболистов (Performance Analyst / тактический аналитик / видеоаналитик).
2. В 2016 г Брондбю приобрел LPS трекинговые системы от INMOTIO (были tracking данные по тренировкам)
Приобретение системы для сбора тренировочного трекинга совпало с приглашением нового главного тренера в команду, который был представителем немецкой школы и уделял большое внимание игре в прессинге и контрпрессинге.
В результате фокус Миккеля сместился с анализа ивентов на работу с трекингом и более тесное взаимодействие с тренером по физподготовке. Результатом его работы стала программа, которая позволяла считать на основе собранных данных интенсивность и объем физической нагрузки игроков во время тренировок. Набор базовых тренировочных характеристик считался для каждого отдельного игрока и для команды в целом.
Ниже представлен пример такого отчета, который предоставлялся тренеру за день до матча. Видно, что половина параметров - это показатели, оценивающие высокоинтенсивную беговую работу - дистанция, пройденная на максимальных скоростях, спринты, ускорения и торможения.
Такой отчет был полезен как дополнительный материал для принятия решения о выборе стартового состава, так и для возможности корректировать уровень нагрузок во время новых тренировок. Анализируя данные по текущему объему нагрузок в команде, можно было слегка повышать или понижать интенсивность работы, чтобы соблюдать некоторый баланс и избегать перегрузок.
Часть 4 - Формирование отдела и появление инфраструктуры для работы с данными (2017-2018)
В 2017 г Миккель стал работать в клубе в качестве Data Scientist-а. Здесь я вынужден добавить несколько комментариев во избежание формирования путаницы у читателя.
К сожалению, под понятием DS в сфере анализа данных очень часто понимается несколько разный функционал. Так обстоит дело далеко не только в футболе. Реальный функционал DS-ов на рабочих местах в разных компаниях может несколько отличаться, но в целом быть очень схожим.
Где-то обязанности DS более широкие и включают в себя сразу несколько других ролей - подготовка и обработка данных (Data Engineer), построение моделей машинного обучения (ML Engineer), визуализация результатов (BI Analyst), где-то DS может заниматься только построением моделей и исследовательской работой, например.
Также возможны ситуации, когда номинальный Data Scientist будет делать отчеты, формулировать и проверять гипотезы и интерпретировать получаемые результаты для руководства, но не будет строить модели машинного обучения. В данном случае его роль будет ближе к такой позиции как Data Analyst или аналитик данных, если по простому.
Основной вывод - само название позиции Data Scientist не всегда отражает какой-то конкретный выполняемый функционал. Нужно иметь это в виду.
Возвращаемся к Брондбю и Миккелю.
В 2017 году датский футбольный союз заключил контракт с компанией ChyronHego на оснащение стадионов высшей лиги системами TRACAB. Теперь у Брондбю появился оптический трекинг как по играм, так и по тренировкам. Также клуб стал сотрудничать с компанией Opta по ивент-данным.
В итоге клуб перестал пользоваться программными решениями от Amisco и стал самостоятельно анализировать собираемые трекинг-данные (в Amisco игровой трекинг анализировался внутри самой программы и у пользователей не было к нему доступа).
Все это привело к тому, что в клубе стало сильно увеличиваться количество источников входных данных - LPS трекинг, оптический трекинг, ивент-данные. Старый подход, при котором данные скачивались вручную и хранились в xlsx или csv файлах для последующей обработки, стал очень неэффективным. Для того чтобы всем этим управлять, нужно было строить инфраструктуру и автоматизировать рутинные процедуры, что и принялись выполнять Миккель и его команда. К этому времени в отделе работало двое человек и несколько студентов.
Ниже представлен первый вариант инфраструктуры и ее небольшая модификация. Видно, что может увеличиваться количество источников данных, могут меняться инструменты обработки, хранения и визуализации, но в целом основная структура сохраняется.
Весь процесс обработки - от момента получения данных, до момента формирования готового отчета или визуализации, теперь можно было автоматизировать и выполнять по расписанию, а не вручную каждый раз проводить рутинные действия.
Ниже представлен пример визуализации прессинг действий после потерь мяча по ходу матча. Основное назначение - оценивать качество контрпрессинга по некоторой условной линии, которая показывает, как высоко от своей штрафной площади в среднем совершаются успешные контрпрессинг-действия.
В результате, после появления трекинг-данных от TRACAB значительно увеличилось количество отчетов и дополнительного анализа по играм. Это привело к тому, что Миккель стал плотнее контактировать с тренерским штабом и со скаутами внутри клуба.
Часть 5 - Основные принципы работы с данными в Брондбю
Ниже перечислены основные принципы работы с данными, которым стараются следовать внутри клуба. Основная суть - собственная инфраструктура делает вас максимально независимыми и гибкими. Это важно, если вы работаете вдолгую. Нужно понимать, что с приходом нового руководства или тренера взгляды на аналитику и постановка задач могут меняться. Если вся аналитика была построена на готовых программных платформах под видение предыдущих руководителей, то перестройка системы под новые задачи может быть очень затратной.
Часть 6 - Полноценный аналитический отдел по работе с данными 2019-2021
В 2019 г в клубе было принято решение расширять штат аналитиков для работы с данными. Помимо Миккеля в отделе на постоянной основе работали три студента на полставки - Junior Data Engineer, Junior Data Analyst и Junior Data Scientist. Также в отделе постоянно стажировались 5-7 студентов, которые параллельно писали дипломные работы на футбольную тематику и помогали с аналитическими задачами.
Основной фокус работы в то время был направлен на автоматизацию рутинных операций и подготовку типовых отчетов. Это делалось для того, чтобы высвободить время для исследовательской работы.
Также у отдела появилась новая задача - обработка трекинга в режиме реального времени. Такие live-данные появились в лиге после перехода с TRACAB на решения от Second Spectrum, которые в том числе сейчас применяются в АПЛ. В клубе тестировали как готовые платформы, так и пытались разрабатывать свое приложение на iOS.
На данном этапе развития Миккель со своей командой также стали решать задачи с применением машинного обучения. Они построили модель, которая предсказывала ожидаемую физическую нагрузку у футболистов в зависимости от перечня тренировочных упражнений.
Тренер Брондбю мог составить план тренировки в web-приложении, выбирая типы упражнений и их длительность. Здесь рассматривалась любая физическая активность, начиная от разминки. Затем по этому перечню он мог получить значения ожидаемых фитнес-показателей после тренировки и сравнить их со средними, максимальными или минимальными значениями по истории предыдущих тренировок. Полученные оценки позволяли корректировать предстоящую тренировку и подбирать оптимальное сочетание упражнений и их длительность.
Основной акцент в данном примере заключается в том, что построение сложной аналитики на основе математических моделей зачастую происходит далеко не на первых этапах внедрения инструментов анализа в клубе.
В текущей фазе своего развития аналитический отдел в Брондбю находится в постоянном плотном контакте со всеми функциональными единицами в рамках клуба - со скаутами, со всем тренерским штабом, с директором по футболу и с академией.
Часть 7 - Что делать, если вы с нуля (или почти с нуля) хотите внедрять инструменты анализа в клубе?
В заключение Миккель предлагает свое видение относительно того, как вы можете начать заниматься аналитикой данных внутри клуба, и на что прежде всего стоит обратить внимание, если вы делаете первые шаги в этом направлении.
В первую очередь нужно определить задачи, которые в клубе хотят решать с помощью анализа данных. Это очень сильно влияет на подходы и инструменты, которые нужно внедрять в последствии, на количество необходимых человеческих ресурсов, сроки реализации и другие нюансы.
Также нужно определить модель построения инфраструктуры. Можно делать все своими силами, можно нанять специалистов со стороны и пользоваться готовыми решениями или же использовать смешанный подход, в рамках которого часть работ вы будете делать сами, а на какие-то работы будете приглашать сторонние компании. Брондбю, как и многие в Дании, использует смешанный подход, при этом большую часть разработки реализуя своими силами.
Если же вам близка модель Брондбю, то начать внедрение процессов анализа данных можно с применением исключительно бесплатного программного обеспечения. Можно использовать свободно доступные базы данных и средства визуализации, работая при этом на python.
Также вам понадобится доступ к данным, за который безусловно придется платить.
Плюс ко всему в клубе должны появится специалисты, которые начнут работать с имеющимися источниками данных и будут постепенно выстраивать процессы анализа, демонстрируя при этом актуальность и пользу последних для всех внутри команды.
Часть 8 - Важные замечания
Аналитики данных должны находится постоянно в плотном контакте со всеми структурами внутри клуба. Нужно уметь демонстрировать результаты анализа простым и понятным языком. Важно сформировать доверие к получаемым результатам и выводам, которые делаются на их основе.
Без всего вышеперечисленного сложно будет заручиться поддержкой тренеров, скаутов, руководителей и других людей внутри команды. Без их поддержки и заинтересованности развитие процессов анализа данных в клубе будет идти значительно медленнее и менее эффективно.
Правильные первые шаги позволят аналитикам заложить фундамент доверия к их деятельности в клубе. Это будет способствовать постепенному увеличению числа специалистов по анализу и повышению эффективности и скорости выполняемых работ.
Summary
На рассмотренном примере можно было увидеть, как за 5 лет клуб из чемпионата Дании прошел путь от анализа данных в Microsoft Excel до полноценного отдела по работе с данными, построив инфраструктуру и автоматизировав процесс обработки.
По мере появления новых источников данных и развития экспертизы по их обработке, аналитики начинали плотно работать с различными структурными подразделениями внутри клуба. В конечном счете аналитикой данных пользовались все - тренерский состав, скауты, руководство и академия.
Сложность решаемых задач увеличивалась постепенно и последовательно - от простых отчетов и визуализации до применения предсказательных моделей на основе машинного обучения.
В командах РПЛ/ФНЛ постепенно начинают уделять больше внимания анализу данных. Сейчас только формируется понимание и видение оптимальных подходов для создания внутри клубов экспертизы по анализу данных. Пример Брондбю может быть интересен и полезен для общего ознакомления и в качестве некоторого ориентира. Используя уже пройденный опыт других клубов, можно подчерпнуть полезную информацию и организовать процесс формирования отдела более эффективно.
Комментарии от Кирилла Серых (Data Scientist в Sportec Solutions в Германии)
Пример Брондбю довольно уникален - на моей памяти это впервые, когда в паблике обсуждается такая, казалось бы, не самая очевидная, но все же основополагающая тема для создания аналитического отдела футбольного клуба. Добавлю 5 пунктов из своего опыта общения с аналитиками и менеджментом немецких клубов, которые нахожу особенно важными.
1. Самое главное - руководители клуба должны понимать, зачем нужен аналитический отдел. Часто это решение принимается не исходя из конкретных задач, а по логике “мы хотим, как в Ливерпуле / Барселоне / любом клубе, где все уже есть”, тогда отдел может стать либо игрушкой, которую бросят через несколько месяцев или лет, либо (если повезет и будет большой бюджет) чем-то обособленным, что будет существовать автономно и по сути, отдельно от клуба.
2. Поэтому определяющим будет правильный выбор первого человека или команды, которая будет на одной волне с главными стейкхолдерами (это и менеджмент, и тренерский, и аналитический штабы) и начнет все делать с нуля. Ужасно важна коммуникация - технарям нужно найти общий язык с футбольными людьми и сделать так, чтобы обе стороны доверяли друг другу. На первом этапе сложное - донести, что люди с техническим бэкграундом пришли не вытеснять и диктовать свои правила, а как можно больше помогать делать клуб лучше.
3. Не нужно перемудрить в начале. Например, можно убить месяцы на создание стабильной инфраструктуры, начать готовить какие-то очень замороченные модели и изощренные кастомные визуализации, но какой в этом толк, если за это время конечные пользователи не получили никаких нужных выводов? Сложнее - не всегда значит лучше. Особенно в очень динамичной футбольной сфере.
4. Смешанный подход - все же лучшее, что можно внедрить для достижения успеха, особенно в начале. И в DFL / DFB, и в некоторых клубах Бундеслиги работает именно такая схема - внутри клуба или организации есть несколько человек, которые знают всю кухню изнутри, ставят цели и в долгосроке работают над ними, а консультанты с конкретными техническими навыками акцентировано помогают их достичь, выполняя задачи, в которых они сильны.
5. Процесс построения отдела - дело небыстрое и на первый взгляд недешевое. Работа отдела не всегда постоянно осязаема, но она может отбиться даже одним правильно сделанным или не сделанным трансфером. К тому же, скаутинг - не единственное, для чего он должен существовать: аналитики могут помочь и в анализе своей игры / игры оппонента, и нахождении закономерностей в фитнес-данных, и в помощи видео-аналитикам при тэггинге видео, и многое другое. Поэтому, когда есть такой огромный спектр задач, особенно важно иметь стабильную и понятную инфраструктуру, на поддержание и обеспечение которой не нужно будет тратить драгоценного времени.
P.s.
В телеграм-канале Кирилла Серых вы можете найти ссылку на видео с презентацией, которая обозревалась в данной статье.
Трекинговые данные - максимально подробная и точная информация о действиях футболистов на поле
1. Понимание и заложение аналитической культуры (должно идти сверху)
2. Поступательное развитие
3. Взаимосвязь бизнеса и аналитического отдела
4. Возможность аналитикам побыть в песочнице хотя бы какое то время, пока взаимосвязь из предыдущего пункта не наладится
5. Профессионалы в команде, к не болтуны (для это сферы это пока критично)
6. Profit
Если понятных ответов и примеров решения аналогичных задач в текущий момент на локальном рынке нет, то неизбежны два пути.
1) Можно начинать с нуля все самостоятельно, шаг за шагом, проводить эксперименты, нарабатывать собственный опыт, много ошибаться и постепенно искать правильный и эффективный путь.
2) Можно обратиться к иностранному опыту и посмотреть, как аналогичные задачи решаются там и какие модели / подходы используются. Далее проанализировать это все, взять лучшее и попробовать адаптировать к существующей у нас системе. Это ни в коем случае не страхует вас от ошибок и неверных решений, которые будут. Но это может помочь начать делать первые шаги более уверенно и в более правильном направлении.
Цель этой статьи - показать иностранный опыт, которым пока очень мало кто делится в публичном пространстве. Можно в общих чертах понять - какие были вводные у клуба (типы данных/инструменты), какие задачи решались и к каким выводам пришел клуб за 5 лет экспериментов, относительно правил и подходов для эффективной работы с данными.
Да, в футболе не просто количественно измерить эффективность от анализа в явном виде. Можно подсветить тот факт, что Брондбю вновь стали чемпионами в прошлом сезоне, спустя 15 лет после последнего раза, что позволило им выйти в квалификацию Лиги Чемпионов и затем попасть в групповую часть Лиги Европы.
Безусловно, начальные условия и природа некоторых механизмов в индустрии там и здесь отличаются. Далеко не факт, что легко и безболезненно удастся внедрить модели и подходы, которые используются в Европе. Неизбежно одно. Аналитике будет уделяться больше внимания. Будут формироваться новые отделы. Жить в изоляции от этого, оставаясь хоть сколько-то конкурентоспособным, будет становиться все сложнее, в пределе - невозможно. В итоге так или иначе придется выбирать какой-то сценарий развития и воплощать его в жизнь.