«Это как Манибол». Система анализа данных, которая помогает Спаллетти в «Роме»
Вадим Лукомский – об инновационной системе, которую Крис Паллотта успешно внедрил в итальянском клубе.
Как стартаперы из Сан-Франциско впечатлили владельцев «Ромы»
6 лет назад Том Ковингтон и Джесси Пакуитт (на фото) встретились, играя в футбол на одном из полей калифорнийского университета. Бывший инженер Honda и аналитик Ford Том в то время работал в компании, разрабатывавшей ультра-эффективные автомобильные двигатели; Джесси был биоинформатиком в университете.
После игры Пакуитт не упустил шанса похвастаться перед новым товарищем программой, которую написал для одного ракового центра. Она позволяла анализировать взаимосвязь между генами и выявлять в них закономерности. По словам Джесси, он устал от постоянных визитов исследователей, которые задавали очень похожие вопросы, а, получая ответы, приходили с новой порцией настолько же предсказуемых вопросов: «Это выхолащивало меня – я просто не мог помочь каждому».
Том неожиданно заинтересовался проектом, но почему-то сразу же начал перебирать в голове варианты применения программы в принципиально иных жизненных ситуациях. Через несколько часов ребята сошлись во мнении, что при грамотном развитии программа сможет превратить любую домохозяйку в исследователя данных. Собственную работу с данными они решили начать со спорта – из-за общего интереса к нему и огромного количества качественной систематизированной информации.
Два года назад Джесси закончил работу над адаптированными к футболу, американскому футболу и бейсболу версиями системы анализа, а начинающие бизнесмены попытались оценить потенциал замысла. Они задались простыми вопросами: способна ли программа дать клубам новую информацию и будет ли эта информация им полезна? Выяснилось, что у клубов MLS (футбол) и NFL (американский футбол) вообще не было доступа к информации, которую генерировала программа. Бейсбольные клубы имели доступ к данным, но анализировали их вручную. Процесс свел Ковингтона и Пакуитт с Крисом Паллоттой, главой инвестиционной компании его семейства, Raptor Capital Management. Сын владельца «Ромы» впечатлился и стал одним из первых инвесторов стартапа, вложив 250 тысяч долларов.
В январе этого года программа была официально презентована под названием Tag.bio. А уже в марте на самой крупной спортивной конференции США в бизнес-школе Sloan отец Криса Паллотты, Джеймс, получил шанс очень выгодно выглядеть на фоне другого VIP-гостя – оперировавшего общими фразами владельца «Арсенала» Стэна Кронке. Паллотта-старший не только показал, что глубоко погружен в спортивную аналитику и знаком с Tag.bio, но даже намекнул, что она сыграла роль в отставке Руди Гарсии: «Проблема Гарсии была в том, что он всегда использовал одну и ту же тактику. Он совсем не уделял внимания анализу данных».
Что такое Tag.bio?
«Это как Манибол», – уверяет Крис Паллотта.
Главная задача Tag.bio – та же, что у изначальной программы Пакуитта, выявление статистических закономерностей и их анализ. Для анализа системе необходим вопрос, сформулированный в рамках одного из ее протоколов. В качестве ответа программа выдает данные и оценку их полезности. Количество протоколов (следовательно, потенциальных вопросов) постоянно увеличивается разработчиками программы.
Команды получают эффективный и простой метод выявления неочевидных статистических тенденций в собственной игре и при изучении соперников. «Но неверный анализ данных может привести к куче ошибочных выводов. Очень важно, чтобы люди знали, что нужно искать», – поясняет Паллотта-младший. По его словам, программа уже сэкономила клубу немало времени и средств: «Это один из первых по-настоящему качественных подходов к автоматизации анализа данных. Полностью его не автоматизировать, но мы уже автоматизировали значительную часть».
Как примерно может выглядеть вариант применения программы в футболе? Хороший пример два года назад на все той же конференции в бизнес-школе Sloan представил Пакуитт. На глазах у коллег он за менее, чем 20 минут, разработал новый статистический показатель – углубленное участие в голах. Он попросил Tag.bio проанализировать степень участия игроков в 5 действиях, предшествующих голу.
Показатель сразу же помог выявить ряд недооцененных игроков – высокое участие в голах, но неожиданно низкие показатели голевых передач и забитых мячей. Но Джесси пошел дальше и показал, как эта простая новая метрика может помочь в первичной подготовке к матчу с «Лос-Анджелес Гэлакси». Например, выяснилось, что степень участия Робби Кина в голах самого опасного на тот момент футболиста лиги Лэндона Донована почти в 5 раз больше, чем у любого другого футболиста. Сдержав одного, обезвреживаешь их связку? Учитывая известность игроков, едва ли самый крутой инсайт, но даже такая процедура может быть полезна при подготовке к менее звездным оппонентам.
Сам показатель, как считает Пакуитт, можно при необходимости сделать еще более полезным: наверняка в футболе как спорте низкой результативности резонно также учитывать участие в явных голевых моментах и попаданиях в каркас; не лишним будет выяснить и насколько оптимально число 5 как количество предшествующий действий и т.д. Это лишь экспресс-пример одного из множества вариантов применения программы, но даже он может быть использован в первичной подготовке к играм и селекции.
Чего ждать от Tag.bio?
Компания сотрудничает далеко не только с «Ромой», но и с командами MLB и NFL, чьи названия не разглашаются. Ковингтон пояснил, что повышенная конфиденциальность – пожелание самих клубов, но заметил: «Они были просто шокированы некоторыми данными о собственной команде и ближайших оппонентах». Пакуитт считает, что система уже доказала пригодность для использования в спорте.
Если все пойдет по плану, то через несколько лет Tag.bio станет любимым приложением всех фанатов Fantasy-лиг, будет генерировать удобные инфографики для болельщиков и СМИ, а автоматизированный анализ станет еще более глубоким. Ближайший приоритет компании – выпуск удобных приложения для iOS и Android. Затем планируется внедрение протоколов для еще большего количества видов спорта и разработка программы, которая смогла бы выдавать основанные на анализе предсказания в онлайн-режиме. А конечной целью остается выход за рамки спорта, в частности разработка новых вариантов применения программы в научных исследованиях – для этих целей уже ищут готовых вложить 1,5 миллиона долларов инвесторов.
Фото: twitter.com/tagbio; Gettyimages.ru/Gonzalo Arroyo Moreno, Stephen Dunn
67 комментариев
Опять же, в тексте описаны конкретные примеры - со связкой Кина и Донована - так вот и это моя программа считает автоматически, причем в более расширенном формате.
К самому продукту у меня есть главный вопрос: как они выдирают данные? Вы знаете, как технически работают аналитические системы в ПЛ (судя по всему) и прекрасно понимаете, что если у людей есть решение по запросу прорабатывать в автоматическом режиме за 20 минут на массиве 5 матчей стату, то это не просто круто, а очень-очень круто.
С той лишь разницей, что здесь оцениваются только результативные атаки (а значит есть возможность охватить достаточно большое количество команд), а я оцениваю потенциально голевые (соответственно, более глубокий анализ действий одной или нескольких команд).
Что касается "предшествующих действий", действительно, доля атак с активным участием 6-7 человек (тут речь, естественно, о передачах, направленных на развитие атаки) очень невелика - для российских команд буквально несколько процентов. Возможно, у условной Барсы будет побольше.
Но при этом и условная цифра 5, которой нужно ограничиться, бессмысленна, потому как из этих пяти в ряде случаев две-три будут "мусорными", направленные на контроль, но никак не на развитие. Поэтому не надо отталкиваться от какой-то абстрактной цифры - надо смотреть на логику атаки, выделяя активную фазу. Иначе в таких измерениях погрешность будет неимоверная.
что там в нём нельзя просчитать - непонятно.
очень напоминает сказочки любителей шахмат об их неимоверной сложности
Если есть много-много данных, пригодных к обработке, то дальше логика понятна: задаем правильный вопрос (как и указано) - получаем вероятностный ответ - делаем выводы.
В реальности "стартаперы" красивыми и модными словами развели римских дурачков на сотни нефти вот и вся история.Как говорится без лоха и жизнь плоха, пока будут жить дураки думающие, что существует волшебная фича, которая поможет десятикратную разницу в бюджетах отыграть, то таким "стартаперам" на икру всегда хватит денег.
Новый статистический показатель... Пффф.. Нет, я, конечно, не гений, не хвастаюсь, но поммнится ещё лет 5-6 назад, сидя в баре, обсуждали с друзьяи схожие мысли - например при анализе паса делали вывод, что пасов может быть 1000, качество их может быть 100%, а толку 0, просто потому, что перекаты назад и поперёк и важно анализировать не общее качество паса, а качество такового в эпизоде, притом не всегда в процентах. Например обостряющие пасы в штрафную с фланга будут изначально иметь меньшее количество и больше процентов брака, но они полезнее для атаки. Или при удержании мяча, важен не процент, важно какое количество подряд, без потерь, способна сделать подряд на участке поля, притом учитывать надо всех участников комбинации и по максимуму задействовать тех, кто к этому сболобен, а на подстраховку убирать тех, кто в этом хуже. Так же есть быстрые выходы из обороны, нагнетание темпа, сбивание темпа. Плюс ещё стоит учитывать не только качество паса, но и качество приёма, т.е. правильность занятой позиции. Говорилось и о том, что есть игроки, у которых не так много результативных действий, но при этом есть много движения, обыгрышей, обострений. Яркий пример на сегодня - Дзагоев, у которого статистика равна статистике Натхо, а пользы заметно больше.
Мне очень странно, что большие клубы так не аккуратно анализировали данные.