Препарация статистики Ковальчука. Часть 1

Этот пост написан пользователем Sports.ru, начать писать может каждый болельщик (сделать это можно здесь).

Предисловие: Современный хоккей  в результате функционирования генерирует огромные объёмы данных отслеживать которые не под силу никому. Возникает необходимость в  инструментах анализа обеспечивающих сравнительные величины и методы автоматизации или полуавтоматизации рутинных задач.

К своему стыду обнаружил огромное количество белых пятен в НХЛ, на борьбу с которыми и посвятил свободное время. Результативность нападающих — один из важнейших критериев, естественно ему было уделено достаточно внимания с моей стороны. Относительно быстро удавалось формировать недостающие  компоненты пока не столкнулся со статистикой Ковальчука...

 Развитие его карьеры, как следствие статистика, не совсем типичны, что в свою очередь поставило передо мной несколько задач. Пожалуй, более всего меня заинтересовали тенденции, и, может быть, попытки прогнозирования результативности.

 Подготовка: Первым делом понадобилась таблица с данными. Беглый осмотр выявил целый ряд проблем, масштабы которых понятны при некотором опыте.

Загружаю...

Первые проблемы: Не существует методов сравнения данных между лигами. Не полные сезоны потребуют получения расчётных значений относительно предыдущих и номинальных значений для последующих аналитических проверок.

С помощью описательной статистики были получены первичные  данные. На следующей таблице остановлюсь подробнее.

Данные по статистике за 11  сезонов в НХЛ.  Предварительные выводы. AVG,MED Высокий средний уровень на протяжении всей карьеры. За последние 3 сезона НХЛ Рубикон в 40 шайб преодолели 14 игроков и только Овечкин сделал это дважды. То есть средний уровень Ковальчука соответствует элитным показателям, которые демонстрируются не каждый сезон. Ещё один  очень удобный и информативный показатель процент вариации - k%.  Естественно, результативность игроков варьируется по сезонам, k% позволяет быстро получать информацию об однородности(стабильности) данных. В случае Ковальчука стабильность достаточно высока, а это, признак сами знаете чего.

Загружаю...

Локаутный сезон 2012-2013 вносит погрешности и искажение данных, поэтому я дублировал таблицу для наглядности. Следующим шагом стала подобная таблица  для кол-ва игр в сезоне.

Несмотря на высокую однородность данных и "среднюю" игр относительно максимума в сезоне, возможно сделать вывод о том что Ковальчук не из тех кого называют — железный человек. Наблюдение позволяет говорить о способности проводить большое кол-во игр, но не их максимум. Понадобится так же получить расчётное значение GP 2012-2013гг. 

Напоследок для сбора первичной информации осталось сделать диаграмму результативности для первичной визуальной оценки "тренда".

Результативность последовательно росла с началом карьеры, на 4, 6 сезоны(2006,2008) пришлись экстремумы, после чего начался плавный спад... Сезон 2011-12 года в NJ несколько выбивается из тенденции, последующий, как упоминалось ранее был проведён не полностью. Меня заинтересовал вопрос насколько актуален тренд спада результатов к моменту перехода Ковальчука в СКА.

Нострадалус Пришло время заняться предсказаниями. Итак, первичные данные получены, контуры проблем очерчены, представления сформированы, а воз и ныне там... Для начала необходимо получить каким-либо методом значение кол-ва игр сезона 2012-13, если бы не было локаута.

Загружаю...

Благодаря данным описательной статистики и первичным выводам задача подсчета GP не выглядит сложной. Экспоненциальное сглаживание позволяет корректировать каждое последующее значение в зависимости от предыдущих. В свою очередь, предыдущие значения используются в виде "интервала сглаживания" и как "средняя". Процент вариации, а так же отклонения данных от средней стабильны и без "выбросов", что позволяет делать выводы о приемлемости выбранного метода. 

На самом деле не всё так сложно как кажется из-за терминологии, да и ваш покорный слуга заботливо собрал всё необходимое в таблицу и предоставил результат. Осталось посмотреть что же получилось.

А что если попробовать так же экстраполировать значение G(заброшенные шайбы)? 

Полученный результат - 38 шайб. AVG  интервала сглаживания, и что более важно результативность сезона 2012, та самая, которая выбивалась из предположение о "тренде спада"  сказались на полученном значении. Относительно AVG 11 реально забитых шайб и AVG  полученного расчётного значения GP из предыдущей таблицы, возможно говорить о ~23 шайбах. Слишком большое расхождение. Тот самый случай когда необходимо искать более точные модели для тенденции. Так же реальная результативность 2012 говорит о невероятном для уровня Ковальчука спаде. Фактически он из игрока элитного уровня скатывался к 23 шайбам за сезон, для многих такой результат будет успехом, но не в этом случае. Уже на данном этапе следует вывод, о возвращении Ковальчука в КХЛ на регрессе, осталось только попытаться  дать ответ насколько серьёзен был спад и по данных выступлений в КХЛ, сделать заключение были ли преодолены проблемы и как развивались  события.

Загружаю...

Суммируя результат проделанной работы на этом моменте я решил остановиться. Название абзаца как нельзя лучше отражает его суть. Пошаговое последовательное изложение, "срезание углов" и более-менее "кошерное" форматирование -  не такая уж простая задача, а компиляция из гораздо больших объёмов. В дальнейшем же было много интересного и не совсем удачного... Не принял решение стоит ли публиковать продолжение,  развитие событий будет зависеть от реакции прочитавших, а возможно  и её отсутствии.

Этот пост опубликован в блоге на Трибуне Sports.ru. Присоединяйтесь к крупнейшему сообществу спортивных болельщиков!
Другие посты блога
Хоккей
Популярные комментарии
iron_m
,,,,,,,,,,,,,,, Пожалуйста, расставьте предоставленные мною запятые по тексту. А заодно верните картинки на место))
Сергей Мазур
Дико извиняюсь за глупый вопрос: цель сего трактата заключалась в прогнозировании результативности Ковальчука в предстоящем сезоне? Если так, тогда как Вы решаете проблему разных составов в разных звеньях в разных командах, в которых Ковальчук играл и будет играть в ближайший год? Ведь партнёры по звену оказывают сильное влияние на итоговую статистику игрока. И да, вот ещё от меня набор знаков (? ; , , - !)
akuna
Странно. У меня не было проблем с отображением изображений. Перезалил всё на радикал. 
Ответ на комментарий Владимир Шабанов
Огромное спасибо за труды, такие материалы - это всегда интересно. Как жаль, что я нашел Вашу статью уже тогда, когда картинки в ней перестали отображаться( Было бы интересно почитать ее целиком, вместе с диаграммами, если есть такая возможность.
Еще 3 комментария
6 комментариев Написать комментарий