Препарация статистики Ковальчука. Часть 1
Предисловие: Современный хоккей в результате функционирования генерирует огромные объёмы данных отслеживать которые не под силу никому. Возникает необходимость в инструментах анализа обеспечивающих сравнительные величины и методы автоматизации или полуавтоматизации рутинных задач.
К своему стыду обнаружил огромное количество белых пятен в НХЛ, на борьбу с которыми и посвятил свободное время. Результативность нападающих — один из важнейших критериев, естественно ему было уделено достаточно внимания с моей стороны. Относительно быстро удавалось формировать недостающие компоненты пока не столкнулся со статистикой Ковальчука...
Развитие его карьеры, как следствие статистика, не совсем типичны, что в свою очередь поставило передо мной несколько задач. Пожалуй, более всего меня заинтересовали тенденции, и, может быть, попытки прогнозирования результативности.
Подготовка: Первым делом понадобилась таблица с данными. Беглый осмотр выявил целый ряд проблем, масштабы которых понятны при некотором опыте.
Первые проблемы: Не существует методов сравнения данных между лигами. Не полные сезоны потребуют получения расчётных значений относительно предыдущих и номинальных значений для последующих аналитических проверок.
С помощью описательной статистики были получены первичные данные. На следующей таблице остановлюсь подробнее.
Данные по статистике за 11 сезонов в НХЛ. Предварительные выводы. AVG,MED Высокий средний уровень на протяжении всей карьеры. За последние 3 сезона НХЛ Рубикон в 40 шайб преодолели 14 игроков и только Овечкин сделал это дважды. То есть средний уровень Ковальчука соответствует элитным показателям, которые демонстрируются не каждый сезон. Ещё один очень удобный и информативный показатель процент вариации - k%. Естественно, результативность игроков варьируется по сезонам, k% позволяет быстро получать информацию об однородности(стабильности) данных. В случае Ковальчука стабильность достаточно высока, а это, признак сами знаете чего.
Локаутный сезон 2012-2013 вносит погрешности и искажение данных, поэтому я дублировал таблицу для наглядности. Следующим шагом стала подобная таблица для кол-ва игр в сезоне.
Несмотря на высокую однородность данных и "среднюю" игр относительно максимума в сезоне, возможно сделать вывод о том что Ковальчук не из тех кого называют — железный человек. Наблюдение позволяет говорить о способности проводить большое кол-во игр, но не их максимум. Понадобится так же получить расчётное значение GP 2012-2013гг.
Напоследок для сбора первичной информации осталось сделать диаграмму результативности для первичной визуальной оценки "тренда".
Результативность последовательно росла с началом карьеры, на 4, 6 сезоны(2006,2008) пришлись экстремумы, после чего начался плавный спад... Сезон 2011-12 года в NJ несколько выбивается из тенденции, последующий, как упоминалось ранее был проведён не полностью. Меня заинтересовал вопрос насколько актуален тренд спада результатов к моменту перехода Ковальчука в СКА.
Нострадалус: Пришло время заняться предсказаниями. Итак, первичные данные получены, контуры проблем очерчены, представления сформированы, а воз и ныне там... Для начала необходимо получить каким-либо методом значение кол-ва игр сезона 2012-13, если бы не было локаута.
Благодаря данным описательной статистики и первичным выводам задача подсчета GP не выглядит сложной. Экспоненциальное сглаживание позволяет корректировать каждое последующее значение в зависимости от предыдущих. В свою очередь, предыдущие значения используются в виде "интервала сглаживания" и как "средняя". Процент вариации, а так же отклонения данных от средней стабильны и без "выбросов", что позволяет делать выводы о приемлемости выбранного метода.
На самом деле не всё так сложно как кажется из-за терминологии, да и ваш покорный слуга заботливо собрал всё необходимое в таблицу и предоставил результат. Осталось посмотреть что же получилось.
А что если попробовать так же экстраполировать значение G(заброшенные шайбы)?
Полученный результат - 38 шайб. AVG интервала сглаживания, и что более важно результативность сезона 2012, та самая, которая выбивалась из предположение о "тренде спада" сказались на полученном значении. Относительно AVG 11 реально забитых шайб и AVG полученного расчётного значения GP из предыдущей таблицы, возможно говорить о ~23 шайбах. Слишком большое расхождение. Тот самый случай когда необходимо искать более точные модели для тенденции. Так же реальная результативность 2012 говорит о невероятном для уровня Ковальчука спаде. Фактически он из игрока элитного уровня скатывался к 23 шайбам за сезон, для многих такой результат будет успехом, но не в этом случае. Уже на данном этапе следует вывод, о возвращении Ковальчука в КХЛ на регрессе, осталось только попытаться дать ответ насколько серьёзен был спад и по данных выступлений в КХЛ, сделать заключение были ли преодолены проблемы и как развивались события.
Суммируя результат проделанной работы на этом моменте я решил остановиться. Название абзаца как нельзя лучше отражает его суть. Пошаговое последовательное изложение, "срезание углов" и более-менее "кошерное" форматирование - не такая уж простая задача, а компиляция из гораздо больших объёмов. В дальнейшем же было много интересного и не совсем удачного... Не принял решение стоит ли публиковать продолжение, развитие событий будет зависеть от реакции прочитавших, а возможно и её отсутствии.
И да, вот ещё от меня набор знаков (? ; , , - !)
Как жаль, что я нашел Вашу статью уже тогда, когда картинки в ней перестали отображаться( Было бы интересно почитать ее целиком, вместе с диаграммами, если есть такая возможность.