16 августа 2018, 14:16

Препарация статистики Ковальчука. Часть 2

Этот пост написан пользователем Sports.ru, начать писать может каждый болельщик (сделать это можно здесь).

Модель: Логичным продолжением предыдущей части является демонстрация и объяснение выбранной модели. Благодаря данным полученным ранее, круг сузился до полинома второй степени, вернее до предположения об адекватности упомянутой модели.

Оценка результатов: Слишком маленькая выборка, так же сама структура формирования хоккейных показателей вносят свои негативные коррективы относительно методов статистики. Невероятное кол-во внешних факторов попросту "связывают руки", к тому же полное отсутствие "места для манёвра" лишает возможности в виде подгонки моделей. Невозможно исключать негативно влияющие результаты, а так же с большой допусками применять методы тестирования и проверок. Проще говоря нельзя сказать - Илья, мне не нравится твоя статистика за прошлый сезон, величина слишком большая, поэтому я её исключаю из анализа. Но если бы структура формирования значений была иной, а счёт сезонов, например шёл на сотни, тогда такой подход имел бы смысл. Возможно, в будущем, методы будут специализированы под хоккейную статистику, но на текущий момент это лишь мечты, поэтому приходится работать с тем, что имеем. Об этих и многих других проблемах необходимо помнить при оценке результатов и "диагностике моделей", относительно хоккейной статистки, но углубляться не буду, слишком обширная тема.

Загружаю...

R-squared - R-квадрат, он же коэффициент детерминации. Величина указывает насколько тесной является связь между факторами регрессии и зависимой переменной. Идеально около единицы.

Adjusted R-squared - Скорректированный R-квадрат. В данном случае для коррекции R-квадрат при увеличении кол-ва факторов. Добавляет своего рода "штрафы" за дополнительно включённые факторы.

Полученные значения не идеальны. Значения не являются отрицательными, поэтому говорят о том, что удалось избежать крайней неадекватности модели. Так же, даже высокие значения рассматриваются вкупе с другими результатами, к ним и перейдём.

t value и Pr(>|t|). Значения t-статистики - и критерий для него. Автоматический расчёт достаточно малого p-значения в виде "звёздочек". t value и "p", для него достаточно значимы.

F-statistic и p-value для него. Опять же не идеально, для p-value очень малые значения подтверждают истинность нулевой гипотезы. Полученное значение меньше 0,05, что является приемлемым результатом

По результатам можно говорить о неидеальной, но более-менее адекватной модели, оценка адекватности которой на совести исследователя. Не мне судить если у меня совесть, во всяком случае возьму на себя смелость использовать полученные коэффициенты для вычисления недостающего значения заброшенных шайб. Вся необходимая информация для оценки полученных результатов присутствует в прошлой части.

Загружаю...

Публиковать продолжение о периоде выступления Ильи Ковальчука в КХЛ точно не буду. Предоставленная информация вполне достаточна для расширения кругозора и получения представлений о способах применения стат.анализа.

Автор akuna

Этот пост опубликован в блоге на Трибуне Sports.ru. Присоединяйтесь к крупнейшему сообществу спортивных болельщиков!

Другие посты блога

Хоккей

Егор Параскун

1. Верни пикчи в первую часть 2. Структурируй текст, больше похоже на бессвязный поток сознания. 3. Не хочешь помимо цифр и моделей дать понятное объснение? Широкая аудитория в такое не умеет, даже с каким-то базовым набором знаний пришлось сидеть и долго разбираться что ты хотел показать. А так больше похоже на "я тут посчитал, разбирайтесь". Неувожение, однако. 4. Я так и не понял чем твои выкладки лучше того же Corsi, сорян.

17 августа 2018, 09:04

Ответить

Томас Бертольд

В блоге всего два текста. Думаю, надо поддержать автора:) На спортсе появляются интересные НХЛовские авторы, но вот с продвинутой аналитикой пока все не так хорошо. Если автор будет прогрессировать - кто знает, может и получится что-то интересное. Если владеете инглишем, почитайте западные блоги о продвинутой стате, поможет в развитии. Успехов

20 августа 2018, 07:54

стасик знарок

Автор, спасибо) оба поста интересны. И такой вопрос, какие программы использовал для своих подсчётов?

16 августа 2018, 14:44