Препарация статистики Ковальчука. Часть 2
Этот пост написан пользователем Sports.ru, начать писать может каждый болельщик (сделать это можно здесь).
Модель: Логичным продолжением предыдущей части является демонстрация и объяснение выбранной модели. Благодаря данным полученным ранее, круг сузился до полинома второй степени, вернее до предположения об адекватности упомянутой модели.
Оценка результатов: Слишком маленькая выборка, так же сама структура формирования хоккейных показателей вносят свои негативные коррективы относительно методов статистики. Невероятное кол-во внешних факторов попросту "связывают руки", к тому же полное отсутствие "места для манёвра" лишает возможности в виде подгонки моделей. Невозможно исключать негативно влияющие результаты, а так же с большой допусками применять методы тестирования и проверок. Проще говоря нельзя сказать - Илья, мне не нравится твоя статистика за прошлый сезон, величина слишком большая, поэтому я её исключаю из анализа. Но если бы структура формирования значений была иной, а счёт сезонов, например шёл на сотни, тогда такой подход имел бы смысл. Возможно, в будущем, методы будут специализированы под хоккейную статистику, но на текущий момент это лишь мечты, поэтому приходится работать с тем, что имеем. Об этих и многих других проблемах необходимо помнить при оценке результатов и "диагностике моделей", относительно хоккейной статистки, но углубляться не буду, слишком обширная тема.
R-squared - R-квадрат, он же коэффициент детерминации. Величина указывает насколько тесной является связь между факторами регрессии и зависимой переменной. Идеально около единицы.
Adjusted R-squared - Скорректированный R-квадрат. В данном случае для коррекции R-квадрат при увеличении кол-ва факторов. Добавляет своего рода "штрафы" за дополнительно включённые факторы.
Полученные значения не идеальны. Значения не являются отрицательными, поэтому говорят о том, что удалось избежать крайней неадекватности модели. Так же, даже высокие значения рассматриваются вкупе с другими результатами, к ним и перейдём.
t value и Pr(>|t|). Значения t-статистики - и критерий для него. Автоматический расчёт достаточно малого p-значения в виде "звёздочек". t value и "p", для него достаточно значимы.
F-statistic и p-value для него. Опять же не идеально, для p-value очень малые значения подтверждают истинность нулевой гипотезы. Полученное значение меньше 0,05, что является приемлемым результатом
По результатам можно говорить о неидеальной, но более-менее адекватной модели, оценка адекватности которой на совести исследователя. Не мне судить если у меня совесть, во всяком случае возьму на себя смелость использовать полученные коэффициенты для вычисления недостающего значения заброшенных шайб. Вся необходимая информация для оценки полученных результатов присутствует в прошлой части.
Публиковать продолжение о периоде выступления Ильи Ковальчука в КХЛ точно не буду. Предоставленная информация вполне достаточна для расширения кругозора и получения представлений о способах применения стат.анализа.