Динамика средних показателей в НБА или почему так сложно сравнивать игроков из разных эпох
В НБА очень любят сравнивать игроков из разных временных эпох. И каждый раз сделать это очень тяжело. Кто-то говорит, о том, что раньше медицина была хуже, перелеты опаснее, а сама игра быстрее/медленнее (нужное подчеркнуть в зависимости от эпохи). Этот материал призван осветить еще одну точку зрению на эту ситуацию со стороны математической статистики и средней температуры по больнице. Идея возникла после прочтения вот этого материала - http://www.sports.ru/tribuna/blogs/antarktida/1039302.html
Методика подсчета очень проста. Средняя результативность в НБА со временем менялась: в 60х в среднем команда могла забивать около 110 очков и подбирать сумасшедшее количество подборов - например - 73.3 подбора в среднем в сезоне 1960-1961, тогда как в засушливую середину 2000х - всего лишь около 100 очков и около 42 подборов в среднем за игру.
Было введено допущение, что среднее количество очков за матч равно арифметическому среднему за все сезоны лиги с 1946 года, и составляет примерно 102 очка за матч, среднее количество подборов - 46.7, а среднее количество передач - 22.4 . Затем с помощью пропорций были подтянуты основные показатели игроков за все сезоны.
Конечно, такой механический пересчет небезгрешен (учитывается среднее, а не, например, медиана), но зато прост по смыслу и общие тенденции так или иначе отражает. Так например, лидер по количеству набранных очков за всю карьеру - Карим Абдул-Джаббар играл в сезоны со средним равным 108.8, что намного превосходит средние показатели за всю историю лиги. Да, внимательный читатель может сказать, что среднее в период Карима была таковым во многом из за того, что и сам Карим был уникален и набирал настолько много, что сдвигал среднее, ну что ж, с таким допущением придется пока смирится.
Как это работает? Посмотрим на примере Карима. Для каждого сезона в котором он играл известно среднее количество набранных очков для всей лиги, например, для 1971-1972 это 110.2, число сыгранных игр во всем сезоне - 697, значит всего было набрано около 76809 очков за сезон, из них Карим набрал - 2822. Это составляет 3.67% от общего числа. Однако для усредненной модели сезона с результативностью в 102 очка - Карим должен был набрать 3.67% * 102 * 697 и это составляет около 2613 очков, которые мы и учитываем. Подсчитав статистику для всех сезонов, мы можем сложить ее и получить сумму за всю карьеру.
Наверняка кто то из игроков отсутствует (но я надеюсь, что они все находятся за границами Топ-25), потому что времени на анализ всех игроков, когда либо игравших в лиге, не хватило и пришлось ограничиться самыми известными, участниками Зала Славы и прочими такими же.
Рассмотрим топ-25 по количеству набранных очков уже по новой системе
Как мы видим, Карим Абдул-Джабар потерял очень много очков в связи с тем, что играл в результативную эпоху и уступил пальму первенства "Почтальону", а завершивший в этом сезоне карьеру Кобе Брайнт так и остался на третьем месте, но до второго места ему не хватило всего 600.
Проделаем такое же упражнение для подборов
И для передач:
Какие выводы можно сделать из этого исследования? Сравнивать эпохи очень сложно, ведь даже такой казалось бы математический подход не избавляет нас от кучи проблем будь то разница в подходе к самой игре, разница в инфраструктуре и качестве жизни. Так же, очень часто характеристики именно игроков прошлого заметно падают, после пересчета их статистик относительно среднего сезона НБА.
В дальнейших планах попробовать подсчитать другие числовые характеристики игроков, а так же попробовать заменить среднее на медиану и/или пытаться высчитать среднее для сезона без учета игрока для которого мы это исправленное значение подсчитываем (это позволит более корректно оценить крутость игрока в масштабах эпохи)
P.S. Все данные были подсчитаны с помощью технологии Apache Spark и конкретно бесплатной ее реализации на https://community.cloud.databricks.com/. В качестве источника данных использовался сайт - http://www.basketball-reference.com/
Для особо любопытных есть веб версия отчета - где можно будет покликать на графики, подвигать их, и вообще немного интерактивно поработать с данными - https://databricks-prod-cloudfront.cloud.databricks.com/public/4027ec902e239c93eaaa8714f173bcfc/5419907673756956/3303913894427681/6715794329776633/latest.html
P.P.S. Отдельное дополнительное спасибо за вот этот пост - http://www.sports.ru/tribuna/blogs/antarktida/1039302.html. Спасибо Александру Балабанову за создание того поста и конечно же автору RadMarchand97 с сайта https://www.reddit.com/
По поводу матчей проведенных конкретно игроком - они не учитываются, потому что неявным образом они спрятаны в тотале за сезон
Но есть пара нюансов, которые позволяют "реабилитировать" (в кавычках, потому что ни в какой защите они не нуждаются) звезд 60-70-х, на фоне последующих эпох. Чемберлен и Рассэлл играли по 47-48 минут (Уилт даже выдал за сезон 48,5!), современные звезды такой темп просто не выдержат.
Во-2-х, сегодняшние звезды приходят в лигу, когда им по 18-19 лет и имеют гандикап в три-четыре сезона.
Я только не понял, учитывается ли количество игр, проведенных условным Каримом за сезон, или считается, что он сыграл во всех прописанных в календаре?
"Было введено допущение, что среднее количество очков за матч равно арифметическому среднему за все сезоны лиги с 1946 года, и составляет примерно 102 очка за матч, среднее количество подборов - 46.7, а среднее количество передач - 22.4 . Затем с помощью пропорций были подтянуты основные показатели игроков за все сезоны."
- Куда правильнее было бы найти среднее количество очков/подборов/передач (для команд) в каждом из сезонов, потом разделить среднее количество очков/подборов/передач интересующих игроков в конкретных сезонах на среднее количество очков/подборов/передач команд в этом конкретном сезоне, а затем умножить результат на арифметическое среднее очков/подборов/передач команд за все сезоны.
Хотя еще правильнее было бы корректировать результат игроков не только по тому как много набирали/подбирали/ассистировали в среднем в том или ином сезоне, но и по темпу игры той команды, в которой играл искомый игрок в искомом сезоне. Очевидно, что если ты играешь скажем за медленный вязкий Мемфис, то набирать много очков/передач/подборов сложнее, чем если ты играешь допустим за летучий ГСВ, потому что в ГСВ у тебя будет больше владений. Так что хорошо бы после предыдущих манипуляций с числами еще разделить результат на темп команды в этот сезон, а потом умножить его на средний темп по лиге в этом сезоне.