Загрузить фотографиюОчиститьCombined ShapeИскать
Блог Злобное ФК

Почему НСС в существующем виде полностью несостоятельна и не может применяться для оценки результатов

Поводом для создания этого анализа послужила дискуссия у меня в статусе. Чтобы развенчать сложившееся мнение о том, что новая  система судейства гораздо более эффективна, чем старая, мне пришлось вспомнить мои университеты.

Создавая НСС, Александр Лакерник опирался на классическую теорию обработки результатов измерений.

Как устанавливается истинное значение некой физической величины, в нашем случае это оценка за прокат фигуриста? Для уменьшения влияния случайных ошибок необходимо произвести измерение данной величины несколько раз, или, переходя в наши исходные – применить независимую оценку одной и той же величины с помощью нескольких судей.

Предположим, что мы измеряем некоторую величину x - сумму баллов за прокат. В результате проведенных измерений мы получили значений величины :

x1, x2, x3, ... xn. (где n = 9 – количество судей)

Этот ряд значений величины x носит название выборки. Имея такую выборку, мы можем дать оценку результата измерений. Величину, которая будет являться такой оценкой, мы обозначим Х с чертой. Но так как это значение оценки результатов измерений не будет представлять собой истинного значения измеряемой величины, необходимо оценить его ошибку. Предположим, что мы сумеем определить оценку ошибки Δx . В таком случае мы можем записать результат измерений в виде

µ = Х(с чертой) ± Δx, где µ - значение измеряемой величины.

Так как оценочные значения результата измерений и ошибки Δx не являются точными, запись  результата измерений должна сопровождаться указанием его надежности P. Под надежностью или доверительной вероятностью понимают вероятность того, что истинное значение измеряемой величины заключено в интервале. Сам этот интервал называется доверительным интервалом.

Например, измеряя несколько раз длину некоторого отрезка, окончательный результат мы записали в виде

l = (8.34 ± 0.02) мм,    (P = 0.95)

Это означает, что из 100 шансов – 95 за то, что истинное значение длины отрезка заключается в интервале от 8.32 до 8.36 мм.

Таким образом, задача заключается в том, чтобы, имея выборку, найти оценку результата измерений , его ошибку Δx и надежность P.

(Надеюсь, что до сих пор всем все было понятно, а дальше тем, кому не понятно, могут сразу перейти вниз, к разделу ДЛЯ ТЕХ, КТО НИЧЕРТА НЕ ПОНЯЛ.)

МАТАААН. Моар матана.

Эта задача может быть решена с помощью теории вероятностей и математической статистики.

В большинстве случаев случайные ошибки подчиняются нормальному закону распределения, установленного Гауссом. Нормальный закон распределения ошибок выражается формулой

где Δx – отклонение от величины истинного значения;

σ – истинная среднеквадратичная ошибка;

σ 2– дисперсия, величина которой характеризует разброс случайных величин. – это очень важная характеристика, запомните ее, мы к ней еще вернемся.

в качестве оценки результатов измерений взять среднее значение всех элементов выборки

где – n число измерений.

Итак, если в одних и тех же условиях проделано n измерений, то наиболее вероятным значением измеряемой величины будет ее среднее значение (арифметическое). Величина стремится к истинному значению μ измеряемой величины при n → ∞.

Средней квадратичной ошибкой отдельного результата измерения называется величина

Она характеризует ошибку каждого отдельного измерения. При n → ∞ S стремится к постоянному пределу σ

σ = lim S при n → ∞

С увеличением σ увеличивается разброс отсчетов, т.е. становится ниже точность измерений.

Среднеквадратичной ошибкой среднего арифметического называется величина

Это фундаментальный закон возрастания точности при росте числа измерений.

Ошибка характеризует точность, с которой получено среднее значение измеренной величины . Итоговый результат таким образом записывается в виде:

 

 

В 1908 году Стьюдент показал, что статистический подход справедлив и при малом числе измерений. Распределение Стьюдента при числе измерений n → ∞ переходит в распределение Гаусса, а при малом числе отличается от него. (а это как раз НАШ случай.)

Для расчета абсолютной ошибки при малом количестве измерений вводится специальный коэффициент, зависящий от надежности P и числа измерений n, называемый коэффициентом Стьюдента t.

Опуская теоретические обоснования его введения, заметим, что

Δx = · t

где Δx – абсолютная ошибка для данной доверительной вероятности; – среднеквадратичная ошибка среднего арифметического.

 

ДЛЯ ТЕХ, КТО НИЧЕРТА НЕ ПОНЯЛ и лень

Приступим к физическому труду.

Для определения мест в турнирной таблице используется округление измеренной величины до сотой доли балла, а это значит, что нам необходимо установить истинное значение суммы баллов за прокат с достоверностью не менее 10% от 0,01 балла, что равно 0,001 балла.

Так и поступим.

Сделаем выборку результатов короткой программы мужчин на чемпионате мира в Хельсинки. Возьмем измерение по одному из фигуристов (здесь приведен пример с оценками Бояна, но вы можете взять любого другого, кто вам больше нравится).

По формуле  = сумма всех баллов / 9. определяем среднее значение для 9 судей, которое используется для выставления баллов за турнир в соответствии с Гауссовым распредением, описанным выше:

  = 98,81 балл. (среднее арифметическое)

Ищем погрешности каждого измерения. И заодно сразу считаем их квадрат (Δx 1)2, (Δx 2)2, ... , (Δx n)2.

 

Δx1 = 98,81-96,23 = 2,58     (6,6564)

Δx2 = 98,81-95,73 =3,08      (9,4864)

Δx3 = 98,81-102,32 = -3,51  (12,3201)

Δx4 = 98,81-97,48 =1,33      (1,7689)

Δx5 = 98,81-96,23 =2,58      (6,6564)

Δx6 = 98,81-98,23 =0,58      (0,3364)

Δx7 = 98,81-98,73 =0,08      (0,0064)

Δx8 = 98,81-99,48 = -0,67    (0,4489)

Δx9 = 98,81-104,98 = -6,17   (38,0689)

Определим среднеквадратичную ошибку среднего арифметического

СКВ = 75,7488 / 9(9-1) = 1,05207 балла

Задаем значение надежности результата Р по распределению Стьюдента, например в 95% случаев мы хотим знать правду. P = 0.95.

Коэффициент Стьюдента t для заданной надежности P взят из таблицы

(для девяти измерений и Р= 0,95 он равен 2,306)

Найдем доверительный интервал  (погрешность измерения)

Δx =  · t. =2,306*1,05207= 2,4261 балла.

 

ЧТО ЭТО ОЗНАЧАЕТ В ФИЗИЧЕСКОМ СМЫСЛЕ?

То, что используя данную систему оценивания мы можем знать сумму за прокат с достоверностью 98,81 (+-) 2,4261 баллов.

Однако нам нужна была точность 0,001 балл, потому что именно сотые доли балла решают, кто будет на первом месте, а кто на втором и третьем.

 

КАК БЫТЬ?

Решения:

1. На несколько порядков (на три-четыре) уменьшить дисперсию результатов σ 2

Что оказывает влияние на дисперсию результатов?

Человеческий фактор и несовершенство математического аппарата, субьективизм судей, которые оперируют фальсифицируемыми критериями оценивания (GOE и компоненты). Шкалу GOE нужно радикально сократить, коэффициент компонентов на несколько порядков уменьшить.

2. Увеличить величину выборки. Я говорю о судьях. Для выборки от 30 до 50 распределение ошибок по методу Гаусса дает лучшие результаты и значения получаются более достоверными. Таким образом, нужно увеличить число судей до 50, возможно судейство в фигурном катании должно иметь форму массового голосования. Над этим нужно подумать

3. В разы пересмотреть стоимость элементов, для того чтобы погрешность, вносимая субъективными факторами, стала пренебрежимо мала.

4 Внести среднюю квадратическую ошибку в результаты и определять итоговое положение с точностью проведенного анализа. Округлять результаты до предела этой точности (в данный момент это около 3 баллов и выше).

 

ПОЧЕМУ ГРЯДУЩИЕ ИЗМЕНЕНИЯ В СИСТЕМЕ ОЦЕНИВАНИЯ НОСЯТ ПРЯМО ПРОТИВОПОЛОЖНЫЙ ХАРАКТЕР (увеличение шкалы ГОЕ)?

Потому что создавая данный математический аппарат Александр Лакерник, будучи математиком, прекрасно осведомленным о том, что он не состоятелен, не преследовал (и не преследует до сих пор) цель дать фигурному катанию эффективный инструмент для выяснения истины, а занимался решением совсем других задач. Каких именно – предоставляю каждому прийти к своему собственному выводу.

С уважением, Великий маг Загайнов.

 

 

 

 

КОММЕНТАРИИ

Комментарии модерируются. Пишите корректно и дружелюбно.

Лучшие материалы