logo
Анализ поведения финансовых индексов с помощью методов математической статистики на примере курса Центрального банка валютной пары евро/рубль

1.3 Выявление грубых ошибок в выборке. Исключение аномальных значений

Методы робастного оценивания - это статистические методы, которые позволяют получать достаточно надежные оценки статистической совокупности(См.[6]).

Единицы статистической совокупности, у которых значения анализируемого признака существенно отклоняются от основного массива, называются аномальными явлениями, «грубыми ошибками» или выбросами.

При решении задач статистического анализа проблема наличия в выборке аномальных измерений имеет чрезвычайно важное значение. Присутствие единственного аномального наблюдения может приводить к оценкам, которые совершенно не согласуются с выборочными данными.

Для данных индексов построим точечный график (Рисунок 7). В ходе визуального анализа выявляем наличие в выборке аномальных значений (выбросов).

Рисунок 7. Точечный график

Самым простым методом обнаружения грубых ошибок считается метод, на основании Т - Критерия Граббса:

, где (1.4)

- среднее значение, x - аномальное значение, s - выборочное среднеквадратическое отклонение СВ.

Данный критерий можно использовать для выделения аномальных результатов измерений только в случае нормального закона.

Так как выборка распределена нормально, мы можем найти Тк, и проверить наличие грубых ошибок в выборке.

Результаты расчетов по выборке представлены на Рисунке 8:

Рисунок 8.Результаты вычисления

Полученные значения сравнивают с табличными значениями процентных точек критерия Смирнова Граббса (Таблица 1). В том случае, если >, мы может утверждать, что проверяемое значение является грубой ошибкой и относится к классу выбросов.

Таблица 1. Значения процентных точек критерия Смирнова Граббса

0.99

0.95

30

0.4257

0.4791

31

0.4376

0.4885

32

0.4477

0.4995

33

0.4558

0.5099

34

0.4688

0.5189

35

0.4779

0.5285

36

0.4874

0.5374

37

0.4970

0.5459

38

0.5048

0.5540

39

0.5145

0.5617

40

0.5211

0.5692

41

0.5307

0.5767

42

0.5385

0.5835

43

0.5450

0.5902

44

0.5522

0.5970

45

0.5599

0.6033

46

0.5675

0.6090

47

0.5742

0.6154

48

0.5789

0.6211

49

0.5861

0.6270

50

0.5910

0.6324

Сравним полученные значения с табличным (при = 0,01) при числе наблюдений равном 48, а Ткр = 0,5789.

Так как Тк(1) =1,9> = 0,5789, то проверяемое значение является грубой ошибкой и относится к классу выбросов.

Аналогично Тк(2) =3,33> = 0,5789, что подтверждает, что рассматриваемое значение является аномальным значением.

Критерий Граббса имеет некоторые недостатки. Он не точен, и не чувствителен к засорениям, когда ошибки группируются на расстоянии от общей совокупности.

Далее подтвердим наличие грубых ошибок на основании L- критерия Титьена-Мура (См.[9]).

Решающее правило для исключения k наибольших членов вариационного ряда основано на статистике:

, где (1.5)

Воспользовавшись формулами, было найдено значение L-критерия Титьена-Мура для рассматриваемой выборки (Рисунок 9)

Рисунок 9. Значение L-критерия Титьена-Мура

Сравниваем полученное значение с критическим пределом (Таблица 2). При наличии выбросов статистика Lk должна быть меньше критического предела. В данном случае Lk = 0,67887 <Cкр = 0,696, что подтверждает наличие аномальных значений в выборке (См.[9]).

Таблица 2. Критические значения оценки для L - критерия Титьена и Мура (a=0,05)

Для избавления от выбросов изменим данные доходностей, исключим значение 0,076594461 и -0,125593848, что приведет к нормальному распределению.

Гистограмма при этом теперь имеет вид (Рисунок 10):

Рисунок 10.Гистограмма