logo
Использование критериев согласия

5. Критерии для проверки случайности и оценки резко выделяющихся наблюдений

Довольно часто данные получают сериями во времени или пространстве. Например, в процессе проведения психофизиологических экспериментов, которые могут длиться несколько часов, несколько десятков или сотен раз, измеряется латентный (скрытый период) реакции на предъявляемый зрительный стимул, или в географических обследованиях, когда на площадках, расположенных в определенных местах, например, вдоль опушки леса, подсчитывается число растений некоторого вида и т.д. С другой стороны, при вычислении различных статистик предполагается, что исходные данные независимы и одинаково распределены. Поэтому интерес представляет проверка этого предположений.

Сначала рассмотрим критерий для проверки нулевой гипотезы о независимости одинаково нормально распределенных величин. Таким образом, этот критерий является параметрическим. Он основан на расчете среднего квадратов последовательных разностей

. (28)

Если ввести новую статистику , то, как известно из теории, при справедливости нулевой гипотезы статистика

(29)

для n>10 распределена асимптотически по стандартному нормальному распределению.

Рассмотрим пример. Приведены времена реакции () испытуемого в одном из психофизиологических экспериментов.

Имеем: откуда

Так как для =0,05 критическое значение равно 1,96, нулевая гипотеза о независимости полученного ряда принимается с выбранным уровнем значимости.

Другой вопрос, который часто возникает при анализе экспериментальных данных состоит в том, что делать с некоторыми наблюдениями, которые резко отличаются от основной массы наблюдений. Такие резко выделяющиеся наблюдения могу возникнуть при методических ошибках, ошибках вычислений и т.д. Во всех тех случаях, когда экспериментатору известно, что в наблюдение вкралась ошибка, он должен исключать это значение независимо от его величины. В других случаях существует только подозрение на ошибку, и тогда необходимо использовать соответствующие критерии, с тем чтобы принять то или иное решение, т.е. исключить или оставить резко выделяющиеся наблюдения.

В общем случае вопрос ставится так: произведены ли наблюдения над одной и той же генеральной совокупностью или некоторая часть или отдельные значения относятся к другой генеральной совокупности?

Конечно, единственным надежным способом для исключения отдельных наблюдений является тщательное изучение условий, при которых эти наблюдения получены. Если по каким-то причинам условия отличались от стандартных, то наблюдения должны быть исключены из дальнейшего анализа. Но в определенных случаях имеющиеся критерии, хотя и несовершенные, могут оказать существенную пользу.

Мы приведем здесь без доказательства несколько соотношений, которые могут быть использованы для проверки гипотезы о том, что наблюдения производятся случайно над одной и той же генеральной совокупностью. Имеем

(30)

(31)

( 32)

где - подозреваемое на “выброс” наблюдение. Если все значения ряда проранжировать, то в нем резко выделяющееся наблюдение будет занимать n-е место.

Для статистики (30) протабулирована функция распределения. Приведены критические точки этого распределения для некоторых n.

Критическими значениями для статистики (31) в зависимости от n являются

=4,0; 6<n<100.

=4,5; 100<n<1000.

=5,0; n>1000.

В формуле (31) предполагается, что и вычисляются без учета подозреваемого наблюдения.

Со статистикой (32) дело обстоит сложнее. Для нее показано, что в случае, если распределены равномерно, то математическое ожидание и дисперсия имеют вид:

Критическую область образуют малые значения , которые соответствуют большим значениям . Если интересует проверка на “выброс” наименьшего значения , то сначала преобразуют данные, чтобы они имели равномерное распределение на интервале , а затем берут дополнение этих равномерных величин до 1 и проверяют по формуле (32).

Рассмотрим использование приведенных критериев для следующего проранжированного ряда наблюдений: 3,4,5,5,6,7,8,9,9,10,11,17. Необходимо решить, следует ли отвергнуть наибольшее значение 17.

Имеем: По формуле (30) =(17-11)/3,81=1,57, и нулевая гипотеза должна быть принята при =0,01. По формуле (31) =(17-7,0)/2,61=3,83, и нулевая гипотеза также должна быть принята. Для использования третьего критерия найдем =5,53, тогда