logo
Доверительный интервал, доверительная вероятность

2.2 Генеральная совокупность.

Генеральной совокупностью называется множество всех возможных значений или реализаций исследуемой случайной величины при данном реальном комплексе условий.

Выборкой называют часть генеральной совокупности, отобранную для изучения.

Изучение всей генеральной совокупности во многих случаях либо невозможно, либо нецелесообразно в силу больших материальных затрат, поэтому на практике часто приходится иметь дело с выборками небольшого объема п<10-20. В этом случае используемый обычно метод построения интервальной оценки для генеральной средней (среднего арифметического генеральной совокупности) и генеральной доли (доли элементов, обладающих необходимым признаком) неприменим в силу двух обстоятельств:

1) необоснованным становится вывод о нормальном законе распределения выборочных средней  и доли w, так как он основан на центральной предельной теореме при больших п;

2) необоснованной становится замена неизвестных генеральной дисперсии у2 и доли р их точечными оценками (или ) или w, так как в силу закона больших чисел (состоятельности оценок) эта замена возможна лишь при больших п [4].

2.2.1 Построение доверительного интервала для генеральной

средней по малой выборке.

Задача построения доверительного интервала для генеральной средней может быть решена, если в генеральной совокупности рассматриваемый признак имеет нормальное распределение.

Теорема. Если признак (случайная величина) X имеет нормальный закон распределения с параметрами ,  x2 = 2, т.е. , то выборочная средняя   при любом n имеет нормальный закон распределения

Если в случае больших выборок из любых генеральных совокупностей нормальность распределения  обусловливалась суммированием большого числа одинаково распределенных случайных величин /n (теорема Ляпунова),   то в случае малых выборок, полученных из нормальной генеральной совокупности, нормальность распределения вытекает из того, что распределение суммы (композиция) любого числа нормально распределенных случайных величин имеет нормальное распределение. Формулы числовых характеристик для    получены ранее.

Таким образом, если бы была известна генеральная дисперсия , то доверительный интервал можно было бы построить аналогично изложенному выше и при малых n. Заметим, что в этом случае нормированное отклонение выборочной средней имеет стандартное нормальное распределение N(0; 1), т.е. нормальное распределение с математическим ожиданием, равным нулю, и дисперсией, равной единице.

Действительно, используя свойства математического ожидания и дисперсии, получим, что

,

.

Однако на практике почти всегда генеральная дисперсия (как и оцениваемая генеральная средняя ) неизвестна. Если заменить ее «наилучшей» оценкой по выборке, а именно «исправленной» выборочной дисперсией , то большой интерес  представляет  распределение  выборочной   характеристики (статистики)  или с учетом малой выборки, распределение статистики .

Представим статистику t в виде:

"right"> . (8)

Числитель выражения (8) имеет стандартное нормальное распределение N(0; 1). Можно показать, что случайная величина  имеет -распределение с н = n - 1 степенями свободы. Следовательно, статистика t имеет t-распределение Стьюдента с н=п - 1 степенями свободы. Указанное распределение не зависит от неизвестных параметров распределения случайной величины X, а зависит лишь от числа н, называемого числом степеней свободы.

Выше отмечено, что t-распределение Стьюдента напоминает нормальное распределение, и действительно при н >?  как угодно близко приближается к нему.

Число степеней свободы к определяется как общее число n наблюдений (вариантов) случайной величины X минус число уравнений l, связывающих эти наблюдения, т.е.  н = п - l.

Так, например, для распределения статистики  число степеней свободы   н = п - 1, ибо одна степень свободы «теряется» при определении выборочной средней (и наблюдений связаны одним уравнением ).

3ная t-распределение Стьюдента, можно найти такое критическое значение   что  вероятность того,  что статистика не превзойдет величину  (по абсолютной величине), равна:

(9)

Функция , где  - плотность вероятности t-распределения Стьюдента при числе степеней свободы н табулирована. Эта функция аналогична функции Лапласа Ф(t), но в отличие от нее является функцией двух переменных -- t и н = п-1. При н >?  функция неограниченно приближается к функции Лапласа Ф(t)[4].

Формула доверительной вероятности для малой выборки может быть представлена в равносильном виде:

"right">, (10)

где

"right"> (11)

- предельная ошибка малой выборки. Доверительный интервал для генеральной средней, как и ранее, находится по формуле:

. (12)

 Пример 5. Для контроля срока службы электроламп из большой партии было отобрано 17 электроламп. В результате  испытаний оказалось, что средний срок службы отобранных ламп равен 980 ч, а среднее квадратическое отклонение их срока службы -- 18 ч. Необходимо определить: а) вероятность того, что средний срок службы ламп во всей партии отличается от среднего срока службы отобранных для испытаний ламп не более чем на 8 ч (по абсолютной величине); б) границы, в которых с вероятностью 0,95 заключен средний срок службы ламп во всей партии.

Решение.

 Имеем по условию п = 20,  = 980(ч), S = 18 ч.

а) Зная предельную ошибку малой выборки = 8 (ч), найдем из соотношения (9):

Теперь искомая доверительная вероятность

, а находится по таблице значений при числе степеней свободы = 16.

Итак, вероятность того, что расхождение средних сроков службы электроламп в выборке и во всей партии не превысит 8 ч (по абсолютной величине), равна 0,906.

б) Учитывая, что = 0,95 и t0,95;16 =2,12, по (11) найдем предельную ошибку малой выборки (ч). Теперь по (12) искомый доверительный интервал или (ч), т.е. с надежностью 0,95 средний срок службы электроламп в партии заключен от 970,5 до 989,5 ч.

2.2.2 Построение доверительного интервала для генеральной доли

по малой выборке.

Если доля признака в генеральной совокупности равна р то  вероятность того, что в повторной выборке объема п т элементов обладают этим признаком, определяется по формуле Бернулли: , где q = 1 - р, т.е. распределение повторной выборки описывается биномиальным распределением. Так как при р?0,5 биномиальное распределение несимметрично, то в качестве доверительного интервала для р берут такой интервал (p1, p2), что вероятность попадания левее р1  и правее p2  одна  и та же и равна (1 - г)/2:

,

где - фактическое число элементов выборки, обладающих признаком.

Рисунок 3 - Генеральная доля для г=0,9

Решение таких уравнений можно упростить, если использовать специальные графики, позволяющие при данном объеме выборки п и заданной доверительной вероятности г определить границы доверительного интервала для генеральной доли р. В качестве примера на рисунке 3 приведены такие графики для г = 0,9.

Пример 6. Опрос случайно отобранных 15 жителей города показал, что 6 из них будут поддерживать действующего мэра на предстоящих выборах. Найти границы, в которых с надежностью 0,9 заключена доля граждан города, которые будут поддерживать на предстоящих выборах действующего мэра.

Решение.

Выборочная доля жителей, поддерживающих мэра, w = т/п = 6/15 = 0,4 . По рисунку 3 для г = 0,9 находим при w = 0,4 и для п = 15 по нижнему графику p1=0,23, а по верхнему -- р2 = 0,60, т.е. доля жителей города, поддерживающих мэра, с надежностью 0,9 заключена в границах от 0,23 до 0,60. Очевидно, что более точный ответ на вопрос задачи может быть получен при увеличении объема выборки п.

2.2.3Построение доверительного интервала для генеральной

дисперсии.

Пусть распределение признака (случайной величины) X в генеральной совокупности является нормальным N(, 2). Предположим, что математическое ожидание М(Х) = (генеральная средняя) известно. Тогда выборочная дисперсия повторной выборки X1, X2, …, Xn:

,

ее не следует путать с выборочной дисперсией

и «исправленной» выборочной дисперсией

,

если S характеризует вариацию значений признака относительно генеральной средней , то и -- относительно выборочной средней [3].

Рассмотрим статистику

Учитывая, M(Xi) =, D(Xi)=у2 , (i  = 1, 2, …, n) нетрудно показать, что М(t) = 0 и .

Выше отмечено, что распределение суммы квадратов п независимых случайных величин , каждая из которых имеет стандартное   нормальное распределение N(0;l), представляет распределение 2 с н = п степенями свободы.

Таким образом, статистика  имеет распределение 2 с н = п степенями свободы.

Распределение 2   не зависит от неизвестных параметров случайной величины X, а зависит лишь от числа степеней свободы н.

Плотность вероятности распределения  имеет сложный вид и интегрирование ее является весьма трудоемким процессом. Составлены таблицы для вычисления вероятности того, что случайная величина, имеющая 2 - распределение с н степенями свободы, превысит некоторое критическое значение , т.е.

, где

В практике выборочного наблюдения математическое ожидание , как правило, неизвестно, и приходится иметь дело не с , а с S2 или . Если Х1, X2,...,Xn -- повторная выборка из нормально распределенной генеральной совокупности, то, как уже сказано выше, случайная величина  (или ) имеет распределение 2 с н = п--1 степенями свободы. Поэтому для заданной доверительной вероятности г можно записать:

"right"> (13)

(графически это площадь под кривой распределения  и   рис. 4).

Рисунок 4 - Кривая распределения 2

Очевидно, что значения  и  определяются неоднозначно при одном и том же значении заштрихованной площади. Обычно  и  выбирают таким образом, чтобы вероятности событий <  и  >   были одинаковы, т. е.

.

Преобразовав двойное неравенство  в равенстве (13) к равносильному виду , получим формулу доверительной вероятности для генеральной дисперсии:

"right">, (14)

а для среднеквадратического отклонения:

"right">. (15)

При использовании таблиц вероятностей необходимо учесть, что поэтому условие

равносильно условию .

Таким образом, значения  и  находим из равенств:

"right"> , (16)

"right">. (17)

Пример 7. На основании  выборочных наблюдений производительности труда 20 работниц было установлено, что среднее квадратическое отклонение суточной выработки составляет 15 м ткани в час. Предполагая, что производительность труда работницы имеет нормальное распределение, найти границы, в которых с надежностью 0,9 заключены генеральные дисперсия и среднее квадратическое отклонение суточной выработки работниц.

Решение.

Имеем г = 0,9; (1 - г)/2 = 0,05; (1 +г)/2 = 0,95.

При числе степеней свободы н = n - 1=20 - 1=19 в соответствии с (16) и (17) определим и для вероятностей 0,95 и 0,05, т.е. = 10,1 и = 30,1. Тогда доверительный интервал для у2 по (14) можно записать в виде:

или и для у по (15):

 или 12,2 < у <21,1(м/ч).

Итак, с надежностью 0,9 дисперсия суточной выработки работниц заключена в границах от 149,5 до 445,6, а ее среднее квадратическое отклонение -- от 12,2 до 21,1 метров ткани в час.

Таблицы  составлены при числе степеней свободы н от 1 до 30. При н>30 можно считать, что случайная величина  имеет стандартное нормальное распределение N(0; l). Поэтому для определения  и следует записать, что   

P()=Ф(t)=г,

откуда  и, после преобразований,

 - таким образом, при расчете доверительного интервала надо полагать , .

Пример 8. Решить задачу, приведенную в примере 7, при п = 100 работницам.

Решение.

При Ф(t) = 0,9 t = 1,645, поэтому

Далее решение, аналогичное примеру 7, приводит к доверительным интервалам для у2: 183,1<у2 < 293,0 и для у: 13,5< у<17,1 (м/ч).