logo
УДК 330-8

1.4. Оценка существенности параметров линейной регрессии и корреляции

После того, как найдено уравнение линейной регрессии (3), проводится оценка значимости как уравнения в целом, гак и отдельных его параметров.

Оценка значимости уравнения регрессии в целом дается с помощью F- критерия Фишера. При этом выдвигается нулевая гипотезатом, что коэффициент регрессии равен нулю и, следовательно, факторхне оказывает влияния на результату.

Перед расчетом критерия проводятся анализ дисперсии. Можно показать, что общая сумма квадратов отклонений (СКО) уот среднего значения раскладывается на две части -объясненную и необъясненную:

(13)

или, соответственно:

Здесь возможны два крайних случая: когда общая СКО в точности равна остаточной и когда общая СКО равна факторной.

В первом случае фактор хне оказывает влияния на результат, вся дисперсияуобусловлена воздействием прочих факторов, линия регрессии параллельна осиОхи.

Во втором случае прочие факторы не влияют на результат, усвязан схфункционально, и остаточная СКО равна нулю.

Однако на практике в правой части (13) присутствуют оба слагаемых. Пригодность линии регрессии для прогноза зависит от того, какая часть общей вариации уприходится на объясненную вариацию. Если объясненная СКО будет больше остаточной СКО, то уравнение регрессии статистически значимо и факторхоказывает существенное воздействие на результату. Это равносильно тому, что коэффициент детерминации будет приближаться к единице.

Число степеней свободы,(df-degreesoffreedom) - это число независимо варьируемых значений признака. Для общей СКО требуется(п-1)независимых отклонений, т.к., что позволяет свободно варьировать(n-1)значений, а последнееn-е отклонение определяется из общей суммы, равной нулю. Поэтому.

Факторную СКО можно выразить так:

Эта СКО зависит только от одного параметра b,- поскольку выражение под знаком суммы к значениям результативного признака не относится. Следовательно, факторная СКО имеет одну степень свободы, и.

Для определения воспользуемся аналогией с балансовым равенством (11). Так же, как и в равенстве (11), можно записать равенство и между числами степеней свободы:

(14)

Таким образом, можем записать: (n-1)=1+(n-2)

Из этого баланса определяем, что .

Разделив каждую СКО на свое число степеней свободы, получим средний квадрат отклонений,или дисперсию на одну степень свободы:

(15)

(16)

(17)

Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим F'- критерий для проверки нулевой гипотезы, которая в данном случае записывается как

(18)

Если H0справедлива, то дисперсии не отличаются друг от друга. ДляH0 необходимо опровержение, чтобы факторная дисперсия превышала остаточную в несколько раз. Английским статистиком Снедекором разработаны таблицы критических значений F при разных уровнях существенностиH0и различных числах степеней свободы. Табличное значение F- критерия - это максимальная величина отношения дисперсий, которая может иметь место при случайном их расхождении для данного уровня вероятности наличия нулевой гипотезы. При нахождении табличного значения F- критерия задается уровень значимости (обычно 0,05 или 0,01) и две степени свободы - числителя (она равна единице) и знаменателя, равнаяп-2,

Вычисленное значение F признается достоверным (отличным от единицы), если оно больше табличного, т.е. . В этом случаеH0отклоняется и делается вывод о существенности превышенияDфактнадDостат,т.е. о существенности статистической связи междуу и х.

Если , то вероятностьH0 выше заданного уровня (например, 0,05), и эта гипотеза не может быть отклонена без серьезного риска сделать неправильный вывод о наличии связи междууих.Уравнение регрессии считается статистически незначимым,H0 не отклоняется.

В рассмотренном примере:

-- это общая СКО.

-- это факторная СКО

-- это остаточная СКО.

Dфакт==14735; F0.05(1;5)=6,61;F0.01(1;5)=16,26.

На любом уровне значимости Fфакт > Fтабл, и можно сделать вывод о значимости уравнения регрессии. Статистическая связь междууихдоказана.

Величина F- критерия связана с коэффициентом детерминации.

(19)

В линейной регрессии обычно оценивается значимость не только уравнения в целом, но и отдельных его параметров.

Стандартная ошибка коэффициента регрессии определяется по формуле:

(20)

S2-остаточная дисперсия на одну степень свободы (то же, что иDостат).

В рассмотренном примере

Величина стандартной ошибки совместно с t -распределением Стьюдента приn-2степенях свободы применяется для проверки существенности коэффициента регрессии и для расчета его доверительных интервалов.

Величина коэффициента регрессии сравнивается с его стандартной ошибкой; определяется фактическое значение t - критерия Стьюдента

(21)

которое затем сравнивается с табличным значением при определенном уровне значимости аи числе степеней свободы(п-2).Здесь проверяется нулевая гипотеза в видетакже предполагающая несущественность статистической связи междуу их, но только учитывающая значениеb,а не соотношение между факторной и остаточной дисперсиями в общем балансе дисперсии результативного признака. Однако общий смысл гипотез один и тот же: проверка наличия статистической связи междуу и хили ее отсутствия.

Если tb>tтабл(α; n-2),то гипотезаH0:b=0должна быть отклонена, а статистическая связьусх считается установленной. В случаеtb<tтабл(α; n-2)нулевая гипотеза не может быть отклонена, и влияниеxнаупризнается несущественным.

В рассмотренном примере:

Для двустороннего α=0,05 и n-2=5tтабл=2,57,tb >tтабл,поэтому гипотезу о несущественностиbследует отклонить.

Существует связь между tb и F:

Отсюда следует, что

(22)

Доверительный интервал для b определяется как

(23)

где -рассчитанное (оцененное) по МНК значение коэффициента регрессии.

95%-ные границы в примере составят:

36,84 ± 2,57 • 2,21 == 36,84 ± 5,68,

т.е. 31,16≤b≤42,52. Это означает, что с вероятностью 0,95 истинное значениеbнаходится в указанном интервале.

Коэффициент регрессии имеет четкую экономическую интерпретацию, поэтому доверительные границы интервала не должны содержать противоречивых результатов, например, -10≤b≤40. Они не должны включать нуль.

Стандартная ошибка параметра aопределяется по формуле:

(24)

Процедура оценивания существенности ане отличается от таковой для параметраb.При этом фактическое значениеt-критерия вычисляется по формуле:

(25)

Процедура проверки значимости линейного коэффициента корреляции отличается от процедур, приведенных выше. Это объясняется тем, что rкак случайная величина распределена по нормальному закону лишь при большом числе наблюдений и малых значениях|r|. В этом случае гипотеза об отсутствии корреляционной связи междуу их H0:r=0проверяется на основе статистики

, (26)

которая при справедливости H0приблизительно распределена по закону Стьюдента с(n-2)степенями свободы. Еслиtr>tтабл(α;n-2), то гипотезаНоотвергается с вероятностью ошибиться, не превышающей α.Из (19) видно, что в парной линейной регрессии. Кроме того,, поэтому.Таким образом, проверка гипотез о значимости коэффициентов регрессии и корреляции равносильна проверке гипотезы о существенности линейного уравнения регрессии.

Однако при малых выборках и значениях г, близких к ±1, следует учитывать, что распределение rкак случайной величины отличается от нормального, и построение доверительных интервалов дляrне может быть выполнено стандартным способом. В этом случае вообще легко прийти к противоречию, заключающемуся в том, что доверительный интервал будет содержать значения, превышающие единицу.

Чтобы обойти это затруднение, используется так называемое z-преобразование Фишера:

, (27)

которое дает нормально распределенную величину z,значения которой при измененииrот -1 до +1 изменяются от -до+ Стандартная ошибка этой величины равна:

Для величины zимеются таблицы, в которых приведены её значения для соответствующих значенийr.

Для zвыдвигается нуль-гипотезаHo:z=O,состоящая в том, что корреляция отсутствует. В этом случае значения статистики

(29)

которая распределена по закону Стьюдента с (п-2)степенями свободы, не превышает табличного на соответствующем уровне значимости.

Для каждого значения zможно вычислить критические значенияr.Таблицы критических значенийrразработаны для уровней значимости 0,05 и 0,01 и соответствующего числа степеней свободы. Если вычисленное значениеrпревышает по абсолютной величине табличное, то данное значениеr считается существенным. В противном случае фактическое значение несущественно.