УДК 330-8

2.3. Анализ качества эмпирического уравнения множественной линейной регрессии

Проверка статистического качества оцененного уравнения регрессии проводится, с одной стороны, по статистической значимости параметров уравнения, а с другой стороны, по общему качеству уравнения регрессии. Кроме этого, проверяется выполнимость предпосылок МНК.

Сначала рассмотрим первые два вида проверок и связанные с ними вопросы. Некоторые предпосылки МНК и проверки их выполнимости будем рассматривать отдельно.

Как и в случае парной регрессии, статистическая значимость параметров множественной линейной регрессии с р факторами проверяется на основеt- статистики:

(или), (20)

где величина называется стандартной ошибкой параметраb_j(а). Она определяется так. Обозначим матрицу:

и в этой матрице обозначим j- й диагональный элемент какz_jj'. Тогда выборочная дисперсия эмпирического параметра регрессии равна:

(21)

а для свободного члена выражение имеет вид:

(21’)

если считать, что в матрице Z^-1индексы изменяются от0 доp. ЗдесьS²несмещенная оценка дисперсии случайной ошибкиe:

. (22)

Стандартные ошибки параметроврегрессии равны:

, (или) (23)

Полученная по выражению (20) t - статистика для соответствующего параметра имеет распределение Стьюдента с числомстепеней свободы(п-р-1).При требуемом уровне значимости а эта статистика сравнивается с критической точкой распределения Стьюдентаt(α; п-р-1)(двухсторонней).

Если |t|>t(α; п-р-1), тосоответствующийпараметр считается статистически значимым, и нуль - гипотеза в видеН₀:b_j=0илиН₀:а=0отвергается.

В противном случае(|t|<t(α; п-р-1))параметр считается статистически незначимым, и нуль - гипотеза не может быть отвергнута. Посколькуb_j,не отличается значимо от нуля, факторх_jлинейно не связан с результатом. Его наличие среди объясняющих переменных не оправдано со статистической точки зрения. Не оказывая какого - либо серьёзного влияния на зависимую переменную, он лишь искажает реальную картину взаимосвязи. Поэтому после установления того факта, что коэффициентb_jстатистически незначим, переменнуюх_jрекомендуется исключить из уравнения регрессии. Это не приведет к существенной потере качества модели, но сделает её более конкретной.

Строгую проверкузначимости параметров можно заменить простым сравнительным анализом.

Если |t| ≤1, т.е.b_j < т _bj, токоэффициентстатистически незначим.

Если 1<|t|≤2, т.е.b_j<2m_bj,токоэффициентотносительно значим. В данном случае рекомендуется воспользоваться таблицей критических точек распределения Стьюдента.

Если 2 < |t|≤3, то коэффициент значим. Это утверждение является гарантированным при

(п-р-1)>20иα ≥0,05.

Если |t|>3, то коэффициент считается сильно значимым. Вероятность ошибки в данном случае при достаточном числе наблюдений не превосходит 0,001.

К анализу значимости коэффициента b_jможно подойти по - другому. Для этого строится интервальная оценка соответствующего коэффициента. Если задать уровень значимости о, то доверительный интервал, в который с вероятностью (1-α) попадает неизвестное значение параметраβ_j'(α'), определяется неравенством:

(24)

или

. (25)

Если доверительный интервалне содержит нулевого значения, то соответствующий параметр является статистически значимым, в противном случае гипотезу о нулевом значении параметра отвергать нельзя.

Для проверки общего качествауравнения регрессии используется коэффициент детерминацииR²,который в общем случае рассчитывается по формуле:

(25)

Он показывает, как и в парной регрессии, долю общей дисперсии у,объясненную уравнением регрессии. Его значения находятся между нулем и единицей. Чем ближе этот коэффициент к единице, тем больше уравнение регрессии объясняет поведениеу.

Для множественной регрессии R²является неубывающей функцией числа объясняющих переменных. Добавление новой объясняющей переменной никогда не уменьшает значениеR² .Действительно, каждая следующая объясняющаяпеременнаяможет лишь дополнить, но никак не сократить информацию, объясняющую поведение зависимой переменной.

В формуле (25) используется остаточная дисперсия, которая имеет систематическую ошибку в сторону уменьшения, тем более значительную, чем больше параметров определяется в уравнении регрессии при заданном объёме наблюденийп.Если число параметров (р+1) приближается кn,то остаточная дисперсия будет близка к нулю и коэффициент детерминации приблизится к единице даже при слабой связи факторов с результатом.

Поэтому в числителе и знаменателе дроби в (25) делается поправка на число степеней свободы остаточной и общей дисперсии соответственно:

(26)

Поскольку величина (25), как правило, увеличивается при добавлении объясняющей переменной к уравнению регрессии даже без достаточных на то оснований, скорректированный коэффициент (26) компенсирует это увеличение путем наложения «штрафа» за увеличение числа независимых переменных. Перепишем (26) следующим образом:

(27)

По мере роста pувеличивается отношение р/(п-р-1)и, следовательно, возрастает размер корректировки коэффициентаR²в сторону уменьшения.

Из (27) очевидно, что < R²прир >1. С ростомpрастет медленнее, чемR².Другими словами, он корректируется в сторону уменьшения с ростом числа объясняющих переменных. При этом =R²только приR²=1. может даже принимать отрицательные значения (например, приR²=0). Поэтому для корректировки (26) нет строгого математического обоснования.

Доказано, что увеличивается при добавлении новой объясняющей переменной тогда и только тогда, когдаt- статистика для этойпеременнойпо модулю больше единицы. Из этого отнюдь не следует, как можно было бы предположить, что увеличениеозначает улучшение спецификации уравнения. Тем не менее добавление в модель новых факторов осуществляется до тех пор, пока растет скорректированный коэффициент детерминации.

Обычно приводятся данные как по R², так и по, являющиеся суммарными мерами общего качества уравнения регрессии. Однако не следует абсолютизировать значимость коэффициентов детерминации.Существуетнемало примеров неправильно построенных моделей, имеющих высокие коэффициенты детерминации. Поэтому коэффициент детерминации в настоящее время рассматривается лишь как один из ряда показателей, которые нужно проанализировать, чтобы уточнить строящуюся модель.

Анализ статистической значимости коэффициента детерминации проводится на основе проверки нуль – гипотезы Н₀: R²=0против альтернативной гипотезыH₁: R² >0. Для проверки данной гипотезы используется следующаяF -статистика:

(28)

Величина Fпри выполнении предпосылок МНК и при справедливости нуль - гипотезы имеет распределение Фишера. Из (28) видно, что показателиF и R²равны или не равны нулю одновременно. ЕслиF=0, тоR²⁼O, и линия регрессииявляется наилучшей по МНК, и, следовательно, величина;yлинейно не зависит отх₁, х₂,...,х_p .Для проверки нуль - гипотезы при заданном уровне значимостиαпо таблицам критических точек распределения Фишера находится критическое значениеF_табл(α;p;n-p-1)..ЕслиF>F_табл,.нуль - гипотеза отклоняется, что равносильно статистической значимостиR²т.е.R²>0.

Эквивалентный анализ может быть предложен рассмотрением другой нуль - гипотезы, которая формулируется как о^:H₀:β₁’=β₂’=…=β_p=0. Эту гипотезу можно назвать гипотезой об общей значимости уравнения регрессии. Если данная гипотеза не отклоняется, то делается вывод о том, что совокупное влияние всехpобъясняющих переменныхх₁,,х₂,...,х_p на зависимую переменнуюуможно считать статистически несущественным, а общее качество уравнения регрессии невысоким.

Проверка такой гипотезы осуществляется на основе дисперсионного анализа сравнения объясненной и остаточной дисперсий, т.е. нуль-гипотеза формулируется какH₀:Dфакт=Dостпротив альтернативной гипотезыH₁:Dфакт=Dост.При этом строитсяF-статистика:

(29)

Здесь в числителе - объясненная (факторная) дисперсия в расчете на одну степень свободы (число степеней свободы 1 равно числу факторов, т.е. р).В знаменателе - остаточная дисперсия на одну степень свободы. Её число степеней свободы равно(п-р-1).Потеря (р+1) степени свободы связана с необходимостью решения системы (р+1) линейных уравнений при определении параметров эмпирического уравнения регрессии. Если учесть, что число степеней свободы общей дисперсии равно(п-1)то число степеней свободы объясненной дисперсии равна разности (n-1)-(п-р-1),т.е.р.Следует отметить, что выражение (29) эквивалентно (28). Это становится ясно, если числитель и знаменатель (29) разделить на общую СКО:

Поэтому методика принятия или отклонения нуль - гипотезы для статистики (29) ничем не отличается от таковой для статистики (28).

Анализ статистики Fпозволяет сделать вывод о том, что для принятия гипотезы об одновременном равенстве нулю всех коэффициентов линейной регрессии коэффициент детерминацииR²должен существенно отличаться от нуля. Его критическое значение уменьшается при росте числа наблюдений и может стать сколь угодно малым.

Например, пусть при оценке регрессии с двумя объясняющими переменными по 30 наблюдениям R²=0,65. Тогда

По таблицам критических точек распределения Фишера найдем F(0.05; 2; 27)⁼3,36;F(0,01; 2; 27)==5,49. ПосколькуF_набл=25,05>F_кркак при 5% - ном, так и при 1% - ном уровне значимости, то нулевая гипотеза в обоих случаях отклоняется. Если в той же ситуацииR²=0.4, то

Предположение о не значимости связи отвергается и здесь.

Другим важным направлением использования статистики Фишера является проверка гипотезы о равенстве нулю не всех коэффициентов регрессии одновременно, а только некоторой части этих коэффициентов. Это позволяет оценить обоснованность исключения или добавления в уравнение регрессии некоторых наборов факторов, что особенно важно при совершенствовании линейной регрессионной модели.

Пусть первоначально построенное по пнаблюдениям уравнение регрессии имеет вид (4), и коэффициент детерминации для этой модели равенR₁². Исключим из рассмотренияk объясняющих переменных. Не нарушая общности, предположим, что это будутkпоследних переменных. По первоначальнымпнаблюдениям для оставшихся факторов построим другое уравнение регрессии:

(30)

для которого коэффициент детерминации равен R₂². Очевидно,R₂²≤R₁²,т.к. каждая дополнительная переменная объясняет часть рассеивания зависимой переменной. Проверяя гипотезуh₀:r₁²-r₂²=0, можно определить, существенно ли ухудшилось качество описания поведения зависимой переменной. Для этого используют статистику:

(31)

Вслучае справедливостиh₀ приведенная статистика имеет распределение Фишера с числом степеней свободыkи(п-р-1).ЗдесьR₁² –R₂²- потеря качества уравнения в результате отбрасыванияkфакторов;k -число дополнительно появившихся степеней свободы; (1-R₁² )/(n- p-1) -необъясненная дисперсия первоначального уравнения.

Если величина (31) превосходит критическое F_кр=F{α;k; n- р-1)на требуемом уровне значимости α, то нуль - гипотеза должна быть отклонена. В этом случае одновременное исключение из рассмотренияkобъясняющих переменных некорректно, т.к.R₁²существенно превышаетR₂² . Это означает, что общее качество первоначального уравнения регрессии существенно лучше качества уравнения регрессии с отброшенными переменными, т.к. первоначальное уравнение объясняет гораздо большую долю разброса зависимой переменной. Если же, наоборот,F_набл<F_крэто означает, что разностьR₁² – R₂²незначительна и можно сделать вывод о целесообразности одновременного отбрасыванияkфакторов, поскольку это не привело к существенному ухудшению общего качества уравнения регрессии. Тогда нуль - гипотеза не может быть отброшена.

Аналогичные рассуждения можно использовать и для проверки обоснованности включенияновыхkфакторов. В этом случае рассматривается следующая статистика:

(32)

Если она превышает критическое значение -F_кр,то включение новых факторов объясняет существенную часть не объясненной ранее дисперсии зависимой переменной. Поэтому такое добавление оправдано. Добавлять переменные, как правило, целесообразно по одной. Кроме того, при добавлении факторов логично использовать скорректированный коэффициент детерминации, т.к. обычныйR²всегда растет при добавлении новой переменной, а в скорректированномодновременно растет величинаp,уменьшающая его. Если увеличение доли объясненной дисперсии при добавлении новой переменной незначительно, томожет уменьшиться. В этом случае добавление указанного фактора нецелесообразно.

Кроме коэффициента детерминации R², в уравнении множественной регрессии используется другой показатель, тесно связанный сR².Это так называемый показатель множественной корреляции, равный корню квадратному изR².

. (33)

Границы его изменения те же, что и в парной регрессии: от О до 1. Чем ближе его значение к единице, тем теснее связь результативного признака со всем набором исследуемых факторов.

Для линейного уравнения множественной регрессии формула индекса корреляции может быть представлена выражением:

(34)

где β_j -стандартизованные коэффициенты регрессии,- парные коэффициенты корреляции результата с каждым из факторов.

Формула индекса множественной корреляции для линейной регрессии получила название линейного коэффициента множественной корреляции,или совокупного коэффициента корреляции.

При линейной зависимости определение совокупного коэффициента корреляции возможно без построения регрессии и оценки её параметров, а с использованием только матрицы парных коэффициентов корреляции:

(35)

где - определитель матрицы парных коэффициентов корреляции:

(36)

а -определитель матрицы межфакторной корреляции:

(37)

Определитель (37) остаётся после вычеркивания из матрицы коэффициентов парной корреляции первого столбца и первой строки, что и соответствует матрице коэффициентов парной корреляции между факторами.

Содержание