logo
Множественная регрессия. Верификация модели

Проблемы верификации модели

Верификация модели - проверка истинности, адекватности модели. Выясняется насколько удачно решены проблемы спецификации, идентификации и однозначности модели, какова точность расчетов по данной модели, насколько модель соответствует реальному объекту или процессу.

Для практического использования моделей регрессии большое значение имеет их адекватность, т.е. соответствие фактическим статистическим данным.

Анализ качества эмпирического уравнения парной и множественной линейной регрессии начинают с построения эмпирического уравнения регрессии, которое является начальным этапом эконометрического анализа. Первое же, построенное по выборке уравнение регрессии, очень редко является удовлетворительным по тем или иным характеристикам. Поэтому следующей важнейшей оценкой является проверка качества уравнения регрессии. В эконометрике принята устоявшаяся схема такой проверки, которая проводится по следующим направлениям:

проверка статистической значимости коэффициентов уравнения регрессии

проверка общего качества уравнения регрессии

проверка свойств данных, выполнимость которых предполагалась при оценивании уравнения (проверка выполнимости предпосылок МНК)

Прежде, чем проводить анализ качества уравнения регрессии, необходимо определить дисперсии и стандартные ошибки коэффициентов, а также интервальные оценки коэффициентов. Корреляционный и регрессионный анализ, как правило, проводится для ограниченной по объёму совокупности.

Поэтому параметры уравнения регрессии (показатели регрессии и корреляции), коэффициент корреляции и коэффициент детерминации могут быть искажены действием случайных факторов. Чтобы проверить, на сколько эти показатели характерны для всей генеральной совокупности и не являются ли они результатом стечения случайных обстоятельств, необходимо проверить адекватность построенных статистических моделей.

При анализе адекватности уравнения регрессии (модели) исследуемому процессу, возможны следующие варианты:

1. Построенная модель на основе F-критерия Фишера в целом адекватна и все коэффициенты регрессиизначимы. Такая модель может быть использована для принятия решений и осуществления прогнозов.

2. Модель по F-критерию Фишера адекватна, но часть коэффициентов не значима. Модель пригодна для принятия некоторых решений, но не для прогнозов.

3. Модель по F-критерию адекватна, но все коэффициенты регрессии не значимы. Модель полностью считается неадекватной. На ее основе не принимаются решения и не осуществляются прогнозы.

Проверить значимость (качество) уравнения регрессии-значит установить, соответствует ли математическая модель, выражающая зависимость между переменными, экспериментальным данным, достаточно ли включенных в уравнение объясняющих переменных для описания зависимой переменной. Чтобы иметь общее суждение о качестве модели, по каждому наблюдению из относительных отклонений определяют среднюю ошибку аппроксимации. Проверка адекватности уравнения регрессии (модели) осуществляется с помощью средней ошибки аппроксимации, величина которой не должна превышать 12-15% (максимально допустимое значение).

Оценка значимости уравнения регрессии в целом производится на основе F-критерия Фишера, которому предшествует дисперсионный анализ. В математической статистике дисперсионный анализ рассматривается как самостоятельный инструмент статистического анализа. В эконометрике он применяется как вспомогательное средство для изучения качества регрессионной модели. Согласно основной идее дисперсионного анализа, общая сумма квадратов отклонений переменной (y) от среднего значения (yср.) раскладывается на две части: «объясненную» и «необъясненную»:

Определение дисперсии на одну степень свободы приводит дисперсии к сравнимому виду. Сопоставляя факторную и остаточную дисперсии в расчете на одну степень свободы, получим величину F-критерия Фишера. Фактическое значение F -критерия Фишера сравнивается с табличным значением Fтабл. (б, k1, k2) при заданном уровне значимости б и степенях свободы k1= m и k2=n-m-1. При этом, если фактическое значение F-критерия больше табличного Fфакт > Fтеор, то признается статистическая значимость уравнения в целом. Для парной линейной регрессии m=1 , поэтому:

Отношение объясненной части дисперсии переменной (у) к общей дисперсии называют коэффициентом детерминации и используют для характеристики качества уравнения регрессии или соответствующей модели связи. Соотношение между объясненной и необъясненной частями общей дисперсии можно представить в альтернативном варианте:

Коэффициент детерминации R2 принимает значения в диапазоне от нуля до единицы 0? R2 ?1. Коэффициент детерминации R2 показывает, какая часть дисперсии результативного признака (y) объяснена уравнением регрессии. Чем больше R2, тем большая часть дисперсии результативного признака (y) объясняется уравнением регрессии и тем лучше уравнение регрессии описывает исходные данные. При отсутствии зависимости между (у) и (x) коэффициент детерминации R2 будет близок к нулю. Таким образом, коэффициент детерминации R2 может применяться для оценки качества (точности) уравнения регрессии. Значение R-квадрата является индикатором степени подгонки модели к данным (значение R-квадрата близкое к 1.0 показывает, что модель объясняет почти всю изменчивость соответствующих переменных). Чтобы определить, при каких значениях R2 уравнение регрессии следует считать статистически не значимым, что, в свою очередь, делает необоснованным его использование в анализе, рассчитывается F-критерий Фишера: Fфакт > Fтеор - делаем вывод о статистической значимости уравнения регрессии. Величина F-критерия связана с коэффициентом детерминации R2xy (r2xy) и ее можно рассчитать по следующей формуле:

Низкое значение коэффициента множественной корреляции и коэффициента множественной детерминации R2 может быть обусловлено следующими причинами:

в регрессионную модель не включены существенные факторы;

неверно выбрана форма аналитической зависимости, которая нереально отражает соотношения между переменными, включенными в модель.

Следует также обратить внимание на важность анализа остатков (остаточной, «необъясненной» дисперсии). Остаток представляет собой отклонение фактического значения зависимой переменной от значения, полученного расчетным путем. При построении уравнения регрессии, мы можем разбить значение (у) в каждом наблюдении на 2 составляющие:

Отсюда:

Если еi=0, то для всех наблюдений фактические значения зависимой переменной совпадают с расчетными (теоретическими) значениями. Графически это означает, что теоретическая линия регрессии (линия, построенная по функции у=а0+а1х) проходит через все точки корреляционного поля, что возможно только при строго функциональной связи. Следовательно, результативный признак (у) полностью обусловлен влиянием фактора (х). На практике, как правило, имеет место некоторое рассеивание точек корреляционного поля относительно теоретической линии регрессии, т.е. отклонения эмпирических данных от теоретических еi?0. Величина этих отклонений и лежит в основе расчета показателей качества (адекватности) уравнения.

Большинство предположений множественной регрессии нельзя в точности проверить, однако можно обнаружить отклонения от этих предположений. В частности, выбросы (экстремальные наблюдения) могут вызвать серьезное смещение оценок, сдвигая линию регрессии в определенном направлении и, тем самым, вызывая смещение коэффициентов регрессии. Часто исключение всего одного экстремального наблюдения приводит к совершенно другому результату. Выбросы оказывают существенное влияние на угол наклона регрессионной линии и,соответственно, на коэффициент корреляции. Всего один выброс может полностью изменить наклон регрессионной линии и, следовательно, вид зависимости между переменными. Одна точка выброса обуславливает высокое значение коэффициента корреляции, в то время, как в отсутствие выброса, он практически равен нулю.

При численности объектов анализа до 30 единиц возникает необходимость проверки значимости (существенности) каждого коэффициента регрессии. При этом выясняют насколько вычисленные параметры характерны для отображения комплекса условий: не являются ли полученные значения параметров результатами действия случайных причин. Значимость коэффициентов простой линейной регрессии (применительно к совокупностям, у которых n<30) осуществляют с помощью t-критерия Стьюдента. При этом вычисляют расчетные (фактические) значения t-критерия для параметров a0 а1:

Вычисленные значения сравнивают с критическими t, которые определяют по таблице значений Стьюдента с учетом принятого уровня значимости (б) и числа степеней свободы вариации k (н)=n-2. В социально-экономических исследованиях уровень значимости б обычно принимают равным 0,05. Параметр признается значимым (существенным) при условии, если tрасч. > tтабл. В этом случае, практически невероятно, что найденные значения параметров обусловлены только случайными совпадениями.

Для оценки значимости парного коэффициента корреляции (корень квадратный из коэффициента детерминации), при условии линейной формы связи между факторами, можно использовать t-критерий Стьюдента:

Анализ качества эмпирического уравнения множественной линейной регрессии предусматривает оценку мультиколлинеарности факторов. При оценке мультиколлинеарности факторов следует учитывать, что чем ближе к нулю определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. Для отбора наиболее значимых факторов Хi должны быть учтены следующие условия:

связь между результативным признаком и факторным должна быть выше межфакторной связи

связь между факторами должна быть не более 0.7

при высокой межфакторной связи признака отбираются факторы с меньшим коэффициентом корреляции между ними