logo
Множественная регрессия. Верификация модели

Множественная линейная регрессия: спецификация модели, оценка параметров

Спецификация модели - формулировка вида модели, исходя из соответствующей теории связи между переменными. В уравнении регрессии корреляционная по сути связь признаков представляется в виде функциональной связи, выраженной соответствующей математической функцией.

Включение в уравнение множественной регрессии того или иного набора факторов связано, прежде всего, с представлением исследователя о природе взаимосвязи моделируемого показателя с другими экономическими явлениями. Факторы, включаемые во множественную регрессию, должны отвечать следующим требованиям:

Они должны быть количественно измеримы. Если необходимо включить в модель качественный фактор, не имеющий количественного измерения, то ему нужно придать количественную определенность (например, в модели урожайности качество почвы задается в виде баллов; в модели стоимости объектов недвижимости районам присваиваются ранги);

Факторы не должны быть взаимно коррелированы и тем более находиться в точной функциональной связи. Если между факторами существует высокая корреляция, то нельзя определить их изолированное влияние на результативный показатель, и параметры уравнения регрессии оказываются неинтерпретируемыми.

Включаемые во множественную регрессию факторы должны объяснить вариацию независимой переменной. Если строится модель с набором р факторов, то для нее рассчитывается показатель детерминации R2, который фиксирует долю объясненной вариации результативного признака за счет рассматриваемых в регрессии р факторов. Влияние других, не учтенных в модели, факторов оценивается как 1 - R2 с соответствующей остаточной дисперсией S2.

При дополнительном включении в регрессию (р + 1)-фактора хр+1 коэффициент детерминации должен возрастать, а остаточная дисперсия уменьшаться, т. е.

R2 > R2 и S2 < S2.

Если же этого не происходит и данные показатели практически мало отличаются друг от друга, то включаемый в анализ фактор хР+1 не улучшает модель и практически является лишним фактором.

Насыщение модели лишними факторами не только не снижает величину остаточной дисперсии и не увеличивает показатель детерминации, но и приводит к статистической незначимости параметров регрессии по ґ-критерию Стьюдента.

Отбор факторов производится на основе качественного теоретико- экономического анализа и обычно осуществляется в две стадии:

на первой подбираются факторы исходя из сущности проблемы;

на второй - на основе матрицы показателей корреляции определяют ґ-статистики для параметров регрессии.

Коэффициенты интеркорреляции (т. е. корреляции между объясняющими переменными) позволяют исключать из модели дублирующие факторы. Считается, что две переменные явно коллинеарные, т. е. находятся между собой в линейной зависимости, если г > 0,7 .

По величине парных коэффициентов корреляции обнаруживается лишь явная коллинеарность факторов. Наибольшие трудности в использовании аппарата множественной регрессии возникают при наличии мультиколлинеарности факторов. Чем сильнее мультиколлинеарность факторов, тем менее надежна оценка распределения суммы объясненной вариации по отдельным факторам с помощью метода наименьших квадратов.

Для оценки мультиколлинеарности факторов может использоваться определитель матрицы парных коэффициентов корреляции между факторами.

Если бы факторы не коррелировали между собой, то матрица парных коэффициентов корреляции между факторами была бы единичной матрицей, поскольку все недиагональные элементы были бы равны нулю. Так, для включающего три объясняющих переменных уравнения

матрица коэффициентов корреляции между факторами имела бы определитель, равный 1:

так как и .

Если же, наоборот, между факторами существует полная линейная зависимость и все коэффициенты корреляции равны 1, то определитель такой матрицы равен 0:

.

Чем ближе к 0 определитель матрицы межфакторной корреляции, тем сильнее мультиколлинеарность факторов и ненадежнее результаты множественной регрессии. И наоборот, чем ближе к 1 определитель матрицы межфакторной корреляции, тем меньше мультиколлинеарность факторов.

Проверка мультиколлинеарности факторов может быть проведена методом испытания гипотезы о независимости переменных . Доказано, что величина имеет приближенное распределение с степенями свободы. Если фактическое значение превосходит табличное (критическое) , то гипотеза отклоняется. Это означает, что , недиагональные ненулевые коэффициенты корреляции указывают на коллинеарность факторов. Мультиколлинеарность считается доказанной.

Для применения МНК требуется, чтобы дисперсия остатков была гомоскедастичной. Это значит, что для каждого значения фактора остатки имеют одинаковую дисперсию. Если это условие не соблюдается, то имеет место гетероскедастичность.

При нарушении гомоскедастичности мы имеем неравенства

При малом объеме выборки для оценки гетероскедастичности может использоваться метод Гольдфельда-Квандта. Основная идея теста Гольдфельда-Квандта состоит в следующем:

1) упорядочение наблюдений по мере возрастания переменной ;

2) исключение из рассмотрения центральных наблюдений; при этом

-число оцениваемых параметров;

3) разделение совокупности из наблюдений на две группы (соответственно с малыми и с большими значениями фактора ) и определение по каждой из групп уравнений регрессии;

4)определение остаточной суммы квадратов для первой и второй групп и нахождение их отношения: .

При выполнении нулевой гипотезы о гомоскедастичности отношение R будет удовлетворять F-критерию со степенями свободы для каждой остаточной суммы квадратов. Чем больше величина R превышает табличное значение F-критерия, тем более нарушена предпосылка о равенстве дисперсий остаточных величин.

Уравнения множественной регрессии могут включать в качестве независимых переменных качественные признаки (например, профессия, пол, образование, климатические условия, отдельные регионы и т. д.). Чтобы ввести такие переменные в регрессионную модель, их необходимо упорядочить и присвоить им те или иные значения, т. е. качественные переменные преобразовать в количественные.

Такого вида сконструированные переменные принято в эконометрике называть фиктивными переменными. Например, включать в модель фактор «пол» в виде фиктивной переменной можно в следующем виде:

Коэффициент регрессии при фиктивной переменной интерпретируется как среднее изменение зависимой переменной при переходе от одной категории (женский пол) к другой (мужской пол) при неизменных значениях остальных параметров. На основе t-критерия Стьюдента делается вывод о значимости влияния фиктивной переменной, существенности расхождения между категориями.

Множественная регрессия - уравнение связи с несколькими независимыми переменными:

где - зависимая переменная (результативный признак);

- независимые переменные (факторы).

Для оценки параметров уравнения множественной регрессии применяют метод наименьших квадратов (МНК). Для линейных уравнений строится следующая система нормальных уравнений, решение которой позволяет получить оценки параметров регрессии:

Для ее решения может быть применен метод определителей:

, ,…, ,

где - определитель системы;

- частные определители; которые получаются путем замены соответствующего столбца матрицы определителя системы данными левой части системы.