2.7. Фиктивные переменные в регрессионных моделях
В регрессионных моделях наряду с количественными переменными часто используются качественные переменные, которые выражаются в виде фиктивных (искусственных) переменных, отражающих два противоположных состояния качественного фактора. Например, D=0,если потребитель не имеет высшего образования,D=1, если потребитель имеет высшее образование. ПеременнаяDназывается фиктивной, или двоичной переменной, а также индикатором.
Таким образом, кроме моделей, содержащих только количественные переменные, в регрессионном анализе рассматриваются также модели, содержащие лишь качественные переменные (обозначаемые Di), либо те и другие одновременно.
Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA- моделями (моделями дисперсионного анализа).
Например, зависимость начальной заработной платы от образования может быть записана так:
y=a + gD + e,
где D=0, если претендент на рабочее место не имеет высшего образования,D=l, если имеет. Тогда при отсутствии высшего образования начальная заработная плата равна:
а при его наличии:
При этом параметр аопределяет среднюю начальную заработную плату при отсутствии высшего образования. Коэффициентgпоказывает, на какую величину отличаются средние начальные заработные платы при наличии и при отсутствии высшего образования у претендента. Проверяя статистическую значимость коэффициентаgс помощьюt -статистики, можно определить, влияет или нет наличие высшего образования на начальную заработную плату.
Нетрудно заметить, что ANOVA- модели представляют собой кусочно - постоянные функции. Такие модели в экономике крайне редки. Гораздо чаще встречаются модели, содержащие как количественные, так и качественные переменные. Такие модели называютсяANCOVA- моделями (моделями ковариационного анализа).
Сначала рассмотрим простую модель заработной платы сотрудника фирмы в зависимости от стажа работы хи пола сотрудникаD:
(80)
где
Тогда для женщин ожидаемое значение заработной платы будет
а для мужчин -
Эти зависимости являются линейными относительно стажа работы х и различаются только величиной свободного члена. Если коэффициентgявляется статистически значимым, то можно сделать вывод, что в фирме имеет место дискриминация в заработной плате по половому признаку. Приg>0она будет в пользу мужчин, приg<0- в пользу женщин. На графике такие зависимости изображаются параллельными прямыми.
В случае, когда качественная переменная принимает не два, а большее число значений, может возникнуть ситуация, которая называется ловушкой фиктивной переменной. Она возникает, когда для моделирования kзначений качественного признака используется ровноkбинарных (фиктивных) переменных. В этом случае одна из таких переменных линейно выражается через все остальные, и матрица значений переменных становится вырожденной. Тогда исследователь попадает в ситуацию совершенной мультиколлинеарности. Избежать подобной ловушки позволяет правило:
- если качественная переменная имеет k альтернативных значений, то при моделировании используется только (k-1) фиктивных переменных.
Например, если качественная переменная имеет 3 уровня, то для моделирования достаточно двух фиктивных переменных D1иD2.Тогда для обозначения третьего уровня достаточно принять, например, обе переменные равными нулю:D1=D2 =0.В частности, для обозначения уровня экономического развития страны (развитая, развивающаяся или страна «третьего мира») можно использовать обозначения:
Тогда d1=d2=o означает страну «третьего мира». Нулевой уровень качественной переменной называется базовымилисравнительным.
Кроме того, значения фиктивных переменных можно изменять на противоположные. Суть модели от этого не изменится. Изменится только знак коэффициента gв модели (80).
Коэффициент gв модели (80) называется дифференциальным свободным членом, т.к. он показывает, на какую величину изменится свободный член модели при изменении значения фиктивной переменной.
Возможны модели, в которых используются несколько фиктивных переменных, не связанных между собой по смыслу. Например, переменная d1 означает пол работника,aD2 -наличие или отсутствие у него высшего образования. Тогда возможны все комбинации значений различных качественных переменных, в которых регрессии отличаются лишь свободными членами.
Подобные схемы можно распространить на произвольное число количественных или качественных факторов. При этом не следует забывать, что если качественный фактор имеет kальтернативных состояний, то для его описания можно использовать толькоkразличных сочетаний значений (k-1) фиктивных переменных. Например, если качественная переменная имеет 4 уровня, то для её описания следует использовать 3 фиктивные (бинарные) переменные. Максимально возможное число сочетаний их значений равно восьми (два в третьей степени), однако в регрессии можно реально использовать только четыре из них.
Влияние качественного фактора может сказываться не только на значении свободного члена, но и на угловом коэффициенте линейной регрессионной модели. Обычно это характерно для временных рядов экономических данных при изменении институциональных условий, введении новых правовых или налоговых ограничений. Тогда зависимость может быть выражена так:
y=a +bx+ g1 D +g2D+ e, (81)
где
В этой ситуации ожидаемое значение зависимой переменной определяется следующим образом:
D=0
D=1
Коэффициенты g1иg2называются соответственнодифференциальным свободным членом и дифференциальным угловым коэффициентом.Фиктивная переменная разбивает зависимость на две части - до и после внесения изменений в условия её действия.
Общая зависимость имеет вид кусочно - линейной функции, а изменения условий отображаются изменением угла наклона прямой к оси абсцисс (линии 1 - 2).
Здесь исследователь должен принять решение, стоит ли разбивать выборку на части и строить для каждой из них Уравнение регрессии (прямые 1 и 2) или ограничиться одной общей линией регрессии (линия 3). Для этого используют тест Чоу,который состоит в следующем.
Вся выборка объёма празбивается на две подвыборки объёмамиn1ип2 (п1+п2=п)и для каждой строится уравнение регрессии. Обозначим черезs1иs2остаточные СКО для каждой из регрессий. Кроме того, строится общая регрессия для всех наблюдений (линия 3), и для неё определяется остаточная СКО, которую обозначимs3.Равенствоs3=s1+s2возможно лишь при совпадении коэффициентов регрессии для всех трех уравнений. Если суммаs1+s2будет значительно меньше, чемxj,то можно считать разбиение общей выборки на две подвыборки обоснованным. В этом смысле разность(s3 - ( s1+s2))можно считать мерой улучшения качества модели при разбиении выборки на две части. Однако при разбиении уменьшается число степеней свободы каждой из подвыборок. Эта альтернатива между числом степеней свободы и уменьшением остаточной СКО выражается через статистику
(82)
где p- число факторов. Выражение (82) равно отношению уменьшения необъясненной дисперсии к необъясненной дисперсии кусочно - линейной модели.
Если уменьшение дисперсии статистически незначимо, статистика (82) имеет распределение Фишера с(р+1, п-2р-2) степенями свободы. Если на заданном уровне значимостиα Fнабл<F(α;p+1;n-2p-2), то нет смысла разбивать уравнение регрессии на части. В противном случае разбиение на подвыборки целесообразно с точки зрения улучшения качества модели.
Если гипотеза о структурной стабильности выборки отклоняется, то исследуется вопрос о причинах структурных различий в подвыборках. Пусть данные в подвыборках описываются двумя уравнениями регрессии:
Тогда возможны следующие варианты:
1. Различие между а1иа2является статистически значимым, а коэффициентыb1иb2 статистически не различаются. При этом наблюдается скачкообразное изменение зависимости при сохранении наклона линии регрессии:
2. Различие между b1 иb2статистически значимо, а: различие междуа1иа2статистически не значимо:
3. Статистически значимыми являются и различия между a1иа2и различия междуb1иb2:
Для тестирования всех этих ситуаций применяется следующая методика, предложенная Гуйарати. Она основана на включении в модель регрессии фиктивной переменной D,которая равна 1 для всех х<х* и равна 0 для всех х>х*.Далее определяются параметры следующего уравнения регрессии:
(83)
Отсюда видно, что
a1=(a+b); b1=(c+d); (D=1),
a2=a; b1=b; (D=0),
Следовательно, параметр bесть разница междуа1иa2, параметрd -разница междуb1иb2.Если в уравнении (83)bявляется статистически значимым, аd- нет, то имеем первый вариант структурной перестройки. Если, наоборот, статистически значимым являетсяd,аb -незначим, имеем второй вариант структурных изменений. Наконец, третий вариант имеем в случае, если оба коэффициентаb и dявляются статистически значимыми.
В заключение следует отметить, что преимущество метода Гуйарати перед тестом Чоу состоит в том, что нужно построить только одно, а не три уравнения регрессии.
- Isbn 5-8399-0094-х
- Содержание
- Введение
- Парная регрессия
- 1.1. Спецификация модели
- 1.2. Оценка параметров линейной регрессии
- 1.3. Предпосылки мнк (условия Гаусса-Маркова)
- 1.4. Оценка существенности параметров линейной регрессии и корреляции
- 1.5. Интервалы прогноза по линейному уравнению регрессии
- 1.6. Нелинейная регрессия
- 11. Модель множественной регрессии
- 2.1. Оценка параметров линейного уравнения множественной регрессии
- 2.2 Частные уравнения регрессии
- 2.3. Анализ качества эмпирического уравнения множественной линейной регрессии
- 2.4. Спецификация модели
- 2.5. Гетероскедастичность
- 2.6. Автокорреляция остатков
- 2.7. Фиктивные переменные в регрессионных моделях
- III. Системы эконометрических уравнений
- 3.1. Структурная и приведенная формы модели
- 3.2. Проблема идентификации
- 3.3. Оценивание параметров структурной модели
- 3.4. Применение систем эконометрических уравнений |
- IV. Временные ряды в эконометрических исследованиях
- 4.1. Выявление структуры временного ряда
- 4.2. Динамические эконометрические модели
- Список учебной литературы