УДК 330-8

2.7. Фиктивные переменные в регрессионных моделях

В регрессионных моделях наряду с количественными переменными часто используются качественные переменные, которые выражаются в виде фиктивных (искусственных) переменных, отражающих два противоположных состояния качественного фактора. Например, D=0,если потребитель не имеет высшего образования,D=1, если потребитель имеет высшее образование. ПеременнаяDназывается фиктивной, или двоичной переменной, а также индикатором.

Таким образом, кроме моделей, содержащих только количественные переменные, в регрессионном анализе рассматриваются также модели, содержащие лишь качественные переменные (обозначаемые D_i), либо те и другие одновременно.

Регрессионные модели, содержащие лишь качественные объясняющие переменные, называются ANOVA- моделями (моделями дисперсионного анализа).

Например, зависимость начальной заработной платы от образования может быть записана так:

y=a + gD + e,

где D=0, если претендент на рабочее место не имеет высшего образования,D=l, если имеет. Тогда при отсутствии высшего образования начальная заработная плата равна:

а при его наличии:

При этом параметр аопределяет среднюю начальную заработную плату при отсутствии высшего образования. Коэффициентgпоказывает, на какую величину отличаются средние начальные заработные платы при наличии и при отсутствии высшего образования у претендента. Проверяя статистическую значимость коэффициентаgс помощьюt -статистики, можно определить, влияет или нет наличие высшего образования на начальную заработную плату.

Нетрудно заметить, что ANOVA- модели представляют собой кусочно - постоянные функции. Такие модели в экономике крайне редки. Гораздо чаще встречаются модели, содержащие как количественные, так и качественные переменные. Такие модели называютсяANCOVA- моделями (моделями ковариационного анализа).

Сначала рассмотрим простую модель заработной платы сотрудника фирмы в зависимости от стажа работы хи пола сотрудникаD:

(80)

где

Тогда для женщин ожидаемое значение заработной платы будет

а для мужчин -

Эти зависимости являются линейными относительно стажа работы х и различаются только величиной свободного члена. Если коэффициентgявляется статистически значимым, то можно сделать вывод, что в фирме имеет место дискриминация в заработной плате по половому признаку. Приg>0она будет в пользу мужчин, приg<0- в пользу женщин. На графике такие зависимости изображаются параллельными прямыми.

В случае, когда качественная переменная принимает не два, а большее число значений, может возникнуть ситуация, которая называется ловушкой фиктивной переменной. Она возникает, когда для моделирования kзначений качественного признака используется ровноkбинарных (фиктивных) переменных. В этом случае одна из таких переменных линейно выражается через все остальные, и матрица значений переменных становится вырожденной. Тогда исследователь попадает в ситуацию совершенной мультиколлинеарности. Избежать подобной ловушки позволяет правило:

- если качественная переменная имеет k альтернативных значений, то при моделировании используется только (k-1) фиктивных переменных.

Например, если качественная переменная имеет 3 уровня, то для моделирования достаточно двух фиктивных переменных D₁иD₂.Тогда для обозначения третьего уровня достаточно принять, например, обе переменные равными нулю:D₁=D₂=0.В частности, для обозначения уровня экономического развития страны (развитая, развивающаяся или страна «третьего мира») можно использовать обозначения:

Тогда d₁=d₂=o означает страну «третьего мира». Нулевой уровень качественной переменной называется базовымилисравнительным.

Кроме того, значения фиктивных переменных можно изменять на противоположные. Суть модели от этого не изменится. Изменится только знак коэффициента gв модели (80).

Коэффициент gв модели (80) называется дифференциальным свободным членом, т.к. он показывает, на какую величину изменится свободный член модели при изменении значения фиктивной переменной.

Возможны модели, в которых используются несколько фиктивных переменных, не связанных между собой по смыслу. Например, переменная d₁ означает пол работника,aD₂ -наличие или отсутствие у него высшего образования. Тогда возможны все комбинации значений различных качественных переменных, в которых регрессии отличаются лишь свободными членами.

Подобные схемы можно распространить на произвольное число количественных или качественных факторов. При этом не следует забывать, что если качественный фактор имеет kальтернативных состояний, то для его описания можно использовать толькоkразличных сочетаний значений (k-1) фиктивных переменных. Например, если качественная переменная имеет 4 уровня, то для её описания следует использовать 3 фиктивные (бинарные) переменные. Максимально возможное число сочетаний их значений равно восьми (два в третьей степени), однако в регрессии можно реально использовать только четыре из них.

Влияние качественного фактора может сказываться не только на значении свободного члена, но и на угловом коэффициенте линейной регрессионной модели. Обычно это характерно для временных рядов экономических данных при изменении институциональных условий, введении новых правовых или налоговых ограничений. Тогда зависимость может быть выражена так:

y=a +bx+ g₁ D +g₂D+ e, (81)

где

В этой ситуации ожидаемое значение зависимой переменной определяется следующим образом:

D=0

D=1

Коэффициенты g₁иg₂называются соответственнодифференциальным свободным членом и дифференциальным угловым коэффициентом.Фиктивная переменная разбивает зависимость на две части - до и после внесения изменений в условия её действия.

Общая зависимость имеет вид кусочно - линейной функции, а изменения условий отображаются изменением угла наклона прямой к оси абсцисс (линии 1 - 2).

Здесь исследователь должен принять решение, стоит ли разбивать выборку на части и строить для каждой из них Уравнение регрессии (прямые 1 и 2) или ограничиться одной общей линией регрессии (линия 3). Для этого используют тест Чоу,который состоит в следующем.

Вся выборка объёма празбивается на две подвыборки объёмамиn₁ип₂ (п₁+п₂=п)и для каждой строится уравнение регрессии. Обозначим черезs₁иs₂остаточные СКО для каждой из регрессий. Кроме того, строится общая регрессия для всех наблюдений (линия 3), и для неё определяется остаточная СКО, которую обозначимs₃_.Равенствоs₃=s₁+s₂возможно лишь при совпадении коэффициентов регрессии для всех трех уравнений. Если суммаs₁+s₂будет значительно меньше, чемx_j_,то можно считать разбиение общей выборки на две подвыборки обоснованным. В этом смысле разность(s₃- ( s₁+s₂))можно считать мерой улучшения качества модели при разбиении выборки на две части. Однако при разбиении уменьшается число степеней свободы каждой из подвыборок. Эта альтернатива между числом степеней свободы и уменьшением остаточной СКО выражается через статистику

(82)

где p- число факторов. Выражение (82) равно отношению уменьшения необъясненной дисперсии к необъясненной дисперсии кусочно - линейной модели.

Если уменьшение дисперсии статистически незначимо, статистика (82) имеет распределение Фишера с(р+1, п-2р-2) степенями свободы. Если на заданном уровне значимостиα F_набл<F(α;p+1;n-2p-2), то нет смысла разбивать уравнение регрессии на части. В противном случае разбиение на подвыборки целесообразно с точки зрения улучшения качества модели.

Если гипотеза о структурной стабильности выборки отклоняется, то исследуется вопрос о причинах структурных различий в подвыборках. Пусть данные в подвыборках описываются двумя уравнениями регрессии:

Тогда возможны следующие варианты:

1. Различие между а₁иа₂является статистически значимым, а коэффициентыb₁иb₂ статистически не различаются. При этом наблюдается скачкообразное изменение зависимости при сохранении наклона линии регрессии:

2. Различие между b₁ иb₂статистически значимо, а: различие междуа₁иа₂статистически не значимо:

3. Статистически значимыми являются и различия между a₁иа₂и различия междуb₁иb₂:

Для тестирования всех этих ситуаций применяется следующая методика, предложенная Гуйарати. Она основана на включении в модель регрессии фиктивной переменной D,которая равна 1 для всех х<х* и равна 0 для всех х>х*.Далее определяются параметры следующего уравнения регрессии:

(83)

Отсюда видно, что

a₁=(a+b); b₁=(c+d); (D=1),

a₂=a; b₁=b; (D=0),

Следовательно, параметр bесть разница междуа₁иa₂, параметрd -разница междуb₁иb₂.Если в уравнении (83)bявляется статистически значимым, аd- нет, то имеем первый вариант структурной перестройки. Если, наоборот, статистически значимым являетсяd,аb -незначим, имеем второй вариант структурных изменений. Наконец, третий вариант имеем в случае, если оба коэффициентаb и dявляются статистически значимыми.

В заключение следует отметить, что преимущество метода Гуйарати перед тестом Чоу состоит в том, что нужно построить только одно, а не три уравнения регрессии.

Содержание