Замещающие переменные. Фиктивные переменные.
Часто бывает, что вы не можете найти данных по переменной, которую хотелось бы включить в уравнение регрессии. Некоторые переменные, относящиеся к социально-экономическому положению или к качеству образования, имеют такое расплывчатое определение, что их в принципе даже невозможно измерить. Другие могут поддаваться измерению, но оно требует столько времени и энергии, что на практике их приходится отбрасывать. Иногда вы можете быть расстроены тем, что пользуетесь какими-то данными, собранными другим человеком, в которых (с вашей точки зрения) опущена важная переменная.
Независимо от причины обычно бывает полезно вместо отсутствующей переменной использовать некоторый ее заменитель (proxy), а не пренебрегать ею совершенно. В качестве показателя общего социально-экономического положения вы можете использовать его заменитель — показатель дохода, если данные о нем имеются. В качестве показателя качества образования можно использовать отношение числа преподавателей и сотрудников к числу студентов или расходы на одного студента. Вместо переменной, опущенной в каком-либо обзоре, вы можете обратиться к другим, уже фактически собранным данным, если в них имеется подходящая замещающая переменная.
Имеются две причины для поиска такой переменной. Во-первых, если вы просто опустите важную переменную, то регрессия может пострадать от смещения оценок, описанного выше, и статистическая проверка будет неполноценной. Во-вторых, результаты оценки регрессии с включением замещающей переменной могут дать косвенную информацию о той переменной, которая замещена данной переменной.
Иногда случается, что вы используете замещающую переменную, не осознавая этого. Вы полагаете, что у зависит от z, а в действительности эта величина зависит от х.
Если корреляция между величинами z и х незначительна, то результаты будут плохими, и вы поймете, что тут что-то неладно. Но если корреляция тесная, то результаты окажутся удовлетворительными (коэффициент R2 будет близок к желаемому уровню и т. п.), и вы можете даже не подозревать, что полученное соотношение неверно.
Имеет ли это какое-то значение? Это, во-первых, зависит от того, с какой целью вы строите данную регрессию. Если целью оценивания регрессии является предсказание будущих значений величины у, то использование замещающей переменной не будет иметь большого значения при условии, конечно, что корреляция тесная и не является в то же время статистической счастливой случайностью. Однако если вы намерены использовать объясняющую переменную в качестве инструмента экономической политики для оказания влияния на поведение зависимой переменной, то последствия могут оказаться катастрофическими. Если только не будет функциональной связи между замещающей переменной и истинной объясняющей переменной, манипулирование замещающей переменной не окажет никакого влияния на зависимую переменную. Если мотивом построения регрессии является чисто научное любопытство, то исход будет столь же неудовлетворительным.
Непреднамеренное использование замещающих переменных особенно распространено при анализе временных рядов, в частности в макроэкономических моделях. Если истинная объясняющая переменная имеет временной тренд, то вы, вероятно, получите хорошую оценку формулы, если замените (преднамеренно или нет) ее на любую другую переменную с временным трендом. Даже если вы связываете приращения зависимой переменной с приращениями объясняющей переменной, вы, вероятно, получите аналогичные результаты независимо от того, используется ли правильная объясняющая переменная или же замещающая переменная, поскольку макроэкономические переменные обычно изменяются взаимосвязанно, в соответствии с экономическим циклом.
Фиктивная переменная – это атрибутивная или качественная, факторная переменная, которая представлена с помощью определенного цифрового кода.
При исследовании влияния качественных признаков в модель следует вводить фиктивные переменные, принимающие, как правило два значения: 1, если данный признак присутствует в наблюдении; 0 — при его отсутствии.
Если включаемый в рассмотрение качественный признак имеет не два, а несколько значений, то используют несколько фиктивных переменных, число которых должно быть на единицу меньше числа значений признака. При назначении фиктивных переменных исследуемая совокупность по числу значений качественного признака разбивается на группы. Одну из групп выбирают как эталонную и определяют фиктивные переменные для остальных.
Если качественный признак имеет 2 значения, то это можно отразить, введя 1 фиктивную переменную. Например, строится модель, характеризующая показатели предприятий двух отраслей промышленности: электроэнергетики и газовой промышленности. Вводится фиктивная переменная, которой присваивается значение 0, если данные относятся к предприятиям электроэнергетики, и значение 1, если данные относятся к предприятиям газовой промышленности.
Если качественный признак имеет 3 значения, то это можно отразить, введя 2 фиктивных переменных. Например, строится модель, характеризующая показатели предприятий 3 регионов. Вводится 1 фиктивная переменная, которой присваивается значение 0, если данные относятся к предприятиям первого региона, и значение 1, если данные относятся к предприятиям двух других регионов. Второй фиктивной переменной присваивается значение О, если данные относятся ко второму региону, и 1, если данные относятся к первому и третьему регионам.
Введение в регрессию фиктивных переменных существенно улучшает качество оценивания.
- Эконометрическая модель.
- Измерения в экономике. Шкалы измерений.
- Случайные события и случайные переменные. Распределение случайных величин.
- Статистические характеристики случайных величин и их свойства.
- Основные функции распределения.
- Оценки статистических характеристик и их желательные свойства.
- Проверка статистических гипотез.
- Критерий и критическая область.
- Мощность статистического критерия. Уровень значимости.
- Модель линейной регрессии.
- Оценивание параметров регрессии. Метод наименьших квадратов.
- Система нормальных уравнений мнк и ее решение.
- Свойства оценок параметров, полученных методом наименьших квадратов. Условия Гаусса – Маркова.
- Коэффициент детерминации и его свойства.
- Предположение о нормальном распределении случайной ошибки в рамках классической линейной регрессии и его следствия.
- Доверительные интервалы оценок параметров и проверка гипотез об их значимости.
- Прогнозирование по регрессионной модели и его точность. Доверительные и интервалы прогноза.
- Ковариационная матрица оценок коэффициентов регрессии.
- Проверка значимости коэффициентов и адекватности регрессии для множественной линейной регрессионной модели.
- Коэффициент множественной детерминации. Скорректированный коэффициент детерминации.
- Проблемы спецификации регрессионной модели. Пошаговая регрессия.
- Проблема смещения Предположим, что переменная у зависит от двух переменных х1, и х2 в соответствии с соотношением:
- Неприменимость статистических тестов
- Замещающие переменные. Фиктивные переменные.
- Мультиколлинеарность. Влияние мультиколлинеарности на оценки параметров уравнения регрессии.
- Методы борьбы с мультиколлинеарностью.
- Линеаризация регрессионных моделей путем логарифмических преобразований.
- Модели с постоянной эластичностью. Производственная функция Кобба - Дугласа.
- Модель с постоянными темпами роста (полулогарифмическая модель).
- Полиномиальная регрессия.
- Кривая Филипса
- Гетероскедастичность. Последствия гетероскедастичности для оценок параметров регрессии методом наименьших квадратов и проверки статистических гипотез.
- Признаки гетероскедастичности и ее диагностирование. Обнаружение гетероскедастичности
- 1. Графический анализ остатков
- 2. Тест ранговой корреляции Спирмена
- 3. Тест Голдфелда-Квандта
- Оценивание коэффициентов множественной линейной регрессии в условиях гетероскедастичности. Обобщенный метод наименьших квадратов.
- Автокорреляция. Причины автокорреляции.
- Влияние автокорреляции на свойства оценок мнк.
- Тест серий. Статистика Дарбина – Уотсона.
- Способы противодействия автокорреляции.
- Стохастические объясняющие переменные. Последствия ошибок измерения.
- Инструментальные переменные.
- Лаговые переменные и экономические зависимости между разновременными значениями переменных.
- Модели с распределенными лагами.
- Модели авторегрессии как эквивалентное представление моделей с распределенными лагами.
- Ожидания экономических агентов и лаговые переменные в моделях
- Модели наивных и адаптивных ожиданий.
- Модель гиперинфляции Кейгана.
- 44. Модель гиперинфляции Кейгана
- Понятие об одновременных уравнениях. Структурная и приведенная форма модели.
- Структурная и приведённая форма. Идентифицируемость
- Примеры
- Проблема идентификации. Неидентифицируемость и сверхидентифицированность.
- Оценивание системы одновременных уравнений. Косвенный и двухшаговый мнк.
- Системы эконометрических уравнений с лаговыми переменными.
- Модель Кейнса.
- Модель Клейна.
- Матричная форма записи модели Клейна