3.2. Парная линейная регрессия
3.2.1. Оценка неизвестных параметров
Пусть на основе имеющихся статистических данных для х и у необходимо построить линейную регрессионную модель:
(3.2.1)
Всего имеется n наблюдений за показателями х и у. Для данной модели неизвестными параметрами являются и .
Таким образом, построение уравнения регрессии сводится к оценке ее параметров и . Для их нахождения используется метод наименьших квадратов (МНК). МНК позволяет получить такие оценки параметров и , при которых сумма квадратов отклонений результирующего признака у от теоретического (полученного из модели) минимальна, то есть
(3.2.2)
Решением данной задачи являются оценки неизвестных параметров:
(3.2.3)
где - средние значения х и у соответственно:
(3.2.4)
- теоретические (модельные) значения для и , полученные методом наименьших квадратов;
выборочная ковариация: (3.2.5)
выборочная дисперсия: (3.2.6)
МНК требует выполнения условий Гаусса – Маркова, которые гарантируют состоятельность, несмещенность и эффективность найденных оценок.
Условия Гаусса – Маркова:
1.E( )=0, E( )=V( )= – не зависит от j, j=1…n.
Математическое ожидание ошибок равно нулю, дисперсия ошибок постоянна и не зависит от номера наблюдения.
2. E( )=0 при t s, некоррелированность ошибок для разных наблюдений.
Ошибки независимы.
3. Ошибки , j=1…n, имеют совместное нормальное распределение ~ .
В этом случае модель называется нормальной линейной регрессионной.
Замечание: оценка является несмещенной, если математическое ожидание значения оценки параметра равно истинному значению параметра: ;
оценка называется эффективной, если она максимально точно описывает истинное значение, то есть отклонение оценок от реального значения минимально (дисперсия минимальна);
оценка является состоятельной, если при увеличении количества наблюдений в анализируемой выборке ее значение стремится к истинному значению показателя.
Тесноту связи изучаемых явлений х и у определяет линейный коэффициент парной корреляции
(3.2.7)
, то есть если =1, то реальные и модельные значения полностью совпадают (все точки лежат на прямой), если =0, то это означает отсутствие линейной зависимости.
Для оценки качества построенной модели (качества подгонки модели под исходные статистические данные) используют коэффициент детерминации.
Качество построенной модели определяется отклонением реального значения объясняемой переменной у от ее среднего значения , то есть от дисперсии результирующего признака:
(3.2.8)
где - общая сумма квадратов отклонений;
- сумма квадратов отклонений, объясненная регрессией (факторная дисперсия);
- остаточная дисперсия.
Коэффициент детерминации представляет собой долю дисперсии, объясненную регрессией к общей сумме квадратов отклонений:
(3.2.9)
принимает значения между 0 и 1. Если = 0, то это означает, что построенная регрессия ничего не дает, то есть построенная модель не лучше математического ожидания у. Если =1, то модель полностью соответствует статистическим данным, то есть все точки наблюдения лежат на регрессионной прямой. Чем ближе к 1, тем лучше качество подгонки.
Для парной линейной регрессии справедливо
(3.2.10)
Важным показателем для оценки полученной модели является средняя ошибка аппроксимации – среднее отклонение расчетных значений от фактических.
(3.2.11)
Модель является “хорошей”, если средняя ошибка аппроксимации не превышает 8-10%.
3.2.2. Значимость модели регрессии
После вычисления МНК оценок коэффициентов линейной регрессии, необходимо количественно оценить значимость модели.
1. F - тест используется для проверки гипотезы о значимости модели в целом с помощью статистики Фишера.
Выдвигается нулевая гипотеза : о статистической незначимости уравнения регрессии.
Для проверки данной гипотезы необходимо сравнить фактическое и критическое (табличное) значения F – статистики Фишера.
(3.2.12)
где n – число единиц совокупности.
- максимально возможное значение критерия под влиянием случайных факторов при данных степенях свободы и уровне значимости γ, где γ – вероятность отвергнуть правильную гипотезу, при условии, что она верна. Обычно уровень значимости берется равны 1% или 5%.
Если < , то гипотеза о незначимости модели в целом отклоняется, то есть модель является статистически значимой.
Если > , то гипотеза принимается, то модель является статистически незначимой.
2. t – статистика используется для проверки гипотезы о значимости коэффициентов регрессии с помощью статистики Стьюдента.
Выдвигаются гипотеза : α=0 о незначимости коэффициента α
: β=0 о незначимости коэффициента β
Для проверки данной гипотезы необходимо сравнить фактическое и критическое (табличное) значения t – статистики Стьюдента.
Фактические значения t –статистик для α и β соответственно
(3.2.13)
где (3.2.14)
Далее фактические значения сравниваются с табличными при определенном уровне значимости γ аналогично критерию Фишера.
Для α и β определяются доверительные интервалы:
– доверительный интервал для ,
– доверительный интервал для ,
Замечания: 1)если по исходным статистическим данным был построен доверительный интервал с вероятностью γ, то принимается решение, что или β находится в этом интервале;
2) – табличное значение статистики Стьюдента при уровне значимости γ. При числе степеней свободы более 200 (количество наблюдений более 200) на 5%-ом уровне значимости = 1,96.
Если в границы доверительного интервала попадает ноль, то есть нижняя граница отрицательна, а верхняя положительная, то оцениваемый параметр принимается за ноль, так как он не может одновременно принимать положительное и отрицательное значения.
3.2.3. Прогнозирование
Пусть в выборке находится n наблюдений. Необходимо определить значение объясняемой переменной.
Прогнозирование осуществляется путем подстановки в уравнение регрессии соответствующего прогнозного значения .
Для определения качества прогноза вычисляется средняя стандартная ошибка оценивания
(3.2.15)
где m – число параметров при переменных х.
- точечная оценка прогноза, она дополняется доверительным интервалом: - доверительный интервал для с вероятностью γ=1-ω.
Таким образом, вероятность того, что принадлежит доверительному интервалу равняется γ.
Кроме того, для оценки качества прогноза и оценки качества подгонки используют показатели:
среднеквадратическая ошибка прогноза, рассчитывается по формуле
(3.2.16)
где k – горизонт прогнозирования;
среднеквадратическая ошибка подгонки
(3.2.17)
среднеквадратическая ошибка прогноза (подгонки) показывает среднее отклонение прогнозного значения от реального в тех же единицах, что и изучаемый процесс (то есть если показатель у рассчитан в рублях, то и значение RMSE будет получено в рублях);
средняя процентная ошибка прогноза
(3.2.18)
средняя процентная ошибка подгонки
(3.2.19)
Особенностью средней процентной ошибки является то, что она оценивает отклонение прогнозного (модельного) значения от реального в процентах.
Замечание: прогноз условно считается качественным, если значение средней процентной ошибки не превосходит 10%.
Контрольные вопросы
1. Что такое парная регрессия? Какие переменные входят в ее состав?
2. Назовите экономические процессы, которые можно описать с помощью линейных, полиномиальных, гиперболических, степенных, показательных и экспоненциальных функций. Приведите примеры.
3. Какие параметры в модели являются неизвестными? Как можно оценить их значение?
4. Какими свойствами должны обладать найденные оценки неизвестных параметров? Каким условиям они должны удовлетворять?
5. С помощью какого показателя можно определить тесноту связи между явлениями х и у в парной линейной регрессии? Каким свойством обладает данный коэффициент?
6. Для чего необходим коэффициент детерминации? Какими свойствами он обладает?
7. Опишите алгоритм проверки значимости модели в целом.
8. Опишите алгоритм проверки значимости коэффициентов регрессии.
9. В чем отличие точечной и интервальной оценки? Как получить доверительный интервал для оцениваемого коэффициента регрессии?
Тестовые вопросы
1.Что показывает коэффициент b в линейной парной регрессии ?
среднее значение у;
на сколько единиц изменится у при изменении х на одну единицу;
на сколько единиц изменится у при изменении х на 1%.
2. Экспоненциальная функция в эконометрических моделях используется, если
необходимо описать наиболее быстрый рост изучаемого явления;
необходимо описать плавный рост изучаемого явления;
для приведения модели к линейному виду.
3. Оценка является несмещенной, если
математическое ожидание оценки параметра равно математическому ожиданию прогноза параметра;
отклонение в оценке параметра от его реального значения минимально;
математическое ожидание оценки параметра равно истинному значению параметра.
4. Оценка является эффективной, если
отклонение в оценке параметра от его реального значения минимально;
при увеличении анализируемой совокупности значение оценки стремится к истинной величине;
математическое ожидание оценки параметра равно истинному значению параметра.
5. Для оценки качества подгонки модели под исходные данные используют
t – статистику Стьюдента;
F – статистику Фишера;
коэффициент детерминации.
6. Если в результате расчетов исследователь получил соотношение , то
данный коэффициент регрессии значим;
модель в целом незначима;
модель в целом значима.
7. Прогнозирование в эконометрических моделях – это
нахождение с помощью полученной модели ненаблюдаемого значения зависимой переменной;
визуальное оценивание ряда статистических данных и выдвижение предположения о его дальнейшем поведении;
оцениваниеи неизвестных параметров регрессии.
Список литературы
Айвазян С.А. Основы эконометрики: Учебник для вузов, т.2. – М.: ЮНИТИ – ДАНА, 2001. – 432 с;
Айвазян С.А., Мхитрян В.С. Прикладная статистика и основы эконометрики. – М.: ЮНИТИ, 1998;
Берндт Э. Практика эконометрики: классика и современность. – М.: ЮНИТИ, 2005;
Бородич С.А. Эконометрика. – Минск: Новое знание, 2001;
Доугерти К. Введение в эконометрику: Перев. с англ. – М.: ИНФРА – М, 1997. – 402 с;
Катышев П.К., Магнус Я.Р., Пересецкий А.А. Сборник задач к начальному курсу эконометрики. – 2-е изд., перераб. и доп. – М.: Дело, 2002. – 208 с;
Магнус Я.Р., Катышев П.К., Пересецкий А.А. Эконометрика. Начальный курс: Учеб.- 6-е изд., перераб. и доп. – М.: Дело, 2004. – 576 с;
Практикум по эконометрике: Учеб. пособие (под ред. И.И. Елисеевой). – М.: Финансы и статистика, 2001. – 192 с;
Эконометрика: Учебник (под ред. И.И. Елисеевой). – М.: Финансы и статистика, 2001. – 344 с.
- 1. Что такое эконометрика?
- 1. Что такое эконометрика?
- 2. Основные типы эконометрических моделей
- 2.1. Регрессионные модели с одним уравнением
- 2.2. Модели временных рядов
- 2.3. Системы одновременных уравнений
- 3. Однофакторная парная регрессионная модель
- 3.1. Функциональная спецификация модели
- 3.2. Парная линейная регрессия
- 4. Множественная регрессия
- 4.1. Нахождение оценок неизвестных параметров
- 4.2. Значимость модели множественной регрессии
- 4.3. Мультиколлинеарность
- 4.4. Гетероскедастичность
- 4.5. Автокорреляция
- 4.6 Фиктивные переменные
- 5. Реализация типовых задач на компьютере
- 5.1 Регрессионный анализ в ms Excel
- 5.2 Другие возможности ms Excel
- 5.3 Анализ полученной модели
- 6. Задачи
- Глоссарий
- Список вопросов к экзамену (зачету)