Анализ продажной цены автомобиля

3. Точечные и интервальные внутри-выборочные прогнозы для продажной стоимости автомобилей

Для каждого внутри-выборочного наблюдения программа EViews вычисляет точечные прогнозные значения объясняемой (зависимой) переменной, используя оцененные значения коэффициентов регрессии и значения экзогенных переменных в правой части уравнения регрессии.

Для нашей третьей модели регрессии мы получили следующее оцененное уравнение (в круглых скобках значения стандартных ошибок коэффициентов, смотри таблицу 7):

(0,077) (0,049) (0,036) (0,064)

(0,052) (0,058) (0,061)

(0,062) (0,051) (0,062) (0,062) (0,062)

, , ()

где dum3_power - взаимодействие 2006г. выпуска автомобиля с его мощностью, то есть автомобили 2006г. выпуска с мощностью 128 л. с.

Для каждого внутри-выборочного наблюдения программа EViews вычисляет точечные прогнозные значения логарифмической продажной стоимости автомобиля , , используя формулу, в которой среднее значение остатка полагается равным нулю.

Согласно классическим учебникам [Основы эконометрики. Прикладная статистика. С.А. Айвазян, В.С. Мхитарян. М.: Юнити 2001^;Эконометрика. Начальный курс (7-ое издание). Катышев П.К., Магнус Я.Р., Пересецкий А.А. М.:Дело, 2005.^; Путеводитель по современной эконометрике. Вербик М. Пер. с англ. В.А. Банников. Научн. ред. и предисл. С.А. Айвазян. - М.: Научная книга, 2008. "Библиотека Солев";], точечные прогнозы делаются с ошибкой, где ошибка - это просто разность между фактическим и прогнозным значением, то есть остаток . Если модель специфицирована правильно, то существуют два источника ошибки прогноза: неопределенность в остатках и неопределенность в коэффициентах регрессии.

Первый источник ошибки прогноза, называемый неопределенностью в остатках (возмущениях), возникает из-за того, что в выборке прогнозирования возмущения в уравнении (1) неизвестны, и они заменяются их математическими ожиданиями, равными нулю. Несмотря на то, что математическое ожидание остатков равно нулю, индивидуальные значения остатков не нулевые; чем больше вариация в индивидуальных остатках, тем больше ошибка в прогнозах.

Стандартное измерение этой вариации - стандартная ошибка регрессии (помеченная в выводе результатов оценивания уравнения “S.E. of regression”). Неопределенность в остатках обычно является самым большим источником ошибки прогноза.

Второй источник ошибки прогноза - это неопределенность в коэффициентах. Оцененные коэффициенты уравнения регрессии отклоняются от истинных (теоретических) коэффициентов регрессии случайным образом.

Эффект влияния неопределенности в коэффициентах зависит от переменных. Чем больше экзогенные переменные отклоняются от своих средних значений, тем ниже точность прогнозов.

Вариабельность прогнозов измеряется стандартными ошибками прогнозов. Для невзвешенного уравнения регрессии стандартные ошибки прогнозов вычисляются по формуле:

где - стандартная ошибка регрессии. Эти стандартные ошибки объясняются как неопределенностью остатков (первый член под корнем в правой части уравнения), так и неопределенностью коэффициентов (второй член под корнем).

Точечные прогнозы, построенные из линейной модели регрессии, оцененной методом наименьших квадратов, оптимальны в том смысле, что они имеют наименьшую дисперсию прогноза среди прогнозов, сделанных с помощью линейных несмещенных оценок коэффициентов регрессии. Далее, если остатки распределены по нормальному закону, то ошибки прогнозов тоже. Тогда с помощью t-распределения, и легко можно получить интервалы прогнозов.

Рисунок 4. Точечные и 95%-ые интервальные внутри-выборочные прогнозы для логарифмической продажной стоимости автомобилей с таблицей статистических результатов оценивания прогнозов.

На рисунке 4 представлен график точечных и 95%-ых интервальных внутри-выборочных прогнозов для логарифмической продажной стоимости автомобилей с таблицей статистических результатов оценивания качества прогнозирования логарифмической продажной стоимости автомобилей.

На графике верхняя и нижняя кривая соответствуют верхним и нижним границам 95%-ых доверительных интервалов, а срединная кривая соответствует точечным прогнозам.

В таблице, справа от графика, первые две статистики ошибок прогнозов зависят от масштаба зависимой переменной. Их следует применять для сравнения прогнозов из разных моделей по правилу: чем меньше ошибка, тем лучше способность прогнозирования модели. Это среднеквадратичная ошибка прогнозов (Root Mean Squared Error в таблице) и средняя абсолютная ошибка прогнозов (Mean Absolute Error).

Оставшиеся две статистики, средняя абсолютная ошибка прогноза в процентах (Mean Abs. Persent Error) и коэффициент неравенства Тейла (Theil Inequality Coefficient), не зависят от масштаба зависимой переменной. Коэффициент неравенства Тейла всегда лежит между нулем и единицей, где нуль указывает на точное совпадение прогнозных и фактических значений.

Доля (в среднеквадратичной ошибке прогнозов) систематической ошибки прогнозов (Bias Proportion) говорит нам, насколько далеко среднее значение прогнозов от среднего значения фактического ряда.

Доля (в среднеквадратичной ошибке прогнозов) дисперсии прогнозов (Variance Proportion) говорит нам, насколько далеко вариация прогнозов от вариации фактического ряда.

Доля (в среднеквадратичной ошибке прогнозов) ковариации прогнозных и фактических значений (Covariance Proportion) измеряет остающиеся несистематические ошибки прогнозов.

Отметим, что доля систематической ошибки, доля дисперсии и доля ковариации прогнозов в сумме составляют единицу.

Если прогнозы “хороши”, то доля систематической ошибки и доля дисперсии прогнозов должны быть маленькими, так что большая часть в среднеквадратичной ошибке прогнозов была бы сконцентрирована на доле ковариации прогнозов и фактических значений.

Значения статистик оценивания качества прогнозирования в таблице свидетельствуют о хорошем качестве подобранной модели. Например, значение доля систематической ошибки прогнозов равна нулю. Это показывает, что среднее значение прогнозов полностью отслеживает среднее значение зависимой переменной.

Значение статистики R-квадрат для нашего “наилучшего” третьего уравнения регрессии равно 0,756, то есть почти 76% дисперсии переменной логарифмическая продажная стоимость автомобиля объясняется независимыми переменными, включенными в правую часть этого уравнения регрессии. Следовательно, 24% дисперсии переменной логарифмическая продажная стоимость автомобиля имеющимися у нас независимыми переменными не объясняется. И это визуально отражается на графике рисунке 5.

Рисунок 5. Фактические значения и точечные прогнозные значения продажной стоимости автомобилей в рублях с верхней и нижней границами для 95%-ых доверительных интервалов.

PRICE_INCREASE - наблюденное значение.

PRICE _F_INCR - предсказанное значение.

PRICE_UP_INCR - верхняя 95% доверительная граница.

PRICE_LOW_INCR - нижняя 95% доверительная граница.

На графике рисунка 5 верхняя и нижняя кривая соответствуют верхним и нижним границам 95%-ых доверительных интервалов, а две срединных кривых соответствуют значениям точечных прогнозов и фактическим значениям продажной стоимости автомобилей в рублях, причем фактическим значениям продажной стоимости автомобилей в рублях соответствует более гладкая кривая. Для визуального удобства по оси абсцисс наблюдения также упорядочены по возрастанию фактических значений продажной стоимости автомобилей в рублях.

Отметим, что все фактические значения продажной стоимости автомобилей в руб. попадают в 95%-ые доверительных интервалы прогнозов, за исключением четырех фактических значений с наибольшими продажными стоимостями в рублях из 130 фактических значений.

Содержание