logo
Анализ продажной цены автомобиля

2.4 Третья модель регрессии с добавленными фиктивными переменными наблюдений

Эти пять наблюдений (автомобилей) плохо описываются нашей второй моделью регрессии (имеют наибольшие по абсолютному значению остатки), поскольку имеют свои особенности, и, по-видимому, эти наблюдения сильно ухудшают качество нашей модели для всех остальных наблюдений.

Поэтому, чтобы проверить наше последнее предположение, мы введем пять новых соответствующих фиктивных переменных, которые обозначим как dum84, dum80, dum82, dum4 и dum86, в соответствии с номером наблюдения. Все фиктивные переменные имеют нулевые значения, за исключением значения, равного единице, которое проставлено в соответствующий номер наблюдения.

Эти пять наблюдений будут анализироваться как отдельные явления и соответствующие коэффициенты - это изменение LN_price для этих явлений, но отношение к “общей” картине, т.е. набору данных из которого эти наблюдения. Все фиктивные переменные имеют нулевые значения, за исключением значения, равного единице, которое проставлено в соответствующий номер наблюдения.

После первого прогона регрессии, не трудно заметить, что наблюдения 4, 80, 82, 84,86 существенно выделяются. Из них цена сделки 4 и 86 явно занижены, а сделок 80, 82 и 84 явно завышены. Например, сделка 84 с УАЗом Hunter годовалого и с пробегом 2500 км представляется мало вероятной, а трех годичный УАЗом Patriot с пробегом 100000 км, был продан за 140000 рублей. К примеру, цена аналогичного автомобиля Niva составляла 300000 рублей. Скорей всего эти 5 сделок были совершены в особых условиях, информация о которых отсутствует. Выделив эти наблюдения каждое по отдельности путем ведения соответствующих фиктивных переменных, получим следующий результат (смотри таблицу 5):

В таблице 5 приведен вывод в пакете EViews результатов оценивания третьей модели регрессии с добавленными фиктивными переменными наблюдений. Прежде всего, отметим, что все коэффициенты регрессии этого уравнения значимы.

Таблица 5. Вывод в пакете EViews результатов оценивания третьей модели регрессии.

Dependent Variable: LN_PRICE

Method: Least Squares

Date: 05/15/13 Time: 15:21

Sample: 1 132

Included observations: 130

Variable

Coefficient

Std. Error

t-Statistic

Prob.

C

12.66378

0.105021

120.5837

0.0000

MARK

-0.220201

0.035894

-6.134738

0.0000

STATE

0.116289

0.041017

2.835149

0.0054

POWER

0.363213

0.097242

3.735144

0.0003

DUM2_YEAR

-0.101235

0.042501

-2.381912

0.0188

DUM4_YEAR

-0.342298

0.057943

-5.907472

0.0000

DUM3_YEAR

-0.301499

0.061127

-4.932346

0.0000

DUM84

0.737169

0.185649

3.970764

0.0001

DUM80

0.632533

0.184907

3.420810

0.0009

DUM82

0.548817

0.185626

2.956579

0.0038

DUM4

-0.425621

0.185609

-2.293101

0.0236

DUM86

-0.539456

0.192717

-2.799213

0.0060

RUN

-2.90E-06

6.59E-07

-4.403834

0.0000

R-squared

0.756043

Mean dependent var

12.76526

Adjusted R-squared

0.731022

S.D. dependent var

0.349080

S.E. of regression

0.181044

Akaike info criterion

-0.485517

Sum squared resid

3.834889

Schwarz criterion

-0.198763

Log likelihood

44.55860

Hannan-Quinn criter.

-0.368999

F-statistic

30.21607

Durbin-Watson stat

0.957412

Prob(F-statistic)

0.000000

Полученное новое уравнение удовлетворяет всем требованиям и его коэффициенты подсчитаны так, что наши пять наблюдений на них не влияют.