Множественная регрессия. Верификация модели
Задача
1. Аппроксимировать зависимость между факторным (х) и результативным (у) показателем с помощью линейной, гиперболической и степенной функции.
2. Оценить степень тесноты связи между исследуемыми показателями.
3. Определить долю факторной дисперсии в общей вариации результативного признака.
4. Оценить значимость полученного уравнения регрессии и отдельных его параметров.
5. Оценить адекватность полученной математической модели.
6. На основе пп. 2-4 выбрать наилучшую модель и на ее основе дать прогноз результативного показателя при минимальных, максимальных и средних значениях факторного показателя.
Среднесезонное количество выпавших осадков в виде дождя, (х, мм) |
|||||||||||
х |
149 |
172 |
184 |
186 |
195 |
200 |
218 |
229 |
227 |
235 |
|
Количество проданных зонтов фирмой за сезон (у, тыс. шт.) |
|||||||||||
у |
0,5 |
,32 |
,91 |
,47 |
,67 |
,36 |
,74 |
,46 |
,79 |
0,36 |
Решение
1. Линейное уравнение регрессии имеет вид y = bx + a + е
Здесь е - случайная ошибка (отклонение, возмущение).
Формально критерий МНК можно записать так:
S = ?(yi - y*i)2 > min
Система нормальных уравнений.
a*n + b?x = ?y
a?x + b?x2 = ?y*x
Таблица 1
x |
y |
x2 |
y2 |
x * y |
|
149 |
0,5 |
22201 |
0,25 |
74,5 |
|
172 |
0,32 |
29584 |
0,1 |
55,04 |
|
184 |
0,91 |
33856 |
0,83 |
167,44 |
|
186 |
0,47 |
34596 |
0,22 |
87,42 |
|
195 |
0,67 |
38025 |
0,45 |
130,65 |
|
200 |
0,36 |
40000 |
0,13 |
72 |
|
218 |
0,74 |
47524 |
0,55 |
161,32 |
|
229 |
0,46 |
52441 |
0,21 |
105,34 |
|
227 |
0,79 |
51529 |
0,62 |
179,33 |
|
235 |
0,36 |
55225 |
0,13 |
84,6 |
|
Сумма=1995 |
5,58 |
404981 |
3,49 |
1117,64 |
Для наших данных система уравнений имеет вид
10a + 1995 b = 5,58
1995 a + 404981 b = 1117,64
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем эмпирические коэффициенты регрессии: b = 0,000635, a = 0,4314
Уравнение регрессии (эмпирическое уравнение регрессии):
y = 0,000635 x + 0,4314
Гиперболическое уравнение регрессии имеет вид y = b/x + a + е
Здесь е - случайная ошибка (отклонение, возмущение).
Таблица 2
1/x |
y |
1/x2 |
y2 |
y/x |
|
0,00671 |
0,5 |
4,5E-5 |
0,25 |
0,00336 |
|
0,00581 |
0,32 |
3,4E-5 |
0,1 |
0,00186 |
|
0,00543 |
0,91 |
3,0E-5 |
0,83 |
0,00495 |
|
0,00538 |
0,47 |
2,9E-5 |
0,22 |
0,00253 |
|
0,00513 |
0,67 |
2,6E-5 |
0,45 |
0,00344 |
|
0,005 |
0,36 |
2,5E-5 |
0,13 |
0,0018 |
|
0,00459 |
0,74 |
2,1E-5 |
0,55 |
0,00339 |
|
0,00437 |
0,46 |
1,9E-5 |
0,21 |
0,00201 |
|
0,00441 |
0,79 |
1,9E-5 |
0,62 |
0,00348 |
|
0,00426 |
0,36 |
1,8E-5 |
0,13 |
0,00153 |
|
0,0511 |
5,58 |
0,000266 |
3,49 |
0,0283 |
10a + 0,0511 b = 5,58
0,0511 a + 0,000266 b = 0,0283
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем эмпирические коэффициенты регрессии: b = -30,5574, a = 0,7141
Уравнение регрессии (эмпирическое уравнение регрессии):
y = -30,5574 / x + 0,7141
Степенное уравнение регрессии имеет вид
y = a xb
(ln y = ln a + b ln x + е)
Здесь е - случайная ошибка (отклонение, возмущение).
Таблица 3
ln(x) |
ln(y) |
ln(x)2 |
ln(y)2 |
ln(x) * ln(y) |
|
5 |
-0,69 |
25,04 |
0,48 |
-3,47 |
|
5,15 |
-1,14 |
26,5 |
1,3 |
-5,87 |
|
5,21 |
-0,0943 |
27,2 |
0,00889 |
-0,49 |
|
5,23 |
-0,76 |
27,31 |
0,57 |
-3,95 |
|
5,27 |
-0,4 |
27,8 |
0,16 |
-2,11 |
|
5,3 |
-1,02 |
28,07 |
1,04 |
-5,41 |
|
5,38 |
-0,3 |
28,99 |
0,0907 |
-1,62 |
|
5,43 |
-0,78 |
29,53 |
0,6 |
-4,22 |
|
5,42 |
-0,24 |
29,43 |
0,0556 |
-1,28 |
|
5,46 |
-1,02 |
29,81 |
1,04 |
-5,58 |
|
52,87 |
-6,44 |
279,67 |
5,35 |
-33,99 |
10a + 52,87 b = -6,44
52,87 a + 279,67 b = -33,99
Из первого уравнения выражаем а и подставим во второе уравнение:
Получаем эмпирические коэффициенты регрессии: b = 0,2526, a = -1,9792
Уравнение регрессии (эмпирическое уравнение регрессии):
y = e-1,97922059x0,2526 = 0,13818x0,2526
2. Степень тесноты связи оценим с помощью коэффициента корреляции
Показатель близок к нулю, связь практически отсутствует.
3. Коэффициент детерминации
То есть только 0,74% вариации результативного признака зависит от вариации факторного признака.
4. Линейная модель
Для оценки качества параметров регрессии построим расчетную таблицу (табл. 4)
Таблица 4
x |
y |
y(x) |
(yi-ycp)2 |
(y-y(x))2 |
(xi-xcp)2 |
|y - yx|:y |
|
149 |
0,5 |
0,53 |
0,00336 |
0,000673 |
2550,25 |
0,0519 |
|
172 |
0,32 |
0,54 |
0,0566 |
0,0486 |
756,25 |
0,69 |
|
184 |
0,91 |
0,55 |
0,12 |
0,13 |
240,25 |
0,4 |
|
186 |
0,47 |
0,55 |
0,00774 |
0,00631 |
182,25 |
0,17 |
|
195 |
0,67 |
0,56 |
0,0125 |
0,0132 |
20,25 |
0,17 |
|
200 |
0,36 |
0,56 |
0,0392 |
0,0393 |
0,25 |
0,55 |
|
218 |
0,74 |
0,57 |
0,0331 |
0,029 |
342,25 |
0,23 |
|
229 |
0,46 |
0,58 |
0,0096 |
0,0136 |
870,25 |
0,25 |
|
227 |
0,79 |
0,58 |
0,0538 |
0,046 |
756,25 |
0,27 |
|
235 |
0,36 |
0,58 |
0,0392 |
0,0486 |
1260,25 |
0,61 |
|
1995 |
5,58 |
5,58 |
0,38 |
0,38 |
6978,5 |
3,4 |
Несмещенной оценкой дисперсии возмущений является величина:
S2y = 0.047 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
Sy = 0.22 - стандартная ошибка оценки (стандартная ошибка регрессии).
Sa - стандартное отклонение случайной величины a.
Sb - стандартное отклонение случайной величины b.
tкрит (n-m-1;б/2) = (8;0.025) = 2.306
Поскольку 0.24 < 2.306, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом b можно пренебречь.
Поскольку 0.83 < 2.306, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.
Табличное значение критерия со степенями свободы k1=1 и k2=8, Fтабл = 5.32
Поскольку фактическое значение F < Fтабл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).
Гиперболическая модель
Для оценки качества параметров регрессии построим расчетную таблицу (табл. 5)
Таблица 5
x |
y |
y(x) |
(yi-ycp)2 |
(y-y(x))2 |
(xi-xcp)2 |
|y - yx|:y |
|
149 |
0,5 |
0,51 |
0,00336 |
8,1E-5 |
2550,25 |
0,018 |
|
172 |
0,32 |
0,54 |
0,0566 |
0,0468 |
756,25 |
0,68 |
|
184 |
0,91 |
0,55 |
0,12 |
0,13 |
240,25 |
0,4 |
|
186 |
0,47 |
0,55 |
0,00774 |
0,00637 |
182,25 |
0,17 |
|
195 |
0,67 |
0,56 |
0,0125 |
0,0127 |
20,25 |
0,17 |
|
200 |
0,36 |
0,56 |
0,0392 |
0,0405 |
0,25 |
0,56 |
|
218 |
0,74 |
0,57 |
0,0331 |
0,0276 |
342,25 |
0,22 |
|
229 |
0,46 |
0,58 |
0,0096 |
0,0146 |
870,25 |
0,26 |
|
227 |
0,79 |
0,58 |
0,0538 |
0,0443 |
756,25 |
0,27 |
|
235 |
0,36 |
0,58 |
0,0392 |
0,0502 |
1260,25 |
0,62 |
|
1995 |
5,58 |
5,58 |
0,38 |
0,37 |
6978,5 |
3,36 |
S2y = 0.0468 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
Sy = 0.22 - стандартная ошибка оценки (стандартная ошибка регрессии).
Sa - стандартное отклонение случайной величины a.
Sb - стандартное отклонение случайной величины b.
tкрит (n-m-1;б/2) = (8;0.025) = 2.306
Поскольку 0.33 < 2.306, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом b можно пренебречь.
Поскольку 1.47 < 2.306, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.
Поскольку фактическое значение F < Fтабл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).
Степенная модель
Для оценки качества параметров регрессии построим расчетную таблицу (табл. 6)
Таблица 6
x |
y |
y(x) |
(yi-ycp)2 |
(y-y(x))2 |
(xi-xcp)2 |
|y - yx|:y |
|
149 |
0,5 |
0,49 |
0,00336 |
0,00012 |
2550,25 |
0,0219 |
|
172 |
0,32 |
0,51 |
0,0566 |
0,035 |
756,25 |
0,58 |
|
184 |
0,91 |
0,52 |
0,12 |
0,16 |
240,25 |
0,43 |
|
186 |
0,47 |
0,52 |
0,00774 |
0,00223 |
182,25 |
0,1 |
|
195 |
0,67 |
0,52 |
0,0125 |
0,0215 |
20,25 |
0,22 |
|
200 |
0,36 |
0,53 |
0,0392 |
0,0278 |
0,25 |
0,46 |
|
218 |
0,74 |
0,54 |
0,0331 |
0,0406 |
342,25 |
0,27 |
|
229 |
0,46 |
0,55 |
0,0096 |
0,00725 |
870,25 |
0,19 |
|
227 |
0,79 |
0,54 |
0,0538 |
0,0606 |
756,25 |
0,31 |
|
235 |
0,36 |
0,55 |
0,0392 |
0,0356 |
1260,25 |
0,52 |
|
1995 |
5,58 |
5,26 |
0,38 |
0,39 |
6978,5 |
3,12 |
Несмещенной оценкой дисперсии возмущений является величина:
S2y = 0.0483 - необъясненная дисперсия (мера разброса зависимой переменной вокруг линии регрессии).
Sy = 0.22 - стандартная ошибка оценки (стандартная ошибка регрессии).
Sa - стандартное отклонение случайной величины a.
Sb - стандартное отклонение случайной величины b.
tкрит (n-m-1;б/2) = (8;0.025) = 2.306
Поскольку 0.5 < 2.306, то статистическая значимость коэффициента регрессии b не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом b можно пренебречь.
Поскольку 0.74 < 2.306, то статистическая значимость коэффициента регрессии a не подтверждается (принимаем гипотезу о равенстве нулю этого коэффициента). Это означает, что в данном случае коэффициентом a можно пренебречь.
Поскольку фактическое значение F < Fтабл, то коэффициент детерминации статистически не значим (Найденная оценка уравнения регрессии статистически не надежна).
5. Адекватность моделей оценим с помощью ошибка аппроксимации
Средняя ошибка аппроксимации - среднее отклонение расчетных значений от фактических:
Линейная модель
Поскольку ошибка больше 7%, то данное уравнение не желательно использовать в качестве регрессии.
Гиперболическая модель
Поскольку ошибка больше 7%, то данное уравнение не желательно использовать в качестве регрессии.
Степенная модель
Поскольку ошибка больше 7%, то данное уравнение не желательно использовать в качестве регрессии.
6. Все модели плохо описываю зависимость, при этом меньшую ошибку аппроксимации имеет степенная модель, по ней проводим прогнозирование
Х (мах) = 235 мм
Y= 0.13818*(235)0.2526 =0,55 тыс. шт.
Х (min) = 149 мм
Y= 0.13818*(149)0.2526 =0,49 тыс. шт.
Х(ср) = 199,5 мм
Y= 0.13818*(199,5)0.2526 =0,53 тыс. шт.