3. Моделирование взаимосвязи между переменными У и Х1 с помощью линейной функции
Произведем моделирование взаимосвязи между переменными У и Х1 с помощью линейной функции.
Линейный регрессионный анализ позволяет предсказывать одну переменную на основании другой с использованием прямой линии, характеризующей взаимосвязь между этими переменными: Y = b0 + b1 ? X
Переменную, поведение которой прогнозируют, называют результирующей переменной (Y); переменную, которая используется для прогнозирования, - фактором (Х1). Коэффициенты b0 и b1 называются коэффициентами регрессии.
Угловой коэффициент b1 показывает наклон линии регрессии, или изменение результирующего показателя Y при изменении фактора Х на единицу. Свободный член b0 показывает сдвиг линии регрессии по вертикальной оси, т.е. определяет значение результирующего показателя Y при нулевом значении фактора Х.
С помощью метода наименьших квадратов строится уравнение регрессии, которое характеризуется наименьшей суммой квадратов отклонений реальных точек наблюдений от линии регрессии.
Метод наименьших квадратов использует следующие формулы для расчета коэффициентов регрессии:
(6)
(7)
Все необходимые промежуточные расчеты сведем в таблицу 4.
Также для расчета коэффициентов уравнения линейной линейной регрессии и показателей его качества может использоваться режим работы "Регрессия". Результаты, полученные с помощью данного режима, представлены в приложении А.
Таблица 4. Промежуточные расчеты для вычисления коэффициентов регрессии
№ п/п |
x |
y |
x*y |
х2 |
|
1 |
43 |
0,9 |
38,7 |
1849 |
|
2 |
64,7 |
1,7 |
109,99 |
4186,09 |
|
3 |
24 |
0,7 |
16,8 |
576 |
|
4 |
50,2 |
1,7 |
85,34 |
2520,04 |
|
5 |
106 |
2,6 |
275,6 |
11236 |
|
6 |
96,6 |
1,3 |
125,58 |
9331,56 |
|
7 |
347 |
4,1 |
1422,7 |
120409 |
|
8 |
85,6 |
1,6 |
136,96 |
7327,36 |
|
9 |
745 |
6,9 |
5140,5 |
555025 |
|
10 |
4,1 |
0,4 |
1,64 |
16,81 |
|
11 |
56,8 |
1,3 |
73,84 |
3226,24 |
|
12 |
42,7 |
1,9 |
81,13 |
1823,29 |
|
13 |
61,8 |
1,9 |
117,42 |
3819,24 |
|
14 |
212 |
1,4 |
296,8 |
44944 |
|
15 |
105 |
0,4 |
42 |
11025 |
|
16 |
33,5 |
0,8 |
26,8 |
1122,25 |
|
17 |
142 |
1,8 |
255,6 |
20164 |
|
18 |
96 |
0,9 |
86,4 |
9216 |
|
19 |
140 |
1,1 |
154 |
19600 |
|
20 |
59,3 |
1,9 |
112,67 |
3516,49 |
|
21 |
131 |
-0,9 |
-117,9 |
17161 |
|
22 |
70,7 |
1,3 |
91,91 |
4998,49 |
|
23 |
65,4 |
2 |
130,8 |
4277,16 |
|
24 |
23,1 |
0,6 |
13,86 |
533,61 |
|
25 |
80,8 |
0,7 |
56,56 |
6528,64 |
|
Среднее значение: |
115,4520 |
1,56 |
351,028 |
34577,2908 |
|
148,7732 |
1,4393 |
||||
2 |
22133,4751 |
2,0717 |
Тогда линейное уравнение регрессии будет иметь вид:
Y = 0,6313 + 0,00804 ? X1
Приведем интерпретацию каждого из коэффициентов уравнения регрессии. Угловой коэффициент регрессии (коэффициент наклона) показывает, что если Х1 увеличивается на одну единицу, то У возрастает на 0,00804 единицы, т.е. при возрастании численности служащих на 1 тыс.чел., чистый доход У увеличивается на 0,00804 млрд.долл.
Свободный член уравнения регрессии показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов. Свободный член регрессии дает прогнозируемое значение У, если Х1 равен 0. То есть при численности служащих в 0 чел., чистый доход составит 0,6313 млрд.руб.
Проверим качество построенной модели при уровне значимости 0,05. Если существует значимая линейная взаимосвязь между фактором и результирующим показателем, построенное уравнение регрессии будет адекватно данным генеральной совокупности. Таким образом, проверка адекватности уравнения сводится к проверке значимости линейной взаимосвязи между переменными.
Проверить значимость линейной взаимосвязи можно несколькими способами:
1) проверить значимость углового коэффициента регрессии;
2) проверить значимость коэффициента детерминации.
Оба способа основаны на методе проверки статистических гипотез.
Для проверки углового коэффициента используется критерий Стьюдента:
(8)
гдеb1 - эмпирический угловой коэффициент регрессии;
Sb1 - стандартная ошибка углового коэффициента регрессии, которая
определяется по формуле:
(9)
гдеSе2 и Sе - остаточная дисперсия и стандартная ошибка регрессии соответственно;
Sх - среднее квадратичное отклонение переменной Х.
=0,00112
Критерий tb1 имеет распределение Стьюдента с числом степеней свободы = n - 2 = 25 - 2 =23
7,1774
Найдем табличный критерий Стьюдента для уровня значимости 0,05. Для этого используем функцию =СТЬЮДРАСПОБР(0,05;23)
2,06866
= 7,1774 > 2,06866,
то есть значение критерия tb1 попадает в одну из критических областей. Вывод:
1) угловой коэффициент признается значимым;
2) существует значимая линейная связь между фактором и результирующим показателем;
3) построенное уравнение адекватно данным генеральной совокупности.
Проверим значимость свободного члена регрессии.
(10)
где b0 - эмпирический свободный член регрессии;
Sb0 - стандартная ошибка свободного члена регрессии, которая определяется по формуле:
(11)
0,20841
= 3,02912 > 2,06866, то есть значение критерия tb0 попадает в одну из критических областей, то есть значение свободного члена генеральной совокупности значимо.
Определим коэффициент детерминации по формуле:
(12)
где Sy2 - дисперсия переменной Y. Sy2 = 2,071667
Коэффициент детерминации показывает, какую долю вариации (разброса) результирующего показателя Y можно объяснить с помощью фактора Х. Он может принимать значения от 0 до 1. Чем ближе коэффициент детерминации к 1, тем большая доля вариации результирующего показателя объясняется действием фактора Х, т.е. тем точнее осуществляется предсказание по уравнению регрессии. Промежуточные расчеты сведем в таблицу 5.
Таблица 5. Промежуточные расчеты для вычисления коэффициента детерминации
№ |
x |
y |
e=-y |
е2 |
||
1 |
43 |
0,9 |
0,97701 |
0,07701 |
0,00593054 |
|
2 |
64,7 |
1,7 |
1,151478 |
-0,548522 |
0,30087638 |
|
3 |
24 |
0,7 |
0,82425 |
0,12425 |
0,01543806 |
|
4 |
50,2 |
1,7 |
1,034898 |
-0,665102 |
0,44236067 |
|
5 |
106 |
2,6 |
1,48353 |
-1,11647 |
1,24650526 |
|
6 |
96,6 |
1,3 |
1,407954 |
0,107954 |
0,01165407 |
|
7 |
347 |
4,1 |
3,42117 |
-0,67883 |
0,46081017 |
|
8 |
85,6 |
1,6 |
1,319514 |
-0,280486 |
0,0786724 |
|
9 |
745 |
6,9 |
6,62109 |
-0,27891 |
0,07779079 |
|
10 |
4,1 |
0,4 |
0,664254 |
0,264254 |
0,06983018 |
|
11 |
56,8 |
1,3 |
1,087962 |
-0,212038 |
0,04496011 |
|
12 |
42,7 |
1,9 |
0,974598 |
-0,925402 |
0,85636886 |
|
13 |
61,8 |
1,9 |
1,128162 |
-0,771838 |
0,5957339 |
|
14 |
212 |
1,4 |
2,33577 |
0,93577 |
0,87566549 |
|
15 |
105 |
0,4 |
1,47549 |
1,07549 |
1,15667874 |
|
16 |
33,5 |
0,8 |
0,90063 |
0,10063 |
0,0101264 |
|
17 |
142 |
1,8 |
1,77297 |
-0,02703 |
0,00073062 |
|
18 |
96 |
0,9 |
1,40313 |
0,50313 |
0,2531398 |
|
19 |
140 |
1,1 |
1,75689 |
0,65689 |
0,43150447 |
|
20 |
59,3 |
1,9 |
1,108062 |
-0,791938 |
0,6271658 |
|
21 |
131 |
-0,9 |
1,68453 |
2,58453 |
6,67979532 |
|
22 |
70,7 |
1,3 |
1,199718 |
-0,100282 |
0,01005648 |
|
23 |
65,4 |
2 |
1,157106 |
-0,842894 |
0,7104703 |
|
24 |
23,1 |
0,6 |
0,817014 |
0,217014 |
0,04709508 |
|
25 |
80,8 |
0,7 |
1,280922 |
0,580922 |
0,33747037 |
|
Сумма |
15,3468302 |
Значение коэффициента детерминации R2 = 0,69134 показывает, что 69% вариации результирующего показателя объясняется с помощью уравнения регрессии (действием фактора Х), а 31% - случайностью.
Проверим статистическую значимость уравнения с помощью критерия Фишера.
(13)
Табличное значение критерия рассчитаем как =FРАСПОБР(0,05;1;23).
> , значение критерия F попадает в критическую область, выводы оказываются следующими:
1) коэффициент детерминации признается значимым;
2) существует значимая линейная связь между фактором и результирующим показателем;
3) построенное уравнение адекватно данным генеральной совокупности.
Построим линию регрессии на поле корреляции (рис.4).
Рисунок 4 - Линия регрессии на поле корреляции
Проверим наличие автокорреляции остатков графическим методом и с помощью критерия Дарбина-Уотсона при уровне значимости 0,01.
Одной из предпосылок МНК является независимость между собой значений случайных отклонений. Если присутствует корреляция между ними, то говорят о наличии автокорреляции остатков. Автокорреляцией остатков называется зависимость между значениями случайных отклонений, упорядоченными по значениям фактора Х.
Наиболее наглядный способ проверки состоит в построении диагностической диаграммы: поля корреляции между случайными отклонениями (ошибками прогнозирования) еi и прогнозируемыми значениями результирующего показателя yi.Значения случайного отклонения откладываются по вертикальной оси, прогнозируемые значения результирующего показателя - по горизонтальной оси (рис.5).
При анализе диагностической диаграммы можно сделать следующий вывод: между точками на поле взаимосвязи не наблюдается, диаграмма представляет собой облако из точек, расположенных хаотично и неупорядоченно, следовательно, автокорреляция остатков отсутствует, значит, предпосылки МНК выполняются.
Рисунок 5 - Диагностическая диаграмма к определению автокорреляции.
Проверим наличие автокорреляции с помощью критерия Дарбина-Уотсона при уровне значимости 0,01. Упорядочим случайные отклонения по возрастанию значений фактора Х и составим вспомогательную таблицу 6.
Таблица 6. Промежуточные расчеты критерия Дарбина-Уотсона
x |
y |
y1 |
ei |
ei2 |
ei-1 |
ei- ei-1 |
(ei - ei-1)2 |
|
4,1 |
0,4 |
0,664269 |
-0,264269 |
0,069838131 |
||||
23,1 |
0,6 |
0,817108 |
-0,217108 |
0,047135748 |
-0,264269 |
0,0471614 |
0,00222419 |
|
24 |
0,7 |
0,824347 |
-0,124347 |
0,015462279 |
-0,2171077 |
0,0927603 |
0,00860447 |
|
33,5 |
0,8 |
0,900767 |
-0,100767 |
0,010153934 |
-0,1243474 |
0,0235807 |
0,00055605 |
|
42,7 |
1,9 |
0,974773 |
0,925227 |
0,856045353 |
-0,1007667 |
1,0259939 |
1,05266353 |
|
43 |
0,9 |
0,977186 |
-0,077186 |
0,005957687 |
0,9252272 |
-1,002413 |
1,00483231 |
|
50,2 |
1,7 |
1,035104 |
0,664896 |
0,442086889 |
-0,0771861 |
0,7420822 |
0,55068599 |
|
56,8 |
1,3 |
1,088195 |
0,211805 |
0,044861287 |
0,6648961 |
-0,453091 |
0,20529174 |
|
59,3 |
1,9 |
1,108306 |
0,791694 |
0,626780158 |
0,2118048 |
0,5798897 |
0,33627201 |
|
61,8 |
1,9 |
1,128416 |
0,771584 |
0,595342082 |
0,7916945 |
-0,02011 |
0,00040443 |
|
64,7 |
1,7 |
1,151744 |
0,548256 |
0,30058479 |
0,7715841 |
-0,223328 |
0,0498754 |
|
65,4 |
2 |
1,157375 |
0,842625 |
0,710017292 |
0,5482561 |
0,2943691 |
0,08665317 |
|
70,7 |
1,3 |
1,200009 |
0,099991 |
0,009998261 |
0,8426252 |
-0,742634 |
0,55150516 |
|
80,8 |
0,7 |
1,281255 |
-0,581255 |
0,337856794 |
0,0999913 |
-0,681246 |
0,46409584 |
|
85,6 |
1,6 |
1,319866 |
0,280134 |
0,078474852 |
-0,5812545 |
0,8613881 |
0,74198952 |
|
96 |
0,9 |
1,403525 |
-0,503525 |
0,253537839 |
0,2801336 |
-0,783659 |
0,6141215 |
|
96,6 |
1,3 |
1,408352 |
-0,108352 |
0,011740133 |
-0,5035254 |
0,3951735 |
0,15616211 |
|
105 |
0,4 |
1,475923 |
-1,075923 |
1,157609572 |
-0,1083519 |
-0,967571 |
0,93619319 |
|
106 |
2,6 |
1,483967 |
1,116033 |
1,245530105 |
-1,0759227 |
2,1919559 |
4,8046705 |
|
131 |
-0,9 |
1,68507 |
-2,58507 |
6,682588306 |
1,1160332 |
-3,701103 |
13,6981669 |
|
140 |
1,1 |
1,757468 |
-0,657468 |
0,432263541 |
-2,5850703 |
1,9276028 |
3,71565236 |
|
142 |
1,8 |
1,773556 |
0,026444 |
0,000699296 |
-0,6574675 |
0,6839117 |
0,46773524 |
|
212 |
1,4 |
2,336646 |
-0,936646 |
0,877304827 |
0,0264442 |
-0,96309 |
0,92754181 |
|
347 |
4,1 |
3,422604 |
0,677396 |
0,458864983 |
-0,9366455 |
1,6140413 |
2,60512917 |
|
745 |
6,9 |
6,624172 |
0,275828 |
0,076081345 |
0,6773957 |
-0,401567 |
0,16125627 |
|
15,34681548 |
33,1422829 |
Критерий Дарбина - Уотсона рассчитывается по формуле:
(14)
Для определения критических точек воспользуемся таблицей критических точек Дарбина-Уотсона: при уровне значимости = 0,01, одной независимой переменной m=1, и числе наблюдений n=25, dl = 1,033 и du = 1,211.
Так как du < DW < 4 - du (1,033 < 2,160 < 2,789), то можно сделать вывод, что автокорреляция отсутствует.
Проверим наличие гетероскедастичности графическим методом и с помощью теста ранговой корреляции при уровне значимости 0,1 (рис.6).
На диагностической диаграмме заметно увеличение дисперсии при увеличении значений фактора, т. е. можно сделать вывод о наличии гетероскедастичности в построенной регрессионной модели.
Рисунок 6 - Диагностическая диаграмма к определению гетероскедастичности.
Проверим наличие гетероскедастичности в регрессионной модели с помощью теста ранговой корреляции Спирмена. Суть теста ранговой корреляции сводится к оценке коэффициента корреляции между рангами переменной Х и модуля случайных отклонений е.
Ранг - это место данного числового значения среди упорядоченных значений анализируемого показателя.
Коэффициент ранговой корреляции находится по формуле:
(15)
Вспомогательные расчеты оформим в виде таблицы 7.
Проверка правильности составления матрицы на основе исчисления контрольной суммы:
Сумма по столбцам матрицы равны между собой и контрольной суммы, значит, матрица составлена правильно.
Рассчитаем коэффициент ранговой корреляции:
Вывод: между фактором Х и случайными отклонениями е имеется взаимосвязь слабой силы.
Таблица 7. Вспомогательные расчеты к тесту ранговой корреляции
x |
y |
R(xi) |
ei |
R(ei) |
di |
di2 |
||
43 |
0,9 |
6 |
-0,077186 |
0,0771861 |
2 |
4 |
16 |
|
64,7 |
1,7 |
11 |
0,5482561 |
0,5482561 |
13 |
-2 |
4 |
|
24 |
0,7 |
3 |
-0,124347 |
0,1243474 |
6 |
-3 |
9 |
|
50,2 |
1,7 |
7 |
0,6648961 |
0,6648961 |
16 |
-9 |
81 |
|
106 |
2,6 |
19 |
1,1160332 |
1,1160332 |
24 |
-5 |
25 |
|
96,6 |
1,3 |
17 |
-0,108352 |
0,1083519 |
5 |
12 |
144 |
|
347 |
4,1 |
24 |
0,6773957 |
0,6773957 |
17 |
7 |
49 |
|
85,6 |
1,6 |
15 |
0,2801336 |
0,2801336 |
11 |
4 |
16 |
|
745 |
6,9 |
25 |
0,2758285 |
0,2758285 |
10 |
15 |
225 |
|
4,1 |
0,4 |
1 |
-0,264269 |
0,264269 |
9 |
-8 |
64 |
|
56,8 |
1,3 |
8 |
0,2118048 |
0,2118048 |
7 |
1 |
1 |
|
42,7 |
1,9 |
5 |
0,9252272 |
0,9252272 |
21 |
-16 |
256 |
|
61,8 |
1,9 |
10 |
0,7715841 |
0,7715841 |
18 |
-8 |
64 |
|
212 |
1,4 |
23 |
-0,936646 |
0,9366455 |
22 |
1 |
1 |
|
105 |
0,4 |
18 |
-1,075923 |
1,0759227 |
23 |
-5 |
25 |
|
33,5 |
0,8 |
4 |
-0,100767 |
0,1007667 |
4 |
0 |
0 |
|
142 |
1,8 |
22 |
0,0264442 |
0,0264442 |
1 |
21 |
441 |
|
96 |
0,9 |
16 |
-0,503525 |
0,5035254 |
12 |
4 |
16 |
|
140 |
1,1 |
21 |
-0,657468 |
0,6574675 |
15 |
6 |
36 |
|
59,3 |
1,9 |
9 |
0,7916945 |
0,7916945 |
19 |
-10 |
100 |
|
131 |
-0,9 |
20 |
-2,58507 |
2,5850703 |
25 |
-5 |
25 |
|
70,7 |
1,3 |
13 |
0,0999913 |
0,0999913 |
3 |
10 |
100 |
|
65,4 |
2 |
12 |
0,8426252 |
0,8426252 |
20 |
-8 |
64 |
|
23,1 |
0,6 |
2 |
-0,217108 |
0,2171077 |
8 |
-6 |
36 |
|
80,8 |
0,7 |
14 |
-0,581255 |
0,5812545 |
14 |
0 |
0 |
|
325 |
325 |
0 |
1798 |
Проверим значимость коэффициента ранговой корреляции при уровне значимости 0,01:
Н0: rx,e = 0 - коэффициент ранговой корреляции незначим,
Н1: rx,e ? 0 - коэффициент ранговой корреляции значим.
Рассчитаем наблюдаемое значение критерия Стьюдента.
Критическое значение критерия Стьюдента при уровне значимости = 0,1 и числе степеней свободы н = n - 2 =25 - 2 =23, = 1,7139. Коэффициент ранговой корреляции признается незначимым, так как наблюдаемое значение Т = 1,5552 меньше чем критическое значение = 1,7139. Зависимость между фактором Х и случайными отклонениями е отсутствует, т.е. наблюдается гомоскедастичность.
- 1. Оценка распределения переменной Х1
- 2. Исследование корреляционной зависимости между переменными Х1 и У
- 3. Моделирование взаимосвязи между переменными У и Х1 с помощью линейной функции
- 4. Моделирование взаимосвязи между переменными с помощью множественной линейной регрессии
- 5. Проверка качества модели, построенной с помощью множественной регрессии
- 6. Сравнение качества моделей, построенных с помощью линейной регрессии и множественной регрессии
- 7. Расчет точечного прогноза по заданным значениям
- Список литературы
- Множественная регрессия
- Вопрос 58. Модель множественной линейной регрессии.
- 2.3. Модели множественной линейной регрессии
- 22. Линейная модель множественной регрессии
- 1.2. Построение модели множественной регрессии
- V2: Линейная модель множественной регрессии
- Спецификация модели множественной регрессии. Свойства множественных коэффициентов регрессии.
- 28. Линейная и степенная модели множественной регрессии: интерпритация параметров.
- Линейная модель множественной регрессии
- 26. Линейная модель множественной регрессии