Построение модели множественной линейной регрессии

3. Моделирование взаимосвязи между переменными У и Х1 с помощью линейной функции

Произведем моделирование взаимосвязи между переменными У и Х1 с помощью линейной функции.

Линейный регрессионный анализ позволяет предсказывать одну переменную на основании другой с использованием прямой линии, характеризующей взаимосвязь между этими переменными: Y = b₀ + b₁ ? X

Переменную, поведение которой прогнозируют, называют результирующей переменной (Y); переменную, которая используется для прогнозирования, - фактором (Х₁). Коэффициенты b₀ и b₁ называются коэффициентами регрессии.

Угловой коэффициент b₁ показывает наклон линии регрессии, или изменение результирующего показателя Y при изменении фактора Х на единицу. Свободный член b₀ показывает сдвиг линии регрессии по вертикальной оси, т.е. определяет значение результирующего показателя Y при нулевом значении фактора Х.

С помощью метода наименьших квадратов строится уравнение регрессии, которое характеризуется наименьшей суммой квадратов отклонений реальных точек наблюдений от линии регрессии.

Метод наименьших квадратов использует следующие формулы для расчета коэффициентов регрессии:

(6)

(7)

Все необходимые промежуточные расчеты сведем в таблицу 4.

Также для расчета коэффициентов уравнения линейной линейной регрессии и показателей его качества может использоваться режим работы "Регрессия". Результаты, полученные с помощью данного режима, представлены в приложении А.

Таблица 4. Промежуточные расчеты для вычисления коэффициентов регрессии

№ п/п	x	y	x*y	х²
1	43	0,9	38,7	1849
2	64,7	1,7	109,99	4186,09
3	24	0,7	16,8	576
4	50,2	1,7	85,34	2520,04
5	106	2,6	275,6	11236
6	96,6	1,3	125,58	9331,56
7	347	4,1	1422,7	120409
8	85,6	1,6	136,96	7327,36
9	745	6,9	5140,5	555025
10	4,1	0,4	1,64	16,81
11	56,8	1,3	73,84	3226,24
12	42,7	1,9	81,13	1823,29
13	61,8	1,9	117,42	3819,24
14	212	1,4	296,8	44944
15	105	0,4	42	11025
16	33,5	0,8	26,8	1122,25
17	142	1,8	255,6	20164
18	96	0,9	86,4	9216
19	140	1,1	154	19600
20	59,3	1,9	112,67	3516,49
21	131	-0,9	-117,9	17161
22	70,7	1,3	91,91	4998,49
23	65,4	2	130,8	4277,16
24	23,1	0,6	13,86	533,61
25	80,8	0,7	56,56	6528,64
Среднее значение:	115,4520	1,56	351,028	34577,2908
	148,7732	1,4393
²	22133,4751	2,0717

Тогда линейное уравнение регрессии будет иметь вид:

Y = 0,6313 + 0,00804 ? X1

Приведем интерпретацию каждого из коэффициентов уравнения регрессии. Угловой коэффициент регрессии (коэффициент наклона) показывает, что если Х1 увеличивается на одну единицу, то У возрастает на 0,00804 единицы, т.е. при возрастании численности служащих на 1 тыс.чел., чистый доход У увеличивается на 0,00804 млрд.долл.

Свободный член уравнения регрессии показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов. Свободный член регрессии дает прогнозируемое значение У, если Х1 равен 0. То есть при численности служащих в 0 чел., чистый доход составит 0,6313 млрд.руб.

Проверим качество построенной модели при уровне значимости 0,05. Если существует значимая линейная взаимосвязь между фактором и результирующим показателем, построенное уравнение регрессии будет адекватно данным генеральной совокупности. Таким образом, проверка адекватности уравнения сводится к проверке значимости линейной взаимосвязи между переменными.

Проверить значимость линейной взаимосвязи можно несколькими способами:

1) проверить значимость углового коэффициента регрессии;

2) проверить значимость коэффициента детерминации.

Оба способа основаны на методе проверки статистических гипотез.

Для проверки углового коэффициента используется критерий Стьюдента:

(8)

гдеb₁ - эмпирический угловой коэффициент регрессии;

S_b₁ - стандартная ошибка углового коэффициента регрессии, которая

определяется по формуле:

(9)

гдеSе² и Sе - остаточная дисперсия и стандартная ошибка регрессии соответственно;

Sх - среднее квадратичное отклонение переменной Х.

=0,00112

Критерий t_b₁ имеет распределение Стьюдента с числом степеней свободы = n - 2 = 25 - 2 =23

7,1774

Найдем табличный критерий Стьюдента для уровня значимости 0,05. Для этого используем функцию =СТЬЮДРАСПОБР(0,05;23)

2,06866

= 7,1774 > 2,06866,

то есть значение критерия t_b₁ попадает в одну из критических областей. Вывод:

1) угловой коэффициент признается значимым;

2) существует значимая линейная связь между фактором и результирующим показателем;

3) построенное уравнение адекватно данным генеральной совокупности.

Проверим значимость свободного члена регрессии.

(10)

где b₀ - эмпирический свободный член регрессии;

S_b₀ - стандартная ошибка свободного члена регрессии, которая определяется по формуле:

(11)

0,20841

= 3,02912 > 2,06866, то есть значение критерия t_b₀ попадает в одну из критических областей, то есть значение свободного члена генеральной совокупности значимо.

Определим коэффициент детерминации по формуле:

(12)

где S_y² - дисперсия переменной Y. S_y² = 2,071667

Коэффициент детерминации показывает, какую долю вариации (разброса) результирующего показателя Y можно объяснить с помощью фактора Х. Он может принимать значения от 0 до 1. Чем ближе коэффициент детерминации к 1, тем большая доля вариации результирующего показателя объясняется действием фактора Х, т.е. тем точнее осуществляется предсказание по уравнению регрессии. Промежуточные расчеты сведем в таблицу 5.

Таблица 5. Промежуточные расчеты для вычисления коэффициента детерминации

№	x	y		e=-y	е²
1	43	0,9	0,97701	0,07701	0,00593054
2	64,7	1,7	1,151478	-0,548522	0,30087638
3	24	0,7	0,82425	0,12425	0,01543806
4	50,2	1,7	1,034898	-0,665102	0,44236067
5	106	2,6	1,48353	-1,11647	1,24650526
6	96,6	1,3	1,407954	0,107954	0,01165407
7	347	4,1	3,42117	-0,67883	0,46081017
8	85,6	1,6	1,319514	-0,280486	0,0786724
9	745	6,9	6,62109	-0,27891	0,07779079
10	4,1	0,4	0,664254	0,264254	0,06983018
11	56,8	1,3	1,087962	-0,212038	0,04496011
12	42,7	1,9	0,974598	-0,925402	0,85636886
13	61,8	1,9	1,128162	-0,771838	0,5957339
14	212	1,4	2,33577	0,93577	0,87566549
15	105	0,4	1,47549	1,07549	1,15667874
16	33,5	0,8	0,90063	0,10063	0,0101264
17	142	1,8	1,77297	-0,02703	0,00073062
18	96	0,9	1,40313	0,50313	0,2531398
19	140	1,1	1,75689	0,65689	0,43150447
20	59,3	1,9	1,108062	-0,791938	0,6271658
21	131	-0,9	1,68453	2,58453	6,67979532
22	70,7	1,3	1,199718	-0,100282	0,01005648
23	65,4	2	1,157106	-0,842894	0,7104703
24	23,1	0,6	0,817014	0,217014	0,04709508
25	80,8	0,7	1,280922	0,580922	0,33747037
				Сумма	15,3468302

Значение коэффициента детерминации R² = 0,69134 показывает, что 69% вариации результирующего показателя объясняется с помощью уравнения регрессии (действием фактора Х), а 31% - случайностью.

Проверим статистическую значимость уравнения с помощью критерия Фишера.

(13)

Табличное значение критерия рассчитаем как =FРАСПОБР(0,05;1;23).

> , значение критерия F попадает в критическую область, выводы оказываются следующими:

1) коэффициент детерминации признается значимым;

2) существует значимая линейная связь между фактором и результирующим показателем;

3) построенное уравнение адекватно данным генеральной совокупности.

Построим линию регрессии на поле корреляции (рис.4).

Рисунок 4 - Линия регрессии на поле корреляции

Проверим наличие автокорреляции остатков графическим методом и с помощью критерия Дарбина-Уотсона при уровне значимости 0,01.

Одной из предпосылок МНК является независимость между собой значений случайных отклонений. Если присутствует корреляция между ними, то говорят о наличии автокорреляции остатков. Автокорреляцией остатков называется зависимость между значениями случайных отклонений, упорядоченными по значениям фактора Х.

Наиболее наглядный способ проверки состоит в построении диагностической диаграммы: поля корреляции между случайными отклонениями (ошибками прогнозирования) е_i и прогнозируемыми значениями результирующего показателя y_i.Значения случайного отклонения откладываются по вертикальной оси, прогнозируемые значения результирующего показателя - по горизонтальной оси (рис.5).

При анализе диагностической диаграммы можно сделать следующий вывод: между точками на поле взаимосвязи не наблюдается, диаграмма представляет собой облако из точек, расположенных хаотично и неупорядоченно, следовательно, автокорреляция остатков отсутствует, значит, предпосылки МНК выполняются.

Рисунок 5 - Диагностическая диаграмма к определению автокорреляции.

Проверим наличие автокорреляции с помощью критерия Дарбина-Уотсона при уровне значимости 0,01. Упорядочим случайные отклонения по возрастанию значений фактора Х и составим вспомогательную таблицу 6.

Таблица 6. Промежуточные расчеты критерия Дарбина-Уотсона

x	y	y1	e_i	e_i²	e_i-1	e_i- e_i-1	(e_i- e_i-1)²
4,1	0,4	0,664269	-0,264269	0,069838131
23,1	0,6	0,817108	-0,217108	0,047135748	-0,264269	0,0471614	0,00222419
24	0,7	0,824347	-0,124347	0,015462279	-0,2171077	0,0927603	0,00860447
33,5	0,8	0,900767	-0,100767	0,010153934	-0,1243474	0,0235807	0,00055605
42,7	1,9	0,974773	0,925227	0,856045353	-0,1007667	1,0259939	1,05266353
43	0,9	0,977186	-0,077186	0,005957687	0,9252272	-1,002413	1,00483231
50,2	1,7	1,035104	0,664896	0,442086889	-0,0771861	0,7420822	0,55068599
56,8	1,3	1,088195	0,211805	0,044861287	0,6648961	-0,453091	0,20529174
59,3	1,9	1,108306	0,791694	0,626780158	0,2118048	0,5798897	0,33627201
61,8	1,9	1,128416	0,771584	0,595342082	0,7916945	-0,02011	0,00040443
64,7	1,7	1,151744	0,548256	0,30058479	0,7715841	-0,223328	0,0498754
65,4	2	1,157375	0,842625	0,710017292	0,5482561	0,2943691	0,08665317
70,7	1,3	1,200009	0,099991	0,009998261	0,8426252	-0,742634	0,55150516
80,8	0,7	1,281255	-0,581255	0,337856794	0,0999913	-0,681246	0,46409584
85,6	1,6	1,319866	0,280134	0,078474852	-0,5812545	0,8613881	0,74198952
96	0,9	1,403525	-0,503525	0,253537839	0,2801336	-0,783659	0,6141215
96,6	1,3	1,408352	-0,108352	0,011740133	-0,5035254	0,3951735	0,15616211
105	0,4	1,475923	-1,075923	1,157609572	-0,1083519	-0,967571	0,93619319
106	2,6	1,483967	1,116033	1,245530105	-1,0759227	2,1919559	4,8046705
131	-0,9	1,68507	-2,58507	6,682588306	1,1160332	-3,701103	13,6981669
140	1,1	1,757468	-0,657468	0,432263541	-2,5850703	1,9276028	3,71565236
142	1,8	1,773556	0,026444	0,000699296	-0,6574675	0,6839117	0,46773524
212	1,4	2,336646	-0,936646	0,877304827	0,0264442	-0,96309	0,92754181
347	4,1	3,422604	0,677396	0,458864983	-0,9366455	1,6140413	2,60512917
745	6,9	6,624172	0,275828	0,076081345	0,6773957	-0,401567	0,16125627
				15,34681548			33,1422829

Критерий Дарбина - Уотсона рассчитывается по формуле:

(14)

Для определения критических точек воспользуемся таблицей критических точек Дарбина-Уотсона: при уровне значимости = 0,01, одной независимой переменной m=1, и числе наблюдений n=25, d_l = 1,033 и d_u = 1,211.

Так как d_u < DW < 4 - d_u (1,033 < 2,160 < 2,789), то можно сделать вывод, что автокорреляция отсутствует.

Проверим наличие гетероскедастичности графическим методом и с помощью теста ранговой корреляции при уровне значимости 0,1 (рис.6).

На диагностической диаграмме заметно увеличение дисперсии при увеличении значений фактора, т. е. можно сделать вывод о наличии гетероскедастичности в построенной регрессионной модели.

Рисунок 6 - Диагностическая диаграмма к определению гетероскедастичности.

Проверим наличие гетероскедастичности в регрессионной модели с помощью теста ранговой корреляции Спирмена. Суть теста ранговой корреляции сводится к оценке коэффициента корреляции между рангами переменной Х и модуля случайных отклонений е.

Ранг - это место данного числового значения среди упорядоченных значений анализируемого показателя.

Коэффициент ранговой корреляции находится по формуле:

(15)

Вспомогательные расчеты оформим в виде таблицы 7.

Проверка правильности составления матрицы на основе исчисления контрольной суммы:

Сумма по столбцам матрицы равны между собой и контрольной суммы, значит, матрица составлена правильно.

Рассчитаем коэффициент ранговой корреляции:

Вывод: между фактором Х и случайными отклонениями е имеется взаимосвязь слабой силы.

Таблица 7. Вспомогательные расчеты к тесту ранговой корреляции

x	y	R(x_i)	e_i		R(e_i)	d_i	d_i²
43	0,9	6	-0,077186	0,0771861	2	4	16
64,7	1,7	11	0,5482561	0,5482561	13	-2	4
24	0,7	3	-0,124347	0,1243474	6	-3	9
50,2	1,7	7	0,6648961	0,6648961	16	-9	81
106	2,6	19	1,1160332	1,1160332	24	-5	25
96,6	1,3	17	-0,108352	0,1083519	5	12	144
347	4,1	24	0,6773957	0,6773957	17	7	49
85,6	1,6	15	0,2801336	0,2801336	11	4	16
745	6,9	25	0,2758285	0,2758285	10	15	225
4,1	0,4	1	-0,264269	0,264269	9	-8	64
56,8	1,3	8	0,2118048	0,2118048	7	1	1
42,7	1,9	5	0,9252272	0,9252272	21	-16	256
61,8	1,9	10	0,7715841	0,7715841	18	-8	64
212	1,4	23	-0,936646	0,9366455	22	1	1
105	0,4	18	-1,075923	1,0759227	23	-5	25
33,5	0,8	4	-0,100767	0,1007667	4	0	0
142	1,8	22	0,0264442	0,0264442	1	21	441
96	0,9	16	-0,503525	0,5035254	12	4	16
140	1,1	21	-0,657468	0,6574675	15	6	36
59,3	1,9	9	0,7916945	0,7916945	19	-10	100
131	-0,9	20	-2,58507	2,5850703	25	-5	25
70,7	1,3	13	0,0999913	0,0999913	3	10	100
65,4	2	12	0,8426252	0,8426252	20	-8	64
23,1	0,6	2	-0,217108	0,2171077	8	-6	36
80,8	0,7	14	-0,581255	0,5812545	14	0	0
		325			325	0	1798

Проверим значимость коэффициента ранговой корреляции при уровне значимости 0,01:

Н₀: r_x_,_e = 0 - коэффициент ранговой корреляции незначим,

Н₁: r_x_,_e ? 0 - коэффициент ранговой корреляции значим.

Рассчитаем наблюдаемое значение критерия Стьюдента.

Критическое значение критерия Стьюдента при уровне значимости = 0,1 и числе степеней свободы н = n - 2 =25 - 2 =23, = 1,7139. Коэффициент ранговой корреляции признается незначимым, так как наблюдаемое значение Т = 1,5552 меньше чем критическое значение = 1,7139. Зависимость между фактором Х и случайными отклонениями е отсутствует, т.е. наблюдается гомоскедастичность.

Содержание