logo
Построение модели множественной линейной регрессии

3. Моделирование взаимосвязи между переменными У и Х1 с помощью линейной функции

Произведем моделирование взаимосвязи между переменными У и Х1 с помощью линейной функции.

Линейный регрессионный анализ позволяет предсказывать одну переменную на основании другой с использованием прямой линии, характеризующей взаимосвязь между этими переменными: Y = b0 + b1 ? X

Переменную, поведение которой прогнозируют, называют результирующей переменной (Y); переменную, которая используется для прогнозирования, - фактором (Х1). Коэффициенты b0 и b1 называются коэффициентами регрессии.

Угловой коэффициент b1 показывает наклон линии регрессии, или изменение результирующего показателя Y при изменении фактора Х на единицу. Свободный член b0 показывает сдвиг линии регрессии по вертикальной оси, т.е. определяет значение результирующего показателя Y при нулевом значении фактора Х.

С помощью метода наименьших квадратов строится уравнение регрессии, которое характеризуется наименьшей суммой квадратов отклонений реальных точек наблюдений от линии регрессии.

Метод наименьших квадратов использует следующие формулы для расчета коэффициентов регрессии:

(6)

(7)

Все необходимые промежуточные расчеты сведем в таблицу 4.

Также для расчета коэффициентов уравнения линейной линейной регрессии и показателей его качества может использоваться режим работы "Регрессия". Результаты, полученные с помощью данного режима, представлены в приложении А.

Таблица 4. Промежуточные расчеты для вычисления коэффициентов регрессии

№ п/п

x

y

x*y

х2

1

43

0,9

38,7

1849

2

64,7

1,7

109,99

4186,09

3

24

0,7

16,8

576

4

50,2

1,7

85,34

2520,04

5

106

2,6

275,6

11236

6

96,6

1,3

125,58

9331,56

7

347

4,1

1422,7

120409

8

85,6

1,6

136,96

7327,36

9

745

6,9

5140,5

555025

10

4,1

0,4

1,64

16,81

11

56,8

1,3

73,84

3226,24

12

42,7

1,9

81,13

1823,29

13

61,8

1,9

117,42

3819,24

14

212

1,4

296,8

44944

15

105

0,4

42

11025

16

33,5

0,8

26,8

1122,25

17

142

1,8

255,6

20164

18

96

0,9

86,4

9216

19

140

1,1

154

19600

20

59,3

1,9

112,67

3516,49

21

131

-0,9

-117,9

17161

22

70,7

1,3

91,91

4998,49

23

65,4

2

130,8

4277,16

24

23,1

0,6

13,86

533,61

25

80,8

0,7

56,56

6528,64

Среднее значение:

115,4520

1,56

351,028

34577,2908

148,7732

1,4393

2

22133,4751

2,0717

Тогда линейное уравнение регрессии будет иметь вид:

Y = 0,6313 + 0,00804 ? X1

Приведем интерпретацию каждого из коэффициентов уравнения регрессии. Угловой коэффициент регрессии (коэффициент наклона) показывает, что если Х1 увеличивается на одну единицу, то У возрастает на 0,00804 единицы, т.е. при возрастании численности служащих на 1 тыс.чел., чистый доход У увеличивается на 0,00804 млрд.долл.

Свободный член уравнения регрессии показывает усредненное влияние на результативный признак неучтенных (не выделенных для исследования) факторов. Свободный член регрессии дает прогнозируемое значение У, если Х1 равен 0. То есть при численности служащих в 0 чел., чистый доход составит 0,6313 млрд.руб.

Проверим качество построенной модели при уровне значимости 0,05. Если существует значимая линейная взаимосвязь между фактором и результирующим показателем, построенное уравнение регрессии будет адекватно данным генеральной совокупности. Таким образом, проверка адекватности уравнения сводится к проверке значимости линейной взаимосвязи между переменными.

Проверить значимость линейной взаимосвязи можно несколькими способами:

1) проверить значимость углового коэффициента регрессии;

2) проверить значимость коэффициента детерминации.

Оба способа основаны на методе проверки статистических гипотез.

Для проверки углового коэффициента используется критерий Стьюдента:

(8)

гдеb1 - эмпирический угловой коэффициент регрессии;

Sb1 - стандартная ошибка углового коэффициента регрессии, которая

определяется по формуле:

(9)

гдеSе2 и Sе - остаточная дисперсия и стандартная ошибка регрессии соответственно;

Sх - среднее квадратичное отклонение переменной Х.

=0,00112

Критерий tb1 имеет распределение Стьюдента с числом степеней свободы = n - 2 = 25 - 2 =23

7,1774

Найдем табличный критерий Стьюдента для уровня значимости 0,05. Для этого используем функцию =СТЬЮДРАСПОБР(0,05;23)

2,06866

= 7,1774 > 2,06866,

то есть значение критерия tb1 попадает в одну из критических областей. Вывод:

1) угловой коэффициент признается значимым;

2) существует значимая линейная связь между фактором и результирующим показателем;

3) построенное уравнение адекватно данным генеральной совокупности.

Проверим значимость свободного члена регрессии.

(10)

где b0 - эмпирический свободный член регрессии;

Sb0 - стандартная ошибка свободного члена регрессии, которая определяется по формуле:

(11)

0,20841

= 3,02912 > 2,06866, то есть значение критерия tb0 попадает в одну из критических областей, то есть значение свободного члена генеральной совокупности значимо.

Определим коэффициент детерминации по формуле:

(12)

где Sy2 - дисперсия переменной Y. Sy2 = 2,071667

Коэффициент детерминации показывает, какую долю вариации (разброса) результирующего показателя Y можно объяснить с помощью фактора Х. Он может принимать значения от 0 до 1. Чем ближе коэффициент детерминации к 1, тем большая доля вариации результирующего показателя объясняется действием фактора Х, т.е. тем точнее осуществляется предсказание по уравнению регрессии. Промежуточные расчеты сведем в таблицу 5.

Таблица 5. Промежуточные расчеты для вычисления коэффициента детерминации

x

y

e=-y

е2

1

43

0,9

0,97701

0,07701

0,00593054

2

64,7

1,7

1,151478

-0,548522

0,30087638

3

24

0,7

0,82425

0,12425

0,01543806

4

50,2

1,7

1,034898

-0,665102

0,44236067

5

106

2,6

1,48353

-1,11647

1,24650526

6

96,6

1,3

1,407954

0,107954

0,01165407

7

347

4,1

3,42117

-0,67883

0,46081017

8

85,6

1,6

1,319514

-0,280486

0,0786724

9

745

6,9

6,62109

-0,27891

0,07779079

10

4,1

0,4

0,664254

0,264254

0,06983018

11

56,8

1,3

1,087962

-0,212038

0,04496011

12

42,7

1,9

0,974598

-0,925402

0,85636886

13

61,8

1,9

1,128162

-0,771838

0,5957339

14

212

1,4

2,33577

0,93577

0,87566549

15

105

0,4

1,47549

1,07549

1,15667874

16

33,5

0,8

0,90063

0,10063

0,0101264

17

142

1,8

1,77297

-0,02703

0,00073062

18

96

0,9

1,40313

0,50313

0,2531398

19

140

1,1

1,75689

0,65689

0,43150447

20

59,3

1,9

1,108062

-0,791938

0,6271658

21

131

-0,9

1,68453

2,58453

6,67979532

22

70,7

1,3

1,199718

-0,100282

0,01005648

23

65,4

2

1,157106

-0,842894

0,7104703

24

23,1

0,6

0,817014

0,217014

0,04709508

25

80,8

0,7

1,280922

0,580922

0,33747037

Сумма

15,3468302

Значение коэффициента детерминации R2 = 0,69134 показывает, что 69% вариации результирующего показателя объясняется с помощью уравнения регрессии (действием фактора Х), а 31% - случайностью.

Проверим статистическую значимость уравнения с помощью критерия Фишера.

(13)

Табличное значение критерия рассчитаем как =FРАСПОБР(0,05;1;23).

> , значение критерия F попадает в критическую область, выводы оказываются следующими:

1) коэффициент детерминации признается значимым;

2) существует значимая линейная связь между фактором и результирующим показателем;

3) построенное уравнение адекватно данным генеральной совокупности.

Построим линию регрессии на поле корреляции (рис.4).

Рисунок 4 - Линия регрессии на поле корреляции

Проверим наличие автокорреляции остатков графическим методом и с помощью критерия Дарбина-Уотсона при уровне значимости 0,01.

Одной из предпосылок МНК является независимость между собой значений случайных отклонений. Если присутствует корреляция между ними, то говорят о наличии автокорреляции остатков. Автокорреляцией остатков называется зависимость между значениями случайных отклонений, упорядоченными по значениям фактора Х.

Наиболее наглядный способ проверки состоит в построении диагностической диаграммы: поля корреляции между случайными отклонениями (ошибками прогнозирования) еi и прогнозируемыми значениями результирующего показателя yi.Значения случайного отклонения откладываются по вертикальной оси, прогнозируемые значения результирующего показателя - по горизонтальной оси (рис.5).

При анализе диагностической диаграммы можно сделать следующий вывод: между точками на поле взаимосвязи не наблюдается, диаграмма представляет собой облако из точек, расположенных хаотично и неупорядоченно, следовательно, автокорреляция остатков отсутствует, значит, предпосылки МНК выполняются.

Рисунок 5 - Диагностическая диаграмма к определению автокорреляции.

Проверим наличие автокорреляции с помощью критерия Дарбина-Уотсона при уровне значимости 0,01. Упорядочим случайные отклонения по возрастанию значений фактора Х и составим вспомогательную таблицу 6.

Таблица 6. Промежуточные расчеты критерия Дарбина-Уотсона

x

y

y1

ei

ei2

ei-1

ei- ei-1

(ei - ei-1)2

4,1

0,4

0,664269

-0,264269

0,069838131

23,1

0,6

0,817108

-0,217108

0,047135748

-0,264269

0,0471614

0,00222419

24

0,7

0,824347

-0,124347

0,015462279

-0,2171077

0,0927603

0,00860447

33,5

0,8

0,900767

-0,100767

0,010153934

-0,1243474

0,0235807

0,00055605

42,7

1,9

0,974773

0,925227

0,856045353

-0,1007667

1,0259939

1,05266353

43

0,9

0,977186

-0,077186

0,005957687

0,9252272

-1,002413

1,00483231

50,2

1,7

1,035104

0,664896

0,442086889

-0,0771861

0,7420822

0,55068599

56,8

1,3

1,088195

0,211805

0,044861287

0,6648961

-0,453091

0,20529174

59,3

1,9

1,108306

0,791694

0,626780158

0,2118048

0,5798897

0,33627201

61,8

1,9

1,128416

0,771584

0,595342082

0,7916945

-0,02011

0,00040443

64,7

1,7

1,151744

0,548256

0,30058479

0,7715841

-0,223328

0,0498754

65,4

2

1,157375

0,842625

0,710017292

0,5482561

0,2943691

0,08665317

70,7

1,3

1,200009

0,099991

0,009998261

0,8426252

-0,742634

0,55150516

80,8

0,7

1,281255

-0,581255

0,337856794

0,0999913

-0,681246

0,46409584

85,6

1,6

1,319866

0,280134

0,078474852

-0,5812545

0,8613881

0,74198952

96

0,9

1,403525

-0,503525

0,253537839

0,2801336

-0,783659

0,6141215

96,6

1,3

1,408352

-0,108352

0,011740133

-0,5035254

0,3951735

0,15616211

105

0,4

1,475923

-1,075923

1,157609572

-0,1083519

-0,967571

0,93619319

106

2,6

1,483967

1,116033

1,245530105

-1,0759227

2,1919559

4,8046705

131

-0,9

1,68507

-2,58507

6,682588306

1,1160332

-3,701103

13,6981669

140

1,1

1,757468

-0,657468

0,432263541

-2,5850703

1,9276028

3,71565236

142

1,8

1,773556

0,026444

0,000699296

-0,6574675

0,6839117

0,46773524

212

1,4

2,336646

-0,936646

0,877304827

0,0264442

-0,96309

0,92754181

347

4,1

3,422604

0,677396

0,458864983

-0,9366455

1,6140413

2,60512917

745

6,9

6,624172

0,275828

0,076081345

0,6773957

-0,401567

0,16125627

15,34681548

33,1422829

Критерий Дарбина - Уотсона рассчитывается по формуле:

(14)

Для определения критических точек воспользуемся таблицей критических точек Дарбина-Уотсона: при уровне значимости = 0,01, одной независимой переменной m=1, и числе наблюдений n=25, dl = 1,033 и du = 1,211.

Так как du < DW < 4 - du (1,033 < 2,160 < 2,789), то можно сделать вывод, что автокорреляция отсутствует.

Проверим наличие гетероскедастичности графическим методом и с помощью теста ранговой корреляции при уровне значимости 0,1 (рис.6).

На диагностической диаграмме заметно увеличение дисперсии при увеличении значений фактора, т. е. можно сделать вывод о наличии гетероскедастичности в построенной регрессионной модели.

Рисунок 6 - Диагностическая диаграмма к определению гетероскедастичности.

Проверим наличие гетероскедастичности в регрессионной модели с помощью теста ранговой корреляции Спирмена. Суть теста ранговой корреляции сводится к оценке коэффициента корреляции между рангами переменной Х и модуля случайных отклонений е.

Ранг - это место данного числового значения среди упорядоченных значений анализируемого показателя.

Коэффициент ранговой корреляции находится по формуле:

(15)

Вспомогательные расчеты оформим в виде таблицы 7.

Проверка правильности составления матрицы на основе исчисления контрольной суммы:

Сумма по столбцам матрицы равны между собой и контрольной суммы, значит, матрица составлена правильно.

Рассчитаем коэффициент ранговой корреляции:

Вывод: между фактором Х и случайными отклонениями е имеется взаимосвязь слабой силы.

Таблица 7. Вспомогательные расчеты к тесту ранговой корреляции

x

y

R(xi)

ei

R(ei)

di

di2

43

0,9

6

-0,077186

0,0771861

2

4

16

64,7

1,7

11

0,5482561

0,5482561

13

-2

4

24

0,7

3

-0,124347

0,1243474

6

-3

9

50,2

1,7

7

0,6648961

0,6648961

16

-9

81

106

2,6

19

1,1160332

1,1160332

24

-5

25

96,6

1,3

17

-0,108352

0,1083519

5

12

144

347

4,1

24

0,6773957

0,6773957

17

7

49

85,6

1,6

15

0,2801336

0,2801336

11

4

16

745

6,9

25

0,2758285

0,2758285

10

15

225

4,1

0,4

1

-0,264269

0,264269

9

-8

64

56,8

1,3

8

0,2118048

0,2118048

7

1

1

42,7

1,9

5

0,9252272

0,9252272

21

-16

256

61,8

1,9

10

0,7715841

0,7715841

18

-8

64

212

1,4

23

-0,936646

0,9366455

22

1

1

105

0,4

18

-1,075923

1,0759227

23

-5

25

33,5

0,8

4

-0,100767

0,1007667

4

0

0

142

1,8

22

0,0264442

0,0264442

1

21

441

96

0,9

16

-0,503525

0,5035254

12

4

16

140

1,1

21

-0,657468

0,6574675

15

6

36

59,3

1,9

9

0,7916945

0,7916945

19

-10

100

131

-0,9

20

-2,58507

2,5850703

25

-5

25

70,7

1,3

13

0,0999913

0,0999913

3

10

100

65,4

2

12

0,8426252

0,8426252

20

-8

64

23,1

0,6

2

-0,217108

0,2171077

8

-6

36

80,8

0,7

14

-0,581255

0,5812545

14

0

0

325

325

0

1798

Проверим значимость коэффициента ранговой корреляции при уровне значимости 0,01:

Н0: rx,e = 0 - коэффициент ранговой корреляции незначим,

Н1: rx,e ? 0 - коэффициент ранговой корреляции значим.

Рассчитаем наблюдаемое значение критерия Стьюдента.

Критическое значение критерия Стьюдента при уровне значимости = 0,1 и числе степеней свободы н = n - 2 =25 - 2 =23, = 1,7139. Коэффициент ранговой корреляции признается незначимым, так как наблюдаемое значение Т = 1,5552 меньше чем критическое значение = 1,7139. Зависимость между фактором Х и случайными отклонениями е отсутствует, т.е. наблюдается гомоскедастичность.