logo
Многомерные статистические методы и эконометрика

2.2 Факторный анализ

1. Запишем модель факторного анализа и предъявляемые к ней требования.

Математическая модель факторного анализа в матричной форме имеет следующий вид:

X Ю=AF+е,

где F=(F1,…,F2) - вектор общих факторов. Центрированный и нормированный вектор-столбец некоррелированных общих факторов. 0<k<m;

A(mЧk) - неслучайная матрица нагрузок компонентов xi - на факторы fj;

е=(е1,…,еm) - вектор распределений по m-мерному нормальному закону; центрированный вектор специфических факторов, некоррелированных как между собой, так и с общими факторами.

К общим и специфическим факторам предъявляются следующие требования:

* общие факторы должны быть некоррелированы между собой;

* специфические факторы должны быть некоррелированы как между собой, так и с общими факторами.

2. Для выделения факторов реализуем метод максимального правдоподобия.

Зададим максимальное число факторов равным одному, чтобы вначале выявить один общий фактор.

В результате работы программы максимум функции правдоподобия не найден, следовательно, невозможно рассчитать матрицу факторных нагрузок.

Установим максимальное число факторов равным двум.

Сразу обратим внимание на тест «Хи-квадрат», проверяющий гипотезу о равенстве числа общих факторов двум.

Тест «Хи-квадрат»

Наблюдаемое значение

Уровень значимости

Р-значение

8,629

1

,003

Гипотеза H0 о том, что число общих факторов равно двум, принимается на 1%-ном уровне значимости, так как наблюдаемое значение статистики ч2, равное 8,629 меньше критического значения .

Следовательно, можно выделить всего 2 фактора, влияющие на распределение признаков, несмотря на то, что они в совокупности объясняют лишь 60,405% всей вариации:

Объясненная суммарная дисперсия

Факторы

Собственные значения

Суммы квадратов нагрузок после вращения

Сумма

% вариации

Суммарный %

Сумма

% вариации

Суммарный %

1

1,732

34,635

34,635

1,323

26,464

26,464

2

1,288

25,770

60,405

1,256

25,121

51,586

3

,989

19,775

80,179

4

,777

15,535

95,715

5

,214

4,285

100,000

Определим нагрузку исходных признаков на общие факторы.

Можно изобразить факторные нагрузки в виде диаграммы рассеяния:

28

На этой диаграмме каждая переменная представлена точкой. Можно повернуть оси в любом направлении без изменения относительного положения точек; однако действительные координаты точек, то есть факторные нагрузки, должны, без сомнения, меняться. Можно увидеть, что если повернуть оси относительно начала координат на 45 градусов, то можно достичь ясного представления о нагрузках, определяющих переменные.

Существуют различные методы вращения факторов. Целью этих методов является получение понятной (интерпретируемой) матрицы нагрузок, то есть факторов, которые ясно отмечены высокими нагрузками для некоторых переменных и низкими - для других. Эту общую модель иногда называют простой структурой. Типичными методами вращения являются стратегии варимакс, квартимакс, и эквимакс.

Идея вращения по методу варимакс заключается в максимизации дисперсии исходного пространства переменных. Например, на диаграмме рассеяния можно рассматривать линию регрессии как ось X, повернув ее так, что она совпадала с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) "новой" переменной (фактора) и минимизации разброса вокруг нее. Другими словами, вращение позволяет получить матрицу нагрузок на каждый фактор таким образом, чтобы они отличались максимально возможным образом, и имелась возможность их простой интерпретации [7, факторный анализ]. Ниже приведена вращенная диаграмма рассеивания и таблица нагрузок на повернутые факторы.

28

Вращенная матрица факторных нагрузок

Признаки

Факторы

1

2

1

-,205

,455

2

,011

,081

3

,561

-,105

4

,966

,258

5

,185

,982

Дадим содержательную интерпретацию этим факторам. Как видно из таблицы первый фактор имеет сильную прямую связь с 4-м признаком (стоимость минимального набора продуктов питания) и умеренную прямую связь с 3-м признаком (обеспеченность амбулаторно-поликлиническими учреждениями), поэтому его можно назвать «условия для поддержания здоровья населения». Второй фактор тесно связан с 5-м признаком (объем инвестиций в основной капитал) и слабее с 1-м признаком (ввод в действие жилых домов). Назовем его «обеспеченность жильем». Как видно второй признак имеет очень маленькую нагрузку на оба фактора, поэтому его можно не учитывать.

Вероятнее всего, оставшиеся 39,5% вариации признаков объясняются специфическими факторами.

Матрица специфических факторов

Факторы

1

2

1

,680

,733

2

-,733

,680

3. Проведем регрессионный анализ признака Y (номинальная заработная плата) на общие факторы F1 (который включает стоимость минимального набора продуктов питания и обеспеченность амбулаторно-поликлиническими учреждениями) и F2 (включающий объем инвестиций в основной капитал).

Была получена матрица корреляции, по которой видно, что первый фактор больше коррелирует с результативным признаком, чем второй:

Y

F1

F2

Y

1

F1

0,560433

1

F2

0,135599

5,21E-07

1

Регрессия имеет средние показатели качества и большое значение стандартной ошибки:

Регрессионная статистика

Множественный R

0,576604

R-квадрат

0,332472

Нормированный R-квадрат

0,31599

Стандартная ошибка

4490,584

Наблюдения

84

Уравнение регрессии имеет вид:

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

9988,742

489,9629

20,38673

1,23E-33

9013,869

10963,61

F1

3042,956

492,906

6,173502

2,52E-08

2062,228

4023,685

F2

736,2536

492,9057

1,493701

0,139139

-244,474

1716,981

Наблюдаемое и критическое значения F- статистики равны соответственно 20,17164 и 3,109311, что отвергает гипотезу о незначимости всего уравнения регрессии в целом.

Из таблицы видно, что коэффициент регрессии при F2 незначим, поэтому исключим его и проведем регрессионный анализ по одному фактору.

Коэффициенты

Стандартная ошибка

t-статистика

P-Значение

Нижние 95%

Верхние 95%

Y-пересечение

9988,742

493,6274

20,23539

1,25E-33

9006,76

10970,72

F1

3042,957

496,5924

6,127674

2,96E-08

2055,076

4030,837

Получили уравнение:

Уравнение является значимым (Fн=37,54839, Fк=3,957388), как и все его коэффициенты.

Таким образом, можно сделать вывод, что номинальная заработная плата находится в прямой зависимости от стоимости минимального набора продуктов питания и обеспеченности амбулаторно-поликлиническими учреждениями. Эта зависимость имеет общие черты с предыдущим регрессионным анализом по исходным признакам и по главным компонентам, где получили зависимость заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и вложений в основной капитал (по исходным признакам) и стоимость минимального набора продуктов питания, обеспеченности амбулаторно-поликлиническими учреждениями и вложений в основной капитал (по главным компонентам).