Многомерные статистические методы и эконометрика

2.2 Факторный анализ

1. Запишем модель факторного анализа и предъявляемые к ней требования.

Математическая модель факторного анализа в матричной форме имеет следующий вид:

X Ю=AF+е,

где F=(F₁,…,F₂) - вектор общих факторов. Центрированный и нормированный вектор-столбец некоррелированных общих факторов. 0<k<m;

A_(mЧk) - неслучайная матрица нагрузок компонентов x_i - на факторы f_j;

е=(е₁,…,е_m) - вектор распределений по m-мерному нормальному закону; центрированный вектор специфических факторов, некоррелированных как между собой, так и с общими факторами.

К общим и специфическим факторам предъявляются следующие требования:

* общие факторы должны быть некоррелированы между собой;

* специфические факторы должны быть некоррелированы как между собой, так и с общими факторами.

2. Для выделения факторов реализуем метод максимального правдоподобия.

Зададим максимальное число факторов равным одному, чтобы вначале выявить один общий фактор.

В результате работы программы максимум функции правдоподобия не найден, следовательно, невозможно рассчитать матрицу факторных нагрузок.

Установим максимальное число факторов равным двум.

Сразу обратим внимание на тест «Хи-квадрат», проверяющий гипотезу о равенстве числа общих факторов двум.

Тест «Хи-квадрат»

Наблюдаемое значение	Уровень значимости	Р-значение
8,629	1	,003

Гипотеза H₀ о том, что число общих факторов равно двум, принимается на 1%-ном уровне значимости, так как наблюдаемое значение статистики ч², равное 8,629 меньше критического значения .

Следовательно, можно выделить всего 2 фактора, влияющие на распределение признаков, несмотря на то, что они в совокупности объясняют лишь 60,405% всей вариации:

Объясненная суммарная дисперсия

Факторы	Собственные значения	Суммы квадратов нагрузок после вращения
	Сумма	% вариации	Суммарный %	Сумма	% вариации	Суммарный %
1	1,732	34,635	34,635	1,323	26,464	26,464
2	1,288	25,770	60,405	1,256	25,121	51,586
3	,989	19,775	80,179
4	,777	15,535	95,715
5	,214	4,285	100,000

Определим нагрузку исходных признаков на общие факторы.

Можно изобразить факторные нагрузки в виде диаграммы рассеяния:

На этой диаграмме каждая переменная представлена точкой. Можно повернуть оси в любом направлении без изменения относительного положения точек; однако действительные координаты точек, то есть факторные нагрузки, должны, без сомнения, меняться. Можно увидеть, что если повернуть оси относительно начала координат на 45 градусов, то можно достичь ясного представления о нагрузках, определяющих переменные.

Существуют различные методы вращения факторов. Целью этих методов является получение понятной (интерпретируемой) матрицы нагрузок, то есть факторов, которые ясно отмечены высокими нагрузками для некоторых переменных и низкими - для других. Эту общую модель иногда называют простой структурой. Типичными методами вращения являются стратегии варимакс, квартимакс, и эквимакс.

Идея вращения по методу варимакс заключается в максимизации дисперсии исходного пространства переменных. Например, на диаграмме рассеяния можно рассматривать линию регрессии как ось X, повернув ее так, что она совпадала с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) "новой" переменной (фактора) и минимизации разброса вокруг нее. Другими словами, вращение позволяет получить матрицу нагрузок на каждый фактор таким образом, чтобы они отличались максимально возможным образом, и имелась возможность их простой интерпретации [7, факторный анализ]. Ниже приведена вращенная диаграмма рассеивания и таблица нагрузок на повернутые факторы.

Вращенная матрица факторных нагрузок

Признаки	Факторы
	1	2
1	-,205	,455
2	,011	,081
3	,561	-,105
4	,966	,258
5	,185	,982

Дадим содержательную интерпретацию этим факторам. Как видно из таблицы первый фактор имеет сильную прямую связь с 4-м признаком (стоимость минимального набора продуктов питания) и умеренную прямую связь с 3-м признаком (обеспеченность амбулаторно-поликлиническими учреждениями), поэтому его можно назвать «условия для поддержания здоровья населения». Второй фактор тесно связан с 5-м признаком (объем инвестиций в основной капитал) и слабее с 1-м признаком (ввод в действие жилых домов). Назовем его «обеспеченность жильем». Как видно второй признак имеет очень маленькую нагрузку на оба фактора, поэтому его можно не учитывать.

Вероятнее всего, оставшиеся 39,5% вариации признаков объясняются специфическими факторами.

Матрица специфических факторов

Факторы	1	2
1	,680	,733
2	-,733	,680

3. Проведем регрессионный анализ признака Y (номинальная заработная плата) на общие факторы F₁ (который включает стоимость минимального набора продуктов питания и обеспеченность амбулаторно-поликлиническими учреждениями) и F₂ (включающий объем инвестиций в основной капитал).

Была получена матрица корреляции, по которой видно, что первый фактор больше коррелирует с результативным признаком, чем второй:

	Y	F1	F2
Y	1
F1	0,560433	1
F2	0,135599	5,21E-07	1

Регрессия имеет средние показатели качества и большое значение стандартной ошибки:

Регрессионная статистика
Множественный R	0,576604
R-квадрат	0,332472
Нормированный R-квадрат	0,31599
Стандартная ошибка	4490,584
Наблюдения	84

Уравнение регрессии имеет вид:

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	9988,742	489,9629	20,38673	1,23E-33	9013,869	10963,61
F1	3042,956	492,906	6,173502	2,52E-08	2062,228	4023,685
F2	736,2536	492,9057	1,493701	0,139139	-244,474	1716,981

Наблюдаемое и критическое значения F- статистики равны соответственно 20,17164 и 3,109311, что отвергает гипотезу о незначимости всего уравнения регрессии в целом.

Из таблицы видно, что коэффициент регрессии при F₂ незначим, поэтому исключим его и проведем регрессионный анализ по одному фактору.

	Коэффициенты	Стандартная ошибка	t-статистика	P-Значение	Нижние 95%	Верхние 95%
Y-пересечение	9988,742	493,6274	20,23539	1,25E-33	9006,76	10970,72
F1	3042,957	496,5924	6,127674	2,96E-08	2055,076	4030,837

Получили уравнение:

Уравнение является значимым (F_н=37,54839, F_к=3,957388), как и все его коэффициенты.

Таким образом, можно сделать вывод, что номинальная заработная плата находится в прямой зависимости от стоимости минимального набора продуктов питания и обеспеченности амбулаторно-поликлиническими учреждениями. Эта зависимость имеет общие черты с предыдущим регрессионным анализом по исходным признакам и по главным компонентам, где получили зависимость заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и вложений в основной капитал (по исходным признакам) и стоимость минимального набора продуктов питания, обеспеченности амбулаторно-поликлиническими учреждениями и вложений в основной капитал (по главным компонентам).

Содержание