2.2 Факторный анализ
1. Запишем модель факторного анализа и предъявляемые к ней требования.
Математическая модель факторного анализа в матричной форме имеет следующий вид:
X Ю=AF+е,
где F=(F1,…,F2) - вектор общих факторов. Центрированный и нормированный вектор-столбец некоррелированных общих факторов. 0<k<m;
A(mЧk) - неслучайная матрица нагрузок компонентов xi - на факторы fj;
е=(е1,…,еm) - вектор распределений по m-мерному нормальному закону; центрированный вектор специфических факторов, некоррелированных как между собой, так и с общими факторами.
К общим и специфическим факторам предъявляются следующие требования:
* общие факторы должны быть некоррелированы между собой;
* специфические факторы должны быть некоррелированы как между собой, так и с общими факторами.
2. Для выделения факторов реализуем метод максимального правдоподобия.
Зададим максимальное число факторов равным одному, чтобы вначале выявить один общий фактор.
В результате работы программы максимум функции правдоподобия не найден, следовательно, невозможно рассчитать матрицу факторных нагрузок.
Установим максимальное число факторов равным двум.
Сразу обратим внимание на тест «Хи-квадрат», проверяющий гипотезу о равенстве числа общих факторов двум.
Тест «Хи-квадрат»
Наблюдаемое значение |
Уровень значимости |
Р-значение |
|
8,629 |
1 |
,003 |
Гипотеза H0 о том, что число общих факторов равно двум, принимается на 1%-ном уровне значимости, так как наблюдаемое значение статистики ч2, равное 8,629 меньше критического значения .
Следовательно, можно выделить всего 2 фактора, влияющие на распределение признаков, несмотря на то, что они в совокупности объясняют лишь 60,405% всей вариации:
Объясненная суммарная дисперсия
Факторы |
Собственные значения |
Суммы квадратов нагрузок после вращения |
|||||
Сумма |
% вариации |
Суммарный % |
Сумма |
% вариации |
Суммарный % |
||
1 |
1,732 |
34,635 |
34,635 |
1,323 |
26,464 |
26,464 |
|
2 |
1,288 |
25,770 |
60,405 |
1,256 |
25,121 |
51,586 |
|
3 |
,989 |
19,775 |
80,179 |
||||
4 |
,777 |
15,535 |
95,715 |
||||
5 |
,214 |
4,285 |
100,000 |
Определим нагрузку исходных признаков на общие факторы.
Можно изобразить факторные нагрузки в виде диаграммы рассеяния:
28
На этой диаграмме каждая переменная представлена точкой. Можно повернуть оси в любом направлении без изменения относительного положения точек; однако действительные координаты точек, то есть факторные нагрузки, должны, без сомнения, меняться. Можно увидеть, что если повернуть оси относительно начала координат на 45 градусов, то можно достичь ясного представления о нагрузках, определяющих переменные.
Существуют различные методы вращения факторов. Целью этих методов является получение понятной (интерпретируемой) матрицы нагрузок, то есть факторов, которые ясно отмечены высокими нагрузками для некоторых переменных и низкими - для других. Эту общую модель иногда называют простой структурой. Типичными методами вращения являются стратегии варимакс, квартимакс, и эквимакс.
Идея вращения по методу варимакс заключается в максимизации дисперсии исходного пространства переменных. Например, на диаграмме рассеяния можно рассматривать линию регрессии как ось X, повернув ее так, что она совпадала с прямой регрессии. Этот тип вращения называется вращением, максимизирующим дисперсию, так как критерий (цель) вращения заключается в максимизации дисперсии (изменчивости) "новой" переменной (фактора) и минимизации разброса вокруг нее. Другими словами, вращение позволяет получить матрицу нагрузок на каждый фактор таким образом, чтобы они отличались максимально возможным образом, и имелась возможность их простой интерпретации [7, факторный анализ]. Ниже приведена вращенная диаграмма рассеивания и таблица нагрузок на повернутые факторы.
28
Вращенная матрица факторных нагрузок
Признаки |
Факторы |
||
1 |
2 |
||
1 |
-,205 |
,455 |
|
2 |
,011 |
,081 |
|
3 |
,561 |
-,105 |
|
4 |
,966 |
,258 |
|
5 |
,185 |
,982 |
Дадим содержательную интерпретацию этим факторам. Как видно из таблицы первый фактор имеет сильную прямую связь с 4-м признаком (стоимость минимального набора продуктов питания) и умеренную прямую связь с 3-м признаком (обеспеченность амбулаторно-поликлиническими учреждениями), поэтому его можно назвать «условия для поддержания здоровья населения». Второй фактор тесно связан с 5-м признаком (объем инвестиций в основной капитал) и слабее с 1-м признаком (ввод в действие жилых домов). Назовем его «обеспеченность жильем». Как видно второй признак имеет очень маленькую нагрузку на оба фактора, поэтому его можно не учитывать.
Вероятнее всего, оставшиеся 39,5% вариации признаков объясняются специфическими факторами.
Матрица специфических факторов
Факторы |
1 |
2 |
|
1 |
,680 |
,733 |
|
2 |
-,733 |
,680 |
3. Проведем регрессионный анализ признака Y (номинальная заработная плата) на общие факторы F1 (который включает стоимость минимального набора продуктов питания и обеспеченность амбулаторно-поликлиническими учреждениями) и F2 (включающий объем инвестиций в основной капитал).
Была получена матрица корреляции, по которой видно, что первый фактор больше коррелирует с результативным признаком, чем второй:
Y |
F1 |
F2 |
||
Y |
1 |
|||
F1 |
0,560433 |
1 |
||
F2 |
0,135599 |
5,21E-07 |
1 |
Регрессия имеет средние показатели качества и большое значение стандартной ошибки:
Регрессионная статистика |
||
Множественный R |
0,576604 |
|
R-квадрат |
0,332472 |
|
Нормированный R-квадрат |
0,31599 |
|
Стандартная ошибка |
4490,584 |
|
Наблюдения |
84 |
Уравнение регрессии имеет вид:
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
9988,742 |
489,9629 |
20,38673 |
1,23E-33 |
9013,869 |
10963,61 |
|
F1 |
3042,956 |
492,906 |
6,173502 |
2,52E-08 |
2062,228 |
4023,685 |
|
F2 |
736,2536 |
492,9057 |
1,493701 |
0,139139 |
-244,474 |
1716,981 |
Наблюдаемое и критическое значения F- статистики равны соответственно 20,17164 и 3,109311, что отвергает гипотезу о незначимости всего уравнения регрессии в целом.
Из таблицы видно, что коэффициент регрессии при F2 незначим, поэтому исключим его и проведем регрессионный анализ по одному фактору.
Коэффициенты |
Стандартная ошибка |
t-статистика |
P-Значение |
Нижние 95% |
Верхние 95% |
||
Y-пересечение |
9988,742 |
493,6274 |
20,23539 |
1,25E-33 |
9006,76 |
10970,72 |
|
F1 |
3042,957 |
496,5924 |
6,127674 |
2,96E-08 |
2055,076 |
4030,837 |
Получили уравнение:
Уравнение является значимым (Fн=37,54839, Fк=3,957388), как и все его коэффициенты.
Таким образом, можно сделать вывод, что номинальная заработная плата находится в прямой зависимости от стоимости минимального набора продуктов питания и обеспеченности амбулаторно-поликлиническими учреждениями. Эта зависимость имеет общие черты с предыдущим регрессионным анализом по исходным признакам и по главным компонентам, где получили зависимость заработной платы от обеспеченности амбулаторно-поликлиническими учреждениями и вложений в основной капитал (по исходным признакам) и стоимость минимального набора продуктов питания, обеспеченности амбулаторно-поликлиническими учреждениями и вложений в основной капитал (по главным компонентам).
- 15.4. Высокие статистические технологии и эконометрика
- 1.2.Структура эконометрики
- Многомерные статистические методы
- Эконометрика
- Многомерные статистические методы
- Определение эконометрики. Предмет и методы эконометрики.
- Раздел 3. Эконометрика и эконометрическое моделирование. Многомерный статистический анализ