2.8 Кластерный анализ
Методами кластерного анализа решается задача разбиения (классификации, кластеризации) множества объектов таким образом, чтобы все объекты, принадлежащие одному кластеру (классу, группе) были более похожи друг на друга, чем на объекты других кластеров.
Метод средней связи Кинга является одним из важнейших иерархических агломеративных методов кластерного анализа. Процесс классификации состоит из элементарных шагов:
1.Поиск и объединение двух наиболее похожих объектов в матрице сходства.
2.Основанием для помещения объекта в кластер является близость двух объектов, в зависимости от меры сходства.
3.На каком-либо этапе ранее объединенные в один кластер объекты считаются одним объектом с усредненными по кластеру параметрами.
4.На следующем этапе находятся два очередных наиболее похожих объекта, и процедура повторяется с шага 2 до полного исчерпания матрицы сходства.
Универсальность метода
При использовании представленного здесь не возникает проблемы возможного несоответствия применяемой меры и шкалы измерения, т.к. метод оперирует не исходными объектами, а построенной матрицей сходства, по определению являющейся количественной. Координаты центра тяжести кластера вычисляются не по исходным данным - они являются продуктом манипуляций с матрицей сходства.
В качестве меры различия для метода средней связи используется любая из представленных в программе мер, чем и определяется универсальность метода для любых типов данных, в том числе для смешанных данных.
Результаты анализа
Число объектов |
||||||
20 |
||||||
Число параметров |
||||||
19 |
||||||
Заданное число кластеров |
||||||
5 |
||||||
Процедура: Метод средней связи Кинга |
||||||
Тип связи: Евклидово расстояние** |
||||||
Объединенные объекты, уровень связи |
||||||
8 |
9 |
812,5429 |
||||
13 |
14 |
1503,822 |
||||
17 |
18 |
1683,296 |
||||
6 |
7 |
1691,319 |
||||
8 |
9 |
2374,921 |
||||
13 |
15 |
2572,566 |
||||
8 |
9 |
2592,207 |
||||
6 |
7 |
3007,138 |
||||
9 |
10 |
3492,513 |
||||
2 |
4 |
4259,03 |
||||
2 |
3 |
4599,02 |
||||
3 |
4 |
4757,176 |
||||
7 |
8 |
6194,969 |
||||
4 |
5 |
6441,806 |
||||
1 |
3 |
7477,76 |
||||
1 |
2 |
6979,573 |
||||
1 |
2 |
10918,18 |
||||
2 |
3 |
12103,6 |
||||
1 |
2 |
20680,26 |
||||
Номер кластера, численность, объекты |
||||||
1 |
2 |
1 |
5 |
|||
2 |
3 |
2 |
4 |
3 |
||
3 |
4 |
10 |
11 |
12 |
13 |
|
4 |
3 |
14 |
15 |
16 |
||
5 |
3 |
17 |
19 |
18 |
- 1. ВВЕДЕНИЕ
- 2. РАСЧЕТНАЯ ЧАСТЬ
- 2.1 Исходные данные для проведения анализа
- 2.2 Базовый анализ данных
- 2.3 Анализ временных рядов
- 2.4 Корреляционный анализ
- 2.5 Регрессионный анализ
- Дисперсионный анализ
- 2.6 Дисперсионный анализ
- Дисперсионный анализ
- 2.7 Факторный анализ
- 2.8 Кластерный анализ
- 3. ЗАКЛЮЧЕНИЕ