logo
исследования

48. Кластерный анализ (ка): суть метода, этапы выполнения анализа, вращение факторов.

КА – сов-ть методов, позвол классиф-ть многомерные наблюдения, каждое из кот опис-ся набором исходных переменных. КА – класс методов, исп-ся для класс-ции объектов или событий в относит однород группы – кластеры. Объекты в каждом кластере дб похожи друг на друга и отличаться от объектов в др кластерах. Элементы, вкл в 1 кластер, имеют разную ст схожести. Техника КА – в выявлении ур схожести всех исслед элементов и послед объединении элементов в порядке ↑ ур различия между ними. Число выявленных кластеров зависит от заданного ур схожести элем., вкл в 1 кластер.

Цели КА: 1) сегментация рынка; 2) понимание потр поведения; 3) опр-ние возм-ти нов товаров; 4) выбор тестовых рынков; 5) ↓ размерности данных при создании кластеров.

Этапы КА: 1 этап. Формул-ние проблемы. Осущ-ся выбор переменных. Для этого анализ-ся прошлое исслед., принимается во внимание раб гипотеза. Главная задача – набор перем должен описывать сходство между объектами с т.зр признаков, имеющих отношение к проблеме исслед.

2 этап. Опр-ние метода кластеризации. 2 метода: иерархич., неиерарх. Иерархический метод – метод класт-ции, хар-ся постр иерарх (древовид.) стр-ры. Подходы: 1) сверху вниз: все объекты→ в 1 кластер, затем раздел-ся, 2) снизу вверх: каждый объект – в своем кластере, затем они объедин. +: легкая интерпретация рез-тов, -: нестабильность. Неиерархический метод базируется на опр-нии центра кластера, после чего все объекты, попад в заранее опред пороговое расстояние от него, вкл-ся в этот кластер. На практике часто исп-ся сочетание 2 подходов.

Иерархические методы: 1) агломеративные, 2) дивизионные. 1) Агломер. (каждый объект первоначально находится в отд кластере, далее групп-ся во все более крупные кластеры): методы связи, дисперсионные, центроидные. Методы связи объединяют объекты в кластер, исходя из вычисл расст-ния между ними (метод одиночной, полной, средней связи). Дисперсионные методы – кластер формир-ся так, чтобы минимиз внутрикласт дисперсию. Метод Варда – кластеры формир-ся т.о., чтобы минимиз квадраты евклидовых расстояний до кластерных средний. Центроидный метод – расстояние между 2 кластерами – расстояние между их центроидами – точками, координ кот явл-ся средними по всем наблюд в кластере. Объедин групп произв-ся в соотв с расстоянием между их центроидами, где это расст-ние минимально – первые группы. 2) Дивизионные – все объекты сначала входят в 1 кластер, далее кластер делится на более мелкие.

Неиерархические методы: 1) последоват пороговый, 2) параллельный пороговый, 3) метод оптимизации. 1) последоват пороговый – выбирают кластер и все об., наход в пределах заданного от центра порогового знач, группируют вместе. Далее выбир-ся нов центр и процесс повтор-ся для не вошедших в кластеры объектов и т.д. 2) параллельный пороговый - одновременно опр-ют несколько класт центров. После форм-ния кластеров пороговое знач мб скорректир., что позволяет отрегул кол-во наблюдений в кластере. 3) метод оптимизации позволяет поставить объекты в соотв другим кластерам, чтобы оптимизир суммарный критерий.

3 этап. Выбор меры расстояния. Чтобы сгруппировать наблюдения в кластеры, необх рассчитать какой-л пок-ль сходства или различия между объектами: 1) евклидово расстояние; 2) квадрат евклид расстояния; 3) корреляция Пирсона; 4) мера хи-квадрат и др.

4 этап. Опр-ние кол-ва кластеров. Оптим явл-ся такое кол-во кластеров, при кот сформир кластеры: 1) объедин в себе как можно больше объектов исслед., 2) являются возможно менее гетерогенными внутри (разнород.). Оптим кол-во кластеров опр-ся специалистами. Подходы: 1) опр-ние, основ на предвар инф-ции, т.е. опыте и знаниях, 2) на основании модели кластеров, 3) на основе завис-ти дисперсии от числа кластеров, 4) опр-ние на основе размеров кластеров.

5 этап. Интерпретация, профилирование кластеров. После формир-я кластеров их нужно описать. Центроид – ср знач объектов кластера по каждой из перем., формир-х профиль каждого об. Если сущ-ют знач различия между перем в кластерах, целесообр исп-ть дисперс/ дискр анализ.

6 этап. Оценка достоверности кластеризации. 1) исп-ние разных способов измер расстояния для сравнения рез-тов, 2) исп-ние разл методов КА для сравнения рез-тов, 3) выполнение КА для 2 подвыборок, 4) выполнение КА по сокращ набору перем., т.е. случ удаление неск перем для сравнения с полным набором перем., 5) изменение порядка случаев при иерарх подходе до получения стабильного решения.