logo
исследования

46. Дискриминантный анализ (да): цели, этапы выполнения

ДА – анализ различий заранее определ групп объектов исслед. (тов., потреб., ТМ и т.д.). Д переменные – признаки, по кот изучаются различия между 2/более группами. Переменная, разд-щая сов-ть объектов исслед на группы, – группирующая перем.

Цели ДА: 1) опр-ние Д ф-ций или лин комбинаций независ перем., кот наилучшим обр различают группы зависимой; 2) проверка сущ-ния между группами знач различий с т.зр независ.; 3) опр-ние предикторов, вносящих наиб вклад в межгрупп различия; 4) отнесение случаев к 1 из групп с учетом значений предикторов; 5) оценка точности классиф-ции данных на группы.

Этапы ДА: 1 этап. Формул-ние проблемы: опр-ние целей, завис и независ переменных. Зависимая должна состоять из 2/более взаимоискл категорий, дб категориальной (если интерв./ относит., необх перевести в категориальную).

2 этап. Опр-ние коэфф-в Д ф-ции. Д ф-ция – лин комбинация независ перем., выведенная посредством ДА, позвол наилучшим обр различить категории завис n. d=a+b1x1+b2x2, где d-группирующая перем., b1,2- коэфф-ты Д ф-ции, x1,2- независ перем. 2 метода выбора независ перем.: 1) прямой – одновр введение всех предикторов; 2) пошаговый – послед введение предикторов. Порядок опр-ния коэфф-в Д ф-ции: 1) опр-ся значения Д ф-ции (f) для каждого i-ого наблюд., кот опис-ся m переменными; 2) рассч-ся ср значение f для каждой группы; 3) опр-ся коэфф-ты Д ф-ции (bi), чтобы ср значения f1, f2 как можно больше отлич между собой. Константа Д – граница, разд-щая 2 множества. С=1/2(f1ср+f2ср). Объекты, распол над разд поверх-тью f(x)=c отнесены к 1 группе, а ниже – ко 2 группе.

3 этап. Опр-ние значимости Д ф-ции. Стат проверка Но о равенстве средних всех Д ф-ций во всех группах ген сов-ти базир-ся на коэфф лямбда λ Уилкса. Коэфф лямбда λ для каждого предиктора – отношение внутригрупп суммы квадратов к общей сумме квадратов. Если λ→1, то сред значения исслед групп не отличаются друг от друга. Если λ→0, это указывает на различия сред значений в группах, что позволяет отклонить Но.

4 этап. Интерпретация получ рез-тов. Преставление рез-тов нач-ся с обзора действит и пропущ значений (программа строит Д ф-цию, исп-я только действ знач.). Далее анал-ся λ и стат значимость. Значение стат-ки дб меньше 0,05 (это значит, что различия между средними знач Д переменных явл-ся стат знач.). Далее исследуем незав переменные на мультиколл., рассчитав коэфф корреляции (при наличии корреляции удаляем их). Далее анализируем коэфф-ты Д ф-ции. Канонич корреляция – амера связи между единств Д ф-цией и набором фикт перем., кот опр-т принадл-ть к дан группе. Собств значение ф-ции – отношение межгрупп суммы квадратов к внутригр сумме квадратов. Большие собств знач указывают на ф-ции более ↑ порядка (↑ качество модели). Для оценки вклада отд перем в значение Д ф-ции исп-ся стандарт коэф Д ф-ции. Далее строится структ матрица – объединение корееляции внутри групп между Д перем и стандартиз канонич Д ф-циями. Структ коэфф-ты корреляции – лин коэфф-ты корреляции между предикторами и Д ф-цией. Затем опр-ся нестанд коэфф-ты Д ф-ции, кот исп-ся для построения Д модели. Она должна максимально четко разделять исслед группы.

5 этап. Оценка достоверности ДА. Она оценив-ся по рез-там классиф-и, т.е. распределения объектов исслед по исслед группам. Выборка→ опр-ние дискр пок-лей→ распр-ние случаев по группам: верно/ ошибочно классифицир.→ расчет коэфф-та результ-ти. Коэфф-т результ-ти – % случаев, верно классиф-х с помощью ДА. Полезно сравнить % случаев, верно классиф-х с пом ДА, с % случаев, кот можно получить случ образом. % случаев класс-ции опр-ся делением 1 на кол-во групп. Счит-ся, что точность класс-ции, достигн с пом ДА, дб на 25% ↑, чем точность, кот можно достигнуть случ образом.