Методы дискриминантного анализа

4. Классификация при наличии k обучающих выборок

При необходимости можно проводить разбиение множества объектов на k классов (при k> 2). В этом случае нужно рассчитать k дискриминантных функций, так как классы будут отделяться друг от друга индивидуальными разделяющими поверхностями. На рис. 3 показан случай с тремя множествами и тремя дискриминантными переменными:

Рис.3 Три класса объектов и разделяющие их прямые

- первая, - вторая, - третья дискриминантные функции.

Пример 2. Рассмотрим случай, когда существует три класса (множества) объектов. Для этого к двум классам из предыдущего примера добавим еще один. В этом случае будем иметь уже три матрицы исходных данных:

(25)

Если в процессе дискриминации используются все четыре переменные (, , , ) то для каждого класса дискриминантные функции имеют вид:

(26)

Определим теперь, к какому классу можно отнести каждое из четырех наблюдений, приведенных в табл.2:

Таблица 2- Исходные данные

Номер наблюдения

1	1,07	93,5	5,30	5385
2	0,99	84,0	4,85	5225
3	0,70	76,8	3,50	5190
4	1,24	88,0	4,95	6280

Подставим соответствующие значения переменных , , , в выражение (26) и вычислим затем разности:

-=-20792,082+31856,41=11064,3280,

-=-20792,082+40016,428=19224,3460.

Следовательно, наблюдение 1 в табл.2 относится к первому классу. Аналогичные расчеты показывают, что и остальные три наблюдения следует отнести тоже к первому классу.

Чтобы показать влияние числа дискриминантных переменных на результаты классификации, изменим условие последнего примера. Будем использовать для расчета дискриминантных функций только три переменные: , , . В этом случае выражения для дискриминантныx функций будут иметь вид:

(27)

Подставив в эти выражения значения исходных переменных для классифицируемых объектов, нетрудно убедиться, что все они попадают в третий класс, так как

-=-26,870,

-=-37,68,

-=-10,809.

Таким образом, мы видим, что изменение числа переменныx сильно влияет на результат дискриминантного анализа. Чтобы судить о целесообразности включения (удаления) дискриминантной переменной, обычно используют специальные статистические критерии, позволяющие оценить значимость ухудшения или улучшения разбиения после включения (удаления) каждой из отобранных переменных.

Содержание