текст 16 консп лекц МЕТОДОЛОГИЯ

3.2.4 Методы корреляции порядковых (ординальных) и номинальных (категориальных) переменных

Бывает важно установить, есть ли между качественными признаками статистическая связь. Например, связан ли характер стружкозавивания при точении X_i с оцениваемым визуально качеством обработанной поверхности Y_i или с условиями труда станочника Z_i. Или связаны ли характер стружкозавивания с удобством её транспортировки.

Характеристика силы связи между качественными признаками носит название ранговой корреляции.

Такой анализ имеет большое значение. Например, если установлена высокая ранговая корреляция между двумя качественными признаками изделий, то можно контролировать изделия только по одному из признаков, что удешевляет и ускоряет контроль.

Для проведения оценки этой связи необходимо в первую очередь ранжировать рассматриваемые признаки каждого объекта, то есть присвоить им ранг. Например, рассматривается связь характера стружкозавивания при точении X_i с качеством обработанной поверхности Y_i. Для каждого i - ого из, например, десяти различных опробованных режимов обработки оценивается степень стружкозавивания X_i по диаметру витка стружки или по экспертной оценке (см. ниже), если при некоторых режимах стружка вообще не завивается, а к примеру, ломается. Соответственно для каждого i - ого из этих десяти режимов обработки оценивается качеством поверхности Y_i. Для этого можно использовать визуальную экспертную оценку, или присвоить ранги качества в соответствии с результатами контроля шероховатости: чем меньше шероховатость (Ra или Rz), тем выше ранг качества поверхности. Шкалы рангов степени стружкозавивания X_iи качества поверхности Y_i должны быть одинаковыми, то есть изменяться в целочисленных значениях, например, от 1 до 10. Получим две последовательности рангов:

по признаку X: х₁, х₂, ..., х_n;

по признаку Y: у₁,у₂, …, у_n.

Например, такие:

х_i1 2 3 4 5 6 7 8 9 10

y_i 6 4 8 1 2 5 10 3 7 9

Здесь номера i первого признака (степени стружкозавивания) располагаются в порядке увеличения рангов, но это необязательно; важно лишь, чтобы х_iсоответствовало y_i,то есть чтобы значения рангов по разным признакам отвечали одному i- ому режиму обработки.

Коэффициент ранговой корреляции Спирмена r_s рассчитывается: ( ),

где d_i = x_i- y_i.

Коэффициент r_s заключен между -1 и +1, причем чем ближе к нулю его абсолютная величина, тем зависимость между качественными признаками X и Y меньше.

Для рассматриваемых значений X и Y по формуле ( ) коэффициент ранговой корреляции Спирмена r_s= 0,32. Возможна строгая проверка значимости коэффициента ранговой корреляции Спирмена

Выдвигаем нулевую гипотезу H_о: коэффициент ранговой корреляции r_sСпирмена равен нулю; при конкурирующей гипотезе r_s не равен нулю.

Вычисляем критическое значение:

(13.15)

где n - объем выборки; r_s - выборочный коэффициент ранговой корреляции Спирмена; t_кр (α; k) - критическая точка двусторонней критической области, которую находят по таблице критических точек распределения Стьюдента по уровню значимости α и числу степеней свободы k = п - 2.

Если |r_s| < T_кр, то нет оснований отвергнуть нулевую гипотезу, т.е. ранговая корреляционная связь между качественными признаками незначима.

Если |r_s| > T_кр, то нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.

Для нашего случая находим: k= 10 - 2 = 8, t_Kp(α; k) = 2,31. Следовательно, T_кр = 0,773, и так как |r_s| < T_кр, то нет оснований отвергнуть нулевую гипотезу, согласно которой ранговая корреляционная связь между признаками незначимая.

Кроме представленного выше коэффициента и критерия значимости ранговой корреляции Спирмена используют и другие коэффициенты и критерии значимости ранговой корреляции. Перечислим наиболее известные:

- коэффициент r ранговой корреляции Кендалла также изменяется от -1 до +1; используется достаточно часто, т.к. в отличие от r_sне требует пересчёта заново при необходимости учёта вновь поступающих величин по всем выборочным значениям;

- критерий Гёфдинга;

- критерий Ширахатэ является аналогом критерия значимости ранговой корреляции Спирмена, но более эффективен для малых выборок,

- критерий Фишера-Йэйтса;

- критерий Ван дер Вардена.

Мощности коэффициентов ранговой корреляции несколько уступают мощности параметрического коэффициента корреляции.

- коэффициент корреляции знаков Фехнера K_ф принципиально отличается от рассмотренных выше коэффициентов корреляции. Обычно его используют в оценке степени влияния одного параметра на другой по количеству совпадений и несовпадений знаков отклонений этих параметров от их среднего значения. То есть это оценка степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от средних значений факторного и результативного признаков.

Следует заметить, что коэффициент корреляции знаков Фехнера можно использовать для установления наличия или отсутствия действия какого-либо фактора, на результативный признак, причём обе характеристики выражены в номинальных случайных величинах. Например, требуется узнать, связано ли использование (+) или неиспользование (-) смазки при механической обработке на получение годной (+) или бракованной (-) детали.

Расчет коэффициента Фехнера производится по формуле:

K_ф = (U - V)/(U + V)

где U - число пар, у которых знаки отклонений значений от их средних значений совпадают.

V - число пар, у которых знаки отклонений значений от их средних значений не совпадают.

Коэффициент Фехнера изменяется в пределах [-1;+1]. Из здравого смысла и формулы видно, что чем больше количество совпадений отклонений индивидуальных значений (U) и меньше количество несовпадений (V), тем в большей степени фактор оказывает положительное влияние на результативный признак (K_ф приближается к 1). Наоборот, чем меньше количество совпадений отклонений индивидуальных значений (U) и больше количество несовпадений (V), тем в большей степени фактор оказывает отрицательное влияние на результативный признак (K_ф приближается к минус единице). Оценка тесноты связи качественных признаков производится по таблице .

Таблица Оценка тесноты связи по коэффициенту Фехнера

Значение коэффициента Фехнера	Качественная характеристика силы связи
[-0,9;-1]	Очень высокая обратная
[-0,7;-0,9]	Высокая обратная
[-0,5;-0,7]	Заметная обратная
[-0,3;-0,5]	Умеренная обратная
[-0,1;-0,3]	Слабая обратная
0	Связь отсутствует
0,1 - 0,3	Слабая прямая
0,3 - 0,5	Умеренная прямая
0,5 - 0,7	Заметная прямая
0,7 - 0,9	Высокая прямая
0,9 - 1	Очень высокая прямая

Множественная ранговая корреляция

До сих пор рассматривалась корреляция двух случайных величин, оцениваемых в рангах. Но бывают случаи, когда рассматривается корреляция сразу несколько таких случайных величин; требуется установить, насколько тесно они связаны. Наиболее часто необходимость проведения такой работы возникает, когда несколько экспертов оценивают в баллах (рангах) какой либо параметр или влияние какого-либо фактора, нескольких факторов и требуется выяснить, насколько эти оценки согласованы между собой.

Коэффициент конкордации (согласованности) является мерой связи нескольких случайных величин, оцениваемых в рангах. Он обычно используется для проверки согласованности мнений опрошенных специалистов.

Таким образом, метод множественной ранговой корреляции необходим начинающему исследователю, собственные априорные сведения которого об исследуемом процессе, как правило, малы. Рассмотренный ниже коэффициент конкордации Кендалла-Бэмингтона Смита применим для любого количества случайных величин и их ранговых оценок (часто называется просто коэффициентом конкордации Кендалла). Существует также коэффициент конкордации Шукени-Фроли для двух групп специалистов-экспертов (здесь не рассмотрен).

Для подсчета коэффициента конкордации Кендалла используют выражение:

где n - число групп, которые ранжируются,

k - число переменных,

α_ij- ранг i- ого фактора у j- ого эксперта,

Фактически это сумма квадратов отклонения суммы рангов рассматриваемых факторов от среднего значения суммы рангов всех факторов. (Здесь не рассматривается случай наличия так называемых "связанных рангов", при которых расчётные формулы становятся более громоздкими.)

Коэффициент конкордации позволяет определить, случайна или не случайна согласованность мнений специалистов: чем выше коэффициент конкордации, тем выше степень согласованности мнений специалистов. Коэффициент может принимать значения 0<W<1. Так, W=0 означает полное отсутствие согласованности между ранжировками специалистов,a W= 1 показывает, что специалисты одинаково расположили факторы.

Теория позволяет провести точную проверку значимости коэффициента конкордации, основанную на распределении хи-квадрат. Рассчитывается величина Она сравнивается с критическим значением распределения для принятого уровня значимостиα и числа степеней свободы f = (n-1)(k-1), определяемым из справочных таблиц. (Для этого можно использовать функцию MS EXCEL ХИ2ОБР.) В случае, если ²> ²_кр, то гипотеза об отсутствии связи отвергается, корреляция признаётся значимой. В противном случае гипотеза об отсутствии связи принимается.

Метод множественной ранговой корреляции позволяет, используя априорную информацию, отбросить несущественные технологические факторы, основываясь на опросе специалистов.

Этапы выявления влияющих факторов:

1. После анализа литературные источники об исследуемом процессе составляется перечень факторов, которые по сведениям этих источников могут оказывать влияние.

2. Возможно более широкому кругу специалистов (представителям различных школ) предлагается расположить составленный перечень факторов в порядке убывания степени их влияния на выбранный выходной параметр исследуемого процесса. При этом представленный список факторов каждым из опрашиваемых специалистов может быть дополнен.

3. Результаты опроса представляют в виде таблицы - матрицы рангов, где для каждого фактора указывается место (значение а_ij), занимаемое им в анкете специалиста, номер которого или фамилия указывается в первом столбце матрицы.

Может быть принято такое правило: первое место (ему присваивается ранг а_ij = 1) соответствует наиболее существенному фактору. По мере уменьшения влияния фактора величина ранга а_ij возрастает. Чем меньше сумма рангов фактора, тем более высокое место он занимает в ранжировке, и, следовательно, большее влияние должен оказывать на выходной параметр.

Иногда матрица рангов строится с учетом квалификации опрашиваемых специалистов, исходя из их опыта и всеобщего признания, ставя на первое место специалистов, чье мнение вызывает наибольшее доверие (ранжирование опрашиваемых). В этом случае показания специалистов умножаются на коэффициент, присваиваемый в соответствии с его квалификацией, а значение а_ij соответствует результату этого перемножения. Часто то или иное место в ранге специалистов может отдаваться нескольким экспертам. Тогда им присваивается один и тот же коэффициент.

По полученной матрице рангов (рассчитанные значения суммы рангов занесены в третью снизу строку матрицы) строят диаграмму рангов. Если распределение на диаграмме рангов (рис 6.1а) равномерно, а изменение суммы рангов незначительно, то это значит, что хотя специалисты и отводят неодинаковые места технологическим факторам в матрице рангов, но делают они это неуверенно. В этом случае целесообразно все факторы включить в эксперимент. При быстром экспоненциальном уменьшении степени влияния факторов (рис. 6.1,6) часть их можно отбросить.

Рис. 6.1. Диаграммы рангов: а - равномерное распределение; б - экспоненциальное

Содержание