logo
текст 16 консп лекц МЕТОДОЛОГИЯ

3.2.4 Методы корреляции порядковых (ординальных) и номинальных (категориальных) переменных

Бывает важно установить, есть ли между качествен­ными признаками статистическая связь. Например, связан ли характер стружкозавивания при точении Xi с оцениваемым визуально качеством обработанной поверхности Yi или с условиями труда станочника Zi. Или связаны ли характер стружкозавивания с удобством её транспортировки.

Характеристика силы связи между качественными признаками носит название ранговой корреляции.

Такой анализ имеет большое значение. Например, если установлена высокая ранговая корреляция между двумя качественными признаками изделий, то можно контролиро­вать изделия только по одному из признаков, что удешевляет и ускоряет контроль.

Для проведения оценки этой связи необходимо в первую оче­редь ранжировать рассматриваемые признаки каждого объекта, то есть присвоить им ранг. Например, рассматривается связь характера стружкозавивания при точении Xi с качеством обработанной поверхности Yi. Для каждого i - ого из, например, десяти различных опробованных режимов обработки оценивается степень стружкозавивания Xi по диаметру витка стружки или по экспертной оценке (см. ниже), если при некоторых режимах стружка вообще не завивается, а к примеру, ломается. Соответственно для каждого i - ого из этих десяти режимов обработки оценивается качеством поверхности Yi. Для этого можно использовать визуальную экспертную оценку, или присвоить ранги качества в соответствии с результатами контроля шероховатости: чем меньше шероховатость (Ra или Rz), тем выше ранг качества поверхности. Шкалы рангов степени стружкозавивания Xi и качества поверхности Yi должны быть одинаковыми, то есть изменяться в целочисленных значениях, например, от 1 до 10. Получим две последовательности рангов:

по признаку X: х1, х2, ..., хn;

по признаку Y: у1 , у2, …, уn.

Например, такие:

хi 1 2 3 4 5 6 7 8 9 10

yi 6 4 8 1 2 5 10 3 7 9

Здесь номера i первого признака (степени стружкозавивания) располагаются в порядке увеличения рангов, но это необязательно; важно лишь, чтобы хi соответствовало yi,то есть чтобы значения рангов по разным признакам отвечали одному i- ому режиму обработки.

Коэффициент ранговой корреляции Спирмена rs рассчитывается: ( ),

где di = xi - yi.

Коэффициент rs заключен между -1 и +1, причем чем ближе к нулю его абсолютная величина, тем зависимость между качественными признаками X и Y меньше.

Для рассматриваемых значений X и Y по формуле ( ) коэффициент ранговой корреляции Спирмена rs = 0,32. Возможна строгая проверка значимости коэффициента ранговой корреляции Спирмена

Выдвигаем нулевую гипотезу Hо: коэффициент ранговой корреляции rs Спирмена равен нулю; при конкурирую­щей гипотезе rs не равен нулю.

Вычисляем критическое значение:

(13.15)

где n - объем выборки; rs - выборочный коэффициент ранговой корреляции Спирмена; tкр (α; k) - критическая точка двусторон­ней критической области, которую находят по таблице критичес­ких точек распределения Стьюдента по уровню значимости α и числу степеней свободы k = п - 2.

Если |rs| < Tкр, то нет оснований отвергнуть нулевую гипотезу, т.е. ранговая корреляционная связь между качественными при­знаками незначима.

Если |rs| > Tкр, то нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреля­ционная связь.

Для нашего случая находим: k= 10 - 2 = 8, tKp(α; k) = 2,31. Следовательно, Tкр = 0,773, и так как |rs| < Tкр, то нет оснований отвергнуть нулевую гипотезу, согласно которой ранговая корреляционная связь между признаками не­значимая.

Кроме представленного выше коэффициента и критерия значимости ранговой корреляции Спирмена используют и другие коэффициенты и критерии значимости ранговой корреляции. Перечислим наиболее известные:

- коэффициент r ранговой корреляции Кендалла также изменяется от -1 до +1; используется достаточно часто, т.к. в отличие от rs не требует пересчёта заново при необходимости учёта вновь поступающих величин по всем выборочным значениям;

- критерий Гёфдинга;

- критерий Ширахатэ является аналогом критерия значимости ранговой корреляции Спирмена, но более эффективен для малых выборок,

- критерий Фишера-Йэйтса;

- критерий Ван дер Вардена.

Мощности коэффициентов ранговой корреляции несколько уступают мощности параметрического коэффициента корреляции.

- коэффициент корреляции знаков Фехнера Kф принципиально отличается от рассмотренных выше коэффициентов корреляции. Обычно его используют в оценке степени влияния одного параметра на другой по количеству совпадений и несовпадений знаков отклонений этих параметров от их среднего значения. То есть это оценка степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от средних значений факторного и результативного признаков.

Следует заметить, что коэффициент корреляции знаков Фехнера можно использовать для установления наличия или отсутствия действия какого-либо фактора, на результативный признак, причём обе характеристики выражены в номинальных случайных величинах. Например, требуется узнать, связано ли использование (+) или неиспользование (-) смазки при механической обработке на получение годной (+) или бракованной (-) детали.

Расчет коэффициента Фехнера производится по формуле:

Kф = (U - V)/(U + V)

где U - число пар, у которых знаки отклонений значений от их средних значений совпадают.

V - число пар, у которых знаки отклонений значений от их средних значений не совпадают.

Коэффициент Фехнера изменяется в пределах [-1;+1]. Из здравого смысла и формулы видно, что чем больше количество совпадений отклонений индивидуальных значений (U) и меньше количество несовпадений (V), тем в большей степени фактор оказывает положительное влияние на результативный признак (Kф приближается к 1). Наоборот, чем меньше количество совпадений отклонений индивидуальных значений (U) и больше количество несовпадений (V), тем в большей степени фактор оказывает отрицательное влияние на результативный признак (Kф приближается к минус единице). Оценка тесноты связи качественных признаков производится по таблице .

Таблица Оценка тесноты связи по коэффициенту Фехнера

Значение коэффициента Фехнера

Качественная характеристика силы связи

[-0,9;-1]

Очень высокая обратная

[-0,7;-0,9]

Высокая обратная

[-0,5;-0,7]

Заметная обратная

[-0,3;-0,5]

Умеренная обратная

[-0,1;-0,3]

Слабая обратная

0

Связь отсутствует

0,1 - 0,3

Слабая прямая

0,3 - 0,5

Умеренная прямая

0,5 - 0,7

Заметная прямая

0,7 - 0,9

Высокая прямая

0,9 - 1

Очень высокая прямая

Множественная ранговая корреляция

До сих пор рассматривалась корреляция двух случайных величин, оцениваемых в рангах. Но бывают случаи, когда рассматривается корреляция сразу несколько таких случайных величин; требуется установить, насколько тесно они связаны. Наиболее часто необходимость проведения такой работы возникает, когда несколько экспертов оценивают в баллах (рангах) какой либо параметр или влияние какого-либо фактора, нескольких факторов и требуется выяснить, насколько эти оценки согласованы между собой.

Коэффициент конкордации (согласованности) является мерой связи нескольких случайных величин, оцениваемых в рангах. Он обычно используется для проверки согласованности мнений опрошенных специалистов.

Таким образом, метод множественной ранговой корреляции необходим начинаю­щему исследователю, собственные априорные сведения которого об исследуемом процессе, как правило, малы. Рассмотренный ниже коэф­фициент конкордации Кендалла-Бэмингтона Смита применим для любого количества случайных величин и их ранговых оценок (часто называется просто коэф­фициентом конкордации Кендалла). Существует также коэф­фициент конкордации Шукени-Фроли для двух групп специалистов-экспертов (здесь не рассмотрен).

Для подсчета коэф­фициента конкордации Кендалла используют выражение:

где n - число групп, которые ранжируются,

k - число переменных,

αij - ранг i- ого фактора у j- ого эксперта,

Фактически это сумма квадратов отклонения суммы рангов рассматриваемых факторов от среднего значения суммы рангов всех факторов. (Здесь не рассматривается случай наличия так называемых "связанных рангов", при которых расчётные формулы становятся более громоздкими.)

Коэффициент конкордации позволяет определить, случайна или не случайна согласованность мнений специалистов: чем выше коэффициент конкордации, тем выше степень согласованности мнений специалистов. Коэффициент может принимать значения 0<W<1. Так, W=0 означает полное отсутствие согласованности между ранжировками специалистов, a W= 1 показывает, что специалисты одинаково расположили фак­торы.

Теория позволяет провести точную проверку значимости коэффициента конкордации, основанную на распределении хи-квадрат. Рассчитывается величина Она сравнивается с критическим значением распределения для принятого уровня значимостиα и числа степеней свободы f = (n-1)(k-1), определяемым из справочных таблиц. (Для этого можно использовать функцию MS EXCEL ХИ2ОБР.) В случае, если 2> 2кр, то гипотеза об отсутствии связи отвергается, корреляция признаётся значимой. В противном случае гипотеза об отсутствии связи принимается.

Метод множественной ранговой корреляции позволяет, используя априорную информацию, отбросить несущественные технологические факторы, основываясь на опросе специалистов.

Этапы выявления влияющих факторов:

1. После анализа литера­турные источники об исследуемом процессе составляется пере­чень факторов, которые по сведениям этих источников могут ока­зывать влияние.

2. Возможно более широкому кругу специалистов (предста­вителям различных школ) предлагается расположить составленный перечень факторов в порядке убывания степени их влияния на выбранный выходной параметр исследуемого процесса. При этом представленный список факторов каждым из опрашиваемых специалистов может быть дополнен.

3. Результаты опроса представляют в виде таблицы - мат­рицы рангов, где для каждого фактора указывается место (значение аij), занимаемое им в анкете специалиста, номер которого или фамилия указывается в первом столбце матрицы.

Может быть принято такое правило: первое место (ему присваивается ранг аij = 1) соответствует наи­более существенному фактору. По мере уменьшения влияния фактора величина ранга аij возрастает. Чем меньше сумма рангов фактора, тем более высокое место он занимает в ранжировке, и, следовательно, большее влияние должен оказывать на выход­ной параметр.

Иногда матрица рангов строится с учетом квалифика­ции опрашиваемых специалистов, исходя из их опыта и всеобще­го признания, ставя на первое место специалистов, чье мнение вызывает наибольшее дове­рие (ранжиро­вание опрашиваемых). В этом случае показания специалистов умно­жаются на коэффициент, присваиваемый в соответствии с его квалификацией, а значение аij соответствует результату этого пере­множения. Часто то или иное место в ранге специалистов может отда­ваться нескольким экспертам. Тогда им присваивается один и тот же коэффициент.

По полученной матрице рангов (рассчитанные значения суммы рангов занесены в третью снизу строку матрицы) строят диаграмму рангов. Если распределение на диаграмме рангов (рис 6.1а) равномерно, а изменение суммы рангов незначительно, то это зна­чит, что хотя специалисты и отводят неодинаковые места техно­логическим факторам в матрице рангов, но делают они это неуве­ренно. В этом случае целесообразно все факторы включить в эксперимент. При быстром экспоненциальном уменьшении степени влияния факторов (рис. 6.1,6) часть их можно отбросить.

Рис. 6.1. Диаграммы рангов: а - равномерное распределение; б - экспоненциальное