3.2.4 Методы корреляции порядковых (ординальных) и номинальных (категориальных) переменных
Бывает важно установить, есть ли между качественными признаками статистическая связь. Например, связан ли характер стружкозавивания при точении Xi с оцениваемым визуально качеством обработанной поверхности Yi или с условиями труда станочника Zi. Или связаны ли характер стружкозавивания с удобством её транспортировки.
Характеристика силы связи между качественными признаками носит название ранговой корреляции.
Такой анализ имеет большое значение. Например, если установлена высокая ранговая корреляция между двумя качественными признаками изделий, то можно контролировать изделия только по одному из признаков, что удешевляет и ускоряет контроль.
Для проведения оценки этой связи необходимо в первую очередь ранжировать рассматриваемые признаки каждого объекта, то есть присвоить им ранг. Например, рассматривается связь характера стружкозавивания при точении Xi с качеством обработанной поверхности Yi. Для каждого i - ого из, например, десяти различных опробованных режимов обработки оценивается степень стружкозавивания Xi по диаметру витка стружки или по экспертной оценке (см. ниже), если при некоторых режимах стружка вообще не завивается, а к примеру, ломается. Соответственно для каждого i - ого из этих десяти режимов обработки оценивается качеством поверхности Yi. Для этого можно использовать визуальную экспертную оценку, или присвоить ранги качества в соответствии с результатами контроля шероховатости: чем меньше шероховатость (Ra или Rz), тем выше ранг качества поверхности. Шкалы рангов степени стружкозавивания Xi и качества поверхности Yi должны быть одинаковыми, то есть изменяться в целочисленных значениях, например, от 1 до 10. Получим две последовательности рангов:
по признаку X: х1, х2, ..., хn;
по признаку Y: у1 , у2, …, уn.
Например, такие:
хi 1 2 3 4 5 6 7 8 9 10
yi 6 4 8 1 2 5 10 3 7 9
Здесь номера i первого признака (степени стружкозавивания) располагаются в порядке увеличения рангов, но это необязательно; важно лишь, чтобы хi соответствовало yi,то есть чтобы значения рангов по разным признакам отвечали одному i- ому режиму обработки.
Коэффициент ранговой корреляции Спирмена rs рассчитывается: ( ),
где di = xi - yi.
Коэффициент rs заключен между -1 и +1, причем чем ближе к нулю его абсолютная величина, тем зависимость между качественными признаками X и Y меньше.
Для рассматриваемых значений X и Y по формуле ( ) коэффициент ранговой корреляции Спирмена rs = 0,32. Возможна строгая проверка значимости коэффициента ранговой корреляции Спирмена
Выдвигаем нулевую гипотезу Hо: коэффициент ранговой корреляции rs Спирмена равен нулю; при конкурирующей гипотезе rs не равен нулю.
Вычисляем критическое значение:
(13.15)
где n - объем выборки; rs - выборочный коэффициент ранговой корреляции Спирмена; tкр (α; k) - критическая точка двусторонней критической области, которую находят по таблице критических точек распределения Стьюдента по уровню значимости α и числу степеней свободы k = п - 2.
Если |rs| < Tкр, то нет оснований отвергнуть нулевую гипотезу, т.е. ранговая корреляционная связь между качественными признаками незначима.
Если |rs| > Tкр, то нулевую гипотезу отвергают. Между качественными признаками существует значимая ранговая корреляционная связь.
Для нашего случая находим: k= 10 - 2 = 8, tKp(α; k) = 2,31. Следовательно, Tкр = 0,773, и так как |rs| < Tкр, то нет оснований отвергнуть нулевую гипотезу, согласно которой ранговая корреляционная связь между признаками незначимая.
Кроме представленного выше коэффициента и критерия значимости ранговой корреляции Спирмена используют и другие коэффициенты и критерии значимости ранговой корреляции. Перечислим наиболее известные:
- коэффициент r ранговой корреляции Кендалла также изменяется от -1 до +1; используется достаточно часто, т.к. в отличие от rs не требует пересчёта заново при необходимости учёта вновь поступающих величин по всем выборочным значениям;
- критерий Гёфдинга;
- критерий Ширахатэ является аналогом критерия значимости ранговой корреляции Спирмена, но более эффективен для малых выборок,
- критерий Фишера-Йэйтса;
- критерий Ван дер Вардена.
Мощности коэффициентов ранговой корреляции несколько уступают мощности параметрического коэффициента корреляции.
- коэффициент корреляции знаков Фехнера Kф принципиально отличается от рассмотренных выше коэффициентов корреляции. Обычно его используют в оценке степени влияния одного параметра на другой по количеству совпадений и несовпадений знаков отклонений этих параметров от их среднего значения. То есть это оценка степени согласованности направлений отклонений индивидуальных значений факторного и результативного признаков от средних значений факторного и результативного признаков.
Следует заметить, что коэффициент корреляции знаков Фехнера можно использовать для установления наличия или отсутствия действия какого-либо фактора, на результативный признак, причём обе характеристики выражены в номинальных случайных величинах. Например, требуется узнать, связано ли использование (+) или неиспользование (-) смазки при механической обработке на получение годной (+) или бракованной (-) детали.
Расчет коэффициента Фехнера производится по формуле:
Kф = (U - V)/(U + V)
где U - число пар, у которых знаки отклонений значений от их средних значений совпадают.
V - число пар, у которых знаки отклонений значений от их средних значений не совпадают.
Коэффициент Фехнера изменяется в пределах [-1;+1]. Из здравого смысла и формулы видно, что чем больше количество совпадений отклонений индивидуальных значений (U) и меньше количество несовпадений (V), тем в большей степени фактор оказывает положительное влияние на результативный признак (Kф приближается к 1). Наоборот, чем меньше количество совпадений отклонений индивидуальных значений (U) и больше количество несовпадений (V), тем в большей степени фактор оказывает отрицательное влияние на результативный признак (Kф приближается к минус единице). Оценка тесноты связи качественных признаков производится по таблице .
Таблица Оценка тесноты связи по коэффициенту Фехнера
Значение коэффициента Фехнера | Качественная характеристика силы связи |
[-0,9;-1] | Очень высокая обратная |
[-0,7;-0,9] | Высокая обратная |
[-0,5;-0,7] | Заметная обратная |
[-0,3;-0,5] | Умеренная обратная |
[-0,1;-0,3] | Слабая обратная |
0 | Связь отсутствует |
0,1 - 0,3 | Слабая прямая |
0,3 - 0,5 | Умеренная прямая |
0,5 - 0,7 | Заметная прямая |
0,7 - 0,9 | Высокая прямая |
0,9 - 1 | Очень высокая прямая |
Множественная ранговая корреляция
До сих пор рассматривалась корреляция двух случайных величин, оцениваемых в рангах. Но бывают случаи, когда рассматривается корреляция сразу несколько таких случайных величин; требуется установить, насколько тесно они связаны. Наиболее часто необходимость проведения такой работы возникает, когда несколько экспертов оценивают в баллах (рангах) какой либо параметр или влияние какого-либо фактора, нескольких факторов и требуется выяснить, насколько эти оценки согласованы между собой.
Коэффициент конкордации (согласованности) является мерой связи нескольких случайных величин, оцениваемых в рангах. Он обычно используется для проверки согласованности мнений опрошенных специалистов.
Таким образом, метод множественной ранговой корреляции необходим начинающему исследователю, собственные априорные сведения которого об исследуемом процессе, как правило, малы. Рассмотренный ниже коэффициент конкордации Кендалла-Бэмингтона Смита применим для любого количества случайных величин и их ранговых оценок (часто называется просто коэффициентом конкордации Кендалла). Существует также коэффициент конкордации Шукени-Фроли для двух групп специалистов-экспертов (здесь не рассмотрен).
Для подсчета коэффициента конкордации Кендалла используют выражение:
где n - число групп, которые ранжируются,
k - число переменных,
αij - ранг i- ого фактора у j- ого эксперта,
Фактически это сумма квадратов отклонения суммы рангов рассматриваемых факторов от среднего значения суммы рангов всех факторов. (Здесь не рассматривается случай наличия так называемых "связанных рангов", при которых расчётные формулы становятся более громоздкими.)
Коэффициент конкордации позволяет определить, случайна или не случайна согласованность мнений специалистов: чем выше коэффициент конкордации, тем выше степень согласованности мнений специалистов. Коэффициент может принимать значения 0<W<1. Так, W=0 означает полное отсутствие согласованности между ранжировками специалистов, a W= 1 показывает, что специалисты одинаково расположили факторы.
Теория позволяет провести точную проверку значимости коэффициента конкордации, основанную на распределении хи-квадрат. Рассчитывается величина Она сравнивается с критическим значением распределения для принятого уровня значимостиα и числа степеней свободы f = (n-1)(k-1), определяемым из справочных таблиц. (Для этого можно использовать функцию MS EXCEL ХИ2ОБР.) В случае, если 2> 2кр, то гипотеза об отсутствии связи отвергается, корреляция признаётся значимой. В противном случае гипотеза об отсутствии связи принимается.
Метод множественной ранговой корреляции позволяет, используя априорную информацию, отбросить несущественные технологические факторы, основываясь на опросе специалистов.
Этапы выявления влияющих факторов:
1. После анализа литературные источники об исследуемом процессе составляется перечень факторов, которые по сведениям этих источников могут оказывать влияние.
2. Возможно более широкому кругу специалистов (представителям различных школ) предлагается расположить составленный перечень факторов в порядке убывания степени их влияния на выбранный выходной параметр исследуемого процесса. При этом представленный список факторов каждым из опрашиваемых специалистов может быть дополнен.
3. Результаты опроса представляют в виде таблицы - матрицы рангов, где для каждого фактора указывается место (значение аij), занимаемое им в анкете специалиста, номер которого или фамилия указывается в первом столбце матрицы.
Может быть принято такое правило: первое место (ему присваивается ранг аij = 1) соответствует наиболее существенному фактору. По мере уменьшения влияния фактора величина ранга аij возрастает. Чем меньше сумма рангов фактора, тем более высокое место он занимает в ранжировке, и, следовательно, большее влияние должен оказывать на выходной параметр.
Иногда матрица рангов строится с учетом квалификации опрашиваемых специалистов, исходя из их опыта и всеобщего признания, ставя на первое место специалистов, чье мнение вызывает наибольшее доверие (ранжирование опрашиваемых). В этом случае показания специалистов умножаются на коэффициент, присваиваемый в соответствии с его квалификацией, а значение аij соответствует результату этого перемножения. Часто то или иное место в ранге специалистов может отдаваться нескольким экспертам. Тогда им присваивается один и тот же коэффициент.
По полученной матрице рангов (рассчитанные значения суммы рангов занесены в третью снизу строку матрицы) строят диаграмму рангов. Если распределение на диаграмме рангов (рис 6.1а) равномерно, а изменение суммы рангов незначительно, то это значит, что хотя специалисты и отводят неодинаковые места технологическим факторам в матрице рангов, но делают они это неуверенно. В этом случае целесообразно все факторы включить в эксперимент. При быстром экспоненциальном уменьшении степени влияния факторов (рис. 6.1,6) часть их можно отбросить.
Рис. 6.1. Диаграммы рангов: а - равномерное распределение; б - экспоненциальное
- Методология исследования, моделирования и совершенствования производственных процессов
- Оглавление
- Глава 1 Общие сведения о методологии научного познания……………….6
- Глава 2 Моделирование как метод научного познания………………………11
- Глава 3 Исследование взаимосвязи случайных величин…………….22
- Глава 4 Способы экспериментальных исследований…………………88
- Глава 5 Некоторые современные достижения интеллектуальных информационных систем и программных средств в области анализа связи величин
- Введение
- Глава 1. Общие сведения о методологии научного познания
- 3. Статистический.
- 7. Экспериментальный.
- Глава 2 Моделирование как метод научного познания
- 2.1 Этапы построения, свойства, цели и классификация моделей
- 2.2 Концепции и инструменты оптимизации математических моделей
- 2.3 Принципы анализа математических моделей
- Глава 3. Исследование взаимосвязи случайных величин
- 3.1 Основные представления о корреляционном, дисперсионном и регрессионном анализах
- 3.2 Корреляционный анализ
- 3.2.1 Обзор характеристик «тесноты» связи
- 3.2.2. Формулы расчёта основных характеристик связи
- 3.2.3. Области определения и способы оценки достоверности коэффициентов связи случайных величин
- 3.2.4 Методы корреляции порядковых (ординальных) и номинальных (категориальных) переменных
- 3.2.5 Функции и инструменты ms excel, предназначенные для расчёта коэффициентов ковариации, корреляции и детерминации
- 3.3 Дисперсионный анализ
- 3.3.1. Виды классического дисперсионного анализа
- 3.3.2. Инструменты программы ms excel, предназначенные для дисперсионного анализа
- 3.3.2.1. «Однофакторный дисперсионный анализ»
- 3.3.2.2. «Двухфакторный дисперсионный анализ без повторений»
- 3.3.2.3. «Двухфакторный дисперсионный анализ с повторениями»
- 3.3.3. Представление о ступенчатом дисперсионном анализе
- 3.4 К установлению математической модели связи случайных величин
- 3.4.1. Виды регрессионных моделей
- 3.4.2. Способы, принципы и признаки оптимизации регрессии
- 3.4.3 Опции программы ms excel, предназначенные для регрессионного анализа
- 3.4.3.1 Использование инструмента анализа «Регрессия»
- 3.4.3.2 Функции excel, связанные с инструментом «Регрессия»
- 3.4.3.3 Возможности использования графических опций программы ms excel для решения задач регрессионного анализа
- Глава 4 Способы экспериментальных исследований
- 4.1 Пассивный эксперимент
- 4.1.1 Методы анализа результатов пассивного эксперимента
- 4.1.2. Информативность результатов пассивного производственного эксперимента
- 4.2 Планирование эксперимента и методы оптимизации параметров процесса
- 4.2.1 Методология планирования эксперимента
- 4.2.2 Полный факторный эксперимент
- 4.2.3 Дробный факторный эксперимент
- 4.2.4. Центральные композиционные планы
- 4.3 Оптимизация работы объекта управления для одного и нескольких параметров оптимизации для одно- и многоэкстремальной поверхности отклика
- 4. 4 Алгоритмы решения задач установления функциональных зависимостей и оптимизации
- Глава 6
- Глава 7
- Глава 8
- Глава 9 Современные достижения в области промышленной статистики и новые программные средства их реализации.