Корреляционные исследования и их особенности

Глава 1. Корреляционное исследование

Детальная характеристика особенностей психологического измерения и тестирования необходима для того, чтобы можно было подойти к выяснению особенностей наиболее распространенной схемы современного психологического эмпирического исследования - корреляционного.

Теория корреляционного исследования, основанная на представлениях о мерах корреляционной связи, разработана К. Пирсоном. Подробно излагается в учебниках по математической статистике. Здесь рассматриваются лишь методические аспекты корреляционного психологического исследования [6].

Стратегия проведения корреляционного исследования сходна с квазиэкспериментом. Отличие от квазиэксперимента то, что управляемое воздействие на объект отсутствует. План корреляционного исследования несложен. Исследователь выдвигает гипотезу о наличии статистической связи между несколькими психическими свойствами индивида или между определенными внешними уровнями и психическими состояниями. Предположения о причинной зависимости не обсуждаются.

Корреляционным исследованием называется такое исследование, проводимое для подтверждения или опровержения гипотезы о статистической связи между несколькими (двумя и более) переменными. В психологии в качестве переменных могут выступать психические свойства, процессы, состояния и др. Роберт Готтсданкер говорил, что в данных исследованиях не производилось активных действий с целью вызвать различия в поведении, а лишь отыскивалась корреляция между существующими различиями [5]

В прямом переводе "Корреляция" означает "соотношение". Если изменение одной переменной сопровождается изменением другой, то можно сказать о корреляции этих переменных. Обнаружение корреляции двух переменных ничего не говорит о причинно-следственных зависимостях между ними, но дает возможность задавать такую гипотезу. Отсутствие корреляции позволяет отвергнуть гипотезу о причинно-следственной связи переменных [9].

В принципе корреляционные исследования могли бы быть проведены, как и активный эксперимент. В связи с тем, что это практически неосуществимо, так как возникают проблемы с внутренней валидности. Корреляционное исследование, так же как и активный эксперимент, внутренне валидно в зависимости от того, насколько оно близко к идеальному.

1. Особенности корреляционного исследования:

1. Не производится активных действий с целью вызвать различия в поведении, а лишь отыскивается корреляция между существующими различиями;

2. Не ведет к установлению причинно-следственных связей - речь идет о взаимосвязи переменных;

3. Предметом корреляционных исследований обычно являются различия между людьми: по интеллекту, способностям или отдельным чертами личности, а не сходные реакции испытуемых;

4. Угроза внутренней валидности, так как всегда присутствует смешение;

5. Проводится уравнивание групп по переменным смешения:

ь Подбор пар испытуемых,

ь Составление однородных групп;

6. Следует помнить, что контроль в корреляционном исследовании никогда не будет таким же адекватным, как это возможно в активном эксперименте.

7. Возможность проверки гипотез о соотношении и взаимодействии факторов без их активного изменения [4].

2. Контроль в корреляционных исследованиях

корреляционное исследование связь

Общая проблема контроля в корреляционных исследованиях та же, что и в активных экспериментах, - систематическое смешение с побочной переменной. Но в корреляционном исследовании мы не можем активно организовать контрольные условия, а вместо этого должны воспользоваться статистическим контролем смешения. Уравнивание групп в корреляционных исследованиях производится двумя способами [8].

Подбор пар испытуемых. В случае если число испытуемых невелико, применяется индивидуальный подбор пар. В исследовании психологической приспособленности - подбор пар хорошо и плохо приспособленных испытуемых, которые были бы сходны по интеллекту родителей и социально-экономическому положению. Допустим, что удалось бы найти 50 таких пар. В этом случае между группами уже не было бы различий по названным двум побочным переменным.

Этот метод связан с двумя трудностями. Во-первых, если побочная переменная и в самом деле существенна, то при подборе групп должна обнаружиться диспропорция в количестве хорошо и плохо приспособленных. Большинство хорошо приспособленных испытуемых могут происходить из семей с высоким социально-экономическим положением. Это создаст трудности для нахождения большого числа уравненных пар: среди испытуемых с высоким социально-экономическим положением будет слишком мало тех, у кого плохая психологическая приспособленность. Эта трудность станет особенно серьезной, если мы попытаемся уравнять индивидов не по одной, а по нескольким побочным переменным. При этом число соответствующих пар очень резко сократится. Теоретически никогда нельзя быть уверенным, что проконтролированы все значимые побочные переменные. Практически мы крайне ограничены в числе переменных, которые действительно можем проконтролировать [5].

Во-вторых, вторая трудность тесно связана с первой - это непредставительность выделенных для исследования испытуемых. Предположим, что для высоко приспособленного индивида характерно иметь родителей интеллигентных, с высоким социально-экономическим положением, а также с хорошей собственной психологической приспособленностью. Однако большая часть таких испытуемых будет отвергнута в процессе составления пар. В то же время это будут те самые испытуемые, чьи родители применяли хорошие способы воспитания. Таким образом, процедура уравнивания может нивелировать влияние процессов воспитания.

Делаем вывод, метод подбора пар несет в себе две опасности: мы можем осуществить недостаточный контроль и мы можем переусердствовать с контролем. Недостаточный контроль приведет к тому, что будет упущена значимая побочная переменная, а избыточный контроль - к тому, что диапазон изменений действительной независимой переменной будет ограничен [5].

Составление однородных подгрупп

В связи с тем, что исследование влияния порядка рождения на интеллект проводилось на очень большом числе испытуемых, в нем не было необходимости составлять индивидуально уравненные пары. Вместо этого были составлены однородные подгруппы, которые были уравнены по всем переменным, кроме одной, интересующей исследователей. Так, различие между вторыми пятым ребенком могло сравниваться внутри однородных подгрупп семей, содержащих пять детей, шесть детей, семь детей и т.д. Если бы этого не делалось, сравнивались бы все дети, родившиеся вторыми, со всеми пятыми детьми, то произошло бы смешение с величиной семьи. Так как пятые дети есть только в больших семьях, тогда как второй ребенок есть и в большой, и в маленькой семье.

Основанием для образования подгрупп могли быть также и другие переменные, имеющие шанс оказаться значимыми, но опущенные в данном исследовании, например возраст матери и др. Это лучше всего было бы сделать после распределения испытуемых по группам на основании численности семьи. Например, в семьях с пятью детьми можно было сравнить между собой детей - от первого до пятого включительно - только таких, матери которых достигли к моменту их рождения 23 лет. Точно также сравнение могло быть сделано между детьми для 24-летних матерей и т.д. И если влияние порядка рождения на интеллект исчезло бы при сохранении постоянным возраста матери, то мы бы признали, что имели дело с эффектом непорядка рождения, а возраста матери. Более вероятно, конечно, что порядок рождения скажется на различиях между испытуемыми, даже если возраст матери, и обнаружит свой самостоятельный вклад [5].

Переменную брачного стажа тоже можно "проконтролировать с помощью однородных подгрупп. Такие подгруппы можно было бы образовать для одно-, двух-, трехлетнего стажа и т.д. к моменту рождения исследуемого ребенка.

Если для различных однородны подгрупп обнаруживается различное влияние, интересующей нас переменной. То это может привести к более глубокому пониманию механизмов действия, данной переменной. Возьмем влияние только очередности рождения как таковое вне связи с возрастом матери или брачным стажем. Существует взаимодействие между влиянием социального положения и влиянием порядка рождения на показатель интеллекта (см. Приложение таблица 1). Взаимодействия обнаруживается в корреляционных исследованиях так же, как и в активных экспериментах. Для вычисления основного результата действия и взаимодействий мы можем использовать тот же самый тип таблиц.

Возможно, что сельская жизнь менее изматывает, чем городская. Горожанин, в общем, более утомлен, и поскольку с появлением ребенка связаны новые заботы и новые усилия, понятно его нежелание нового ребенка. Здоровый фермер не чувствует этих опасений. Поздний ребенок в городской семье будет страдать от недостатка энергии у родителей, а в сельской семье этого не произойдет. Таким образом, основу эффекта порядка рождения составят не различия в желательности-нежелательности, а скорее величина энергии родителей, которая лишь коррелирует с желанием завести нового ребенка [5].

Итак, благодаря методу составления однородных подгрупп в корреляционных исследованиях оказывается возможным многосторонний контроль. Тем не менее, мы никогда не можем знать, действительно ли данный фактор-предпосылка влияет на выбранный поведенческий показатель. Как и в случае подбора пар испытуемых, у нас нет способа узнать, учтены ли все значимые побочные переменные. Более того, когда мы наконец свели наблюдаемый эффект к той переменной, которая кажется решающей, у нее еще остается возможность, что реальным детерминантом поведения была какая-то другая коррелирующая с ней переменная. Эта трудность и породила известное высказывание, что корреляцию не следует путать с причинностью.

Исследование с целью отбора контролеров

Рассмотрим искусственный пример, как можно применить корреляционное исследование в практических целях. Существует предприятие, которое сталкивается с серьезной проблемой контроля за качеством сложных механических агрегатов. Большинство контролеров, принимающих агрегаты, пропускают дефекты. Когда их просят работать тщательнее, они теряют уверенность в себе и начинают отбраковывать агрегаты, которые при последующей проверке оказываются вполне удовлетворительными. Эти контролеры неглупы и хорошо мотивированы, но кажется, что им не хватает какой-то специфической способности.

Решить эту проблему, просто нанимая много контролеров и оставляя только тех, которые работают удовлетворительно, нельзя. Так как, во-первых, это слишком невыгодно с экономической точки зрения - ибо многие окажутся непригодными для работы. Во-вторых, отвергнутые контролеры будут лишены ценного опыта, который за это время они могли бы приобрести на какой-нибудь другой работе. Проблема исчезла бы, если бы 80 процентов принятых на работу контролеров оправлялись с ней успешно [5].

Такая задача поставлена перед начальником отдела кадров, который имеет опыт обращения с тестами на способности. Он узнает, что может за плату приобрести подходящий тест. Последний состоит из чертежей, на которых детали соединены различным образом. В каждом наборе есть один чертеж, на котором какой-нибудь угол между деталями или узел соединения отличается от стандартного чертежа. Задача состоит в том, чтобы найти ошибку в неверном чертеже. Оценки могут распределяться от 0до 85. Фактически лишь немногие получают оценку ниже 40 или выше 80.

Методика

Людям, которые согласны на любую работу, сообщают, что они могут получить желаемую работу контролера; если они не справятся, то перейдут на другую работу. В целом через тест на способности проводится 60 кандидатов. Потом все они половину времени работают контролерами, а оставшуюся половину - на другой должности. После того как они проработали в таком режиме 3 месяца, в течение четвертого месяца производится оценка их работы в качестве контролеров. Для этого регистрируется число блоков, которые они проверили, и процент сделанных ими ошибок. Возможны два типа ошибок. Во-первых, пропуск дефекта на любой из 40 дефектных деталей агрегата. Во-вторых, обнаружение дефекта на других 40 исправных деталях. Все испытуемые знают, что их работа будет оцениваться. Итоговая оценка каждого испытуемого означала число деталей, проверенных в течение последних 20 дней, минус учетверенное количество ошибок. Так, контролер, который проверил 800 деталей с 5% ошибок, получает оценку 640, т.е. 800-4*800*0,05. Удовлетворительными считаются оценки выше 675.

Результаты

Оценки каждого испытуемого по тесту на способности и по качеству работы могут быть представлены на диаграмме разброса. Каждое число на диаграмме обозначает количество испытуемых, которые имеют данную комбинацию тестовой оценки (ось абсцисс) и оценки работы (ось ординат).

Все оценки охватываются овалом, который вытянут слева направо и вверх. Это значит, что оценки положительно коррелируют. Величину корреляции можно вычислить. Для диаграммы разброса, приведенной, величина коэффициента корреляции, характеризующего степень связи тестовых и рабочих оценок, равна 0,60, или, если быть пунктуальным, +0,60. В практических задачах мы не должны серьезно рассматривать возможность отрицательной корреляции. Отрицательные корреляции, когда они обнаруживаются, чаше всего настолько невелики, что могут считаться следствием случайной флюктуации "истинного" нулевого значения. Когда же они достаточно велики, они чаще всего связаны с характером шкалы на одной из осей. Так, например, число правильных ответов по одному тесту может иметь отрицательную корреляцию с числом ошибок по другому тесту. Некоторые испытуемые, имеющие высокую тестовую оценку, оказались в качестве контролеров хуже, чем те, у которых тестовая оценка была ниже [5].

Вывод

Используя найденный коэффициент корреляции, можно делать довольно точные предсказания. Из корреляции между тестовой оценкой и рабочей оценкой можно вывести секущую оценку, которая должна обеспечить заданный процент удовлетворительно работающих лиц. Мы можем также установить для каждой тестовой оценки будущих претендентов наиболее вероятную рабочую оценку, а также величину ошибки предсказания.

В данном примере один вид поведения использовался для предсказания другого вида поведения. Возможно, что в основе корреляции лежало то, что измерявшиеся способности, как и предполагалось, были существенны для данного вида работы. Однако возможно и многое другое. Например, может быть, все дело было во внимательности или в количестве усилий, которое данный человек готов был затратить. В практических ситуациях нас не интересуют объяснения: нужны только результаты. При высокой корреляции предсказание будет хорошим, при низкой корреляции - плохим.

3. Надежность и валидность тестов

Тест называется надежным, если мы можем рассчитывать, что одно и то же лицо каждый раз, при повторных испытаниях, получит примерно ту же самую оценку (относительно других) [9]. Как известно, существует много причин непоследовательности поведения, включая факторы времени, которые мы не можем контролировать. Однако влияние этого непостоянства можно уменьшить, используя достаточно продолжительный тест, конечно, соответствующего уровня трудности. Один из способов выявления надежности теста заключается в том, чтобы дать один и тот же тест (или очень близкие варианты, если это необходимо) дважды той же самой группе испытуемых. Если коэффициент корреляции между результатами двух применений теста высокий (например, 0,90), то тест считается надежным. Однако все еще остается вопрос о надежности самого исследования. Это означает, что через тест нужно провести большое число испытуемых. Иными словами, надежность теста должна основываться на достаточной надежности самого исследования.

Тест называется валидным всегда по отношению к некоторой другой оценке, например оценке качества работы, - если он высоко коррелирует с этой оценкой (например, 0,60). И снова, чтобы узнать, является ли данное заключение валидным, т.е. следует ли оно из надежного исследования, нужно использовать достаточное число испытуемых [2].

4. Типы корреляционных исследований

В корреляционных исследованиях отсутствуют планируемые изменения независимой переменной.

Исследователи, изучавшие опыт воспитания детей, не убеждали одних родителей использовать хорошие методы воспитания, а других - плохие. Эти различия в методах уже существовали. Порядок рождения ребенка тоже не зависел от экспериментатора. Он тоже уже существовал. Точно так же индивидуальные различия по тесту на способности не задавались экспериментатором. Таким образом, корреляционное исследование - это такое исследование, в котором одни поведенческие различия соотносятся с другими, уже существующими. Параметры, по которым различаются корреляционные исследования. [5]

Степень приближения к независимой переменной

Как уже говорилось, в принципе можно было бы спланировать такой эксперимент, в котором экспериментатор решал бы сам, какие родители будут применять хорошие методы воспитания детей, а какие - плохие. Но вследствие практической неосуществимости такого эксперимента было предпринято корреляционное исследование. Еще большую проблему представляет порядок рождения. Каким активным вмешательством можно добиться, чтобы данный ребенок родился, например, четвертым? И все же порядок рождения - это нечто, похожее па независимую переменную. Ведь это - переменная, предшествующая во времени, следовательно, она может стать причиной различий в поведении. Такого совсем нельзя сказать отесте на способности, который использовался для предсказания качества работы контролера. Одна и та же причина (какой бы она ни была) обеспечивала данному лицу и высокую оценку по тесту, и возможность стать хорошим контролером. В различиях тестовых оценок нет ничего от независимой переменной. Фактически мы могли бы точно так же из работы испытуемого в качестве контролера вывести, насколько успешно он будет справляться с тестом на способности. И если этого не делаем, то только потому, что это не имеет практического смысла [5].

Описание корреляции

Все три исследования были названы корреляционными, но только в случае отбора контролеров вычислялся коэффициент корреляции. Этот показатель наиболее значим в том случае, если каждая из двух сопоставляемых переменных имеет непрерывное колоколообразное распределение. Это справедливо для оценок почти любого теста. Оценки распределяются от низшей к высшей непрерывно и имеют максимум в области среднего значения. Поэтому в исследовании контролеров коэффициент корреляции хорошо подходит для описания корреляции между двумя переменными. Его можно было бы использовать также и в исследовании приспособленности. Каждый испытуемый имеет оценку приспособленности на почти непрерывной шкале. Почти наверняка эти оценки можно было бы аппроксимировать колоколообразным распределением. Факторы-предпосылки распределялись примерно таким же образом, хотя, в общем, были ступенчатыми, а не постепенно меняющимися. Доход семьи прямо мог бы использоваться как континуальный показатель, хотя распределение оказалось бы отрезанным со стороны высоких доходов. Однако вместо коэффициента корреляции здесь было использована сравнение групп с высокими и низкими показателями, поскольку не совсем ясно, что значит средняя величина приспособленности.

Цель

Исследования приспособленности и порядка рождения проводились для того, чтобы понять, чем определяются различия в поведении. Это не значит, что результаты исследования приспособленности не могут быть использованы в практических целях. Труднее представить сиюминутное практическое использование результатов исследования порядка рождения. И, конечно же, исследование по отбору контролеров преследует явную практическую цель. Так что давайте не будем "смешивать" тип исследования и его цель. Если в исследовании вычисляется коэффициент корреляции или соотносятся две оценки поведения, это еще не значит, что оно имеет практический характер. Такое делается во многих чисто теоретических исследованиях. Коэффициенты корреляции находятся между тестовыми оценками детей и родителей, между оценками идентичных близнецов и т.д. Все это - теоретические исследования, в которых пытаются разделить влияние наследственности и среды. Предпринимаются также теоретические исследования, в которых члены одной и той же группы испытуемых проводятся через разные тесты - точно так же, как это делалось при исследовании контролеров. Иногда даже используется 40 или 50 различных тестов, и между каждой парой тестов вычисляются коэффициенты корреляции. Для выявления значительно меньшего числа базисных переменных, адекватно описывающих различия между индивидами, применяется техника, называемая факторным анализом [5].

5. Корреляционные связи. Виды

Корреляционные связи - это вероятностные изменения, которые можно изучать только на представительных выборках как методами математической статистики [9]. Термина: Корреляционная связь и Корреляционная зависимость - часто используются как синонимы. Зависимость подразумевает влияние, связь - любые согласованные изменения, которые могут объясняться сотнями причин. Корреляционные связи не рассматриваются как свидетельство причинно-следственной зависимости, они свидетельствуют лишь о том, что изменениям одного признака, как правило, сопутствуют определенные изменения другого.

Корреляционная зависимость - это изменения, которые вносят значения одного признака в вероятность появления разных значений другого признака [9].

Итак, задача корреляционного анализа сводится к установлению формы (линейная, нелинейная) и направления (положительное или отрицательное) связи между варьирующими признаками, измерению ее тесноты, и к проверке уровня значимости полученных коэффициентов корреляции.

Корреляционные связи могут различать по форме, направлению и степени (силе).

По форме корреляционная связь бывает - прямолинейной или криволинейной. Прямолинейная, например, связь между количеством тренировок на тренажере и количеством правильно решаемых задач в контрольной сессии. Криволинейной, например, связь между уровнем мотивации и эффективностью выполнения задачи. (см. Приложение рисунок 1) Когда повышается мотивация, то эффективность выполнения задачи сначала возрастает, затем достигается оптимальный уровень мотивации, которому соответствует максимальная эффективность выполнения задачи; дальнейшему повышению мотивации сопутствует уже снижение эффективности.

По направлению корреляционная связь может быть положительной ("прямой") и отрицательной ("обратной"). При положительной прямолинейной корреляции более высоким значениям одного признака соответствуют более высокие значения другого, а более низким значениям одного признака - низкие значения другого (см. Приложение рисунок 2). При отрицательной корреляции соотношения обратные (см. приложение рисунок 3). При положительной корреляции коэффициент корреляции имеет положительный знак, при отрицательной корреляции - отрицательный знак [10]. Степень, сила или теснота корреляционной связи определяется по величине коэффициента корреляции. Сила связи не зависит от ее направленности и определяется по абсолютному значению коэффициента корреляции. Выделяют несколько интерпретаций наличия корреляционной связи между двумя измерениями:

1. Прямая корреляционная связь. Уровень одной переменной непосредственно соответствует уровню другой. Например закон Хика: скорость переработки информации пропорциональна логарифму от числа альтернатив. Другой пример: корреляция высокой личностной пластичности и склонности к смене социальных установок.

2. Корреляция, обусловленная 3-й переменной. Две переменные (а, с) связаны одна с другой через третью (в), неизмеренную в ходе исследования. По правилу транзитивности, если есть R (а, b) и R (b, с), то R (а, с). Примером такой корреляции является установленный американскими психологами факт связи уровня интеллекта с уровнем доходов. Если бы такое исследование проводилось в сегодняшней России, то результаты были бы иными. Очевидно, все дело в структуре общества. Скорость опознания изображения при быстром (тахистоскопическом) предъявлении и словарный запас испытуемых также положительно коррелируют. Скрытой переменной, обусловливающей эту корреляцию, является общий интеллект.

3. Случайная корреляция, не обусловленная никакой переменной.

4. Корреляция, обусловленная неоднородностью выборки. Вообразим себе, что выборка, которую будем обследовать, состоит из двух однородных групп. Пример, хотим выяснить, связана ли принадлежность к определенному полу с уровнем экстраверсии. Считаем, что "измерение" пола трудностей не вызывает, экстраверсию же измеряем с помощью опросника Айзенка ETI-1.2 группы: мужчины-математики и женщины-журналистки. Неудивительно, если мы получим линейную зависимость между полом и уровнем экстраверсии-интроверсии: большинство мужчин будут интровертами, большинство женщин - экстравертами. А также, корреляционные связи различаются по своему виду. Если повышение уровня одной переменной сопровождается повышением уровня другой, то речь идет о положительной корреляции. Чем выше личностная тревожность, тем больше риск заболеть язвой желудка. Возрастание громкости звука сопровождается ощущением повышения его тона. Если рост уровня одной переменной сопровождается снижением уровня другой, то мы имеем дело с отрицательной корреляцией. По данным Зайонца, число детей в семье отрицательно коррелирует с уровнем их интеллекта. Чем боязливей особь, тем меньше у нее шансов занять доминирующее положение в группе [6].

Нулевой называется корреляция при отсутствии связи переменных. Примеров строго линейных связей (положительных или отрицательных) в психологии практически нет. Большинство связей - нелинейные. Классический пример нелинейной зависимости - закон Йеркса-Додсона: возрастание мотивации первоначально повышает эффективность научения, а затем наступает снижение продуктивности (эффект "перемотивации"). Другим примером является связь между уровнем мотивации достижений и выбором задач различной трудности. Лица, мотивированные надеждой на успех, предпочитают задания среднего диапазона трудности - частота выборов на шкале трудности описывается колоколообразной кривой.

Математическую теорию линейных корреляций разработал Пирсон. Основания и приложения теории изложены в учебниках и справочниках по математической статистике. Вспомним, что коэффициент линейной корреляции Пирсона r варьируется от - 1 до +1. Его вычисляют путем нормирования ковариации переменных на произведение их среднеквадратических отклонений.

Значимость коэффициента корреляции зависит от принятого уровня значимости, а и от величины выборки. Чем больше модуль коэффициента корреляции, тем ближе связь переменных к линейной функциональной зависимости.

Общая классификация корреляционных связей

В зависимости от коэффициента корреляции выделяют следующие корреляционные связи:

сильная или тесная связь при коэффициенте корреляции r>0,70;

средняя связь (при 0,50<r<0,69);

умеренная связь (при 0,30<r<0,49);

слабая связь (при 0, 20<r<0,29);

очень слабая связь (при r<0, 19) [10].

6. Корреляционные поля и цель их построения

Корреляцию изучают на основании экспериментальных данных, которые представляют собой измеренные значения (xi, yi) двух признаков. Допустим, экспериментальных данных немного, то двумерное эмпирическое распределение представляется в виде двойного ряда значений xi и yi. Но при этом корреляционную зависимость между признаками можно описывать разными способами. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т.д.[8].

Как и другие статистические методы, корреляционный анализ основан на использовании вероятностных моделей, описывающих поведение исследуемых признаков в некоторой генеральной совокупности, из которой получены экспериментальные значения xi и yi. Когда исследуется корреляция между количественными признаками, значения которых можно точно измерить в единицах метрических шкал (метры, секунды, килограммы и т.д.), то очень часто принимается модель двумерной нормально распределенной генеральной совокупности. Такая модель отображает зависимость между переменными величинами xi и yi графически в виде геометрического места точек в системе прямоугольных координат. Такую графическую зависимость называются также диаграммой рассеивания или корреляционным полем.

Данная модель двумерного нормального распределения (корреляционное поле) дает наглядную графическую интерпретацию коэффициента корреляции, т.к. распределение в совокупности зависит от пяти параметров: мx, мy - средние значения (математические ожидания); уx,уy - стандартные отклонения случайных величин Х и Y и р - коэффициент корреляции, который является мерой связи между случайными величинами Х и Y.

Если р = 0, то значения, xi, yi, полученные из двумерной нормальной совокупности, располагаются на графике в координатах х, у в пределах области, ограниченной окружностью (см. Приложение рисунок 5. а). В этом случае между случайными величинами Х и Y отсутствует корреляция и они называются некоррелированными. Для двумерного нормального распределения некоррелированность означает одновременно и независимость случайных величин Х и Y [8].

Если р = 1 или р = - 1, то между случайными величинами Х и Y существует линейная функциональная зависимость (Y = c + dX). В этом случае говорят о полной корреляции. При р = 1 значения xi, yi определяют точки, лежащие на прямой линии, имеющей положительный наклон (с увеличением xi значения yi также увеличиваются), при р = - 1 прямая имеет отрицательный наклон. (рисунок 5. б) В промежуточных случаях (-1 < p < 1) точки, соответствующие значениям xi, yi, попадают в область, ограниченную некоторым эллипсом (рисунок 5. в, г), причем при p > 0 имеет место положительная корреляция (с увеличением xi значения yi имеют тенденцию к возрастанию), при p < 0 корреляция отрицательная. Чем ближе р к, тем уже эллипс и тем теснее экспериментальные значения группируются около прямой линии. Обратим внимание на то, что линия, вдоль которой группируются точки, может быть не только прямой, но и иметь любую другую форму: парабола, гипербола и т.д. В этих случаях рассматривается - нелинейная (или криволинейная) корреляция (Рисунок 5д).

Таким образом, визуальный анализ корреляционного поля помогает выявить не только наличия статистической зависимости (линейную или нелинейную) между исследуемыми признаками, но и ее тесноту и форму. И это имеет существенное значение для следующего шага в анализе ѕ выбора и вычисления соответствующего коэффициента корреляции [3].

Корреляционную зависимость между признаками можно описывать разными способами. Любая форма связи может быть выражена уравнением общего вида Y = f (X), где признак Y - зависимая переменная, или функция от независимой переменной X, называемой аргументом. Соответствие между аргументом и функцией может быть задано таблицей, формулой, графиком и т.д.

7. Этапы корреляционного анализа

Корреляционного анализа включает в себя следующие этапы:

1) постановка задачи и выбор признаков;

2) сбор информации, ее первичная обработка (группировки, исключение аномальных наблюдений, проверка нормальности одномерного распределения);

3) предварительная характеристика взаимосвязей (аналитические группировки, графики);

4) устранение мультиколлинеарности (взаимозависимости факторов) и уточнение набора показателей путем расчета парных коэффициентов корреляции;

5) исследование факторной зависимости и проверка ее значимости;

6) оценка результатов анализа и подготовка рекомендаций по их практическому использованию [8].

Содержание