что влияет на коэффициент корреляции

КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ

что влияет на коэффициент корреляции что влияет на коэффициент корреляции что влияет на коэффициент корреляции что влияет на коэффициент корреляции

что влияет на коэффициент корреляции

что влияет на коэффициент корреляции

В главе 4 мы рассмотрели основные одномерные описательные статисти­ки — меры центральной тенденции и изменчивости, которые применяются для описания одной переменной. В этой главе мы рассмотрим основные ко­эффициенты корреляции.

Коэффициент корреляции — двумерная описательная статистика, количе­ственная мера взаимосвязи (совместной изменчивости) двух переменных.

История разработки и применения коэффициентов корреляции для ис­следования взаимосвязей фактически началась одновременно с возникнове­нием измерительного подхода к исследованию индивидуальных различий — в 1870—1880 гг. Пионером в измерении способностей человека, как и автором самого термина «коэффициент корреляции», был Френсис Гальтон, а самые популярные коэффициенты корреляции были разработаны его последовате­лем Карлом Пирсоном. С тех пор изучение взаимосвязей с использованием коэффициентов корреляции является одним из наиболее популярных в пси­хологии занятием.

К настоящему времени разработано великое множество различных коэф­фициентов корреляции, проблеме измерения взаимосвязи с их помощью по­священы сотни книг. Поэтому, не претендуя на полноту изложения, мы рас­смотрим лишь самые важные, действительно незаменимые в исследованиях меры связи — /—Пирсона, r-Спирмена и т-Кендалла’. Их общей особенностью является то, что они отражают взаимосвязь двух признаков, измеренных в ко­личественной шкале — ранговой или метрической.

Вообще говоря, любое эмпирическое исследование сосредоточено на изу­чении взаимосвязей двух или более переменных.

что влияет на коэффициент корреляции

ПРИМЕРЫ

Приведем два примера исследования влияния демонстра­ции сцен насилия по ТВ на агрессивность подростков. 1. Изучается взаимосвязь двух переменных, измеренных в количественной (ранговой или метрической) шка­ле: 1)«время просмотра телепередач с насилием»; 2) «агрессивность».

Читается как тау-Кендалла.

ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ

2. Изучается различие в агрессивности 2-х или более групп подростков, отличаю­щихся длительностью просмотра телепередач с демонстрацией сцен насилия.

Во втором примере изучение различий может быть представлено как исследование взаимосвязи 2-х переменных, одна из которых — номинативная (длительность про­смотра телепередач). И для этой ситуации также разработаны свои коэффициенты корреляции.

Любое исследование можно свести к изучению корреляций, благо изобре­тены самые различные коэффициенты корреляции для практически любой исследовательской ситуации. Но в дальнейшем изложении мы будем разли­чать два класса задач:

исследование корреляций — когда две переменные представлены в чис­ловой шкале;

исследование различий — когда хотя бы одна из двух переменных пред­ставлена в номинативной шкале.

Такое деление соответствует и логике построения популярных компьютер­ных статистических программ, в которых в меню Корреляции предлагаются три коэффициента (/—Пирсона, r-Спирмена и х-Кендалла), а для решения других исследовательских задач предлагаются методы сравнения групп.

Взаимосвязи на языке математики обычно описываются при помощи фун­кций, которые графически изображаются в виде линий. На рис. 6.1 изобра­жено несколько графиков функций. Если изменение одной переменной на одну единицу всегда приводит к изменению другой переменной на одну и ту же величину, функция является линейной (график ее представляет прямую линию); любая другая связь — нелинейная. Если увеличение одной перемен­ной связано с увеличением другой, то связь — положительная (прямая); если увеличение одной переменной связано с уменьшением другой, то связь — отрицательная (обратная). Если направление изменения одной переменной не меняется с возрастанием (убыванием) другой переменной, то такая функ­ция — монотонная; в противном случае функцию называют немонотонной.

Функциональные связи, подобные изображенным на рис. 6.1, являются иде-ализациями. Их особенность заключается в том, что одному значению одной переменной соответствует строго определенное значение другой переменной. Например, такова взаимосвязь двух физических переменных — веса и длины тела (линейная положительная). Однако даже в физических экспериментах эмпирическая взаимосвязь будет отличаться от функциональной связи в силу неучтенных или неизвестных причин: колебаний состава материала, погреш­ностей измерения и пр.

что влияет на коэффициент корреляции

что влияет на коэффициент корреляции

Рис. 6.1. Примеры графиков часто встречающихся функций

В психологии, как и во многих других науках, при изучении взаимосвязи признаков из поля зрения исследователя неизбежно выпадает множество воз­можных причин изменчивости этих признаков. Результатом является то, что даже существующая в реальности функциональная связь между переменными выступает эмпирически как вероятностная (стохастическая): одному и тому же значению одной переменной соответствует распределение различных значе­ний другой переменной (и наоборот). Простейшим примером является соотно­шение роста и веса людей. Эмпирические результаты исследования этих двух признаков покажут, конечно, положительную их взаимосвязь. Но несложно догадаться, что она будет отличаться от строгой, линейной, положительной — идеальной математической функции, даже при всех ухищрениях исследова­теля по учету стройности или полноты испытуемых. (Вряд ли на этом основа­нии кому-то придет в голову отрицать факт наличия строгой функциональ­ной связи между длиной и весом тела.)

Итак, в психологии, как и во многих других науках, функциональная вза­имосвязь явлений эмпирически может быть выявлена только как вероятно­стная связь соответствующих признаков. Наглядное представление о характере вероятностной связи дает диаграмма рассеивания — график, оси которого со­ответствуют значениям двух переменных, а каждый испытуемый представля­ет собой точку (рис. 6.2). В качестве числовой характеристики вероятностной связи используются коэффициенты корреляции.

что влияет на коэффициент корреляции

Рис. 6.2. Примеры диаграмм рассеивания и соответствующих коэффициентов корреляции

Коэффициент корреляции — это количественная мера силы и направления вероятностной взаимосвязи двух переменных; принимает значения в диапа­зоне от-1 до +1.

Сила связи достигает максимума при условии взаимно однозначного соот­ветствия: когда каждому значению одной переменной соответствует только одно значение другой переменной (и наоборот), эмпирическая взаимосвязь при этом совпадает с функциональной линейной связью. Показателем силы связи явля­ется абсолютная (без учета знака) величина коэффициента корреляции.

Направление связи определяется прямым или обратным соотношением зна­чений двух переменных: если возрастанию значений одной переменной соответствует возрастание значений другой переменной, то взаимосвязь на­зывается прямой (положительной); если возрастанию значений одной пере­менной соответствует убывание значений другой переменной, то взаимосвязь является обратной (отрицательной). Показателем направления связи являет­ся знак коэффициента корреляции.

КОЭФФИЦИЕНТ КОРРЕЛЯЦИИ г-ПИРСОНА

r-Пирсона (Pearson r) применяется для изучения взаимосвязи двух метричес­ких переменных, измеренных на одной и той же выборке. Существует множество ситуаций, в которых уместно его применение. Влияет ли интеллект на успе­ваемость на старших курсах университета? Связан ли размер заработной пла­ты работника с его доброжелательностью к коллегам? Влияет ли настроение школьника на успешность решения сложной арифметической задачи? Для ответа на подобные вопросы исследователь должен измерить два интересую­щих его показателя у каждого члена выборки. Данные для изучения взаимо­связи затем сводятся в таблицу, как в приведенном ниже примере.

ЧАСТЬ I. ОСНОВЫ ИЗМЕРЕНИЯ И КОЛИЧЕСТВЕННОГО ОПИСАНИЯ ДАННЫХ.

В таблице приведен пример исходных данных измерения двух показателей интел­лекта (вербального и невербального) у 20 учащихся 8-го класса.

что влияет на коэффициент корреляции

Прежде чем дать формулу коэффициента корреляции, попробуем просле­дить логику ее возникновения, используя данные примера 6.1. Положение каждой /-точки (испытуемого с номером /) на диаграмме рассеивания отно­сительно остальных точек (рис. 6.3) может быть задано величинами и знака­ми отклонений соответствующих значений переменных от своих средних ве­личин: (xj — MJ и (у, —Му). Если знаки этих отклонений совпадают, то это свидетельствует в пользу положительной взаимосвязи (большим значениям по х соответствуют большие значения по у или меньшим значениям по х со­ответствуют меньшие значения по у).Связь между этими переменными можно изобразить при помощи диаграммы рас­сеивания (см. рис. 6.3). Диаграмма показывает, что существует некоторая взаимо­связь измеренных показателей: чем больше значения вербального интеллекта, тем (преимущественно) больше значения невербального интеллекта.

что влияет на коэффициент корреляции

9 10 11

Рис. 6.3. Диаграмма рассеивания для данных примера 6.1

Для испытуемого № 1 отклонение от среднего по х и по у положительное, а для испытуемого № 3 и то и другое отклонения отрицательные. Следовательно, данные того и другого свидетельствуют о положительной взаимосвязи изучаемых призна­ков. Напротив, если знаки отклонений от средних по х и по у различаются, то это будет свидетельствовать об отрицательной взаимосвязи между признаками. Так, для испытуемого № 4 отклонение от среднего по х является отрицательным, по у — положительным, а для испытуемого № 9 — наоборот.

Таким образом, если произведение отклонений (х,— Мх) х (у, — Му) поло­жительное, то данные /-испытуемого свидетельствуют о прямой (положи­тельной) взаимосвязи, а если отрицательное — то об обратной (отрицатель­ной) взаимосвязи. Соответственно, если х w у ъ основном связаны прямо пропорционально, то большинство произведений отклонений будет поло­жительным, а если они связаны обратным соотношением, то большинство произведений будет отрицательным. Следовательно, общим показателем для силы и направления взаимосвязи может служить сумма всех произведений отклонений для данной выборки:

ЧАСТЬ I. ОСНОВЫ ИЗМЕРЕНИЯ И КОЛИЧЕСТВЕННОГО ОПИСАНИЯ ДАННЫХ

При прямо пропорциональной связи между переменными эта величина является большой и положительной — для большинства испытуемых откло­нения совпадают по знаку (большим значениям одной переменной соответ­ствуют большие значения другой переменной и наоборот). Если же х и у име­ют обратную связь, то для большинства испытуемых большим значениям одной переменной будут соответствовать меньшие значения другой перемен­ной, т. е. знаки произведений будут отрицательными, а сумма произведений в целом будет тоже большой по абсолютной величине, но отрицательной по знаку. Если систематической связи между переменными не будет наблюдать­ся, то положительные слагаемые (произведения отклонений) уравновесятся отрицательными слагаемыми, и сумма всех произведений отклонений будет близка к нулю.

Чтобы сумма произведений не зависела от объема выборки, достаточно ее усреднить. Но мера взаимосвязи нас интересует не как генеральный параметр, а как вычисляемая его оценка — статистика. Поэтому, как и для формулы дис­персии, в этом случае поступим также, делим сумму произведений отклоне­ний не на N, а на TV— 1. Получается мера связи, широко применяемая в физи­ке и технических науках, которая называется ковариацией (Covahance):

что влияет на коэффициент корреляции

13 психологии, в отличие от физики, большинство переменных измеряют­ся в произвольных шкалах, так как психологов интересует не абсолютное зна­чение признака, а взаимное расположение испытуемых в группе. К тому же ковариация весьма чувствительна к масштабу шкалы (дисперсии), в которой измерены признаки. Чтобы сделать меру связи независимой от единиц изме­рения того и другого признака, достаточно разделить ковариацию на соот­ветствующие стандартные отклонения. Таким образом и была получена фор­мула коэффициента корреляции К. Пирсона:

что влияет на коэффициент корреляции

что влияет на коэффициент корреляции(6.1) или, после подстановки выражений для ох и gv:

что влияет на коэффициент корреляции

Уравнение (6.1) является основной формулой коэффициента корреляции Пирсона. Эта формула вполне осмысленна, но не очень удобна для вычисле­ний «вручную» или на калькуляторе. Поэтому существуют производные формулы — более громоздкие по виду, менее доступные осмыслению, но упро­щающие расчеты. Мы не будем их здесь приводить, так как один раз в жизни можно в учебных целях посчитать корреляцию Пирсона и по исходной фор­муле «вручную», а в дальнейшем для обработки реальных данных все равно придется воспользоваться компьютерными программами.

ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ

Для расчета коэффициента корреляции воспользуемся данными примера 6.1 о вер­бальном и невербальном IQ, измеренном у 20 учащихся 8-го класса. К двум столб­цам с исходными данными добавляются еще 5 столбцов для дополнительных рас­четов, и внизу — строка сумм.

На первом шаге подсчитываются суммы всех значений одного, затем — другого признака для вычисления соответствующих средних значений Мх и Му: Мх = 9,8; Л/, = 10,4.

Далее для каждого испытуемого вычисляются отклонения от среднего: для Х\\ для Y. Каждое отклонение от среднего возводится в квадрат. В последнем столбике за­писывается результат перемножения двух отклонений от среднего для каждого ис­пытуемого.

Суммы отклонений от среднего для каждой переменной должны быть равны нулю (с точностью до погрешности вычислений). Сумма квадратов отклонений необхо­дима для вычисления стандартных отклонений по известной формуле (4.7):

ЧАСТЬ I. ОСНОВЫ ИЗМЕРЕНИЯ И КОЛИЧЕСТВЕННОГО ОПИСАНИЯ ДАННЫХ

что влияет на коэффициент корреляции

Сумма произведений отклонений дает нам значение числителя, а произведение стандартных отклонений и (./V— 1) — значение знаменателя формулы коэффици­ента корреляции:

Если значения той и другой переменной были преобразованы в г-значения по формуле:

что влияет на коэффициент корреляции

то формула коэффициента что влияет на коэффициент корреляциикорреляции r-Пирсона выглядит проще:

Отметим еще раз: на величину коэффициента корреляции не влияет то, в каких единицах измерения представлены признаки. Следовательно, любые линейные преобразования признаков (умножение на константу, прибавление кон­станты: у; = хр + а) не меняют значения коэффициента корреляции. Исключе­нием является умножение одного из признаков на отрицательную константу: коэффициент корреляции меняет свой знак на противоположный.

На рис. 6.2 приведены примеры диаграмм рассеивания для различных зна­чений коэффициента корреляции. Обратите внимание: на последнем рисун­ке визуально наблюдается нелинейная взаимосвязь между переменными, од­нако коэффициент корреляции равен нулю. Таким образом, коэффициент корреляции Пирсона есть мера прямолинейной взаимосвязи; он не чувствителен к криволинейным связям.

КОРРЕЛЯЦИЯ, РЕГРЕССИЯ И КОЭФФИЦИЕНТ ДЕТЕРМИНАЦИИ

Корреляция Пирсона есть мера линейной связи между двумя переменны­ми. Она позволяет определить, насколько пропорциональна изменчивость двух переменных. Если переменные пропорциональны друг другу, то графи­чески связь между ними можно представить в виде прямой линии с положи­тельным (прямая пропорция) или отрицательным (обратная пропорция) на­клоном. Кроме того, если известна пропорция между переменными, заданная уравнением графика прямой линии: то по известным значениям переменной ЛГ можно точно предсказать значения переменной Y.

ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ

На практике связь между двумя переменными, если она есть, является ве­роятностной и графически выглядит как облако рассеивания эллипсоидной формы. Этот эллипсоид, однако, можно представить (аппроксимировать) в виде прямой линии, или линии регрессии. Линия регрессии (Regression Line) — это прямая, построенная методом наименьших квадратов: сумма квадратов расстояний (вычисленных по оси У) от каждой точки графика рассеивания до прямой является минимальной:

что влияет на коэффициент корреляции
что влияет на коэффициент корреляции
что влияет на коэффициент корреляции

где bкоэффициент регрессии (Regression Coefficient), задающий угол наклона прямой; а — свободный член, определяющий точку пересечения прямой оси Y. Если известны средние, стандартные отклонения и корреляция гху, то сум­ма квадратов ошибок минимальна, если:

что влияет на коэффициент корреляции

Таким образом, если на некоторой выборке измерены две переменные, которые коррелируют друг с другом, то, вычислив коэффициенты регрессии, мы получаем принципиальную возможность предсказания неизвестных зна­чений одной переменной (У— «зависимая переменная») по известным значе­ниям другой переменной (X — «независимая переменная»). Например, пред­сказываемой «зависимой переменной» может быть успешность обучения, а предиктором, «независимой переменной» — результаты вступительного теста.

что влияет на коэффициент корреляции

Рис. 6.4. Диаграмма рассеивания и линия регрессии (е,- — ошибка оценки для одного из объектов)

ЧАСТЬ I. ОСНОВЫ ИЗМЕРЕНИЯ И КОЛИЧЕСТВЕННОГО ОПИСАНИЯ ДАННЫХ

С какой степенью точности возможно такое предсказание?

Понятно, что наиболее точным предсказание будет, если ху\ = 1. Тогда каж­дому значению Сбудет соответствовать только одно значение У, а все ошибки оценки будут равны 0 (все точки на графике рассеивания будут лежать на пря­мой регрессии). Если же гху О, то b = О и у, = Му, т. е. при любом Xоценка переменной Убудет равна ее среднему значению и предсказательная ценность регрессии ничтожна.

Особое значение для оценки точности предсказания имеет дисперсия оце­нок зависимой переменной. Отметим, что дисперсия оценок равна нулю, если гху = 0 — все оценки равны среднему значению, прямая регрессии параллель­на оси X. А если ху\ = 1, то дисперсия оценок равна истинной дисперсии пе­ременной У, достигая своего максимума:

что влияет на коэффициент корреляции

0 2 раз. Подставляя в формулу выражение для b из (6.2) получаем:

что влияет на коэффициент корреляции

Иначе говоря, отношение дисперсии оценок зависимой переменной к ее ис­тинной дисперсии равно квадрату коэффициента корреляции.

Выражение (6.4) дает еще один вариант интерпретации корреляции. Квад­рат коэффициента корреляции (R Square) зависимой и независимой перемен­ных представляет долю дисперсии зависимой переменной, обусловленной влиянием независимой переменной, и называется коэффициентом детерми­нации. Коэффициент детерминации гху, таким образом, показывает, в какой сте­пени изменчивость одной переменной обусловлена (детерминирована) вли­янием другой переменной.

ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ

Коэффициент детерминации обладает важным преимуществом по сравне­нию с коэффициентом корреляции. Корреляция не является линейной функци­ей связи между двумя переменными. Поэтому, в частности, среднее арифмети­ческое коэффициентов корреляции для нескольких выборок не совпадает с корреляцией, вычисленной сразу для всех испытуемых из этих выборок (т. е. коэффициент корреляции не аддитивен). Напротив, коэффициент детерми­нации отражает связь линейно и поэтому является аддитивным: допускается его усреднение для нескольких выборок.

Дополнительную информацию о силе связи дает значение коэффициента корреляции в квадрате — коэффициент детерминации г 2 : это часть диспер­сии одной переменной, которая может быть объяснена влиянием другой пе­ременной. В отличие от коэффициента корреляции г 2 линейно возрастает с увеличением силы связи. На этом основании можно ввести три градации ве­личин корреляции по силе связи:

г 0,7 — сильная связь (50% и более от общей доли дисперсии).

Очень часто две переменные коррелируют друг с другом только за счет того, что обе они согласованно меняются под влиянием некоторой третьей пере­менной. Иными словами, на самом деле связь между соответствующими свой­ствами отсутствует, но проявляется в статистической взаимосвязи (корреля­ции) под влиянием общей причины.

Общей причиной изменчивости двух переменных («третьей переменной») может яв­ляться возраст при изучении взаимосвязи различных психологических особеннос­тей в группе детей разного возраста. Предположим, что изучается взаимосвязь меж­ду зрелостью моральных суждений — Хп скоростью чтения — К. Но в распоряжении что влияет на коэффициент корреляции1 С более совершенными методами предсказания книга знакомит вас в части 3: «Много­мерные методы. »

ЧАСТЬ I. ОСНОВЫ ИЗМЕРЕНИЯ И КОЛИЧЕСТВЕННОГО ОПИСАНИЯ ДАННЫХ

исследователя имеется лишь выборка из 45 детей разного возраста — от 8 до 14 лет (переменная Z— возраст). Если будет получена существенная положительная корре­ляция между Хи Y, например гху = 0,54, то о чем это будет свидетельствовать? Осто­рожный исследователь вряд ли сделает однозначный вывод о том, что зрелость мо­ральных суждений непосредственно связана со скоростью чтения. Скорее всего, дело втом, что и зрелость моральных суждений, и скорость чтения повышаются с возрас­том. Иными словами, возраст является причиной согласованной (прямо пропорци­ональной) изменчивости и зрелости моральных суждений, и скорости чтения.

Для численного определения степени взаимосвязи двух переменных при усло­вии исключения влияния третьей применяют коэффициент частной корреляции Для вычисления частной корреляции достаточно знать три коэффициента корреляции г-Пирсона между переменными X, Yu Zfr^, rxz и ryz):

что влияет на коэффициент корреляции

где rxy^z — частная корреляция Хи Упри постоянном Z(kiih с учетом Z).

Частная корреляция rxy_z равна гху при любом фиксированном значении Z (в том случае, если Zлинeйнo коррелирует с Хтл У). Например, если значение частной корреляции скорости чтения Хи зрелости моральных суждений К с учетом возраста ZpaBHO 0,2 xy__z = 0,2) и возраст линейно коррелирует и с Хи с У, то с любой группе детей одного и того же возраста гху будет тоже равно 0,2.

что влияет на коэффициент корреляции

Один исследователь решил сопоставить антропометрические и психологические данные исследования довольно большой группы детей. Каково же было его изум­ление, когда обнаружилась существенная положительная корреляция между скоро­стью решения арифметических задач и размером стопы: гху = 0,42. Оказалось, однако, что дети были разного возраста. Корреляция размера стопы с возрастом составила rxy = QJ, а корреляция скорос­ти решения арифметических задач с возрастом гу, = 0,6. Эти данные позволяют выяснить, взаимосвязаны ли размер стопы и скорость решения арифметических задач с учетом возраста (при условии, что возраст остается неизменным). Для этого необходимо вычислить частный коэффициент корреляции между размером стопы Хи скоростью решения арифметических задач К(при фиксированном возрасте Z):

что влияет на коэффициент корреляции

Таким образом, размер стопы и скорость решения арифметических задач корре­лируют исключительно за счет согласованности возрастной изменчивости этих показателей: частная корреляция между ними (с учетом возраста) равна нулю. И ес­ли мы возьмем группу детей одного и того же возраста, то корреляция размера сто­пы и скорости решения арифметических задач будет равна нулю.

ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ

Следует быть особенно осторожным, пытаясь дать интерпретацию част­ной корреляции с позиций причинности. Например, если Zкоррелирует и с 1и с Y, а частная корреляция rxy_z близка к нулю, из этого не обязательно следует, что именно Zявляeтcя общей причиной для Хн Y.

Если обе переменные, между которыми изучается связь, представлены в порядковой шкале, или одна из них — в порядковой, а другая — в метричес­кой, то применяются ранговые коэффициенты корреляции: r-Спирмена или т-Кенделла. И тот, и другой коэффициент требует для своего применения предварительного ранжирования обеих переменных.

Коэффициент корреляции г-Спирмена

Если члены группы численностью /Убыли ранжированы сначала по пере­менной X, затем — по переменной Y, то корреляцию между переменными Хм Кможно получить, просто вычислив коэффициент r-Пирсона для двух рядов рангов. При условии отсутствия связей в рангах (т. е. отсутствия повторяю­щихся рангов) по той и другой переменной, формула для r-Пирсона может быть существенно упрощена в вычислительном отношении и преобразована в формулу, известную как г-Спирмена:

что влияет на коэффициент корреляции

где с/, — разность рангов для испытуемого с номером /.

Коэффициент корреляции r-Спирмена (Spearman’s rho) равен коэффициен­ту корреляции /—Пирсона, вычисленному для двух предварительно ранжиро­ванных переменных.

Предположим, для каждого из 12 учащихся одного класса известно время решения тестовой арифметической задачи в секундах (X) и средний балл отметок по мате­матике за последнюю четверть (Y).

XYРанги XРанги Yd,d]
4,72
4,5
4,4
3,8-4

ЧАСТЬ I. ОСНОВЫ ИЗМЕРЕНИЯ И КОЛИЧЕСТВЕННОГО ОПИСАНИЯ ДАННЫХ

XYРанги XРанги Уd,d]
3,7_4
4,6
4,0-5
4,2-5
4,1
3,6_7
3,5-10
4,8
S

Для расчета корреляции г-Спирмена сначала необходимо ранжировать учащихся по той и другой переменной. После ранжирования можно проверить его правиль­ность: сумма рангов должна быть равна N(N+ l)/2. Затем для каждого испытуемо­го надо вычислить разность рангов (сумма разностей рангов должна быть равна 0). После этого для каждого испытуемого вычисляется квадрат разности рангов — ре­зультат приведен в последнем столбце таблицы. Сумма квадратов разностей рангов равна 474. Подставляем известные значения в формулу 6.6:

что влияет на коэффициент корреляции
что влияет на коэффициент корреляции

Получена умеренная отрицательная связь между успеваемостью по математике и временем решения арифметической задачи.

Отметим: то же значение корреляции было бы получено при использовании фор­мулы r-Пирсона непосредственно к рангам Хи Y. Применяя же формулу г-Пирсо-на к исходным значениям Хи Y, мы получим гху = —0,692.

Коэффициент корреляции т-Кендалла

Альтернативу корреляции Спирмена для рангов представляет корреляция т-Кендалла. В основе корреляции, предложенной М. Кендаллом, лежит идея о том, что о направлении связи можно судить, попарно сравнивая между со­бой испытуемых: если у пары испытуемых изменение по Xсовпадает по на­правлению с изменением по У, то это свидетельствует о положительной свя­зи, если не совпадает — то об отрицательной связи.

В примере 6.3 данные испытуемых 1 и 2 свидетельствуют об отрицательной связи — мы видим инверсию: по переменной Ху второго испытуемого ранг больше, а по переменной У— меньше. Данные испытуемых 2 и 3, напротив, демонстрируют со­впадение направления изменения переменных.

Корреляция т-Кендалла есть разность относительных частот совпадений и инверсий при переборе всех пар испытуемых в выборке:

ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ

где Р(р) и P(q) — относительные частоты, соответственно, совпадений и ин­версий. Всего в выборке численностью УУ существует N(N— l)/2 всех возмож­ных пар испытуемых. Следовательно,

что влияет на коэффициент корреляции

где Р — число совпадений, Q — число инверсий, а (Р+ Q) = N(N— l)/2. Формулу 6.7 можно представить и в ином виде:

что влияет на коэффициент корреляции

т = ^-^- = 1—- I^_ = _Zi—— 1. (6,8)

При подсчете т-Кендалла «вручную» данные сначала упорядочиваются по переменной X. Затем для каждого испытуемого подсчитывается, сколько раз его ранг по доказывается меньше, чем ранг испытуемых, находящихся ниже. Результат записывается в столбец «Совпадения». Сумма всех значений столб­ца «Совпадения» и есть Р — общее число совпадений, подставляется в фор­мулу 6.8. для вычисления т-Кендалла.

Вычислим т-Кендалла для данных из примера 6.4. Сначала предварительно упоря­дочиваем испытуемых по переменной X. Затем подсчитываем число совпадений и инверсий для каждого испытуемого, сравнивая по Y его ранг с рангами испытуе­мых, находящихся под ним. Так, для первого испытуемого ранг по Кравен6,и 6 ис­пытуемых, находящихся ниже него, имеют по Y более высокий ранг: в столбец «Совпадения» записываем 6. Для третьего по счету испытуемого ранг по Y равен 8, трое испытуемых ниже него имеют более высокий ранг, значит, в столбец «Совпа­дения» записываем 3, и т. д.

что влияет на коэффициент корреляции
Ранги XРанги YСовпаденияИнверсии
Р= 180 = 48

ЧАСТЬ I. ОСНОВЫ ИЗМЕРЕНИЯ И КОЛИЧЕСТВЕННОГО ОПИСАНИЯ ДАННЫХ

Для более полной интерпретации полезны соотношения между величи­ной х-Кендалла и вероятностью отдельно совпадений и инверсий:

что влияет на коэффициент корреляции

Так, т = 0,5 значит, что вероятность совпадений равна 0,75, а вероятность инвер­сий — 0,25, то есть при сравнении объектов друг с другом прямо пропорциональ­ное соотношение (например, роста и веса) встречается в 3 раза чаще, чем обратно пропорциональное соотношение. Такая интерпретация кажется более понятной, чем, например, интерпретация корреляции Пирсона г= 0,5: «25% изменчивости в весе могут быть объяснены различиями в росте».

т-Кендалла кажется более простым в вычислительном отношении. Одна­ко при возрастании численности выборки, в отличие от л-Спирмена, объем вычислений х-Кендалла возрастает не пропорционально, а в геометрической прогрессии. Так, при N=12 необходимо перебрать 66 пар испытуемых, а при N = 48 — уже 1128 пар, т. е. объем вычислений вбзрастает более, чем в 17 раз.

Отметим важную особенность ранговых коэффициентов корреляции. Для метрической корреляции r-Пирсона значениям +1 или —1 соответствует пря­мая или обратная пропорция между переменными, что графически представ­ляет собой прямую линию. Максимальным по модулю ранговым корреляци­ям (+1, —1) вовсе не обязательно соответствуют строгие прямо или обратно пропорциональные связи между исходными переменными Хи Y: достаточна лишь монотонная функциональная связь между ними. Иными словами, ран­говые корреляции достигают своего максимального по модулю значения, если большему значению одной переменной всегда соответствует большее значе­ние другой переменной (+1) или большему значению одной переменной все­гда соответствует меньшее значение другой переменной и наоборот (—1).

Проблема связанных (одинаковых) рангов

В измерениях часто встречаются одинаковые значения. При их ранжиро­вании возникает проблема связанных рангов (Tied Ranks). В этом случае дей­ствует особое правило ранжирования: объектам с одинаковыми значениями

что влияет на коэффициент корреляции

приписывается один и тот же, сред­ний ранг. Например, когда эксперт не может установить различие меж­ду двумя лучшими образцами това­ра, им приписывается одинаковый ранг: (1 + 2)/2 = 1,5. Это сохраняет неизменной сумму рангов для вы­борки объемом N: N(N + l)/2.

ГЛАВА 6. КОЭФФИЦИЕНТЫ КОРРЕЛЯЦИИ

При наличии одинаковых (связан­ных) рангов формулы ранговой корреляции Спирмена (6.6) и Кендама (6.7и 6.8) не подходят. Хотя сумма рангов и не меняется, но изменчивость данных становится меньше. Соответственно, умень­шается возможность оценить степень связи между измеренными свойствами. При использовании корреляции Спирмена в случае связанных рангов возмож­ны два подхода:

При использовании корреляции х-Кендалла в случае наличия связанных ран­гов в формулу вносятся поправки, и тогда получается общая формула для вы­числения т. коэффициента корреляции хь-Кендалла (Kendall’s tau-b) независи­мо от наличия или отсутствия связей в рангах:

что влияет на коэффициент корреляции

где х = (1/2)У/?(/?-1) (‘ — количество групп связей по X,ft численность каждой группы); х = (1/2)У/(/)-1) (/ — количество групп связей по У,/ — численность каждой группы).

Источник

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *