Семь лет занимаясь исследовательской деятельностью со школьниками, как руководитель работ присутствовала на многих конференциях. Должна отметить, что основные методы, применяемые в большинстве исследований это: интервью, анализ опубликованных в сети Интернет, в СМИ, в зарубежной и отечественной литературе материалов, социологическое исследование. Во многих работах исследуется зависимость между случайными величинами и редко, когда проверяется гипотеза о значимости связи. Этим “грешат” не только школьные работы, но и некоторые вузовские, вот какое утверждение я встретила в реферате “Индекс человеческого развития”, студентки ГУ-ВШЭ: “Дольше всего живут там (в тех странах), где хорошо развито здравоохранение. Между этими характеристиками обнаруживается прямая зависимость, или корреляция”. (http://www.macro2004.narod.ru/) Для того, чтобы это утверждать, необходимо выполнить ряд математических вычислений.
Цель данной статьи познакомить с двумя универсальными методами математической статистики Спирмена и Кендалла, и разобрать их применение на конкретных примерах. Изучение этих методов может оказаться полезным юным исследователям, занимающимся вопросами существования зависимости между случайными величинами. Основанием для выбора методов ранговой корреляции служат: их универсальность, простота, широкие возможности в решении задач сравнения индивидуальных или групповых признаков. Отметим, что существует ряд ограничений коэффициента ранговой корреляции: по каждой переменной должно быть представлено не менее 5 наблюдений, верхняя граница выборки определяется имеющимися таблицами критических значений, а именно 40.[1]
Для того, чтобы было понятно применение данных методов широкому кругу читателей, введем основные понятия. Значение термина "корреляции" - взаимная связь.[2] Корреляционная связь - это согласованные изменения двух или большего количества признаков. Коэффициент ранговой корреляции рекомендуется применять в тех случаях, когда необходимо проверить, согласованно ли изменяются признаки у одного и того же объекта. Выборочный коэффициент ранговой корреляции Спирмена[3] находится по формуле: , где d =xi-yi, n– объем выборки, причем |в|1. Объекты располагаются в порядке ухудшения качества по признаку А и В. Ранг хi, равен порядковому номеру объекта по признаку А: xi=i. Объектам признака В, припишем ранг yi, причем индекс i при y равен порядковому номеру объекта А.
Выборочный коэффициент ранговой корреляции Кендалла[4] находится по формуле:
, R=R1+R2+ ……+Rn-1, причем |в|1.
Припишем объектам, обладающих признаками А и В ранги. Допустим, что справа от y1 имеется R1 рангов, больших y1; справа от yn-1 имеется Rn-1 рангов, больших y1n-1. Для обоснования суждения о наличии связи между качественными признаками следует проверить, значим ли выборочный коэффициент ранговой корреляции Спирмена (Кендалла).
Для того, чтобы при уровне значимости r проверить нулевую гипотезу о равенстве нулю коэффициента r Спирмена при конкурирующей гипотезе Н1: r0, надо вычислить критическую точку , где n-объем выборки; в – коэффициент Спирмена; tкр(a,k) – критическая точка двусторонней критической области, которую находят по таблице распределения Стьюдента, по уровню значимости a и числу степеней свободы k=n-2. Если |в|< Ткр – нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |в|> Ткр – нулевую гипотезу отвергают. Между признаками существует значимая ранговая корреляция.
Для того, чтобы при уровне значимости a проверить нулевую гипотезу о равенстве нулю коэффициента Кендалла при конкурирующей гипотезе Н1: r 0, надо вычислить критическую точку , где n-объем выборки; zкр – критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(zкр)=(1-a)/2. Если |в|<Ткр – нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если | в|> Ткр – нулевую гипотезу отвергают. Между признаками существует значимая ранговая корреляционная связь.
Задача 1. Исследование зависимости между ожидаемой продолжительностью жизни и ВВП на душу населения (ППС (паритет покупательной способности) в долл. США). Вычислить коэффициент ранговой корреляции Спирмена. При уровне значимости a=0,01 проверить нулевую гипотезу о равенстве нулю выборочного коэффициента ранговой корреляции Спирмена. Материалы: http://www.un.org/russian/esa/hdr/2006/
Доклад ПРООН о развитии человека 2006 (таблица №1). Выдвигаем гипотезы:
Н0: корреляция между ожидаемой продолжительностью жизни и ВВП не отличается от нуля.
Н1: корреляция между ожидаемой продолжительностью жизни и ВВП отличается от нуля.
Данные оформлены в виде таблицы:
№п/п | Страны | Ожидаемая продолжит.жизни в годах | Ранг А | ВВП на душу населения (ППС в долл. США). | Ранг В | d =a-b |
1 | Норвегия | 79,6 | 11,5 | 38454 | 4 | 7,5 |
2 | Исландия | 80,9 | 3 | 33051 | 5 | -2 |
3 | Австралия | 80,5 | 5 | 30331 | 14 | -9 |
4 | Ирландия | 77,9 | 23 | 38827 | 3 | 20 |
5 | Швеция | 80,3 | 6 | 29541 | 16 | -10 |
6 | Канада | 80,2 | 7,5 | 31263 | 10 | -2,5 |
7 | Япония | 82,2 | 1 | 29251 | 18 | -17 |
8 | США | 77,5 | 24,5 | 39676 | 2 | 22,5 |
9 | Швейцария | 80,7 | 4 | 33040 | 6 | -2 |
10 | Нидерланды | 78,5 | 20,5 | 31789 | 9 | 11,5 |
11 | Финляндия | 78,7 | 18 | 29951 | 15 | 3 |
12 | Люксембург | 78,6 | 19 | 69961 | 1 | 18 |
13 | Бельгия | 79,1 | 15 | 31096 | 11 | 4 |
14 | Австрия | 79,2 | 14 | 32276 | 7 | 7 |
15 | Дания | 77,3 | 26,5 | 31914 | 8 | 18,5 |
16 | Франция | 79,6 | 11,5 | 29300 | 17 | -5,5 |
17 | Италия | 80,2 | 7,5 | 28180 | 20 | -12,5 |
18 | Великобритания | 78,5 | 20,5 | 30821 | 13 | 7,5 |
19 | Испания | 79,7 | 10 | 25047 | 22 | -12 |
20 | Новая Зеландия | 79,3 | 13 | 23413 | 24 | -11 |
21 | Германия | 78,9 | 16,5 | 28303 | 19 | -2,5 |
22 | Гонконг, Китай | 81,8 | 2 | 30822 | 12 | -10 |
23 | Израиль | 80 | 9 | 24382 | 23 | -14 |
24 | Греция | 78,3 | 22 | 22205 | 25 | -3 |
25 | Сингапур | 78,9 | 16,5 | 28077 | 21 | -4,5 |
26 | Республика Корея | 77,3 | 26,5 | 20499 | 27 | -0,5 |
27 | Словения | 76,6 | 28 | 20939 | 26 | 2 |
28 | Португалия | 77,5 | 24,5 | 19629 | 28 | -3,5 |
Вычислим в по формуле:
= 1- 6* 3175/(28*783) = 1-19050/21924 =0,131Найдем критическую точку двусторонней критической области распределения Стьюдента по уровню значимости a=0,01 и числу степеней свободы k=n-2=26
Итак, Ткр=0,54054 в=0,131, так как |в|< Ткр – коэффициент ранговой корреляции Спирмена не отличается от нуля.
Вывод: ранговая корреляционная связь между ожидаемой продолжительностью жизни и ВВП незначимая.
Задача 2. Исследование зависимости между ожидаемой продолжительностью жизни и расходами на здравоохранение на душу населения (ППС в долл. США). Вычислить коэффициент ранговой корреляции Кендалла. При уровне значимости a=0,05 проверить нулевую гипотезу о равенстве нулю выборочного коэффициента ранговой корреляции Кендалла. Материалы: http://www.un.org/russian/esa/hdr/2006/ Доклад ПРООН о развитии человека 2006 (таблица №6). Данные оформлены в виде таблицы:
№п/п | Страны | Расходы на здравоохранение на душу населения | Ранг А | Ожидаемая продолжит.жизни в годах | Ранг В | Ri |
1 | США | 5711 | 1 | 77,5 | 24,5 | 3 |
2 | Норвегия | 3809 | 2 | 79,6 | 10,5 | 16 |
3 | Швейцария | 3776 | 3 | 80,7 | 3 | 23 |
4 | Люксембург | 3680 | 4 | 78,6 | 19 | 8 |
5 | Исландия | 3110 | 5 | 80,9 | 2 | 22 |
6 | Германия | 3001 | 6 | 78,9 | 15,5 | 11 |
7 | Канада | 2989 | 7 | 80,2 | 6,5 | 17 |
8 | Нидерланды | 2987 | 8 | 78,5 | 20 | 7 |
9 | Франция | 2902 | 9 | 79,6 | 10,5 | 13 |
10 | Австралия | 2874 | 10 | 80,5 | 4 | 17 |
11 | Бельгия | 2828 | 11 | 79,1 | 14 | 10 |
12 | Дания | 2762 | 12 | 77,3 | 26,5 | 1 |
13 | Швеция | 2704 | 13 | 80,3 | 5 | 14 |
14 | Ирландия | 2496 | 14 | 77,9 | 23 | 3 |
15 | Великобритания | 2389 | 15 | 78,5 | 21 | 4 |
16 | Австрия | 2306 | 16 | 79,2 | 13 | 7 |
17 | Италия | 2266 | 17 | 80,2 | 6,5 | 10 |
18 | Япония | 2244 | 18 | 82,2 | 1 | 10 |
19 | Финляндия | 2108 | 19 | 78,7 | 17,5 | 4 |
20 | Греция | 1997 | 20 | 78,3 | 22 | 3 |
21 | Израиль | 1911 | 21 | 80 | 8 | 7 |
22 | Новая Зеландия | 1893 | 22 | 79,3 | 12 | 5 |
23 | Испания | 1853 | 23 | 79,7 | 9 | 5 |
24 | Португалия | 1791 | 24 | 77,5 | 24,5 | 2 |
25 | Словения | 1669 | 25 | 76,6 | 28 | 0 |
26 | Сингапур | 1156 | 26 | 78,9 | 15,5 | 2 |
27 | Кипр | 1143 | 27 | 78,7 | 17,5 | 1 |
28 | Республика Корея | 1074 | 28 | 77,3 | 26,5 | 0 |
Сумма рангов R= 225 . Найдем коэффициент ранговой корреляции Кендалла, учитывая, что R= 225 , n=28 Вычислим в по формуле:
=-1=1,1904-1=0,1904
Найдем критическую точку zкр : Ф(zкр)=(1-?)/2=(1-0,05)/2=0,475
По таблице Лапласа находим zкр=1,96. Найдем критическую точку:
0,2624
Итак, Ткр=0,2624 ?в =0,1904 , | ?в |< Ткр
Вывод: ранговая корреляционная связь между ожидаемой продолжительностью жизни и расходами на здравоохранение на душу населения (ППС в долл. США) незначимая. Хотя, казалось бы, что чем больше правительства стран тратят на здравоохранение, тем дольше живет их народ. Как и студенткой ГУ-ВШЭ, использован материал: Доклад ПРООН о развитии человека 2006. Наш пример показывает, что субъективной оценки явно недостаточно, чтобы делать выводы о наличии прямой зависимости. Возможно, ознакомление с данными методами, а затем и их применение в своих работах, убережет юных исследователей и их руководителей от скоропалительных выводов.
Возникает вопрос: в каком же случае следует применять метод ранговой корреляции Спирмена, а в каком Кендалла? Для данных, измеряемых в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена, который определяется сравнением рангов – номеров значений сравниваемых переменных в их упорядочении. Особенность метода Кендалла в том, что он годен только для составляющих, содержащих именно монотонный тренд (тренд, или тенденция представляет собой устойчивую закономерность, наблюдаемую в течении длительного периода времени). [4]
Безусловно, существуют программы, например SPSS, вычисляющие коэффициенты ранговой корреляции, но как учитель информатики могу сказать, что я против бездумного внесения данных в программу. Ученику необходимо осознавать, как вычисляется тот или иной коэффициент. Возможно, кому-то вычисления покажутся сложными, но из опыта работы с учащимися, могу отметить, что ребята с 7 класса с успехом применяют данные методы.
Беда в другом: многие члены конкурсной комиссии, особенно в провинции, с недоверием относятся к формулам. На городской конференции, на секции психологии была свидетелем следующей сцены: член жюри интересовался у учащегося: “Для чего производить вычисления, ведь существуют компьютерные программы?”.
“Это был профессиональный интерес, коллега” - был ответ.
А разве не для того, чтобы у учащегося появился этот интерес мы и работаем?
Библиография:
- Сидоренко Е.В. Методы математической обработки в психологии. Санкт-Петербург. Речь, 2002, стр.211
- Oxford Advanced Learner's Dictionary of Current English, 1982
- Гмурман В.Е., Руководство к решению задач по теории вероятностей и математической статистике, М.: Высшая школа, 2005, стр.201
- Орлова И.В. Экономико-математическое моделирование. М.: Вузовский учебник, 2007, стр.83