Использование методов математической статистики в исследовательской деятельности школьников

Разделы: Общепедагогические технологии


Семь лет занимаясь исследовательской деятельностью со школьниками, как руководитель работ присутствовала на многих конференциях. Должна отметить, что основные методы, применяемые в большинстве исследований это: интервью, анализ опубликованных в сети Интернет, в СМИ, в зарубежной и отечественной литературе материалов, социологическое исследование. Во многих работах исследуется зависимость между случайными величинами и редко, когда проверяется гипотеза о значимости связи. Этим “грешат” не только школьные работы, но и некоторые вузовские, вот какое утверждение я встретила в реферате “Индекс человеческого развития”, студентки ГУ-ВШЭ: “Дольше всего живут там (в тех странах), где хорошо развито здравоохранение. Между этими характеристиками обнаруживается прямая зависимость, или корреляция”. (http://www.macro2004.narod.ru/) Для того, чтобы это утверждать, необходимо выполнить ряд математических вычислений.

Цель данной статьи познакомить с двумя универсальными методами математической статистики Спирмена и Кендалла, и разобрать их применение на конкретных примерах. Изучение этих методов может оказаться полезным юным исследователям, занимающимся вопросами существования зависимости между случайными величинами. Основанием для выбора методов ранговой корреляции служат: их универсальность, простота, широкие возможности в решении задач сравнения индивидуальных или групповых признаков. Отметим, что существует ряд ограничений коэффициента ранговой корреляции: по каждой переменной должно быть представлено не менее 5 наблюдений, верхняя граница выборки определяется имеющимися таблицами критических значений, а именно 40.[1]

Для того, чтобы было понятно применение данных методов широкому кругу читателей, введем основные понятия. Значение термина "корреляции" - взаимная связь.[2] Корреляционная связь - это согласованные изменения двух или большего количества признаков. Коэффициент ранговой корреляции рекомендуется применять в тех случаях, когда необходимо проверить, согласованно ли изменяются признаки у одного и того же объекта. Выборочный коэффициент ранговой корреляции Спирмена[3] находится по формуле: , где d =xi-yi, n– объем выборки, причем |в|1. Объекты располагаются в порядке ухудшения качества по признаку А и В. Ранг хi, равен порядковому номеру объекта по признаку А: xi=i. Объектам признака В, припишем ранг yi, причем индекс i при y равен порядковому номеру объекта А.

Выборочный коэффициент ранговой корреляции Кендалла[4] находится по формуле:

, R=R1+R2+ ……+Rn-1, причем |img4.gif (58 bytes)в|1.

Припишем объектам, обладающих признаками А и В ранги. Допустим, что справа от y1 имеется R1 рангов, больших y1; справа от yn-1 имеется Rn-1 рангов, больших y1n-1. Для обоснования суждения о наличии связи между качественными признаками следует проверить, значим ли выборочный коэффициент ранговой корреляции Спирмена (Кендалла).

Для того, чтобы при уровне значимости r проверить нулевую гипотезу о равенстве нулю коэффициента r Спирмена при конкурирующей гипотезе Н1: r0, надо вычислить критическую точку , где n-объем выборки; в – коэффициент Спирмена; tкр(a,k) – критическая точка двусторонней критической области, которую находят по таблице распределения Стьюдента, по уровню значимости a и числу степеней свободы k=n-2. Если |img3.gif (63 bytes)в|< Ткр – нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если |в|> Ткр – нулевую гипотезу отвергают. Между признаками существует значимая ранговая корреляция.

Для того, чтобы при уровне значимости a проверить нулевую гипотезу о равенстве нулю коэффициента Кендалла при конкурирующей гипотезе Н1: r 0, надо вычислить критическую точку , где n-объем выборки; zкр – критическая точка двусторонней критической области, которую находят по таблице функции Лапласа по равенству Ф(zкр)=(1-a)/2. Если |в|<Ткр – нет оснований отвергнуть нулевую гипотезу. Ранговая корреляционная связь между качественными признаками незначима. Если | в|> Ткр – нулевую гипотезу отвергают. Между признаками существует значимая ранговая корреляционная связь.

Задача 1. Исследование зависимости между ожидаемой продолжительностью жизни и ВВП на душу населения (ППС (паритет покупательной способности) в долл. США). Вычислить коэффициент ранговой корреляции Спирмена. При уровне значимости a=0,01 проверить нулевую гипотезу о равенстве нулю выборочного коэффициента ранговой корреляции Спирмена. Материалы: http://www.un.org/russian/esa/hdr/2006/

Доклад ПРООН о развитии человека 2006 (таблица №1). Выдвигаем гипотезы:

Н0: корреляция между ожидаемой продолжительностью жизни и ВВП не отличается от нуля.

Н1: корреляция между ожидаемой продолжительностью жизни и ВВП отличается от нуля.

Данные оформлены в виде таблицы:

№п/п  Страны Ожидаемая продолжит.жизни в годах Ранг А ВВП на душу населения (ППС в долл. США). Ранг В d =a-b
1 Норвегия 79,6 11,5 38454 4 7,5
2 Исландия 80,9 3 33051 5 -2
3 Австралия 80,5 5 30331 14 -9
4 Ирландия 77,9 23 38827 3 20
5 Швеция 80,3 6 29541 16 -10
6 Канада 80,2 7,5 31263 10 -2,5
7 Япония 82,2 1 29251 18 -17
8 США 77,5 24,5 39676 2 22,5
9 Швейцария 80,7 4 33040 6 -2
10 Нидерланды 78,5 20,5 31789 9 11,5
11 Финляндия 78,7 18 29951 15 3
12 Люксембург 78,6 19 69961 1 18
13 Бельгия 79,1 15 31096 11 4
14 Австрия 79,2 14 32276 7 7
15 Дания 77,3 26,5 31914 8 18,5
16 Франция 79,6 11,5 29300 17 -5,5
17 Италия 80,2 7,5 28180 20 -12,5
18 Великобритания 78,5 20,5 30821 13 7,5
19 Испания 79,7 10 25047 22 -12
20 Новая Зеландия 79,3 13 23413 24 -11
21 Германия 78,9 16,5 28303 19 -2,5
22 Гонконг, Китай 81,8 2 30822 12 -10
23 Израиль 80 9 24382 23 -14
24 Греция 78,3 22 22205 25 -3
25 Сингапур 78,9 16,5 28077 21 -4,5
26 Республика Корея 77,3 26,5 20499 27 -0,5
27 Словения 76,6 28 20939 26 2
28 Португалия 77,5 24,5 19629 28 -3,5

Вычислим img3.gif (63 bytes)в по формуле:

= 1- 6* 3175/(28*783) = 1-19050/21924 =0,131

Найдем критическую точку двусторонней критической области распределения Стьюдента по уровню значимости a=0,01 и числу степеней свободы k=n-2=26

Итак, Ткр=0,54054 img3.gif (63 bytes)в=0,131, так как |img3.gif (63 bytes)в|< Ткр – коэффициент ранговой корреляции Спирмена не отличается от нуля.

Вывод: ранговая корреляционная связь между ожидаемой продолжительностью жизни и ВВП незначимая.

Задача 2. Исследование зависимости между ожидаемой продолжительностью жизни и расходами на здравоохранение на душу населения (ППС в долл. США). Вычислить коэффициент ранговой корреляции Кендалла. При уровне значимости a=0,05 проверить нулевую гипотезу о равенстве нулю выборочного коэффициента ранговой корреляции Кендалла. Материалы: http://www.un.org/russian/esa/hdr/2006/ Доклад ПРООН о развитии человека 2006 (таблица №6). Данные оформлены в виде таблицы:

 №п/п Страны Расходы на здравоохранение на душу населения Ранг А Ожидаемая продолжит.жизни в годах Ранг В Ri
1 США 5711 1 77,5 24,5 3
2 Норвегия 3809 2 79,6 10,5 16
3 Швейцария 3776 3 80,7 3 23
4 Люксембург 3680 4 78,6 19 8
5 Исландия 3110 5 80,9 2 22
6 Германия 3001 6 78,9 15,5 11
7 Канада 2989 7 80,2 6,5 17
8 Нидерланды 2987 8 78,5 20 7
9 Франция 2902 9 79,6 10,5 13
10 Австралия 2874 10 80,5 4 17
11 Бельгия 2828 11 79,1 14 10
12 Дания 2762 12 77,3 26,5 1
13 Швеция 2704 13 80,3 5 14
14 Ирландия 2496 14 77,9 23 3
15 Великобритания 2389 15 78,5 21 4
16 Австрия 2306 16 79,2 13 7
17 Италия 2266 17 80,2 6,5 10
18 Япония 2244 18 82,2 1 10
19 Финляндия 2108 19 78,7 17,5 4
20 Греция 1997 20 78,3 22 3
21 Израиль 1911 21 80 8 7
22 Новая Зеландия 1893 22 79,3 12 5
23 Испания 1853 23 79,7 9 5
24 Португалия 1791 24 77,5 24,5 2
25 Словения 1669 25 76,6 28 0
26 Сингапур 1156 26 78,9 15,5 2
27 Кипр 1143 27 78,7 17,5 1
28 Республика Корея 1074 28 77,3 26,5 0

Сумма рангов R= 225 . Найдем коэффициент ранговой корреляции Кендалла, учитывая, что R= 225 , n=28 Вычислим img3.gif (63 bytes)в по формуле:

=-1=1,1904-1=0,1904

Найдем критическую точку zкр : Ф(zкр)=(1-?)/2=(1-0,05)/2=0,475

По таблице Лапласа находим zкр=1,96. Найдем критическую точку:

0,2624

Итак, Ткр=0,2624 ?в =0,1904 , | ?в |< Ткр

Вывод: ранговая корреляционная связь между ожидаемой продолжительностью жизни и расходами на здравоохранение на душу населения (ППС в долл. США) незначимая. Хотя, казалось бы, что чем больше правительства стран тратят на здравоохранение, тем дольше живет их народ. Как и студенткой ГУ-ВШЭ, использован материал: Доклад ПРООН о развитии человека 2006. Наш пример показывает, что субъективной оценки явно недостаточно, чтобы делать выводы о наличии прямой зависимости. Возможно, ознакомление с данными методами, а затем и их применение в своих работах, убережет юных исследователей и их руководителей от скоропалительных выводов.

Возникает вопрос: в каком же случае следует применять метод ранговой корреляции Спирмена, а в каком Кендалла? Для данных, измеряемых в порядковой шкале, следует использовать коэффициент ранговой корреляции Спирмена, который определяется сравнением рангов – номеров значений сравниваемых переменных в их упорядочении. Особенность метода Кендалла в том, что он годен только для составляющих, содержащих именно монотонный тренд (тренд, или тенденция представляет собой устойчивую закономерность, наблюдаемую в течении длительного периода времени). [4]

Безусловно, существуют программы, например SPSS, вычисляющие коэффициенты ранговой корреляции, но как учитель информатики могу сказать, что я против бездумного внесения данных в программу. Ученику необходимо осознавать, как вычисляется тот или иной коэффициент. Возможно, кому-то вычисления покажутся сложными, но из опыта работы с учащимися, могу отметить, что ребята с 7 класса с успехом применяют данные методы.

Беда в другом: многие члены конкурсной комиссии, особенно в провинции, с недоверием относятся к формулам. На городской конференции, на секции психологии была свидетелем следующей сцены: член жюри интересовался у учащегося: “Для чего производить вычисления, ведь существуют компьютерные программы?”.

“Это был профессиональный интерес, коллега” - был ответ.

А разве не для того, чтобы у учащегося появился этот интерес мы и работаем?

Библиография:

  1. Сидоренко Е.В. Методы математической обработки в психологии. Санкт-Петербург. Речь, 2002, стр.211
  2. Oxford Advanced Learner's Dictionary of Current English, 1982
  3. Гмурман В.Е., Руководство к решению задач по теории вероятностей и математической статистике, М.: Высшая школа, 2005, стр.201
  4. Орлова И.В. Экономико-математическое моделирование. М.: Вузовский учебник, 2007, стр.83