Урок 1. Элементы математической статистики
1. Задачи математической статистики
“Статистика знает все” – такими словами начинается вторая часть романа И.Ильфа и Е.Петрова “Двенадцать стульев”. “Известно, сколько какой пищи съедает в год средний гражданин республики… Известно, сколько в стране охотников, балерин… станков, собак всех пород, велосипедов, памятников, девушек, маяков и швейных машинок.
Как много жизни, полной пыла, страстей и мысли, глядит на нас со статистических таблиц!” Зачем нужны эти таблицы, как их составлять и обрабатывать, какие выводы на их основании можно делать – на эти вопросы отвечает статистика (от итальянского stato – государство, латинского status – состояние).
Современную математическую статистику определяют как науку о принятии решений в условиях неопределенности. Можно выделить две основные задачи математической статистики:
- Указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате поставленных экспериментов.
- Разработать методы анализа статистических данных в зависимости от целей исследования. В связи с этим проводится:
- оценка: неизвестной вероятности события, неизвестной функции распределения, параметров распределения, зависимости случайной величины от одной или нескольких случайных величин.
- проверка статистических гипотез о виде неизвестного распределения или о величине параметров распределения.
Итак, задача математической статистики состоит в создании методов сбора и обработки статистических данных для получения научных и практических выводов.
2. Генеральная и выборочная совокупности
Выборочной совокупностью (выборкой) называют совокупность случайно отобранных объектов.
Генеральной совокупностью (ГС) называют совокупность объектов, из которых произведена выборка.
Объем совокупности – число объектов этой совокупности.
Например: из 1000 деталей отбирается 100, тогда Vг.с. = 1000, Vв.с. = 100.
3. Повторная и бесповторная выборки. Репрезентативная выборка
При составлении выборки можно поступать двумя способами: после того, как объект отобран и над ним произведено наблюдение, он может быть возвращен либо не возвращен в генеральную совокупность. В первом случае выборку называют повторной, во втором – бесповторной. Выборка должна правильно представлять пропорции генеральной совокупности – быть репрезентативной (представительной).
4. Способы отбора
Отбор, не требующий расчленения ГС на части: |
Отбор, при котором ГС расчленяется на части: |
простой случайный бесповторный отбор; простой случайный повторный отбор. |
типический отбор; механический отбор; серийный отбор. |
5. Статистическое распределение выборки
1. Пусть в результате проведения некоторого эксперимента была получена выборка х1, х2, х3... хn.
Если все xi различны, то, расположив их в порядке возрастания, получим вариационный ряд.
Пример. Дана выборка: 13, 1, 15, 12, 11, 14, 2, 5, 6, 17, 25, 3, 4, 8, 10. Построить вариационный ряд.
Алгоритм решения:
- Ввести исходные данные в таблицу.
- Произвести сортировку элементов первого столбца по возрастанию.
2. Пусть из ГС извлечена выборка, причем x1 наблюдалось n1 раз,
x2 наблюдалось n2 раз,
……………………….
xk наблюдалось nk раз.
xi называются вариантами, а
последовательность вариант, записанная в
возрастающем порядке – вариационным рядом;
ni называются частотами, причем
ni = n – объем выборки; (1)
wi = – относительные частоты, причем (2)
wi = 1. (3)
Статистическим распределением выборки называют перечень вариант и соответствующих им частот или относительных частот.
3. Как из выборки х1, х2, х3... хn получить ее статистическое распределение (т.е. вычислить частоты)?
Пример 1. Дана выборка 1, 1, 1, 4, 3, 1, 5, 2, 2, 4, 4, 5.
Записать статистическое распределение выборки.
Алгоритм решения:
1. Ввести исходные данные в таблицу.
2. Определить минимальное и максимальное значения признака с помощью функций МИН и МАКС.
3. Составить массив интервалов, в который группируется массив данных, для которых вычисляются частоты (1, 2, 3, 4).
4. Определить частоты, пользуясь статистической функцией ЧАСТОТА (для того, чтобы массив частот был записан в таблицу, нужно выделить определенное количество ячеек, а после вызова функции ЧАСТОТА нажать клавишу F2, а затем Ctrl + Shift + Enter).
5. Таким образом, получим статистическое распределение выборки.
Пример 2. Пусть задано статистическое распределение
i = 1 |
i = 2 |
i = 3 |
|
xi |
2 |
6 |
12 |
ni |
3 |
10 |
7 |
Найти объем выборки (20). Написать статистическое распределение относительных частот.
Алгоритм решения:
1. Ввести исходные данные в таблицу.
2. Найти объем выборки (автосуммирование элементов второй строки).
3. Найти относительные частоты по формуле (2) (в ячейку В4 записать формулу и скопировать ее в ячейки C4 : D4).
4. Произвести контроль по формуле (3).
6. Полигон и гистограмма
Полигоном частот называют ломаную, отрезки которой соединяют точки с координатами (x1, n1), (x2, n2), … (xk, nk).
Рис. 1. Полигон частот
Аналогично строится полигон относительных частот.
Рис. 2. Полигон относительных частот
Пример 1. Построить полигон частот и относительных частот для следующего статистического распределения:
xi |
10 |
11 |
12 |
13 |
14 |
ni |
10 |
7 |
3 |
2 |
1 |
Алгоритм решения:
1. Прежде чем вносить исходные данные в таблицу, заметим, что элементы выборки xi представляют собой арифметическую прогрессию с разностью 1. Поэтому заполнять соответствующую строку таблицы будем по следующему алгоритму: в строке меню выберем закладку Правка? Заполнить? Прогрессия.
2. Вторую строку заполним вручную.
3. Далее заполняем таблицу, пользуясь алгоритмом решения Примера 2.
4. Строим полигон частот с помощью мастера диаграмм:
5. Аналогично строится полигон относительных частот.
В случае непрерывного признака целесообразно строить гистограмму. Для этого интервал, в который заключены все наблюдаемые значения признака, разбивают на несколько частичных интервалов длиной h и находят для каждого частичного интервала ni – сумму частот вариант, попавших в i-й интервал. Гистограммой частот называют ступенчатую фигуру, состоящую из прямоугольников, одна из сторон которых – частичные интервалы длиною h, другая – отношение (плотность частоты). Для построения гистограммы частот по оси абсцисс откладывают частичные интервалы, по оси ординат – плотности частот. Площадь гистограммы частот равна сумме всех частот, т.е. объему выборки. Площадь гистограммы относительных частот равна 1.
Пример. Построить гистограмму частот для статистического распределения:
Частотный интервал |
2 – 5 |
5 – 8 |
8 – 11 |
11 – 14 |
Сумма частот вариант частотного интервала |
9 |
10 |
25 |
6 |
Алгоритм решения:
1. Составим структуру таблицы. Для этого определим исходные данные и результаты.
2. Введем соответствующие формулы в ячейки таблицы и скопируем их.
Гистограмма строится с помощью мастера диаграмм.
Рис. 3. Гистограмма частот
Домашнее задание:
1. Построить статистическое распределение выборки оценок, полученных Вами по математике в течение этого учебного года.
2. Построить полигоны частот и относительных частот данной выборки.
3. Построить гистограмму частот и относительных частот роста учащихся вашего класса (по социологическому опросу; границы признака и частотный интервал определить самостоятельно).
Это один из трех уроков, проводимых по данной теме. В результате изучения темы знания, полученные на уроках информатики, учащиеся применяют при написании выпускной учебно-исследовательской работы. Примером может служить работа Туманова Дмитрия (выпускника 2002 года) “Оценка состояния экосистемы акватории Невской Губы Финского залива у северной оконечности дамбы на основе анализа качественного и количественного состава планктона”, фрагмент которой в виде электронных таблиц представлен в Приложениях (Приложение 1 и Приложение 2). Педагогический коллектив нашего Лицея использует практические навыки учащихся, приобретенные на уроках информатики, при изучении других предметов (биологии, экологии, географии, физики).