«Некоторые люди думают, что они всегда правы. Такие люди не могли бы ни быть хорошими учёными, ни иметь какой – либо интерес к статистике… Случай был с неба спущен на землю, где он стал частью мира науки». (Дайменд С.)
«Случай - только мера нашего невежества. Случайными явлениями, если дать им определение, будут те, законов которых мы не знаем». (А. Пуанкаре «Наука и гипотеза»)
«Слава случаю. Разве не случай
С непреложным всегда наравне…
Случай часто событием правит,
Порождает и радость, и боль.
И задачу пред нами жизнь ставит:
Как постигнуть случайности роль»
(из книги Б.А. Кордемского «Математика изучает случайности»)
Сам мир закономерен – так мы часто считаем и изучаем законы физики, химии и т.д., и всё же ничто не происходит без вмешательства случайности, возникающей под воздействием непостоянных, побочных причинных связей, изменяющих ход явления или опыта при его повторении. Создаётся «эффект случайности» с присущей закономерностью «скрытой предопределённости», т.е. у случайности появляется необходимость закономерного исхода.
Математики случайные события рассматривают лишь в дилемме « быть или не быть» - наступит или не наступит.
Определение. Раздел прикладной математики, в котором исследуются количественные характеристики массовых случайных событий или явлений, называется математической статистикой.
Определение. Соединение элементов теории вероятностей и математической статистики называют стохастикой.
Определение. Стохастика - это тот раздел математики, который возник и развивается в тесной связи с практической деятельностью человека. Сегодня элементы стохастики входят в математику для всех, становятся новым, важным аспектом математического и общего образования.
Определение. Математическая статистика – наука о математических методах систематизации, обработки и использовании статистических данных для научных и практических выводов.
Поговорим об этом подробнее.
Общепринятой сейчас является точка зрения на математическую статистику как на науку об общих способах обработки результатов эксперимента. Решая эти проблемы, каким должен обладать эксперимент, чтобы сделанные на его основании суждения были правильными. Математическая статистика отчасти становится наукой о планировании эксперимента.
Значение слова «статистика» за последние два столетия претерпело значительные изменения, - пишут известные современные учёные Ходжес и Леман, - слово «статистика» имеет один корень со словом «государство» (state) и первоначально означало искусство и науку управления: первые преподаватели статистики университетов Германии 18-го века сегодня назывались бы специалистами по общественным наукам. Поскольку решения правительства до некоторой степени основываются на данных о населении, промышленности и т.д. статистики, естественно, стали интересоваться и такими данными, и постепенно слово «статистика» стало означать сбор данных о населении, о государстве, а затем вообще сбор и обработку данных. Нет смысла извлекать данные, если из этого не извлекается какая-то польза, и статистики, естественно, начинают заниматься интерпретацией данных.
Современный статистик изучает методы, при помощи которых можно сделать выводы о популяции на основе данных, которые обычно получают из выборки «популяции».
Определение. Статистик – человек, который занимается наукой о математических методах систематизации, обработке и использования статистических данных для научных и практических выводов.
Математическая статистика возникла в 17 веке и развивалась параллельно с теорией вероятностей. Дальнейшее развитие математической статистики (вторая половина 19 начало 20-ых веков) обязано в первую очередь, П.Л. Чебышеву, А.А. Маркову, А.М. Ляпунову, К. Гауссу, А. Кетле, Ф.Гальтону, К Пирсону, и др. В 20 –ом наиболее существенный вклад в математическую статистику был сделан А.Н. Колмогоровым, В.И. Романовским, Е.Е. Слуцким, Н.В. Смирновым, Б.В. Гнеденко, а также английскими Стъюдентом, Р. Фишером, Э. Пурсоном и американскими (Ю. Нейман, А Вальд) учёными.
Задачи математической статистики и значение ошибки в мире науки
Установление закономерностей, которым подчинены массовые случайные явления, основаны на изучении методами теории вероятностей статистических данных результатов наблюдений.
Первая задача математической статистики – указать способы сбора и группировки статистических сведений, полученных в результате наблюдений или в результате специально поставленных экспериментов.
Вторая задача математической статистики – разработать методы анализа статистических данных в зависимости от целей исследования.
Современная математическая статистика разрабатывает способы определения числа необходимых испытаний до начала исследования (планирования эксперимента), в ходе исследования (последовательный анализ). Её можно определить как науку о принятии решений в условии неопределённости.
Кратко, можно сказать, задача математической статистики состоит в создании методов сбора и обработки статистических данных.
При изучении массового случайного явления предполагается, что все испытания производятся при одинаковых условиях, т.е. группа основных факторов, поддающихся учёту (измерению) и оказывающих существенное влияние на результат испытания, сохраняет по возможности одинаковые значения.
Случайные факторы искажают результат, который получился бы при наличии только основных факторов, делают его случайным. Отклонение результата каждого испытания от истинного называется ошибкой наблюдения, которая представляет собой случайную величину. Необходимо различать систематические ошибки и случайные.
Научный эксперимент немыслим без ошибки как океан, без соли. Любой поток фактов, пополняющий наше знание, приносит какую-то ошибку. Согласно известной поговорке в жизни у большинства людей ни в чём нельзя быть уверенным, кроме смерти и налогов, а учёный добавляет: “И ошибок опыта”.
Статистик- это “ищейка”, которая охотится за ошибкой. Статистика инструмент для обнаружения ошибки.
Слово “ошибка” не означает простой “просчёт”. Последствия просчёта – это небольшой и сравнительно неинтересный источник ошибки эксперимента.
Действительно, наши инструменты ломаются; наши глаза и уши могут обмануть нас; наши измерения никогда не бывают совершенно точными, иногда даже наши арифметические подсчёты бывают ошибочными. Ошибка эксперимента есть нечто более существенное, чем неточная рулетка или обман зрения. И так как важнейшее дело статистики помочь учёным проанализировать ошибку эксперимента, то мы должны попытаться понять, что же такое ошибка в действительности.
Над какой бы проблемой учёный не работал, она, безусловно, окажется более сложной, чем ему бы хотелось. Предположим, он измеряет выпадение радиоактивных осадков в разных широтах. Результаты будут зависеть от высоты над уровнем моря тех мест, где собраны образцы, от количества местных осадков и от высотных циклонов на более широких пространствах.
Экспериментальная ошибка - это неотъемлемая часть всякого подлинно научного опыта.
Один и тот же результат может быть ошибкой и информацией в зависимости от проблемы и точки зрения. Если биолог желает исследовать, как изменение в питании влияют на рост, то наличие родственной конституции являются источником ошибки; если же он изучает зависимость между наследственностью и ростом, источником ошибки будут различия в питании. Если физик хочет исследовать зависимость между электропроводностью и температурой, различия в плотности, служащего проводником материала, являются источником ошибки; если же он изучает зависимость между этой плотностью и электропроводностью, температурные изменения будут источником ошибки.
Это употребление слова ошибка может показаться сомнительным, и, возможно, предпочтительным было бы сказать, что полученные эффекты искажены “непредполагаемыми” или “нежелательными” воздействиями. Мы планируем эксперимент для изучения известных влияний, но случайные факторы, которые мы не в состоянии предвидеть или проанализировать, искажают результаты, добавляя к ним свои собственные эффекты.
Различия между запланированными эффектами и эффектами, обусловленными случайными причинами, подобно различию между движениями судна в море, плывущего по определённому курсу, и судна, дрейфующего бесцельно по воле изменчивых ветров и течений. Движение второго судна можно назвать движением случайным. Не исключено, что это судно может прийти в какой - либо порт, но более вероятно, что оно, ни в какое определённое место не придёт.
Статистики употребляют слово “случайный” для обозначения явления, исход которого в предстоящий момент времени совершенно невозможно предсказать.
Ошибка, обусловленная предусмотренными в опыте эффектами, бывает иногда скорее систематической, нежели случайной.
Систематическая ошибка вводит в заблуждение больше, чем случайная. Помехи, идущие от другой радиостанции, могут создать систематический музыкальный аккомпанемент, который вы иногда можете предсказать, если вы знаете мелодию. Но этот “аккомпанемент” может быть причиной того, что мы можем составить неправильное суждение о словах или о музыке программы, которую мы пытаемся услышать.
Однако обнаружение систематической ошибки часто наводит нас на след нового открытия. Знания, каким образом появляются случайные ошибки, помогают нам обнаружить систематические ошибки и, следовательно, исключить их.
Тот же характер рассуждений обычен и в наших житейских делах. Как часто мы замечаем: “Это не случайность!”. Всякий раз, когда мы можем это сказать – мы находимся на пути к открытию.
Например, А.Л. Чижевский, анализируя исторические процессы: увеличение смертности, эпидемии, начала войн, великие перемещения народов, резкие изменения климата и т.д. открыл зависимость между этими, не связанными между собой процессами и периодами солнечной активности, которые имеют циклы: 11 лет, 33 года.
Определение. Под систематической ошибкой понимается ошибка, повторяющаяся и одинаковая для всех испытаний. Она обычно связана с неправильным ведением эксперимента.
Определение. Под случайными ошибками понимаются ошибки, возникающие под влиянием случайных факторов и меняющихся случайным образом от опыта к опыту.
Обычно распределение случайных ошибок симметрично относительно нуля, откуда вытекает важный вывод: при отсутствии систематических ошибок истинный результат испытаний есть математическое ожидание случайной величины, конкретное значение которой фиксируется в каждом испытании.
Объектами изучения в математической статистике могут быть качественные или количественные признаки изучаемого явления или процесса.
В случае качественного признака подсчитывается число появлений этого признака в рассматриваемой серии опытов; это число и представляет собой изучаемую (дискретную) случайную величину. Примерами качественных признаков могут служить дефекты на готовой детали, демографические данные и т.д. Если признак является количественным, то в опыте производится прямое или косвенное измерения путём сравнения с некоторым эталоном - единицей измерения – с помощью различных измерительных приборов. Например, если имеется партия деталей, то качественным признаком может служить стандартность детали, а количественным – контролируемый размер детали.
Основные определения
Значительная часть математической статистики связана с необходимостью описать большую совокупность объектов.
Определение. Всю совокупность объектов, подлежащих изучению, называют генеральной совокупностью.
Генеральной совокупностью могут быть всё население страны, месячная продукция завода, популяция рыб, живущих в данном водоёме и т.д.
Но генеральная совокупность - это не просто множество. Если интересующая нас совокупность объектов слишком многочисленна, или объекты труднодоступны, или имеются другие причины, не позволяющие изучить все объекты, прибегают к изучению какой-то части объектов.
Определение. Та часть объектов, которая попала на проверку, исследование и т.п., называется выборочной совокупностью или просто выборкой.
Определение. Число элементов в генеральной совокупности и выборке называется их объёмами.
Как добиться, чтобы выборка наилучшим образом представляло целое, т.е. была бы репрезентативной?
Если целое, т.е. если генеральная совокупность нам мало известна или совсем неизвестна, не удаётся предложить ничего лучшего, чем чисто случайный выбор. Большая осведомлённость позволяет действовать лучше, но всё равно на некоторой стадии наступает незнание и, как результат – случайный выбор.
Но как осуществить чисто случайный выбор? Как правило, отбор идёт по легко наблюдаемым признакам, ради изучения которого ведётся исследование.
Нарушение же принципов случайного выбора приводило к серьезным ошибкам. Стал знаменитым своей неудачей опрос, проведённый американским журналом “Литературное обозрение” относительно исхода президентских выборов в 1936 году. Кандидатами на этих выборах были Ф.Д. Рузвельт и А.М. Ландон.
Кто победил?
В качестве генеральной совокупности редакция использовала телефонные книги. Отобрав случайно 4 миллиона адресов, она разослала открытки с вопросами об отношении к кандидатам в президенты по всей стране. Затратив большую сумму на рассылки и обработку открыток, журнал объявил, что на предстоящих выборах в президенты с большим перевесом победит Ландон. Результат выборов оказался противоположенным этому прогнозу.
Здесь были совершенны сразу две ошибки. Во-первых, телефонные книги не дают репрезентативную выборку из населения США – в основном зажиточные главы семейств. Во-вторых, прислали ответы не все люди, а в значительной части представители делового мира, которые и поддерживали Ландона.
В то же время социологи Дж. Гэллан и Э. Уорнер правильно предсказали победу Ф.Д. Рузвельта, основываясь только на четырёх тысячах анкетах. Причиной этого успеха было не только правильное составление выборки. Они учли, что общество распадается на социальные группы, которые более однородны по отношению к кандидатам в президенты. Поэтому выборка из слоя может быть относительно малочисленной с тем же результатом точности. Победил в итоге Рузвельт, который был сторонником реформ для менее богатых слоёв населения.
Имея результаты обследования по слоям, можно характеризовать общество в целом.
Что представляют собой выборки?
Это ряды чисел.
Более подробно остановимся на основных понятиях, характеризующих ряд выборки.
Из генеральной совокупности извлечена выборка объёмом n> n1, где n1 – столько раз наблюдалось появление x1, n 2 - x2 и т.д.
Наблюдаемые значения хi называют вариантами, а последовательность вариантов, записанных в возрастающем порядке - вариационным рядом. Числа наблюдений ni называют частотами и ni/n - относительными частотами (или частостями).
Определение. Различные значения случайной величины называются вариантами.
Определение. Вариационным рядом называется ряд, расположенный в порядке возрастания (или убывания) вариантов с соответствующими им частотами (частостями).
При изучении вариационных рядов наряду с понятиями частоты используется понятие накопленной частоты. Накопленные частоты (частости) для каждого интервала находятся последовательным суммированием частот всех предшествующих интервалов.
Определение. Накопление частот или частостей называют кумуляцией. Кумулировать можно частоты вариант и интервалов.
Характеристики ряда могут быть количественные и качественные.
Количественные (вариационные) характеристики – это характеристики, которые можно выразить числами. Их подразделяются на дискретные и непрерывные.
Качественные (атрибутивные) характеристики – это характеристики, которые не выражаются числами.
Непрерывные переменные – это переменные, которые выражаются действительными числами.
Дискретные переменные – это переменные, которые выражаются только целыми числами.
Выборки характеризуются центральными тенденциями: средним значением, модой и медианой. Средним значением выборки называют среднее арифметическое всех её значений. Мода выборки – те её значения, которые встречаются чаще всего. Медиана выборки – это число, “разделяющее” пополам упорядоченную совокупность всех значений выборки.
Вариационный ряд может быть дискретным или непрерывным.
Задача
Дана выборка: 1,3; 1,8; 1,2; 3,0; 2,1; 5; 2,4; 1,2; 3,2;1,2; 4; 2,4.
Это ряд вариантов. Расположив эти варианты в возрастающем порядке, мы получим вариационный ряд: 1,2; 1,2; 1,2; 1,3; 1,8; 2,1; 2,4; 2,4; 3,0; 3,2; 4; 5.
Среднее значение этого ряда равно 2,4.
Медиана ряда 2,25.
Мода ряда –1,2.
Дадим определения этим понятиям.
Определение. Медианой вариационного ряда называется то значение случайной величины, которое приходится на средину вариационного ряда (Ме).
Медианой упорядоченного ряда чисел с нечетным числом членов называется число, записанное посередине, а медианой упорядоченного ряда чисел с четным числом членов называется среднее арифметическое двух чисел, записанных посередине. Медианой произвольного ряда чисел называется медиана соответствующего упорядоченного ряда.
Определение. Модой вариационного ряда называют вариант (значение случайной величины), которому соответствует наибольшая частота (Мо), т.е. которая встречается чаще других.
Определение. Среднеарифметическим значением вариационного ряда называется результат деления суммы значений статистической переменной на число этих значений, то есть на число слагаемых.
Правило нахождения среднеарифметического значения выборки:
- каждую варианту умножить на её частоту (кратность);
- сложить все полученные произведения;
- поделить найденную сумму на сумму всех частот.
Определение. Размахом ряда называется разность между R=xmax -xmin, т.е. наибольшим и наименьшим значениями этих вариантов.
Проверим, правильно ли мы нашли среднее значение этого ряда, медиану и моду, опираясь на определения.
Сосчитали число членов, их 12 - чётное число членов, значит надо найти среднее арифметическое двух чисел записанных посередине, то есть 6 и 7-ой варианты. (2,1+2,4)\2=2.25 – медиана.
Мода. Модой является 1.2, т.к. только это число встречается 3 раза, а остальные встречаются меньше, чем 3 раза.
Среднеарифметическое значение находим так:
(1,2*3+1,3+1,8+2,1+2,4*2+3,0+3,2 +4+5)\12=2,4
Составим таблицу
xi |
1,2 |
1,3 |
1,8 |
2,1 |
2,4 |
3,0 |
3,2 |
4 |
5 |
ni |
3 |
1 |
1 |
1 |
2 |
1 |
1 |
1 |
1 |
ni/n |
3/12=1/4 |
1/12 |
1/12 |
1/12 |
2/12 |
1/12 |
1/12 |
1/12 |
1/12 |
Такие таблицы называют частотными. В них числа второй строки – частоты; они показывают, как часто встречаются в выборке те или другие её значения.
Определение. Относительной частотой значений выборки называют отношение её частоты к числу всех значений выборки.
Относительные частоты иначе называют частостями. Частоты и частости называют весами. Найдём размах ряда: R=5-1,2=3,8; Размах ряда равен 3,8.
Информация к размышлению
Среднее арифметическое – это условная величина. Реально она не существует. Реально существует общая сумма. Поэтому среднее арифметическое не есть характеристика одного наблюдения; она характеризует ряд в целом.
Среднее значение можно трактовать как центр рассеивания значений наблюдаемого признака, т.е. значения, около которого колеблются все наблюдаемые значения, причём алгебраическая сумма отклонений от среднего, всегда равна нулю, т.е. сумма отклонений от среднего в большую или меньшую сторону равны между собой.
Среднее арифметическое является абстрактной (обобщающей) величиной. Даже при задании ряда только из натуральных чисел, среднее значение может выражаться дробным числом. Пример: средний балл контрольной работы 3,81.
Среднее значение находится не только для однородных величин. Средняя урожайность зерновых по всей стране (кукуруза-50-60 ц. с га. и гречиха-по5-6 ц. с га, рожь, пшеница и т.д.), среднее потребление продуктов питания, средняя величина национального дохода на душу населения, средний показатель обеспеченности жильём, средний взвешенный показатель стоимости жилья, средняя трудоёмкость возведения здания и т.д. – это характеристики государства как единой народнохозяйственной системы, это так называемые системные средние.
В статистике широкое применение находят такие характеристики, как мода и медиана. Их называют структурными средними, т.к. значения этих характеристик определяются общей структурой ряда данных.
Иногда ряд может иметь две моды, иногда ряд может не иметь моды.
Мода является наиболее приемлемым показателем при выявлении расфасовки некоторого товара, которой отдают предпочтение покупатели; цены на товар данного вида, распространённый на рынке; как размер обуви, одежды, пользующийся наибольшим спросом; вид спорта, которым предпочитают заниматься большинство населения страны, города, посёлка школы и т.д.
В строительстве существует 8 вариантов плит по ширине, и более часто применяются 3 вида:1 м. 1,2 м. и 1,5 м. По длине 33 варианта плит, но чаще других применяются плиты длиной 4,8 м.; 5,7 м. и 6,0 м., мода на плиты чаще всего встречается среди этих 3-х размеров. Аналогично можно рассуждать и с марками окон.
Моду ряда данных находят тогда, когда хотят выявить некоторый типичный показатель.
Мода может быть выражена числом и словами, с точки зрения статистики мода – это экстремум частоты.
Медиана позволяет учитывать информацию о ряде данных, которую даёт среднее арифметическое и наоборот.