Тип урока: комбинированный.
Цель и задачи урока:
- познакомить обучающихся с проблемой распознавания и выделения знака,
- научить определять количество информации, содержащуюся в знаке,
- закрепить полученные знания при решении практических задач,
- развивать познавательный интерес к предмету,
- воспитывать у школьников информационную культуру, формировать навык самостоятельной работы.
Требования к знаниям и умениям:
Обучающиеся должны знать: способы оценки информации.
Обучающиеся должны уметь: применять свои знания при определении «избыточности текстов».
Обеспечение: мультимедийный комплект, презентация «Информация и алфавит» (Приложение 1).
План
- Организационный момент.
- Актуализация знаний.
- Сообщение нового материала.
- Первичное закрепление.
- Подведение итогов.
Ход урока
Для органов чувств человека естественной формой представления информации является аналоговая, однако универсальной считают дискретную форму представления информации с помощью некоторого набора знаков. Именно таким образом информация обрабатывается компьютером, передается по компьютерным и иным линиям связи.
Сообщение есть последовательность знаков алфавита (Приложение 1).
При передаче возникает проблема распознавания знака: таким образом прочитать сообщение означает установить исходную последовательность знаков первичного алфавита по полученным сигналам.
В устной речи это достигается использованием различных фонем, по которым и отличаются знаки речи.
В письменности это достигается различным начертанием букв и дальнейшим анализом текста.
На уроке мы попробуем реализовать процедуру, посредством которой из сообщения выделится тот или иной знак.
Появление конкретного знака (буквы) в конкретном месте сообщения – событие случайное. Следовательно, узнавание (отождествление) знака требует получения некоторой порции информации. Эту информацию можно связать с самим знаком и считать, что знак несет в себе некоторое количество информации, которое мы и попробуем оценить.
Начнем с нулевого приближения: предположим, что появление всех знаков (букв) алфавита в сообщении равновероятно. Тогда получим:
– для английского алфавита пe=27 (с учетом пробела)
– для русского алфавита nr= 34.
Воспользуемся формулой Хартли:
I0(e) = log227 = 4,755 бит, I0(r) = log234 = 5,087 бит.
В нулевом приближении со знаком русского алфавита в среднем связано больше информации, чем со знаком английского.
Пример.
В русской букве «а» информации больше, чем в «а» английской.
Следует заметить, что лингвистическое богатство языка определяется количеством слов и их сочетаний, и никак не связано с числом букв в алфавите.
С точки зрения техники это означает, что сообщения из равного количества символов будет иметь разную длину и время передачи, и большими они окажутся у сообщений на русском языке.
В качестве первого приближения, уточняющего исходное, учтем что относительная частота, т.е. вероятность появления различных букв в тексте (или сообщении) различна.
Рассмотрим таблицу средних частот букв для русского алфавита, в который включен также знак «пробел» для разделения слов (из книги А.М. Яглома и И.М. Яглома). В телеграфном кодировании не различают буквы «е» и «ё», «ь» и «ъ», поэтому получим алфавит из 32 знаков со следующими вероятностями их появления в русских текстах:
Таблица
Буква |
Пробел |
О |
Е, Ё |
А |
И |
Т |
Н |
С |
Относительная частота |
0,175 |
0,090 |
0,072 |
0,062 |
0,062 |
0,053 |
0,053 |
0,045 |
Буква |
Р |
В |
Л |
К |
М |
Д |
П |
У |
Относительная частота |
0,040 |
0,038 |
0,035 |
0,028 |
0,026 |
0,025 |
0,023 |
0,021 |
Буква |
Я |
Ы |
З |
Ь, Ъ |
Б |
Г |
Ч |
Й |
Относительная частота |
0,018 |
0,016 |
0,016 |
0,014 |
0,014 |
0,013 |
0,012 |
0,010 |
Буква |
Х |
Ж |
Ю |
Ш |
Ц |
Щ |
Э |
Ф |
Относительная частота |
0,009 |
0,007 |
0,006 |
0,006 |
0,004 |
0,003 |
0,003 |
0,002 |
Для оценки информации, связанной с выбором одного знака алфавита с учетом неравной вероятности их появления в сообщении воспользуемся формулой:
где рi – вероятность знака алфавита из N знаков, I – среднее количество информации, приходящейся на один знак.
В общем случае информация, которая содержится в сообщении, может зависеть от того, в какой момент времени оно достигает приемника.
Пример.
Несвоевременное сообщение о погоде не несет той же информации, что и своевременное.
Предельным случаем оказывается ситуация, когда вся переносимая сообщением информация определяется временем его поступления.
Пример, бой часов или звонок с урока.
Однако возможно существование сообщений, в которых содержащаяся в них информация не зависит от времени поступления. Такая ситуация реализуется в том случае, если вероятность встретить в сообщении какой-либо знак i не зависит от времени, точнее, она одинакова во все моменты времени и равна относительной частоте этого знака рi во всей последовательности знаков. Поэтому вероятности знаков определяются для сообщений, содержащих большое число символов с тем, чтобы проявились статистические закономерности, и далее считаются неизменными во всех сообщениях данного источника.
Сообщения, в которых вероятность появления каждого отдельного знака не меняется со временем, называются шенноновскими, а порождающий их отправитель – шенноновским источником.
Теория информации строится именно для шенноновских сообщений, поэтому будем считать это исходным положением теории и рассматривать только такие сообщения.
Задание.
Применив формулу Хартли к алфавитам вычислим значение средней информации на знак для:
русского языка (Ответ: I1(r)= 4,36 бит),
английского языка (Ответ: I1(e)= 4,04 бит),
французского языка (Ответ: I1(f) = 3,96 бит),
немецкого языка (Ответ: I1(d) = 4,10 бит),
испанского языка (Ответ: I1(s)= 3,98 бит).
Сравнивая полученные данные видим, и для русского, и для английского языков учет вероятностей появления букв в сообщениях приводит к уменьшению среднего информационного содержаниябуквы, что подтверждает справедливость формулы Хартли.
Несовпадение значений средней информации для английского, французского и немецкого языков, основанных на одном алфавите, связано с тем, что вероятности появления одинаковых букв в них различны.
Следующими приближениями при оценке значения информации, приходящейся на знак алфавита, должен быть учет корреляций, т.е. связей между буквами в словах. В словах буквы появляются не в любых сочетаниях – это понижает неопределенность угадывания следующей буквы после нескольких.
Пример.
В русском языке нет слов, в которых встречается сочетание щц или фъ.
И напротив, после распространенного сочетания пр– всегда следует гласная буква, а их в русском языке 10 и вероятность угадывания следующей буквы 1/10, а не 1/33.
Как указывается в книге Л. Бриллюэна, учет в английских словах двухбуквенных сочетаний понижает среднюю информацию на знак до значения I2(e) = 3,32 бит, учет трехбуквенных – до I3(e) = 3,10 бит. Шеннон сумел приблизительно оценить I5(e) ≈ 2,1 бит и I8(e) = 1,9 бит.
Аналогичные исследования для русского языка дают: I2(r) = 3,52 бит; I3(r) = 3,01 бит.
Последовательность I0, I1, I2... является убывающей в любом языке. Экстраполируя ее на учет бесконечного числа корреляций, можно оценить предельную информацию на знак в данном языке I∞, которая будет отражать минимальную неопределенность, связанную с выбором знака алфавита без учета семантических особенностей языка, в то время как I0 является другим предельным случаем, поскольку характеризует наибольшую информацию, которая может содержаться в знаке данного алфавита.
Шеннон ввел величину, которую назвал относительной избыточностью языка:
R = 1 - (I∞/I0).
Избыточность является мерой бесполезно совершаемых альтернативных выборов при чтении текста. Эта величина показывает, какую долю лишней информации содержат тексты данного языка.
Исследования Шеннона для английского языка дали значение I∞≈ 1,4÷1,5 бит, что по отношению к I0 = 4,755 бит создает избыточность около 0,68. Подобные оценки показывают, что и для других европейских языков, в том числе русского, избыточность составляет от 60% до 70%. Это означает, что в принципе возможно почти трехкратное сокращение текстов без ущерба для их содержательной стороны и выразительности.
Пример.
Телеграфные тексты делаются короче за счет отбрасывания союзов и предлогов без ущерба для смысла; в них же используются однозначно интерпретируемые сокращения «ЗПТ» и «ТЧК» вместо полных слов (эти сокращения приходится использовать, поскольку знаки «.» и «,» не входят в телеграфный алфавит). Однако такое «экономичное» представление слов снижает разборчивость языка, уменьшает возможность понимания речи при наличии шума (одна из проблем передачи информации по реальным линиям связи), также исключает возможность локализации и исправления ошибки при ее возникновении. Именно избыточность языка позволяет легко восстановить текст, даже если он содержит большое число ошибок или неполон. В этом смысле избыточность есть определенная гарантия разборчивости.
В качестве домашнего задания обучающимся предлагается решить задачи по индивидуальным карточкам (вариантам) и ответить на вопросы:
- Почему количество информации на знак алфавита выражается нецелым числом?
- Дайте определение «шенноновское сообщение».
- Почему используется «избыточный» язык?
- Сравните избыточность литературного и делового текста (по карточкам).
Подведение итогов урока.
На сегодняшнем уроке мы познакомились со знаменитой формулой Клода Шеннона, вспомнили формулу Хартли, научились определять количество информации, которую несет в себе знак.
Литература:
- Старченко Б.Е. Теоретические основы информатики: Учебное пособие для вузов. – 2-е изд. перераб. и доп. – М.: Горячая линия – Телеком, 2003. – 321 с.; ил.
- http://ru.wikipedia.org/wiki/Английский_алфавит
- http://ru.wikipedia.org/wiki/Французский_алфавит