Информация и алфавит

Разделы: Информатика


Тип урока: комбинированный.

Цель и задачи урока:

  • познакомить обучающихся с проблемой распознавания и выделения знака,
  • научить определять количество информации, содержащуюся в знаке,
  • закрепить полученные знания при решении практических задач,
  • развивать познавательный интерес к предмету,
  • воспитывать у школьников информационную культуру, формировать навык самостоятельной работы.

Требования к знаниям и умениям:

Обучающиеся должны знать: способы оценки информации.

Обучающиеся должны уметь: применять свои знания при определении «избыточности текстов».

Обеспечение: мультимедийный комплект, презентация «Информация и алфавит» (Приложение 1).

План

  1. Организационный момент.
  2. Актуализация знаний.
  3. Сообщение нового материала.
  4. Первичное закрепление.
  5. Подведение итогов.

Ход урока

Для органов чувств человека естественной формой представления информации является аналоговая, однако универсальной считают дискретную форму представления информации с помощью некоторого набора знаков. Именно таким образом информация обрабатывается компьютером, передается по компьютерным и иным линиям связи.

Сообщение есть последовательность знаков алфавита (Приложение 1).

При передаче возникает проблема распознавания знака: таким образом прочитать сообщение означает установить исходную последовательность знаков первичного алфавита по полученным сигналам.

В устной речи это достигается использованием различных фонем, по которым и отличаются знаки речи.

В письменности это достигается различным начертанием букв и дальнейшим анализом текста.

На уроке мы попробуем реализовать процедуру, посредством которой из сообщения выделится тот или иной знак.

Появление конкретного знака (буквы) в конкретном месте сообщения – событие случайное. Следовательно, узнавание (отождествление) знака требует получения некоторой порции информации. Эту информацию можно связать с самим знаком и считать, что знак несет в себе некоторое количество информации, которое мы и попробуем оценить.

Начнем с нулевого приближения: предположим, что появление всех знаков (букв) алфавита в сообщении равновероятно. Тогда получим:

– для английского алфавита пe=27 (с учетом пробела)

– для русского алфавита nr= 34.

Воспользуемся формулой Хартли:

I0(e) = log227 = 4,755 бит, I0(r) = log234 = 5,087 бит.

В нулевом приближении со знаком русского алфавита в среднем связано больше информации, чем со знаком английского.

Пример.

В русской букве «а» информации больше, чем в «а» английской.

Следует заметить, что лингвистическое богатство языка определяется количеством слов и их сочетаний, и никак не связано с числом букв в алфавите.

С точки зрения техники это означает, что сообщения из равного количества символов будет иметь разную длину и время передачи, и большими они окажутся у сообщений на русском языке.

В качестве первого приближения, уточняющего исходное, учтем что относительная частота, т.е. вероятность появления различных букв в тексте (или сообщении) различна.

Рассмотрим таблицу средних частот букв для русского алфавита, в который включен также знак «пробел» для разделения слов (из книги А.М. Яглома и И.М. Яглома). В телеграфном кодировании не различают буквы «е» и «ё», «ь» и «ъ», поэтому получим алфавит из 32 знаков со следующими вероятностями их появления в русских текстах:

Таблица

Буква

Пробел

О

Е, Ё

А

И

Т

Н

С

Относительная частота

0,175

0,090

0,072

0,062

0,062

0,053

0,053

0,045


Буква

Р

В

Л

К

М

Д

П

У

Относительная частота

0,040

0,038

0,035

0,028

0,026

0,025

0,023

0,021


Буква

Я

Ы

З

Ь, Ъ

Б

Г

Ч

Й

Относительная частота

0,018

0,016

0,016

0,014

0,014

0,013

0,012

0,010


Буква

Х

Ж

Ю

Ш

Ц

Щ

Э

Ф

Относительная частота

0,009

0,007

0,006

0,006

0,004

0,003

0,003

0,002

Для оценки информации, связанной с выбором одного знака алфавита с учетом неравной вероятности их появления в сообщении воспользуемся формулой:

рис.1

где  рi – вероятность знака алфавита из N знаков, I – среднее количество информации, приходящейся на один знак.

В общем случае информация, которая содержится в сообщении, может зависеть от того, в какой момент времени оно достигает приемника.

Пример.

Несвоевременное сообщение о погоде не несет той же информации, что и своевременное.

Предельным случаем оказывается ситуация, когда вся переносимая сообщением информация определяется временем его поступления.

Пример, бой часов или звонок с урока.

Однако возможно существование сообщений, в которых содержащаяся в них информация не зависит от времени поступления. Такая ситуация реализуется в том случае, если вероятность встретить в сообщении какой-либо знак i не зависит от времени, точнее, она одинакова во все моменты времени и равна относительной частоте этого знака рi во всей последовательности знаков. Поэтому вероятности знаков определяются для сообщений, содержащих большое число символов с тем, чтобы проявились статистические закономерности, и далее считаются неизменными во всех сообщениях данного источника.

Сообщения, в которых вероятность появления каждого отдельного знака не меняется со временем, называются шенноновскими, а порождающий их отправитель – шенноновским источником.

Теория информации строится именно для шенноновских сообщений, поэтому будем считать это исходным положением теории и рассматривать только такие сообщения.

Задание.

Применив формулу Хартли к алфавитам вычислим значение средней информации на знак для:

русского языка (Ответ: I1(r)= 4,36 бит),

английского языка (Ответ:  I1(e)= 4,04 бит),

французского языка (Ответ:  I1(f) = 3,96 бит),

немецкого языка (Ответ:  I1(d) = 4,10 бит),

испанского языка (Ответ:  I1(s)= 3,98 бит).

Сравнивая полученные данные видим, и для русского, и для английского языков учет вероятностей появления букв в сообщениях приводит к уменьшению среднего информационного содержаниябуквы, что подтверждает справедливость формулы Хартли.

Несовпадение значений средней информации для английского, французского и немецкого языков, основанных на одном алфавите, связано с тем, что вероятности появления одинаковых букв в них различны.

Следующими приближениями при оценке значения информации, приходящейся на знак алфавита, должен быть учет корреляций, т.е. связей между буквами в словах. В словах буквы появляются не в любых сочетаниях – это понижает неопределенность угадывания следующей буквы после нескольких.

Пример.

В русском языке нет слов, в которых встречается сочетание щц или фъ.

И напротив, после распространенного сочетания пр– всегда следует гласная буква, а их в русском языке 10 и вероятность угадывания следующей буквы 1/10, а не 1/33.

Как указывается в книге Л. Бриллюэна, учет в английских словах двухбуквенных сочетаний понижает среднюю информацию на знак до значения I2(e) = 3,32 бит, учет трехбуквенных – до I3(e) = 3,10 бит. Шеннон сумел приблизительно оценить I5(e) ≈ 2,1 бит и I8(e) = 1,9 бит.

Аналогичные исследования для русского языка дают: I2(r) = 3,52 бит; I3(r) = 3,01 бит.

Последовательность I0, I1, I2... является убывающей в любом языке. Экстраполируя ее на учет бесконечного числа корреляций, можно оценить предельную информацию на знак в данном языке I, которая будет отражать минимальную неопределенность, связанную с выбором знака алфавита без учета семантических особенностей языка, в то время как I0 является другим предельным случаем, поскольку характеризует наибольшую информацию, которая может содержаться в знаке данного алфавита.

Шеннон ввел величину, которую назвал относительной избыточностью языка:

R = 1 - (I/I0).

Избыточность является мерой бесполезно совершаемых альтернативных выборов при чтении текста. Эта величина показывает, какую долю лишней информации содержат тексты данного языка.

Исследования Шеннона для английского языка дали значение I≈ 1,4÷1,5 бит, что по отношению к I0 = 4,755 бит создает избыточность около 0,68. Подобные оценки показывают, что и для других европейских языков, в том числе русского, избыточность составляет от 60% до 70%. Это означает, что в принципе возможно почти трехкратное сокращение текстов без ущерба для их содержательной стороны и выразительности.

Пример.

Телеграфные тексты делаются короче за счет отбрасывания союзов и предлогов без ущерба для смысла; в них же используются однозначно интерпретируемые сокращения «ЗПТ» и «ТЧК» вместо полных слов (эти сокращения приходится использовать, поскольку знаки «.» и «,» не входят в телеграфный алфавит). Однако такое «экономичное» представление слов снижает разборчивость языка, уменьшает возможность понимания речи при наличии шума (одна из проблем передачи информации по реальным линиям связи), также исключает возможность локализации и исправления ошибки при ее возникновении. Именно избыточность языка позволяет легко восстановить текст, даже если он содержит большое число ошибок или неполон. В этом смысле избыточность есть определенная гарантия разборчивости.

В качестве домашнего задания обучающимся предлагается решить задачи  по индивидуальным карточкам (вариантам) и ответить на вопросы:

  1. Почему количество информации на знак алфавита выражается нецелым числом?
  2. Дайте определение  «шенноновское сообщение».
  3. Почему используется «избыточный» язык?
  4. Сравните избыточность литературного и делового текста (по карточкам).

Подведение итогов урока.

На сегодняшнем уроке мы познакомились со знаменитой формулой Клода Шеннона, вспомнили формулу Хартли, научились определять количество информации, которую несет в себе знак.

Литература:

  1. Старченко Б.Е. Теоретические основы информатики: Учебное пособие для вузов. – 2-е изд. перераб. и доп. – М.: Горячая линия – Телеком, 2003. – 321 с.; ил.
  2. http://ru.wikipedia.org/wiki/Английский_алфавит
  3. http://ru.wikipedia.org/wiki/Французский_алфавит