Подходы к измерению информации. Единицы измерения количества информации

29. Подходы к измерению информации. Ед-цы измер-я кол-ва инфо.

Понятие информация явл-ся одним из фундаментальных в совр.науке вообще и базовым для изучаемой нами инф-ки. В простейшем бытовом понимании с термином «информация» обычно ассоциируются некоторые сведения, данные, знания и т.п. Информация передается в виде сообщений, определяющих форму и представление передаваемой инфо. Примерами сообщений явл-ся музыкальное произведение; телепередача; команды регулировщика на перекрестке; текст, распечатанный на принтере; данные, полученные в результате работы составленной вами программы и т.д. При этом предполагается, что имеются «источник информации» и «получатель информации».

Сообщение от источника к получателю передается посредством какой-нибудь среды, являющейся в таком случае «каналом связи» Так, при передаче речевого сообщения в кач-ве такого канала связи можно рассм-вать воздух, в котором распростр-ся звуковые волны, а в случае передачи письменного сообщения (например, текста, распечатанного на принтере) каналом сообщения можно считать лист бумаги, на котором напечатан текст.

Человеку свойственно субъективное восприятие инфо через некоторый набор ее свойств: важность, достоверность, своевременность, доступность и т.д. В этом смысле одно и то же сообщение, передаваемое от источника к получателю, может передавать информацию в разной степени. Так, например, вы хотите сообщить о неисправности компа. Для инженера из группы тех.обслуживания сообщение «комп сломался» явно содержит больше инфо, чем для вахтера. Но, в свою очередь, для инженера сообщение «не включается дисплей» содержит инфы больше, чем первое, поскольку в большей степени снимает неопределенность, связанную с причиной неисправности компа. Как видно, одно и то же сообщение для различных пользователей несет различную инфу.

Использование терминов «больше информации» или «меньше информации» подразумевает некую возможность ее измерения (или хотя бы количественного соотнесения).

Определить пон-е «кол-во информации» довольно сложно. В решении этой проблемы существуют два основных подхода. Исторически они возникли почти одновременно. В конце 40-х годов XX века один из основоположников кибернетики американский математик Клод Шеннон развил вероятностный подход к измерению количества информации, а работы по созданию ЭВМ привели к «объемному» подходу.

Вероятностный подход

Рассм. в кач-ве примера опыт, связанный с бросанием правильной игральной .кости, имеющей N граней (наиболее распространенным является случай шестигранной кости: N = 6). Рез-ты данного опыта могут быть следующие: выпадение грани с одним из следующих знаков: 1,2,...N.

Введем в рассмотрение численную величину, измеряющую неопределенность -энтропию (обозначим ее Н). Величины N и Н связаны между собой некоторой функциональной зависимостью:

H = f (N), (1.1)

а сама ф-я f явл-ся возрастающей, неотрицательной и определенной (в рассматриваемом нами примере) для N = 1, 2,... 6.

Рассм.процедуру бросания кости более подробно:

1) готовимся бросить кость; исход опыта неизвестен, т.е. имеется некоторая неопределенность; обозначим ее H1;

2) кость брошена; информация об исходе данного опыта получена; обозначим кол-во этой информации через I;

3) обозначим неопределенность данного опыта после его осуществления через H2. За кол-во информации, которое получено в ходе осуществления опыта, примем разность неопределенностей «до» и «после» опыта:

I = H1 - H2 (1.2)

Очевидно, что в случае, когда получен конкретный рез-тат, имевшаяся неопред-ть снята (Н2 = 0), и, таким образом, кол-во полученной информации совпадает с первоначальной энтропией. Иначе говоря, неопред-ть, заключенная в опыте, совпадает с информацией об исходе этого опыта. Заметим, что значение Н2 могло быть и не равным нулю, например, в случае, когда в ходе опыта следующей выпала грань со значением, большим «З».

Следующим важным моментом является определение вида функции f в формуле (1.1). Если варьировать число граней N и число бросаний кости (обозначим эту величину через М), общее число исходов (векторов длины М, состоящих из знаков 1,2,.... N) будет равно N в степени М:

X=NM. (1.3)

Так, в случае двух бросаний кости с шестью гранями имеем: Х = 62 = 36. Фактически каждый исход Х есть некоторая пара (X1, X2), где X1 и X2 - соответственно исходы первого и второго бросаний (общее число таких пар - X).

Ситуацию с бросанием М раз кости можно рассматривать как некую сложную систему, состоящую из независимых друг от друга подсистем - «однократных бросаний кости». Энтропия такой системы в М раз больше, чем энтропия одной системы (так называемый «принцип аддитивности энтропии»):

f(6M) = M ∙ f(6)

Данную формулу можно распространить и на случай любого N:

F(NM) = M ∙ f(N)(1.4)

Прологарифмируем левую и правую части формулы (1.3): ln X = M ∙ ln N, М = ln X/1n M. Подставляем полученное для M значение в формулу (1.4):

Обозначив через К положительную константу , получим: f(X) = К ∙ lп Х, или, с учетом (1.1), H=K ∙ ln N. Обычно принимают К = 1 / ln 2. Таким образом

H = log2 N. (1.5)

Это - формула Хартли.

Важным при введение какой-либо величины является вопрос о том, что принимать за единицу ее измерения. Очевидно, Н будет равно единице при N = 2. Иначе говоря, в качестве единицы принимается кол-во информации, связанное с проведением опыта, состоящего в получении одного из двух равновероятных исходов (примером такого опыта может служить бросание монеты при котором возможны два исхода: «орел», «решка»). Такая единица количества информации называется «бит».

Все N исходов рассмотренного выше опыта являются равновероятными и поэтому можно считать, что на «долю» каждого исхода приходится одна N-я часть общей неопределенности опыта: (log2 N)1N. При этом вероятность i-го исхода Рi равняется, очевидно, 1/N.

2

Таким образом,

Та же формула (1.6) принимается за меру энтропии в случае, когда вероятности различных исходов опыта неравновероятны (т.е. Рi могут быть различны). Формула (1.6) называется формулой Шеннона.

В качестве примера определим количество информации, связанное с появлением каждого символа в сообщениях, записанных на русском языке. Будем считать, что русский алфавит состоит из 33 букв и знака «пробел» для разделения слов. По формуле (1.5)

Н = log2 34 ≈ 5 бит.

Однако, в словах русского языка (равно как и в словах других языков) различные буквы встречаются неодинаково часто. Ниже приведена табл. 1.3 вероятностей частоты употребления различных знаков русского алфавита, полученная на основе анализа очень больших по объему текстов.

Воспользуемся для подсчета Н формулой (1.6); Н ≈ 4,72 бит. Полученное значение Н, как и можно было предположить, меньше вычисленного ранее. Величина Н, вычисляемая по формуле (1.5), является максимальным количеством информации, которое могло бы приходиться на один знак.

Рассм. алфавит, состоящий из двух знаков 0 и 1. Если считать, что со знаками 0 и 1 в двоичном алфавите связаны одинаковые вероятности их появления (Р(0) = Р(1) = 0,5), то количество информации на один знак при двоичном кодировании будет равно H = 1оg2 2 = 1 бит.

Т.о. кол-во информации (в битах), заключенное в двоичном слове, равно числу двоичных знаков в нем.

Объемный подход

В двоичной системе счисления знаки 0 и 1 будем называть битами (от английского выражения Binary digiTs - двоичные цифры). Отметим, что создатели компьютеров отдают предпочтение именно двоичной системе счисления потому, что в техническом устройстве наиболее просто реализовать два противоположных физических состояния: некоторый физический элемент, имеющий два различных состояния: намагниченность в двух противоположных направлениях; прибор, пропускающий или нет электрический ток; конденсатор, заряженный или незаряженный и т.п. В компьютере бит является наименьшей возможной единицей информации. Объем информации, записанной двоичными знаками в памяти компьютера или на внешнем носителе информации подсчитывается просто по количеству требуемых для такой записи двоичных символов. При этом, в частности, невозможно нецелое число битов (в отличие от вероятностного подхода).

Для удобства использования введены и более крупные, чем бит, единицы количества информации. Так, двоичное слово из восьми знаков содержит один, байт информации, 1024 байта образуют килобайт (кбайт), 1024 килобайта - мегабайт (Мбайт), а 1024 мегабайта - гигабайт (Гбайт).

Между вероятностным и объемным количеством информации соотношение неоднозначное. Далеко не всякий текст, записанный двоичными символами, допускает измерение объема информации в кибернетическом смысле, но заведомо допускает его в объемном. Далее, если некоторое сообщение допускает измеримость количества информации в обоих смыслах, то они не обязательно совпадают, при этом кибернетическое количество информации не может быть больше объемного.

3

← Предыдущая
Страница 1
Следующая →

Понятие информация является одним из фундаментальных в современной науке вообще и базовым для изучаемой нами информатики. Вероятностный подход. Формула Хартли. Формула Шеннона. Объемный подход.

У нас самая большая информационная база в рунете, поэтому Вы всегда можете найти походите запросы

Искать ещё по теме...

Похожие материалы:

Державне регулювання процесів ціноутворення

Загальні питання регулювання цін. Законодавче регулювання процесів ціноутворення в Україні. Регулювання цін у промислово розвинутих країнах.

Направления моделирования искусственного интеллекта. Подходы к построению систем: логический, структурный, эволюционный, имитационный

Искусственный интеллект ИИ обычно трактуется как свойство автоматических систем брать на себя отдельные функции мыслительной способности человека. Искусственный интеллект реализуется с использованием четырех подходов

Ситуационная задача по хирургии. Вариант №16

Ответы к задаче по хирургии. Ответ на вопрос. Какой рентген признак кишечной непроходимости изображен на данной рентгенограмме? Повреждение типа Галеацци. Врожденный пилоростеноз. Клиника. Диагностика. Лечение. Ангина при скарлатине

Методы расчета, основанные на свойствах линейных цепей

Особенности составления матричных уравнений при наличии индуктивных связей и ветвей с идеальными источниками. Метод эквивалентного генератора. Пассивные четырехполюсники. Электрические фильтры.

Разработка рекомендаций по развитию рационального управления движением персонала в организации

Цель курсового проекта заключается в разработке рекомендаций по развитию рационального управления движением персонала в организации.

Сохранить?

Пропустить...

Введите код

Ok