БИТЫ И БУКВЫ

В русском языке 33 буквы. Двоичный логарифм числа 33 равен 5,04439.

Значит, одна буква русского языка несет примерно 5,04 бита информации.

Буквы «е» и «ё» обычно принято считать одной буквой. В одну букву можно объединить твердый и мягкий знаки. А промежуток между словами, «пробел», наоборот, можно причислить к буквам. В итоге — 32 буквы, 32 кодовых знака.

Двоичный логарифм 32 равен 5. Значит, 5 бит информации несла бы буква, если бы все буквы нашего языка одинаково часто встречались в словах. Однако это далеко не так.

Средняя длина русского слова 5-6 букв. Значит, пробел, разделяющий слова, будет встречаться очень часто. Было подсчитано, что в тексте из 1000 букв пробел встречается в среднем 175 раз.

Зато буква «х» в тексте из 1000 букв будет встречаться 9 раз, «ш» и «ю» — по 6 раз, «щ» и «э» — по 3 раза, «ц» — 4 раза, «ф» — 2 раза. Чаще же всего после «нулевой буквы» — пробела, будет встречаться буква «о» — 90 раз, затем «е» вместе с «ё» — 72 раза, буквы «а» и «и» — по 62 раза каждая.

Из-за того, что буквы языка «неравноправны», одни встречаются очень часто, другие — редко, третьи — очень редко, информация, которую несет одна буква нашего языка, уменьшается с 5 бит до 4,35.

Но ведь с различной частотой встречаются и различные сочетания букв.

Например, «ж» или «и» в сочетании с буквой «ы» в грамотно написанном тексте не встретится ни разу, какой бы длинный отрезок его мы ни брали. Недаром мы учим: «жи», «ши» пиши через «и».

Точно так же не встретим мы сочетания трех букв «и» или четырех «е» (да и три буквы «е» подряд имеются лишь в очень немногих русских словах — «длинношеее», «змееед»).

Число русских слов ограниченно, хотя и очень велико. Не каждое сочетание букв образует слово. Математики даже подсчитали, что только две десятитысячных процента сочетаний букв образуют русские слова. Из миллиона сочетаний только два пригодны быть словами!

Кроме того, не всякие сочетания русских слов могут образовывать текст. Во-первых, они должны подчиняться правилам грамматики. Нельзя говорить «мы пошел лес в» или «я буду купил марки иностранную». А во-вторых, и это самое важное, речь должна быть осмысленной.

Передача смысла — главная цель человеческого общения.

А какой может быть смысл в фразе, хотя и соблюдающей правила грамматики, вроде «тщеславие яблока сомневалось в безумном разуме стула»?

Если бы наша речь была беспорядочным набором букв вроде ъбьроапришенгтраствстькаепр, одна буква русского языка несла бы 5 бит информации. Осмысленная же речь сокращает это количество в пять раз. Как показали опыты, буква русского языка несет не пять, а всего лишь 1 бит информации.

Загрузка...