Происхождение языка и закон Зипфа


Происхождение языка отделено от нас завесой веков и заглянуть за нее науке, видимо, никогда не удастся.

Поэтому споры о том, как возник язык, будут, надо думать, продолжаться вечно.

Острые умы будут придумывать все новые и новые гипотезы, а популяризаторы науки — все новые и новые способы доносить их до широких читательских масс.

На нынешний день таких гипотез предложено уже несколько.

Одни говорят, что язык произошел из жестов, другие — из призывных и остерегающих возгласов, третьи — из примитивных ритмических напевов, четвертые — из щелканья и так далее и так далее. Вы и сами можете на досуге поупражняться в таких догадках, разве что вам не так легко будет подкрепить их фактическим материалом, как то в ходу у ученых.


Обо всем этом говорено уже не раз, в том числе и на этих страницах, и потому сегодня мы не будем множить сущности без надобности, а, взяв быка за хвост и смело глянув ему в глаза, спросим: как произошло становление языка? Одну из гипотез на сей счет предложили недавно барселонские ученые Канчо и Соле. Она резко порывает с тем, что обычно думают по данному вопросу. Обычно поданному вопросу думают, что становление языка происходило постепенно. А Канчо и Соле думают иначе. Вот ход их размышлений.

Самый точный, "однозначный" язык, говорят барселонские авторы, должен был бы иметь по одному слову на каждое понятие, каждую вещь или каждое действие. Это был бы идеальный язык, но число слов в нем было бы огромно. Подумайте сами — сколько оттенков есть у каждого цвета, сколько нюансов у каждого действия, сколькими тончайшими признаками отличается одна вещь от другой "такой же"?! Идеальным такой язык был бы разве что для слушателя, но говорящему пришлось бы прилагать колоссальные усилия, каждый раз выискивая единственное точное слово из миллионов.

Для говорящего выгоднее был бы язык противоположного типа — состоящий из немногих слов, даже отдельных простых звуков, каждый из которых мог бы одновременно выполнять много разных функций. А в идеале он бы, наверно, предпочел говорить на языке, состоящем из одного-единственного звука, который означал бы все, что потребуется впредь. (Примерно так говорят наши младенцы — кряхтят или вопят, выражая этим всю гамму своих эмоций и пожеланий.) Иными словами, соображения экономии сил толкают говорящего и слушателя в противоположные стороны: одному подай язык из минимального количества разных слов, другому — из максимального. А все потому, что говорящий знает, что он хочет сообщить, его задача — выразить это словами, и его интерес — как это сделать, затратив как можно меньше усилий. А задача слушателя — понять сказанное, и его интересует, как это сделать, тоже приложив как можно меньше усилий.

Интересы у каждого, как видим, разные, но принцип, из которого они исходят — одинаковый: в науке он издавна называется принципом наименьшего действия. То же самое можно выразить и иначе: при пользовании языком сталкиваются "силы, толкающие к однообразию", и "силы, толкающие к многообразию". Легко понять, что язык, формируясь под давлением этих разнонаправленных сил, обретает в результате признаки компромисса, некой "равнодействующей".

Наши барселонцы придумали, как выразить эти конфликтные предпочтения говорящего и слушающего на языке математики — так, чтобы пользование языком (усилия, необходимые для языкового общения) было максимально выгодным (и минимально невыгодным) обеим сторонам. И эта математика показала, что при постепенном переходе от одной крайности к другой, то есть от языка, состоящего из одного слова, к языку, состоящему из мириада слов, имеет место любопытное явление — при каком-то определенном количестве слов в языке и определенных частотах появления тех или иных слов затраты на общение резко уменьшаются. Человеческие языки имеют как раз такие частоты для различных слов, которые соответствуют этому пику "взаимовыгодности". По обе стороны от этого пика свойства языка таковы, что кому-то невыгодно им пользоваться.

А поскольку каждому общающемуся приходится быть то слушателем, то говорящим, то невыгодно становится всем. И такой язык попросту не возникает. "Языки, промежуточные между сигнальными жестами животных и современными человеческими языками, попросту не могли существовать", — к такому радикальному выводу приходят барселонские авторы.


Говорящий знает, что он хочет сообщить, его задача — выразить это словами, и его интерес — как это сделать, затратив как можно меньше усилий.


Иными словами, язык формировался не постепенно, не путем медленного накопления все новых слов, а каким-то иным, более похожим на взрыв, путем. Каким в точности — на этот вопрос Канчо и Соле не отвечают. Тем более, не можем ответить и мы. То есть, мы, конечно, можем напомнить, что дети, бывает, не говорят лет до 3-4, чем страшно пугают родителей, а потом вдруг открывают рот и оказывается, что он у них полон слов, правильных и разных. Но дети растут в уже существующей языковой среде, а вот представить себе их в роли наших древних предков как-то затруднительно.

Однако вот что любопытно (и отчасти подтверждает, что в гипотезе Канчо-Соле есть рациональное зерно) — что в этом своем математическом анализе свойств воображаемого языка испанские исследователи наткнулись на вполне ощутимое свойство языков реальных, современных. Как мы уже мельком отметили, то ("самое взаимовыгодное") распределение частоты употребления разных слов, которое они нашли в результате математических расчетов, действительно характерно для многих существующих человеческих языков. В лингвистике оно называется "степенным законом", или еще — "законом Зипфа". Мало кто, кроме узких специалистов, знают об этом законе, наверняка еще меньше — о его авторе, поэтому тут будет уместно сделать небольшое отступление и сказать о нем несколько слов. Тем более, что это любопытная история сама по себе.

Джордж Кингсли Зипф прожил короткую жизнь: 1902-1950. Он был лингвистом и филологом и 20 лет преподавал немецкий язык в Гарвардском университете, параллельно увлекаясь китайским. Как пишет о нем знаменитый математик Бенуа Мандельброт, Зипф называл себя "специалистом по статистической социальной экологии". Он искал общие законы социологии, прилагая физические идеи и статистические методы к социальным явлениям, и был убежден, что все эти явления определяются двумя противоборствующими силами — выше мы назвали их "силой, толкающей к однообразию", и "силой, толкающей к многообразию", (это как раз были термины Зипфа), а результат такого противоборства диктуется принципом наименьшего действия. Свои идеи Зипф изложил в книге, которую так и назвал: "Человеческое поведение и принцип наименьшего действия" и которую издал незадолго до смерти, кажется, на собственные деньги.

Мандельброт так пишет об этой книге: "То было одно из тех сочинений, в которых проблески гениальности, вспыхивающие в самих разных направлениях, почти заслоняются кучей совершенно взбалмошных и экстравагантных идей. С одной стороны, автор обсуждает форму половых органов с точки зрения экономии затрат и оправдывает включение (аншлюс) Австрии в нацистскую Германию тем, что это улучшает приложимость некой математической формулы. С другой стороны, он наполняет страницы графиками и таблицами, которые неутомимо бьют в одну и ту же точку, доказывая, что социальная статистика лучше всего объясняется одними и теми же степенными законами. Физики и астрономы легко могут узнать в этих формулах Зипфа некоторые хорошо известные им законы своих наук. Поэтому им трудно будет понять, чем было продиктовано то яростное сопротивление, с которым было встречено применение Зипфом тех же законов к наукам социальным".

А вот как лауреат Нобелевской премии физик Гелл-Манн объясняет простейший закон Зипфа: "Положим, мы откроем статистический справочник и найдем там список крупнейших городов США, расположенных по порядку убывания населения, причем каждому городу будет приписан его "ранг": 1 — для самого большого, 2 — для следующего и так далее. Существует ли какой-нибудь общий закон, показывающий, как убывает население города по мере увеличения его "ранга"? Грубо говоря, да. С достаточной точностью население города обратно пропорционально его "рангу": если население первого принять за единицу, то население второго будет 1/2, третьего — 1/3 и так далее.

Глянем теперь на список крупнейших фирм, расположенных в порядке убывания их оборота. Существует ли здесь какой-либо приблизительный закон, связывающий объем оборота с "рангом" фирмы? Да, и это тот же закон, что для населения: оборот фирмы обратно пропорционален ее рангу. А как насчет экспорта из данной страны в порядке его убывания? Оказывается, и тут ситуация хорошо описывается тем же законом. Тогда отложим в сторону статистический справочник и возьмем в руки руководство по кодам, в котором имеется список самых распространенных английских слов в порядке убывания частоты их встречаемости в произвольном английском тексте. Мы опять увидим тот же закон обратной пропорциональности — он так же хорошо работает в языке, причем не только в английском".

Это последнее применение степенного закона — к языку — как раз и имеют чаше всего в виду, когда говорят о "законе Зипфа". На графике он изображается известной школьной кривой — гиперболой. Эта кривая отражает тот общепонятный факт, что некоторые немногие английские слова (в первую очередь — the, of, to, a, and, in, that, for, was, with, his, is) встречаются очень часто, подавляющее большинство слов встречаются со средней частотой и есть небольшое количество слов (очень длинных, вроде эллочкиного "эксгибиционизм"), которые встречаются очень редко.

Что гораздо менее очевидно — это то, что если расположить слова по частоте встречаемости (что и будет их "рангом"), то частота встречаемости слова с рангом п будет 1/п. Таково математическое выражение того же закона, и именно эту особенность нашли Канчо и Соле. Поэтому множество слов, появившееся из их компьютера, как Афина из головы Зевса, действительно заслуживает звания "языка".

Вообще, все, что является осмысленным языком, скорее всего, должно подчиняться закону Зипфа: например, известный современный исследователь Руссо вместе со своими китайскими коллегами показал применимость этого закона к языку "мандарин"; существуют работы, доказывающие его применимость к польскому и чешскому; русские исследователи подтвердили его применимость к "великому и могучему", который оказался таким же не "свободным" от закономерностей, как его иноязычные коллеги (в русском языке первую по рангу дюжину образуют слова: "и", "в", "не", "на", "что", "я", "с", "мы", "у", "он", "по", "было"). Из всего этого следует, что при встрече с каким-то закодированным текстом простейший способ выяснить, осмысленный это текст или просто набор случайно поставленных значков, — проверить частотность знаков текста на закон Зипфа.

Итак, все, что язык, подчиняется этому закону, — но обратное не верно: не всякое множество, в котором выполняется закон Зипфа, — это язык. Дело в том, что открытие Зипфа имело массу продолжений в самых неожиданных направлениях, и, например, уже в наше время показано, что то же (обратно пропорциональное) соотношение между частотой и рангом выполняется при поиске сайтов в интернете (число запросов для второго по популярности сайта вдвое меньше числа запросов для первого и т.д.), в области цитирования научных трудов, по отношению к запросу самых ходовых книг в публичной библиотеке и во многих других неожиданных областях социальной деятельности людей.

Но закон выполняется с отклонениями, порой даже значительными, и анализ этих отклонений привел уже упомянутого Бенуа Мандельброта к открытию чего-то вроде "обобщенного закона Зипфа". Мандельброт показал, что формула Зипфа будет лучше согласовываться с реальными данными, если внести в нее два исправления: частота обратно пропорциональна не просто "рангу", а "рангу" плюс некоторая постоянная, причем для одних явлений это будет "ранг" плюс постоянная в первой степени, как у самого Зифпа, для других — "ранг" плюс постоянная в квадрате или в кубе, или в степени ? и так далее. А развивая это направление исследований, Мандельброт, в конечном счете, пришел к одному из самых громких открытий второй половины двадцатого века — к открытию так называемых фракталов, еще более, быть может, вездесущих в природе, нежели закон Зипфа.

Вот такая история.


Андрей Никонов

Загрузка...