Алло, робот! - читать бесплатно онлайн полную версию книги автора Александр Михайлович Кондратов (ТОЛЬКО ЛИ СТАТИСТИКА!) #59

ТОЛЬКО ЛИ СТАТИСТИКА!

Когда говорят о математической лингвистике, обычно представляются числа. Числа, отражающие законы языка. Но на самом деле это не совсем так, ибо математика изучает не только числа.

Мы уже не раз говорили о статистике. Это неудивительно. Она играет очень важную роль в науке XX века. И ядерная физика, и биология, и антропология, и многие, многие другие науки о природе й человеке используют ее. Статистические методы применяются и в языкознании, и в изучении законов стихосложения.

Но, прежде чем начать подсчеты, всегда необходимо знать, что считать, какие элементы, какие единицы подлежат учету и подсчету. Вспомните о частотных словарях. Одним из первых, кто занялся их составлением, был известный американский статистик Удни Юл. В свободное время он увлекался средневековой литературой, написанной по-латыни. Филологи спорили, кто написал одно из любимых произведений Юла. И математику пришла в голову любопытная мысль: а что, если решить этот вопрос с помощью статистики?

Юл попытался сделать это… В результате появилась объемистая монография, посвященная вопросам языковой статистики. Примерно в то же время, в 40-х годах нашего столетия, статистическими законами языка занялся другой видный американский ученый — языковед Г. К. Ципф. И он пришел к несколько иным результатам, чем его коллега Удни Юл!

В чем же дело? Ведь законы статистики одни? Но… разгадка состоит в том, что, подсчитывая частоту слов — основу анализа, — они, по существу, исследовали разные явления, ибо под словом — единицей счета — подразумевались разные вещи. Юл считал словом то, что мы называем основой слова. Например, слова «стол», «стола», «столу», «столом» он считал одним словом.

Ципф же считал отдельным словом не только основу, но и все производные от нее словоформы. «Стол», «столу», «стола» и т. д. были для него разными словами.

При анализе пушкинской строки «глухой глухого звал на суд судьи глухого» Юл констатировал бы, что слово «глухой» встретилось три раза. А Ципф записал бы: слово «глухой» встретилось один раз и слово «глухого» два раза. Метод Ципфа был более удачен. На основании его был сформулирован так называемый «закон Ципфа», вызвавший первоначально удивление и сомнение, а затем восхищение лингвистов.

Математически он выглядит так:

Объясняется эта формула следующим образом. Подсчитайте на большом материале, сколько раз встречается то или иное слово. Запишите затем все частоты слов в список в порядке убывания частот: первым поставьте самое «популярное» слово, вторым — следующее за ним по частоте, и т. д., пока на последнем месте не окажется самое редкое слово. Список занумеруйте. И затем, если вы перемножите частоту слова на номер этого слова в списке (р на s), то получите постоянную величину!

И первое, и десятое слова, и любое другое слово в списке, номер которого будет умножен на частоту этого слова, даст одну и ту же величину! Этот закон приложим к любому языку, любому тексту (за исключением поэтических, как выяснилось позднее).

Чем объясняется эта удивительная особенность нашего языка? Французский ученый Мандельброт объяснил «закон Ципфа» с помощью теории информации, заодно несколько уточнив его. Этот закон «отвечает стремлению к оптимальному распределению информации среди имеющихся в языке слов, с тем чтобы полностью использовать возможности данного кода», — писал он.