Алло, робот! - читать бесплатно онлайн полную версию книги автора Александр Михайлович Кондратов (СКОЛЬКО НУЖНО СЛОВ) #58

СКОЛЬКО НУЖНО СЛОВ

«Наука только тогда достигает совершенства, когда ей удается пользоваться математикой», — сказал Карл Маркс в беседе с Полем Лафаргом. Числа нужны лингвистике, чтобы поставить науку о языке на уровень физики, астрономии и других точных наук. Не менее они нужны и практике. Прежде всего для машинного перевода.

В первом опыте машинного перевода словарь состоял из 250 слов. Это, конечно, мало для перевода книг. А сколько же слов не мало? Тысяча? 5 тысяч? 100 тысяч?

В любом языке мира, какой бы скудной ни была его лексика, — несколько тысяч слов. В русском, английском, японском и других языках — сотни тысяч слов. Правила словообразования позволяют создавать новые слова. Например, слово «стушеваться» ввел в обиход писатель Ф. М. Достоевский. Можно привести еще множество подобных примеров «сочиненных» слов. Впрочем, не совсем «сочиненных»: ведь корень «туш» есть в нашем языке и его-то Достоевский не придумывал. Он взял известный корень и образовал из него по правилам русского языка новое слово. Иногда бывает и так, что слово целиком «выдумывается». Например, английский писатель-сатирик Джонатан Свифт придумал слово «лилипут». Таких придуманных слов очень мало. Однако и этот путь словотворчества в принципе возможен. Поэтому мы можем смело сказать, что словарный запас языка поистине неисчерпаем.

Однако в нашей житейской практике мы пользуемся лишь незначительной частью всех слов. Даже в произведениях великих писателей, где лексика богаче, чем в обыденной речи, можно насчитать 5-10 тысяч разных слов, не более. Какой же необходимый запас слов помещать в «память» машины?

Помогает все та же статистика. С ее помощью составляются «частотные словари». По ним можно судить, какое слово употребительное, какое редкое и как редко или часто встречается оно в языке.

Методика составления этих словарей проста. Берется достаточно длинный текст (или несколько текстов). Затем подсчитывается, сколько раз встретилось в нем то или иное слово. Раньше эта процедура отнимала месяцы и годы. С помощью счетчиков-машин время, затрачиваемое на подсчеты, резко сократилось.

Но вот частотный словарь составлен. Длинный список, в котором либо в алфавитном порядке, либо по «популярности» идут слова и рядом — числа, показывающие, сколько раз встречаются эти слова в тексте.

Например, в «Капитанской дочке» А. С. Пушкина, состоящей из 29 тысяч слов, союз «и» употребляется более тысячи раз, предлог «в», второй по «популярности», 724 раза, и т. д. (заметим в скобках, что этот частотный словарь был составлен машиной).

Что же делать с этим списком дальше? Предположим, что 200 слов встречаются от 30 раз и более, 500 слов — более 10 раз, 2 тысячи слов — менее 5 раз. Ясно, что самые частые слова следует включить в словарь для машины, а редкие нужно устранить.

Но как определить границы? До каких пор считать слово частым, а до каких — редким? Отбросить слова, которые попадаются 5 раз и реже? А почему не отбросить слова, употребляющиеся менее 10 раз? Или, наоборот, включить в словарь для машинного перевода все слова, за исключением лишь тех, которые встречаются только 1 раз? Как найти правильные показатели?

Для ответа на этот вопрос нужно учесть так называемую «текстообразовательную способность» слов. 736 самых употребительных, самых частых английских слов, как установили подсчеты, занимают 75 процентов текста на английском языке.

1000 самых частых слов английского языка позволяют «покрыть» 80,5 процента английского, 83,5 процента французского, 81 процент испанского языков. Выучив эти слова или вложив их в «память» машины, мы можем знать 8 из 10 слов текста!

8 из 10! А если взять 2 тысячи самых частых слов? Может, мы будем тогда знать почти все слова? Оказывается, что такое удвоение позволяет не намного увеличить наше знание. Только 86 процентов текста «покроют» эти слова.

Ну, а 3 тысячи самых частых слов? Результат также не утешителен — около 90 процентов, 5 тысяч слов дадут возможность «покрыть» 93,5 процента текста, а десять тысяч — 96,4 процента. Слишком маленький коэффициент полезного действия при увеличении списка. Вероятно, целесообразно остановиться на первой тысяче самых частых слов, в крайнем случае на 5 тысячах слов, так чтобы из 100 слов только 6 были бы неизвестны.

В настоящее время преподаватели иностранных языков начинают использовать эти данные статистики, чтобы разумно составлять словари-минимумы. С помощью чисел можно ясно увидеть, какой запас слов надо давать ученикам на первой неделе занятий, на первом году обучения и т. д. Помогают эти числа и при составлении «машинных словарей», словарей для автоматического перевода.