На «корпус» впереди

Корпусная лингвистика - невероятно быстро развивающаяся сейчас область языкознания. Она стала значимой на рубеже 80–90-х годов XX века, а к настоящему моменту буквально преобразила лингвистику. Эти наработки могут быть полезны и учителю на уроке.


Как словарь, и даже важнее

Современная лингвистика, утверждая что-либо об устройстве языка, стремится проверить, что происходит в реальных текстах, причём с достаточно представительной статистикой. Теперь это стало возможно, ведь создан Национальный корпус русского языка (НКРЯ www.ruscorpora.ru). Объём Основного корпуса около 230 миллионов слов, что соответствует примерно 2000 довольно толстых романов, т.е., скажем, восьми немаленьким шкафам, тесно набитым книгами.

Конечно, совокупность текстов интернета или любая их часть – тоже корпус и исследование языка с помощью поисковой системы – также корпусное исследование. Но корпусы, созданные лингвистами, отличаются от "естественных" очень многим. В них есть самые разные способы поиска, продуманные с точки зрения нужд лингвистики или обучения; в них сразу доступна информация об источнике каждого примера, о времени его создания; в них легко разобраться со статистикой, с объёмом исследуемых текстов; они дают возможность ограничить базу текстами определённого типа – конкретного временного периода, жанра или автора и др. Например, попробуем проанализировать статистику форм носков и чулков через Яндекс или Google. Тексты будут всё время повторяться («копипаст» на языке блогеров), в авторстве и датировке придётся долго разбираться отдельно для каждого случая. И догадайтесь – «кто» будет мешать лингвистическому анализу больше всего? Разнообразные Носковы и Чулковы! А в НКРЯ они не помеха, так как можно задать запрос: «Форма чулков , но не с заглавной буквы».


Один из лучших в мире

Национальный корпус русского языка – это общедоступный сайт, созданный в 2003 году группой учёных из Института русского языка имени В.В. Виноградова при поддержке Яндекса, предназначенный для научных исследований и обучения языку. Термин «национальный» соответствует международной лингвистической традиции: так принято называть корпус, в котором данный язык представлен исчерпывающим образом. Сейчас практически для всех языков с развитой лингвистикой созданы Национальные корпусы. Образцом для многих послужил Британский (BNC), также очень известен Чешский. Наш русский НКРЯ заметно младше этих корпусов, но, вне сомнений, один из лучших – если не лучший – в мире.

Итак, НКРЯ – это огромное собрание текстов самых разных жанров, по которым осуществляется специализированный поиск. НКРЯ состоит из многих корпусов, главный из которых – Основной. В нём объединены художественные произведения, публицистика XX–XXI веков, научная литература, официально-деловые тексты, тексты бытовых жанров. В выборе жанров важна сбалансированность, ведь полученная на основе корпуса статистика должна отражать реальный язык. Это значит, что если в XVIII веке в языке преобладали религиозные тексты, то так же будет и в Корпусе для текстов этого периода. В XIX веке придётся соблюдать баланс между огромным количеством художественных текстов и меньшим – публицистических, эпистолярных и научных. В XX веке будут преобладать тексты СМИ, а также научные и деловые; ближе к XXI появятся интернет-тексты, вплоть до ЖЖ, и, например, реклама. Решение о составе текстов за конкретный период – очень непростая научная задача.

Кроме Основного, в НКРЯ есть десять других корпусов. Мой любимый – Поэтический, в нём планируется собрать всю значимую русскоязычную поэзию. Здесь можно искать по особенностям рифмы, строки, строфики, клаузулы и др. Есть Параллельный корпус, предназначенный для сопоставления русского языка с иностранными. Специально для школы создан Обучающий корпус. В нём предусмотрена грамматическая разметка, соответствующая школьной программе, и адаптированный состав текстов. Например, я только что изучила с его помощью школьную классификацию наречий по значениям. Оказалось, что на весь русский язык всего четыре наречия «цели» (назло, бесцельно, чего, зачем) , тогда как «причины» побольше (недаром, поневоле, невольно, неспроста, незачем, почему, потому, поэтому, что и др.) .


Ориентация на узус

Согласно корпусной лингвистике, любое утверждение о языке должно быть проверено на очень большом – статистически релевантном – наборе текстов. И если раньше лингвистика была ориентирована на абстрактную официальную норму, то сейчас кажется гораздо более интересным изучение того, что происходит в языке на самом деле. Наш язык – живой организм, и за последние тридцать лет он заметно изменился, поэтому сейчас многие кодифицирующие положения нуждаются в проверке. Корпусное изучение узуса, то есть речевых обыкновений носителей языка, того, как мы все говорим и пишем, должно служить для подтверждения или корректировки традиционных положений. Так, для класть / ложить исследование показывает, что норма по-прежнему очень жёсткая. Но вот правило о том, что сказуемое при местоимении кто должно быть в единственном числе ( все, кто пришёл , но никогда не все, кто пришли ), корпусной проверки не выдерживает и, видимо, после всестороннего изучения, будет переформулировано.

Мой ученик как-то спросил: «Что положено знать про носки и чулки ? Правда ли, что у них разные окончания?» В ответ на первый вопрос предлагаю мнемоническое правило: «То, что короче, удлиняем окончанием - ов , то, что длиннее, укорачиваем нулевым». А вот второй вопрос сложнее: я не знаю, «правда ли» это, не знаю, эта норма жива или устарела. Что ж, придётся взять отсрочку и разобраться. Грамматический словарь А.А. Зализняка и толковый Малый академический согласны с традицией. Но вот неожиданный результат: орфоэпический словарь под редакцией А.Н. Аванесова для носок подтверждает вариативность, считает форму с нулевым окончанием не менее правильной, чем традиционная. Основные источники разошлись во мнениях, и поэтому необходимо получить более достоверную информацию.

Начинаю поиск в Газетном корпусе НКРЯ (объём 170 миллионов слов, тексты 2001–2010 годов), чтобы разобраться в интуиции «усреднённого» носителя языка с высшим образованием. Язык печатных СМИ одновременно и достаточно свободен, и стремится соответствовать норме, что поддерживается работой корректоров и редакторов. Вот результат: форма носок встречается 165 раз, носков – 236, чулок – 167, чулков – 3 (не считая двух случаев синих чулков , которые в орфоэпическом словаре упомянуты как правильные). Три неправильные формы чулков , «произнесённые» от имени авторов статей, а не цитатно, – это не так уж и мало. Сравните: разнообразные формы глагола ложить ни разу не встречаются в Газетном корпусе от имени авторов, только 8 раз в репликах персонажей как отрицательная речевая характеристика. Теперь исследую, есть ли среди 165 носок формы родительного падежа. Есть. Тоже три случая.

А как использовали эти формы классики? Создаю в Основном корпусе НКРЯ подкорпус художественной литературы – получается 100 миллионов слов. Форма носок во множественном числе нашлась три раза, из них два в современных текстах, а чулков (не «синих» ) – 17 раз, и из них не менее трети в речи автора, например, у Тургенева, Помяловского, Чернышевского, Горького:

Толстую, добрейшую бабушку свою, которая как-то даже яростно нянчилась с ним, он доводил до слёз, подсыпая в табакерку ей золу или перец, распускал петли чулков , сгибал вязальные спицы, бросал клубок шерсти котятам или смазывал шерсть маслом, клеем. [Максим Горький. Жизнь Клима Самгина. Часть 1. (1925), НКРЯ].

Что ж, теперь у меня есть достаточно чёткий ответ: норма жива и подтверждается реальными текстами; в современном языке в ней понемногу возникают колебания, появляется вариативность; для чулок-чулков вариативность, вопреки данным орфоэпического словаря, более выражена, чем для носков-носок .


Универсальный инструмент

Возможности Корпуса в области лингвистического анализа огромны.

Например, можно искать словосочетания определённой конструкции с уточнением смыслового класса нужных слов. Создаём запрос: «прилагательное или глагол» + «как» + «сущест­вительное, обозначающее животное». И тогда мы узнаём, какие свойства и действия в русском языке принято подавать через сравнения с животными. Самыми распространёнными сочетаниями оказываются: голоден, как собака; слеп, как крот; гол как сокол; седой как лунь; кроткий, как овца; трусливый, как заяц; красный как рак; глухой, как тетерев и др. Далее можно изучить статистику постановки запятой перед этими «как» и тем самым выяснить, какие сочетания в большей степени фразеологизованы.

Не так давно появилась возможность автоматически строить графики, отражающие статистику языкового явления по годам.


Юные исследователи

Работа с Корпусом совершенствует чувство языка, формирует осознанный подход к лингвистическим фактам и интерес к ним, помогает увидеть язык в развитии и исследовать процессы, происходящие в нём. Школьникам можно предложить массу увлекательных заданий, и, как правило, они осваивают Корпус легче и быстрее, чем взрослые.

«Назовите слово, которое появилось в русском языке не раньше середины XIX века, и найдите в корпусе первое его употреб­ление». Так, за пять минут я при помощи НКРЯ выяснила: слово буржуй в литературу попало в 1877 году через роман И.С. Тургенева «Новь»; телефон вошло в обиход с 1880-х годов; метро в современном значении впервые появляется в 1910 году (о парижском метро); кино и автомашина – в 20-х годах XX века, а кинематограф и автомобиль на 20 лет раньше – на рубеже веков; фломастер – в 1965 году; интернет – в начале 90-х; блогер – в 2007 году.

«Найдите в Основном корпусе слово увере(н/нн)о , написанное с ошибкой». К сожалению, это задание выполнить несложно, так как примерно двадцатая часть омофонов «наречие»/«краткое прилагательное» с одной «н» – это наречия, т.е. орфографические ошибки. (Ср.: Его спутник, Григорий Аркадьевич, сидевший браво и уверено в седле, ступивши на землю, оказался хромоножкой . [Н.П. Карабчевский. Что глаза мои видели. Т.2. Революция и Россия (1921), НКРЯ]). Идея в качестве упражнения искать чужие ошибки кажется мне весьма продуктивной.

«Найдите в Основном корпусе любое неправильное употребление паронима». Ср. больше 10 примеров для неверного « представить возможность ».

«Найдите в Обучающем корпусе употребления разноспрягаемых глаголов и выберите для одного из них примеры, доказывающие, что он действительно разно­спрягаемый».

Неоценимую помощь оказывает НКРЯ тем, кто создаёт упражнения. Несложно найти материал на, скажем, стык союзов ( если когда, что когда и др.), причём из текстов любого типа – на выбор составителя. Я, например, подбираю упражнения на пунктуацию из М.А. Булгакова, а на орфографию из Поэтического корпуса ( Такой (же) час , такой (же) пруд [?] Всё то (же) . В тех (же) переливах / Края застылых облаков… [В.Я. Брюсов. Святогор (1916)]). Или же такое задание: десять предложений с «в продолжени__», где надо решить, что это – предлог, существительное в предложном падеже или существительное в винительном падеже. На составление у меня ушло несколько минут.


Будущее начинается сейчас!

Нет никаких сомнений в том, что не пройдёт и десяти лет – и на всех филологических факультетах России будет обязательный курс, посвящённый НКРЯ. Но сейчас тем, кого этому не учили, приходится осваивать корпус самостоятельно. Очень надеюсь, что многие учителя-словесники решатся на это. Удобные инструкции по работе с НКРЯ находятся на «Образовательном портале НКРЯ» studiorum , и там же на форуме можно задать любые вопросы.

Теги: русский язык , филология

Загрузка...