Что такое корпус языка?




  • Что такое корпус языка? 
  • Как он изменил работу лингвистов? 
  • Какова история создания корпуса русского языка? 
  • И как развивается корпусная лингвистика сегодня? 


Об этом рассказывает доктор филологических наук Владимир Плунгян.


Корпус языка и наука, которая с этим связана, корпусная лингвистика, — это такая тема, область, которая очень стремительно ворвалась в жизнь лингвистов примерно в самом конце XX — начале XXI века. Если мы хотим назвать такую область лингвистики, которая по определению является суперсовременной, то первое, что приходит в голову, — это как раз лингвистика корпусов. Полное понимание еще к лингвистам не пришло, но признание роли корпусов сейчас очень стремительно растет. 

Что это за вещь — корпус? Корпус языка — это электронное собрание текстов на данном языке. Если представить себе, что тексты — это сложная игрушка, собранная из разных деталей, то ребенок может с игрушкой играть, развлекаться, а лингвист поступает как плохой ребенок, который разбирает текст на части, ничего другого ему не надо. Потому что нормальному человеку от текста нужен смысл, понимание того, что ему сказали, а лингвист сразу начинает разбирать его на части.


Тексты лингвисты обрабатывают с помощью специальных программ. Это, конечно, делается автоматически. Корпус чем больше, тем лучше. Были 100-миллионные корпуса, это считалось большой цифрой долгое время. А сейчас и миллиардные корпуса не редкость. И счет идет на много миллиардов — интернет это позволяет. Понятно, что вручную вы текст не разметите. Есть программы обработки текстов. Ценятся такие программы, которые не требуют ручного вмешательства. Таким образом, обработанные тесты, аннотированные тексты — это и есть корпус. И нужен он именно для того, чтобы искать примеры на то, что мы изучаем. Занимаюсь я, например, изучением падежей. Традиционно лингвисты открывали книгу, выписывали разные формы падежа, карточки были тогда — занимало это много времени, считалось, что сбор материала — это важная часть научной работы. Помню работы, о которых говорили, что с научной точки зрения так себе, но зато какой материал. Корпус эту часть очень сократил. Сейчас этот материал, на который раньше уходили годы, можно собрать за минуты.


Первые корпуса возникли одновременно с первыми компьютерами. Еще в 60-е годы XX века, естественно, в Америке. Первый корпус назывался Брауновский корпус (это был Брауновский университет в США, где его создали). Первый корпус был очень маленький, и создан он был для прикладных задач — например, частотность букв в английском тексте. Такая вещь, которая тогда казалась и сейчас кажется теоретикам довольно прикладной и неинтересной. Специалисты по статистике взяли тексты, разрезали на равные куски — получился небольшой корпус одинаковых по объему английских фрагментов текста. Другие корпуса так же появлялись, но считали, что ни для чего они пригодиться не могут. Время шло, возможности компьютеров росли, объемы корпусов тоже росли. Скажем, 70–80-е и начало 90-х — время солидных корпусов, в 90-е годы стали делать 100-миллионные корпуса.

Источник Постнаука

Комментариев нет:

Отправить комментарий