Языки России в интернете





В России около сотни языков. Точное число определить сложно из-за проблемы разграничения языка и диалекта. 

Сложно посчитать число малых языков: некоторые могли уже исчезнуть. Однако число это очень велико, несмотря на то что малые практически не встречаются нам в жизни.

В большом городе нам редко встречаются люди, говорящие на неизвестном языке. Нам сложно отследить, как другие языки встраиваются в современные реалии, говорят ли на них в интернете, пишут ли посты в социальных сетях, снимают ли видеоролики, создают ли сайты. 

Большие поисковые системы знают про некоторые языки. Мы можем зайти в настройки поиска и запросить сайты только на английском, французском или немецком. Но с языками с малым числом носителей (миноритарными) так сделать не получится, и это большая проблема. 

Не существует косвенных инструментов, чтобы посчитать количество сайтов или страниц в интернете на удмуртском, башкирском или калмыцком языке. Мы можем только обнаружить сайт, скачать его и посчитать, сколько на нем страниц и слов.

Иногда предлагают исследовать языки с помощью «Википедии». Действительно, в ней хранятся энциклопедические статьи на разных языках, в том числе на башкирском, татарском и других. Однако «Википедия» не отражает витальности языка, того, насколько он действительно жив, насколько активно используется в интернете. Часто в «Википедии» генерируются автоматически статьи, которые производят компьютеры по определенным шаблонам.
Языки России

Есть другой способ. Мы находим характерные слова интересующего нас языка, которых нет больше ни в одном языке. Эти слова, последовательности букв, которые встречаются в данном языке, становятся прекрасными маркерами. Мы запрашиваем у поисковой машины страницы, на которых они есть. 

Найти эти слова непросто, потому что существует много межъязыковых омонимов — слов, которые одновременно есть в нескольких языках. В близкородственных языках такие слова часто путают карты, — например, в русском и украинском, в башкирском и татарском. Кроме того, к башкирскому и татарскому близок казахский язык. Но казахский язык поддерживается целым государством, и поэтому сайтов на нем довольно много. Нас он будет интересовать меньше всего.

Трудно решить задачу о распространенности миноритарного языка в интернете автоматически, если у нас нет текстов на этом языке. А с текстами большая проблема: их мало в электронном виде. Мы не можем автоматически узнать частотность слова. Если мы выберем низкочастотное слово, мы найдем мало страниц в интернете и ничего не узнаем. Нам нужно такое слово, которое является частотным в интересующем нас языке и одновременно не встречается ни в каких других языках.
У человека, который занимается поиском такого слова, есть подспорье — это письменность. На территории России письменность большинства языков основана на кириллице. Остальные же языки мира имеют письменность на основе латиницы или каких-то местных алфавитов. Алфавитные ограничения позволяют найти подходящие слова-маркеры.




После того как мы подобрали слово и получили список страниц, на котором оно встречается, мы сталкиваемся с большим количеством разного мусора. Бывают опечатки. Например, есть хакасское слово «пазох», которое служит прекрасным маркером языка. Но иногда русское слово «пазуха» («пазухи носа») пишут с ошибкой. Поэтому наравне с хакасскими словами в выдаче поисковой системы попадается что-то совершенно ненужное на русском языке.


Исследуя языки народов России таким образом, мы видим, что они представлены в интернете (кроме языков с совсем маленьким числом носителей). Языки с числом носителей больше миллиона представлены совсем хорошо. На них есть сотни сообществ в социальных сетях, таких как «ВКонтакте», десятки сайтов. Прежде всего это татарский и башкирский.

Особая ситуация с чеченским языком: из-за социополитической ситуации в Чечне в конце 1990-х — начале 2000-х годов у чеченского языкового сообщества был низкий старт. Люди, использующие этот язык, не сразу включились в коммуникацию в интернете. Для общения в интернете нужна определенная стабильность — экономическая, политическая и социальная. Но чеченская «Википедия» недавно за счет автоматической «раздувки» выросла до сотен тысяч статей (кажется, она и является самой большой среди языков России). Сайтов же на чеченском гораздо меньше.

В результате не оказывается прямой, жестко обусловливающей зависимости между количеством говорящих на языке и наличием сайтов на нем. Сайтов на башкирском и татарском действительно больше, чем на других языках. Но при этом наше исследование показало, что сайтов на башкирском больше, чем на татарском. С разными другими языками получается так же. 

Главное для жизни языка в интернете — наличие активного сообщества. Здесь проявляется роль личности в истории. Если носители языка не очень активно себя ведут, среди них нет энтузиастов, которые стремятся продвинуть свой язык (например, создать новое программное обеспечение, чтобы вводить что-нибудь на этом языке), то язык будет довольно слабо представлен в интернете.


С 2012 года общение стало перетекать в социальные сети, и темпы появления новых сайтов на языках народов России упали. Вместо того чтобы создавать свой сайт, люди стали регистрироваться в социальной сети. Люди от 15 до 31 года — это аудитория, привычная в социальных сетях, которая говорит и пишет на каком-нибудь малом языке. 
Если язык жив, на нем говорят молодые люди. Важно, чтобы на языке стремились говорить молодые люди, особенно если он находится в зоне риска, в соседстве с каким-нибудь большим, престижным языком вроде русского. Оказалось, что в социальной сети тоже действует это правило. Например, удмуртский язык, который находится среди лидеров по используемости, довольно активно проявляет себя в социальных сетях. Граница, отделяющая языки, которые живут в интернете, проходит примерно на уровне 4000–5000 носителей. Если носителей меньше, то мы, скорее всего, не найдем текстов ни в социальных сетях, ни на сайтах.


Помимо возможности исследовать жизнь языков с помощью интернета, важно, что интернет является бесплатным источником текстов на языках, в том числе на языках малых народов России. Оцифровывать книги дорого; часто их нужно пропускать через программу распознавания. Это требует времени и сопряжено с ошибками, которые приходится исправлять.

Тексты в интернете уже оцифрованы и готовы к использованию. Для компьютерной лингвистики это совершенно незаменимый источник. Чем больше текстов у компьютерного лингвиста, тем лучше он может устроить какой-нибудь полезный ресурс, например систему проверки орфографии в телефоне. Компьютерные лингвисты могут использовать тексты в автоматическом переводчике. На текстах можно построить систему, которая будет автоматически прочитывать их и извлекать полезную информацию.
Если тексты на английском языке можно найти в интернете в изобилии, то на удмуртском или чукотском их найти не так просто. Здорово, когда это получается. В социальных сетях люди пишут несколько более свободно, чем в газетах или книгах, поэтому интернет лучше отражает реальное положение языка и его жизнь.


Источник: Постнаука