Цифровой корпус русского языка создадут на Дальнем Востоке

цифровой корпус русского языка
Фото: Depositphotos
Оцифровкой русского языка займутся специалисты Школы цифровой экономики Дальневосточного федерального университета (ШЦЭ ДВФУ). 

Они создадут цифровой корпус русского языка, предназначенный для обучения нейросетей, машин и разработки цифрового менеджера — синтетической личности на основе искусственного интеллекта, сообщает ComNews. Базой для проекта является магистерская образовательная программа «Искусственный интеллект и большие данные», открытая в вузе при содействии корпоративного университета «Сбербанка» и «Нейросетей Ашманова».

Цифровой менеджер станет одним из первых продуктов крупного проекта. Предполагается, что он сможет поддерживать с пользователем сложные диалоги, давать неочевидные ответы, направлять беседу с помощью наводящих вопросов, решать сервисные задачи в круглосуточном режиме. Использовать менеджер можно будет в работе переводчиков, call-центров, различных экспертных, управляющих и обучающих систем.

Руководитель ШЦЭ ДВФУ Илья Мирин отметил, что фактически речь идёт о создании академического корпуса русского языка подобно тем, что в глобальном масштабе имеются лишь для французского и английского языков. Лингвистам предстоит с помощью сайта и мобильного приложения собрать аудио-корпус, а затем разместить его в порядке, понятном машине. Это объёмная работа, рассчитанная не на один год. Тем не менее первый этап накопления материала реально завершить уже в следующем году, после чего его можно оцифровывать.

Привлечь к работе планируется студентов ДВФУ, филологов и специалистов по компьютерной лингвистике. Последним предстоит обработать аудиоматериал: разбить его на части, проставить ударения и паузы, обозначить монологи и диалоги, соотнести речь с написанным текстом, отделить тексты, начитанные с листа, от разговорных фраз.

Конечной целью является «обучение» русскому языку машин, уточнил Илья Мирин. На нём должны «заговорить»микроволновки и принтеры, автомобили и промышленные роботы, целый ряд других устройств и систем. А для этого требуется оцифровать язык и перевести в модель самообучающейся нейросети. Это важная цивилизационная задача, убеждён эксперт.

Эксперты считают, что проект значительно продвинет исследования в области распознавания и синтеза речи в России и мире. Причём в планах создать также речевые корпуса для языков малых народов России.


Источник: Русский мир

Комментариев нет:

Отправить комментарий