Зачем в России «оцифруют язык»

Школа цифровой экономики Дальневосточного федерального университета (ШЦЭ ДВФУ) займется созданием цифрового корпуса русского языка.

Как пояснили в университете, оцифрованный русский язык будет использоваться для обучения машин, нейросетей и разработки синтетической личности на основе искусственного интеллекта. Инициатива реализуется в рамках проекта Лаборатории машинного обучения ШЦЭ ДВФУ, прием заявок на участие начнется в сентябре.

ДВФУ. Фото: Depositphotos
ДВФУ. Фото: Depositphotos

Первым продуктом станет «цифровой менеджер» — голосовой помощник на базе ИИ. Менеджер должен научиться вести диалоги, задавать вопросы и решать «сервисные задачи». С помощью этой технологии в дальнейшем можно будет оптимизировать работу call-центров.

«Серьезным вызовом стало отсутствие качественно размеченной базы русского языка для обучения нейросетей. Мы планируем ответить на него вместе с нашим техническим партнёром по машинному обучению — компанией 'Нейросети Ашманова'. Она предоставит нам технологию цифровой разметки материала».
Илья Мирин
Директор Школы цифровой экономики ДВФУ

Результаты совместной работы ДВФУ и «Нейросетей Ашманова» поэтапно будут переданы для открытого использования.

Сначала над проектом будут работать студенты-волонтеры ДВФУ. Впоследствии к ним присоединятся профессиональные лингвисты, и специалисты по компьютерной лингвистике, которые займутся качественной разметкой аудиоматериала.

Таким образом появится первый в мире академический корпус русского языка, аналоги которого существуют только для английского и французского языков. Главная задача участников проекта — собрать аудиокорпус и разметить его специальным образом, понятным машине. Подобная задача займет несколько лет, хотя первичный этап накопления языкового материала должен завершиться уже через год, подчеркнул Илья Мирин.