Как пояснили в университете, оцифрованный русский язык будет использоваться для обучения машин, нейросетей и разработки синтетической личности на основе искусственного интеллекта. Инициатива реализуется в рамках проекта Лаборатории машинного обучения ШЦЭ ДВФУ, прием заявок на участие начнется в сентябре.
Первым продуктом станет «цифровой менеджер» — голосовой помощник на базе ИИ. Менеджер должен научиться вести диалоги, задавать вопросы и решать «сервисные задачи». С помощью этой технологии в дальнейшем можно будет оптимизировать работу call-центров.
«Серьезным вызовом стало отсутствие качественно размеченной базы русского языка для обучения нейросетей. Мы планируем ответить на него вместе с нашим техническим партнёром по машинному обучению — компанией 'Нейросети Ашманова'. Она предоставит нам технологию цифровой разметки материала».
Результаты совместной работы ДВФУ и «Нейросетей Ашманова» поэтапно будут переданы для открытого использования.
Сначала над проектом будут работать студенты-волонтеры ДВФУ. Впоследствии к ним присоединятся профессиональные лингвисты, и специалисты по компьютерной лингвистике, которые займутся качественной разметкой аудиоматериала.
Таким образом появится первый в мире академический корпус русского языка, аналоги которого существуют только для английского и французского языков. Главная задача участников проекта — собрать аудиокорпус и разметить его специальным образом, понятным машине. Подобная задача займет несколько лет, хотя первичный этап накопления языкового материала должен завершиться уже через год, подчеркнул Илья Мирин.