В Центре человеко-ориентированного искусственного интеллекта GrapheneX-UTS при Сиднейском технологическом университете (UTS) разработали портативную неинвазивную систему, способную декодировать электрические сигналы мозга и превращать их в текст.
В первую очередь устройство предназначено для помощи людям, которые утратили речь вследствие болезни или травмы. Новая технология способна также обеспечить эффективную мысленную связь между людьми и машинами — например, управление роботом или протезом.
Точность расшифровки рекордная, но все же — 40%
Изобретение впервые представили на ежегодной конференции NeurIPS, посвященной исследованиям в области искусственного интеллекта и машинного обучения, в Новом Орлеане 12 декабря 2023 года.
В ходе демонстрации технологии участники про себя читали отрывки текста, в это время энцефалограф считывал электрическую активность мозга, а компьютер сегментировал полученный волновой сигнал на отдельные блоки и преобразовывал эту информацию в текст. Для декодирования сигналов исследователи разработали модель искусственного интеллекта под названием DeWave и обучили ее на больших объемах данных.
Пока точность работы системы составляет 40%, но этот результат уже лучше, чем предыдущие достижения в этой сфере. И это при том, что неинвазивный подход создает дополнительные сложности: использование сигналов, полученных через энцефалограф, а не от электродов, имплантированных в мозг, означает, что сигнал становится более шумным.
Глаголы понятнее существительных
Всего в исследовании центра GrapheneX-UTS приняло участие 29 человек, но и это довольно репрезентативно. Дело в том, что ритмы ЭЭГ у разных людей различаются, а предыдущие системы испытывали лишь на одном-двух участниках эксперимента.
Интересно, что пока DeWave лучше распознает глаголы, чем существительные. Применительно к последним модель часто использует обобщающие варианты: например, слово «автор» ИИ воспринимает как «человек».
Руководитель исследования профессор Чин-Тенг Лин комментирует это следующим образом: «Подобное происходит потому, что семантически похожие слова могут создавать аналогичные паттерны мозговых волн. Несмотря на трудности, наша модель дает значимые результаты, вычленяя ключевые слова и формируя структуру предложений, близкую к заданным».
В чем прорыв?
Технологии перевода сигналов мозга в текст существовали и ранее. Но они были либо стационарными, требующими сканирования на громоздком аппарате МРТ, либо инвазивными, то есть требовали имплантации электродов в мозг. Так работает, например, Neuralink Илона Маска. Вариант техногуру интересен тем, что позволяет осуществлять двухстороннюю связь, но подразумевает вживления более тысячи электродов и чипа с литиевым аккумулятором. Из-за этого разрешение на клинические исследования проект получил не с первого раза, и на момент написания статьи Neuralink только подбирал добровольцев для этого этапа испытаний. Кроме того, инвазивный подход не слишком подходит для систем управления роботами.
Ну, а с разработкой центра GrapheneX-UTS все, конечно, намного проще и сулит серьезный технологический прорыв в области передачи мыслей. Кстати, вырос австралийский проект как раз из системы контроля за робособакой, которую ученые разрабатывали для военных.