Компьютер обнаружил универсальные закономерности в 22 языках

Ученые применили методы искусственного интеллекта и машинного обучения для анализа эволюции 22 человеческих языков. Рассказываем, какие общие закономерности удалось выявить и как закон Тейлора применим к лингвистике.
Автор Hi-Tech Mail
Для исследования эволюции языков и культур команда применила методы обработки естественного языка (NLP) — алгоритмы, анализирующие тексты и речь. Слова в этих моделях преобразуются в специальные числовые векторы, что позволяет выявлять их смысловые связи.
Для исследования эволюции языков и культур команда применила методы обработки естественного языка (NLP) — алгоритмы, анализирующие тексты и речь. Слова в этих моделях преобразуются в специальные числовые векторы, что позволяет выявлять их смысловые связи.Источник: Freepik

Международная команда специалистов из Фуданьского, Гарвардского и Стоуни-Брукского университетов провела масштабное исследование эволюции 22 человеческих языков. В работе, опубликованной в журнале Proceedings of the Royal Society B Biological Sciences, ученые применили современные методы искусственного интеллекта, статистики и обработки естественного языка для анализа огромных массивов лингвистических данных.

В основе исследования лежали векторные представления слов — числовые модели, которые отображают каждое слово в многомерном семантическом пространстве. Такой подход позволил математически сопоставить значения слов и выявить скрытые закономерности их развития.

«Мы объединили лингвистические данные, восходящие к Средневековью, с методами пространственной статистики и современными инструментами машинного обучения», — комментирует один из авторов исследования Сергей Верстюк.

Часто используемые слова располагаются ближе друг к другу, образуя семантически популярные области.
Часто используемые слова располагаются ближе друг к другу, образуя семантически популярные области.Источник: phys.org

Анализ показал, что во всех исследованных языках существуют общие статистические структуры. Например, высокочастотные слова («популярные») склонны группироваться вместе, формируя особые области в семантическом пространстве. Кроме того, словарный запас организован иерархически, а новые слова часто появляются всплесками, что напоминает процессы биологической эволюции. Интересно, что для описания распределения слов в языках оказался применим так называемый закон Тейлора — математическая зависимость, ранее обнаруженная в экологии и биологии.

Ученые разработали простую математическую модель, которая объясняет наблюдаемые закономерности и может быть использована для дальнейших исследований культурной эволюции. По мнению авторов исследования, их работа открывает новые возможности для изучения не только языков, но и других областей человеческой культуры с помощью искусственного интеллекта и формального моделирования.

«Мы по-прежнему воодушевлены возможностями использования сгенерированных ИИ векторных представлений в качестве инструмента для фундаментальных исследований в понимании исторических процессов культурной эволюции», — заключает старший автор статьи Стивен Скиена.

Ранее ученые прочли фрагмент загадочного шумерского мифа. В нем рассказывается о божестве, которое захвачено в плен подземного мира. Подробнее об этом рассказали в другом материале Hi-Tech Mail.