Алгоритм познания: в России создан самообучающийся робот

9 августа 2018

В Институте точной механики и вычислительной техники им. С. А. Лебедева РАН при участии АО «Интеллект» прошел испытания робот, в основу обучения которого положен абсолютно новый принцип, копирующий, по словам ученых, алгоритмы познания мира младенцем. Программа, формирующая алгоритмы обучения, воспроизводит построенную ими функциональную модель мозга и реализована с использованием разработанных специально для этой цели моделей нейрона. В этих моделях воплощается революционное убеждение авторов в том, что сам по себе биологический нейрон — это уже небольшая самообучающаяся система распознавания образов.

По двум одинаковым лабиринтам ползают робот и мышонок. И тот и другой демонстрируют одинаковое поведение. Мышонок ощупывает стены усами-вибриссами, робот замечает препятствия своими визуальными и тактильными датчиками. Оба поначалу то и дело натыкаются на препятствия. Но проходит некоторое время, и постепенно и тот, и другой начинают понимать, как им вести себя, чтобы избежать столкновений со стенками лабиринта. Испытуемые перестают натыкаться на стенки, вовремя поворачивая в нужную сторону. Адаптивное поведение робота соответствует поведению новорожденного мышонка, как и способ обучения.

Этот эксперимент был проведен в Институте нормальной физиологии РАН под руководством российского нейрофизиолога Константина Анохина в сотрудничестве с учеными Института точной механики и вычислительной техники им. С.А. Лебедева РАН. По результатам эксперимента написана совместная статья под названием «Исследование формирования поведенческих стратегий в биолого-кибернетических экспериментах».

Нейроны Жданова

Система управления робота была основана на принципах доктора физико-математических наук Александра Жданова: им была предложена оригинальная концепция работы кибернетических устройств, названная принципом автономного адаптивного управления. Схема работы описывает взаимосогласованное решение ряда таких сложных задач, как самообучение распознаванию образов, моделирование эмоций, поиск и накопление знаний, принятие решений.

Реализовать такую схему можно разными способами, применяя подходящие методы решения каждой из указанных задач. Но поскольку в природе все эти задачи решаются с помощью нейронов, то авторам пришлось смоделировать новые модели нейронов, соответствующие по своим свойствам биологическому нейрону.

— Биологический нейрон — это самостоятельная самообучающаяся система распознавания образов, — поясняет Александр Жданов. — Нейрон не требует никакого внешнего супервизора, наблюдающего все входы и выходы нервной сети и настраивающего все веса нейронов методом back propagation, как это делается в современных так называемых искусственных нейросетях — это абсолютно нереально в природе. Биологический нейрон и наша модель имеют всё необходимое, чтобы самим обнаруживать коррелирующие сигналы на своих входах.

Искусственный нейрон Жданова может иметь тысячи входов. Он наблюдает за входными сигналами и по определенному автономному правилу сам выращивает свои синапсы.

Один нейрон — один образ

— В какой-то момент нейрон как бы говорит себе: «Ага! Эта комбинация сигналов повторялась уже 20 раз. Это не может быть случайностью. Запомню-ка я ее и буду на нее реагировать», — говорит Александр Жданов. — С этого момента он начинает сообщать вовне о распознавании этого образа.

Один нейрон отвечает за один образ. По словам ученого, это было подтверждено в известных опытах с «нейроном Дженнифер Энистон», когда было обнаружено, что если человек распознает образ актрисы, то срабатывает определенный нейрон.

Александр Жданов подчеркивает: несмотря на то что при узнавании Энистон срабатывает множество нейронов, отвечающих за разные составляющие этого образа, — есть один нейрон, отвечающий за итоговый образ. Так происходит поиск закономерностей в потоке информации.

Схема запоминания образов аналогична процессу обучения человека: чтобы мы запомнили нового соседа во дворе, нам надо встретить его несколько раз. Либо он сразу должен произвести на нас сильное впечатление — это еще один алгоритм обучения.

Нейрон считается обучившимся, когда ситуация повторилась нужное количество раз. Это количество устанавливается программистом для каждой ситуации индивидуально. Либо образ запоминается с первого раза, но тогда его появление должно сопровождаться очень сильной эмоцией — положительной или отрицательной. Оценка эмоций заложена в линейке нейронов. Если задевается нейрон с одной стороны линейки — машинным мозгом это воспринимается как «невыносимо плохо». С другой стороны линейки — «необыкновенно хорошо».

Таким образом, в случае системы управления, основанной на «нейронах Жданова», происходит самообучение робота, а не обучение с учителем, как в случае других нейросетей. Там предварительное обучение — обязательно.

Вторая сигнальная

Еще одно отличие нейроноподобной модели Жданова — способность порождать языковое общение, что в природе является прерогативой человека. Эту способность человека русский физиолог Иван Павлов выделил в специальный тип высшей нервной деятельности, назвав его второй сигнальной системой.

Управляющая система робота может ассоциировать слышимые ею слова с реальными ситуациями. Например, если несколько раз при появлении препятствия справа говорить вслух слова «препятствие справа», то робот свяжет эти слова с ситуацией и через некоторое время даже начнет реагировать на эти слова так, как будто он действительно увидел препятствие. Это лишний раз подтверждает биологичность разработанной схемы искусственного мозга.

Схема мозга, разработанная Александром Ждановым, выведена не из биологии, а из кибернетической постановки задачи. Ученый поставил цель создать информационную управляющую машину, которая при рождении оказывается в среде с малоизвестными ей свойствами. Она должна уметь приспосабливаться к миру прямо в процессе «жизни», непрерывно обучаясь, дообучаясь и переобучаясь.

Поскольку «выживать» ей приходится за счет правильного принятия решений, она вынуждена всё время активно искать знания о свойствах этого мира, чтобы принимаемые ею решения были правильными.

Схема работы мозга

В целом схема мозга такова: в своей афферентной части мозг учится распознавать в поступающей из органов чувств информации образы неслучайных явлений, которыми он может оперировать при управлении. Сопоставляя их со своими совершенными действиями, мозг должен понять, как он может вызвать распознавание известных ему образов. Но для управления этого мало, нужна еще целезадающая система, качественно оценивающая состояния-образы и указывающая, какие из них предпочтительнее. Для этого в каждом организме существует аппарат эмоций, именно он оценивает образы, делит их на приятные и неприятные.

Для управления нужны знания о том, куда из текущей ситуации можно перейти доступными действиями и хороши или плохи эти возможные результаты. Коллекция этих эмпирически добытых знаний и составляет «базу знаний» живого организма.

— В мозге человека она реализована в виде совокупности обучившихся нейронов, собранных в трехмерные матрицы, — объясняет Александр Жданов. — Принимая каждое решение, мозг смотрит в свою базу знаний и выбирает то действие, которое вызовет распознавание образов с максимально лучшими из возможных в данной ситуации эмоциональными оценками.

Кроме того, принимая решения, мозг постоянно взвешивает: выбрать ли решение из уже известных, чтобы получить надежный результат, или попробовать что-то новое, неизвестное.

Принятые мозгом решения идут на исполняющие устройства, которые переводят бинарные команды в сокращение или расслабление мышц. Так мы идем, летим, плывем, управляем автомобилем, пишем симфонии, двигаем шахматные фигуры.

Сомнения и перспективы

Весь этот алгоритм работы мозга математически формализован и подробно описан в статьях и монографии Александра Жданова. Впрочем, по мнению многих нейрофизиологов, общая схема мало что может сказать о том, как именно происходит работа биологического мозга.

— Нет сомнений, что на современной процессорной базе можно построить самые разные алгоритмы для реализации простых и сложных самообучающихся технических систем, — говорит заведующий лабораторией нейрофизиологии и нейроинтерфейсов МГУ им. М.В. Ломоносова Александр Каплан. — Как правило, интеллект этих роботов построен на больших сетях нейроподобных элементов. Сейчас трудно сказать, насколько перспективны системы управления, основанные на «нейронах Жданова», каждый из которых помнит уникальную комбинацию своих эффективных входов, то есть отвечает за конкретный образ или событие.

Можно только заметить, что ни один из авторских коллективов, нашедших знаменитые нейроны «Дженнифер Энистон», «Мэрилин Монро» и других известных личностей, в своих статьях не утверждал, что система детектирования предъявляемых испытуемому картинок состоит из одного нейрона. Нейрофизиологи убеждены скорее в том, что элементарные «вычислительные» функции выполняются в мозгу группами нервных клеток. Это обеспечивает высокую надежность мозговых операций и устойчивость всей системы управления к потере отдельных нервных клеток, что случается по естественным причинам каждый день.

По мнению заведующего лабораторией нейронных систем и глубокого обучения МФТИ Михаила Бурцева, нейроподобные сети Жданова действительно уникальны по своему строению, но по решению поставленных перед ИИ задач пока не показывают результатов, которые бы могли обеспечить России приоритет в области развития обучения роботехнических систем.

— Александр Жданов предлагает сложную модель, которая объединяет разные подходы, — говорит Михаил Бурцев. — Например, его принцип обучения нейронов без учителя похож на тот, что есть в сетях Хопфилда. При этом точно его не повторяет, так как у Жданова обучается один нейрон, а не сеть. В этом существенное отличие. Его оцифровка «аппарата эмоций» похожа на «обучение с подкреплением» — это целый раздел в машинном обучении, по которому идут эксперименты во всем мире. Чтобы эти два подхода были бы объединены, я нигде не встречал.

Читайте также: