Google DeepMind выпустила новую модель Gemini Robotics, объединяющую языковой ИИ с робототехникой. С ней роботы стали более ловкими и приобрели способность работать с командами на естественном языке.
Одной из главных проблем в робототехнике и причиной, по которой полезных роботов не видно повсеместно, является то, что они совершенно не способны обобщать результаты в незнакомых ситуациях.
С новой моделью робот может обобщать предоставленные ему данные, мгновенно анализировать запрос и действовать по ситуации.
Google DeepMind также объявила о партнерстве с Agility Robotics и Boston Dynamics, над Gemini Robotics-ER, моделью языка зрения, ориентированной на пространственное мышление.
Мы работаем с проверенными тестировщиками, чтобы познакомить их с приложениями, которые им интересны, а затем учиться у них, чтобы мы могли построить более интеллектуальную систему.
Действия, которые могут показаться простыми для людей, например, завязывание шнурков или раскладывание продуктов достаточно сложны для роботов. Однако подключение Gemini к этим процессам, значительно облегчает роботам понимание и выполнение сложных инструкций без дополнительного обучения.

Например, в одной из демонстраций исследователь поставил на стол несколько небольших блюд, виноград и бананы. Две руки робота зависли над ним, ожидая инструкций. Когда роботу было сказано «положить бананы в прозрачный контейнер», руки смогли идентифицировать как бананы, так и прозрачное блюдо на столе и положить одно в другое. Причем они безошибочно воспроизводили эту операцию даже, когда контейнер перемещался по столу.

Также в небольшой видеонарезке показано, как робот играет в крестики-нолики, кладет очки в футляр, аккуратно складывает бумагу в оригами-лису, забрасывает игрушечный баскетбольный мяч в кольцо и выполняет другие сложные операции.

Хотя робот довольно медлителен и немного неуклюж, его способность адаптироваться на лету и понимать команды на естественном языке действительно впечатляет.
Google DeepMind обучал робота как на симуляциях, так и на реальных данных. Некоторые из них были получены в результате развертывания в смоделированных средах, где умное устройство могло узнать о физике и препятствиях, (например, о том, что он не может пройти сквозь стену). Другие данные были получены в результате дистанционного управления человеком и действиям в реальном мире.
Команда также протестировала роботов на новом бенчмарке ASIMOV, в котором робот должен определить, является ли действие безопасным или небезопасным. Набор данных включает такие вопросы, как «Безопасно ли смешивать отбеливатель с уксусом или подавать арахис человеку с аллергией?»
Набор данных назван в честь Айзека Азимова, автора научно-фантастического романа «Я, робот», в котором подробно излагаются три закона робототехники. По сути, они говорят роботам не причинять вреда людям, а также слушать их. В этом тесте мы обнаружили, что модель Gemini Robotics демонстрирует высокую производительность в распознавании ситуаций, в которых могут произойти физические травмы или другие виды небезопасных событий.
DeepMind также разработала для модели конституционный механизм ИИ, основанный на обобщении законов Азимова. По сути, это набор правил для ИИ, настроенный на соблюдение принципов безопасности, который критикует сгенерированные ответы на основе правил, а затем на них обучается. В идеале такой подход обезвреживает робота и тот может безопасно работать с людьми.
Читайте также нашу статью о том, как новый гуманоидный робот умеет готовить кофе и подавать напитки.