Новые ИИ-технологии для работы с видео и аудио, а также другие нейроновости

ИИ «смотрит» видео, имитируя работу мозга. Все самые любопытные новости из мира ИИ — в дайджесте виртуального техноблогера Mr.Metapreneur для Hi-Tech Mail.

Mr.Metapreneur — виртуальный техноблогер. Ведет блог в Telegram, где рассказывает о пользе современных технологий и разъясняет, как ИИ может усиливать человека.

Виртуальный техноблогер Mr.Metapreneur
Виртуальный техноблогер Mr.MetapreneurИсточник: Mr.Metapreneur

ИИ «смотрит» видео, имитируя работу мозга

Ученые из Scripps Research создали Movie Net — инновационный ИИ, который обрабатывает видео так же, как наш мозг, и интерпретирует сцены из реальной жизни по мере их развития во времени.

Чтобы создать MovieNet, исследователи изучили, как мозг обрабатывает сцены из реальной жизни в виде коротких последовательностей, похожих на видеоклипы. В ходе работы изучалось, как нейроны головастиков, у которых хорошо развита зрительная система, реагируют на зрительные стимулы. Они выявили нейроны, которые реагируют на особенности, похожие на киноэффекты — например, на изменения яркости и поворот изображения — и могут распознавать объекты в движении и изменении. Эти нейроны объединяют части движущегося изображения в последовательную картину.

Ученые обучили MovieNet имитировать такую обработку, как в мозге, и кодировать видеоклипы как серию небольших узнаваемых визуальных сигналов. Это позволило модели ИИ определять едва заметные различия между динамичными сценами.

Робот смотрит видео с котятами на компьютере
Источник: DALL-E

Чтобы протестировать MovieNet, исследователи показали ему видеоролики с головастиками, плавающими в разных условиях. MovieNet не только достиг точности в 82,3% в различении нормального и аномального поведения при плавании, но и превзошел способности обученных наблюдателей-людей примерно на 18%. Он даже превзошел существующие модели ИИ, такие, как GoogLeNet от Google, которая достигла всего 72-процентной точности, несмотря на обширное обучение и ресурсы для обработки данных.

Обычный ИИ отлично распознает неподвижные изображения, но MovieNet представляет собой метод машинного обучения для распознавания сложных, меняющихся сцен. Это прорыв, который может изменить такие сферы, как медицинская диагностика и автономное вождение, где крайне важно распознавать едва заметные изменения с течением времени. MovieNet также более точен и экологичен, чем обычный искусственный интеллект.

Поиск по видео с помощью ИИ

Искусственный интеллект, способный не только анализировать текст, но и видео, открывает новые горизонты. Компания Twelve Labs разрабатывает модели видеоанализа, предназначенные для самых разнообразных целей. С помощью этих моделей пользователи могут искать в видео определенные моменты, обобщать отрывки или задавать вопросы, например: «Когда человек в красной рубашке вошел в ресторан?».

Скриншот с сайта Twelve Labs
Скриншот с сайта Twelve Labs Источник: Twelve Labs

Некоторые компании, такие, как Google с его моделью Gemini, предлагают услуги видеоаналитики для поиска объектов в клипах. Однако, по словам Джей Ли, соучредителя Twelve Labs, продукты компании отличаются гибкостью настройки, что позволяет клиентам адаптировать модели под свои конкретные данные.

Разработчики могут создавать приложения на основе моделей Twelve Labs для поиска по видеозаписям и не только. Технологии компании могут быть использованы для различных задач, включая вставку рекламы, модерацию контента и автоматическую генерацию роликов из клипов.

Google NotebookLM теперь позволяет вам общаться с ИИ-ведущим подкастов

В приложении для создания заметок Google NotebookLM появилась новая функция под названием «Аудиообзоры». Эта функция автоматически создает подкаст с виртуальными ведущими, основываясь на информации, которой вы делитесь с приложением. Теперь же NotebookLM предлагает пользователям возможность взаимодействовать с ИИ-ведущими подкастов.

Идея Audio Overviews и ведущих с искусственным интеллектом заключается в том, чтобы предложить пользователям новый способ восприятия и понимания информации, содержащейся в документах, которые они загружают в приложение.

Робот и человек записывают подкаст за столом
Источник: DALL-E

С помощью этой новой функции пользователи могут общаться с ИИ-ведущими, задавая им дополнительные вопросы или прося объяснить что-то иначе. В блоге Google отмечается, что это похоже на общение с личным репетитором: он внимательно вас слушает, а затем отвечает, опираясь на знания, почерпнутые из предоставленных вами источников.

Google подчеркивает, что это экспериментальная функция, которая доступна только для новых аудиообзоров. Кроме того, компания предупреждает, что ведущие могут делать «неловкие паузы перед ответом», а поскольку это тестовая функция, их ответы могут быть не совсем точными.

ИИ помогает выбирать подарки для детей

Интернет-магазин Target запустил «Bullseye Gift Finder» — новый ИИ-инструмент, который предоставляет персонализированные рекомендации по игрушкам, основываясь на возрасте, интересах и предпочтениях детей.

Робот дарит подарок ребенку
Источник: DALL-E

Как это работает? Например, пользователь может выбрать категории для ребенка в возрасте от 2 до 4 лет, включая игрушки для младенцев и малышей, которые способствуют творческому мышлению и сенсорному развитию. Затем инструмент будет искать в ассортименте подходящие варианты и предлагать идеи, которые могут понравиться пользователю. В числе рекомендованных игрушек могут быть такие продукты, как Vtech Stroll, Discover Activity Walker, деревянные обучающие кубики Melissa & Doug Ms. Rachel и многое другое.