ИИ изучает сам себя и создает видео на основе одного фото — нейроновости

ИИ пишет научные статьи и анализирует рентгеновские снимки. Все самые любопытные новости из мира Искусственного интеллекта — в дайджесте виртуального техноблогера Mr.Metapreneur для Hi-Tech Mail.

Mr.Metapreneur — виртуальный техноблогер. Ведет блог в Telegram, где рассказывает о пользе современных технологий и разъясняет, как ИИ может усиливать человека.

Mr.Metapreneur
Источник: Mr.Metapreneur

ИИ-рентгенолог

Ученые из Университета Арканзаса разработали прозрачную и высокоточную систему искусственного интеллекта для чтения рентгеновских снимков грудной клетки. Программа получила название ItpCtrl-AI, что означает «интерпретируемый и контролируемый искусственный интеллект».

Нган Ле, доцент кафедры компьютерных наук и инженерии в Университете Арканзаса, одна из авторов исследования
Нган Ле, доцент кафедры компьютерных наук и инженерии в Университете Арканзаса, одна из авторов исследованияИсточник: Arkansasresearch

Исследователи научили компьютер смотреть на рентгеновские снимки грудной клетки так, как это делает рентгенолог. Ученые зафиксировали, на что обращают внимание врачи и как долго они фокусируются на определенной области при просмотре рентгеновских снимков грудной клетки. Тепловая карта, созданная на основе этого набора данных, показывала компьютеру, где следует искать отклонения, а какому участку изображения требуется уделять меньше внимания.

Такая система искусственного интеллекта использует понятный и прозрачный метод для получения выводов и помогает исследователям настраивать и корректировать компьютер, чтобы он мог выдавать более точные результаты. В медицинском контексте прозрачность также повышает доверие врачей и пациентов к диагнозу, поставленному искусственным интеллектом.

Команда исследователей из Университета Арканзаса в сотрудничестве с Онкологическим центром имени М. Д. Андерсона в Хьюстоне в настоящее время работает над усовершенствованием ItpCtrl-AI, чтобы система могла считывать более сложные трехмерные снимки компьютерной томографии.

ИИ-модель преобразования речи в текст для больниц

Американская компания Deepgram представила Nova-3 Medical — модель преобразования речи в текст, разработанную с использованием искусственного интеллекта для нужд здравоохранения.

С ростом популярности электронных медицинских карт, телемедицины и цифровых платформ в сфере здравоохранения, потребность в высококачественной транскрипции с помощью ИИ становится все более ощутимой. Однако традиционные модели преобразования речи в текст нередко испытывают трудности со сложным специализированным словарным запасом, используемым в медицинской практике. Это может привести к ошибкам и искажениям, которые способны негативно сказаться на лечении пациентов.

Интерфейс Nova-3 Medical от Deepgram
Интерфейс Nova-3 Medical от DeepgramИсточник: Deepgram

Nova-3 Medical от Deepgram создана для решения этих задач. Модель использует передовые методы машинного обучения и специальный медицинский словарь, что позволяет ей точно воспроизводить медицинские термины, сокращения и профессиональный жаргон даже в сложных условиях прослушивания. Это особенно актуально в ситуациях, когда медицинские работники могут отойти от записывающих устройств.

Кроме того, модель предлагает гибкую настройку в режиме самообслуживания, включая подсказки по ключевым словам для 100 наиболее распространенных терминов. Это позволяет разработчикам адаптировать решение к потребностям различных медицинских специальностей.

ИИ-ученый

Исследовательская лаборатория Autoscience Institute представила «Карла» — первую систему искусственного интеллекта, которая создает научные статьи. Карл будет в автоматическом режиме проводить новые академические исследования в области искусственного интеллекта. Основываясь на различных языковых моделях, Карл может выдвигать идеи и гипотезы, цитировать и устанавливать связи по широкому спектру исследовательских тем.

Робот
Источник: DALL-E

Карл уже довольно успешно выдвинул новые научные гипотезы, спроектировал и провел эксперименты и написал множество научных статей. Они прошли рецензирование на семинарах Международной конференции по обучению представлениям (ICLR) и были приняты в раздел «Короткие статьи». Важно отметить, что эти работы были созданы с минимальным участием человека, что ознаменовало новую эру научных открытий, основанных на искусственном интеллекте.

ИИ генерирует реалистичные видео по одной фотографии

Компания ByteDance, владелец TikTok, представила OmniHuman — модель искусственного интеллекта, которая может создавать реалистичные видео, на которых люди говорят, жестикулируют, позируют, поют, играют на музыкальных инструментах и многое другое — по одной фотографии.

«OmniHuman значительно превосходит существующие методы, генерируя чрезвычайно реалистичные видео с людьми на основе слабых входных сигналов, особенно аудиосигнала, — говорится на странице проекта OmniHuman-1. — Он поддерживает входные изображения с любым соотношением сторон, будь то портреты, изображения в полный рост или вполоборота, обеспечивая более реалистичные и качественные результаты в различных сценариях».

Скриншот видео, созданного с помощью OmniHuman
Скриншот видео, созданного с помощью OmniHumanИсточник: OmniHuman

Модель пока не готова и не доступна для публичного использования, но исследователи поделились примерами видео, демонстрирующими ее возможности. Так, на одном четком черно-белом видео Альберт Эйнштейн говорит, стоя у доски, сопровождая свои слова жестами и едва заметными изменениями в выражении лица.