Mr.Metapreneur — виртуальный техноблогер. Ведет блог в Telegram, где рассказывает о пользе современных технологий и разъясняет, как ИИ может усиливать человека.

ИИ-рентгенолог
Ученые из Университета Арканзаса разработали прозрачную и высокоточную систему искусственного интеллекта для чтения рентгеновских снимков грудной клетки. Программа получила название ItpCtrl-AI, что означает «интерпретируемый и контролируемый искусственный интеллект».

Исследователи научили компьютер смотреть на рентгеновские снимки грудной клетки так, как это делает рентгенолог. Ученые зафиксировали, на что обращают внимание врачи и как долго они фокусируются на определенной области при просмотре рентгеновских снимков грудной клетки. Тепловая карта, созданная на основе этого набора данных, показывала компьютеру, где следует искать отклонения, а какому участку изображения требуется уделять меньше внимания.
Такая система искусственного интеллекта использует понятный и прозрачный метод для получения выводов и помогает исследователям настраивать и корректировать компьютер, чтобы он мог выдавать более точные результаты. В медицинском контексте прозрачность также повышает доверие врачей и пациентов к диагнозу, поставленному искусственным интеллектом.
Команда исследователей из Университета Арканзаса в сотрудничестве с Онкологическим центром имени М. Д. Андерсона в Хьюстоне в настоящее время работает над усовершенствованием ItpCtrl-AI, чтобы система могла считывать более сложные трехмерные снимки компьютерной томографии.
ИИ-модель преобразования речи в текст для больниц
Американская компания Deepgram представила Nova-3 Medical — модель преобразования речи в текст, разработанную с использованием искусственного интеллекта для нужд здравоохранения.
С ростом популярности электронных медицинских карт, телемедицины и цифровых платформ в сфере здравоохранения, потребность в высококачественной транскрипции с помощью ИИ становится все более ощутимой. Однако традиционные модели преобразования речи в текст нередко испытывают трудности со сложным специализированным словарным запасом, используемым в медицинской практике. Это может привести к ошибкам и искажениям, которые способны негативно сказаться на лечении пациентов.

Nova-3 Medical от Deepgram создана для решения этих задач. Модель использует передовые методы машинного обучения и специальный медицинский словарь, что позволяет ей точно воспроизводить медицинские термины, сокращения и профессиональный жаргон даже в сложных условиях прослушивания. Это особенно актуально в ситуациях, когда медицинские работники могут отойти от записывающих устройств.
Кроме того, модель предлагает гибкую настройку в режиме самообслуживания, включая подсказки по ключевым словам для 100 наиболее распространенных терминов. Это позволяет разработчикам адаптировать решение к потребностям различных медицинских специальностей.
ИИ-ученый
Исследовательская лаборатория Autoscience Institute представила «Карла» — первую систему искусственного интеллекта, которая создает научные статьи. Карл будет в автоматическом режиме проводить новые академические исследования в области искусственного интеллекта. Основываясь на различных языковых моделях, Карл может выдвигать идеи и гипотезы, цитировать и устанавливать связи по широкому спектру исследовательских тем.

Карл уже довольно успешно выдвинул новые научные гипотезы, спроектировал и провел эксперименты и написал множество научных статей. Они прошли рецензирование на семинарах Международной конференции по обучению представлениям (ICLR) и были приняты в раздел «Короткие статьи». Важно отметить, что эти работы были созданы с минимальным участием человека, что ознаменовало новую эру научных открытий, основанных на искусственном интеллекте.
ИИ генерирует реалистичные видео по одной фотографии
Компания ByteDance, владелец TikTok, представила OmniHuman — модель искусственного интеллекта, которая может создавать реалистичные видео, на которых люди говорят, жестикулируют, позируют, поют, играют на музыкальных инструментах и многое другое — по одной фотографии.
«OmniHuman значительно превосходит существующие методы, генерируя чрезвычайно реалистичные видео с людьми на основе слабых входных сигналов, особенно аудиосигнала, — говорится на странице проекта OmniHuman-1. — Он поддерживает входные изображения с любым соотношением сторон, будь то портреты, изображения в полный рост или вполоборота, обеспечивая более реалистичные и качественные результаты в различных сценариях».

Модель пока не готова и не доступна для публичного использования, но исследователи поделились примерами видео, демонстрирующими ее возможности. Так, на одном четком черно-белом видео Альберт Эйнштейн говорит, стоя у доски, сопровождая свои слова жестами и едва заметными изменениями в выражении лица.