По всей видимости, OpenAI решила повременить с выпуском GPT-5, которую так ждали фанаты. Вместо этого разработчики анонсировали улучшенную версию GPT-4 с приставкой «омни» (лат. «все, весь») — ее планируется интегрировать во все продукты компании в течение ближайших нескольких недель.
Несмотря на то, что OpenAI не позиционирует GPT-4o в качестве модели следующего поколения, у новинки определенно есть чем удивить пользователей.
Полностью соответствуя своему названию, «омни» отличается от прошлых поколений полной мультимодальностью: GPT-4o была обучена на разнообразных наборах данных, включающих изображения, текст и звук. Благодаря этому опыт взаимодействия с ИИ становится более естественным, а скорость работы системы по сравнению с GPT-4 Turbo была увеличена более чем в два раза.
Примечательно, что GPT-4o отвечает на запросы пользователя практически моментально, без задержек — это происходит даже в тех случаях, когда модель работает с несколькими потоками данных, например, анализируя изображение с камеры и параллельно «слушая» голосовой запрос пользователя. OpenAI заявляет, что GPT-4o также сможет анализировать эмоциональный фон пользователя, адаптируя свои ответы под его настроение и стиль общения.
Кроме того, OpenAI обновила интерфейс фирменного чат-бота ChatGPT, а также добавила новые функции в приложение для MacOS: возможность анализа скриншотов и поддержку голосового ввода. Ожидается, что все мультимодальные фишки GPT-4o станут доступны для большинства пользователей после предварительного тестирования группой «доверенных партнеров компании».
Важно, что теперь GPT-3.5, которой вынуждены были довольствоваться обычные пользователи, наконец-то уходит на покой. В то же время, подписчики ChatGPT Plus смогут отправлять системе в пять раз более длинные сообщения для анализа, суммаризации и других задач.
Вполне вероятно, что системы на базе GPT-4o прекрасно приживутся в робототехнике, позволяя ей взаимодействовать с различными сложными потоками информации.
О работе ИИ-модели Llama-3 читайте в нашем материале.