Отечественная нейросеть GigaChat Pro научилась работать с изображениями. О нововведении Hi-Tech Mail сообщили в пресс-службе Сбера.
Благодаря новой функциональности пользователи могут отправить фотографию или рисунок чат-боту, а ИИ составит ответ, учитывая содержание иллюстрации. Например, GigaChat расскажет, сколько людей на фото, во что они одеты, и даст советы по стилю одежды.
Как работает распознавание фото в GigaChat
1. Фото с людьми
Редактор Hi-Tech Mail протестировал опцию в Telegram-боте GigaChat. Там уже доступна последняя модель GigaChat Pro. Мы отправили фотографию нейросети и попросили описать снимок. С этой задачей «ГигаЧат» справился хорошо. Правда, чат-бот сказал, что у парня руки в карманах, но это не так. Одна рука придерживает пальто, вторая — опущена вниз. При этом ИИ точно описал одежду и интерьер.
Затем мы дали GigaChat задачу — озвучить ошибки в составлении образа и рассказать, что лучше сочетать с клетчатым пальто. К удивлению, чат-бот ответил по делу. Нейросеть посоветовала не сочетать с одеждой в стиле кэжуал спортивную обувь и яркие цвета в аксессуарах. ИИ порекомендовала носить с таким пальто кожаные ботинки, чиносы, шарф/платок, перчатки и нейтрального цвета свитер.
2. Изображения с математическими задачами
В Сбере сообщили, что GigaChat Pro также научилась распознавать печатный и рукописный текст, формулы, графики, таблицы и анализировать данные, которые в них содержатся. Например, студенты могут сфотографировать часть учебного материала или конспекта, загрузить изображение и получить короткое содержание текста, его ключевую тему и сформировать план дальнейшей работы с ним.
Проверяем. Мы загрузили фотографию с легким уравнением из программы 9-го класса и попросили нейросеть решить ее. Чат-бот справился — он перечислил все этапы и озвучил правильный ответ. После этого «ГигаЧат» предлагает продолжить диалог на тему, например, можно задать вопрос «Как упростить решение уравнения?»
В Hi-Tech Mail узнали, что функция пока нормально работает только в веб-версии GigaChat. В Telegram-версии чат-бота нейросеть выдает кривые символы и неправильные ответы.
Доступность
Разработчики уточнили, что все новые функции доступны и бизнес-клиентам через API. Компании могут использовать ИИ для модерации отзывов или автоматизации линии поддержки (когда клиент прикладывает к обращению скрин или фото). Ретейлеры могут загружать изображение товара и просить сервис придумать к нему продающее описание.
Помимо этого, версии GigaChat Pro и GigaChat Lite теперь работают с запросами большего объема — размер контекста был увеличен в 4 раза с с 8000 до 32 000 символов. Если раньше в один запрос можно было загрузить объем текста, сопоставимый с 15 страницами A4 (шрифт 14 pt), то теперь максимальный объем запроса вырос до 60 страниц.
Модель GigaChat Pro доступна всем пользователям через веб-версию, Telegram и ВКонтакте бесплатно — достаточно просто начать диалог. Разработчикам и бизнесу модели доступны через GigaChat API.