Группа исследователей из Массачусетского технологического института опубликовала исследование, посвященное использованию машинного обучения для преобразования изображения блюда в пошаговый рецепт. На статью обратило внимание издание ZDNet.
Проект PizzaGAN описывается как эксперимент по обучению машины для приготовления пиццы. Технология должна уметь добавлять и убирать ингредиенты и непосредственно готовить.
Модель обучена различать этапы готовки и объекты, благодаря чему она может просмотреть одно изображение пиццы и проанализировать его. После этого сеть сможет удалить или заменить объект или целый слой на блюде, а также воспроизвести рецепт его приготовления, куда обычно входят раскатывание теста, добавление соуса, сыра и начинки.
По мере готовности внешний вид пиццы меняется, и, если изображения каждого шага отдать нейросети, машина начнет распознавать и связывать каждый этап приготовления с продуктом.
Первичный набор данных для обучений нейросети состоял из около 5500 простых графических изображений пиццы с разными ингридиентами. По словам исследователей, такой подход сэкономил им время и позволил улучшить точность работы технологии. Затем машине «скормили» 9213 фотогрфий настоящей пиццы. Сейчас робот может работать с 12 видами начинки, включая рукколу, бекон, брокколи, кукурузу, базилик, грибы и оливки.
Исследователи из MIT в своей работе сосредоточились только на пицце. Однако они считают, что аналогичный подход можно использовать и для большинства других блюд.