OpenAI анонсировала в ChatGPT расширенный генератор изображений, интегрированные в модель GPT-4o.
Особенности
Теперь пользователи могут использовать модель для создания логотипов, диаграмм и инфографики. В отличие от предыдущих генеративных моделей, которые часто создавали сюрреалистичные, но непрактичные визуальные эффекты, GPT-4o был разработан для создания более контекстно релевантных и точных изображений.



Кроме того, GPT-4o поддерживает многопоточную генерацию, что позволяет совершенствовать и корректировать изображения посредством естественного диалогового взаимодействия, сохраняя согласованность на протяжении всех итеративных процессов проектирования.
Генерация изображений с помощью GPT-4o способна обрабатывать сложные подсказки, включающие до 20 отдельных объектов, что является улучшением по сравнению с существующими системами.


OpenAI отметила следующие возможности своей новой системы генерации изображений:
- Точность отображения текста на изображениях;
- Совершенствование изображений в ходе обсуждения, сохраняя при этом единый стиль;
- Поддержка сложных подсказок, содержащих до 20 различных объектов;
- Генерация изображений на основе загруженных ссылок;
- Создание визуальных эффектов, используя информацию из обучающих данных GPT-4o.
Также модель может превращать фото в стилизацию аниме или даже создавать комиксы по текстовому описанию. Ещё можно попросить ChatGPT украсть лук с фотографии.



Несмотря на свои передовые возможности, OpenAI признает определенные ограничения, такие как случайные проблемы с кадрированием, галлюцинации деталей, трудности с отображением плотной информации в малых масштабах и проблемы с точным редактированием.
Сроки выхода
Генерация изображений GPT-4o теперь доступна на всех платформах ChatGPT, включая уровни Plus, Pro, Team и Free, а вскоре ожидается доступ к версиям Enterprise и Education.