OpenAI представила GPT-5.4 – модель, которую компания описывает как «самую мощную и эффективную версию, разработанную для профессиональных задач». Она обладает архитектурой, способной выполнять реальные задачи в программировании, а также эффективно работать с веб-сайтами и приложениями.
Особенности
Одной из примечательных технических особенностей новой модели GPT является её огромное контекстное окно. GPT-5.4 предлагает более 1 миллиона контекстных токенов и ограничение в 128 000 выходных токенов. Это позволяет ей анализировать очень длинные документы, фрагменты кода или наборы данных за один сеанс.

Эта возможность имеет решающее значение, особенно для долгосрочных задач, таких как разработка программного обеспечения, финансовый анализ и исследовательские проекты. OpenAI заявляет о значительном улучшении точности. По данным компании, новая модель допускает на 33% меньше ошибок в предоставляемой информации и на 18% меньше дезинформации в общих ответах.
Согласно информации, предоставленной OpenAI, GPT-5.4 показал высокие результаты. В тесте GDPval он набрал 83,0%, превзойдя GPT-5.2 с его 70,9%. Он также превзошел более старые модели в SWE-Bench Pro с результатом 57,7%. В тесте Toolathlon результат составил 54,6%, по сравнению с 46,3% у GPT-5.2.

Среди всех тестов особого внимания заслуживает OSWorld-Verified. Этот бенчмарк измеряет способность искусственного интеллекта выполнять задачи в среде рабочего стола. Система анализирует скриншоты, а затем генерирует команды клавиатуры и мыши для выполнения задачи. GPT-5.4 достиг 75% успеха в OSWorld, по сравнению с 72,4% у человека. Короче говоря, новый GPT даже превзошел человеческие показатели. Именно в этом и заключается самое замечательное нововведение модели.
Например, агент ИИ может получить доступ к веб-сайту, собрать данные, создать файлы Excel на основе этих данных, сгенерировать презентации и сообщить о результатах. Таким образом, искусственный интеллект превращается из простого инструмента реагирования в настоящего помощника, выполняющего задачи. OpenAI протестировал 5.4 на задачах с электронными таблицами, выполняемых аналитиками инвестиционных банков, достигнув 87,3% успеха. GPT-5.2, с другой стороны, остался на уровне 68,4%. Разница действительно существенная.

Также наблюдаются улучшения в веб-поиске. В бенчмарке BrowseComp GPT-5.4 показал результат на 17 пунктов лучше, чем GPT-5.2. GPT-5.4 Pro, в свою очередь, побил рекорд в том же тесте, набрав 89,3%. BrowseComp измеряет способность агентов ИИ искать труднодоступную информацию в интернете. При этом модель GPT Pro использует больше вычислительных ресурсов, имеет более длительный мыслительный процесс и может давать гораздо более точные результаты в сложных задачах, чем раньше. Однако это имеет свою цену. Некоторые задачи могут выполняться дольше.
Сроки выхода
Развёртывание GPT-5.4 стартует с сегодняшнего дня в ChatGPT, Codex и API от OpenAI. Версия GPT-5.4 Thinking доступна пользователям планов Plus, Teams и Pro, тогда как GPT-5.4 Pro предоставляется через API, а также поддерживается подписчиками ChatGPT Enterprise и Edu.












