OpenAI представила GPT-5.4 – модель, которую компания описывает как «самую мощную и эффективную версию, разработанную для профессиональных задач». Она обладает архитектурой, способной выполнять реальные задачи в программировании, а также эффективно работать с веб-сайтами и приложениями.

Особенности

Одной из примечательных технических особенностей новой модели GPT является её огромное контекстное окно. GPT-5.4 предлагает более 1 миллиона контекстных токенов и ограничение в 128 000 выходных токенов. Это позволяет ей анализировать очень длинные документы, фрагменты кода или наборы данных за один сеанс.

GPT-5.4

Эта возможность имеет решающее значение, особенно для долгосрочных задач, таких как разработка программного обеспечения, финансовый анализ и исследовательские проекты. OpenAI заявляет о значительном улучшении точности. По данным компании, новая модель допускает на 33% меньше ошибок в предоставляемой информации и на 18% меньше дезинформации в общих ответах.

Согласно информации, предоставленной OpenAI, GPT-5.4 показал высокие результаты. В тесте GDPval он набрал 83,0%, превзойдя GPT-5.2 с его 70,9%. Он также превзошел более старые модели в SWE-Bench Pro с результатом 57,7%. В тесте Toolathlon результат составил 54,6%, по сравнению с 46,3% у GPT-5.2.

GPT-5.4

Среди всех тестов особого внимания заслуживает OSWorld-Verified. Этот бенчмарк измеряет способность искусственного интеллекта выполнять задачи в среде рабочего стола. Система анализирует скриншоты, а затем генерирует команды клавиатуры и мыши для выполнения задачи. GPT-5.4 достиг 75% успеха в OSWorld, по сравнению с 72,4% у человека. Короче говоря, новый GPT даже превзошел человеческие показатели. Именно в этом и заключается самое замечательное нововведение модели.

Например, агент ИИ может получить доступ к веб-сайту, собрать данные, создать файлы Excel на основе этих данных, сгенерировать презентации и сообщить о результатах. Таким образом, искусственный интеллект превращается из простого инструмента реагирования в настоящего помощника, выполняющего задачи. OpenAI протестировал 5.4 на задачах с электронными таблицами, выполняемых аналитиками инвестиционных банков, достигнув 87,3% успеха. GPT-5.2, с другой стороны, остался на уровне 68,4%. Разница действительно существенная.

GPT-5.4

Также наблюдаются улучшения в веб-поиске. В бенчмарке BrowseComp GPT-5.4 показал результат на 17 пунктов лучше, чем GPT-5.2. GPT-5.4 Pro, в свою очередь, побил рекорд в том же тесте, набрав 89,3%. BrowseComp измеряет способность агентов ИИ искать труднодоступную информацию в интернете. При этом модель GPT Pro использует больше вычислительных ресурсов, имеет более длительный мыслительный процесс и может давать гораздо более точные результаты в сложных задачах, чем раньше. Однако это имеет свою цену. Некоторые задачи могут выполняться дольше.

Сроки выхода

Развёртывание GPT-5.4 стартует с сегодняшнего дня в ChatGPT, Codex и API от OpenAI. Версия GPT-5.4 Thinking доступна пользователям планов Plus, Teams и Pro, тогда как GPT-5.4 Pro предоставляется через API, а также поддерживается подписчиками ChatGPT Enterprise и Edu.

Подпишись вTelegram