OpenAI впервые с момента выпуска GPT-2 в 2019 году представила две открытые языковые модели ИИ. По данным OpenAI, текстовые модели называются GPT-OSS-120B и GPT-OSS-20B и предназначены для использования в качестве недорогих вариантов, которые разработчики, исследователи и компании могут легко запускать и настраивать.

Модели выпускаются в двух размерах: более крупная и производительная GPT-OSS-120B может работать на одном графическом процессоре NVIDIA, а более лёгкая GPT-OSS-20B – на потребительском ноутбуке с 16 ГБ памяти.

Обе модели способны обрабатывать сложные рассуждения, использовать инструменты и цепочки мыслей, и предназначены для работы где угодно – от потребительского оборудования до облака и приложений на устройствах. По словам OpenAI, пользователи могут запускать GPT-OSS-20B, например, на ноутбуке и использовать её в качестве персонального помощника, который может искать в файлах и писать.

Как работают модели

Обе модели GPT-OSS используют технологию Mixture-of-Experts (MoE), позволяющую задействовать лишь часть параметров при обработке запроса, что существенно повышает производительность. Так, в GPT-OSS-120B на каждый токен активируется лишь 5,1 миллиарда параметров из общего числа в 117 миллиардов. При обучении моделей использовалось обучение с подкреплением (RL) – они совершенствовались на основе обратной связи, полученной в смоделированных ситуациях, аналогично коммерческим моделям OpenAI.

OpenAI gpt-oss

Модели обладают способностью к «цепному мышлению» – то есть могут последовательно решать задачи, используя дополнительные инструменты, такие как поиск информации в сети или выполнение программного кода.

Однако существуют ограничения. Они работают исключительно с текстовыми данными, не поддерживают изображения и звук. Кроме того, они склонны к «галлюцинациям» в большей степени, чем более продвинутые аналоги. В тесте PersonQA, например, модели GPT-OSS выдавали неверные ответы в 49% и 53% случаев соответственно, в то время как даже O4-mini «галлюцинирует» лишь в 36% случаев. При этом компания воздерживается от публикации данных, использованных для обучения, ссылаясь на возможные юридические последствия – в адрес ИИ-компаний уже поданы иски, связанные с использованием материалов, защищённых авторским правом.

В ходе тестирования производительности новые модели продемонстрировали достойные результаты:

  • Codeforces (программирование): GPT-OSS-120B – 2622 балла, GPT-OSS-20B – 2516 баллов. Это выше, чем у DeepSeek R1, но ниже, чем у моделей OpenAI O3 и O4-mini;
  • HLE (Humanity’s Last Exam): 19% и 17,3% соответственно – выше, чем у большинства моделей с открытым исходным кодом, но ниже, чем у закрытых моделей OpenAI.
OpenAI gpt-oss

Обе модели распространяются под лицензией Apache 2.0, которая разрешает их бесплатное использование в коммерческих целях без необходимости получения разрешения от OpenAI. Также допускается модификация кода для адаптации под собственные нужды.

Перед выпуском OpenAI провела оценку рисков злонамеренного использования GPT-OSS, включая создание биооружия или осуществление кибератак. Риски были признаны невысокими, однако компания отмечает, что при специальном дообучении модели могут в определённой степени упростить реализацию вредоносных сценариев.

Сроки выхода

Обе модели доступны для бесплатной загрузки на платформе Hugging Face, предназначенной для разработчиков.

Подпишись вTelegram