Недавно выпущенные модели искусственного интеллекта OpenAI o3 и o4-mini, хотя во многих отношениях являются передовыми, галлюцинируют и выдумывают чаще, чем некоторые из предыдущих моделей.

Внутреннее тестирование OpenAI показало, что o3 галлюцинирует в ответ на 33% вопросов из PersonQA — бенчмарка компании для измерения точности знаний модели о людях. Этот показатель примерно вдвое превышает уровень галлюцинаций предыдущих моделей рассуждений o1 и o3-mini, которые составили 16% и 14,8% соответственно. С o4-mini ситуация ещё хуже — 48%.

Ранее каждая новая модель снижала уровень галлюцинаций, но o3 и o4-mini нарушают эту закономерность. Независимое тестирование Transluce также выявило доказательства того, что o3 фальсифицирует свои действия: в одном примере исследователи наблюдали, как модель o3 утверждала, что «запустил код на MacBook Pro 2021 года вне ChatGPT», а затем скопировала результаты в ответ. Хотя o3 имеет доступ к некоторым инструментам, она не может этого сделать.

Ещё больше беспокойство вызывает тот факт, что OpenAI не понимает причин этого явления. В техническом отчёте по o3 и o4-mini компания отмечает: «Необходимы дополнительные исследования, чтобы понять, почему уровень галлюцинаций увеличивается при масштабировании моделей рассуждений». Модели o3 и o4-mini по-прежнему превосходят предшественников в некоторых областях, в том числе в задачах, связанных с программированием и математикой. По сообщению OpenAI, поскольку они «генерируют больше утверждений в целом», они одновременно выдают и более точные, и более неточные (галлюцинаторные) ответы.

Хотя некоторые утверждают, что галлюцинации способствуют креативности ИИ, в профессиональной среде они представляют серьёзный риск. Представьте юридическую фирму, использующую ИИ для составления контрактов — если ИИ вставит неверную информацию, это может иметь серьёзные последствия.

Одно из возможных решений, сейчас находящееся на стадии изучения, — предоставить моделям ИИ доступ к веб‑поиску. Комбинация GPT‑4o и поиска в Интернете достигла 90% точности в другом бенчмарке SimpleQA. Возможно, добавление инструментов поиска к моделям рассуждений, таким как o3 и o4-mini, поможет сократить количество галлюцинаций, хотя это и сопряжено с компромиссами.

Подпишись вTelegram
Honor представила ноутбук MagicBook Art 14 (2025)

Honor представила ноутбук MagicBook Art 14 (2025)

Microsoft уволила 9 000 сотрудников – почти 50% в студиях Xbox

Microsoft уволила 9 000 сотрудников – почти 50% в студиях Xbox

Google оштрафовали на $314 млн за фоновое извлечение данных с Android

Google оштрафовали на $314 млн за фоновое извлечение данных с Android

Представлен Honor MagicPad 3 – Snapdragon 8 Gen 3 и 165 Гц за $418

Представлен Honor MagicPad 3 – Snapdragon 8 Gen 3 и 165 Гц за $418

Lexar представила портативный SSD с поддержкой MagSafe

Lexar представила портативный SSD с поддержкой MagSafe

Представлен Honor Magic V5 – самый тонкий складной смартфон с батареей на 6100 мАч

Представлен Honor Magic V5 – самый тонкий складной смартфон с батареей на 6100 мАч

NVIDIA GeForce RTX 5060 Ti с 8 ГБ оказалась никому не нужна

NVIDIA GeForce RTX 5060 Ti с 8 ГБ оказалась никому не нужна

ТОП-10 самых мощных смартфонов за июнь 2025 года

ТОП-10 самых мощных смартфонов за июнь 2025 года

Представлены Nothing Headphone (1) – первые полноразмерные наушники бренда

Представлены Nothing Headphone (1) – первые полноразмерные наушники бренда

Представлен Nothing Phone (3) с четырьмя 50 Мп камерами

Представлен Nothing Phone (3) с четырьмя 50 Мп камерами

Представлен Red Magic Astra – компактный планшет для глобального рынка

Представлен Red Magic Astra – компактный планшет для глобального рынка

Apple готовит MacBook с процессором от iPhone

Apple готовит MacBook с процессором от iPhone