Недавно выпущенные модели искусственного интеллекта OpenAI o3 и o4-mini, хотя во многих отношениях являются передовыми, галлюцинируют и выдумывают чаще, чем некоторые из предыдущих моделей.

Внутреннее тестирование OpenAI показало, что o3 галлюцинирует в ответ на 33% вопросов из PersonQA — бенчмарка компании для измерения точности знаний модели о людях. Этот показатель примерно вдвое превышает уровень галлюцинаций предыдущих моделей рассуждений o1 и o3-mini, которые составили 16% и 14,8% соответственно. С o4-mini ситуация ещё хуже — 48%.

Ранее каждая новая модель снижала уровень галлюцинаций, но o3 и o4-mini нарушают эту закономерность. Независимое тестирование Transluce также выявило доказательства того, что o3 фальсифицирует свои действия: в одном примере исследователи наблюдали, как модель o3 утверждала, что «запустил код на MacBook Pro 2021 года вне ChatGPT», а затем скопировала результаты в ответ. Хотя o3 имеет доступ к некоторым инструментам, она не может этого сделать.

Ещё больше беспокойство вызывает тот факт, что OpenAI не понимает причин этого явления. В техническом отчёте по o3 и o4-mini компания отмечает: «Необходимы дополнительные исследования, чтобы понять, почему уровень галлюцинаций увеличивается при масштабировании моделей рассуждений». Модели o3 и o4-mini по-прежнему превосходят предшественников в некоторых областях, в том числе в задачах, связанных с программированием и математикой. По сообщению OpenAI, поскольку они «генерируют больше утверждений в целом», они одновременно выдают и более точные, и более неточные (галлюцинаторные) ответы.

Хотя некоторые утверждают, что галлюцинации способствуют креативности ИИ, в профессиональной среде они представляют серьёзный риск. Представьте юридическую фирму, использующую ИИ для составления контрактов — если ИИ вставит неверную информацию, это может иметь серьёзные последствия.

Одно из возможных решений, сейчас находящееся на стадии изучения, — предоставить моделям ИИ доступ к веб‑поиску. Комбинация GPT‑4o и поиска в Интернете достигла 90% точности в другом бенчмарке SimpleQA. Возможно, добавление инструментов поиска к моделям рассуждений, таким как o3 и o4-mini, поможет сократить количество галлюцинаций, хотя это и сопряжено с компромиссами.

Подпишись вTelegram
Представлен Vivo X200 Ultra – Snapdragon 8 Elite, 6000 мАч и 200 Мп

Представлен Vivo X200 Ultra – Snapdragon 8 Elite, 6000 мАч и 200 Мп

Младшая NVIDIA RTX 5060 Ti с 8 ГБ памяти теряет до 30% FPS и не тянет DLSS 4

Младшая NVIDIA RTX 5060 Ti с 8 ГБ памяти теряет до 30% FPS и не тянет DLSS 4

Представлен LG Smart Monitor Swing – «умный» монитор на колёсах

Представлен LG Smart Monitor Swing – «умный» монитор на колёсах

Lenovo представила мощный игровой ПК с видеокартой RTX 50

Lenovo представила мощный игровой ПК с видеокартой RTX 50

ASUS представила игровой ноутбук TUF Gaming A14 с видеокартой RTX 5060

ASUS представила игровой ноутбук TUF Gaming A14 с видеокартой RTX 5060

Вышла iOS 18.4.1 с исправлением критических ошибок

Вышла iOS 18.4.1 с исправлением критических ошибок

Представлен Samsung Galaxy M56 – 5000 мАч и Exynos 1480

Представлен Samsung Galaxy M56 – 5000 мАч и Exynos 1480

Motorola представила свой первый ноутбук – OLED на 120 Гц и Intel Core 7

Motorola представила свой первый ноутбук – OLED на 120 Гц и Intel Core 7

Планшет Motorola Pad 60 Pro получил 144-герцевый экран и батарею на 10 200 мАч

Планшет Motorola Pad 60 Pro получил 144-герцевый экран и батарею на 10 200 мАч

OpenAI тратит «десятки миллионов долларов» на благодарность ChatGPT

OpenAI тратит «десятки миллионов долларов» на благодарность ChatGPT

Schenker выпустила ноутбук с 256 ГБ ОЗУ и RTX 5090

Schenker выпустила ноутбук с 256 ГБ ОЗУ и RTX 5090

Наушники Skullcandy Method 360 ANC могут проработать до 11 часов

Наушники Skullcandy Method 360 ANC могут проработать до 11 часов