Недавно выпущенные модели искусственного интеллекта OpenAI o3 и o4-mini, хотя во многих отношениях являются передовыми, галлюцинируют и выдумывают чаще, чем некоторые из предыдущих моделей.

Внутреннее тестирование OpenAI показало, что o3 галлюцинирует в ответ на 33% вопросов из PersonQA — бенчмарка компании для измерения точности знаний модели о людях. Этот показатель примерно вдвое превышает уровень галлюцинаций предыдущих моделей рассуждений o1 и o3-mini, которые составили 16% и 14,8% соответственно. С o4-mini ситуация ещё хуже — 48%.

Ранее каждая новая модель снижала уровень галлюцинаций, но o3 и o4-mini нарушают эту закономерность. Независимое тестирование Transluce также выявило доказательства того, что o3 фальсифицирует свои действия: в одном примере исследователи наблюдали, как модель o3 утверждала, что «запустил код на MacBook Pro 2021 года вне ChatGPT», а затем скопировала результаты в ответ. Хотя o3 имеет доступ к некоторым инструментам, она не может этого сделать.

Ещё больше беспокойство вызывает тот факт, что OpenAI не понимает причин этого явления. В техническом отчёте по o3 и o4-mini компания отмечает: «Необходимы дополнительные исследования, чтобы понять, почему уровень галлюцинаций увеличивается при масштабировании моделей рассуждений». Модели o3 и o4-mini по-прежнему превосходят предшественников в некоторых областях, в том числе в задачах, связанных с программированием и математикой. По сообщению OpenAI, поскольку они «генерируют больше утверждений в целом», они одновременно выдают и более точные, и более неточные (галлюцинаторные) ответы.

Хотя некоторые утверждают, что галлюцинации способствуют креативности ИИ, в профессиональной среде они представляют серьёзный риск. Представьте юридическую фирму, использующую ИИ для составления контрактов — если ИИ вставит неверную информацию, это может иметь серьёзные последствия.

Одно из возможных решений, сейчас находящееся на стадии изучения, — предоставить моделям ИИ доступ к веб‑поиску. Комбинация GPT‑4o и поиска в Интернете достигла 90% точности в другом бенчмарке SimpleQA. Возможно, добавление инструментов поиска к моделям рассуждений, таким как o3 и o4-mini, поможет сократить количество галлюцинаций, хотя это и сопряжено с компромиссами.

Подпишись вTelegram
Fortnite вернулся в App Store после 5 лет судов из Apple

Fortnite вернулся в App Store после 5 лет судов из Apple

Представлена AMD Radeon RX 9060 XT – 16 ГБ памяти и трассировка лучей

Представлена AMD Radeon RX 9060 XT – 16 ГБ памяти и трассировка лучей

Google представил расширенный поиск AI Mode

Google представил расширенный поиск AI Mode

Представлены iQOO Pad 5 и 5 Pro – мощные планшеты на чипах MediaTek

Представлены iQOO Pad 5 и 5 Pro – мощные планшеты на чипах MediaTek

Представлен iQOO Neo 10 Pro+ – 6800 мАч, 120 Вт, Snapdragon 8 Elite

Представлен iQOO Neo 10 Pro+ – 6800 мАч, 120 Вт, Snapdragon 8 Elite

Huawei выпустила первый ПК на HarmonyOS

Huawei выпустила первый ПК на HarmonyOS

Ноутбуки с NVIDIA GeForce RTX 5060 появились в продаже – цена от $1099

Ноутбуки с NVIDIA GeForce RTX 5060 появились в продаже – цена от $1099

Выпущена видеокарта Intel Arc Pro B60 Dual Turbo с 48 ГБ памяти

Выпущена видеокарта Intel Arc Pro B60 Dual Turbo с 48 ГБ памяти

Huawei показала ноутбук MateBook Fold с гибким экраном

Huawei показала ноутбук MateBook Fold с гибким экраном

Huawei выпустила смартфоны Nova 14 Pro и 14 Ultra

Huawei выпустила смартфоны Nova 14 Pro и 14 Ultra

Представлен ZTE Axon 50 – недорогой камерофон на Snapdragon 8+ Gen 1

Представлен ZTE Axon 50 – недорогой камерофон на Snapdragon 8+ Gen 1

Acer представила новые игровые мониторы с частотой до 500 Гц

Acer представила новые игровые мониторы с частотой до 500 Гц