Свежее исследование, проведенное исследователями Стэнфордского университета, обнаружило, что языковая модель GPT-4, которая является основой для ChatGPT, стала значительно менее точной по сравнению с более ранней версией модели GPT-3.5. Исследователи задавали чат-боту различные вопросы, включая математические задачи, и оценивали правильность его ответов.
В результате исследования выяснилось, что в марте модель GPT-4 давала правильные ответы в 97,6% случаев, но в июне этот показатель упал до всего 2,4%. Это означает, что почти никогда чат-бот не мог правильно ответить на заданные вопросы. В то же время, более старая модель GPT-3.5 показала улучшение результатов, её точность возросла с 7,4% до 86,8%.
Также ученые измерили производительность генерации кода для модели GPT-4, используя набор данных с 50 простыми задачами из LeetCode. Мартовская версия успешно справилась с 52% проблем, но при использовании июньской модели этот показатель снизился до 10%.
Пользователи также жалуются на снижение «умственных способностей» ChatGPT в последние недели. Причины такого ухудшения пока неясны, и компания OpenAI, разработчик GPT, пока не предприняла никаких мер по улучшению ситуации.