
GPT-4 со временем ухудшается, а не улучшается
Многие сообщали о значительном ухудшении качества ответов моделей, до сих пор все это было анекдотично, но теперь мы знаем. По крайней мере, одно исследование показывает, насколько июньская версия GPT-4 объективно хуже, чем версия, выпущенная в марте по нескольким задачам.
Команда оценила модели, используя набор данных из 500 задач, в которых модели должны были выяснить, является ли данное целое число простым. В марте GPT-4 правильно ответил на 488 из этих вопросов. В июне он получил только 12 правильных ответов. С 97,6% успеха до 2,4%!
Генерация кода также ухудшилась. Команда создала набор данных с 50 простыми задачами из LeetCode и измерила, сколько ответов GPT-4 было выполнено без каких-либо изменений. Мартовская версия преуспела в 52% проблем, но этот показатель снизился до 10% при использовании модели с июня.
Вот оригинал статьи.
Многие сообщали о значительном ухудшении качества ответов моделей, до сих пор все это было анекдотично, но теперь мы знаем. По крайней мере, одно исследование показывает, насколько июньская версия GPT-4 объективно хуже, чем версия, выпущенная в марте по нескольким задачам.
Команда оценила модели, используя набор данных из 500 задач, в которых модели должны были выяснить, является ли данное целое число простым. В марте GPT-4 правильно ответил на 488 из этих вопросов. В июне он получил только 12 правильных ответов. С 97,6% успеха до 2,4%!
Генерация кода также ухудшилась. Команда создала набор данных с 50 простыми задачами из LeetCode и измерила, сколько ответов GPT-4 было выполнено без каких-либо изменений. Мартовская версия преуспела в 52% проблем, но этот показатель снизился до 10% при использовании модели с июня.
Вот оригинал статьи.