WSJ: ChatGPT стал хуже выполнять некоторые базовые математические операции



– Ухудшение стало примером явления под названием «drift»

– Попытки улучшить одну из частей ухудшили работу других

– Исследователи протестировали версии ChatGPT 3.5 и 4.0

– Они должны были определить: является ли число простым

– Например, является ли число «17077» или «17947» простым

– Исследователи скормили ChatGPT 1000 различных чисел

– В марте GPT-4 давал 84% правильных ответа, в июне 52%

– При этом модель GPT-4 стала хуже в 6 из 8 разных задач

– GPT-3.5 стала лучше в 6 задачах, но все же хуже GPT-4

– Исследователи также задали 1,5 тыс. вопросов про мнение

– В марте ChatGPT давал мнение на 98% таких вопросов

– В июне было 23%, в остальных случаях он воздержался



@ftsec