
Исследователь провел эксперимент: он заставил все популярные модели пройти тест несколько раз и сравнил результат.
В качестве основы был взят IQ-тест от норвежской Mensa, который почти полностью состоит из картинок — с ним почти все модели претендовали на статус «умственно отсталых». Тогда парень не растерялся и полностью описал текстом все задания и уже в таком виде «скормил» тест нейронкам.
Что хочется отметить:
— В теории, какая-то часть теста могла попасть в обучающий датасет каждой модели, поэтому тест не 100% объективен;
— Copilot от Microsoft «глупее», чем GPT-4, на основе которого его создали;
— Если выбирать ответы случайным образом, можно получить ответ, близкий к бесплатному ChatGPT.
Когда выйдет GPT-5 — можно уходить жить в лес.