epsilon correct

Как правильно нюхать модели

За последние две недели западные лабы расщедрились на аж целых три релиза: Grok 3 от xAI, Claude 3.7 от Anthropic, и GPT 4.5 от OpenAI. С гроком и клодом всё понятно: первый пробил 1400 Эло на арене, второй пишет отличный код. С GPT 4.5 всё сложно: никаких пробитых бенчмарков, только эфемерный big model smell – "запах большой модели". Давайте разберёмся, как научиться отличать большие моделей от мелких.

Интуитивно, маленькие модели похожи на не очень умных зубрил, которые мало что понимают, зато очень стараются ответить "правильно". У них часто не хватает знаний, чтобы ответить на вопрос корректно, но из-за оптимизации на человеческие предпочтения получаются универсальные подхалимы.

У больших моделей сильно больше ёмкости для запоминания конкретных фактов и закономерностей, поэтому для более редких запросов у них найдётся больше действительно полезных знаний для ответа. Как учуять запах настоящих знаний? 🧐

Для этого мы с Клодом состряпали для дорогих подписчиков сайт с десятью промптами, заточенными на проверку действительно важных способностей моделей:

1. Написать рэп про белку в Вашингтон-Сквер-парке.

2. Написать страшный рассказ в двух предложениях.

3. Рассказать, как искать треугольники в огромных графах.

4. Проанализировать большие языковые модели с точки зрения русских космистов.

5. Проанализировать обонятельную этику фразы "big model smell".

6. Пошутить про специалиста в вычислительной линейной алгебре.

7. Рассказать, где купить клюкву в сахаре в Москве.

8. Придумать абсолютно новое слово, которым можно выразить эмоцию, присущую многим людям.

9. Написать greentext про себя.

10. Выдать саркастичный тейк про человечество.

Доступны ответы GPT 4.5, Claude 3.7 Thinking, Gemini 2.0 Pro, Grok 3. Объясню, какие ответы мне кажутся лучше в отдельном посте, а пока предлагаю обсудить их в комментариях.