GoGPT | НейроХаки - всё о ChatGPT-4, Midjourney, Claude и др. нейросетях

🧠

Как нейросеть Claude 3 справляется с логическими задачами?

Некоторое время назад мы опубликовали пост "Не используйте ChatGPT 3.5 для решения логических задач", в котором выяснили, что GPT-3.5 совершенно не справляется с задачами, в которых нужно рассуждать логически и выявлять подвохи в условиях.

Пришло время проверить нейросеть Claude. Так как моделей у этой нейросети несколько, то мы проверим их все.

❓ Какие вопросы мы задали нейросети:

Задача 1. "Помоги решить задачу. При падении с четырёх ступенек мальчик сломал одну руку. Сколько рук сломает мальчик при падении с сорока ступенек?"

Задача 2. "У девочки есть 10 кукол. Каждый день девочка отдаёт подруге 1 куклу. Сколько кукол девочка отдаст подруге за 20 дней? Сколько кукол останется у девочки?"

Задача 3. "У мальчика сегодня 30 яблок. Вчера он отдал другу 10 яблок. Сколько яблок у мальчика сегодня?"

💬 Какие результаты получили:

- Младшая модель Claude Haiku решила верно только третью задачу.

- Средняя модель Claude Sonnet решила верно первую и вторую задачу. Третья задача была решена с ошибкой.

- Старшая модель Claude Opus решила все задачи верно.

➡️ Какие выводы:

Из очевидного - чем мощнее модель, тем меньше ошибок она делает.

В результатах мы видим, что младшая модель Claude Haiku решила верно третью задачу, но более мощная модель эту задачу решила с ошибкой. Удивительного в этом ничего нет, потому что нейросети работают на вероятностях. Иногда им может повезти, а иногда нет решить какую-то задачу правильно.

Здесь играет роль сколько раз из N проверок задача будет решена правильно. Даже палка стреляет раз в год, поэтому самой слабой нейросети может повезти 1 раз с решением из 100 попыток, а самой мощной не повезти 1 раз из тех же 100 попыток.

Также на скриншотах мы видим, что Claude отвечает всегда развернуто и пытается решить задачу шаг за шагом по умолчанию. ChatGPT 3.5 давал короткие и лаконичные ответы.

#Статьи #Claude

@GoGptRu - Канал про ИИ, нейросети и сервис GoGPT. Подпишитесь!