🧠 Как нейросеть Claude 3 справляется с логическими задачами?



Некоторое время назад мы опубликовали пост "Не используйте ChatGPT 3.5 для решения логических задач", в котором выяснили, что GPT-3.5 совершенно не справляется с задачами, в которых нужно рассуждать логически и выявлять подвохи в условиях.



Пришло время проверить нейросеть Claude. Так как моделей у этой нейросети несколько, то мы проверим их все.



Какие вопросы мы задали нейросети:



Задача 1. "Помоги решить задачу. При падении с четырёх ступенек мальчик сломал одну руку. Сколько рук сломает мальчик при падении с сорока ступенек?"



Задача 2. "У девочки есть 10 кукол. Каждый день девочка отдаёт подруге 1 куклу. Сколько кукол девочка отдаст подруге за 20 дней? Сколько кукол останется у девочки?"



Задача 3. "У мальчика сегодня 30 яблок. Вчера он отдал другу 10 яблок. Сколько яблок у мальчика сегодня?"



💬 Какие результаты получили:



- Младшая модель Claude Haiku решила верно только третью задачу.



- Средняя модель Claude Sonnet решила верно первую и вторую задачу. Третья задача была решена с ошибкой.



- Старшая модель Claude Opus решила все задачи верно.



➡️ Какие выводы:



Из очевидного - чем мощнее модель, тем меньше ошибок она делает.



В результатах мы видим, что младшая модель Claude Haiku решила верно третью задачу, но более мощная модель эту задачу решила с ошибкой. Удивительного в этом ничего нет, потому что нейросети работают на вероятностях. Иногда им может повезти, а иногда нет решить какую-то задачу правильно.



Здесь играет роль сколько раз из N проверок задача будет решена правильно. Даже палка стреляет раз в год, поэтому самой слабой нейросети может повезти 1 раз с решением из 100 попыток, а самой мощной не повезти 1 раз из тех же 100 попыток.



Также на скриншотах мы видим, что Claude отвечает всегда развернуто и пытается решить задачу шаг за шагом по умолчанию. ChatGPT 3.5 давал короткие и лаконичные ответы.



#Статьи #Claude



@GoGptRu - Канал про ИИ, нейросети и сервис GoGPT. Подпишитесь!