
🔍 ИИ и Загадки NPR
На этот раз исследователи решили проверить способности ИИ с помощью заданий из популярной передачи NPR "Sunday Puzzle", которую ведет Уилл Шортц. Каждое воскресенье слушатели пытаются разгадать интересные загадки. 🧩
📈 Бенчмаркинг ИИ
Команда ученых из Уэлсли-колледжа и Северо-восточного университета собрала загадки из "Sunday Puzzle", чтобы создать новый бенчмарк. Он помогает протестировать, как ИИ решает проблемы и насколько глубоко он может мыслить. 🤖
🤔 Производительность Моделей
Результаты показали, что такие модели, как o1 от OpenAI и R1 от DeepSeek, показывают неплохие результаты, но иногда "сдаются" и выдают неправильные ответы, демонстрируя "фрустрацию" и нелогичные объяснения.
🎯 Преимущества нового бенчмарка
НейроМозг
На этот раз исследователи решили проверить способности ИИ с помощью заданий из популярной передачи NPR "Sunday Puzzle", которую ведет Уилл Шортц. Каждое воскресенье слушатели пытаются разгадать интересные загадки. 🧩
📈 Бенчмаркинг ИИ
Команда ученых из Уэлсли-колледжа и Северо-восточного университета собрала загадки из "Sunday Puzzle", чтобы создать новый бенчмарк. Он помогает протестировать, как ИИ решает проблемы и насколько глубоко он может мыслить. 🤖
🤔 Производительность Моделей
Результаты показали, что такие модели, как o1 от OpenAI и R1 от DeepSeek, показывают неплохие результаты, но иногда "сдаются" и выдают неправильные ответы, демонстрируя "фрустрацию" и нелогичные объяснения.
🎯 Преимущества нового бенчмарка
НейроМозг