o1 — новая модель от OpenAI, которая думает перед ответом



Вроде бы это совсем новая модель, дообученная при помощи RL лучше выполнять какое-то подобие Chain-of-thought. При этом процесс размышлений по дефолту скрывается от пользователя.



На мой взгляд новизна подхода сомнительная, но возможно OpenAI сделали это намного качественнее, чем остальные. Лично я больше люблю подход с абстрактными мыслями через "думательные" токены, про которые писал тут.



Мне повезло получить ранний доступ, и я протестил задачу, которую GPT-4o решала плохо. Как видите, o1 справилась намного лучше.



P.S. И обратите внимание, что это не совсем "Chain-of-thought", это скорее проговаривание вслух.



Техрепорт