
У конкурентов анонс: выпустили новые модельки o1 и o1-mini с серьёзным CoT. Как Reflection, только не мем, а реально рабочее. Самые большие приросты на сложных задачах олимпиадно-университетского уровня. Без скатывания канала в совсем бестолковую аналитику, хочется сразу пару наблюдений:
1. Очень дорогой инференс, порядка 100 раз увеличения затрат. Для простых работяг пока лимиты 30 сообщений в неделю (!). Придётся учиться формулировать весь запрос за раз.😰
2. Мы всё дальше отходим от сравнимости моделей. Хотя для кодинга и существует арена, доверять простым людям на LLM-арене становится всё проблематичнее. Особенно тяжело сравнивать в околонаучных задачах, где мало бенчмарков, на которых согласны бенчмаркать люди.
3. Модели всё больше разделяются на “болталки” и профессиональные. Я об этом уже писал раньше, и вот теперь стало совсем понятно, что никаких клубничек в продуктах не будет.
4. Этот результат – заслуга пост-тренинга. Показывает, насколько много чего в моделях мы ещё даже не понимаем, как использовать (другими примером за последний месяц был Gemini 1.5 Pro-0827, который сильно вырвался по бенчмаркам относительно майской модели).
Вот тут можно найти o1 system card, где должно быть больше деталей (кроме самого интересного, конечно).
1. Очень дорогой инференс, порядка 100 раз увеличения затрат. Для простых работяг пока лимиты 30 сообщений в неделю (!). Придётся учиться формулировать весь запрос за раз.
2. Мы всё дальше отходим от сравнимости моделей. Хотя для кодинга и существует арена, доверять простым людям на LLM-арене становится всё проблематичнее. Особенно тяжело сравнивать в околонаучных задачах, где мало бенчмарков, на которых согласны бенчмаркать люди.
3. Модели всё больше разделяются на “болталки” и профессиональные. Я об этом уже писал раньше, и вот теперь стало совсем понятно, что никаких клубничек в продуктах не будет.
4. Этот результат – заслуга пост-тренинга. Показывает, насколько много чего в моделях мы ещё даже не понимаем, как использовать (другими примером за последний месяц был Gemini 1.5 Pro-0827, который сильно вырвался по бенчмаркам относительно майской модели).
Вот тут можно найти o1 system card, где должно быть больше деталей (кроме самого интересного, конечно).