Не только открытый код и данные для обучения, но также рекордно низкая стоимость разработки в $450 делают этот проект революционным.
Исследователи подчеркивают: «Это показывает, что высокоуровневые способности рассуждения могут быть доступны и эффективны».
Для сравнения, недавно представленный ИИ Palmyra X 004 от компании Writer обошелся в $700,000, что уже значительно меньше традиционных миллионов.
Sky-T1, обладающая 32 миллиардами параметров, была обучена за 19 часов на восьми GPU Nvidia H100. В начальном этапе команда использовала модель QwQ-32B-Preview от Alibaba для создания базовых данных, а затем оптимизировала их с помощью GPT-4o-mini от OpenAI.
Результаты впечатляют: Sky-T1 превосходит раннюю версию o1 от OpenAI в тестах на олимпиадную математику (MATH500) и программирование (LiveCodeBench), хотя уступает в тестах на вопросы уровня PhD по физике, биологии и химии (GPQA-Diamond).
Хотя текущая версия o1 и ожидаемая o3 от OpenAI являются более мощными, команда NovaSky не собирается останавливаться: «Мы будем сосредоточены на разработке более эффективных моделей, сохраняя сильные аналитические способности, и исследовании способов повышения производительности и точности».