Малая языковая модель от Microsoft, которая может конкурировать с LLM
В декабре Microsoft представил новую SLM Phi-2. У неё всего 2,7 млрд параметров. Она хорошо справляется с задачами, которые связаны с логическим мышлением и пониманием языка.
Phi-2 обходит по результатам агрегированных бенчмарков «здравый смысл», «понимание языка», «математика» и «программирование» Mistral и Llama-2 с 7 и 13 млрд параметров. А в написании кода она эффективнее даже Llama-2-70B, которая в 25 раз больше. Phi-2 превосходит и Gemini Nano от Google, предназначенную для работы на мобильных устройствах. Это подчеркивает потенциал Phi-2 в области мобильных технологий.
Модель Microsoft обучалась в течение 14 дней на 96 графических процессорах A100. Создатели говорят, что качество тренировочных датасетов сыграло решающую роль для производительности модели. Компания использовала синтетические наборы данных: они были специально созданы для обучения SLM здравому смыслу и общим знаниям (например, в научной сфере). Также их дополнили тщательно отобранными веб-данными. Их команда отфильтровала исходя из их ценности и качества.
И еще одна важная деталь — ученые смогли добиться эффективности без методов обучения с подкреплением, основанных на человеческой обратной связи, или методов инструкционной настройки (instructional tuning).
По словам представителей Microsoft, Phi-2 идеальна для исследований в области безопасности ИИ, интерпретируемости и этического развития языковых моделей. Она уже доступна в каталоге Azure AI Studio.
Phi-2 — третья из малых языков моделей от Microsoft. Phi-1 с 1,3 млрд параметров показала лучшие результаты при программировании на Python среди существующих SLM. Затем ИТ-гигант сделал фокус на логику и понимание языка и создал новую модель с тем же количеством параметров — Phi-1.5. Ее производительность сопоставима с моделями в 5 раз больше.
SLM более экономически эффективны, чем LLM, так как не требуют такой вычислительной мощности.
В декабре Microsoft представил новую SLM Phi-2. У неё всего 2,7 млрд параметров. Она хорошо справляется с задачами, которые связаны с логическим мышлением и пониманием языка.
Phi-2 обходит по результатам агрегированных бенчмарков «здравый смысл», «понимание языка», «математика» и «программирование» Mistral и Llama-2 с 7 и 13 млрд параметров. А в написании кода она эффективнее даже Llama-2-70B, которая в 25 раз больше. Phi-2 превосходит и Gemini Nano от Google, предназначенную для работы на мобильных устройствах. Это подчеркивает потенциал Phi-2 в области мобильных технологий.
Модель Microsoft обучалась в течение 14 дней на 96 графических процессорах A100. Создатели говорят, что качество тренировочных датасетов сыграло решающую роль для производительности модели. Компания использовала синтетические наборы данных: они были специально созданы для обучения SLM здравому смыслу и общим знаниям (например, в научной сфере). Также их дополнили тщательно отобранными веб-данными. Их команда отфильтровала исходя из их ценности и качества.
И еще одна важная деталь — ученые смогли добиться эффективности без методов обучения с подкреплением, основанных на человеческой обратной связи, или методов инструкционной настройки (instructional tuning).
По словам представителей Microsoft, Phi-2 идеальна для исследований в области безопасности ИИ, интерпретируемости и этического развития языковых моделей. Она уже доступна в каталоге Azure AI Studio.
Phi-2 — третья из малых языков моделей от Microsoft. Phi-1 с 1,3 млрд параметров показала лучшие результаты при программировании на Python среди существующих SLM. Затем ИТ-гигант сделал фокус на логику и понимание языка и создал новую модель с тем же количеством параметров — Phi-1.5. Ее производительность сопоставима с моделями в 5 раз больше.
SLM более экономически эффективны, чем LLM, так как не требуют такой вычислительной мощности.