Microsoft представил свою самую маленькую модель



Компания представила компактную ИИ-модель Phi-3 Mini с 3,8 млрд параметров. Она уже доступна в Azure, Hugging Face и Ollama — у модели есть свободная MIT-лицензия.



По словам разработчиков, при создании модели они вдохновлялись детскими книгами, в которых сложные вещи объясняют простыми словами.



Вместо обучения модели на необработанных веб-данных исследователи Microsoft решили использовать подготовленную и более качественную информацию. Они создали датасет из 3000 слов, включавший равное количество существительных, глаголов и прилагательных. Затем большая языковая модель сгенерировала миллионы детских рассказов, используя слова из списка. Полученный набор данных назвали TinyStories, его применяли для обучения совсем маленьких моделей с около 10 млн параметров.



Затем исследователи тщательно отобрали открытые данные из интернета, собрали в единый датасет и использовали похожую схему для генерации данных. Чтобы добиться высокого качества, они неоднократно фильтровали полученный контент, прежде чем отправить его обратно в LLM для дальнейшего синтеза. За несколько недель ученые накопили достаточно большой массив синтетических данных, чтобы обучить более способную модель.



Phi-3 Mini стала первым релизом в линейке компактных моделей Microsoft. В будущем компания выпустит Phi-3 Small и Phi-3 Medium с 7 и 14 млрд параметров соответственно.



Разработчики уверены, что Phi-3 Mini по своим возможностям сопоставима с некоторыми большими моделями, например, GPT-3.5. При этом инженеры согласны: по сложности ответов и широте охвата Phi-3 уступает передовым LLM, например, GPT-4.



Phi-3 — это улучшенная версия предыдущих итераций модели. Phi-1 заточена на кодирование, Phi-2 обучили рассуждать, а Phi-3 еще лучше справляется с написанием кода и с рассуждениями.



Некоторые техкомпании разрабатывают малые LM, но, как правило, они специализируются на решении узких задач. Например, модели Gemma 2B и 7B от Anthropic анализируют научные статьи с графиками и быстро обобщают их, а модель Llama 3 от Meta* можно использовать при написании кода и создания чат-ботов. Microsoft же заявляет, что Phi-3 — универсальное решение, подходящее для разных задач.



Ранее СМИ сообщили, что Microsoft формирует команду, специализированную на компактных моделях ИИ. Вместе с Phi компания также разработала модель Orca-Math для решения математических задач.

*Организация, запрещенная на территории РФ