Исследователи представили гигантскую языковую модель. Она бесплатна и работает на 46 языках



📚 До недавнего времени лишь несколько крупных компаний могли похвастаться успехами в разработке большой языковой модели. Для обучения нейросети нужны гигантские объемы данных и вычислительные мощности — непосильная задача для малого бизнеса и некоммерческих организаций. К тому же информация об обучении этих моделей ИИ обычно не раскрывается.



🌐 Устранить преграду для прогресса решились авторы исследовательского проекта BigScience, который стартовал в 2021 году. Их новая языковая модель BLOOM включает 176 миллиардов параметров. Она обучалась в течение 11 недель на французском суперкомпьютере Jean Zay.



㊙️🈴🆎 В отличие от GPT-3, LaMBDA и других крупных языковых моделей, BLOOM многоязычна и полностью открыта для исследователей. Она может генерировать текст на 46 естественных языках и диалектах, а также на 13 языках программирования. Для испанского, французского и арабского языков это первая модель, поддерживающая такое большое количество параметров.



🔀 По сути, Bloom — это модернизированная модель Megatron-LM GPT-2, которую выпустила NVIDIA в 2019 году. Продвинутая версия основана на архитектуре трансформера (decoder-only). Для оценки точности прогнозов здесь применяется перекрестная энтропия.



👨🏻‍🍳 При помощи подсказок нейросеть даже умеет создавать кулинарные рецепты или писать предложения с использованием недавно изобретенных слов. При этом разработчики модели никогда не обучали ее для работы с такими задачами.



🆓 В проекте участвуют около тысячи исследователей из более чем 60 стран и 250 организаций. Среди последних — американские техногиганты NVIDIA и Microsoft. Разработчики позволили бесплатно изучать, загружать и использовать BLOOM всем желающим. Любое физическое лицо или организация могут строить производные языковые модели на локальном компьютере или у облачного провайдера.



В будущем исследователи планируют увеличить количество поддерживаемых языков.