Neurogen

Команда Сбера выпустила в открытый доступ русскоязычную LLM модель ruGPT-3.5

Модель обучалась около полутора месяцев на 512 GPU V100 на русскоязычных материалах, вот что пишут сами разработчики:

"Модель была обучена в два этапа. Сначала она обучалась около полутора месяцев на 300 Гб данных, состоящих из книг, энциклопедийных и научных статей, социальных ресурсов и других источников.

Дополнительно, чтобы добавить актуальные знания в модель и улучшить её способности на отдельных доменах модель дообучили на расширенной версии датасета, в который вошли юридические документы, часть The Stack (открытый сет с кодом) от коллаборации исследователей BigCode, обновленные версии Википедии и новости. Дообучение заняло около 3-х недель и производилось на 200 GPU A100."

Еще пару слов характеристиках модели: Количество параметров - 13 миллиардов, Длина контекста - 2048 токенов. На 1 символ уходит примерно 4 токена.

Скачать модель можно на HuggingFace. Квантованную модель для запуска на GPU можно скачать тут.