Команда Сбера выпустила в открытый доступ русскоязычную LLM модель ruGPT-3.5
Модель обучалась около полутора месяцев на 512 GPU V100 на русскоязычных материалах, вот что пишут сами разработчики:
"Модель была обучена в два этапа. Сначала она обучалась около полутора месяцев на 300 Гб данных, состоящих из книг, энциклопедийных и научных статей, социальных ресурсов и других источников.
Дополнительно, чтобы добавить актуальные знания в модель и улучшить её способности на отдельных доменах модель дообучили на расширенной версии датасета, в который вошли юридические документы, часть The Stack (открытый сет с кодом) от коллаборации исследователей BigCode, обновленные версии Википедии и новости. Дообучение заняло около 3-х недель и производилось на 200 GPU A100."
Еще пару слов характеристиках модели: Количество параметров - 13 миллиардов, Длина контекста - 2048 токенов. На 1 символ уходит примерно 4 токена.
Скачать модель можно на HuggingFace. Квантованную модель для запуска на GPU можно скачать тут.
Модель обучалась около полутора месяцев на 512 GPU V100 на русскоязычных материалах, вот что пишут сами разработчики:
"Модель была обучена в два этапа. Сначала она обучалась около полутора месяцев на 300 Гб данных, состоящих из книг, энциклопедийных и научных статей, социальных ресурсов и других источников.
Дополнительно, чтобы добавить актуальные знания в модель и улучшить её способности на отдельных доменах модель дообучили на расширенной версии датасета, в который вошли юридические документы, часть The Stack (открытый сет с кодом) от коллаборации исследователей BigCode, обновленные версии Википедии и новости. Дообучение заняло около 3-х недель и производилось на 200 GPU A100."
Еще пару слов характеристиках модели: Количество параметров - 13 миллиардов, Длина контекста - 2048 токенов. На 1 символ уходит примерно 4 токена.
Скачать модель можно на HuggingFace. Квантованную модель для запуска на GPU можно скачать тут.