JUST IN: META обучили семейство моделей LLaMA (7B, 13B, 33B и 65B параметров), однако не всё так просто:



> Access to the model will be granted on a case-by-case basis to academic researchers



Модель 65B обучена с +- тем же вычислительным бюджетом, что и GPT-3, но на большем количестве токенов (~оптимальном для выхода на плато):

> We trained LLaMA 65B and LLaMA 33B on 1.4 trillion tokens. Our smallest model, LLaMA 7B, is trained on one trillion tokens.



Модели мультиязычные (20 языков в датасете).

Метрики на уровне или чуть лучше, чем у GPT-3, правда я так и не понял, идёт ли сравнение с версией 2020го года или существенно улучшенной GPT-3.5 2022го.



Статья (pdf): ссылка.