​​В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей.



#Datasets



https://neurohive.io/ru/datasety/redpajama-obshhedostupnyj-dataset-dlya-obucheniya-bolshih-yazykovyh-modelej/



@bigdatai