В открытом доступе опубликован RedPajama – датасет текстов, содержащий более 1,2 трлн токенов. Датасет собран коллаборацией из нескольких университетов и организаций для создания общедоступных больших языковых моделей.
#Datasets
https://neurohive.io/ru/datasety/redpajama-obshhedostupnyj-dataset-dlya-obucheniya-bolshih-yazykovyh-modelej/
@bigdatai
#Datasets
https://neurohive.io/ru/datasety/redpajama-obshhedostupnyj-dataset-dlya-obucheniya-bolshih-yazykovyh-modelej/
@bigdatai