На подходе новая сетка на 1.2 триллиона параметров

https://www.together.xyz/blog/redpajama



Полный набор данных RedPajama на 1,2 триллиона токенов и меньшую, но более удобную случайную выборку можно загрузить через Hugging Face. Полный набор данных составляет ~5 ТБ в разархивированном виде на диске и ~3 ТБ в сжатом виде для скачивания.



RedPajama-Data-1T состоит из семи срезов данных:



CommonCrawl: пять дампов CommonCrawl, обработанных с использованием конвейера CCNet и отфильтрованных с помощью нескольких фильтров качества, включая линейный классификатор, который выбирает страницы, подобные Википедии.



C4: стандартный набор данных C4



GitHub: данные GitHub, отфильтрованные по лицензиям и качеству.



arXiv: удаление шаблонов из научных статей



Книги: корпус открытых книг, дедуплицированный по сходству содержания.



Википедия: подмножество страниц Википедии, удаление шаблонного кода.



StackExchange: Подмножество популярных веб-сайтов в StackExchange, удаление шаблонного кода.