Новый многоязычный датасет изображений с подписями от Laion



В блоге Laion появилась запись, датированная 9 сентября 2022. Сегодня только 3.09.2022, ждём новый релиз?



Новые датасеты:



🔹laion2B-en 2.32 billion of these contain texts in the English language

🔹laion2B-multi 2.26 billion contain texts from 100+ other languages

🔹laion1B-nolang 1.27 billion have texts where a particular language couldn’t be clearly detected.

🔹The data can comfortably be downloaded with img2dataset (240TB in 384, 80TB in 224)





https://laion.ai/blog/laion-5b/