No language left behind

#nlp #про_nlp



Достаточно тихо прошел важный релиз: Allen AI выложили датасет, воспроизведенный по одному из самых больших проектов по переводу: No language left behind



Суммарно 450Gb параллельных примеров доступно под открытой лицензией для 200 языков!



Статья: https://arxiv.org/pdf/2207.04672.pdf



Релиз данных от Allen AI: https://huggingface.co/datasets/allenai/nllb