Не часто в computer science случаются большие колабы, а когда случаются — это всегда что-то интересное.



В это раз 55 рисерчеров из 44 учреждений объеденились в одного мега-рисерчера и предложили GEM — "живой бенчмарк" для задачи генерации естественного языка (то, что делает GPT-3). Это должно послужить максимально надежным способом оценки таких алгоритмов.



https://arxiv.org/abs/2102.01672