Я не часто пишу о сборе данных, там сложно сделать breakthrough, хотя сама задача для МЛ не менее важна чем моделирование архитектуры сети. Но тут у Яндекса вышел интересный материал, который приоткрывает завесу этого процесса и рассказывает про их инсайты и выводы из длительной работы с разными заказчиками. Для тех кто вдруг не знает, на западе (включая даже мою тиму в фб) обычно краудсорсят сбор данных на AMT, сервис от Амазона, а в снгетто для этого есть Толока Яндекса. Они так серьезно взялись за нее что-то, что даже устраивали воркшоп по сбору данных на NeurIPS, впервые такое вижу.