В МЛ существует такой термин knowledge distillation, он применяется и к моделям и к данным, и по сути обозначает отбрасывание шума и извлечение только самой важной, самой полезной части информации. Например, из большой нейросети часто можно удалить 90% нейронов практически без потерь в точности, потому что основной knowledge хранится в 10% самых эффективных нейронов (цифры произвольные). Такое себе правило 20/80 для диплернинга. Конечно, удалять их нужно не наугад, а хитрыми методиками, которые помогают найти те самые эффективные нейроны.



Похожее, только еще более заумное можно сделать с датасетом. Оказывается среди данных тоже есть более и менее важные семплы, которые можно "дистиллировать". А если пойти еще дальше, то можно даже подумать как сгенерировать такие данные, которые будут содержать весь концентрат знаний нужных для алгоритма. Они скорее всего не будут иметь смысла для людей, но срать на людей будут иметь очень много смысла для нейросети. Один такой алгоритм описали ребята из Нового Электричества. Там рисерчеры смогли засунуть MNIST датасет (60к изображений) в 10 всратых картинок на которых можно натренировать сетку. Супер интересно!