gonzo-обзоры ML статей

FreeLB: Enhanced Adversarial Training for Language UnderstandingChen Zhu, Yu Cheng, Zhe Gan, Siqi Su...

BART: Denoising Sequence-to-Sequence Pre-training for Natural Language Generation, Translation, and...

Improving Transformer Models by Reordering their SublayersOfir Press, Noah A. Smith, Omer LevyUniver...

Stabilizing Transformers for Reinforcement LearningEmilio Parisotto, H. Francis Song, Jack W. Rae, R...

Attack well-trained classifiers with unknown weights within 1 gradient stepCIFAR10: plane ⟶ car100 i...

CIFAR10: 100 images train test accuracy to 36.8% ± 1.2% (with unknown random initializations)

MNIST: 10 images train test accuracy from 12.9% to 93.8% (with a fixed known initialization)

Продолжаем дистиллировать данные. Dataset DistillationTongzhou Wang, Jun-Yan Zhu, Antonio Torralba,...

Дистиллируем дальшеДистилляция моделей — это ещё не всё.Data Distillation: Towards Omni-Supervised L...

Ну и наконец ещё одна работа, на которую чаще всего ссылаются:Distilling the Knowledge in a Neural N...