В последнее время особенно набирает обороты тема с дистилляцией. Двусмысленно получилось… Ну да ладно…



BERT оказался хорошим примером сильной модели, которую хочется использовать везде, но не везде можно, так как она тяжёлая, не на все устройства влезает и инференс на ней довольно долгий, что опять же ограничивает применение.



Направление сжатия и ускорения моделей сильно актуально и дистилляция оказалась одним из хороших вариантов этого добиться.