^ очень в тему к моей статье про inductive bias, кстати. В статье я поясняю, почему ViT нужен большой размер обучающей выборки для успешной генерализации. Здесь вот авторы предлагают использовать self-supervised задачу, чтобы дать ViT больше инфы о данных для успешного обучения.

Вообще #ящитаю, что за self-supervised будущее: мы будем просто не в состоянии откапывать огромные массивы данных для обычного supervised обучения, которые будут требоваться новым моделям. Я об этом вот тут писала даже.

#paper