Дропаут ускоряет обучение глубоких моделей (by META)



Раньше считалось, что с дропаутом лосс наоборот падает медленнее, и это своего рода цена за спасение от переобучения — но оказалось, что это не так.



Eсли применять дропаут только в самом начале обучения, а потом отключать, то можно не только спастись от оверфиттинга, но и ускорить сходимость модели!



Это позволяет лучше синхронизировать градиенты на large-scale датасетах, что приводит к стабильному long-term выигрышу на всех архитектурах.



Статья, GitHub