Обучить BERT-base за 60 сек на 3060 8gb.



На просторах телеграмм, в одном из DS чатов нашёл вот эту заметку .



Бодрый челик и его домашняя gpu low сегмента с 8gb видеопамяти на борту смогла в обучение BERT-base.



При этом затраты по времени:

-4 дня или 100gpu часов на претрейн

-12 часов на файнтюн GLUE

-32k токенов словарь и 20гб текстов.



Естественно это удалось достичь благодаря gradient accumulation.



Интересно, что полная тренировка BERT-base по статье затратила тоже время, но на 16 TPU chips.



Конечно приведены метрики GLUE, разумеется фулл обучение имеет значимый отрыв. Но, на мой взгляд, cut off между ресурсами затраченными на обучение и метриками допустим. А что можно сделать, имея 3060ti 12gb?



В замечательное время живём...