Я и сам часто замечал, что фичи выдранные сетками, которые не до конца сошлись лучше подходят для всяких downstream задач, вроде поиска и ранжирования. А теперь пацаны из Гугла и Баиду официально оформили (и эмпирически доказали) эту гипотезу в статьях*.
Поразительно, но ResNet-6 затыкает за пояс двухсотслойный ResNet на бенчмарке по perceptual similarity после 6 эпох обучения на ImageNet. Главное не передержать.
Но (из статьи Баиду): если хотите дальше файнтюнить сеть на другом датасете, то все же лучше сначала дообучить ее до сходимости на первом датасете. Тогда точность будет выше.
❱❱ On the surprising tradeoff between ImageNet accuracy and perceptual similarity [Google]
❱❱ Inadequately Pre-trained Models are Better Feature Extractors [Baidu]
@ai_newz
Поразительно, но ResNet-6 затыкает за пояс двухсотслойный ResNet на бенчмарке по perceptual similarity после 6 эпох обучения на ImageNet. Главное не передержать.
Но (из статьи Баиду): если хотите дальше файнтюнить сеть на другом датасете, то все же лучше сначала дообучить ее до сходимости на первом датасете. Тогда точность будет выше.
❱❱ On the surprising tradeoff between ImageNet accuracy and perceptual similarity [Google]
❱❱ Inadequately Pre-trained Models are Better Feature Extractors [Baidu]
@ai_newz