Дистиллируем дальше
Дистилляция моделей — это ещё не всё.
Data Distillation: Towards Omni-Supervised Learning
Ilija Radosavovic, Piotr Dollár, Ross Girshick, Georgia Gkioxari, Kaiming He
Статья: https://arxiv.org/abs/1712.04440
Авторы из FAIR исследуют подход под названием omni-supervised learning, специальный вариант semi-supervised, когда в дополнение к размеченным данным используются неразмеченные надыбанные на масштабах интернета.
Для этого авторы предложили метод под названием data distillation, который в отличие от дистилляции моделей обучает студента не на ансамбле моделей, а на ансамбле предсказаний, выполненных одной моделью на базе множества трансформаций данных.
Процесс выглядит так:
1) Обучаем модель на размеченных данных
2) Генерируем аннотации для неразмеченных данных, делая предсказания на различных трансформациях данных и ансамблируя результаты
3) Обновляем (переобучаем) модель на увеличенном наборе данных
Подход с ансамблированием преобразований похож на метод повышения точности предсказаний на инференсе, когда со входной картинкой делалось несколько преобразований (повороты, кропы и т.п.), а затем результат предсказаний усреднялся (multi-transform inference).
По наблюдению авторов, агрегация предсказаний генерирует новое знание и модель в принципе может использовать эту информацию для self-training.
В работе генерировали hard labels (то есть собственно метки классов), а не soft labels (вектор вероятностей классов). Дальше эти метки использовались как настоящие. В обучении делали так, чтобы в минибатче всегда была смесь настоящих меток и вот этих вот сгенерированных.
Применили для нескольких задач комп.зрения: определение ключевых точек и детекция объектов. Трансформации традиционные: скейлинг и горизонтальный флип.
Подход работает, позволяет получать более точные модели, чем без такого метода. До точности моделей, обученных на изначально размеченном датасете такого же размера, не дотягивает, но где в реальной жизни такие датасеты взять, кейс нереальный. Зато неразмеченного добра при желании насобирать можно много, так что вполне применимый подход.
Дистилляция моделей — это ещё не всё.
Data Distillation: Towards Omni-Supervised Learning
Ilija Radosavovic, Piotr Dollár, Ross Girshick, Georgia Gkioxari, Kaiming He
Статья: https://arxiv.org/abs/1712.04440
Авторы из FAIR исследуют подход под названием omni-supervised learning, специальный вариант semi-supervised, когда в дополнение к размеченным данным используются неразмеченные надыбанные на масштабах интернета.
Для этого авторы предложили метод под названием data distillation, который в отличие от дистилляции моделей обучает студента не на ансамбле моделей, а на ансамбле предсказаний, выполненных одной моделью на базе множества трансформаций данных.
Процесс выглядит так:
1) Обучаем модель на размеченных данных
2) Генерируем аннотации для неразмеченных данных, делая предсказания на различных трансформациях данных и ансамблируя результаты
3) Обновляем (переобучаем) модель на увеличенном наборе данных
Подход с ансамблированием преобразований похож на метод повышения точности предсказаний на инференсе, когда со входной картинкой делалось несколько преобразований (повороты, кропы и т.п.), а затем результат предсказаний усреднялся (multi-transform inference).
По наблюдению авторов, агрегация предсказаний генерирует новое знание и модель в принципе может использовать эту информацию для self-training.
В работе генерировали hard labels (то есть собственно метки классов), а не soft labels (вектор вероятностей классов). Дальше эти метки использовались как настоящие. В обучении делали так, чтобы в минибатче всегда была смесь настоящих меток и вот этих вот сгенерированных.
Применили для нескольких задач комп.зрения: определение ключевых точек и детекция объектов. Трансформации традиционные: скейлинг и горизонтальный флип.
Подход работает, позволяет получать более точные модели, чем без такого метода. До точности моделей, обученных на изначально размеченном датасете такого же размера, не дотягивает, но где в реальной жизни такие датасеты взять, кейс нереальный. Зато неразмеченного добра при желании насобирать можно много, так что вполне применимый подход.