Tuning computer vision models with task rewards



Теперь и ребята из CV догоняют NLP, тренируя модели с помощью RL-методов (вон сколько кейвордов в одном предложении!)



Используют метод REINFORCE (👴). CV-моделька, как и RL-агенты, учится «действовать», а затем «критикует» результаты. Тюнят для Object Detection (привед YoLO 10?), и это бустит Recall/mAP. Также решается panoptic segmentation, чтобы предсказывать более однородные/согласованные маски для объектов.