#colab #cv #useful



Детекция произвольных объектов



Выложена очередная полезная сетка. На этот раз при помощи CLIP (модель, совместно натренированная на текстах и картинках) реализована детекция объектов по тексту. Реализовано это по статье "Simple Open-Vocabulary Object Detection with Vision Transformers" и названо OWL-ViT.



Если раньше нужно было знать, что мы хотим детектировать (машины, лица и т.д.) еще перед началом обучения, то теперь сделан шаг в сторону Open-vocabulary детекции.



👆 На картинке я попробовал найти "ботинок", "лицо", "пиджак", "чемодан" и "ножку от скамейки". При поиске можно задавать порог уверенности.



Чем проще запрос тем качественнее детекция, — попробовал на фотке Роналду и Месси найти Роналду и Месси, сеть распознала обоих как Роналду, так что определенный bias есть 😁.



〰️ Зачем?



Задача детекции (фото- и видеоаналитика) очень распространена. По кадрам с камер определяют номера машин и лица людей. Приложения находят товары в магазинах по фото. На медицинских снимках ищутся патологии и т.д. Также детекция используется при составлении датасетов, когда нужно среди миллионов изображений найти и вырезать какой-то объект.



Сеть выложена на huggingface, можно пробовать.



👉 Colab | Huggingface | Статья