DeepSchool

Grounding Dino

Мультимодальность сегодня — одна из самых популярных вещей в глубоком обучении. В новой статье мы рассмотрим, как на основе Grounding Dino можно добавить язык к задаче детекции объектов на изображениях. А ещё узнаем, что включение дополнительной модальности позволяет не только создавать запросы вида “самая правая кошечка”, но и находить объекты классов, которых нет в обучающей выборке.

Из этой статьи вы также узнаете:

- зачем нужна “дружба” между языком и картинками и какие у неё бонусы

- какая архитектура Grounding Dino

- как соединить модальности

- каким образом можно запустить и потрогать Grounding Dino

- как запустить и потрогать модель сегментации на основе Grounding Dino

- и как с помощью сегментации и диффузии заменить объект на картинке

Читайте нашу статью по ссылке: https://www.notion.so/deepschool-pro/Grounding-DINO-054a72d301d840ec99611cd76acba169?pvs=4