Вышла вторая версия SAM - модели для сегментации изображений. Лучше оригинала по качеству, при это в шесть раз быстрее (130 FPS на одной A100)!
Главная новая фича - поддержка видео, для чего в архитектуру добавили темпоральные компоненты (memory attention, memory encoder, etc.).
Вместе с моделью релизят датасет SA-V в 50к размеченных видео с 600к масклетов (масок объекта на протяжении времени).
Веса релизнуты по лицензии Apache 2.0, то есть делать с моделью можно практически что угодно.
Демо
Пейпер
Репа (ссылки на веса там)