Так. Что-то число интересных моделей в которые надо потыкаться становиться чудовищным. На этот раз miniGPT-4. Лингвистическая модель поверх изображений. Если честно, то я ожидал большего. Неплохо, но никакой магии нет. Все же она больше не про детекционную часть, а про поиск связей частей изображения друг с другом.

https://youtu.be/OCGBSPmMXes