VISUAL INTENT



Сделал прослойку с visual intent classification. Теперь интерфейс взаимодействия с Моим AI-агентом ещё проще и интуитивнее. Раньше пользователю нужно было писать подпись к картинке либо на что-то кликать, чтобы сервис понял, что ему нужно, какую OCR/visual логику подтянуть под капотом. Теперь не нужно.



Где такой зверь встречается? Например, в приложении Yandex, где одна и та же камера умеет и QR сканировать, и товар распознает, и текст переведёт, и уравнение решит.



С GPT-4V это выглядит ровно также как простая классификация интента с той лишь разницей, что в промпт добавляем картинку (для экономии токенов, в низком разрешении – в высоком она нужна уже в специализированной обработке).



Удобно 😈



#LLMOps #VIBE