DeepSchool

CLIP4STR

Мультимодальные модели прочно входят в современные практические пайплайны многих решений на базе LLM. В области OCR их появление было ожидаемым: такие модели при обучении применяют не только картинки, но и текст. А если речь заходит об одновременном использовании картиночных и текстовых фичей — в обязательном порядке появляется CLIP.

В этой статье мы:

- узнаем, как можно использовать CLIP для задачи OCR

- разберём архитектуру новой SOTA для распознавания текста

- и ещё раз убедимся, что мультимодальность — сила

Читайте нашу статью по ссылке: https://deepschool-pro.notion.site/CLIP4STR-2f451ad6ab8c4041a11b426049edcd53?pvs=4