CLIP4STR
Мультимодальные модели прочно входят в современные практические пайплайны многих решений на базе LLM. В области OCR их появление было ожидаемым: такие модели при обучении применяют не только картинки, но и текст. А если речь заходит об одновременном использовании картиночных и текстовых фичей — в обязательном порядке появляется CLIP.
В этой статье мы:
- узнаем, как можно использовать CLIP для задачи OCR
- разберём архитектуру новой SOTA для распознавания текста
- и ещё раз убедимся, что мультимодальность — сила
Читайте нашу статью по ссылке: https://deepschool-pro.notion.site/CLIP4STR-2f451ad6ab8c4041a11b426049edcd53?pvs=4
Мультимодальные модели прочно входят в современные практические пайплайны многих решений на базе LLM. В области OCR их появление было ожидаемым: такие модели при обучении применяют не только картинки, но и текст. А если речь заходит об одновременном использовании картиночных и текстовых фичей — в обязательном порядке появляется CLIP.
В этой статье мы:
- узнаем, как можно использовать CLIP для задачи OCR
- разберём архитектуру новой SOTA для распознавания текста
- и ещё раз убедимся, что мультимодальность — сила
Читайте нашу статью по ссылке: https://deepschool-pro.notion.site/CLIP4STR-2f451ad6ab8c4041a11b426049edcd53?pvs=4