Исследователи из ADEPT выпустили уменьшенную версию мультимодальной модели Fuyu-8B с открытой лицензией ( CC-BY-NC ) Модель доступна на huggingface
Кстати, мультимодальной моделью называют нейронную сеть, которая может видеть и понимать как изображения, так и текст.
Чем может быть полезна Fuyu-8B:
- имеет гораздо более простую архитектуру и процедуру обучения, чем другие мультимодальные модели, что упрощает понимание, масштабирование и развертывание.
- может поддерживать произвольное разрешение изображений, отвечать на вопросы о графиках и диаграммах, отвечать на вопросы, связанные с пользовательским интерфейсом, а также выполнять детальную локализацию изображений на экране.
- дает ответы на большие изображения менее чем за 100 миллисекунд.
Что касается архитектуры, то другие мультимодальные модели включают в себя отдельный кодер изображений, выходные данные которого обычно подключаются к существующему LLM либо через перекрестное внимание, либо через какой-то адаптер, который подается непосредственно в пространство внедрения LLM. PALM-e , PALI-X , QWEN-VL , LLaVA 1.5 и Flamingo выглядят примерно так. Эти модели также имеют тенденцию работать с фиксированным разрешением изображения. Во время вывода все изображения с более высоким разрешением должны быть уменьшены, а все изображения, соотношение сторон которых не соответствует, должны быть дополнены или искажены.
Теперь что касается обучения, другие мультимодальные модели, как правило, имеют большое количество отдельных этапов обучения. Кодировщик изображений будет обучаться отдельно от LLM для выполнения своих собственных задач, часто с использованием контрастирующих целей обучения, которые сложно реализовать и обосновать. Затем, как, например, в PALI-X , кодер изображений и декодер текста будут обучаться вместе на изображениях с низким разрешением в течение некоторого периода времени. На этом этапе необходимо сделать выбор, замораживать ли веса каждого из компонентов во время тренировки. Наконец, некоторые модели обучаются с использованием фазы изображения сверхвысокого разрешения (без которой они не будут хорошо работать с изображениями высокого разрешения).
Ниже показаны примеры ответов Fuyu на вопросы по изображению, диаграмме и старому PDF-файлу
Кстати, мультимодальной моделью называют нейронную сеть, которая может видеть и понимать как изображения, так и текст.
Чем может быть полезна Fuyu-8B:
- имеет гораздо более простую архитектуру и процедуру обучения, чем другие мультимодальные модели, что упрощает понимание, масштабирование и развертывание.
- может поддерживать произвольное разрешение изображений, отвечать на вопросы о графиках и диаграммах, отвечать на вопросы, связанные с пользовательским интерфейсом, а также выполнять детальную локализацию изображений на экране.
- дает ответы на большие изображения менее чем за 100 миллисекунд.
Что касается архитектуры, то другие мультимодальные модели включают в себя отдельный кодер изображений, выходные данные которого обычно подключаются к существующему LLM либо через перекрестное внимание, либо через какой-то адаптер, который подается непосредственно в пространство внедрения LLM. PALM-e , PALI-X , QWEN-VL , LLaVA 1.5 и Flamingo выглядят примерно так. Эти модели также имеют тенденцию работать с фиксированным разрешением изображения. Во время вывода все изображения с более высоким разрешением должны быть уменьшены, а все изображения, соотношение сторон которых не соответствует, должны быть дополнены или искажены.
Теперь что касается обучения, другие мультимодальные модели, как правило, имеют большое количество отдельных этапов обучения. Кодировщик изображений будет обучаться отдельно от LLM для выполнения своих собственных задач, часто с использованием контрастирующих целей обучения, которые сложно реализовать и обосновать. Затем, как, например, в PALI-X , кодер изображений и декодер текста будут обучаться вместе на изображениях с низким разрешением в течение некоторого периода времени. На этом этапе необходимо сделать выбор, замораживать ли веса каждого из компонентов во время тренировки. Наконец, некоторые модели обучаются с использованием фазы изображения сверхвысокого разрешения (без которой они не будут хорошо работать с изображениями высокого разрешения).
Ниже показаны примеры ответов Fuyu на вопросы по изображению, диаграмме и старому PDF-файлу