​​Первую мультимодальную ИИ-модель OmniFusion 1.1. в России выложили в открытый доступ. Статья про архитектуру нейросети уже на первом месте в разделе Daily trending papers на HuggingFace.



Эта умная модель работает с картинками. Она умеет объяснять, что изображено на фото, может рассказать рецепт блюда по снимку ингредиентов и проанализировать карту помещения . А еще — решить логическую задачу или написанный от руки пример . Это разработка AIRI при поддержке SberDevice и Sber AI.



Проект опубликован на GitHub и Technical Report на arXiv.



HT | ChatGPT-4 Bot