Очень большой Кандинский — и точка (на плоскости)
Сбер вновь подарил миру немного красоты. Команды из Sber AI и SberDevices дообучили самую большую русскоязычную модель генерации изображений по текстовому описанию — Kandinsky. Теперь её файнтьюн («тонкая настройка» — допиливание модели под конкретную задачу или набор данных) Surrealist XXL создаёт потрясающе реалистичные и детализированные изображения. Впечатляют они не меньше «импрессий» самого Василия Кандинского.
Под капотом
👨💻 У Kandinsky 64 слоя и 12 млрд параметров. Основная архитектура такая же, как у оригинальной DALL-E, но компоненты другие (например, используется собственный кодировщик изображений Sber-VQ-GAN). Здесь важно отметить, что ребята из Сбера не просто русифицируют модели OpenAI, как думают некоторые, а по факту создают их для русского языка с нуля, в соответствии с архитектурой англоязычного оригинала.
Главное — данные!
📊 Как обычно — весь цимес в данных. Сперва модель обучала команда SberDevices в течение 20 352 GPU-V100 дней. Это практически 56 лет машинного времени! Здесь использовался датасет на около 60 млн пар «изображение-описание».
🌄🌅 Однако самым важным был следующий этап. Специалисты из Sber AI провели серьёзную работу по очистке датасета LAION-5B, изначально включавшего в себя свыше 170 млн изображений и описаний к ним, от «мусорных» картинок и бессмысленных текстов. В итоге осталось только 119 млн наиболее качественных уникальных пар. На них Kandinsky тренировали ещё 7 680 GPU-A100 дней — более 21 года машинного времени.
Как это всё работает?
🐱 Фраза на русском языке «Рыжий кот сидит на заборе» и соответствующее изображение — это разные типы данных. С помощью энкодеров внутри модели их можно превратить в эмбеддинги, то есть представить как сжатые векторные пространства. Суть в том, что теперь пространства легко соизмерить и обнаружить сходство, а значит взаимно сопоставить описание и картинку.
🔠 Однако предварительно её нужно сгенерировать. Задача тут решается аналогично переводу, только в данном случае с русского на язык визуальной кодовой книги. Для этого фраза токенизируется — преобразуется в последовательность элементарных составных частей — токенов.
🗑 Далее эта последовательность выступает как контекстное условие для генерации в авторегрессионной модели — декодере — последовательности визуальной кодовой книги. После чего состязательно-генеративная модель VQ-GAN превращает последнюю в набор из 64 изображений. А другая модель ruCLIP Large выбирает из них 16 лучших вариантов, проверяя сходство эмбеддингов полученных изображений и текста в общем векторном пространстве.
На последнем этапе отобранные эмбеддинги вновь отправляются в диффузионную или состязательно-генеративную модель (Real-ESRGAN), где происходит апскейл (увеличение разрешения изображения) и добавляется фотореалистичная детализация. Интересно, что диффузионные модели лучше работают для картинок с соотношением сторон 1:1. А Real-ESRGAN — для всех вариантов. Но качество при диффузии всё же обычно выше — лучше передаются текстуры, тени и отражения.
Для профессионалов: увы, поиграться пока можно только с предыдущей моделью Malevich. Её чекпоинт на Hugging Face, а последние файнтюны на GitHub. Но скоро доступ будет и к API Kandinsky.
Для всех: модель доступна в мобильном приложении Салют, на умных устройствах Sber по запросу «Включи художника»
Сбер вновь подарил миру немного красоты. Команды из Sber AI и SberDevices дообучили самую большую русскоязычную модель генерации изображений по текстовому описанию — Kandinsky. Теперь её файнтьюн («тонкая настройка» — допиливание модели под конкретную задачу или набор данных) Surrealist XXL создаёт потрясающе реалистичные и детализированные изображения. Впечатляют они не меньше «импрессий» самого Василия Кандинского.
Под капотом
👨💻 У Kandinsky 64 слоя и 12 млрд параметров. Основная архитектура такая же, как у оригинальной DALL-E, но компоненты другие (например, используется собственный кодировщик изображений Sber-VQ-GAN). Здесь важно отметить, что ребята из Сбера не просто русифицируют модели OpenAI, как думают некоторые, а по факту создают их для русского языка с нуля, в соответствии с архитектурой англоязычного оригинала.
Главное — данные!
📊 Как обычно — весь цимес в данных. Сперва модель обучала команда SberDevices в течение 20 352 GPU-V100 дней. Это практически 56 лет машинного времени! Здесь использовался датасет на около 60 млн пар «изображение-описание».
🌄🌅 Однако самым важным был следующий этап. Специалисты из Sber AI провели серьёзную работу по очистке датасета LAION-5B, изначально включавшего в себя свыше 170 млн изображений и описаний к ним, от «мусорных» картинок и бессмысленных текстов. В итоге осталось только 119 млн наиболее качественных уникальных пар. На них Kandinsky тренировали ещё 7 680 GPU-A100 дней — более 21 года машинного времени.
Как это всё работает?
🐱 Фраза на русском языке «Рыжий кот сидит на заборе» и соответствующее изображение — это разные типы данных. С помощью энкодеров внутри модели их можно превратить в эмбеддинги, то есть представить как сжатые векторные пространства. Суть в том, что теперь пространства легко соизмерить и обнаружить сходство, а значит взаимно сопоставить описание и картинку.
🔠 Однако предварительно её нужно сгенерировать. Задача тут решается аналогично переводу, только в данном случае с русского на язык визуальной кодовой книги. Для этого фраза токенизируется — преобразуется в последовательность элементарных составных частей — токенов.
🗑 Далее эта последовательность выступает как контекстное условие для генерации в авторегрессионной модели — декодере — последовательности визуальной кодовой книги. После чего состязательно-генеративная модель VQ-GAN превращает последнюю в набор из 64 изображений. А другая модель ruCLIP Large выбирает из них 16 лучших вариантов, проверяя сходство эмбеддингов полученных изображений и текста в общем векторном пространстве.
На последнем этапе отобранные эмбеддинги вновь отправляются в диффузионную или состязательно-генеративную модель (Real-ESRGAN), где происходит апскейл (увеличение разрешения изображения) и добавляется фотореалистичная детализация. Интересно, что диффузионные модели лучше работают для картинок с соотношением сторон 1:1. А Real-ESRGAN — для всех вариантов. Но качество при диффузии всё же обычно выше — лучше передаются текстуры, тени и отражения.
Для профессионалов: увы, поиграться пока можно только с предыдущей моделью Malevich. Её чекпоинт на Hugging Face, а последние файнтюны на GitHub. Но скоро доступ будет и к API Kandinsky.
Для всех: модель доступна в мобильном приложении Салют, на умных устройствах Sber по запросу «Включи художника»