Душа Питона

Когда сиквел лучше первой части: представлен Kandinsky 2

Ну никак не могла обойти стороной этот анонс на AIJ — представители Сбера и AIRI показали новую версию российской мультиязычной диффузионной модели Kandinsky 2.0 для генерации изображений.

И цифра «2» в названии отражает не только версию, но и количество параметров нейросети — 2 млрд! Её натренировали на объединённом датасете Sber AI и SberDevices из миллиарда пар «текст-изображение».

Почему вдруг диффузия? В 2022 году такие нейронки показали свои сильные стороны, они работают быстрее трансформеров, а результаты, зачастую, лучше. Я имею в виду не только картинки, но и синтез видео, аудио и даже 3D.

Говорят, модель умеет одинаково быстро и качественно обрабатывать запросы на 101 языке. Даже монгольский поддерживается — видели ещё где-нибудь такое? Можно составлять запрос на нескольких языках, и Kandinsky вас всё равно поймёт (пусть вы сами не поняли, что написали).

Картинки генерируются в 20 разных стилях. Поддерживается inpainting и outpainting. Если не знаете, что это — просто зайдите на сайт FusionBrain и поиграйтесь с нейросеткой. Не бойтесь, это бесплатно, даже регаться не нужно нигде.