Kandinsky 2.0: первая мультиязычная диффузия! (by AIRI, SberAI, SberDevices)



Встречайте первую text2image модель для более чем 100 языков! Основано на архитектуре Latent Diffusion + несколько мультиязычных текстовых энкодеров (XLMR-clip, mT5). Код и веса уже доступны!



P.S. Я тоже в этом немного поучаствовал и даже написал статью на хабр 😊



Хабр, HuggingFace, GitHub, демо