AbstractDL

Imagen: Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding (by Google)

Исследователи из Google Research сделали, казалось бы, очевидную вещь — приделали замороженную языковую модель (T5) в качестве энкодера текста в text2image пайплайне.

И — о, чудо! Генерация картинок стала ещё лучше понимать текст! И вообще, выяснилось, что масштабирование текстового энкодера гораздо важнее чем увеличение размера генератора картинок. То есть в text2image всё-таки самая сложная часть — это text.

Помимо замены текстового энкодера авторы немного улучшили UNet в диффузии и представили «dynamic threasholding» — чуть более умный способ ограничения значений каждого пикселя картинки (это добавляет фотореализм).

А ещё, чтобы в дальнейшем было проще сравнивать text2image модели, авторы представили крошечный датасет drawbench из 200 сложных для генерации промптов («лошадь едет на человеке» и тд.)

Статья, блог, GitHub, colab, DrawBench