Там выкатили двухголовый колаб для VQGAN+CLIP. Отличие - за результат борются два CLIP. Есть варианты на выбор: ViT-B/32 и 16, RN50x16 и 4. В теoрии картинка должна быть ближе к текстовому запросу, как по факту - будем посмотреть.



Чтоб завелось c ViT+RN50, нужно поставить разрешение поменьше.



На картинке "Ocean storm at sunset by Ivan Aivazovsky" ViT-B/32 + 16