Stable Diffusion может стать быстрее до 44% благодаря FlashAttention-2



Один из пользователей
stable-diffusion-webui проверил работу нового оптимизатора памяти FlashAttention-2, который вышел несколько дней назад. Написав небольшой патч для совместимости с webui, он провел ряд тестов Со следующими параметрами:



Видеокарта RTX A4000

Настройки генерации:

1024 x 512,

DPM++ 2S a Karras, 25 steps, batch 1

Hires. fix upscale 1.75 (to 1792 x 896), another 25 steps

--no-half-vae



По итогам FlashAttention-2 обошёл SDP Attention на 44%



Из минусов - нужен Linux и есть проблемы с совместимомтью с transformers.



Разработчики xformers уже работают над реализацией FlashAttention-2 в своём проекте. Протестировать самостоятельно можно, установив dev версию xformers командой:



pip install --pre -U xformers



Но судя по сообщениям, на данный момент реализация xformers приносит всего 5-6% к произволительности на некоторых картах.