Stable Diffusion может стать быстрее до 44% благодаря FlashAttention-2
Один из пользователей stable-diffusion-webui проверил работу нового оптимизатора памяти FlashAttention-2, который вышел несколько дней назад. Написав небольшой патч для совместимости с webui, он провел ряд тестов Со следующими параметрами:
Видеокарта RTX A4000
Настройки генерации:
1024 x 512,
DPM++ 2S a Karras, 25 steps, batch 1
Hires. fix upscale 1.75 (to 1792 x 896), another 25 steps
--no-half-vae
По итогам FlashAttention-2 обошёл SDP Attention на 44%
Из минусов - нужен Linux и есть проблемы с совместимомтью с transformers.
Разработчики xformers уже работают над реализацией FlashAttention-2 в своём проекте. Протестировать самостоятельно можно, установив dev версию xformers командой:
pip install --pre -U xformers
Но судя по сообщениям, на данный момент реализация xformers приносит всего 5-6% к произволительности на некоторых картах.
Один из пользователей stable-diffusion-webui проверил работу нового оптимизатора памяти FlashAttention-2, который вышел несколько дней назад. Написав небольшой патч для совместимости с webui, он провел ряд тестов Со следующими параметрами:
Видеокарта RTX A4000
Настройки генерации:
1024 x 512,
DPM++ 2S a Karras, 25 steps, batch 1
Hires. fix upscale 1.75 (to 1792 x 896), another 25 steps
--no-half-vae
По итогам FlashAttention-2 обошёл SDP Attention на 44%
Из минусов - нужен Linux и есть проблемы с совместимомтью с transformers.
Разработчики xformers уже работают над реализацией FlashAttention-2 в своём проекте. Протестировать самостоятельно можно, установив dev версию xformers командой:
pip install --pre -U xformers
Но судя по сообщениям, на данный момент реализация xformers приносит всего 5-6% к произволительности на некоторых картах.