🔥FlashAttention-2: опять в два раза быстрее



Вот это подарок! Авторы FlashAttention смогли его оптимизировать ещё сильнее, приближая скорость внимания к теоретическому пределу — ускорение как на инференсе, так и на обучении в 5 раз по сравнению с обычным торчём!



Статья, GitHub