Лекция по быстрым механизмам внимания в это воскресенье Главное препятствие на пути к быстрым трансформерам — квадратичный attention. В базовом варианте трансформеры довольно прожорливые как по времени, так и по памяти. Поэтому инженеры ищут способы ускорить…