Llama2.rs



Вы хотели запустить LLaMa2 70B на своем стареньком лэптопе? Ну, вот теперь можете.



Чел переписал Карпатовскую llama2.c на Rust, оптимизировал загрузку весов в память (memmap), реализовал Grouped Query Attention и добавил квантизацию.



70B LLaMa2, которая в обычной жизни влазит только в A100, теперь бегает на лаптопе! Кхм, ну как, бегает... скорее ходит. 5 токенов в минуту.



GitHub