Hейросети для бизнеса и жизни простым языком

Llama2.rs

Вы хотели запустить LLaMa2 70B на своем стареньком лэптопе? Ну, вот теперь можете.

Чел переписал Карпатовскую llama2.c на Rust, оптимизировал загрузку весов в память (memmap), реализовал Grouped Query Attention и добавил квантизацию.

70B LLaMa2, которая в обычной жизни влазит только в A100, теперь бегает на лаптопе! Кхм, ну как, бегает... скорее ходит. 5 токенов в минуту.

GitHub