AbstractDL

🔥FlexGen: как запустить OPT-175B на своём ноутбуке

Просто восторг! Самую большую открытую языковую модель теперь можно запустить на одной 16GB GPU и при этом не ждать генерацию целую вечность — скорость 1 токен в секунду!

Причём ускорение и сжатие модели делается очень просто:

model = OptLM(model)

P.S. В их репозитории даже есть пример чатбота на основе OPT-66B

Статья, GitHub