🔥FlexGen: как запустить OPT-175B на своём ноутбуке



Просто восторг! Самую большую открытую языковую модель теперь можно запустить на одной 16GB GPU и при этом не ждать генерацию целую вечность — скорость 1 токен в секунду!



Причём ускорение и сжатие модели делается очень просто:

model = OptLM(model)



P.S. В их репозитории даже есть пример чатбота на основе OPT-66B



Статья, GitHub