Mashkka про Data Science

#nlp #про_nlp

Библиотека PETALS 🌸

Я вам обещала пост про petals, либу, которая вышла позволяет инферить и дообучать большие языковые модели распределенно.

Можно запустить инференс BLOOM 176B и даже дообучить модель (работает на hivemind).

Поднять можно не только BLOOM, но и OPT, и YALM, и любую transformers-совместимую модель, главное, закатать свои рукава, так как придется покопаться.

Love. Death. Transformers и градиент обреченный про нее уже кратко писали: по скорости коннекта у библиотеки все хорошо, что радует!

Почему это важно?

🔹Экономика LLMок очевидным образом складывается из цен за поддержание инфраструктуры GPU, электричества и всякой всячины, а также добавленной стоимости. Создается плодотворная почва для монополий.

Создавая альтернативный способ получить тот же результат без доступа к дорогой инфраструктуре, мы в целом снижаем порог входа в LLM и препятствуем монополии.

WiP: в Petals еще совсем не все готово, например, HuggingFace demo https://huggingface.co/spaces/ybelkada/petals выглядит очень грустно, да и пока рабочий вариант — модель на 6 млрд параметров (BLOOM 6B)

Чтобы скинуться ресурсами, нужно всего лишь

🔹поднять свой сервер по инструкции

🔹и подключить его к подсети ~~ЦРУ ЛГБТ НАТО~~ хз куда

🔹тогда ваши 12Gb или сколько еще есть войдут в общий пул публичных ресурсов.

Понятное дело, гонять чувствительные данные через такую торрент-сеть не нужно! Но можно всегда поднять полностью свою сеть с коллегами и ресурсами, которым доверяете.

🌸Сайт: https://petals.ml/

🖥Github: https://github.com/bigscience-workshop/petals

🖥Статья: https://arxiv.org/abs/2209.01188