Посмотрел семинар Стэнфорда про Open Pretrained Transformers (OPT)- GPT-3 от Facebook, которая была выпущена и опубликована в первой половине 2022го года (открыто доступны модели до 66 миллиардов параметров, самая большая как GPT-3 - только по заявке, с описанием, зачем вам).
Рассказчица - Susan Zhang, поработавшая до этого в OpenAI над нейронкой, которая играла в DotA 2 (и выигрывала кожаных!). Это, как я понимаю, был её первый проект в Facebook.
Из интересного - узнал, что первые 3 месяца (из 4) проектом занималась команда из всего 5(!) человек. Да, была ещё поддержка с инфрастуктурой, но без выделенных специалистов - в общем порядке, как и любой другой пользователь кластера. Вероятно, была поставлена задача любыми силами до конца 2021го года обучить что-то сравнимое с GPT-3, так как несколько раз в презентации Susan ссылается на то, что сроки поджимали, и вообще горело.
В обучении больших трансфомреров две проблемы:
1) ошибки в инфраструктуре, драйверах или видеокарточках, когда отключается одна - и останавливается вся тренировка. В итоге для обучения модели было сделано 56 запусков (с восстановлением из предыдущего сохранения). Люди буквально сидели и мониторили сутками дэшборды, выискивая на графиках неисправности, и в таком дежурном режиме и доучили модель.
2) нестабильность, когда малейшие изменения параметров приводят к тому, что модель расходится и перестаёт обучаться совсем. Проект как раз и начали с того, что собрали все практики внутри фейсбука, и пробовали обучать с ними, но чем больше поджимало время - тем больше они перезаимствовали наработки OpenAI по обучению GPT-3, а также Megatron-LM от Microsoft. Какой-то системности я не обнаружил, но это и ожидаемо - людей мало, полкой подгоняют, ужас!
В этом плане мне куда больше понравился рассказ от ребят из Яндекса про их YaLM, какие трудности решались для непрерывного обучения модели на 100B параметров. Кому интересно углубиться в технические детали - рекомендую ознакомиться. Разработка происходила параллельно OPT, то есть модели +- ровесники в плане технологий, которые были на этапе обучения.
Рассказчица - Susan Zhang, поработавшая до этого в OpenAI над нейронкой, которая играла в DotA 2 (и выигрывала кожаных!). Это, как я понимаю, был её первый проект в Facebook.
Из интересного - узнал, что первые 3 месяца (из 4) проектом занималась команда из всего 5(!) человек. Да, была ещё поддержка с инфрастуктурой, но без выделенных специалистов - в общем порядке, как и любой другой пользователь кластера. Вероятно, была поставлена задача любыми силами до конца 2021го года обучить что-то сравнимое с GPT-3, так как несколько раз в презентации Susan ссылается на то, что сроки поджимали, и вообще горело.
В обучении больших трансфомреров две проблемы:
1) ошибки в инфраструктуре, драйверах или видеокарточках, когда отключается одна - и останавливается вся тренировка. В итоге для обучения модели было сделано 56 запусков (с восстановлением из предыдущего сохранения). Люди буквально сидели и мониторили сутками дэшборды, выискивая на графиках неисправности, и в таком дежурном режиме и доучили модель.
2) нестабильность, когда малейшие изменения параметров приводят к тому, что модель расходится и перестаёт обучаться совсем. Проект как раз и начали с того, что собрали все практики внутри фейсбука, и пробовали обучать с ними, но чем больше поджимало время - тем больше они перезаимствовали наработки OpenAI по обучению GPT-3, а также Megatron-LM от Microsoft. Какой-то системности я не обнаружил, но это и ожидаемо - людей мало, полкой подгоняют, ужас!
В этом плане мне куда больше понравился рассказ от ребят из Яндекса про их YaLM, какие трудности решались для непрерывного обучения модели на 100B параметров. Кому интересно углубиться в технические детали - рекомендую ознакомиться. Разработка происходила параллельно OPT, то есть модели +- ровесники в плане технологий, которые были на этапе обучения.