HuggingFace 🤗 потихоньку превращается из стартапа , который пилит библиотеку для создания-обучения моделек, в рисерч-лабу. Так, у них внутри появилась команда, которая занимается RLHF (обучение моделей по фидбеку от людей).
Название проекта - Helpful, Honest, Harmless, and Huggy 🤗 = H4, и член команды поделился первыми деталями (твиттер-тред) после месяца работы, обустройства инфры, етц. Что можно оттуда вынести:
1) датасет генераций четырех опенсурсных LLMок (включая 30B OPT), которые можно брать и использовать, а не ждать генераций на своем железе - тут
2) библиотеку для RL с тесной интеграцией с HF 🤗 TRL - отсюда
3) понимание разницы базовых языковых моделей и затюненных на инструкции - здесь
4) сравнение генерций разных LLM в режиме общения в чате - тык
5) и следить за этой страницей, где обещают скоро организовать скрипты обучения и валидаци, еще больше данных, скрипты подготовки данных
Stay tuned, и я тоже буду следить за их развитием. Пожелаем ребятам удачи🥺
Название проекта - Helpful, Honest, Harmless, and Huggy 🤗 = H4, и член команды поделился первыми деталями (твиттер-тред) после месяца работы, обустройства инфры, етц. Что можно оттуда вынести:
1) датасет генераций четырех опенсурсных LLMок (включая 30B OPT), которые можно брать и использовать, а не ждать генераций на своем железе - тут
2) библиотеку для RL с тесной интеграцией с HF 🤗 TRL - отсюда
3) понимание разницы базовых языковых моделей и затюненных на инструкции - здесь
4) сравнение генерций разных LLM в режиме общения в чате - тык
5) и следить за этой страницей, где обещают скоро организовать скрипты обучения и валидаци, еще больше данных, скрипты подготовки данных
Stay tuned, и я тоже буду следить за их развитием. Пожелаем ребятам удачи