Сиолошная

HuggingFace 🤗 потихоньку превращается из стартапа , который пилит библиотеку для создания-обучения моделек, в рисерч-лабу. Так, у них внутри появилась команда, которая занимается RLHF (обучение моделей по фидбеку от людей).

Название проекта - Helpful, Honest, Harmless, and Huggy 🤗 = H4, и член команды поделился первыми деталями (твиттер-тред) после месяца работы, обустройства инфры, етц. Что можно оттуда вынести:

1) датасет генераций четырех опенсурсных LLMок (включая 30B OPT), которые можно брать и использовать, а не ждать генераций на своем железе - тут

2) библиотеку для RL с тесной интеграцией с HF 🤗 TRL - отсюда

3) понимание разницы базовых языковых моделей и затюненных на инструкции - здесь

4) сравнение генерций разных LLM в режиме общения в чате - тык

5) и следить за этой страницей, где обещают скоро организовать скрипты обучения и валидаци, еще больше данных, скрипты подготовки данных

Stay tuned, и я тоже буду следить за их развитием. Пожелаем ребятам удачи 🥺