ru-reward model.



Наши коллеги по цеху ведут public активность по открытым LLM, дообученным на инструкциях.



Но думаю, для полного сетапа RLHF+LLM не хватает reward модельки. Поэтому, Ваш покорный слуга, вооружился kaggle kernels и обучил для Вас ru-Bert-base reward.



В качестве основы взяты переводы сетов:



-Антропик

-WebGPT

-GPT-j



Основная информация по сетам, лоссу и архитектуре на обнимашках.



UPD. Важно. Сохранять формат ввода:

Человек: ... Ассистент: .... Человек:... Ассистент:...



Модель работает НЕ только для пар, но и для более длинных контекстов из 2+ пар реплик человек - модель, при этом скорится контекст vs последний ответ модели ассистента.



https://huggingface.co/Andrilko/ruBert-base-reward