ru-reward model.
Наши коллеги по цеху ведут public активность по открытым LLM, дообученным на инструкциях.
Но думаю, для полного сетапа RLHF+LLM не хватает reward модельки. Поэтому, Ваш покорный слуга, вооружился kaggle kernels и обучил для Вас ru-Bert-base reward.
В качестве основы взяты переводы сетов:
-Антропик
-WebGPT
-GPT-j
Основная информация по сетам, лоссу и архитектуре на обнимашках.
UPD. Важно. Сохранять формат ввода:
Человек: ... Ассистент: .... Человек:... Ассистент:...
Модель работает НЕ только для пар, но и для более длинных контекстов из 2+ пар реплик человек - модель, при этом скорится контекст vs последний ответ модели ассистента.
https://huggingface.co/Andrilko/ruBert-base-reward
Наши коллеги по цеху ведут public активность по открытым LLM, дообученным на инструкциях.
Но думаю, для полного сетапа RLHF+LLM не хватает reward модельки. Поэтому, Ваш покорный слуга, вооружился kaggle kernels и обучил для Вас ru-Bert-base reward.
В качестве основы взяты переводы сетов:
-Антропик
-WebGPT
-GPT-j
Основная информация по сетам, лоссу и архитектуре на обнимашках.
UPD. Важно. Сохранять формат ввода:
Человек: ... Ассистент: .... Человек:... Ассистент:...
Модель работает НЕ только для пар, но и для более длинных контекстов из 2+ пар реплик человек - модель, при этом скорится контекст vs последний ответ модели ассистента.
https://huggingface.co/Andrilko/ruBert-base-reward