Dealer.AI

ru-reward model.

Наши коллеги по цеху ведут public активность по открытым LLM, дообученным на инструкциях.

Но думаю, для полного сетапа RLHF+LLM не хватает reward модельки. Поэтому, Ваш покорный слуга, вооружился kaggle kernels и обучил для Вас ru-Bert-base reward.

В качестве основы взяты переводы сетов:

-Антропик

-WebGPT

-GPT-j

Основная информация по сетам, лоссу и архитектуре на обнимашках.

UPD. Важно. Сохранять формат ввода:

Человек: ... Ассистент: .... Человек:... Ассистент:...

Модель работает НЕ только для пар, но и для более длинных контекстов из 2+ пар реплик человек - модель, при этом скорится контекст vs последний ответ модели ассистента.

https://huggingface.co/Andrilko/ruBert-base-reward