🤗Illustrated Reinforcement Learning from Human Feedback (RLHF)



Отличный блог-пост от HuggingFace с разбором RL для файнтюна языковых моделей (webGPT, instructGPT, chatGPT).



А ещё, RLHF теперь официально поддерживается в transformers через библиотеку trl!



P.S. Сейчас все побегут учить свою mini-chatGPT в колабе)



Блог, GitHub