
🤗Illustrated Reinforcement Learning from Human Feedback (RLHF)
Отличный блог-пост от HuggingFace с разбором RL для файнтюна языковых моделей (webGPT, instructGPT, chatGPT).
А ещё, RLHF теперь официально поддерживается в
P.S. Сейчас все побегут учить свою mini-chatGPT в колабе)
Блог, GitHub
Отличный блог-пост от HuggingFace с разбором RL для файнтюна языковых моделей (webGPT, instructGPT, chatGPT).
А ещё, RLHF теперь официально поддерживается в
transformers
через библиотеку trl
!P.S. Сейчас все побегут учить свою mini-chatGPT в колабе)
Блог, GitHub