Градиент обреченный

🔺 ChatGPT на коленке

Появился интересный репозиторий под названием ChatLLaMA. Авторы собрали пайплайн для тренировки персонализированного ChatGPT-like ассистента на основе открытых моделей (базовая модель + reward + RLHF). Человеческая оценка происходит тоже через модели — либо платно через API к OpenAI, либо моделью с huggingface.

В примере из репы после подготовки данных все делается в три команды.

👉 GitHub