Я сейчас дособираю многоходовые промпты для датасета предпочтений, а то боюсь, что модель перестанет учитывать контекст после RL-тюна. После этого немного поиграю с гиперпараметрами, и выложу получившуюся модель.
Источник всё тот же: lmsys-chat-1m. Запросы доложу в lmsys_clean_ru_queries, предпочтения - в lmsys_clean_ru_preferences.
Источник всё тот же: lmsys-chat-1m. Запросы доложу в lmsys_clean_ru_queries, предпочтения - в lmsys_clean_ru_preferences.