Старший Авгур

Новые данные (gpt4_conversations_multilingual) и щепотка дедупликации сделали только чуть-чуть хуже....
Читать далее
Новые данные (gpt4_conversations_multilingual) и щепотка дедупликации сделали только чуть-чуть хуже....
Читать далее
Новые данные (gpt4_conversations_multilingual) и щепотка дедупликации сделали только чуть-чуть хуже....
Читать далее
Новые данные (gpt4_conversations_multilingual) и щепотка дедупликации сделали только чуть-чуть хуже....
Читать далее
С сожалением вынужден признать, что формат важен даже при обучении lm_head. Хотя лосс на валидационн...
Читать далее
Прекрасное из датасетов (ответы gpt-4)Оценка от Опуса: 5/10
Читать далее
Полпути до Suzume пройдено, 61% сырого винрейта. Это всё ещё с ChatML форматом промпта. Модель залью...
Читать далее
lm_head по метрикам не взлетел, но субъективно стало гораздо лучше: переключения на английский пофик...
Читать далееКороче, ситуация такая. В том случае, когда мы не учим lm_head и embed_tokens, шаблон важен. Особенн...
Читать далее
72% сырого винрейта, правильно наванговал. Многоязычная синтетика (и оригинальный формат?) творят чу...
Читать далее