Старший Авгур

Suzume огонь, 10/10 по первым примерами из тест-сета. Через час завершится оценка, вангую что-то тип...

О, подъехала мультиязычная gpt-4 синтетика на запросах из lmsys-chat-1m: https://huggingface.co/data...

О_О

Досчиталась оценка Опусом, вот весь обучающий датасет Сайги с оценками: https://huggingface.co/datas...

https://arxiv.org/abs/2404.14047Статья про эмпирическое сравнение квантованных версий Llama3. Да, уж...

И последний пост на сегодня, про GaLore. Выяснились некоторые ограничения их интеграции с HF, которы...

Ещё я одним глазом посматриваю на мировые тюны и модификации третьей Лламы:- Dolphin провалился, суд...

Опус обычно не прям уж жёстко зацензурен, но во всём, что касается копирайтов - жесть.Причём у него...

Попробовал GaLore (низкоранговые градиенты), вполне работает. Бонусом обучение сократилось до 40 мин...

Обновил датасет Фикбука: https://huggingface.co/datasets/IlyaGusev/ficbookТеперь там 1.4 миллиона фа...