Старший Авгур

Базированная модель, часть 2Первая часть: ссылка. В ней мы определили основную проблему не-трансформ...

Читать далее

Сопроводительные материалы к посту ниже.Картинка 1: финальные результаты: проклятые трансформеры опя...

Читать далее

Базированная модель, часть 1или почему RWKV/Mamba/RetNet не работали, но заработают.Есть такая групп...

Читать далее

Сопроводительные материалы к посту ниже.Картинка 1: разница перплексии на повторяющихся N-граммах и...

Читать далее

Лидерборд LMSYS Chatbot Arena обновился второй раз за неделю!Добавили модели Claude 3, и ещё во втор...

Читать далее