AbstractDL

Llama 3.1 — 8B, 70B и 405B версииСтаршая модель бьёт даже GPT-4 и Claude-3.5 на ряде бенчмарков. Но...
Читать далее
Confidence Neurons: у каждой LLM есть нейрон, который регулирует «температуру» генерацииАвторы этой...
Читать далее
Claude показали новый релиз своей "самой умной" модели Claude 3.5 Sonnet. Это первый релиз в линейк...
Читать далее
Goldfish Loss: заставим LLM запоминать смысл, а не текстЯзыковые модели часто вызубривают обучающие...
Читать далее
Your Transformer is Secretly LinearМою новую статью приняли на ACL 🎉. Мы обнаружили, что большинств...
Читать далее
Мой маленький тест на AGI. Раньше с такими шифрами хорошо справлялись только модели по типу PIXEL.
Читать далееПримеры возможностей нового GPT4o ассистента – серьезно, фильм "Her" теперь реальность
Читать далееStoryDiffusion: генерация консистентных наборов изображений без дообученияЕсли вам нужно сгенерирова...
Читать далее
Llama-3Есть версии на 8B и 70B параметров. По сравнению с прошлой ламой тут теперь побольше словарь...
Читать далееПомните Grokking? Я сделал colab ноутбук с его воспроизведением. Там нужно всего полчаса, чтобы дост...
Читать далее