AbstractDL

Llama 3.1 — 8B, 70B и 405B версииСтаршая модель бьёт даже GPT-4 и Claude-3.5 на ряде бенчмарков. Но...

Confidence Neurons: у каждой LLM есть нейрон, который регулирует «температуру» генерацииАвторы этой...

Claude показали новый релиз своей "самой умной" модели Claude 3.5 Sonnet. Это первый релиз в линейк...

Goldfish Loss: заставим LLM запоминать смысл, а не текстЯзыковые модели часто вызубривают обучающие...

Your Transformer is Secretly LinearМою новую статью приняли на ACL 🎉. Мы обнаружили, что большинств...

Мой маленький тест на AGI. Раньше с такими шифрами хорошо справлялись только модели по типу PIXEL.

Примеры возможностей нового GPT4o ассистента – серьезно, фильм "Her" теперь реальность

StoryDiffusion: генерация консистентных наборов изображений без дообученияЕсли вам нужно сгенерирова...

Llama-3Есть версии на 8B и 70B параметров. По сравнению с прошлой ламой тут теперь побольше словарь...

Помните Grokking? Я сделал colab ноутбук с его воспроизведением. Там нужно всего полчаса, чтобы дост...