AbstractDL

Guidance в диффузии нужен только в середине сэмплирования! (by NVIDIA)Всё это время мы генерировали...
Читать далее
VAR: Image Generation via Next-Scale Prediction (by Bytedance)Вы наверняка слышали про авторегрессио...
Читать далее
Как устроено пространство, в котором думают языковые модели?Наша статья про анизотропию и внутреннюю...
Читать далееMistral-7B-v0.2Появились веса для обновлённой версии базовой модели Mistral-7B. Вроде как убрали Sli...
Читать далее
Quiet-STaR: думательные токены вместо Chain-of-ThoughtОчень интересная идея, как обобщить CoT-промпт...
Читать далее
🔥Nvidia выкатила новые монстры для AI: Blackwell B200 GPU и GB200 "суперчип"Как всегда бывает на пр...
Читать далее
🔥Nvidia выкатила новые монстры для AI: Blackwell B200 GPU и GB200 "суперчип"Как всегда бывает на пр...
Читать далее
Галлюцинации LLM можно определять по внутренней размерности активаций (by CISCO)На мой взгляд один и...
Читать далее
Anthropic раскаляет AI-гонку, выпуская Claude 3 в трёх версиях: Opus, Sonnet, и Haiku.На всех достат...
Читать далееGoogle анонсировал новую LLM Gemini 1.5 - до 1M токенов!У гугла с неймингом продуктов и моделей боль...
Читать далее