AbstractDL

Guidance в диффузии нужен только в середине сэмплирования! (by NVIDIA)Всё это время мы генерировали...

VAR: Image Generation via Next-Scale Prediction (by Bytedance)Вы наверняка слышали про авторегрессио...

Как устроено пространство, в котором думают языковые модели?Наша статья про анизотропию и внутреннюю...

Mistral-7B-v0.2Появились веса для обновлённой версии базовой модели Mistral-7B. Вроде как убрали Sli...

Quiet-STaR: думательные токены вместо Chain-of-ThoughtОчень интересная идея, как обобщить CoT-промпт...

🔥Nvidia выкатила новые монстры для AI: Blackwell B200 GPU и GB200 "суперчип"Как всегда бывает на пр...

🔥Nvidia выкатила новые монстры для AI: Blackwell B200 GPU и GB200 "суперчип"Как всегда бывает на пр...

Галлюцинации LLM можно определять по внутренней размерности активаций (by CISCO)На мой взгляд один и...

Anthropic раскаляет AI-гонку, выпуская Claude 3 в трёх версиях: Opus, Sonnet, и Haiku.На всех достат...

Google анонсировал новую LLM Gemini 1.5 - до 1M токенов!У гугла с неймингом продуктов и моделей боль...