AbstractDL

The Shape of Learning: Intrinsic Dimensions in Transformer-Based ModelsПрепринт нашей новой работы!...

VR-NeRF: виртуальная реальность на шаг ближе (by Meta)100 гигапикселей HDR фотографий не так то прос...

Обновление GPT-4

Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 разАвторы этой статьи док...

Language Models Represent Space and Time (by MIT)В эмбеддингах языковых моделей (на средних слоях) о...

The Reversal Curse of LLMЖаль, но похоже все языковые модели, независимо от размера, лажают на обобщ...

AIJ Contest — Strong IntelligenceВ этом году я помогаю организовать соревнование мультимодальных чат...

Longformer-tiny для русского языкаДруг скрестил Longformer и BERT-tiny, получив крошечную модель с к...

InstaFlow: диффузия за 1 шагГлавная проблема диффузий — это их скорость. Было много попыток сократит...

MathGLM: GPT умеет быть калькуляторомОдин из самых спорных вопросов про GPT — насколько сильны её вы...