AbstractDL

The Shape of Learning: Intrinsic Dimensions in Transformer-Based ModelsПрепринт нашей новой работы!...
Читать далееVR-NeRF: виртуальная реальность на шаг ближе (by Meta)100 гигапикселей HDR фотографий не так то прос...
Читать далееОбновление GPT-4
Читать далее
Deja Vu: отключение 85% весов OPT-175B улучшает её качество и ускоряет в 6 разАвторы этой статьи док...
Читать далее
Language Models Represent Space and Time (by MIT)В эмбеддингах языковых моделей (на средних слоях) о...
Читать далее
The Reversal Curse of LLMЖаль, но похоже все языковые модели, независимо от размера, лажают на обобщ...
Читать далее
AIJ Contest — Strong IntelligenceВ этом году я помогаю организовать соревнование мультимодальных чат...
Читать далее
Longformer-tiny для русского языкаДруг скрестил Longformer и BERT-tiny, получив крошечную модель с к...
Читать далее
InstaFlow: диффузия за 1 шагГлавная проблема диффузий — это их скорость. Было много попыток сократит...
Читать далее
MathGLM: GPT умеет быть калькуляторомОдин из самых спорных вопросов про GPT — насколько сильны её вы...
Читать далее