42-ух минутный доклад с NeurIPS 2024 об основных конкурентах архитектуры трансформера



Вам в очень энергичной манере поведают:



- В чем логика заменять трансформер

- Общий таймлайн развития альтернативных архитектур с 2020 года и причем тут LSTM

- Что же там в итоге с линейным атеншеном в 2024том

- Кто же этот такой ваш RWKV, кто за ним стоит и почему он не хочет умирать в 2025том

- Как быть отчаяным ресерчером и в одиночку успешно линеаризовывать opensource LLM без собственного претрейна

- Что еще случилось за год (Jamba, Sana, DNA Models и что еще нас ждет



Смотреть на Ютубе