Опять что-то дипмаинды наресерчили (им платят за это?)



Хотят улучшать трансформеры на графовых задачках описанных текстом и сделали TransNAR архитектуру, которая вроде как хороша in out-of-distribution reasoning.

Только нам нужно иметь текстовую задачку на вход трансформера и граф на вход NAR.



По сути трансформер + графовые нейроночки. Такая графовая нейронка - это neural algorithmic reasoner (NAR), про который написано в статье DeepMind в 2021. Такая штука комбинирует натуральный вход + абстрактный вход (нейронок) для решения какой-то задачи. В статье ниже можно посмотреть идею на примере алгоритма Дейкстры.



Neural Algorithmic Reasoning

https://arxiv.org/abs/2105.02761



В данном случае natural input это текстовое описание задачи + соответствующий граф (abstract input), на выходе текст с решением. При этом графовая нейронка претрейнена на множестве алгоритмических задачек. Тренировались на маленьких задачках а тестились на больших.

Трансформер тоже претрейнен, на MassiveText.

Во время forward pass трансформер получает доступ к ембедингам из NAR через cross-attention. queries идут из токенов, а keys and values из NAR.



Так понял.



В общем если подобное интересует, то статью читаем



Transformers meet Neural Algorithmic Reasoners

https://arxiv.org/abs/2406.09308



тот самый датасет с графами, из которого получили текстовую версию и на ней тестились

https://github.com/google-deepmind/clrs