Sakana AI (бывшие ребята из Google Japan) выложили Cuda AI Engineer – агентскую систему, которая пишет кернелы на CUDA по перформансу лучше, чем torch.compile.



Сравниваются на KernelBench – коллекции из 250 задач, разбитых на 3 уровня сложности: на первом уровне базовые операции, важные для глубоких сеток, на втором – небольшие функции, и на третьем – большие классы, типа ResNet18. На последнем классе задач вышли приросты до 6.68x относительно компиляции на торче с существенным ускорением рекуррентных нейросеток.



NVIDIA буквально неделю назад выкладывала "агента" (for loop – более точное название) на основе R1, но у ребят из Sakana получилось на порядок лучше. 👍



Интересно, может ли сеть оптимизировать выполнение ранее неизвестных архитектур.