В AI наблюдается явный тренд на ультра-гига-модели, которые никто кроме богатых корпораций не может натренировать, что, очевидно, создает много препятствий для ресерча, да и вообще как-то недемократично выглядит.
С этим пытаются бороться, и одной из таких попыток стал алгоритм ZeRO-Offload, который позволяет натренировать мульти-миллиардную модель на одном GPU (!) без изменения модели. Похоже, основной инсайт там в дополнительном полноценном использовании мощностей CPU.
С этим пытаются бороться, и одной из таких попыток стал алгоритм ZeRO-Offload, который позволяет натренировать мульти-миллиардную модель на одном GPU (!) без изменения модели. Похоже, основной инсайт там в дополнительном полноценном использовании мощностей CPU.