
Обучение больших языковых моделей упирается в несколько фундаментальных проблем, одна из них — сложность вычислений и коммуникаций GPU в кластере. Дело в том, что любые большие расчёты должны синхронизироваться на разных видеокартах, а для этого сами устройства должны обмениваться информацией, чтобы не считать два раза одно и то же. Если GPU делают это неэффективно, то они теряют до 30% недоутилизированной мощности.
Раньше для решения этой проблемы мы использовали сторонние библиотеки, а сейчас готовы представить собственный инструмент — YaFSDP, который ускоряет обучение больших языковых моделей до 25%. В новой статье на Хабре рассказываем, как менялись подходы к оптимизации ресурсов, и объясняем, какие вызовы пытаемся преодолеть. А ещё делимся историей о том, как нашли точки роста в уже существующих технологиях и разработали собственное решение.
Подписывайтесь: