PockEngine: ну че, будущее наступило, обучаем LLM на телефоне, емае 🤤



Работает за счет обрезки графа обратного распространения. При обычном обучении

фреймворки вычисляют все градиенты, а затем применяют обновление. Этот

характерно для таких фреймворков, как PyTorch и TensorFlow. PockEngine, в свою очередь, получает всю информацию о тензоре, а затем уже применяет обновление к наиболее важным частям



Занятно, что не проседает по скору



Очень интересно, подожду репу, а еще лучше пуш в условынй optimum 🤗