🤷♀️ О том, как я переводчик делаю
👉 Всё началось с малого, с желания иметь модель весом < 50МБ, со скоростью пули и реакцией катбуста.
И всё, тут понеслось:
— Строю пайплайн, ищу данные, обучаю 3 дня
— Понимаю что капец косякнул в коде обучения
— Дебажу день, ставлю обучаться на ночь
— Ловлю новый баг в токенизации
— Думаю ладно, багов больше не будет, но нет тут то было, оказывается довольно большая часть сета какая-то кривая и это сильно портит метрики
— Закончились ресурсы на кагле, нужно было искать гпу на эксперименты
— Одолжил аккаунт, запустил, добавл новый сет и фильтры для него -> в итоге первая +- модель, которая вместо нормального перевода давала парафраз с ответом на вопрос если таковой был 😂
— Эксперименты продолжаются, начинаю разбивать текст, чтобы обучать только для перевода одного-трех предложений -> что-то идёт не так и вроде становится хуже
— Думаю: а как же так? Я про дистилляцию забыл? Надо пробовать, лосс падает, примеры генерятся - всё очень круто, ставлю на ночь
— Словил очередной баг: из-за пересечения имен в функции генерации текста предиктилась моделью учителем...
— Ощутил нехватку данных, поспрашивал людей, покапал популярные датасеты ииии ничего не изменил, так закончились гпу часы 🙃
— Решил, ну ладно, какие там ещё вычислители? TPU надо пробовать
— Вспоминаю что недавно видел крутую либу от HF - accelerate, решил использовать и получил легкую интеграцию под все вычислители, но обучать на TPU нахватало терпения 🙌
👉 Всё началось с малого, с желания иметь модель весом < 50МБ, со скоростью пули и реакцией катбуста.
И всё, тут понеслось:
— Строю пайплайн, ищу данные, обучаю 3 дня
— Понимаю что капец косякнул в коде обучения
— Дебажу день, ставлю обучаться на ночь
— Ловлю новый баг в токенизации
— Думаю ладно, багов больше не будет, но нет тут то было, оказывается довольно большая часть сета какая-то кривая и это сильно портит метрики
— Закончились ресурсы на кагле, нужно было искать гпу на эксперименты
— Одолжил аккаунт, запустил, добавл новый сет и фильтры для него -> в итоге первая +- модель, которая вместо нормального перевода давала парафраз с ответом на вопрос если таковой был 😂
— Эксперименты продолжаются, начинаю разбивать текст, чтобы обучать только для перевода одного-трех предложений -> что-то идёт не так и вроде становится хуже
— Думаю: а как же так? Я про дистилляцию забыл? Надо пробовать, лосс падает, примеры генерятся - всё очень круто, ставлю на ночь
— Словил очередной баг: из-за пересечения имен в функции генерации текста предиктилась моделью учителем...
— Ощутил нехватку данных, поспрашивал людей, покапал популярные датасеты ииии ничего не изменил, так закончились гпу часы 🙃
— Решил, ну ладно, какие там ещё вычислители? TPU надо пробовать
— Вспоминаю что недавно видел крутую либу от HF - accelerate, решил использовать и получил легкую интеграцию под все вычислители, но обучать на TPU нахватало терпения 🙌