DeepSchool

ModelSoups: варим суп из моделей

Если вы когда-нибудь участвовали в хакатоне или пытались повысить качество продуктового решения — скорее всего, вы уже сталкивались с усреднением предсказаний нейронных сетей. Но что делать, если мы хотим улучшить точность решения, не потратив при этом дополнительного времени на инференс нескольких моделей? Ответ есть: усреднение весов моделей, а не их выходов.

В 2022 году вышла статья, поймавшая тогда большой хайп: “Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time”. Авторы показали, как можно из нескольких моделей получить одну — лучшую по качеству модель за счет усреднения весов. В нашей статье мы подробно разобрали теорию и результаты, чтобы вы могли применять этот подход в своих задачах 🙂

Сегодня мы рассмотрим:

- Model Soups подход к усреднению весов модели и его результаты

- теорию подхода, а также границы применимости и сопутствующие требования

- применение подхода в СV и NLP направлениях

Читайте новую статью по ссылке: https://www.notion.so/deepschool-pro/ModelSoups-2a26f819d3964a61ac7bdde0e48897c8?pvs=4