ESDx: Как заставить диффузию забыть порно? (by MIT)



Представлен метод, который позволяет удалять память про концепты, объекты и даже целые стили из диффузионных моделей без последствий для качества генерации.



Авторы предлагают адаптировать идеи classifier guidance для файнтюнинга весов cross-attention в диффузии. Суть метода очень простая — нужно задать текстом концепт (например

«женская грудь») и оценить градиенты для условного и безусловного шага диффузии, а разность этих градиентов использовать в качестве «очищающего» апдейта весов. То есть не нужно ни датасетов, ни дополнительных моделей, только текстовое описание того что надо забыть.



P.S. Теперь ждём когда по решению суда придётся удалять объекты авторского права из обученных моделей 🤷‍♂️



Статья, GitHub, блог