я обучала одну модель

В этом (более диком) репозитории Lucid Sonic Dreams с помощью StyleGAN2 создается видеоряд к музыке

По ссылке ютуб можно посмотреть, как под мягкую электронику генерится что-то в духе Моне

Очень хочу зашариться в то, как конкретно здесь это обучали, в похожем релизе на arxiv пишут что-типа: 'an annotator listened to 100 music clips of 10 seconds long and selected an image that suits the music among the 200 StyleGAN-generated examples. Based on the collected data, we trained a simple transfer function that converts an audio embedding to a style embedding'. Что в целом звучит довольно просто, но кажется, что в Lucid Sonic Dreams что-то покруче