Вот тут вообще по-другому объясняют механизм похожего GAN'а – Deep Music Visualizer: "The deep music visualizer syncs pitch with the class vector and volume and tempo with the noise vector, so that pitch controls the objects, shapes, and textures in each frame, while volume and tempo control movement between frames. At each time point in the song, a chromagram of the twelve chromatic notes determines the weights {0 ≤ 1} of up to twelve ImageNet classes in the class vector. Independently, the rate of change of the volume — mainly percussion — controls the rate of change of the noise vector"
В итоге получается нереально красивый видос, где картинки сжимаются и разжимаются друг в друга под темп музыки, кайф полный
зашарить в сетки для звука очень сложно и больно :((((
В итоге получается нереально красивый видос, где картинки сжимаются и разжимаются друг в друга под темп музыки, кайф полный
зашарить в сетки для звука очень сложно и больно :((((