В прикрепленном примере слева DeOldify, а справа я разбил ч/б видео на сцены, взял из них по одному кадру, прогнал их через image2text (да, такие сетки тоже кому-то нужны в 2к22), загуглил картинки по тексту (хотя можно было бы и сгенерить) и подал как референс, а в колабе ниже я попытался все это автоматизировать на примере одной старенькой сетки. Видно, результат сыроват, но это ведь только «Введение». Далее, если эта тема окажется интресной не только мне, я постараюсь простым языком шире ее раскрыть. Пока не решил серия ли это будет постов, или в статейку все уместить.
https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/VCR.ipynb
https://colab.research.google.com/github/tg-bomze/collection-of-notebooks/blob/master/VCR.ipynb