Вдогонку к предыдущему посту может возникнуть вопрос: "и че, мы все будем таскать эту камеру перед лицом, чтобы получить нейросетевой трек мимики, пффф?". Конечно, нет! Есть недавнее исследование по решению этой проблемы - разработка института Макса Планка, в Германии.



Они представили уникальный набор данных 4D Face с 29-минутным сканированием с 60 кадрами в секунду и синхронизированным звуком с 12 динамиков. Обучили нейронную сеть на этом датасете, которая учитывает зависимости при движении лица. Изученная модель VOCA (голосовая анимация персонажей) реагирует на любой речевой семпл в качестве входного сигнала - даже на речь на языках, отличных от английского.



VOCA является единственной реалистичной трехмерной моделью лицевой анимации, которая легко применима к предметам без ретаргетинга. Это делает ее подходящей для таких задач, как игровое видео, аватары виртуальной реальности или любой сценарий, в котором говорящий, речь или язык не известны заранее. Они все это выложили в открытый доступ, где любой может повторить этот опыт.



В общем, нейросетки просто будут понимать, на каком языке вы говорите и какие при этом мышцы лица у вас работают, выдавая результат таким, каким бы его видел человек, стоящий рядом.



https://www.youtube.com/watch?v=XceCxf_GyW4