Digital Доктор

Есть большая разница между deepfake'ом и просто «аватаром» человека.

Хочу немного парировать утверждения из поста от подписчика.

Там упоминается клип Basement jaxx, где лица людей достаточно качественно для 2001 года встроены в тела мартышек, и это приводится как пример успешного применения технологии аж 18 лет назад.

Но есть одно очень важное обстоятельство, которое не следует упускать из виду. Deepfake - это случай, когда человек не дает согласия на использование его лица, голоса и образа в целом в каких-либо видео. Именно отсюда и произрастает чрезвычайная сложность deepfake в сравнении с тем же клипом про мартышек или примером с политическими деятелями, которым выгодно поставить вместо себя дублера для съемок различных обращений и политических роликов.

Для того, чтобы клип с мартышками в 2001 году получился относительно качественным, участникам группы пришлось провести много часов в студии, чтобы снять все варианты их лиц в различных ракурсах, с разной мимикой и возможно с разным освещением. После этого монтажеры, как я думаю, провели в видеоредакторах не один день, чтобы сгладить и повысить качество итогового видео.

Такая же ситуация и с голосом. Из моего прошлого поста о пранкерах можно понять минусы подхода, когда копируемый человек изначально не хочет, чтобы его голос или лицо кто-то использовал. Если вслушаться в речь Мутко из пранка, то хорошо заметно, что эти фразы записаны в разных по акустическим свойствам помещениях и на разную аппаратуру, поэтому фейк заметить довольно легко, если быть к этому готовым. И обратная ситуация с примером нейросети lyrebird.ai, которая несколько часов записывает ваш голос в одинаковых условиях (акустика, помехи, эмоциональное и физическое состояние человека), а после может из текстового документа полностью имитировать ваш голос, так что даже родственники не могут отличить подмены. То есть, разница именно в количестве «сырых данных» для нейросети, чтобы она смогла качественно обучиться на достаточно большой выборке.

Но и здесь есть подвох. Если на выборке данных, где вы наговаривали аудиозапись с вашим голосом или записывали видео с вашей мимикой/лицом, вы будете в спокойном состоянии, то нейросеть сможет качественно «подменить» вас только в том же спокойном состоянии. А если цель видео - имитировать агрессию, подавленное настроение или болезненный вид, то качество подмены будет в разы хуже.

Малое количество сырых размеченных данных под конкретные задачи - это вообще главный тормоз в развитии и внедрении нейросетей в нашу повседневную жизнь.

Именно поэтому такими качественными получаются видеоролики с имитацией видеообращений, например, Барака Обамы. Существуют десятки видеороликов, где Обама в антураже своего кабинета с одинаковым освещением, с одинаковым эмоциональным оттенком, одинаковым гримом что-либо говорит. Из такого объема данных легко сделать высококачественный deepfake.

А вот сделать хорошую подделку для человека, на которого имеется только одна фотография или запись голоса из 5 слов, вряд ли получится даже через 10 лет.

Технология, которая позволяет создавать ваших «аватаров» с вашего же согласия, имеет массовый характер уже сейчас. Например, персональные эмодзи в Samsung Galaxy S9. Да, они мультяшные, но уже копируют внешность человека. Я думаю, в ближайшем будущем начнут появляться по-настоящему точные аватары человека. Зачем они нужны? Применение их может быть достаточно востребовано: например, вы любите звонить в Скайп с включенным видео, но не всегда выглядите хорошо. Мешки под глазами, всклокоченные волосы или просто «я не накрашена». Однажды сделанный аватар позволит выводить на экран собеседника ваш образ всегда в отличном состоянии. А представьте, какое поле для творчества на сайтах знакомств?)