Синтез с преобразователями



Регулярно читаю гугловский блог, у них много интересного про ИИ. Например, пару дней назад разработчики рассказали, как отчасти решили давнюю проблему на границе компьютерного зрения и графики — синтез трёхмерных сцен.



Если в двух словах описать сложность, то нейросети пока не всегда хорошо справляются с тем, чтобы создавать новую сцену из статичных изображений.



Проблема в том, что для точного синтеза модель должна собирать данные разной природы: 3D, информацию об освещённости и тд. И всё это нужно получить иногда всего из нескольких снимков.



И вот недавно исследователи представили модель глубокого обучения, которая может создавать новые сцены по нескольким картинкам. Причём в очень хорошем качестве. Технология называется Light Field Neural Rendering (LFNR).



Входные данные для моделей состоят из набора фотографий, параметров камеры (фокусное расстояние, положение и ориентация в пространстве) и параметры среды.



Вместо полной обработки каждого изображения, модели рассматривают только те области, которые могут повлиять на целевой пиксель. Они определяются с помощью эпиполярной геометрии, которая отображает каждый целевой пиксель в линию на каждом кадре. Для надёжности нейросети берут небольшие участки вокруг точек на эпиполярной линии.



Затем на этот участок воздействует последовательность из двух преобразователей. Первый агрегирует информацию по каждой эпиполярной линии, а второй — по каждому представленному изображению. Так исследователи сопоставляют наборы фрагментов, выделенных вдоль эпиполярных линий, с целевым цветом пикселя.



LFNR показал отличные результаты в самых популярных тестах синтеза изображений. Посмотрите на гифку ниже — это результат работы модели. Отражение на компакт-диске и преломление света через бутылку выглядят очень реалистично.