Душа Питона

Чтение мыслей уже не за горами. Спасибо нашему любимому ИИ!

Знаете, что я сейчас вижу перед собой? У меня на столе ноутбук, на экране которого статья о диффузионной нейросети MinD-Vis. Новая модель буквально может прочитать ваши мысли и достроить картинку того, что у вас перед глазами.

Как работает нейросеть?

Если очень упрощённо, она расшифровывает данные мозговой активности человека, полученные с помощью функциональной магнитно-резонансной томографии (фМРТ), и превращает их в картинки.

Выбор пал на фМРТ, потому что это самый эффективный неинвазивный метод получения данных о мозговой активности. Томография позволяет визуализировать её с высоким пространственным разрешением.

Как тренировали модель?

Вот здесь очень подробный алгоритм на одной картинке. А кратко — разработчики обучили self-supervised-нейросеть для получения универсальных эмбеддингов мозговой активности. Потом прикрутили cross-attention на эти мысленные репрезентации к предобученной Latent Diffusion.

Особенно круто здесь то, что для файнтьюна хватило всего полторы тысячи пар картинка-фМРТ! Это помогло довольно точно воссоздавать то, что видит человек. На прикреплённой картинке — начальное изображение и то, что выдала нейросетка (слева и справа соответственно).

Можно ли потестить?

Да! Данные для обучения и код лежат бесплатно на GitHub. Так что не сомневаюсь, что скоро технологию допилят и сделают ещё круче.

MinD-Vis — первая такая модель?

Были и другие. Ещё в 2018 году японцы показали похожий алгоритм, который тоже работал с фМРТ. Эксперименты проводились и до этого. Но за прошедшие годы качество и точность заметно выросли. Просто сравните новые результаты с теми, что выдавали нейросети четырёхлетней давности.