Чтение мыслей уже не за горами. Спасибо нашему любимому ИИ!



Знаете, что я сейчас вижу перед собой? У меня на столе ноутбук, на экране которого статья о диффузионной нейросети MinD-Vis. Новая модель буквально может прочитать ваши мысли и достроить картинку того, что у вас перед глазами.



Как работает нейросеть?



Если очень упрощённо, она расшифровывает данные мозговой активности человека, полученные с помощью функциональной магнитно-резонансной томографии (фМРТ), и превращает их в картинки.



Выбор пал на фМРТ, потому что это самый эффективный неинвазивный метод получения данных о мозговой активности. Томография позволяет визуализировать её с высоким пространственным разрешением.



Как тренировали модель?



Вот здесь очень подробный алгоритм на одной картинке. А кратко — разработчики обучили self-supervised-нейросеть для получения универсальных эмбеддингов мозговой активности. Потом прикрутили cross-attention на эти мысленные репрезентации к предобученной Latent Diffusion.



Особенно круто здесь то, что для файнтьюна хватило всего полторы тысячи пар картинка-фМРТ! Это помогло довольно точно воссоздавать то, что видит человек. На прикреплённой картинке — начальное изображение и то, что выдала нейросетка (слева и справа соответственно).



Можно ли потестить?



Да! Данные для обучения и код лежат бесплатно на GitHub. Так что не сомневаюсь, что скоро технологию допилят и сделают ещё круче.



MinD-Vis — первая такая модель?



Были и другие. Ещё в 2018 году японцы показали похожий алгоритм, который тоже работал с фМРТ. Эксперименты проводились и до этого. Но за прошедшие годы качество и точность заметно выросли. Просто сравните новые результаты с теми, что выдавали нейросети четырёхлетней давности.