Чтение мыслей уже не за горами. Спасибо нашему любимому ИИ!
Знаете, что я сейчас вижу перед собой? У меня на столе ноутбук, на экране которого статья о диффузионной нейросети MinD-Vis. Новая модель буквально может прочитать ваши мысли и достроить картинку того, что у вас перед глазами.
Как работает нейросеть?
Если очень упрощённо, она расшифровывает данные мозговой активности человека, полученные с помощью функциональной магнитно-резонансной томографии (фМРТ), и превращает их в картинки.
Выбор пал на фМРТ, потому что это самый эффективный неинвазивный метод получения данных о мозговой активности. Томография позволяет визуализировать её с высоким пространственным разрешением.
Как тренировали модель?
Вот здесь очень подробный алгоритм на одной картинке. А кратко — разработчики обучили self-supervised-нейросеть для получения универсальных эмбеддингов мозговой активности. Потом прикрутили cross-attention на эти мысленные репрезентации к предобученной Latent Diffusion.
Особенно круто здесь то, что для файнтьюна хватило всего полторы тысячи пар картинка-фМРТ! Это помогло довольно точно воссоздавать то, что видит человек. На прикреплённой картинке — начальное изображение и то, что выдала нейросетка (слева и справа соответственно).
Можно ли потестить?
Да! Данные для обучения и код лежат бесплатно на GitHub. Так что не сомневаюсь, что скоро технологию допилят и сделают ещё круче.
MinD-Vis — первая такая модель?
Были и другие. Ещё в 2018 году японцы показали похожий алгоритм, который тоже работал с фМРТ. Эксперименты проводились и до этого. Но за прошедшие годы качество и точность заметно выросли. Просто сравните новые результаты с теми, что выдавали нейросети четырёхлетней давности.
Знаете, что я сейчас вижу перед собой? У меня на столе ноутбук, на экране которого статья о диффузионной нейросети MinD-Vis. Новая модель буквально может прочитать ваши мысли и достроить картинку того, что у вас перед глазами.
Как работает нейросеть?
Если очень упрощённо, она расшифровывает данные мозговой активности человека, полученные с помощью функциональной магнитно-резонансной томографии (фМРТ), и превращает их в картинки.
Выбор пал на фМРТ, потому что это самый эффективный неинвазивный метод получения данных о мозговой активности. Томография позволяет визуализировать её с высоким пространственным разрешением.
Как тренировали модель?
Вот здесь очень подробный алгоритм на одной картинке. А кратко — разработчики обучили self-supervised-нейросеть для получения универсальных эмбеддингов мозговой активности. Потом прикрутили cross-attention на эти мысленные репрезентации к предобученной Latent Diffusion.
Особенно круто здесь то, что для файнтьюна хватило всего полторы тысячи пар картинка-фМРТ! Это помогло довольно точно воссоздавать то, что видит человек. На прикреплённой картинке — начальное изображение и то, что выдала нейросетка (слева и справа соответственно).
Можно ли потестить?
Да! Данные для обучения и код лежат бесплатно на GitHub. Так что не сомневаюсь, что скоро технологию допилят и сделают ещё круче.
MinD-Vis — первая такая модель?
Были и другие. Ещё в 2018 году японцы показали похожий алгоритм, который тоже работал с фМРТ. Эксперименты проводились и до этого. Но за прошедшие годы качество и точность заметно выросли. Просто сравните новые результаты с теми, что выдавали нейросети четырёхлетней давности.