DLStories

Эра мультимодальности в искусственном интеллекте

#ai_inside

В этом посте мы расскажем об одном из главных направлений развития ИИ в последние годы — мультимодальности.

За последние 20 лет ИИ достиг огромных успехов во многих задачах: распознавании образов, генерации текста, игры в Go. Со многими из них нейросети справляются лучше, чем человек! Это впечатляет. Но до возможностей человеческого мозга ИИ еще слишком далеко: да, нейросети решают отдельные задачи лучше человека, но им сильно недостает пластичности, которая есть у людей.

Пластичность — это умение решать разные по смыслу задачи и быстро научаться вести себя в новых условиях. Если ИИ научили играть в Go,

то ничего больше эта нейросеть делать не может. Мира за пределом доски для нее не существует. Она только играет в Go — и все.

"Непластичность" нейросетей — главное препятствие на пути к созданию более мощного ИИ. Чтобы понять, как его побороть, ученые изучают то, как с миром взаимодействуем мы — люди.

Пластичность мозга человека

С рождения люди учатся понимать мир, взимодействуя с ним разными органами чувств. Ключевое слово здесь — разными. Дети ассоциируют окружающий мир с его запахами, звуками, законами движения. Они связывают информацию из разных источников между собой и создают в голове "модель" окружающего мира. Эта модель постоянно совершенствуется и становится более сложной: дети понимают все более сложные законы и зависимости, в частности, учатся устанавливать причинно-следственные связи (неспособность ИИ устанавливать причинно-следственные связи — еще одна большая проблема для развития ИИ; о ней мы писали тут). Также эта "модель мира" помогает человеку успешно взаимодействовать даже с незнакомым окружением и быстро приспосабливаться к меняющимся условиям жизни.

ИИ же учится решать только одну задачу. Нейросети чаще всего оперируют только картинками или только текстом. Это не позволяет ИИ развить глобальное понимание мира и эффективно приспосабливаться к решению других задач.

Мультимодальные нейросети

Первые шаги в создании мультимодальных нейросетей уже сделаны. Вот примеры:

- DALL·E: генерация изображений по текстовым описаниям

- CLIP: модель, совмещающая текстовую и зрительную информации: способна генерировать картинки по тексту и текстовое описание по изображению.

Эти модели произвели своеобразную революцию: люди поняли, что ИИ действительно может быть мультимодальным. CLIP сейчас используется в куче задач, связанных с картинками, и везде он сильно улучшает результаты. Вот пример, о котором мы недавно рассказывали.

Мультимодальный ИИ в робототехнике

Робототехника — область, где мультимодальность может сильно ускорить развитие. Совеременные роботы в большинстве своем используют только визуальную информацию для ориентирования я в пространстве. Добавление модальностей звука и тактильных ощущений позволит роботам получать больше фидбека от окружающей среды и реагировать на голосовые команды.

Вот примеры последних разработок в робототехнике, которые используют разные модельности: тык

Мультимодальность сделает ИИ надежнее

Еще один плюс ИИ, который работает сразу с несколькими инсточниками информации — надежность. Нейросеть, которая оперирует только визуальной информацией, легко обмануть: достаточно немного изменить изображение, которое нейросеть получает на вход. Такой "обман" называется adversarial attack. Подробнее о них можно прочитать тут.

Если же ИИ оперирует не только визуальной информацией, обмануть его станет сложнее: даже если визуальный инпут недостоверен, ИИ сможет полагаться на другие источники информации, прямо как человек.

Есть много ИИ-технологий, где такая надежность просто необходима. Пример — беспилотные авто. Если беспилотник легко обмануть, он не сможет использоваться в реальной жизни: будет много аварий. Мультимодальность может помочь в этом случае и мы, наконец, получим ИИ, на который действительно сможем положиться.

Подытожим: мультимодальный ИИ сильно развивается, на него обращено очень много внимания. Интересно, каких высот развития ИИ мы сможем достичь в ближайшем будущем)

Материал написан на основе этой статьи.