DLStories

Нейросети становятся более похожими на мозг человека

#paper #ai_inside

Ученые из OpenAI, которые придумали нейросеть CLIP (что это за нейросеть, мы писали в посте выше), выяснили, что у модели есть мультимодальные нейроны. Это нейроны, которые реагируют на информацию, представленную в разных формах: как в виде текста, так и в виде изображения.

Почему это круто:

Обычно у нейросетей, которые работают сразу с несколькими модальностями — скажем, с текстом и видео — есть определенные "части", которые отвечают за конкретную модальность. Одна часть нейросети обрабатывает текст, другая — картинки. Более того, та часть сети, которая хорошо работает с фотографиями лиц, очень плохо реагирует на рисованные картинки лиц. То есть, каждая часть сети очень сильно заточена под свою конкретную задачу, и даже малейший шаг в сторону совершенно сбивает сеть с толку.

Но у CLIP все иначе. Там, оказывается, есть нейроны, которые одинаково хорошо реагируют и на картинки, и на текст. Иными словами, это "мультимодальные" нейроны, способные обрабатывать информацию, представленную в разном виде.

Пример: возьмем фото Человека-паука и фото с текстом, в котором есть слово "Человек-Паук". При прогоне этих картинок через сеть выясняется, что один из нейронов сети одинаково сильно активируется на обе картинки. Ученые назвали этот нейрон "нейроном Человека-паука".

Точно так же можно выделить в сети нейроны, реагирующие на другие понятия: "Хэлли Берри", "человеческое лицо" и т.п.

Получается, что нейроны CLIP оперируют семантическими понятиями, идеями, а не чисто формами и текстурами изображений. Нейронка вышла на новый уровень осознания сущностей. Ничего подобного не наблюдалось ни у одной неросети до CLIP.

На практике также отмечается, что векторы, получаемые из текста и картинок моделью CLIP, лучше отражают смысл слов и изображений, чем векторы других моделей.

Что еще интересно: такие же "мультимодальные" нейроны есть в мозге человека. Это выяснили еще 15 лет назад с помощью электродов, подключаемых к головам людей. Таким образом, искуственный интеллект в лице CLIP стал сделал большой шаг на пути к реальному "интеллекту" 😉

Подробнее читайте в блогпосте OpenAI.