Нейросети становятся более похожими на мозг человека
#paper #ai_inside
Ученые из OpenAI, которые придумали нейросеть CLIP (что это за нейросеть, мы писали в посте выше), выяснили, что у модели есть мультимодальные нейроны. Это нейроны, которые реагируют на информацию, представленную в разных формах: как в виде текста, так и в виде изображения.
Почему это круто:
Обычно у нейросетей, которые работают сразу с несколькими модальностями — скажем, с текстом и видео — есть определенные "части", которые отвечают за конкретную модальность. Одна часть нейросети обрабатывает текст, другая — картинки. Более того, та часть сети, которая хорошо работает с фотографиями лиц, очень плохо реагирует на рисованные картинки лиц. То есть, каждая часть сети очень сильно заточена под свою конкретную задачу, и даже малейший шаг в сторону совершенно сбивает сеть с толку.
Но у CLIP все иначе. Там, оказывается, есть нейроны, которые одинаково хорошо реагируют и на картинки, и на текст. Иными словами, это "мультимодальные" нейроны, способные обрабатывать информацию, представленную в разном виде.
Пример: возьмем фото Человека-паука и фото с текстом, в котором есть слово "Человек-Паук". При прогоне этих картинок через сеть выясняется, что один из нейронов сети одинаково сильно активируется на обе картинки. Ученые назвали этот нейрон "нейроном Человека-паука".
Точно так же можно выделить в сети нейроны, реагирующие на другие понятия: "Хэлли Берри", "человеческое лицо" и т.п.
Получается, что нейроны CLIP оперируют семантическими понятиями, идеями, а не чисто формами и текстурами изображений. Нейронка вышла на новый уровень осознания сущностей. Ничего подобного не наблюдалось ни у одной неросети до CLIP.
На практике также отмечается, что векторы, получаемые из текста и картинок моделью CLIP, лучше отражают смысл слов и изображений, чем векторы других моделей.
Что еще интересно: такие же "мультимодальные" нейроны есть в мозге человека. Это выяснили еще 15 лет назад с помощью электродов, подключаемых к головам людей. Таким образом, искуственный интеллект в лице CLIP стал сделал большой шаг на пути к реальному "интеллекту" 😉
Подробнее читайте в блогпосте OpenAI.
#paper #ai_inside
Ученые из OpenAI, которые придумали нейросеть CLIP (что это за нейросеть, мы писали в посте выше), выяснили, что у модели есть мультимодальные нейроны. Это нейроны, которые реагируют на информацию, представленную в разных формах: как в виде текста, так и в виде изображения.
Почему это круто:
Обычно у нейросетей, которые работают сразу с несколькими модальностями — скажем, с текстом и видео — есть определенные "части", которые отвечают за конкретную модальность. Одна часть нейросети обрабатывает текст, другая — картинки. Более того, та часть сети, которая хорошо работает с фотографиями лиц, очень плохо реагирует на рисованные картинки лиц. То есть, каждая часть сети очень сильно заточена под свою конкретную задачу, и даже малейший шаг в сторону совершенно сбивает сеть с толку.
Но у CLIP все иначе. Там, оказывается, есть нейроны, которые одинаково хорошо реагируют и на картинки, и на текст. Иными словами, это "мультимодальные" нейроны, способные обрабатывать информацию, представленную в разном виде.
Пример: возьмем фото Человека-паука и фото с текстом, в котором есть слово "Человек-Паук". При прогоне этих картинок через сеть выясняется, что один из нейронов сети одинаково сильно активируется на обе картинки. Ученые назвали этот нейрон "нейроном Человека-паука".
Точно так же можно выделить в сети нейроны, реагирующие на другие понятия: "Хэлли Берри", "человеческое лицо" и т.п.
Получается, что нейроны CLIP оперируют семантическими понятиями, идеями, а не чисто формами и текстурами изображений. Нейронка вышла на новый уровень осознания сущностей. Ничего подобного не наблюдалось ни у одной неросети до CLIP.
На практике также отмечается, что векторы, получаемые из текста и картинок моделью CLIP, лучше отражают смысл слов и изображений, чем векторы других моделей.
Что еще интересно: такие же "мультимодальные" нейроны есть в мозге человека. Это выяснили еще 15 лет назад с помощью электродов, подключаемых к головам людей. Таким образом, искуственный интеллект в лице CLIP стал сделал большой шаг на пути к реальному "интеллекту" 😉
Подробнее читайте в блогпосте OpenAI.