Дисклеймер: пост написан после 8 часов на конференции и 3 часов на вечеринке в честь открытия. Человеком, который не имеет никакого отношения к нейронаукам. Относитесь скептически.



Первый туториал был про кодирование и декодирование мозговой активности в текст и картинки.

Как я уже писал выше, он мне не очень понравился, потому что это был просто обзор литературы, а ожидал я другого. Ожидал я какого-то практического гайда про то, как устроен мозг, как предобрабатывать фМРТ сканы и ЭЭГ, какие там есть подводные камни, как построить работающую систему декодирования. Из всего этого была только классификация разных методов (кровь/электричество, инвазивные/неинвазивные) 😔



К счастью, в обзоре было несколько любопытных статей.





Evidence of a predictive coding hierarchy in the human brain listening to speech

Ссылка: тык



Датасет Narratives, 345 испытуемых, которые слушают истории во время фМРТ (=измеряется реакция на усиление кровотока к разным участкам мозга, получается трёхмерная картинка, которая меняется со временем). Некоторые примеры выкинуты, потому что они "шумные".



Дальше берётся 8 слой GPT-2, на активациях сети (в качестве входа) и уровнях отклика каждого вокселя (=кусочка трёхмерного скана, обычно 3x3x3 мм) фМРТ каждого человека (в качестве выхода) строятся независимые линейные гребневые регрессии. На отложенном сете измеряется корреляция выходов регрессии и оригинальных откликов, и усредняется по вокселям и/или людям. Эта усредненная корреляция в статье называется "brain score". Корреляция там не очень большая, но статзначимая. А если нормировать на шум, так вообще роскошная.



Это всё делалось и до этого, а основная идея статьи немного другая — а что будет, если ещё добавить в эту конструкцию эмбеддинги последующих слов? 🤔

На сколько слов вперёд предсказывает мозг? Ну и оказалось, что примерно 8. По крайней мере пик корреляции именно на 8, но прирост есть до 21-го слова. Эти числа меняются, если предсказывать только синтаксическую информацию (пик становится на 5 слове), и также они меняются между разными частями мозга.



Ещё один эксперимент — дообучение GPT-2 на предсказание не только следующего слова, но и эмбеддинга t+8 слова. Такая сеть тоже даёт прирост корреляции, особенно в определённых частях мозга.





The neural architecture of language: Integrative modeling converges on predictive processing

Ссылка: тык



Концепт тот же: берём активации сети, учим регрессии, считаем корреляцию на отложенном сете. Но во-первых, делается это на нескольких датасетах, собранных не только с помощью фМРТ, но и с помощью инвазивной электрокортикографии (вот этот датасет). А во-вторых, на куче разных архаичных моделей.



При этом все чиселки считаются с учётом "потолка" — максимально возможной корреляции с учётом наличия шума в данных и межчеловеческих различий.



Берутся разные семейства моделей: энкодеры (BERT, AlBERT, XLM), seq2seq (T5) и декодеры (GPT). Лучшая корреляции наблюдается у GPT, причём она выше 1.0 после деления на "потолок" 😎



Это забавный факт и ещё одна монеточка в копилку превосходства декодеров над энкодерами (предыдущая монеточка — NoPE).





Выводы

По этим статьям очень легко сделать кликбейтную интерпретацию: языковые модели могут эмулировать мозг. Всё, загружаем сознание в трансформеры 😁

Реальность же как будто куда более прозаична: мозг и модели решают похожие задачи, поэтому у них появляются похожие внутренние представления.



Сильное утверждение звучало бы так: какую бы вычислительную архитектуру мы не взяли, до тех пор пока она предсказывает следующее слово с приемлемым качеством, в ней найдутся внутренние представления, которые коррелируют с мозговой активностью. Доказательств этого утверждения у меня, как водится, нет, но звучит логично. Тут есть как минимум одно слабое место: а с чего я вообще решил, что мозг тоже предсказывает следующие слова? Это называется теорией предсказательного кодирования, и в целом у неё есть некоторые эмпирические подтверждения.