2 день основной части конференции. Пленарная сессия была про неспособность языковых моделей к планированию (тык). Я был на 2 секциях по интерпретируемости и на 2 постерных сессиях. Хорошие статьи:





Do Llamas Work in English? On the Latent Language of Multilingual Transformers

Ссылка: тык



А замечали ли вы, что многие языковые модели как будто бы переводят вопросы внутри себя на английский, отвечают на английском и переводят назад? Авторы решили это эмпирически проверить на второй Лламе с помощью логит-линзы. Концепция очень простая: берём последний слой модели с софтмаксом и применяем его к промежуточным активациям, получая из них конкретные токены.



Авторы берут несколько задач: перевод (с не-английского на другой не-английский), копирование, заполнение пропущенных слов. Для каждой из задач есть правильный ответ: слово на не-английском языке. На первых слоях сети логит-линза вообще не выдаёт чего-то разумного. Затем, на средних слоях появляется английский аналог правильного ответа, и только потом целевое слово на не-английском языке. Казалось бы, это и подтверждает переводную гипотезу 👍



На самом деле, авторы чуть более осторожны и говорят, что концепты моделей действительно смещены в сторону английского, но это не означает, что модель "думает" на каком-то конкретном языке. То есть на первых слоях модель вытаскивает какие-то разумные представления, на средних слоях эти представления "концептуализируются" (да, чаще всего на английском), и потом декодируются в конкретные слова на конкретном языке.



Никаких практических рекомендаций, связанных с этими утверждениями, авторы не дают.





Causal Estimation of Memorisation Profiles

Ссылка: тык



Работа про то, как измерить запоминание примеров из обучающей выборки в рамках причинно-следственного вывода и формул из эконометрики.



Предположим, что мы учимся на батче из обучающей выборки на каком-то таймстемпе обучения. Если мы просто будем измерять лосс на этом батче на протяжении обучения, это будет не совсем честно, потому что он будет падать даже для отложенных батчей из-за того, что модель становится лучше. Поэтому выводится несмещенная оценка, разница разниц: считаем разницу лоссов на нашем батче между текущим шагом и шагом сразу перед включением этого батча в обучение, считаем разницу лоссов на отложенном батче для тех же моментов, вычитаем одно из другого.



В итоге получаются шикарные картинки того, насколько долго модель помнит каждый батч. Чем больше модель, тем дольше она помнит батчи. В больших моделях некоторые батчи сохраняются аж до конца обучения. Забавно, что есть примеры батчей, которые после обучения на них регулярно забываются и вспоминаются.





"My Answer is C": First-Token Probabilities Do Not Match Text Answers in Instruction-Tuned Language Models

Ссылка: тык



MMLU и многие другие бенчмарки с вариантами ответа измеряют вероятности только первого токена. Условно, если варианты ответа помечены как A, B, C и D, мы просто берем вероятности этих буковок. Эта статья показывает, что это некорректно и ведёт к заниженным оценкам. Иногда модель сначала пишет какую-то подводку к ответу, а иногда даже пишет отказ в ответе. Поэтому надо вытаскивать ответ из полностью сгенерированного текста. Для части моделей разница может составлять до 8 пунктов (!) MMLU 😂





Статьи, достойные упоминания:

- Языкоспецифичные регионы в языковых моделях (тык)

- Эвристическое ядро BERT в MNLI (тык)

- Resonance RoPE (тык)

- Общие куски словаря между языками в Лламе (тык)

- Динамическая предсказываемая температура (тык)

- Пост-оценка уверенности отдельной моделью (тык)

- Завышенная самооценка моделей при самоулучшении (тык)