Третий (и последний) день основной части конференции. Дальше будут воркшопы. Половину дня сегодня выдавали награды, список можно посмотреть тут. Там есть несколько статьей, про которые я уже писал, в частности статья про невыучиваемость Parity и профили запоминания 🍫



Я уже начал уставать, поэтому нормальный обзор только одной статьи.





Mission: Impossible Language Models

Статья: ссылка



Могут ли языковые модели выучивать невозможные для людей языки? Это важный вопрос, потому что если могут, то любые исследования естественных человеческих языков через языковые модели становится гораздо менее разумным, а выводы из этих исследований менее убедительными. Да и это же просто интересно 👍



Само понятие невозможного для людей языка трудноопределимо. В статье в качестве таковых берут модификации английского языка: перемешивают слова, разворачивают кусочки предложений, переносят грамматические маркеры (типа лица и времени) на N слов вперёд.



В качестве основной модели авторы берут GPT-2, а в качестве обучающих выборок — соответствующие модификации BabyLM. И дообучают разные версии моделей на разных версиях корпуса. На модифицированных языках преплексия выше, причём сообразно сложности модификации. Из чего авторы делают вывод, что GPT не может так же хорошо выучивать синтетические языки, а значит языковые модели можно использовать для изучения человеческих языков.



Меня же тут много что смущает. Во-первых, синтетические языки по-любому сложнее, и эту сложность можно измерить неустранимой перплексией. Почему авторы этого не сделали? Может там GPT выучила всё, что в принципе возможно? Или я что-то упускаю? 😵



Во-вторых, токенизатор же одинаковый был. С одной стороны, так можно сравнивать перплексию, а с другой — это неявное смещение в сторону оригинального языка.





Достойны упоминания:

- ReBased, модификация Based от ребят из Т-Банка (тык) 😐

- Реконструкция звучания протоязыков (тык)

- Пространственные понятия в языковых моделях (тык)

- Объединение разных лоссов в контрастном обучении (тык)

- Сравнение разных типов токенизаторов (тык)

- Кэширование активаций у общих префиксов разных запросов (тык)