Интересные статьи с NeurIPS 2024
DEVBENCH: A multimodal developmental benchmark for language learning
Одна из многих работ о бенчмарках. Здесь авторы предлагают мультимодальный бенчмарк с информацией о том, как себя на нём проявляют люди разных возрастов. Создатели стремятся проверить: правда ли модели учатся и растут примерно как дети. Ответ положительный, однако люди лучше показывают себя в неоднозначных ситуациях, потому что понимают контекст. По словам авторов, их работа может давать представление о возможных путях развития языковых моделей.
LLM Evaluators Recognize and Favor Their Own Generations
Модели всё чаще используют для оценки их же ответов. Такой метод называют Self-evaluation, однако у него есть потенциальные проблемы. В частности, из-за самопредпочтения (self-preference) — LLM может оценивать собственные ответы выше остальных. Авторы статьи проверяют, влияет ли способность модели узнавать свои тексты на предпочтения. Выясняется, что да — особенно у GPT-4 и Llama 2. Таким образом, чтобы использовать модель вместо ассесора для разметки, нужно выяснить, в чём она предвзята. Выводы статьи могут быть полезны для определения сгенерированных текстов и нахождения схожести между моделями.
LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages
Ещё один текст о бенчмарке — на этот раз для оценки способностей к рассуждению. Он состоит из задач о низкоресурсных — то есть таких, о которых мало данных для обучения — языках из олимпиад по лингвистике. Всего в бенчмарке 1133 задачи по 90 языкам. LINGOLY получился сложным — лучше всего себя показала Claude Opus, но и она набрала менее 20%.
Not All Tokens Are What You Need for Pretraining
Авторы выдвигают гипотезу: не все токены на претрейне одинаково важны. Чтобы доказать это, создают модель RHO-1. С помощью неё считают перплексию для всего претрейна. А затем обучают модель на самых значимых токенах. На ряде бенчмарков действительно получили прирост в 20-30 процентных пунктов. Бенчмарки были в основном математические и научные.
Интересное увидела❣ Анастасия Беззубцева
#YaNeurIPS
Душный NLP
DEVBENCH: A multimodal developmental benchmark for language learning
Одна из многих работ о бенчмарках. Здесь авторы предлагают мультимодальный бенчмарк с информацией о том, как себя на нём проявляют люди разных возрастов. Создатели стремятся проверить: правда ли модели учатся и растут примерно как дети. Ответ положительный, однако люди лучше показывают себя в неоднозначных ситуациях, потому что понимают контекст. По словам авторов, их работа может давать представление о возможных путях развития языковых моделей.
LLM Evaluators Recognize and Favor Their Own Generations
Модели всё чаще используют для оценки их же ответов. Такой метод называют Self-evaluation, однако у него есть потенциальные проблемы. В частности, из-за самопредпочтения (self-preference) — LLM может оценивать собственные ответы выше остальных. Авторы статьи проверяют, влияет ли способность модели узнавать свои тексты на предпочтения. Выясняется, что да — особенно у GPT-4 и Llama 2. Таким образом, чтобы использовать модель вместо ассесора для разметки, нужно выяснить, в чём она предвзята. Выводы статьи могут быть полезны для определения сгенерированных текстов и нахождения схожести между моделями.
LINGOLY: A Benchmark of Olympiad-Level Linguistic Reasoning Puzzles in Low-Resource and Extinct Languages
Ещё один текст о бенчмарке — на этот раз для оценки способностей к рассуждению. Он состоит из задач о низкоресурсных — то есть таких, о которых мало данных для обучения — языках из олимпиад по лингвистике. Всего в бенчмарке 1133 задачи по 90 языкам. LINGOLY получился сложным — лучше всего себя показала Claude Opus, но и она набрала менее 20%.
Not All Tokens Are What You Need for Pretraining
Авторы выдвигают гипотезу: не все токены на претрейне одинаково важны. Чтобы доказать это, создают модель RHO-1. С помощью неё считают перплексию для всего претрейна. А затем обучают модель на самых значимых токенах. На ряде бенчмарков действительно получили прирост в 20-30 процентных пунктов. Бенчмарки были в основном математические и научные.
Интересное увидела
#YaNeurIPS
Душный NLP