Жёлтый AI

ICML День #2: Туториалы

(Прим. редакции – @vkurenkov ушел спать прежде чем выдал нам впечатления о втором дне, видимо очень устал тусить на ICML. Поэтому пост с запозданием. Он предупредил нас, что на третий день пойдет кутить на вечеринку WandB, поэтому третий день конференции тоже ждем завтра).

Основная часть конференции с постерными сессиями начинается завтра (самое интересное!), а сегодня был день туториалов. Это в целом мало чем отличается от первого дня, только вместо того, что приходят компании и рассказывают про то как они применяют крутые технологии у себя, тут приходят рисерчеры и инженеры и делают интро в какую-то конкретную хайповую технологию.

В этот раз были — RLHF от HuggingFace + доклад по сбору данных от Toloka AI; графовые нейронные сети на TensorFlow (туда я не пошел); последние достижения в теории нейронных сетей; и обучение agent-centric латентных репрезентаций динамики в RL’e (сюда я пошел).

Скажу честно, если хоть сколько-то читали про эти штуки, то на докладе будет турбо-скучно, потому что никаких деталей там особо не раскрывается, но из плюсов — можно задать сразу интересующие вопросы. Вот, например, что Nathan Lambert из HuggingFace рассказывал про RLHF:

(1) Модель награды не тренируют больше одной эпохи, потому что оно дико оверфитится.

(2) Существующие трюки из RL’я далеко не всегда переносятся на RLHF, поэтому выдумывают новые.

(3) Хороший бейзлайн — вместо PPO использовать Best-of-N или Rejection Sampling.

P.S. в нулевой день мне понравилось больше, там я постучал в гонг и увидел 5 морских черепах на берегу — лучше всяких RLHF 🤙️️