Сижу думаю "ща коротенький простой пост накатаю в канал". Ага, конечно.
Посмотрел вебинар профессора (Christopher Potts) Стэнфордского университета с интригующим названием "GPT-3 & Beyond".
Привожу ниже список таймкодов к интересным топикам-тезисам, вместе с моими комментариями:
- (6:00) бенчмарки и их устаревание. Раньше чтобы приблизиться к уровню человека на задаче вроде Imagenet уходило 5-8 лет, сейчас реально сложные задачи могут быть решены за год - и в таких условиях очень сложно "идти по приборам" в обучении моделей;
- (11:20) Кажется, что сейчас порог входа в рисерч NLP очень высок - без нескольких сотен тысяч долларов на обучение и эксперименты не обойтись. Но это не так. Есть второй способ - встать на плечи гигантов (LLM), готовых моделей, и переиспользовать их, улучшая интерфейсы взаимодействия, но без любого дообучения. Я сам об этом думаю последнюю неделю, пока размышляю, чем бы заняться - и пришел к тому же выводу. Можно буквально 300$ потратить на API к GPT-3, и получить SOTA в конкретной задаче. Одним из самых перспективных направлений, которым занимается Christopher и его лаборатория - Retrieval Augmented In-Context Learning;
- (13:20) объяснение, что такое Retrieval Augmented In-Context Learning;
- (23:38) Пример разницы в промптах в 2020 и 2023м: как он меняется с тем, что мы узнаем о моделях. Интересное сравнение приводит Christopher: LLMки для нас это почти инопланетяне, и мы как бы пытаемся найти с ними общий язык, понять, как лучше общаться;
- (28:25) какие есть проблемы у LLM для ответов на вопросы: эффективность, возможность обновления базы фактов, отсутствие указания источника. Но очевидный плюс - синтез из информации: если подать модели 10 разных источников как контекст, то модель прекрасно соединит их вместе и выдаст связный ответ;
- (32:08) общее объяснение, как Retrieval-based решение позволяет обойти все указанные проблемы;
- (36:04) как заставить модели общаться друг с другом без дообучения, но с помощью естественного языка;
- (37:02) продвинутый подход ответа на вопросы с поиском похожих вопросов-ответов через KNN;
- (40:15) про DSP - статью, о которой писал выше. Помните, я еще про Matei Zaharia рассуждал? Так вот, оказывается, это работа лаборатории лектора;
- (50:48) про использование готовых моделей по API, что это дешевле, чем обучать с нуля самим, при этом результаты могут быть даже лучше ожидаемых.
Кстати, таймкоды кликабельны - можно cразу переходить на нужную часть.
Про DSP - я прочитал статью, посмотрел код (даже в него поконтрибутить успел, кек), и ОООО МОЙ БОГ какой же это невероятный подход. Разбора на канале не будет - думаю написать большой блог на Хабр про предпосылки, развитие In-Context Learning и про сам подход. I'm very excited about this!
Посмотрел вебинар профессора (Christopher Potts) Стэнфордского университета с интригующим названием "GPT-3 & Beyond".
Привожу ниже список таймкодов к интересным топикам-тезисам, вместе с моими комментариями:
- (6:00) бенчмарки и их устаревание. Раньше чтобы приблизиться к уровню человека на задаче вроде Imagenet уходило 5-8 лет, сейчас реально сложные задачи могут быть решены за год - и в таких условиях очень сложно "идти по приборам" в обучении моделей;
- (11:20) Кажется, что сейчас порог входа в рисерч NLP очень высок - без нескольких сотен тысяч долларов на обучение и эксперименты не обойтись. Но это не так. Есть второй способ - встать на плечи гигантов (LLM), готовых моделей, и переиспользовать их, улучшая интерфейсы взаимодействия, но без любого дообучения. Я сам об этом думаю последнюю неделю, пока размышляю, чем бы заняться - и пришел к тому же выводу. Можно буквально 300$ потратить на API к GPT-3, и получить SOTA в конкретной задаче. Одним из самых перспективных направлений, которым занимается Christopher и его лаборатория - Retrieval Augmented In-Context Learning;
- (13:20) объяснение, что такое Retrieval Augmented In-Context Learning;
- (23:38) Пример разницы в промптах в 2020 и 2023м: как он меняется с тем, что мы узнаем о моделях. Интересное сравнение приводит Christopher: LLMки для нас это почти инопланетяне, и мы как бы пытаемся найти с ними общий язык, понять, как лучше общаться;
- (28:25) какие есть проблемы у LLM для ответов на вопросы: эффективность, возможность обновления базы фактов, отсутствие указания источника. Но очевидный плюс - синтез из информации: если подать модели 10 разных источников как контекст, то модель прекрасно соединит их вместе и выдаст связный ответ;
- (32:08) общее объяснение, как Retrieval-based решение позволяет обойти все указанные проблемы;
- (36:04) как заставить модели общаться друг с другом без дообучения, но с помощью естественного языка;
- (37:02) продвинутый подход ответа на вопросы с поиском похожих вопросов-ответов через KNN;
- (40:15) про DSP - статью, о которой писал выше. Помните, я еще про Matei Zaharia рассуждал? Так вот, оказывается, это работа лаборатории лектора;
- (50:48) про использование готовых моделей по API, что это дешевле, чем обучать с нуля самим, при этом результаты могут быть даже лучше ожидаемых.
Кстати, таймкоды кликабельны - можно cразу переходить на нужную часть.
Про DSP - я прочитал статью, посмотрел код (даже в него поконтрибутить успел, кек), и ОООО МОЙ БОГ какой же это невероятный подход. Разбора на канале не будет - думаю написать большой блог на Хабр про предпосылки, развитие In-Context Learning и про сам подход. I'm very excited about this!