Клуб дебатов для вашей LLM.
Или как изобретение, которому более 2000 лет позволяет LLM справляться с галлюцинациями.
Сегодня поговорим про Multi-Agent Debates Elevate Language Models: MIT and Google Brain Unlock LLM Potential and Accuracy. Статью скачать тут.
Исследователи из MIT и Google Brain предлагают новый подход к улучшению качества рассуждений и итоговых генераций LLM путём дополнения Chain of Thoughts взаимным общением между моделями.
Они были вдохновлены одним из адептов агентного ИИ Марвином Мински и его работой Society of Mind, также в интернете есть книжка воть.
Немного предыстории:
Мински, основатель лаборатории искусственного интеллекта Массачусетского технологического института, представил свою теорию о том, как работает разум.
Он предположил, что это не единое целое, а скорее сложная система, состоящая из множества более мелких и простых процессов, которые Мински назвал “агентами”.
Эти агенты, каждый из которых прост сам по себе, работают вместе, создавая разумное поведение, то поведение, которое ИИ каждый день пытается имитировать у нас, людей.
Я и сам грешен, признаюсь, защищал магистерскую работу по роевому интеллекту и был адептом агентного ИИ. Поэтому данный подход очень близок мне.
А теперь к делу.
Основная идея состоит в том, чтобы собрать агентов на некоторой дебат-арене. В этой среде запрос/промт кормят каждому из агентов-LLM , а их ответы перекрестно выдают всем остальным агентам. При этом, контекст который на каждом шаге принимает конкретная LLM состоит из его рассуждения и рассуждения соседей. Через 3-4 итерации таких дебатов, модели сходятся к одной стабильной генерации. Т.е. подобно людям во время дискуссии они приходят к общим выводам.
Если более внятно алго такой:
1.
При этом данный процесс побуждает модели строить ответы, которые согласуются как с их внутренней критикой, так и разумны в свете ответов других агентов.
Полученный кворум моделей может одновременно поддерживать несколько цепочек рассуждений и возможных ответов, прежде чем предлагать окончательный ответ.
Т. е. CoT можно и нужно комбинировать с Society of Mind.
В конце хочу рассказать немного про эксперименты лаборатории ИИ MIT.
Методика была оценена в трех тестах:
1. Правильное изложение фактов о биографии известного ученого-компьютерщика.
2. Проверка достоверности в вопросах о фактических знаниях
3. Предсказание следующего наилучшего хода в шахматной партии.
В итоге Society of Mind превзошел другие варианты во всех категориях, как показано в таблице 1. под постом.
У меня остаётся только один вопрос конечно - это критерий останова этих дебатов. Где он? Это замер перплексии или BLEU генерации, или что? Жду ваши варианты ответа в комментариях.
Или как изобретение, которому более 2000 лет позволяет LLM справляться с галлюцинациями.
Сегодня поговорим про Multi-Agent Debates Elevate Language Models: MIT and Google Brain Unlock LLM Potential and Accuracy. Статью скачать тут.
Исследователи из MIT и Google Brain предлагают новый подход к улучшению качества рассуждений и итоговых генераций LLM путём дополнения Chain of Thoughts взаимным общением между моделями.
Они были вдохновлены одним из адептов агентного ИИ Марвином Мински и его работой Society of Mind, также в интернете есть книжка воть.
Немного предыстории:
Мински, основатель лаборатории искусственного интеллекта Массачусетского технологического института, представил свою теорию о том, как работает разум.
Он предположил, что это не единое целое, а скорее сложная система, состоящая из множества более мелких и простых процессов, которые Мински назвал “агентами”.
Эти агенты, каждый из которых прост сам по себе, работают вместе, создавая разумное поведение, то поведение, которое ИИ каждый день пытается имитировать у нас, людей.
Я и сам грешен, признаюсь, защищал магистерскую работу по роевому интеллекту и был адептом агентного ИИ. Поэтому данный подход очень близок мне.
А теперь к делу.
Основная идея состоит в том, чтобы собрать агентов на некоторой дебат-арене. В этой среде запрос/промт кормят каждому из агентов-LLM , а их ответы перекрестно выдают всем остальным агентам. При этом, контекст который на каждом шаге принимает конкретная LLM состоит из его рассуждения и рассуждения соседей. Через 3-4 итерации таких дебатов, модели сходятся к одной стабильной генерации. Т.е. подобно людям во время дискуссии они приходят к общим выводам.
Если более внятно алго такой:
1.
Для заданного запроса несколько экземпляров языковой модели сначала генерируют отдельные ответы-кандидаты.
2.Каждый отдельный экземпляр модели читает и критикует ответы всех других моделей и использует этот контент для обновления своего собственного ответа.
3.Затем этот шаг повторяется в течение нескольких раундов, пока мы не получим окончательный ответ.
При этом данный процесс побуждает модели строить ответы, которые согласуются как с их внутренней критикой, так и разумны в свете ответов других агентов.
Полученный кворум моделей может одновременно поддерживать несколько цепочек рассуждений и возможных ответов, прежде чем предлагать окончательный ответ.
Т. е. CoT можно и нужно комбинировать с Society of Mind.
В конце хочу рассказать немного про эксперименты лаборатории ИИ MIT.
Методика была оценена в трех тестах:
1. Правильное изложение фактов о биографии известного ученого-компьютерщика.
2. Проверка достоверности в вопросах о фактических знаниях
3. Предсказание следующего наилучшего хода в шахматной партии.
В итоге Society of Mind превзошел другие варианты во всех категориях, как показано в таблице 1. под постом.
У меня остаётся только один вопрос конечно - это критерий останова этих дебатов. Где он? Это замер перплексии или BLEU генерации, или что? Жду ваши варианты ответа в комментариях.