Dealer.AI

SSA для диалоговых моделей и проблема релевантности и специфичности. Продолжение.

Проблема вторая. Моя любимая, тк часто работаю с такой системой.

Проблема специфичности в retrieval based диалоговой системе. Вообще зачем оно нам надо? Эта ретривал based система, когда уже есть классные GPT. Ретривал модели, зачастую более безопасны, тк ответы черпают из "мешка фраз", а их пишут или вычитывают с логов эксперты/редакторы. Поэтому всякие модели общения с мошенниками, лучше, строить на таких подходах. Но возникает проблема, что "мешок фраз" конечен и не смотря на высокую релевантность таких фраз, они обладают низкой специфичностью. Конечно, можно заставлять писать редакторов интересные ответы, обладающие нужными свойствами, но так бесконечно продолжаться не может. Поэтому, нам нужно улучшить качество retrieval свойств нашей системы так, чтобы она поднимала в топ специфичные, полные, интересные ответы из того что есть. Как это сделать с учётом опыта от генеративок выше:

Способ первый и дорогой - блендер схема. Раз у нас decoder like специфичны, а ретривал релевантны. Давайте возьмём и скрестим эти два опыта. Будем брать кандидатов с обеих моделей, а дальше накинем сверху ещё один алгоритм, который выберет из этого микст пула лучший ответ. Например бустинг. Добавим ему ещё мета информации из моделек аннотаторов и тп.

Вариант второй - применим снова RL. Допустим, у нас нет своей генеративки, нет денег на внешнее АПИ к ChatGPT и тп. Живём только с того, что можно взять в HF и своей retrieval системой. Тогда мы не робеем. Берём, на ваш взгляд, самый лучший decoder-like чекпоинт с обнимашек. Естественно, в рамках того языка, который у вас. Далее с помощью этой модели для каждого ответа в вашей базе получаете perplexity score. Далее или юзаете as is на правилах или учите свой прокси encoder reward на вход фраза на выход перплексия, который будет легче условной GPT на RL PPO. Если вы выбрали proxy reward , то кидаем это в алгоритм, который писал ранее в качестве RL-critic и тюните в тч на оценку интересности фразы ответа, как 1-perplexity.

На этом все. Сумасшедших экспериментов вам.