BOGDANISSSIMO

3. Ensemble with choice shuffle. Здесь начинается уже специфика бенчмарков, где на выходе ожидается вариант ответа, выбранный из заранее определённого списка. Если это не кейс вашего приложения, вам эта часть будет бесполезна. Проблема: как показала практика, порядок вариантов, из которых нужно выбирать, статистзначимо смещает выбор варианта при перезапуске генерации много-много раз. Чтобы это обойти, перемешиваем варианты, например, 5 раз и выбираем самый популярный.

Вот и весь Medprompt. Даёт какие-то мощные приросты в точности и обгоняет fine-tuned модель от Google, Med-PaLM 2.

Мне в юзкейсах достаточно few-shot kNN + CoT + ещё разной магии, у Меня нет заранее предопределённых вариантов, поэтому нам choice shuffle не актуален. Шаблоны промптов с картинки можно покурить здесь, там ничего сложного. За ссылочки и помощь в разборе спасибо Игорю (@seeallochnaya).

P.S. Поделитесь, а какие из этих техник вы применяете у себя в LLM-продуктах? Мне и другим будет интересно узнать.

#LLMOps