🔺 TAPE
Подъехал первый бенчмарк для оценки моделей во few-shot на русском языке (!) от SberDevices.
〰️ Что это?
Сейчас большие языковые модели все чаще используют, добавляя в затравку один или несколько примеров (few-shot). TAPE позволяет оценить, насколько хорошо модель работает в таком режиме.
〰️ Устойчивость к шуму
В датасете шесть задач (RuOpenBookQA, RuWorldTree, MultiQ, CheGeKa, Ethics, Winograd) + можно оценить насколько модель устойчива к зашумлению и атакам (опечатки, эмодзи, перестановки слов и т.д.).
👉 Хабр | GitHub | HF
Подъехал первый бенчмарк для оценки моделей во few-shot на русском языке (!) от SberDevices.
〰️ Что это?
Сейчас большие языковые модели все чаще используют, добавляя в затравку один или несколько примеров (few-shot). TAPE позволяет оценить, насколько хорошо модель работает в таком режиме.
〰️ Устойчивость к шуму
В датасете шесть задач (RuOpenBookQA, RuWorldTree, MultiQ, CheGeKa, Ethics, Winograd) + можно оценить насколько модель устойчива к зашумлению и атакам (опечатки, эмодзи, перестановки слов и т.д.).
👉 Хабр | GitHub | HF