🔺 TAPE



Подъехал первый бенчмарк для оценки моделей во few-shot на русском языке (!) от SberDevices.



〰️ Что это?



Сейчас большие языковые модели все чаще используют, добавляя в затравку один или несколько примеров (few-shot). TAPE позволяет оценить, насколько хорошо модель работает в таком режиме.



〰️ Устойчивость к шуму



В датасете шесть задач (RuOpenBookQA, RuWorldTree, MultiQ, CheGeKa, Ethics, Winograd) + можно оценить насколько модель устойчива к зашумлению и атакам (опечатки, эмодзи, перестановки слов и т.д.).



👉 Хабр | GitHub | HF