FLAN FRED

Несколько месяцев назад я вел в вышке проектную деетельность у студентов, в рамках нее шли эксперементы по претрейну маленьких русских моделей, а так же важный эксперемент который не успели закончить, а руки добить дошли только сейчас.



FLAN - это один из лучших датасетов для COT, механики позволяющей учить модель рассуждать, да это не улучшает ZS способности для маленьких моделей, но при этом претрейн становиться лучше и модель можно переиспользовать для разных задач.



Так же спасибо ребятам из SiberianSoft(Денис) за опыт дообучения fred и полезные советы!



Модель

датасет(машинный перевод, довольно грязный)

Коллектив причастный к модели:

Den4ikAI, Pavel Ilin, Ксения Золина, Илья Кулешов, Егор Кокуш, админ