Meta выпустила модель, которая может сама создавать датасеты для обучения
Self-Taught Evaluator (STE) умеет создавать синтетические датасеты, которые затем будут использоваться для обучения LLM.
С помощью STE языковая модель самостоятельно собирает качественный датасет из пула информации, предложенной ей человеком. При этом сам человек в составлении датасета не участвует.
STE позволяет модели отбирать из пула наиболее релевантную и разнообразную информацию с учетом заданных целей и задач.
Когда датасет собран, LLM может использовать его для самостоятельного обучения, или же отобранную информацию можно использовать для обучения других языковых моделей.
В тестах метод STE показал себя успешно. Обученная с помощью него языковая модель показала более высокие результаты в бенчмарках, чем базовая LLM.
Важно понимать, что модель с STE действует не полностью автономно. Задачи и изначальный массив информации все равно выбирает человек.
Тем не менее STE позволяет существенно масштабировать и ускорить создание датасетов, что часто является узким горлом в процессе обучения AI-моделей. Особенно это актуально для компаний, которым нужно обучить LLM на корпоративной информации.
Разработчики утверждают, что STE позволяет эффективнее справиться с составлением датасетов, чем это получается у моделей с большим количеством параметров или в случаях, когда к обучению привлекается человек.
STE построен на основе языковой модели Llama 3-70B-Instruct.
Self-Taught Evaluator (STE) умеет создавать синтетические датасеты, которые затем будут использоваться для обучения LLM.
С помощью STE языковая модель самостоятельно собирает качественный датасет из пула информации, предложенной ей человеком. При этом сам человек в составлении датасета не участвует.
STE позволяет модели отбирать из пула наиболее релевантную и разнообразную информацию с учетом заданных целей и задач.
Когда датасет собран, LLM может использовать его для самостоятельного обучения, или же отобранную информацию можно использовать для обучения других языковых моделей.
В тестах метод STE показал себя успешно. Обученная с помощью него языковая модель показала более высокие результаты в бенчмарках, чем базовая LLM.
Важно понимать, что модель с STE действует не полностью автономно. Задачи и изначальный массив информации все равно выбирает человек.
Тем не менее STE позволяет существенно масштабировать и ускорить создание датасетов, что часто является узким горлом в процессе обучения AI-моделей. Особенно это актуально для компаний, которым нужно обучить LLM на корпоративной информации.
Разработчики утверждают, что STE позволяет эффективнее справиться с составлением датасетов, чем это получается у моделей с большим количеством параметров или в случаях, когда к обучению привлекается человек.
STE построен на основе языковой модели Llama 3-70B-Instruct.