
На OpenAI Day 2 представили Reinforcement Fine-Tuning (RFT) — новый подход к обучению ИИ, который превращает модели в настоящих экспертов в узких областях.
Как это работает?
RFT обучает модель на десятках или тысячах качественных примеров, где её ответы оцениваются специальным грейдером. Это помогает не просто улучшить точность, но и научить модель анализировать и рассуждать.
Пример из демонстрации:
Модель о1-mini обучали предсказывать гены, ответственные за генетические заболевания, анализируя список симптомов:
OpenAI запускает исследовательскую программу для университетов, исследовательских центров и компаний. Участники получат ранний доступ к API, смогут тестировать RFT на своих задачах и делиться фидбеком для улучшения технологии.
Публичный релиз RFT запланирован на 2025 год.