🧠 OpenAI научит ИИ думать, как эксперт: что такое Reinforcement Fine-Tuning?



На OpenAI Day 2 представили Reinforcement Fine-Tuning (RFT) — новый подход к обучению ИИ, который превращает модели в настоящих экспертов в узких областях.



Как это работает?



RFT обучает модель на десятках или тысячах качественных примеров, где её ответы оцениваются специальным грейдером. Это помогает не просто улучшить точность, но и научить модель анализировать и рассуждать.



Пример из демонстрации:



Модель о1-mini обучали предсказывать гены, ответственные за генетические заболевания, анализируя список симптомов:



🔵После обучения точность значительно увеличилась: правильные ответы чаще попадали в топ списка.

🔵Модель научилась логически анализировать и рассуждать, а не просто запоминать данные.



OpenAI запускает исследовательскую программу для университетов, исследовательских центров и компаний. Участники получат ранний доступ к API, смогут тестировать RFT на своих задачах и делиться фидбеком для улучшения технологии.



Публичный релиз RFT запланирован на 2025 год.



🐾 ChatGPTrue