ChatGPTrue

🧠

OpenAI научит ИИ думать, как эксперт: что такое Reinforcement Fine-Tuning?

На OpenAI Day 2 представили Reinforcement Fine-Tuning (RFT) — новый подход к обучению ИИ, который превращает модели в настоящих экспертов в узких областях.

Как это работает?

RFT обучает модель на десятках или тысячах качественных примеров, где её ответы оцениваются специальным грейдером. Это помогает не просто улучшить точность, но и научить модель анализировать и рассуждать.

Пример из демонстрации:

Модель о1-mini обучали предсказывать гены, ответственные за генетические заболевания, анализируя список симптомов:

🔵После обучения точность значительно увеличилась: правильные ответы чаще попадали в топ списка.

🔵Модель научилась логически анализировать и рассуждать, а не просто запоминать данные.

OpenAI запускает исследовательскую программу для университетов, исследовательских центров и компаний. Участники получат ранний доступ к API, смогут тестировать RFT на своих задачах и делиться фидбеком для улучшения технологии.

Публичный релиз RFT запланирован на 2025 год.

🐾

ChatGPTrue