За 30 минут до презентации GPT-4.5 в сети появилась системная карточка новой модели. Из нее можно уже сделать выводы, что нас ждет :)
Прикрепляю карточку и краткие итоги:
Уровень галлюцинаций (19%) — измерение случаев, когда модель генерирует недостоверную информацию, выдавая её за факт. Снижение с 52% (GPT-4o) до 19%.
PersonQA (78%) — тест, предлагающий модели вопросы о реальных людях с проверяемыми фактами. Рост с 28% до 78% означает, что модель теперь правильно отвечает на большинство фактических вопросов, вместо того чтобы выдумывать информацию.
Устойчивость к обходу защиты
Джейлбрейки (99%) — попытки "взломать" модель, заставив её выдать запрещённый контент путём хитро сформулированных запросов. Результат 99% означает, что модель отказывается генерировать запрещённый контент в 99% случаев таких попыток.
Иерархия инструкций (76%) — способность модели правильно выбирать, каким инструкциям следовать при конфликте между системными и пользовательскими командами. Улучшение с 68% (GPT-4o) означает повышенную защиту от манипуляций.
Программирование и инженерные задачи
SWE-bench Verified (38%) — тестирование на способность решать реальные задачи программирования из GitHub, где модели дается репозиторий и описание проблемы. Повышение с 31-36% (GPT-4o) указывает на умеренное улучшение в решении практических задач.
Agentic Tasks (40%) — тесты на способность модели действовать как агент в среде выполнения, решая комплексные задачи в терминале и Python. Хотя это значительное улучшение по сравнению с GPT-4o, результат существенно ниже deep research (78%).
MLE-Bench (11%) — тест на способность решать соревновательные задачи Kaggle по машинному обучению, включая проектирование, создание и обучение моделей. Одинаковый результат с другими моделями указывает на отсутствие прорыва в этой области.
Социальная инженерия и убеждение
MakeMeSay (72%) — тест, в котором модель должна манипулировать другой моделью, чтобы та бессознательно произнесла определённое кодовое слово. Результат 72% — лучший среди всех тестируемых моделей (для сравнения: deep research — 24%).
MakeMePay (57%) — симуляция, где модель играет роль мошенника, пытаясь убедить другую модель сделать денежное пожертвование. GPT-4.5 получает наибольшее количество успешных платежей, но меньшую общую сумму из-за стратегии запрашивать небольшие суммы.
Научно-технические способности
Мультимодальная вирусология (56%) — способность решать проблемы в вирусологических экспериментах, анализируя текст и изображения. Улучшение на 15% по сравнению с GPT-4o указывает на значительное повышение понимания специализированного контента.
Такитные знания (72%) — способность демонстрировать неявные, трудно формализуемые знания, которыми обычно обладают только эксперты с практическим опытом. На уровне deep research, но ниже консенсусного базиса экспертов (80%).
WMDP Biology (85%) — тест на знания в области биологии из набора "Оружие массового поражения". Этот набор включает 1,520 вопросов по потенциально опасным биологическим знаниям. Результат на уровне o1 и o3-mini, но ниже deep research с доступом к интернету (90%).
Прикрепляю карточку и краткие итоги:
Уровень галлюцинаций (19%) — измерение случаев, когда модель генерирует недостоверную информацию, выдавая её за факт. Снижение с 52% (GPT-4o) до 19%.
PersonQA (78%) — тест, предлагающий модели вопросы о реальных людях с проверяемыми фактами. Рост с 28% до 78% означает, что модель теперь правильно отвечает на большинство фактических вопросов, вместо того чтобы выдумывать информацию.
Устойчивость к обходу защиты
Джейлбрейки (99%) — попытки "взломать" модель, заставив её выдать запрещённый контент путём хитро сформулированных запросов. Результат 99% означает, что модель отказывается генерировать запрещённый контент в 99% случаев таких попыток.
Иерархия инструкций (76%) — способность модели правильно выбирать, каким инструкциям следовать при конфликте между системными и пользовательскими командами. Улучшение с 68% (GPT-4o) означает повышенную защиту от манипуляций.
Программирование и инженерные задачи
SWE-bench Verified (38%) — тестирование на способность решать реальные задачи программирования из GitHub, где модели дается репозиторий и описание проблемы. Повышение с 31-36% (GPT-4o) указывает на умеренное улучшение в решении практических задач.
Agentic Tasks (40%) — тесты на способность модели действовать как агент в среде выполнения, решая комплексные задачи в терминале и Python. Хотя это значительное улучшение по сравнению с GPT-4o, результат существенно ниже deep research (78%).
MLE-Bench (11%) — тест на способность решать соревновательные задачи Kaggle по машинному обучению, включая проектирование, создание и обучение моделей. Одинаковый результат с другими моделями указывает на отсутствие прорыва в этой области.
Социальная инженерия и убеждение
MakeMeSay (72%) — тест, в котором модель должна манипулировать другой моделью, чтобы та бессознательно произнесла определённое кодовое слово. Результат 72% — лучший среди всех тестируемых моделей (для сравнения: deep research — 24%).
MakeMePay (57%) — симуляция, где модель играет роль мошенника, пытаясь убедить другую модель сделать денежное пожертвование. GPT-4.5 получает наибольшее количество успешных платежей, но меньшую общую сумму из-за стратегии запрашивать небольшие суммы.
Научно-технические способности
Мультимодальная вирусология (56%) — способность решать проблемы в вирусологических экспериментах, анализируя текст и изображения. Улучшение на 15% по сравнению с GPT-4o указывает на значительное повышение понимания специализированного контента.
Такитные знания (72%) — способность демонстрировать неявные, трудно формализуемые знания, которыми обычно обладают только эксперты с практическим опытом. На уровне deep research, но ниже консенсусного базиса экспертов (80%).
WMDP Biology (85%) — тест на знания в области биологии из набора "Оружие массового поражения". Этот набор включает 1,520 вопросов по потенциально опасным биологическим знаниям. Результат на уровне o1 и o3-mini, но ниже deep research с доступом к интернету (90%).