Какая из ИИ-моделей самая мощная? Смотрим по тестам и выбираем лучшую
В прошлый раз я рассказывал, как сравнивать LLM по бенчмаркам и на аренах. Теперь разберем, как себя показывают топовые модели по конкретным задачам. Ключевые показатели, по которым тестируют модели, — это качество ответов, скорость вывода токенов (TPS) и задержка ответа (TTFT). Сначала сделаем обзор по бенчмаркам, а потом — по арене. В обзоре будут участвовать модели LLama 3.1 405B, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Mistral Large и Grok-2.
Бенчмарки Artificial Analysis. Этот сводный индекс рассчитывает средний результат по качеству и скорости ответов моделей. Качество означает точность и полноту ответов, оцениваемых такими контрольными показателями, как MMLU или HumanEval.
MMLU (Massive Multitask Language Understanding) оценивает знания моделей в условиях с нулевыми и несколькими примерами. Бенчмарк охватывает 57 тем из STEM, гуманитарных и социальных дисциплин. Уровни сложности варьируются от начального до профессионального, тестируя как общие знания, так и навыки решения задач. HumanEval оценивает способности ИИ в программировании. Показатель включает 164 задачи по программированию, оценивающие понимание языка, алгоритмов и простой математики.
• Качество ответов. GPT-4o и Claude-3-5-Sonnet набрали самые высокие баллы. Это указывает на то, что их архитектуры и алгоритмы хорошо справляются с обработкой естественного языка. За ними следуют Mistral Large 2, Llama 3.1 405B и Gemini 1.5 Pro. Хотя модель от Google имеет огромное контекстное окно (2 млн токенов), она все еще недостаточно производительна. В целом модели от OpenAI и Anthropic лидируют по качеству и эффективности, в то время как остальные модели слабее.
• Скорость ответов. По TPS картина совсем другая. Из рассматриваемых моделей в топ попали модификации Gemini 1.5 Flash и Llama 3.1 8B, а GPT-4o и Claude 3.5 Sonnet уехали вниз рейтинга. По TTFT Mistral 7B и Llama 2 Chat 7B стали моделями с самой низкой задержкой ответа. Прежние фавориты оказались снова внизу.
LMSYS Chatbot Arena. На этой платформе более 1 млн людей оценивают ИИ-модели. В тройку лидеров по выполняемым задачам попали GPT-4o, Gemini 1.5 Pro и Grok-2. Дальше идут остальные модели и их модификации. Причем модель от OpenAI удерживает лидерство по кодингу, следованию инструкциям и сложным промптам. А вот по математическим задачам она уступает Claude 3.5 Sonnet.
Другие модели не такие универсальные комбайны — в зависимости от задачи их рейтинг меняется. Например, по программированию 2-е место занимает тот же Claude 3.5 Sonnet.
А скандальная нейронка Grok, которую еще весной критиковали за ответы с криминальным контентом, неплохо обрабатывает сложные инструкции от пользователей. Видимо, благодаря более раскованным цензурным фильтрам от своих создателей.
В прошлый раз я рассказывал, как сравнивать LLM по бенчмаркам и на аренах. Теперь разберем, как себя показывают топовые модели по конкретным задачам. Ключевые показатели, по которым тестируют модели, — это качество ответов, скорость вывода токенов (TPS) и задержка ответа (TTFT). Сначала сделаем обзор по бенчмаркам, а потом — по арене. В обзоре будут участвовать модели LLama 3.1 405B, GPT-4o, Gemini 1.5 Pro, Claude 3 Opus, Mistral Large и Grok-2.
Бенчмарки Artificial Analysis. Этот сводный индекс рассчитывает средний результат по качеству и скорости ответов моделей. Качество означает точность и полноту ответов, оцениваемых такими контрольными показателями, как MMLU или HumanEval.
MMLU (Massive Multitask Language Understanding) оценивает знания моделей в условиях с нулевыми и несколькими примерами. Бенчмарк охватывает 57 тем из STEM, гуманитарных и социальных дисциплин. Уровни сложности варьируются от начального до профессионального, тестируя как общие знания, так и навыки решения задач. HumanEval оценивает способности ИИ в программировании. Показатель включает 164 задачи по программированию, оценивающие понимание языка, алгоритмов и простой математики.
• Качество ответов. GPT-4o и Claude-3-5-Sonnet набрали самые высокие баллы. Это указывает на то, что их архитектуры и алгоритмы хорошо справляются с обработкой естественного языка. За ними следуют Mistral Large 2, Llama 3.1 405B и Gemini 1.5 Pro. Хотя модель от Google имеет огромное контекстное окно (2 млн токенов), она все еще недостаточно производительна. В целом модели от OpenAI и Anthropic лидируют по качеству и эффективности, в то время как остальные модели слабее.
• Скорость ответов. По TPS картина совсем другая. Из рассматриваемых моделей в топ попали модификации Gemini 1.5 Flash и Llama 3.1 8B, а GPT-4o и Claude 3.5 Sonnet уехали вниз рейтинга. По TTFT Mistral 7B и Llama 2 Chat 7B стали моделями с самой низкой задержкой ответа. Прежние фавориты оказались снова внизу.
LMSYS Chatbot Arena. На этой платформе более 1 млн людей оценивают ИИ-модели. В тройку лидеров по выполняемым задачам попали GPT-4o, Gemini 1.5 Pro и Grok-2. Дальше идут остальные модели и их модификации. Причем модель от OpenAI удерживает лидерство по кодингу, следованию инструкциям и сложным промптам. А вот по математическим задачам она уступает Claude 3.5 Sonnet.
Другие модели не такие универсальные комбайны — в зависимости от задачи их рейтинг меняется. Например, по программированию 2-е место занимает тот же Claude 3.5 Sonnet.
А скандальная нейронка Grok, которую еще весной критиковали за ответы с криминальным контентом, неплохо обрабатывает сложные инструкции от пользователей. Видимо, благодаря более раскованным цензурным фильтрам от своих создателей.