Новый фреймворк экономит до 40% на маршрутизации LLM
Ученые университета Berkeley и компании Anyscale представили опенсорс-фреймворк RouteLLM для экономичной маршрутизации запросов к языковым моделям без ущерба качеству.
Такие большие закрытые модели, как GPT-4, обеспечивают высокое качество ответа, но требуют серьезных вложений, особенно при большом объеме запросов. А малые модели с открытым исходным кодом более экономичны, но не отличаются высоким качеством.
RouteLLM помогает сбалансировать эти аспекты. Он направляет простые запросы к малым моделям, а наиболее сложные и специфичные — к закрытым LLM. Небольшие модели могут эффективно обрабатывать 90–95% запросов, причем вычисления проводятся на локальных устройствах — смартфонах и компьютерах. Это значит, что дорогие модели можно будет использовать всего для 5–10% запросов.
Исследователи обучили 4 маршрутизатора: маршрутизатор ранжирования с взвешенной схожестью (SW), модель матричной факторизации, классификатор на основе BERT и классификатор причинной LLM.
Маршрутизаторы значительно снижают траты на эксплуатацию LLM. Исследователи сравнили RouteLLM с коммерческими маршрутизаторами Martian и Unify AI на MT Bench, используя GPT-4 Turbo в качестве сильной модели и Llama 2 70B или Mixtral 8x7B в качестве слабой. Маршрутизаторы RouteLLM показали схожую производительность, при этом экономия составила 40%.
Кроме того, эффективность разработки оценили на бенчмарках MT Bench, MMLU и GSM8K. По результатам тестов, маршрутизаторы на MT Bench показали 95% производительности GPT-4, при всего 26% лимита запросов к GPT-4. Тем временем затраты сократились на 48%, по сравнению с базовым уровнем.
Ученые университета Berkeley и компании Anyscale представили опенсорс-фреймворк RouteLLM для экономичной маршрутизации запросов к языковым моделям без ущерба качеству.
Такие большие закрытые модели, как GPT-4, обеспечивают высокое качество ответа, но требуют серьезных вложений, особенно при большом объеме запросов. А малые модели с открытым исходным кодом более экономичны, но не отличаются высоким качеством.
RouteLLM помогает сбалансировать эти аспекты. Он направляет простые запросы к малым моделям, а наиболее сложные и специфичные — к закрытым LLM. Небольшие модели могут эффективно обрабатывать 90–95% запросов, причем вычисления проводятся на локальных устройствах — смартфонах и компьютерах. Это значит, что дорогие модели можно будет использовать всего для 5–10% запросов.
Исследователи обучили 4 маршрутизатора: маршрутизатор ранжирования с взвешенной схожестью (SW), модель матричной факторизации, классификатор на основе BERT и классификатор причинной LLM.
Маршрутизаторы значительно снижают траты на эксплуатацию LLM. Исследователи сравнили RouteLLM с коммерческими маршрутизаторами Martian и Unify AI на MT Bench, используя GPT-4 Turbo в качестве сильной модели и Llama 2 70B или Mixtral 8x7B в качестве слабой. Маршрутизаторы RouteLLM показали схожую производительность, при этом экономия составила 40%.
Кроме того, эффективность разработки оценили на бенчмарках MT Bench, MMLU и GSM8K. По результатам тестов, маршрутизаторы на MT Bench показали 95% производительности GPT-4, при всего 26% лимита запросов к GPT-4. Тем временем затраты сократились на 48%, по сравнению с базовым уровнем.