Воткнул vllm инференс вместо transformers, общее время инференса на 415 примерах стало 2 минуты вместо часа...
Причём без значимых потерь по качеству.
Не то чтобы я не знал, что так будет быстрее, но всё равно неожиданно и приятно.
Скрипт: infer_saiga_vllm.py
В итоге:
- Обучение: в среднем около 3 часов, зависит от количества данных и конфигурации
- Инференс: 2 минуты
- SbS: с GPT-4 около 10 минут
Причём без значимых потерь по качеству.
Не то чтобы я не знал, что так будет быстрее, но всё равно неожиданно и приятно.
Скрипт: infer_saiga_vllm.py
В итоге:
- Обучение: в среднем около 3 часов, зависит от количества данных и конфигурации
- Инференс: 2 минуты
- SbS: с GPT-4 около 10 минут