Воткнул vllm инференс вместо transformers, общее время инференса на 415 примерах стало 2 минуты вместо часа...

Причём без значимых потерь по качеству.

Не то чтобы я не знал, что так будет быстрее, но всё равно неожиданно и приятно.

Скрипт: infer_saiga_vllm.py



В итоге:

- Обучение: в среднем около 3 часов, зависит от количества данных и конфигурации

- Инференс: 2 минуты

- SbS: с GPT-4 около 10 минут