Как и обещал - небольшая видюшка про оптимизацию скорости RockChip. В инете есть много упоминаний на эту тему. Но только не в официальной документации.
Быстрее всего инференс работает если распараллелить его по разным NPU и считать все одновременно. Это, конечно, убивает latency, но зато хороший перформанс. Так же попробовал несколько других способов с которыми никто не сравнивал:
1) Запуск сразу на всех NPU
2) Запуск батчами
Любопытно, что это приводит к ухудшению скорости даже по сравнению с батчем 1 в один поток. Подробнее рассматриваю все варианты в видео:
https://youtu.be/mDRfXNuIMBE
Я тут ничего не показываю ещё с квантизацией и оптимизацией через неё. Кажется что это будет когда-то отдельная серия видео.
Быстрее всего инференс работает если распараллелить его по разным NPU и считать все одновременно. Это, конечно, убивает latency, но зато хороший перформанс. Так же попробовал несколько других способов с которыми никто не сравнивал:
1) Запуск сразу на всех NPU
2) Запуск батчами
Любопытно, что это приводит к ухудшению скорости даже по сравнению с батчем 1 в один поток. Подробнее рассматриваю все варианты в видео:
https://youtu.be/mDRfXNuIMBE
Я тут ничего не показываю ещё с квантизацией и оптимизацией через неё. Кажется что это будет когда-то отдельная серия видео.