Как разработчики языковых моделей прикладывают бенчмарки к своей и к чужим моделям:

https://youtu.be/wKd5ONbWPaA