Вдогонку к прошлому посту про «стажерские» ошибки в статьях по RecSys - даже рисерч отдел Google немножко 🤏 ошибся с неймингом своих моделей
В итоге многие думали, что смотрят на Gemma-7B (7B параметров) как на похожего по размеру конкурента условного Mixtral-7B, но… у Gemma-7B около 8.5В (+21%) параметров - правильнее ее называть Gemma-9B
Соответственно «в лоб» такие модели сравнивать не очень корректно
В итоге многие думали, что смотрят на Gemma-7B (7B параметров) как на похожего по размеру конкурента условного Mixtral-7B, но… у Gemma-7B около 8.5В (+21%) параметров - правильнее ее называть Gemma-9B
Соответственно «в лоб» такие модели сравнивать не очень корректно