Токенизация мешает AI-моделям решать математические задачи



Исследователи из Университета Британской Колумбии в Канаде и Йельского университета пришли к выводу, что алгоритм работы, который лежит в основе современных языковых моделей, мешает им решать даже самые простые математические задачи.



Речь идет о токенизации — способе, который позволяет LLM обрабатывать большие объемы текстовой информации. Когда языковая модель работает с текстом, она разбивает его не на слова, а на последовательность текстовых символов (это и есть токены). Это позволяет сэкономить ресурсы, так как в один токен можно «зашить» больше одного слова.



Для токенизации модели используют специальный инструмент — токенизатор. Способы токенизации существуют разные.



Исследователи выяснили, что метод токенизации, несмотря на свои плюсы, ограничивает способности работы LLM. Они протестировали модели Claude-3.5 и GPT-4o Mini. 



Оказалось, что в зависимости от того, каким способом происходит токенизация информации, точность ответов языковой модели может изменяться на 80%. Если при токенизации один символ становится одним токеном, то точность LLM растет. Если в токене объединены несколько символов, то точность снижается. 



Улучшить ситуацию позволяет метод Chain of Thought, когда языковая модель разбивает решение каждой задачи на несколько этапов и объясняет, как она пришла к решению. 



Авторы работы не первые, кто обратил внимание на проблему токенизации. Токенизация не только мешает LLM правильно считать. Из-за токенизации модели хуже справляются с языками кроме английского и, например, могут решить, что пробел между словами это тоже слово. Кроме того, процесс токенизации часто привязан к конкретной модели, что также затрудняет их работу.



Некоторые предлагают радикальный метод полностью отказаться от токенизации. Например, Meta* представила метод под название MegaByte, который разбивает  информацию на байты. Метод позволяет модели быстрее обрабатывать больший объем информации. 



Также компания представила новую архитектуру LLM под названием Byte Latent Transformer (BLT). BLT вместо токенов использует патчи — фрагменты, размер которых устанавливается динамически для более эффективной обработки. Патчи позволяют модели работать с большим объемом данных, используя при этом меньший объем ресурсов системы. Еще один плюс BLT в том, что такая архитектура совместима не только с текстом, но и изображениями.



*Организация, запрещенная на территории РФ