🍓 Почему языковые модели не могут правильно подсчитать количество букв r в слове strawberry



Вы можете проверить это самостоятельно в популярных чат-ботах. Вместо верного ответа LLM выдают рандомные числа. Это работает и с русским языком. Например, если спросить у ChatGPT, сколько «р» в слове «террор», он может ответить, что две.



🪅Почему так происходит? Если коротко, то всё дело в токенизации текстов.



🔘LLM не «видят» слова так, как видим их мы. Они работают с числовыми последовательностями, которые представляют каждое слово.



🔘Чтобы перевести слова в такие последовательности, языковые модели используют токенизацию — то есть процесс разбиения слов и фраз на небольшие кусочки, токены. Эти токены затем кодируются в числа.



🔘Так LLM «видят» лишь наборы цифр, поэтому они не могут «знать» конкретный вид слова «strawberry» или «террор». В результате модели галлюцинируют (иными словами, просто пытаются угадать).



#ликбез_proglib