Библиотека нейросетей | ChatGPT, Midjourney, DeepSeek, Sora

🍓

Почему языковые модели не могут правильно подсчитать количество букв r в слове strawberry

Вы можете проверить это самостоятельно в популярных чат-ботах. Вместо верного ответа LLM выдают рандомные числа. Это работает и с русским языком. Например, если спросить у ChatGPT, сколько «р» в слове «террор», он может ответить, что две.

🪅Почему так происходит? Если коротко, то всё дело в токенизации текстов.

🔘LLM не «видят» слова так, как видим их мы. Они работают с числовыми последовательностями, которые представляют каждое слово.

🔘Чтобы перевести слова в такие последовательности, языковые модели используют токенизацию — то есть процесс разбиения слов и фраз на небольшие кусочки, токены. Эти токены затем кодируются в числа.

🔘Так LLM «видят» лишь наборы цифр, поэтому они не могут «знать» конкретный вид слова «strawberry» или «террор». В результате модели галлюцинируют (иными словами, просто пытаются угадать).

#ликбез_proglib