что-то на DL-ском

как работает BPE токенизация

Задача токенизации разбить предложение на части слов эффективным образом. А далее уже отдельные части преобразуются в embeddings

порассуждаем

👎🏼 Если мы разобьём текст на слова и символы, мы прийдем к тому, что словарь модели должен быть большим, что приведёт к замедлению всех процессов вычислений, за счёт слишком больших матриц входного и выходного слоев

👍🏻 Именно поэтому в основу токенизации была положена идея о разбиении текстового корпуса на слова используемые часто и не очень. Слова, которые часто используются заносятся в словарь. Слова, которые используются редко, разбиваются на подчасти

У каждой модели своя токенизация, так как способ разбиения влияет на работу модели

Существуют такие способы токенизации, как BPE, WordPiece, SentencePiece и тд

Поговорим подробнее о способе BPE токенизации

Так называемое байт-парное кодирование использует предварительный токенизатор, который разбивает данные на слова. После предварительной токенизации был создан набор уникальных слов и определена частота появления каждого слова. Затем BPE создаёт базовый словарь, состоящий из всех символов, встречающихся в наборе уникальных слов, изучает правила слияния, чтобы формировать новый символ из базовых слов. И так до тех пор, пока словарь не достигнет желаемых размеров