как работает BPE токенизация
Задача токенизации разбить предложение на части слов эффективным образом. А далее уже отдельные части преобразуются в embeddings
порассуждаем
👎🏼 Если мы разобьём текст на слова и символы, мы прийдем к тому, что словарь модели должен быть большим, что приведёт к замедлению всех процессов вычислений, за счёт слишком больших матриц входного и выходного слоев
👍🏻 Именно поэтому в основу токенизации была положена идея о разбиении текстового корпуса на слова используемые часто и не очень. Слова, которые часто используются заносятся в словарь. Слова, которые используются редко, разбиваются на подчасти
У каждой модели своя токенизация, так как способ разбиения влияет на работу модели
Существуют такие способы токенизации, как BPE, WordPiece, SentencePiece и тд
Поговорим подробнее о способе BPE токенизации
Так называемое байт-парное кодирование использует предварительный токенизатор, который разбивает данные на слова. После предварительной токенизации был создан набор уникальных слов и определена частота появления каждого слова. Затем BPE создаёт базовый словарь, состоящий из всех символов, встречающихся в наборе уникальных слов, изучает правила слияния, чтобы формировать новый символ из базовых слов. И так до тех пор, пока словарь не достигнет желаемых размеров
Задача токенизации разбить предложение на части слов эффективным образом. А далее уже отдельные части преобразуются в embeddings
порассуждаем
👎🏼 Если мы разобьём текст на слова и символы, мы прийдем к тому, что словарь модели должен быть большим, что приведёт к замедлению всех процессов вычислений, за счёт слишком больших матриц входного и выходного слоев
👍🏻 Именно поэтому в основу токенизации была положена идея о разбиении текстового корпуса на слова используемые часто и не очень. Слова, которые часто используются заносятся в словарь. Слова, которые используются редко, разбиваются на подчасти
У каждой модели своя токенизация, так как способ разбиения влияет на работу модели
Существуют такие способы токенизации, как BPE, WordPiece, SentencePiece и тд
Поговорим подробнее о способе BPE токенизации
Так называемое байт-парное кодирование использует предварительный токенизатор, который разбивает данные на слова. После предварительной токенизации был создан набор уникальных слов и определена частота появления каждого слова. Затем BPE создаёт базовый словарь, состоящий из всех символов, встречающихся в наборе уникальных слов, изучает правила слияния, чтобы формировать новый символ из базовых слов. И так до тех пор, пока словарь не достигнет желаемых размеров