Маленький технический апдейт для интересующихся - у GPT-4 токенайзер такой же, как и у ChatGPT (
К сожалению, это означает, что большинство неанглийских языков будут потреблять гораздо больше токенов, чем английский. Окно контекста в 32'000 токенов для русского языка будет не "50 страниц текста", как говорит OpenAI, а около 6-7. То есть целую книгу (хоть и маленькую) уже не запихнуть - только пару глав.
Ну и генерации выходят дороже, так как деньги списываются за токены - и для генерации одного слова в 6-7 букв в английском вы заплатите за 1, максимум 2 токена, а в русском за 6-9 токенов (кратно больше).
Что, как и почему - можно узнать в деталях, если перейти в сообщение из реплая и почитать комментарии / пост над ним.
А вообще удобно устроились!
1) за английский платят больше, потому что в среднем больше токенов выходит → +деньги
2) на других языках GPT-4 работает хорошо (но там последовательности сами по себе длиннее), люди делают приложение на своём "дорогом" языке → +деньги
3) Так еще и сам ChatGPT под капотом добавляет ваши специальные токены (чтобы поддерживать диалог)! А платить надо тебе, юзер! → +деньги
cl100k_base
) (пруф с официального гитхаба). К сожалению, это означает, что большинство неанглийских языков будут потреблять гораздо больше токенов, чем английский. Окно контекста в 32'000 токенов для русского языка будет не "50 страниц текста", как говорит OpenAI, а около 6-7. То есть целую книгу (хоть и маленькую) уже не запихнуть - только пару глав.
Ну и генерации выходят дороже, так как деньги списываются за токены - и для генерации одного слова в 6-7 букв в английском вы заплатите за 1, максимум 2 токена, а в русском за 6-9 токенов (кратно больше).
Что, как и почему - можно узнать в деталях, если перейти в сообщение из реплая и почитать комментарии / пост над ним.
А вообще удобно устроились!
1) за английский платят больше, потому что в среднем больше токенов выходит → +деньги
2) на других языках GPT-4 работает хорошо (но там последовательности сами по себе длиннее), люди делают приложение на своём "дорогом" языке → +деньги
3) Так еще и сам ChatGPT под капотом добавляет ваши специальные токены (чтобы поддерживать диалог)! А платить надо тебе, юзер! → +деньги