Про изменение языка
Не секрет, что мы стремимся к упрощению и автоматизации. Причем не только бизнес процессов, но и нашей речи.
Во многом это происходит из-за интернета: мы сами не замечаем как в наш обиход врываются заимствования, сокращения, мемы.
Это не хорошо и не плохо, это естественный процесс, ведь общество развивает язык (хотя и физиологические особенности надо учитывать).
Отражение этого можно увидеть и в данных. В чатах - короткие сообщения, а в разговорах по телефону: "да", "нет", "не знаю".
По сути это естественный датадрифт, который, вероятно, больше всего заметен в машинном переводе. Там и так есть свои проблемы с разными трактовками одной и той же фразы, а тут ещё и это.
Быть может старые модели вовсе не так плохи как кажутся?
Быть может результаты, что есть сейчас некорректно сравнивать и нужно переобучать каждую модель?
Быть может новые архитектуры просто учатся на "свежих" наборах и становятся SOTA?
Или же проблема немножко в другом? В том что данные подвергаются "временной коррозии" (устаревание слов, изменение конструкций текстов, тренды)?
Очень интересно узнать, что вы думаете про изменение языка в контексте нынешнего NLP.
И что думают Kali Novskaya, DL in NLP
Не секрет, что мы стремимся к упрощению и автоматизации. Причем не только бизнес процессов, но и нашей речи.
Во многом это происходит из-за интернета: мы сами не замечаем как в наш обиход врываются заимствования, сокращения, мемы.
Это не хорошо и не плохо, это естественный процесс, ведь общество развивает язык (хотя и физиологические особенности надо учитывать).
Отражение этого можно увидеть и в данных. В чатах - короткие сообщения, а в разговорах по телефону: "да", "нет", "не знаю".
По сути это естественный датадрифт, который, вероятно, больше всего заметен в машинном переводе. Там и так есть свои проблемы с разными трактовками одной и той же фразы, а тут ещё и это.
Быть может старые модели вовсе не так плохи как кажутся?
Быть может результаты, что есть сейчас некорректно сравнивать и нужно переобучать каждую модель?
Быть может новые архитектуры просто учатся на "свежих" наборах и становятся SOTA?
Или же проблема немножко в другом? В том что данные подвергаются "временной коррозии" (устаревание слов, изменение конструкций текстов, тренды)?
Очень интересно узнать, что вы думаете про изменение языка в контексте нынешнего NLP.
И что думают Kali Novskaya, DL in NLP