Про изменение языка



Не секрет, что мы стремимся к упрощению и автоматизации. Причем не только бизнес процессов, но и нашей речи.



Во многом это происходит из-за интернета: мы сами не замечаем как в наш обиход врываются заимствования, сокращения, мемы.



Это не хорошо и не плохо, это естественный процесс, ведь общество развивает язык (хотя и физиологические особенности надо учитывать).



Отражение этого можно увидеть и в данных. В чатах - короткие сообщения, а в разговорах по телефону: "да", "нет", "не знаю".



По сути это естественный датадрифт, который, вероятно, больше всего заметен в машинном переводе. Там и так есть свои проблемы с разными трактовками одной и той же фразы, а тут ещё и это.



Быть может старые модели вовсе не так плохи как кажутся?



Быть может результаты, что есть сейчас некорректно сравнивать и нужно переобучать каждую модель?



Быть может новые архитектуры просто учатся на "свежих" наборах и становятся SOTA?



Или же проблема немножко в другом? В том что данные подвергаются "временной коррозии" (устаревание слов, изменение конструкций текстов, тренды)?



Очень интересно узнать, что вы думаете про изменение языка в контексте нынешнего NLP.



И что думают Kali Novskaya, DL in NLP