Градиентное погружение

Про изменение языка

Не секрет, что мы стремимся к упрощению и автоматизации. Причем не только бизнес процессов, но и нашей речи.

Во многом это происходит из-за интернета: мы сами не замечаем как в наш обиход врываются заимствования, сокращения, мемы.

Это не хорошо и не плохо, это естественный процесс, ведь общество развивает язык (хотя и физиологические особенности надо учитывать).

Отражение этого можно увидеть и в данных. В чатах - короткие сообщения, а в разговорах по телефону: "да", "нет", "не знаю".

По сути это естественный датадрифт, который, вероятно, больше всего заметен в машинном переводе. Там и так есть свои проблемы с разными трактовками одной и той же фразы, а тут ещё и это.

Быть может старые модели вовсе не так плохи как кажутся?

Быть может результаты, что есть сейчас некорректно сравнивать и нужно переобучать каждую модель?

Быть может новые архитектуры просто учатся на "свежих" наборах и становятся SOTA?

Или же проблема немножко в другом? В том что данные подвергаются "временной коррозии" (устаревание слов, изменение конструкций текстов, тренды)?

Очень интересно узнать, что вы думаете про изменение языка в контексте нынешнего NLP.

И что думают Kali Novskaya, DL in NLP