Kali Novskaya

Кратко: мы проверяли, насколько устойчивы на downstream tasks многоязычные модели, если их сбивать разными кусочками данных, где искусственно повышена частота различных конструкций и явлений.

Спойлер: с ними все плохо, но если бузовать много-много дополнительных данных, то как-то учатся.

На всякий случай, я прикреплю авторский черновик здесь, так как неочевидно, доступен ли доступ из России сейчас