Кратко: мы проверяли, насколько устойчивы на downstream tasks многоязычные модели, если их сбивать разными кусочками данных, где искусственно повышена частота различных конструкций и явлений.
Спойлер:с ними все плохо, но если бузовать много-много дополнительных данных, то как-то учатся.
На всякий случай, я прикреплю авторский черновик здесь, так как неочевидно, доступен ли доступ из России сейчас
Спойлер:
На всякий случай, я прикреплю авторский черновик здесь, так как неочевидно, доступен ли доступ из России сейчас