что-то на DL-ском

Твоя кроличья LAPCA.

(может и на удачу...)

В семействе Language Agnostic энкодеров прибыло. Напомню, что уже существует LABSE .

Идея у LABSE простая: давайте возьмём некоторую multi-lingual модельку и помимо MLM, NSP таски на pre-train или на дотюн вкинем ещё одну. Будем сводить эмбеды фраз на разных языках, но имеющих один перевод. Такой вот мой любимый contrastive learning.

Что же нового досыпали разработчики из Huawei + Николенко на LAPCA(у) ? :)

На самом деле, идея вполне на поверхности. Используются две задачи. Первая-сводим пары запрос/ответ или запрос/документ в рамках одного языка решая, классическую задачу information retrieval. Вторая же задача призвана, как я считаю, якорить или арканить для того же ответа/запроса его перевод. Тут указано, что для ответа/документа происходит матч с его переводом или текстом на другом языке схожим по смыслу.

Также выделяют ребята три подхода:

- Параллельный майнинг тех самых переводов.

- Hard negative майнинг. Тут по классике ищем сложные негативы с помощью самой же модели.

- Третий пункт они зовут self-training, но по мне - это по аналогии с п.2 сэмплинг позитивов при помощи самой обучаемой модели и topK KNN, но на домене QA.

Далее, всё это учится с помощью encoder с shared weights. Т.е. по сути сиамская сетка. И имеет два лосса: L-self и L-IR.

Их объединяют классически как joint-loss= a*L-IR+(1-a)*L-self.

Также авторы советуют претрейнить сначала с a=0 для параллельного сета и с a=1 для QA + IR дата-сета. И, видимо, далее уже jointly.

В общем взяли всё лучшее и соединили.

Остаются два вопроса:

- Сравнения с LaBSE , казалось бы логичным, нет в таблицах.

- Почему нельзя всё зарядить в триплеты (и парафразы и фразу перевод)?

Скрины прилагаются.