Други, @cointegrated, выпустил фикс+обновление encodechka теперь можно смело выбирать лучший энкодер для себя и бенчить свои.



Появился новый лидер multilingual-e5. Кстати, у нас тоже данная модель показывает топ результаты. Если говорить вкратце me5 это LAbSE на максималках, особенности обучения:



- чистка всякого разного а-ля reddit, CCrwal, stackexchange v др.

- предобучение в контрастив режиме на CCPairs.

- файнтюн MS-MMARCO.

- за основу взята XLM-RoBERTA (с неё заинитили веса).

- меры качества конечно retrieval'ные.



P. S. Сори за душность, @cointegrated.



Про бенч тут: https://t.me/izolenta_mebiusa/252