Други, @cointegrated, выпустил фикс+обновление encodechka теперь можно смело выбирать лучший энкодер для себя и бенчить свои.
Появился новый лидер multilingual-e5. Кстати, у нас тоже данная модель показывает топ результаты. Если говорить вкратце me5 это LAbSE на максималках, особенности обучения:
- чистка всякого разного а-ля reddit, CCrwal, stackexchange v др.
- предобучение в контрастив режиме на CCPairs.
- файнтюн MS-MMARCO.
- за основу взята XLM-RoBERTA (с неё заинитили веса).
- меры качества конечно retrieval'ные.
P. S. Сори за душность, @cointegrated.
Про бенч тут: https://t.me/izolenta_mebiusa/252
Появился новый лидер multilingual-e5. Кстати, у нас тоже данная модель показывает топ результаты. Если говорить вкратце me5 это LAbSE на максималках, особенности обучения:
- чистка всякого разного а-ля reddit, CCrwal, stackexchange v др.
- предобучение в контрастив режиме на CCPairs.
- файнтюн MS-MMARCO.
- за основу взята XLM-RoBERTA (с неё заинитили веса).
- меры качества конечно retrieval'ные.
P. S. Сори за душность, @cointegrated.
Про бенч тут: https://t.me/izolenta_mebiusa/252