😳 какой-то урожайный сезон — новая моделька от Mistral 🇫🇷, Large 2 (на 123B параметров)



1) 128K контекст (как у LLAMA-3.1)

2) Поддержка языков: Английский, французский, немецкий, испанский, итальянский, португальский, голландский, русский, китайский, японский, корейский, арабский и хинди

3) прокачали математику и программирование — на картинке метрики для разных ЯП на бенчмарке MultiPL-E

4) также, как и в LLAMA-3.1, улучшили следование инструкциям и использование инструментов

5) лицензия не позволяет коммерческое использование, но можно свободно заниматься исследовательской деятельностью



Блог

Модель на HF 🤗



Возможно, моделька потеряется на фоне релизов LLAMA (кроме мб программирования). Она слишком большая для локального использования, а в API есть LLAMA побольше и покачественнее, и поменьше но подешевле, ну и OpenAI никуда не делись. Зато на La Platforme можно будет теперь запускать дообучение. Цена у самих французов $3 и $9 за миллион токенов на входе/выходе — СИИИИЛЬНО больше 70B LLAMA, и совсем немногим дешевле GPT-4o.