
Тут не так давно вышла новая decoder-only моделька Falcon, и ее finetune на инструкции неплохо так обновил leaderboard huggingface 🤗
Paper еще нет, но есть один значительный минус, в датасетах модели не было русских текстов: English, German, Spanish, French (and limited capabilities in Italian, Portuguese, Polish, Dutch, Romanian, Czech, Swedish)
Если вас не пугает этот факт, кажется, что модель более чем достойна внимания. Хотя бы потому что ее права, наконец позволяют использовать ft даже в коммерции (Apache 2.0 license)
Что по деталям:
🤗 Roraty positionnal embeddings
🤗 Multiquery and FlashAttention
🤗 Decoder-block: parallel attention/MLP with a two layer norms
Paper еще нет, но есть один значительный минус, в датасетах модели не было русских текстов: English, German, Spanish, French (and limited capabilities in Italian, Portuguese, Polish, Dutch, Romanian, Czech, Swedish)
Если вас не пугает этот факт, кажется, что модель более чем достойна внимания. Хотя бы потому что ее права, наконец позволяют использовать ft даже в коммерции (Apache 2.0 license)
Что по деталям: