Поддержим опенсурс, тут делается важная штука - открытая русскоязычная инструктивная модель, ребята нагенерили через gpt инструкцй и теперь просят вашей помощи в фильтрации!
Вот небольшая инструкцич по использованию:
Когда задание можно считать плохим:
- Из него непонятно, что нужно делать.
- Оно невыполнимо языковой моделью. Например, описание несуществующей картинки.
- Задание и вход не согласуются. Например, задание предполагает предложение на русском, а подаётся предложение на английском.
Если задание написано просто неграмотным русским языком, но из него ясно, что нужно делать - это ок.
Когда ответ можно считать плохим:
- Когда ответ некорректный или неполный.
- Когда модель в ответ на личные вопросы притворяется человеком. Например, говорит, что она вчера была в Париже.
- Когда ответ написан неграмотно.
Бот где размечать: @InstructAnnotBot
Уже готовый грязный сет:
https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca
Вот небольшая инструкцич по использованию:
Когда задание можно считать плохим:
- Из него непонятно, что нужно делать.
- Оно невыполнимо языковой моделью. Например, описание несуществующей картинки.
- Задание и вход не согласуются. Например, задание предполагает предложение на русском, а подаётся предложение на английском.
Если задание написано просто неграмотным русским языком, но из него ясно, что нужно делать - это ок.
Когда ответ можно считать плохим:
- Когда ответ некорректный или неполный.
- Когда модель в ответ на личные вопросы притворяется человеком. Например, говорит, что она вчера была в Париже.
- Когда ответ написан неграмотно.
Бот где размечать: @InstructAnnotBot
Уже готовый грязный сет:
https://huggingface.co/datasets/IlyaGusev/ru_turbo_alpaca