Помните историю про Гутенберг, датасет пар для обучения моделей писательству? Нашёлся-таки герой, который повторил его для русского, мой подписчик — Макс 👏



Вот сам датасет: https://huggingface.co/datasets/40umov/dostoevsky



Методология аналогична оригинальной. Напомню:

1) Берём книжки из общественного достояния.

2) Режем их на фрагменты.

3) Для каждого фрагмента автоматически генерируем промпт и выжимку.

4) Перегенерируем фрагменты языковой моделью.

5) Используем оригиналы как положительные примеры, а синтетические копии — как отрицательные.



Весь процесс был не особо автоматизированный, нарезка на фрагменты делалась вручную. Использованные книжки — на скриншоте.



Теперь дело за малым, нужно всего лишь обучить на этом модель 💪