Градиент обреченный

Друзья, а как вы чистите текстовые данные?

Ковыряюсь с libgen'ом (~2Tb книг), датасет большой и разнообразный, но большинство из текстов — это конвертация в txt из разных форматов типа pdf, со всеми вытекающими.

После чистки все же остается достаточно артефактов (примеры на картинках): разъехавшиеся формулы и таблицы, издательская информация, слова со всеми буквами через пробел. Иногда есть бессмысленные строки посреди нормального текста.

👉 Поделитесь своим опытом в этом деле.

🔥 Upd. Предложения

🔸 Эвристики на словарях

🔸 Фильтры моделями по семантической близости

🔸 По перплексии

🔸 По энтропии (считаем коэфф-т сжатия)

🔸 Чувствительный к ошибкам классификатор на n-граммах

🔸 По языку

🔸 Еще эвристики на регулярках