Друзья, а как вы чистите текстовые данные?



Ковыряюсь с libgen'ом (~2Tb книг), датасет большой и разнообразный, но большинство из текстов — это конвертация в txt из разных форматов типа pdf, со всеми вытекающими.



После чистки все же остается достаточно артефактов (примеры на картинках): разъехавшиеся формулы и таблицы, издательская информация, слова со всеми буквами через пробел. Иногда есть бессмысленные строки посреди нормального текста.



👉 Поделитесь своим опытом в этом деле.



🔥 Upd. Предложения



🔸 Эвристики на словарях

🔸 Фильтры моделями по семантической близости

🔸 По перплексии

🔸 По энтропии (считаем коэфф-т сжатия)

🔸 Чувствительный к ошибкам классификатор на n-граммах

🔸 По языку

🔸 Еще эвристики на регулярках