
Друзья, а как вы чистите текстовые данные?
Ковыряюсь с libgen'ом (~2Tb книг), датасет большой и разнообразный, но большинство из текстов — это конвертация в txt из разных форматов типа pdf, со всеми вытекающими.
После чистки все же остается достаточно артефактов (примеры на картинках): разъехавшиеся формулы и таблицы, издательская информация, слова со всеми буквами через пробел. Иногда есть бессмысленные строки посреди нормального текста.
👉 Поделитесь своим опытом в этом деле.
🔥 Upd. Предложения
🔸 Эвристики на словарях
🔸 Фильтры моделями по семантической близости
🔸 По перплексии
🔸 По энтропии (считаем коэфф-т сжатия)
🔸 Чувствительный к ошибкам классификатор на n-граммах
🔸 По языку
🔸 Еще эвристики на регулярках
Ковыряюсь с libgen'ом (~2Tb книг), датасет большой и разнообразный, но большинство из текстов — это конвертация в txt из разных форматов типа pdf, со всеми вытекающими.
После чистки все же остается достаточно артефактов (примеры на картинках): разъехавшиеся формулы и таблицы, издательская информация, слова со всеми буквами через пробел. Иногда есть бессмысленные строки посреди нормального текста.
👉 Поделитесь своим опытом в этом деле.
🔥 Upd. Предложения
🔸 Эвристики на словарях
🔸 Фильтры моделями по семантической близости
🔸 По перплексии
🔸 По энтропии (считаем коэфф-т сжатия)
🔸 Чувствительный к ошибкам классификатор на n-граммах
🔸 По языку
🔸 Еще эвристики на регулярках