Анализ данных (Data analysis)

✒️ Распознавание чисел в прописном виде.

Суть задачи

Есть большой объём данных отсканированных через Adobe File reader документов в виде txt файлов, разного формата. Нам нужно распарсить эти документы по некоторым параметрам и достать из них число, записанное прописью. Для того чтобы вытаскивать параметры мы используем Natasha, но из-за «мусорных» данных, вызванных либо качеством сканов, либо не идеальности самого сканера, она не всегда справляется со своей задачей. Тут нам и приходит на помощь алгоритм, о котором далее пойдёт речь.

➡️ Читать дальше

⚙️ Код на Python

@data_analysis_ml