AI Happens

Прочитал в Forbes статью на злободневную тему и пересказываю:

Существует технология, о который вы, возможно, слышали. Это OCR — оптическое распознавание символов. Даже если не слышали, то точно использовали, например, когда наводили камеру смартфона на текст для автоматического перевода.

Технология умеет не только это — крупные компании с помощью OCR переводят бумажные документы в цифру: обрабатывают входящие заявки от клиента и оцифровывают архивы. Но правда в том, что OCR уже давно может больше. И случилось это в тот момент, когда OCR заработал на базе ИИ.

Итак, как было раньше: OCR работает только на ограниченном наборе документов, обязательно определенного формата и качества. Он извлекает текст, но если поле хоть немного не вписывается в шаблон, результат желает оставлять лучшего. Многие компании к этому привыкли и живут дальше — в конце концов, ускорение работы на 20% уже неплохо.

Но где ИИ, там и будущее. OCR с использованием машинного обучения больше не ограничено правилами — система научилась думать. Она беспрерывно обучается в процессе, расширяя свои возможности в зависимости от нужд клиента. Если поле вдруг не подходит под стандарт (документ перевернут, на фото есть блики), алгоритмы все равно справятся с задачей — достаточно показать им примеры работы оператора в подобных ситуациях.

Однако и это еще не все. Можно выйти за рамки классического OCR и внедрить в работу системы NLP. Тогда алгоритмы учатся не только читать текст, но и понимать его. Системе не требуется подсказывать, где в тексте ФИО, дата, а где адрес человека — она уже умеет это делать, превосходя точность человека. В многостраничных документах такие функции являются необходимыми.

Развитие технологий уже повлияло на рынок — теперь мало создавать шаблоны, чтобы удержать клиента. Конкурентное преимущество за тем, кто обеспечит распознавание любых документов на уровне человека, в том числе для рукописного текста. Кстати, возможность распознавать его — тоже заслуга машинного обучения.