Интеллектуальная обработка документов (Intelligent Document Processing) с помощью Tesseract, Google Vision API и elDoc

Вопрос об интеллектуальной обработке документов (Intelligent Document Processing, IDP) является на сегодняшний день одним из наиболее актуальных как для глобальных мультинациональных корпораций, которые пытаются избежать дополнительных операционных затрат на ручную обработку документов с неструктурированными данными, так и для малого и среднего бизнеса по всему миру.

В некоторых интернет-источниках зачастую неоправданно приравнивают интеллектуальную обработку документов (IDP) к технологии OCR (Optical Character Recognition). С технической точки зрения это не совсем корректно и в свою очередь нередко приводит по меньшей мере к разочарованию в технологии IDP – Intelligent Document Processing или даже к провалу проектов по интеллектуальной автоматизации процессов на стороне бизнеса.

С какими же потребностями по обработке документов обычно сталкивается бизнес? Какие возможные решения могут применяться для автоматизации этих процессов? Каковы их основные преимущества и недостатки?

Для примера возьмём три решения, с помощью которых сможем на практике верифицировать различные возможности обработки документов – Tesseract, Google Vision API и elDoc.

Итак, начнём с постановки задачи.

Если попытаться обобщить типичные повседневные бизнес-задачи по обработке документов, содержащих неструктурированные данные, то в большинстве случаев для их решения требуется:

  • идентифицировать отдельные необходимые поля в документе;
  • извлечь и распознать их целевые значения;
  • структурировать полученные данные для дальнейшего использования в рамках автоматизации бизнес-процесса.

Задача может быть значительно усложнена в случае, если документ является многостраничным, с большим объёмом данных, а требуется распознать и извлечь только определённый тип данных (например, значение отдельных целевых колонок таблиц), игнорируя при этом остальные данные, не несущие ценности для процесса. Или же в случае, если требуется обработать файл, содержащий несколько совершенно разных типов документов с разной структурой полей и данных, которые должны быть извлечены и в дальнейшем обработаны согласно определённой логике в разрезе каждого типа документа.

Тестовая задача, которую мы рассмотрим, – это извлечение конкретных данных из сертификата об образовании, а также данных с сервис-отчета. Нам необходимо извлечь из сканированного документа (сертификата об образовании) следующие поля: номер сертификата, имя и фамилию обладателя, перечень предметов и оценки. В свою очередь из сервис-отчета необходимо извлечь название компании, код компании, дата, номер счета, ID оборудования, тип и модель оборудования. Все остальные данные при массовой обработке подобных документов для нас не важны. Задачу усложним тем, что файл с сертификатом будет содержать также многостраничный сервис-отчёт.

Итак, начнём с Tesseract.

Tesseract – представляет собой ПО для OCR (Optical Character Recognition), первоначально разработан в бристольской аборатории Hewlett-Packard (Англия, Великобритания) и в Hewlett-Packard Co (Грили, штат Колорадо, США) в период с 1985 по 1994 годы. Затем в 2005 году Tesseract был выпущен с открытым исходным кодом Hewlett-Packard и Невадским университетом в Лас-Вегасе. С 2006 года
разработка Tesseract спонсируется Google. Последняя версия Tesseract основана на моделях машинного обучения (Machine Learning), что позволяет достигать высоких результатов по качеству распознавания.

Сегодня Tesseract считается одним из самых мощных решений с открытым исходным кодом (open-source) для распознавания данных со сканированных документов. Tesseract поддерживает более 100 различных языков, что делает его универсальным и широко распространённым решением во всём мире. Многие технологические компании используют Tesseract в основе для построения комплексных решений по интеллектуальной обработке данных.

Tesseract – это мощный OCR-движок, способный с высокой точностью распознавать данные со сканированных / сфотографированных документов. Однако Tesseract позиционируется только как решение для распознавания всех данных (plain OCR) и не заточен под возможности идентифицировать и извлекать из документа конкретные поля / данные, а также обрабатывать многостраничные документы либо файлы, содержащие несколько документов, классифицировать последние по типу и отбирать из них нужные данные.

Так для нашей тестовой задачи мы отправим на обработку с помощью Tesseract многостраничный документ в формате PDF, и одностраничный документ "Отчет" в формате JPG (далее - пример No1), а также одностраничный документ "Сертификат об образовании" в формате JPG (далее - пример No2).

Иллюстративный пример работы Tesseract (пример No1):



Как видим из первого краткого демо, мы передали наш многостраничный документ Tesseract в формате PDF для распознавания. Однако, Tesseract не поддерживает обработку документов формата PDF и как следствие не поддерживает наш многостраничный документ в формате PDF. Одностраничный документ в формате JPG Tesseract обработал, однако есть некоторые несоответствия, в частности не все поля распознаны корректно и Tesseract распознал и вытащил все значения, а не целевые.

Иллюстративный пример работы Tesseract (пример No2):


Как видим из второго краткого демо, мы передали наш сертификат Tesseract для распознавания в формате JPG. Tesseract распознал данные довольно неплохо, однако есть несколько комментариев к распознанному тексту. Учитывая сложность изображения (если посмотреть при увеличении, фон документа также содержит текст), Tesseract извлёк и распознал фон как часть текста, а также извлёк все без исключения данные, а не требуемые в исходных условиях.

Основные преимущества Tesseract:

  • Tesseract является очень мощным OCR-движком для распознавания данных со сканированных документов, предоставляющим достаточно высокий уровень качества распознанных данных;
  • Tesseract – это open-source решение, не требующее никаких финансовых вложений.

Основные ограничения Tesseract и что необходимо для полноценной обработки документов:

  • обработка документов формата PDF не поддерживается;
  • результаты распознавания представлены набором текста без уникальной связи между названиями требуемых полей и их значениями;
  • нет возможности задавать и получать из документа только интересующие значения, игнорируя остальные данные;
  • нет возможности улучшать качество исходного документа и очищать текстовый фон документов;
  • нет возможности передавать Tesseract файл, содержащий несколько документов разного типа и формата для дальнейшей классификации документов;
  • нет возможности обрабатывать многостраничные документы с последующим извлечением конкретных данных;
  • нет возможности проверять правильность данных в случае, если уровень (%) доверия к распознанному тексту ниже ожидаемого / установленного;
  • нет возможности отслеживать очередь загруженных документов при массовой обработке документов;
  • нет возможности просматривать результаты распознавания, статус обработки, очередь в удобном для бизнес-пользователя формате.

Теперь рассмотрим, как справляется с той же бизнес-задачей Google Vision API.

Google Vision API – облачный сервис, специально разработанный для глубокого анализа и извлечения данных из изображений, обладающий высокой точностью распознавания. Инструмент основан на мощных моделях машинного обучения (Machine Learning).

Иллюстративный пример работы Google Vision API (пример No1):



Как видим из первого краткого демо, мы передали наш многостраничный документ Google Vision API в формате PDF для распознавания. Однако, Google Vision API (в рамках demo-доступа) не поддерживает обработку документов формата PDF и как следствие нам пришлось разбить документ на одностраничные файлы в формате JPG.

Иллюстративный пример работы Google Vision API (пример No2):


Как показывает второе видео, Google Vision API постарался структурировать данные, однако, как и Tesseract, распознал фон документа как часть текста, что значительно усложняет его дальнейшую обработку. Таким образом, данные получились структурированы немного лучше, чем через обработку Tesseract, но всё ещё не в целевом для нас формате.

Важное примечание: приведённый анализ основывается на использовании общедоступной (trial) версии Google Vision API.

Основные преимущества Google Vision API:

  • мощный инструментарий, построенный с использованием технологии машинного обучения для глубокого анализа изображений;
  • решение предоставляет довольно высокий уровень распознанных данных.

Ограничения, которые возникают при обработке документов via Google Vision API:

  • В случае, если необходимо обработать многостраничный документ в формате PDF, размещённый на локальном диске, потребуется разбить его на отдельные страницы, конвертировать их в формат .PNG/.JPEG и отправлять на обработку последовательно одну за другой;
  • результаты распознавания представлены без связи между названиями целевых полей и их значениями. Распознанные данные расположены в разных блоках как отдельные независимые текстовые значения либо представлены одной строкой совместно с другими, не представляющими интерес для бизнес-процесса данными, что значительно усложняет процесс извлечения целевых значений и дальнейшую автоматизацию бизнес-процессов в целом;
  • нет возможности обрабатывать многостраничные документы с последующим извлечением конкретных данных;
  • нет возможности проверять правильность данных в случае, если уровень (%) доверия к распознанному тексту ниже ожидаемого / установленного;
  • нет возможности отслеживать очередь загруженных документов при массовой обработке документов;
  • нет возможности просматривать результаты распознавания, статус обработки, очередь в удобном для бизнес-пользователя формате.

В качестве третьего решения такой же бизнес-задачи возьмём для сравнения систему интеллектуальной обработки документов elDoc.

elDoc – интегрированная интеллектуальная платформа для автоматизации процессов документооборота и обработки документов, которая включает elDoc IDP (Intelligent Document Processing) – высокотехнологический модуль для интеллектуальной обработки документов, разработанный с применением когнитивных технологий и комплексных математических моделей (AI based). В основе elDoc для распознавания данных также используется Tesseract последней версии основанной на нейронных сетях и машинном обучении.

Иллюстративный пример работы elDoc:


Как видим, в систему elDoc мы загружаем файл, содержащий несколько документов разных форматов (наш сертификат, многостраничный сервис-отчёт) – задача, которая была поставлена изначально. Результаты обработки показывают, что система elDoc выполнила следующие операции:

  • автоматически произвела очистку изображения, улучшив качество документа, где это возможно (выравнивание, нормализация фона);
  • автоматически классифицировала документы по типу (сертификат, многостраничный сервис-отчёт);
  • извлекла и распознала нужные поля в документе с определением уровня доверия к данным (confidence level).

Таким образом, для решения задач, где требуется распознавание всего текста, содержащегося в отсканированных / сфотографированных документах, и конвертация его в редактируемый / структурированный формат, наиболее подходящими будут такие решения, как Google Vision API, Tesseract и другие подобные. Эти решения также могут служить идеальным базисом для построения комплексных систем обработки данных.

В тех же случаях, когда целью является полная автоматизация процесса обработки документов с неструктурированными данными (в частности, где требуется извлечение отдельных целевых данных для дальнейшей конвертации в определённый формат, их структурирование для последующего использования и обработки согласно установленной бизнес-логики с возможностью проведения верификации, хранения документа и управления всем жизненным циклом документа), – применяются более комплексные автоматизированные решения – интегрированные интеллектуальные платформы для обработки документов (Intelligent Integrated Platform for Document Processing) и когнитивного машинного чтения (Cognitive Machine Reading, CMR).

Чтобы справиться со всеми этими задачами, одной технологии OCR недостаточно. Равно, как и в случаях, когда нужно провести нормализацию (предобработку) картинки с низким качеством изображения, очистить её от фона и ненужных артефактов с целью лучшего распознавания текста. Для подобного рода задач используются комплексные решения, в частности интегрированная интеллектуальная автоматизированная платформа elDoc. Она включает в себя такие когнитивные технологии, как Intelligent OCR, OMR, ICR, Computer Vision и позволяет не только выполнить вышеуказанные задачи, но и даёт возможности полной, комплексной автоматизации процессов обработки документов – от начала инициации процесса до размещения документа в электронном архиве.

Узнать больше, что такое интеллектуальная обработка документов: Document Understanding and e2e Intelligent Document Processing capabilities.

Больше информации об интеллектуальной обработке документов вы можете найти, перейдя по следующей ссылке – elDoc

Скачать брошюру с интеллектуальной интегрированной платформы понимания документов и интеллектуальной обработки документов – Брошура elDoc

О «elDoc»
«elDoc» – интегрированная интеллектуальная платформа для автоматизации процессов документооборота и обработки документов, которая включает elDoc IDP (Intelligent Document Processing) – высокотехнологический модуль для интеллектуальной обработки документов. elDoc IDP – мощный механизм, оснащённый когнитивными технологиями, который способен классифицировать, осуществлять «image clearance», распознавать и получать данные с отсканированных и цифровых документов; elDoc BPM (Business Process Management) – высокотехнологический модуль для управления бизнес-процессами, который позволяет настраивать процессы документооборота и формы документов в соответствии з различными сценариями.

О «DMS Solutions»
Компания «DMS Solutions» – технологическая продуктовая компания, разработчик интегрированной платформы для интеллектуальной автоматизации процессов обработки документов (IDP – Intelligent Document Processing & Document Workflow Automation) – «elDoc».
Мы – первый украинский провайдер услуг в сфере роботизации бизнес-процессов (Robotic Process Automation, RPA), построения систем управления программными работами, а также интеллектуальной обработки документов. Компания «DMS Solutions» представлена в Украине и Гонконге, охватывает рынки Европы, Северной Америки и Азии. «DMS Solutions» является официальным Золотым партнёром «UiPath» и реселлером программного обеспечения «UiPath» в Украине, а также официальным глобальным Advanced UiPath Technology Partner в сфере интеллектуальной обработки документов (Intelligent OCR).