Технико-технологич

Системы ввода (Capture)

Система ввода документов включает функции создания, захвата и обработки вводимой информации. Документы могут вводиться со сканера или импортироваться из любого приложения.

Если документ вводится с бумажного носителя, то на первом этапе производится его сканирование и создается электронная копия документа (образ). В процессе сканирования может выполняться программная обработка изображения, а также визуальный контроль качества. Сканеры для корпоративного применения обычно оснащены рядом дополнительных функций, например могут принимать разноформатные документы. На втором этапе (если это необходимо) полученный образ переводится в текстовый документ, то есть выполняется распознавание отсканированных документов. Для этого используются программы оптического распознавания символов (Optical Character Recognition, OCR).

Документы, переводимые в электронный вид, условно делят на формализованные, неформализованные и специальные. В формализованных документах заранее определена форма ‑ расположение и размер обязательных полей, в которые заносятся данные (бланки, накладные, анкеты, картотеки и т.д). К неформализованным относятся документы произвольной формы: договоры, письма и т.д. В качестве специальных документов можно назвать карты или отпечатки пальцев.

Перевод документов каждого из перечисленных выше видов в электронный формат имеет свою специфику. Для ввода фотографий достаточно электронного изображения, если документ содержит текст ‑ его необходимо распознать. Если это анкета ‑ то обычно нужна только содержащаяся в ней информация. Например, при обработке избирательных бюллетеней обычно не требуется изображение самого документа ‑ достаточно информации о том, за кого отдан голос.

Особенностью ввода форм в компьютер является необходимость распознавания текстов, заполненных от руки, ‑ так называемого рукопечатного текста. Технологии распознавания рукопечатных символов получили название Intelligent Character Recognition (ICR). Задачи распознавания при вводе форм необязательно связаны с текстом. При вводе форм может потребоваться распознавание различных меток и знаков, или Optical Mark Recognition (OMR), например в избирательных бюллетенях. При массовом вводе документов производятся распознавание, верификация и индексирование. Далее система определяет, куда должен направиться каждый документ и под каким именем, то есть происходит автоматическое управление потоком ввода.

Решения по автоматизации ввода предлагают такие компании, как EMC (Captiva), ABBYY и Cognitive Technologies.

Содержание