Название: Организация работы с документами - Шмелев А.Г.

Жанр: Менеджмент

Рейтинг:

Просмотров: 802


Постоянное увеличение количества информации, необходимой для принятия правильного управленческого решения, приводит к тому, что традиционные методы работы с документами становятся неэффективными. Так, по сведениям компании Delphi, 15% бумаж­ных документов безвозвратно теряются и для их поиска сотрудники тратят до 30% своего рабочего времени. При переходе к электрон­ным документам и автоматизации документооборота рост произво­дительности сотрудников увеличивается на 25—50%, сокращается время обработки одного документа более чем на 75%, на 80% умень­шаются расходы на оплату площади для хранения документов (оцен­ка Nortan Nolan Institute).

Тенденцию перехода от традиционных технологий организации документооборота к компьютерным отражают следующие цифры: соотношение количества бумажных и электронных документов че­рез пять лет составит 50 на 50%, через десять лет — 30 на 70%; коли­чество электронных документов удваивается за год, а бумажных до­кументов растет только на 7% (данные компании XPLOR).

В конце 80-х - начале 90-х гг. появились и начали интенсивно развиваться ряд новых технологий, успешно используемых в совре­менных системах автоматизации документооборота:

технологии обработки изображений документов (Imaging

System);

системы оптического распознавания символов (Optical Character

Recognition System, OCR);

системыуправления документами, СУД ( Document Management

System, DMS);

полнотекстовые базы данных (Full-Text System);

системы автоматизации деловых процедур, АДП (Work-Flow

System);

программное обеспечение для рабочих групп (Groupware).

Системы обработки изображений документов предназначены для ввода, обработки, хранения и поиска графических образов бумаж­ных документов. Подобные системы целесообразно применять в организациях с большим объемом документооборота. Техническое обеспечение систем включает высокоскоростные сканеры, документ-ные контроллеры (выполняют быструю и высокоэффективную ком­прессию/декомпрессию документов и обеспечивают скоростную ра­боту со сканерами и принтерами), библиотеки-автоматы на базе оптических накопителей с автоматической подачей дисков. Компью­терные образы документов находятся на сервере изображений и про­сматриваются на рабочих станциях-клиентах.

Системы обработки изображений осуществляют сканирование документов для записи на сервер, их классификацию по различным критериям, передачу изображений на рабочую станцию для просмо­тра, модификацию или печать. Подобные системы предусматривают также определение маршрута передачи изображений по сети, их рас­сылку по факсу или электронной почте, поиск изображений по от­дельным элементам.

Так как файлы изображений достигают больших размеров, су­ществуют различные варианты организации их хранения. В целях экономии памяти на запоминающем устройстве большинство сис­тем сжимают изображения и создают специальный индекс изобра­жений, где содержатся соответствующие значения атрибутов доку­ментов, например наименование, автор, тема.

В высокопроизводительных системах реализованы технологии, позволяющие увеличить скорость работы. Например, предвари­тельная выборка и перенос изображений с медленных оптических носителей на более быстрые магнитные; адаптируемое кэширова­ние, позволяющее хранить часто используемые изображения в памяти сервера; вывод на лазерный диск; групповое сканирова­ние, обеспечивающее считывание нескольких страниц за одну операцию.

Многие системы обработки изображений включают программ­ное обеспечение оптического распознавания символов (OCR).

Применение OCR позволяет решить проблему перевода бумаж­ных документов в электронную форму в виде текстового файла. Системы OCR позволяют получать электронную копию документа с печатного листа либо копию документа, пришедшего по факсу. Су­ществуют экспериментальные системы, позволяющие подобным образом обрабатывать также и рукописные материалы (Intelligent Character Recognition).

Кратко, функционирование системы OCR можно представить следующим образом. С помощью сканирующего устройства считы­вается изображение документа. В результате распознавания текста изображение документа отображается в файл, отформатированный как текстовый. Таким образом, бумажный документ, минуя низко­производительный и трудоемкий ручной ввод, автоматически преоб­разуется в электронную форму.

Выделяют два класса систем OCR - обучаемые и интеллектуаль­ные. Принцип действия систем первого класса основан на поточеч­ном сравнении оцифрованного символа с образцом из справочника. При совпадении образца и символа последний считается распознан­ным и добавляется в результирующий файл. При таком способе рас­познавания размеры образца и шрифта документа должны совпадать, т.е. в системе необходимо иметь маски для каждого размера каждого типа шрифта, поэтому подобная система более эффективна в случае однотипного и качественного текста. Во втором случае «маска» символа заменяется на его «образ», который может быть использован для любых размеров шрифтов.

Для повышения точности распознавания интеллектуальные си­стемы могут выполнять ряд проверок результирующего текста, на­пример осуществлять частотный анализ текста и сравнивать частоту появления данного символа в тексте с его частотой в языке оригина­ла, или обнаруживать неправильное сочетание символов исходя из правил орфографии.

В реальных системах OCR сочетаются различные распознава­тельные механизмы, что дает возможность обрабатывать любые шрифты и любые тексты.

На сегодняшний день известно несколько достаточно качествен­ных программных продуктов по распознаванию текста, в том числе — две системы отечественных фирм, ориентированных прежде всего на распознавание русскоязычных текстов (FineReader и CuneiForm). Средняя скорость работы системы OCR на оборудова­нии средней мощности составляет примерно одну машинописную страницу в минуту. Качество распознавания - в среднем одна - две ошибки на 1000 знаков в тексте среднего качества.

Можно рекомендовать следующие критерии выбора системы OCR:

совместимость с существующим или приобретаемым программ­ным и аппаратным обеспечением;

скорость сканирования и распознавания преобладающего в дан­ной организации типа текста, например: факс — русский язык, ксеро­копия различного качества, машинопись различного качества и др.;


Оцените книгу: 1 2 3 4 5