Название: Проектирование экономических информационных систем - Смирнова Г. Н.

Жанр: Информатика

Рейтинг:

Просмотров: 794


Гпава 8

ПРОЕКТИРОВАНИЕ ПРОЦЕССОВ ПОЛУЧЕНИЯ ПЕРВИЧНОЙ ИНФОРМАЦИИ,

СОЗДАНИЯ И ВЕДЕНИЯ ИНФОРМАЦИОННОЙ БАЗЫ

 

8.1

Проектирование процессов получения первичной информации

В состав операций, выполняемых при получении первичней информации, входят съем, регистрация, сбор и передача инфор­мации.

Съем информации, или измерение, - это процесс получения количественного значения показателя, характеризующего объек­ты и процессы хозяйственной деятельности, и по степени авто­матизации его можно подразделить на следующие виды:

ручной съем (подсчет);

полуавтоматический (например, с помощью весов-автоматов);

автоматический (например, с использованием счетчиков или датчиков единичных сигналов).

К современным средствам измерения и счета относятся, на­пример, электронные весы модели CAS LP-15, которые предназ­начены для использования в расфасовочных отделах продоволь­ственных магазинов. С помощью весов можно выполнить опера­ции: взвешивание упаковки с товаром; перемножение веса на цену, печать этикетки со стоимостью упакованного товара; передача сообщений компьютеру, который осуществляет учет движения товаров; прием от компьютера сведений об изменении номенк­латуры товаров и цен; накопление данных о выполненных взве­шиваниях. Такие весы могут использоваться как автономно, так и в составе системы учета движения товаров в магазине.

Счетчики применяют в техслучаях, когда производство име­ет крупносерийный или массовый характер. Счетчиками оснаща­ются производственные автоматы, штамповочные прессы, мар­кировочные машины.

Другими устройствами являются измерители потоков (расхо­домеры), когда объектами измерения являются жидкость или газ. Примером может служить топливомер на автоматизированной АЗС, используемый для измерения отпуска количества горюче­го. К подобным устройствам относятся также машинка для счета банкнот, средства безналичного денежного обращения с исполь­зованием пластиковых карт и др.

Машинка для счета банкнот используется для пересчета раз­личных купюр в пачках до 999 листов и вычисления суммы, уста­новления числа листов, которое необходимо отсчитать, выбра­сывания мятых и поврежденных купюр.

Средства организации безналичного денежного обращения на основе кредитных карт (КК) позволяют оплачивать, не пользу­ясь наличными деньгами, различные товары и услуги (телефон­ные разговоры, проезд в метрополитене и др.). В настоящее вре­мя наиболее употребительны три вида КК: с магнитными полос­ками; с памятью на микросхемах; содержащие микропроцессор, полупостоянную и оперативную память, схему защиты (так на­зываемые интеллектуальные карты).

Следующей операцией, выполняемой при получении первич­ной информации, является операция регистрации первичной инфор­мации, т.е. нанесения всех реквизитов-оснований (количественных характеристик) и признаков на какой-либо носитель. Регистрация информации может выполняться следующими способами:

ручным - заполнение бланков первичных документов на бу­мажном носителе вручную;

механическим при вводе информации с клавиатуры в экран­ные формы ЭВМ или при использовании устройств регист­рации информации типа пишущих машинок с занесением ин­формации в первичные документы и одновременной запи­сью ее на магнитные носители или машиночитаемые доку­менты;

полуавтоматическим, когда часть информации автоматичес­ки заносится с магнитных носителей или из оперативной па­мяти устройства (например, при использовании кассовых ап­паратов, регистраторов производства или бухгалтерских фак­турных машин).

В процессе регистрации информации осуществляется иденти­фикация всех компонентов, участвующих в хозяйственных опе­рациях, указывается количественная характеристика процесса, выявленная при съеме информации, а также выполняется привязка всей записи ко времени.

Идентификация компонентов хозяйственной операции (стан­ка, рабочего, детали и т.д.) - это определение кода конкретного компонента, который может быть числовым, алфавитным или смешанным и который может быть введен в документ вручную по классификатору, с помощью специального считывающего ус­тройства, читающего штрих-код, нанесенный, например, на де­таль или путем выборки из списка кодов и наименований компо­нентов. Этот код хранится в оперативной памяти регистрирую­щего устройства.

К этой категории относятся устройства регистрации произ­водства, имеющие в своем составе пульты ввода информации с рабочих мест, счетчики единичных сигналов, устройства памяти на дисках, а также электронные кассовые аппараты. Например, кассовый аппарат типа IPC POS-IIS позволяет выполнять такие операции, как регистрация продаж с умножением количества на цену; прием данных с клавиатуры, с электронных весов, от счи­тывателя штрих-кодов, от считывателя магнитных карт; коррек­тировка регистрации с возвратом денег; расчет промежуточных итогов, подсчет сдачи; прием платы наличными деньгами или кредитными картами; пересчет платы в другую валюту; расчет налогов, скидок; ведение денежных и операционных регистров; запись итоговых показаний регистров в фискальную память со сроком хранения до 10 лет; выдача отчетов; выдача данных в ка­нал связи и на технический носитель. В памяти аппарата могут храниться данные по 10 ООО товарам, один аппарат могут исполь­зовать до 99 кассиров. Первичные данные о продажах фиксиру­ются на машинных носителях и могут быть использованы в сис­теме управления магазином.

Для обеспечения достоверности информации при выполне­нии операции регистрации применяют несколько методов конт­роля, набор которых наиболее широко представлен при полуав­томатическом способе регистрации информации, где можно вы­делить следующие методы:

визуальный контроль на экране регистратора;

двойной ввод информации;

контроль идентификатора по списку;

контроль вводимой информации по формату;

контроль идентификаторов по модулю (11, 10);

контроль по сумме сообщений;

контрольные суммы по каждому сообщению;

общий аппаратный контроль по модулю 2.

Сбор первичной информации - это операция получения пакета сообщений, «пачки» первичных документов или файла на машин­ных носителях для последующей их передачи и обработки. Эта операция также может быть осуществлена ручным, полуавтома­тическим и автоматическим способам с централизованной или децентрализованной организацией работ.

Полуавтоматический и автоматический способы сбора инфор­мации применяются для получения массовой информации в про­изводственных цехах. Для централизованной организации работ характерны периодический опрос удаленных пунктов регистрации первичной информации, находящихся на рабочих местах, выпол­няемых автоматически, передача этой информации на централь­ную ЭВМ вычислительного комплекса для учета, контроля выра­ботки продукции и выдачи нового задания. Децентрализованный метод сбора - это метод, при котором передача информации осу­ществляется с удаленных пунктов по мере накопления информа­ции или по окончании некоторого периода времени, например смены.

 

Поскольку первичная информация возникает на рабочих ме­стах, удаленных от пунктов ее обработки, возникает проблема в организации системы передачи этой информации. Помимо пер­вичной информации в процессе управления организацией или ее филиалами возникает необходимость в передаче документов, яв­ляющихся результатом обработки данных на ЭВМ, а также в орга­низации удаленного доступа к общим базам данных, к коммер­ческим базам данных глобальных вычислительных сетей или к данным, хранящимся на WEB-серверах.

Операция передачи информации на расстояние осуществля­ется двумя способами: неэлектрическим (например, с помощью экспедиторов, курьеров), для которого характерны высокая на­дежность и низкая скорость передачи, и электрическим, требу­ющим системы защиты от искажений и несанкционированного доступа.

Передачу информации электрическим способом можно осу­ществлять с использованием следующих средств: телеграфа об­щего пользования, для которого характерны низкая скорость пе­редачи информации и низкая достоверность передачи; абонент­ских телеграфных устройств и специальной аппаратуры переда­чи данных компьютерных сетей.

Основным средством передачи данных в ЭИС в настоящее время служат компьютерные сети, подразделяемые на низкоско­ростные, среднескоростные и высокоскоростные с использова­нием передачи данных по коммутируемым либо по специально выделенным каналам связи.

Компьютерной сетью называется совокупность взаимосвязан­ных через каналы передачи данных компьютеров, обеспечиваю­щая пользователей средствами обмена информацией и коллек­тивного использования аппаратных, программных и информа­ционных ресурсов сети.

По степени территориальной удаленности компьютерные сети классифицируются на локальные, распределенные и глобальные.

Локальные сети ЭВМ связывают абонентов одной органи­зации, расположенных в одном или нескольких близлежащих зданиях и удаленных друг от друга на расстояние не больше 10 км. Локальные сети обслуживают, как правило, до 80 - 90\% потребности в передаче информации и только 10 - 20\% требуют своего обслуживания региональной или глобальной сетью. Ло­кальные сети могут иметь любую структуру, но чаще всего ком-

| | -2639

161

 

пьютеры в локальной сети связаны единым высокоскоростным каналом передачи данных, который является собственностью организации.

Региональные сети объединяют пользователей города, обла­сти, небольших стран и в качестве связи чаще всего используют телефонные линии. Расстояние между узлами сети составляет 10- 1000 км.

Глобальные сети объединяют пользователей, расположенных по всему миру, и часто используют спутниковые каналы связи, позволяющие соединить узлы сети связи и ЭВМ, находящиеся на расстоянии 10-15 тыс. км друг от друга.

По способу установления соединений между абонентами сети делятся на несколько видов. Сети с коммутацией каналов харак­теризуются установлением прямой связи с абонентом на некото­рое время в пределах общей очереди. Поэтому основным недо­статком такой связи является ожидание соединения в общей оче­реди. Положительным качеством такой передачи является тот факт, что передача не может быть осуществлена вне очереди (про­извольно), что повышает достоверность передачи информации в целом.

Ко второму виду относятся сети с коммутацией сообщений, которые характеризуются наличием узлов коммутации сообщений. Для таких узлов необходимо обеспечить наличие технических средств получения и хранения сообщений. Задача ЭВМ, исполь­зуемых для этих целей, - получить сообщение, запомнить его и в случае освобождения канала связи с абонентом по определенно­му адресу передать это сообщение. Положительной стороной такой передачи является минимальное время ожидания, отрица­тельной - то, что сеть получается более дорогой (необходимо раз­работать специальное программное обеспечение узла коммута­ции), а при передаче большого объема информации (1 млн байт) канал может быть занят несколько часов.

Третьей разновидностью являются сети с коммутацией паке­тов, позволяющие длинное сообщение на передающем пункте разбивать на пакеты сообщений. Информация передается паке­тами. Положительная сторона такого способа передачи - сокра­щается время ожидания передачи, отрицательная - необходи­мость иметь программное обеспечение, позволяющее разбивать на передающем пункте сообщение на пакеты с заголовком, адре­сом и контрольным числом, а на принимающем пункте - сборку сообщения по идентификатору.

 

Для обеспечения достоверности передачи информации при­меняют две группы методов контроля: аппаратный, при котором контроль ведется на уровне символа с использованием помехо­защитных кодов, и информационные, организованные по принципу дублирования (двойной передаче сообщений) или по принципу информационной избыточности.

Выделяют следующие варианты распознавания ошибок, орга­низованные по принципу дублирования информации:

метод решающей обратной связи (передача ведется в одном направлении два раза, ответ получается в форме «ДА - НЕТ»);

метод информационной обратной связи (передача сообщения ведется в двух направлениях: «источник - потребитель», «по­требитель - источник»; в «источнике» переданное и получен­ное сообщения сравниваются, что позволяет выявить ошиб­ки передачи).

По принципу информационной избыточности используются два метода:

контроль по модулю (контроль фрагмента сообщения);

метод контрольных сумм.

Содержание конкретных работ по проектированию техноло­гических процессов получения первичной информации опреде­ляется составом и особенностями используемых методов и средств выполнения рабочих и контрольных операций, выполняемых с помощью определенных программно-технических средств.

 

8.2

Проектирование процесса загрузки и ведения информационной базы

Под системой загрузки и ведения информационной базы пони­мают некоторый комплекс программной, методической и техни­ческой документации, с помощью которой пользователь может осуществить своевременную загрузку и актуализацию данных, хранение достоверных данных, обеспечивать секретность данных, защиту их от сбоев ЭВМ и своевременное восстановление утра­ченной информации. Проектирование системы загрузки и веде­ния информационной базы означает проектирование и получе­ние программной и технологической документации по следую­щим процедурам:

11*

163

 

загрузка и актуализация данных;

обеспечение достоверности вводимых данных;

обеспечение защиты данных;

•           обеспечение надежности хранения данных. Достоверность хранения данных в информационной базе под­разумевает отсутствие ошибок, своевременность внесения изме­нений и непротиворечивость информации. Для обеспечения до­стоверности вводимых и хранимых данных необходимо выпол­нить следующие работы:

обеспечить контроль вводимой информации при выполнении процедур загрузки и актуализации информации;

обеспечить защиту хранимых данных от несанкционирован­ного доступа;

обеспечить одновременность актуализации одних и тех же данных, находящихся в разных файлах.

В процессе создания (загрузки) и актуализации информаци­онной базы используются интерактивный и пакетный режимы. Интерактивный режим создания и актуализации информацион­ной базы предполагает ввод или обновление отдельных записей файлов по мере необходимости. Режим интерактивного ввода или обновления данных в основном применяется при создании и ве­дении файлов оперативной информации, когда происходят по­лучение и оформление отдельных документов первичной инфор­мации (см. п. 8.1). Файлы оперативной информации создаются в режиме добавления записей по мере получения документов пер­вичной информации. В этом смысле процессы создания и добав­ления оперативных данных не различаются. Кроме того, процес­сы первоначального ввода данных и возможной последующей их корректировки имеют небольшие технологические отличия. На­пример, ввод заказа и внесение изменений в заказ предполагают работу с одной и той же экранной формой. В первом случае за­полняется пустая экранная форма, а во втором случае сначала вызывается заполненная экранная форма, а затем корректирует­ся. В том и другом случае выполняются одинаковые методы кон­троля. При удалении записи также сначала вызывается соответ­ствующая экранная форма для проверки целесообразности этой операции.

Пакетный режим создания и актуализации базы данных пред­полагает предварительный сбор пакета документов или подго­товку входного файла первичной информации, с которых осуще­ствляется загрузка (наполнение) основного файла или его обнов­ление. Пакетный режим используется для работы с файлами опе­ративной информации только в тех случаях, когда требуется ве­дение централизованной базы данных из локальных источников при невозможности подключения этих источников к вычислитель­ной сети или из соображений оптимизации объема передачи дан­ных по вычислительной сети, например при поступлении учет­ной информации в бухгалтерию. Пакетный режим всегда исполь­зуется для создания файлов условно-постоянной информации в силу необходимости одноразового ввода большого объема дан­ных, а также часто используется при актуализации этих файлов вследствие, как правило, массового характера обновлений, на­пример плановой информации или информации классифика­торов.

В силу сложности технологии пакетного режима рассмотрим особенности проектирования технологического процесса загруз­ки и актуализации информационной базы на примере файлов условно-постоянной информации.

Под загрузкой информационной базы будем понимать сово­купность операций по приему, контролю и регистрации посту­пившей информации, вводу информации в ЭВМ, контролю и исправлению ошибок, записи данных в информационный файл.

Содержание операций приема, контроля и регистрации посту­пившей информации зависит от типа носителя первичной инфор­мации. Если поступающая информация представлена на бумаж­ном носителе, то во время ее выполнения осуществляется следу­ющая совокупность действий:

контроль количества поступивших документов, полноты и качества их заполнения;

отбор правильно заполненных документов и их регистрация в регистрационном журнале;

отбраковка документов, не соответствующих требованиям, предъявляемым к документам;

формирование запроса на исправление документов с ошиб­ками и отсылка их к источнику информации, т.е. в то подраз­деление, из которого они поступили.

Если информация поступает на машинном носителе (гибком диске), то в этом случае проверяется качество записи диска, реги­стрируются имя файла, объем, источник и время поступления.

При поступлении информации по каналам связи определяют­ся источник поступления, время, количество поступивших записей.

Операция ввода информации в ЭВМ может осуществляться несколькими методами:

ручной ввод данных с бумажных документов с использовани­ем макетов экранных форм;

автоматизированное чтение данных, содержащихся в докумен­тах на бумажных носителях, и загрузка их в информацион­ную базу (см. п. 8.3).

При вводе больших объемов информации в ЭВМ с клавиату­ры оператором допускается значительное количество ошибок, которые необходимо выявить и устранить. При этом контроль вводимой информации, как правило, осуществляется с использо­ванием следующих методов:

визуальный контроль на экране дисплея;

метод контрольных сумм, рассчитываемых по каждой строке документа или по всему документу до ввода в ЭВМ и после ввода, которые затем сверяются между собой;

метод верификации, при котором осуществляется сверка ра­нее введенных данных, записанных в файл, и данных первич­ных документов, вводимых оператором второй раз;

метод двойного массива, при котором файлы по первичным документам создаются двумя разными операторами и после ввода сверяются по контрольным числам, вычисляемым для каждого из них.

Проверенные и исправленные данные заносятся в файл ин­формационной базы.

Схема технологической сети проектирования процедуры па­кетной загрузки базы данных при ручном способе ввода данных первичных документов отражена на рис. 8.1.

Первой выполняется операция «Определение особенностей подготовки данных и формирование требований к системе загруз­ки» (Ш). Для выполнения этой операции необходимо распола­гать технологической документацией, описывающей правила работы при получении первичной информации (ДІЛ).

Можно выделить следующие особенности подготовки фай­лов данных:

внемашинные форматы данных могут не совпадать с внутри-машинными форматами;

получение и подготовка первичной информации с помощью разнообразных технических средств могут привести к рассог­ласованию кодов представления вводимой информации и ко­дов ее представления в ЭВМ;

все операции по подготовке файлов являются машинно-руч­ными, поэтому следует учитывать большое количество воз­можных ошибок;

вводимые файлы могут иметь линейную или иерархическую логическую структуру, которую следует учитывать в процес­се загрузки;

П1

П2

Определение особенностей подготовив данных и формирование

требований к системе загрузки

 

Д1.2У

Определение состава операций технологического процесса загрузки ИБ

 

Д2.1)

Д1.1 - технологическая документация, описывающая правила работы при получении первичной информации; Д1.2 - требования к процессу загрузки; Д2.1 - схема технологического процесса загрузки; U3.L- универсум программных средств частичной автоматизации, служебных средств операционной системы и языков программирования; Д3.1 - факторы, определяющие выбор инструментальных средств; Д3.2 - описание выбранных инструментальных средств и методическое обеспечение по их настройке; Д4.1 - блок-схемы программы; Д4.2 - коды программ; Д4.3 - настройка средств частичной автоматизации; Д5.1 - данные контрольного примера; Д5.2 - отлаженная программа; Д5.3 - распечатка результатов контрольного примера; Д5.4 - технологическая документация

структуры записей входных файлов могут не совпадать со структурой записей базы данных.

Результатом выполнения этой операции является получение списка требований к процедуре загрузки (Д1.2). К основным тре­бованиям, предъявляемым к процедуре загрузки, можно отнести следующие:

необходимо обеспечение достоверности вводимой информации;

должны выдаваться сообщения об ошибках и местах их воз­никновения;

требуется обеспечение контроля вводимой информации на уровне файла, записи, поля;

загрузка должна обеспечить перекодирование информации в случае рассогласования кодов;

должно обеспечиваться преобразование файлов во внутрен­ние форматы;

должны выполняться редактирование, сортировка и распечат­ка файлов с постоянной информацией.

Второй операцией рассматриваемого процесса служит опе­рация П2 «Определение состава операций ввода и первичной обра­ботки загружаемых файлов». Входной информацией для данной работы являются требования к процедуре загрузки (Д1.2), выход­ной - состав операций или блок-схема технологического процес­са загрузки (Д2.1). Исходя из требований, предъявляемых к про­цедуре загрузки, выделяют следующие типовые операции, входя­щие в состав этой процедуры:

ввод входных данных и их перекодирование;

синтаксический и семантический контроль;

распечатка «Ведомости ошибок», анализ ошибок и создание файла корректур;

ввод файла корректур в ЭВМ;

корректировка входного файла с целью исправления в нем ошибок;

редактирование входного исправленного файла;

формирование записей основного файла;

сортировка или индексирование основного файла с постоян­ной информацией;

распечатка файла с постоянной информацией.

Особое внимание должно быть уделено разработке програм­мы синтаксического и семантического контроля загружаемой информации в информационную базу. Синтаксический контроль может осуществляться на уровне структуры файла, записи и от­дельного поля. Контроль на уровне файла сводится к контролю типов записей, соподчиненное™ различных типов записей (заго­ловок, подзаголовок), количества экземпляров каждого типа за­писи. Контроль на уровне записи сводится к контролю числа по­лей, их последовательности и длины записи. Контроль на уровне поля включает в себя контроль типа и формата поля.

Семантический контроль сводится к арифметическому и ло-I ическому контролю содержимого отдельных полей. Арифмети­ческий контроль осуществляется следующими методами:

контрольных сумм по документу;

контрольных сумм по отдельной записи;

контрольного числа по файлу;

контроля по модулю 11;

балансовый контроль.

Логический контроль применяется для реквизитов-признаков и оснований, и при его построении используют следующие виды контроля:

контроль на конкретное значение;

контроль на диапазон значений;

контроль путем сравнения с некоторой константой;

контроль зависимостей значений реквизитов;

контроль по списку значений (справочнику).

На следующей операции (ПЗ) осуществляется «Выбор инстру­ментального средства разработки программ загрузки информаци­онной базы» на основе универсума программных средств частич­ной автоматизации, служебных средств операционной системы и языков программирования (U3.1). На вход данной операции по­ступают блок-схема технологического процесса загрузки (Д2.1) и факторы, определяющие выбор инструментальных средств (Д3.1). На выходе получают описание выбранных инструментальных средств и методическое обеспечение по их настройке (Д3.2).

К инструментальным средствам частичной автоматизации от­носятся: генераторы экранных форм СУБД, специализированные генераторы ввода-вывода и утилиты. К основным факторам, влия­ющим на выбор средств частичной автоматизации, можно отнести:

количество и характер функций, выполняемых данным сред­ством, например возможность работы с многоэкранными фор­мами или экранными формами, предназначенными для вво­да данных в несколько файлов;

наличие большого объема свободных вычислительных ресур­сов;

квалификация персонала;

возможность подключения оригинальных программных средств.

Программные средства частичной автоматизации загрузки данных можно разделить по принципу функционирования на конверторы, предназначенные для преобразования данных, со­здаваемых в других информационных системах, и программы непосредственной загрузки интерпретирующего или генерирую­щего типа.

Результатом выполнения данной операции является выбор конкретных средств частичной автоматизации процедуры загруз­ки или языков программирования, или их комбинации.

Далее осуществляется операция «Настройки средств частич­ной автоматизации или разработка программ» (П4). В результате формируется программная документация по данной процедуре, в том числе блок-схемы программных модулей (Д4.1), коды про­граммных модулей (Д4.2) и схемы настройки средств частичной автоматизации (Д4.3).

На операции П5 осуществляется «Комплексная отладка про­граммы загрузки информации в базу данных» на основе исходных данных для контрольного примера (Д5.1) с получением отлажен­ной программы процедуры (Д5.2), распечаток результатов реа­лизации контрольного примера (Д5.3) и создание технологичес­кой документации по процедуре загрузки (Д5.4).

Под актуализацией данных будем понимать совокупность операций над файлами информационной базы, связанных с до­бавлением новых записей, удалением старых, изменением содер­жания отдельных полей записей.

Процесс проектирования процедуры актуализации условно-постоянной информации в базе данных (технологической сети процесса) представлен на рис. 8.2. Он начинается с операции «Раз­работка системы организации актуализации данных в ИБ» (П1), сущность которой заключается в определении подразделений -источников изменений, разработке форм документа «Извещение на изменения» и экранных форм, определении маршрутов пере­движения этого документа от подразделения-источника до вво­да информации об изменениях в ЭВМ, определении регламента и режима ввода изменений.

 

(Д1.2

Подпись: Д4.1
Подпись:
©J

©і

ПЗ

Выбор метода и инструментального средства разработки процедуры актуализации ИБ

П4

Настройки средств частичной автоматизации или разработка программ

 

 

0"1

Комплексная отледка программы актуали­зации информации в базе данных

 

Рис. 8.2. Технологическая сеть проектирования процесса актуализации ИБ:

ДІЛ - принципы организации ИБ, Д1.2 - структура ИБ; Д1.3 - список поставщиков изменений; Д1.4 - режим внесения изменений; Д1.5 - маршруты

движения извещений на изменения; Д1.6- формы внесения изменений, Д1.7 - макет экранной формы; Д2Л - блок-схема ТП; Д2.2 - технологическая документация; ШЛ - универсум программных средств частичной автоматизации, служебных средств операционной системы и языков программирования,

ДЗЛ - факторы, определяющие выбор инструментальных средств, Д3.2 - описание выбранных инструментальных средств и методическое обеспечение по их настройке; Д4Л - блок-схемы программы; Д4.2 - коды программ; Д4.3 - настройка средств частичной автоматизации; Д5Л - данные контрольного примера; Д5.2 - отлаженная программа; Д5.3 - распечатка результатов контрольного примера; Д5.4 - технологическая документация

Входная информация, используемая при выполнении данной работы, включает описание структуры информационной базы (Д1.2) и описание принципов ее организации (ДІЛ). Выходная информация включает в свой состав следующие документы:

список поставщиков изменяемой информации (ДІ.З);

формы первичного документа «Извещение на изменение» (Д1.6);

описания маршрутов движения извещения (Д1.5);

макеты экранных форм размещения информации об измене­ниях (Д1.7);

режимы внесения изменений (ДІЛ);

•           совокупность файлов, обновляемых одновременно (Д1-8)-Второй выполняется операция «Разработка технологическо­го процесса внесения изменений» (П2). На вход данной операции поступают список поставщиков информации, формы первично­го документа «Извещения на изменения», описание маршрутов движения «Извещения», макеты экранных форм размещения ин­формации об изменениях, режимы внесения изменений. Резуль­татом выполнения данной операции являются блок-схема техно­логического процесса актуализации данных (Д2Л) и технологи­ческая документация (Д2.2). Можно выделить следующие типовые операции технологического процесса актуализации данных:

выписка «Извещения» - данная операция выполняется в под­разделениях предприятия - источниках изменений. Ее резуль­тат поступает в виде первичного документа «Извещения» в пункт ввода информации;

прием, контроль и регистрация извещений;

ручная корректировка «Ведомости описи» актуализируемого основного файла с постоянной информацией;

ввод информации извещений в ЭВМ;

контроль правильности записи информации;

исправление ошибок и формирование входного файла изме­нений;

сортировка файла изменений;

ввод записей основного файла, требующего изменений;

актуализация основного файла;

распечатка актуализированного основного файла;

сверка начальной и полученной описей основного файла. При наличии расхождений - повторное выполнение вышеперечис­ленных операций.

Последующие операции «Выбор метода актуализации и ин­струментального средства разработки процедуры актуализации информационной базы» (ИЗ), «Настройка и разработка програм­мных средств» (П4), «Отладка программ и создание технологи­ческой документации» (П5) выполняются аналогично операциям в технологической сети проектирования процедуры загрузки ин­формационной базы.

Для поддержания надежности хранимых данных при сбоях в работе ЭВМ и разрушениях информационной базы требуется система резервирования и восстановления, технологическая сеть создания которой представлена на рис. 8.3.

Содержанием первой операции является «Выбор метода хра­нения и восстановления информации» (Ш). Проектировщики ис­пользуют несколько методов хранения информации в информа­ционной базе (ДІЛ):

метод дублирования основных файлов и хранения нескольких их копий;

метод создания и хранения нескольких поколений каждого основного файла ИБ и файлов корректур к ним;

комбинированную систему нескольких поколений с дублиро­ванием последнего поколения и файлов корректур.

В результате выполнения операции П1 получают документ Д1.2, описывающий выбранный метод хранения информации в информационной базе.

Далее проектировщики должны разработать и отладить про­грамму отката и восстановления данных на контрольном примере (П2, ПЗ), в результате выполнения которой получают отлажен­ный код программы (Д3.1), предназначенной для восстановле­ния хранимых данных в случае сбоя системы при выполнении об­ращений прикладных программ к файлам ИБ или при выполне­нии процедуры актуализации данных, результатные данные контрольного примера (Д3.2).

Следующей является операция «Разработка технологии вос­становления и хранения данных» (П4) и составления технологи­ческой документации (Д4.1).

Помимо этого необходимо также спроектировать систему учета эксплуатации файлов, в которую входят: разработка (П5) «Журнала учета» (Д5.1), составление и отладка кода программы ведение статистики обращения к файлам (П6, П7) с получением программной документации (Д7.1) и контрольного примера (Д7.2), разработка технологии копирования файлов (П8) с получе­нием соответствующей технологической документации (Д8.1). Проектирование процедур защиты информационной базы от не­санкционированного доступа будет рассмотрено в главе 10.

 

 

Выбор метода хранения и восстановления

П1

 

 

Дії

П2

 

Разработка программы восстановления

 

 

Д21

            ПЗ

Разработка контрольного примера и отладка

—^ДЗ^)-—^ДЗ^-

 

П4

П5

П6

 

Разработка технологии восстановления данных

Разработка системы учета эксплуатации файлов в ИБ

(Д51

Разработка программы ведения статистики обращения к файлам

 

П7

            П8

Разработка технологии

смены носителей или копирования файлов

 

—»-(д<и)

Рис. 8.3. Технологическая сеть проектирования процесса поддержания надежности хранимых данных:

U1.1 - универсум методов хранения и восстановления данных; Д1.1 - описание метода хранения и восстановления данных; Д2.1 - код программы восстановления данных; ДЗ. 1 - отлаженная программа; Д3.2 - данные контрольного примера, Д4 1 - технологическая документация; Д5.1 - журнал учета выдачи в эксплуатацию; Д6 1 - код программы; Д7.1 - программная документация; Д7.2 - даииые контрольного примера; Д8.1 - технологическая

документация копирования файлов

8.3

Проектирование процесса автоматизированного ввода бумажных документов

Одной из основных задач, связанных с сокращением затрат на обработку данных, является автоматизация массового ввода бумажных первичных документов, загрузки данных в информа­ционную базу. Основное отличие массового ввода документов от простого сканирования состоит в том, что обрабатывается боль­шое количество однотипных документов. В качестве примеров приложений данной технологии в конкретных предметных обла­стях можно привести систему ввода и обработки «Платежных по­ручений» в банке, систему ввода «Налоговых деклараций», сис­тему ввода и проверки бухгалтерских документов в пенсионном фонде.

Для организации обработки большого количества бумажных документов и перевода их в электронную форму необходимо раз­работать систему массового ввода документов (СМВ), которая будет способна работать как с одним, так и с несколькими тыся­чами бумажных документов в день. При проектировании систе­мы ввода бумажных документов выполняется следующая сово­купность операций:

определение состава операций, которая должна выполнять система;

выбор технических средств реализации выполнения этих опе­раций;

выбор и настройка программного обеспечения;

•           разработка технологической документации. Рассмотрим содержание основных операций автоматизиро­ванного ввода бумажных документов. Автоматизированное чте­ние и ввод документов включают в себя операции, которые мож­но объединить в несколько стадий:

подготовка документов к сканированию;

получение изображения документа;

распознавание и ввод данных, содержащихся в документе вИБ.

1. Подготовка документов к сканированию - очень важная фаза процесса ввода документов, которая обеспечивает получение достоверных отсканированных изображений, сохраняемых в си­стеме, и включает в себя две операции: непосредственную подго­товку документов для сканирования и выполнение описания на­стройки системы на конкретную форму документа.

Подготовка документов для сканирования предполагает выпол­нение следующих шагов:

определение самого документа для сканирования;

выбор конкретных областей документа для сканирования;

определение технологической цепочки движения документа до сканирования;

непосредственная подготовка документов для сканирования, открытие конвертов, удаление скрепок или других предметов, мешающих сканированию;

•           подготовка пакетов документов для сканирования. Составление описания каждого документа предполагает вы­полнение трех операций:

составления настройки формы документа;

настройки модели ввода;

настройки полей формы документа и индексации базы дан­ных.

В основе выполнения этого состава операций лежит понятие форматированного (структурированного) документа (ФД). Ти­пичными примерами форматируемых документов являются «Пла­тежные поручения», «Прайс-листы», «Декларации о доходах», «Счета» и т.д. Основной структурной единицей форматируемого документа является поле документа. Каждое поле описывается в двух аспектах: визуально, в частности геометрически, и содержа­тельно. С изобразительной точки зрения каждое поле должно быть явно обособлено: пустыми промежутками, разделительны­ми линиями, оригинальным типом шрифта, уровнем фона, цве­том и т.д.

Содержательная часть характеризуется назначением поля, словарным и алфавитным составом, а также некоторыми зако­нами построения текста, например, в поле почтового адреса дол­жны быть сведения о городе, улице, доме и проч.

Геометрические и содержательные характеристики полей мо­гут быть как абсолютно независимыми, так и взаимосвязанны­ми. Например, в приходном ордере рядом с полями «количество» и «цена» находится поле «сумма».

Документы, которые подлежат сканированию, могут быть объединены в группы по нескольким признакам. По способу на­несения информации можно выделить документы, в которых ис-

 

пользуются метки, печатный или рукописный текст. Так, напри­мер, Избирательные бюллетени используют меточный способ, в го время как Прайс-листы - печатный, а первичные бухгалтерс­кие документы - в основном рукописные.

По геометрической вариантности полей различают докумен­ты, в которых расположение всех полей и записей строго фикси­ровано относительно опорных элементов: рамок, линий, посто­янных напечатанных записей, специальных маркеров. Все специ­ально подготовленные для машинной обработки документы обладают этим качеством. Другим типом являются документы, которые имеют произвольное расположение полей.

Кроме того, можно разделять документы по наличию яв­ных разделителей полей, которые часто присутствуют в табли­цах, бухгалтерских документах и в платежных поручениях, или их отсутствию.

2. Получение изображения документа включает в себя выпол­нение таких операций, как сканирование; контроль качества от­сканированных изображений и возможное повторное сканиро­вание.

Сканирование - это очень ответственная операция, и, следо­вательно, к выбору конкретной модели сканера необходимо под­ходить достаточно ответственно. При выборе следует учитывать следующие факторы: размеры документов, их состояние, являет­ся ли документ односторонним или двухсторонним, производи­тельность сканеров, необходимое разрешение изображения, на­дежность получаемых изображений и др.

В настоящее время на рынке технических средств предлагает­ся достаточно большое количество различных моделей сканеров, которые можно классифицировать по производительности на следующие виды:

персональные - низкоскоростные (20-40 строк/мин, например Fujitsu Scan Partner 10, HP ScanJet и др.);

настольные офисные - среднескоростные (40-60 строк/мин или 80-120 изображений в минуту, например ВапсТес 2610 Bell&Howell6338, Fujitsu3099, Kodak ImageLink 500 и др.);

высокопроизводительные потоковые (90-185 страниц/мин или 180-370 изображений в минуту, например ВапсТес S-series, Photomatrix 5000, Kodak ImageLink 900 и др.).

По качеству сканирования, зависящего от разрешающей спо­собности, их можно разделить на следующие группы:

| 2-2639

177

 

с низкой разрешающей способностью (200-400 точек на дюйм);

со средней разрешающей способностью (600-800 точею дюйм);

с высокой разрешающей способностью (1600-2800 точек; дюйм);

специального назначения.

Для ввода ветхих документов применяют сканеры специаль­ного назначения с вакуумным прижимом документов, которые предъявляют весьма низкие требования к документу и обраба­тывают его в щадящем режиме. Такие сканеры позволяют ска­нировать не полностью раскрытые книги и документы плохого! качества. Скорость ввода у таких устройств 0,25-3 страницы в минуту.

Контроль качества отсканированных изображений необходим для того, чтобы все нужные документы были отсканированы и легко читаемы (не должно быть пропущенных страниц, некаче­ственных изображений и т.д.). Для повышения эффективности и надежности системы следует иметь возможность выборочной проверки качества отсканированных изображений, а при скани­ровании многостраничных документов - возможность отслежи­вать порядок сканируемых страниц.

Повторное сканирование проводится в случае неудовлетвори­тельного качества изображения или из-за проблем, связанных с неправильным порядком страниц в документе.

3. Распознавание и ввод данных, содержащихся в документе, в информационную базу предполагают выполнение следующих основных операций:

предварительной обработки изображений;

нахождения полей (сегментация документа и чтение текста);

проверки распознанной информации;

•           ввода данных в информационную базу. Предварительная обработка изображения документов исполь­зует следующие специальные функции:

очищение изображения применяется для снятия с изображе­ний отдельных элементов (например, точки, пятна);

снятие фона и выделений (например, с ценных бумаг);

выравнивание изображения для последующей его обработки с целью улучшения качества распознавания, чтобы документ показать в строго вертикальном положении в процедуре рас­познавания без перекосов;

 

снятие элементов форм (для того чтобы эффективно обраба­тывать форму, необходимо удалять с изображения элементы формы: линии, разграфки, таблицы и т.д.);

определение идентификатора форм (так как приходится вво­дить в систему самые разнообразные формы, отличные как по содержанию, так и по структуре; для того чтобы система могла работать со множеством форм, она должна опреде­лять, какая форма поступила на обработку, и загружать со­ответственно заранее настроенное и подготовленное описа­ние формы);

восстановление букв и символов, если они оказываются пере­сеченными элементами формы, например линией (для после­дующего распознавания символа необходимо удалить линию * таким образом, чтобы буква не пострадала).

Кроме того, к предварительной обработке изображения от­носятся следующие функции, повышающие надежность распоз­навания:

вращение изображения на произвольный угол;

масштабирование изображения;

регулирование уровня серого цвета;

компрессия и декомпрессия изображения.

Процессы нахождения полей (сегментация документа) и чте­ния текста могут быть выполнены последовательно и независи­мо, если поля полностью определены своими визуальными ха­рактеристиками. Такая ситуация характерна для машиночитае­мых форм и документов с явными разделителями полей в виде линий или больших промежутков. В документах, не имеющих строго определенного положения полей и явных разделителей между ними, нет принципиально иного способа, как прочитать текст и по его содержанию скорректировать результаты предва­рительной сегментации.

В машиночитаемых формах задача в основном сводится к нахождению опорных элементов и вычислению относительно них положения информативных полей. Документы, не имеющие стро­го заданной геометрии, но тем не менее использующие явно за­данные разделители, обрабатываются достаточно надежно, на­пример таблицы с разделителями в виде горизонтальных и вер­тикальных прямых.

Наиболее сложная ситуация возникает при работе с гибкими формами документов. Термин «гибкая» означает, что известны

12*

179

 

состав полей, их примерное расположение, некоторые особенно­сти по строению полей, но отсутствует полная и точная ориента­ция по их расположению.

Как правило, задачи обработки разных форм документов, таких, как платежные документы, налоговые декларации и дру­гие, решаются индивидуально путем программирования с исполь­зованием общих приемов.

Распознавание документа, анализ содержания документа и из­влечение данных осуществляются в настоящее время с помощью следующих систем распознавания текстов, отличающихся по сто­имости, качеству и скорости работы:

OCR (Optical Character Recognition) - технология оптическо­го распознавания печатных символов, т.е. перевода сканиро­ванного изображения печатных символов в их текстовое пред­ставление;

ICR (Intelligent Character Recognition) - распознавание раз­дельных печатных символов, написанных от руки;

OMR (Optical Mark Recognition) - распознавание отметок (обычно перечеркнутые крест-накрест либо галочками квад­раты или круги);

 

стилизованные цифры - распознавание рукописных цифр, написанных от руки по шаблону, как на почтовых конвертах. Существует несколько подходов к реализации технологий вво­да рукописных символов.

Распознавание on-line осуществляется в тот момент, когда че­ловек пишет специальным пером на сенсорном экране, вос­принимающем дополнительную информацию о траектории движения руки, наклоне пера, силе нажима и т.д. Применяет­ся в основном в персональных электронных записных книж­ках типа 3Com PalmPilot для рукописного ввода числовых и символьных данных.

Распознавание off-line - распознавание произвольного руко­писного текста, введенного в компьютер через сканер. Распознавание рукописных символов является подмноже­ством технологии распознавания off-line. Применяется, как пра­вило, для ввода стандартных форм. Очевидно, что распознава­ние рукописного текста значительно сложнее, чем печатного. Если в последнем случае мы имеем дело с ограниченным числом вариаций изображений шрифтов (шаблонов), то в рукописном варианте число шаблонов неизмеримо больше.

Для OCR-систем в основном используются три технологии:

матричная (Matrix-based);

описательная (основана на описании правил построения сим­волов);

•           нейронная (основана на использовании нейронных сетей). Проверка распознанных данных является следующей опера­цией, реализуемой системой ввода. Системы автоматического распознавания обычно вместе с результатом возвращают так на­зываемую «степень уверенности». Для повышения надежности данных после распознавания применяются определенные пользо­вателем автоматизированные методы проверки данных (напри­мер, можно проверить, имеется ли распознанная информация в базе данных, и если нет, то пометить поле как некорректное).

Если данные после распознавания помечены как некоррект­ные, то они автоматически направляются на ручное редактиро­вание. Во время редактирования оператор видит реальное изоб­ражение нераспознанного поля и имеет возможность откоррек­тировать его. После ввода оператором новых данных снова применяются правила проверки данных, т.е. на всех этапах вво­да, как автоматического, так и ручного, осуществляется провер­ка данных в соответствии с правилами, определенными пользо­вателем. Большие требования в данном случае предъявляются к методам проверки вводимых данных. Для повышения надежнос-I и данных используются дополнительные механизмы, такие, как применение словарей и таблиц, определяемых пользователем. Как правило, системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа.

Ввод данных, содержащихся в документе, в информационную базу является заключительной операцией. При этом может быть сохранено изображение документа.

В отличие от обычной системы распознавания (OCR) систе­ма ввода стандартных форм использует формальное описание исходной формы документа или бланка. Это позволяет автома­тически помещать распознанную информацию в поля базы дан­ных без участия оператора. Строгое соблюдение стандарта внеш­него вида формы существенно повышает точность распознава­ния полей документа.

Основной фактор при оценке эффективности систем распоз­навания заключается в стоимости исправления ошибок при рас­познавании, а не в точности и скорости системы. В некоторых случаях затраты на исправление ошибок при распознавании мо­гут перекрыть все плюсы автоматизации и сделать ручной ввод по изображению более эффективным.

При разработке и использовании такой системы проектиров­щику требуется выполнить также большой объем работ по ин­теграции этой системы ввода в действующую или разрабатывае­мую информационную систему. На производительность системы очень большое влияние оказывают используемая технология вво­да, ее настройка на текущую задачу и вид документов. Здесь нуж­но учитывать состав оборудования, программное обеспечение и совместимость формата распознанной информации с уже суще­ствующими системами.

Существует множество компаний, которые предлагают реше­ния или компоненты систем обработки форм. Решение о внедре­нии системы обработки форм, а также выбор того или иного при­ложения должны производиться с учетом в первую очередь сле­дующих требований:

тип обрабатываемых документов и вид содержащихся в них данных;

точность распознавания;

наличие эффективной системы редактирования;

настраиваемость системы на требования конкретного заказ­чика и способность изменяться согласно меняющимся внеш­ним условиям без программирования;

наличие поддержки сканеров различных типов, а также раз­ного рода плат обработки изображений документов;

наличие редактора форм, настраивающего систему на новые формы или изменения старой формы, на которую система была предварительно ориентирована;

наличие редактора схем обработки документов, открытого интерфейса подключения различных модулей распознавания (в зависимости от типа формы можно для повышения каче­ства распознавания подключать тот или иной модуль, кото­рый наиболее подходит для данного типа формы);

наличие редактора схем экспорта в базу данных (данные, ко­торые извлекаются при обработке формы, должны быть пе­реданы в базу данных для хранения или в другие бизнес-при­ложения для обработки).

Рассмотрим в качестве примера систему Cognitive Forms ком­пании Cognitive Technologies. Cognitive Forms - российская сис­тема промышленного (иногда говорят поточного) ввода стандар­тных форм документов, которая работает под управлением опе­рационных систем Windows 95/NT и MacOS. Система принадле­жит к классу OCR/ICR/OMR и позволяет вводить в базы данных и информационные системы формы с печатным, рукописным за­полнением и отметками (checkbox).

Cognitive Forms предназначена для автоматизированного вво­да в информационные системы и базы данных произвольных, одно- и многостраничных форм документов, соответствующих определенным требованиям к оформлению и заполнению и под­готовленных на лазерных, струйных и матричных принтерах или на стандартных бланках с использованием пишущих машинок.

Эта система позволяет осуществлять распределенную поточ­ную обработку (сканирование, распознавание, редактирование и контроль) в сети с производительностью распознавания до 14 ООО страниц формата А4 в смену на одном компьютере и осу­ществлением автоматического контроля результатов распозна­вания. Экспорт данных может осуществляться в базы данных, бан­ковские системы типа операционный день и системы создания электронных архивов и автоматизации документооборота.

Внедрение системы позволяет обеспечить ускорение ввода стандартных форм документов в 5-10 раз по сравнению с руч­ным вводом.

Сканированные образы могут быть сохранены в электронном архиве банка для ведения истории делопроизводства организации. Cognitive Forms состоит из трех основных модулей:

Cognitive FormDesigner отвечает за проектирование описания формы документа для программ распознавания и редактиро­вания.

Cognitive FormReader обеспечивает автоматическое распозна­вание потока стандартных форм, поступающих со сканера. В автоматическом режиме осуществляет поточное распознава­ние форм по заданному описанию и контекстную проверку результатов.

Cognitive FormEditor предназначен для операторского контро­ля распознанных форм и сохранения информации из введен­ных форм в записи базы данных и позволяет оператору визу­ально контролировать и редактировать распознанные поля форм.

Cognitive Forms дает возможность осуществлять распределен­ную в рамках локальной сети, обработку вводимых форм и до­биться эффективного доступа к данным в режиме реального вре­лени. Например, на Pentium И-233 время распознавания систе­мой Cognitive Forms одного бланка составляет около 2 с. Для промышленного ввода применяются высокопроизводительные сканеры: Kodak, Bell+Howell, BancTec, Fujitsu и другие, а также сетевые устройства (Hewlett-Packard). Производительность неко­торых моделей достигает сотен страниц в минуту.

Технология использования системы сводится к выполнению четырех шагов.

Вначале сотрудники Cognitive Technologies или заказчик собственными силами создают описание формы (файл с расши­рением *.frm) или нескольких форм документов в программе Cognitive FormDesigner.

Посредством любого сканера бумажные экземпляры вво­дятся в компьютер и сохраняются в виде графических изображе­ний (*.tif).

Для распознавания стандартных форм, удовлетворяющих требованиям Cognitive Technologies к оформлению, использует­ся программа Cognitive FormReader.

После распознавания оператор может произвести провер­ку, откорректировать данные и сохранить их в формате необхо­димой базы данных. Для этого в программе FormEditor оператор сравнивает изображение формы и поля базы данных. Он редак­тирует значения полей, глядя на экран компьютера и не тратя времени на работу с бумажным оригиналом. Система направля­ет оператора, не давая ему возможности ошибиться в формате данных, регистре, типе, диапазоне значений и т.д., что существен­но облегчает ввод большого объема информации в используе­мые базы данных.

Система Cognitive Forms была разработана для применения в банковской сфере для печати и ввода новых форм платежных поручений.

Эффективность применения системы ввода бумажных доку­ментов в ЭИС основана в первую очередь на значительном со­кращении участия человека во вводе данных. Как следствие, мож­но наблюдать уменьшение времени ввода документов и количе­ства ошибок. Для организаций, обрабатывающих большие потоки форм (центральные налоговые и почтовые ведомства, ста­тистические организации, центры авторизации по расчетам за кредитные карты), использование описанных технологий позво­лит решить проблемы эффективности обработки сотен тысяч и даже миллионов форм в сжатые сроки.

Иопросы для самопроверки

Каково содержание основных операций технологического процесса получения первичной информации?

Каковы методы и средства выполнения операции съема пер­вичной информации и ее контроля?

Каковы методы и средства выполнения операций регистра­ции и сбора первичной информации и контроля правильно­сти их выполнения?

Каковы методы, технические и программные средства обес­печения передачи первичной информации в ЭИС?

Какой перечень операций входит в состав технологической сети проектирования процессов получения и передачи пер­вичной информации?

Каков состав процедур ведения ИБ?

Каковы требования, предъявляемые к процедуре загрузки?

Каков состав основных операций, включаемых в процедуру загрузки?

Каково содержание операции «Прием, контроль и регистра­ция первичной информации» и от какого фактора оно зави­сит?

Перечислите методы ввода первичной информации в ЭВМ и методы контроля вводимой информации.

Перечислите особенности подготовки первичных данных, влияющих на содержание операций процедуры загрузки.

Какой состав методов семантического и синтаксического кон­троля первичной информации, используемых при загрузке данных?

Каков состав операций проектирования процедуры загрузки данных в ИБ?

Какие средства частичной автоматизации проектирования процедуры загрузки вы знаете и какие факторы влияют на их выбор?

В чем особенность и каков состав операций, выполняемых при вводе информации с бумажных носителей?

К


Оцените книгу: 1 2 3 4 5