Название: Проектирование экономических информационных систем - Смирнова Г. Н. Жанр: Информатика Рейтинг: Просмотров: 794 |
Гпава 8ПРОЕКТИРОВАНИЕ ПРОЦЕССОВ ПОЛУЧЕНИЯ ПЕРВИЧНОЙ ИНФОРМАЦИИ, СОЗДАНИЯ И ВЕДЕНИЯ ИНФОРМАЦИОННОЙ БАЗЫ
8.1 Проектирование процессов получения первичной информации В состав операций, выполняемых при получении первичней информации, входят съем, регистрация, сбор и передача информации. Съем информации, или измерение, - это процесс получения количественного значения показателя, характеризующего объекты и процессы хозяйственной деятельности, и по степени автоматизации его можно подразделить на следующие виды: ручной съем (подсчет); полуавтоматический (например, с помощью весов-автоматов); автоматический (например, с использованием счетчиков или датчиков единичных сигналов). К современным средствам измерения и счета относятся, например, электронные весы модели CAS LP-15, которые предназначены для использования в расфасовочных отделах продовольственных магазинов. С помощью весов можно выполнить операции: взвешивание упаковки с товаром; перемножение веса на цену, печать этикетки со стоимостью упакованного товара; передача сообщений компьютеру, который осуществляет учет движения товаров; прием от компьютера сведений об изменении номенклатуры товаров и цен; накопление данных о выполненных взвешиваниях. Такие весы могут использоваться как автономно, так и в составе системы учета движения товаров в магазине. Счетчики применяют в техслучаях, когда производство имеет крупносерийный или массовый характер. Счетчиками оснащаются производственные автоматы, штамповочные прессы, маркировочные машины. Другими устройствами являются измерители потоков (расходомеры), когда объектами измерения являются жидкость или газ. Примером может служить топливомер на автоматизированной АЗС, используемый для измерения отпуска количества горючего. К подобным устройствам относятся также машинка для счета банкнот, средства безналичного денежного обращения с использованием пластиковых карт и др. Машинка для счета банкнот используется для пересчета различных купюр в пачках до 999 листов и вычисления суммы, установления числа листов, которое необходимо отсчитать, выбрасывания мятых и поврежденных купюр. Средства организации безналичного денежного обращения на основе кредитных карт (КК) позволяют оплачивать, не пользуясь наличными деньгами, различные товары и услуги (телефонные разговоры, проезд в метрополитене и др.). В настоящее время наиболее употребительны три вида КК: с магнитными полосками; с памятью на микросхемах; содержащие микропроцессор, полупостоянную и оперативную память, схему защиты (так называемые интеллектуальные карты). Следующей операцией, выполняемой при получении первичной информации, является операция регистрации первичной информации, т.е. нанесения всех реквизитов-оснований (количественных характеристик) и признаков на какой-либо носитель. Регистрация информации может выполняться следующими способами: ручным - заполнение бланков первичных документов на бумажном носителе вручную; механическим при вводе информации с клавиатуры в экранные формы ЭВМ или при использовании устройств регистрации информации типа пишущих машинок с занесением информации в первичные документы и одновременной записью ее на магнитные носители или машиночитаемые документы; полуавтоматическим, когда часть информации автоматически заносится с магнитных носителей или из оперативной памяти устройства (например, при использовании кассовых аппаратов, регистраторов производства или бухгалтерских фактурных машин). В процессе регистрации информации осуществляется идентификация всех компонентов, участвующих в хозяйственных операциях, указывается количественная характеристика процесса, выявленная при съеме информации, а также выполняется привязка всей записи ко времени. Идентификация компонентов хозяйственной операции (станка, рабочего, детали и т.д.) - это определение кода конкретного компонента, который может быть числовым, алфавитным или смешанным и который может быть введен в документ вручную по классификатору, с помощью специального считывающего устройства, читающего штрих-код, нанесенный, например, на деталь или путем выборки из списка кодов и наименований компонентов. Этот код хранится в оперативной памяти регистрирующего устройства. К этой категории относятся устройства регистрации производства, имеющие в своем составе пульты ввода информации с рабочих мест, счетчики единичных сигналов, устройства памяти на дисках, а также электронные кассовые аппараты. Например, кассовый аппарат типа IPC POS-IIS позволяет выполнять такие операции, как регистрация продаж с умножением количества на цену; прием данных с клавиатуры, с электронных весов, от считывателя штрих-кодов, от считывателя магнитных карт; корректировка регистрации с возвратом денег; расчет промежуточных итогов, подсчет сдачи; прием платы наличными деньгами или кредитными картами; пересчет платы в другую валюту; расчет налогов, скидок; ведение денежных и операционных регистров; запись итоговых показаний регистров в фискальную память со сроком хранения до 10 лет; выдача отчетов; выдача данных в канал связи и на технический носитель. В памяти аппарата могут храниться данные по 10 ООО товарам, один аппарат могут использовать до 99 кассиров. Первичные данные о продажах фиксируются на машинных носителях и могут быть использованы в системе управления магазином. Для обеспечения достоверности информации при выполнении операции регистрации применяют несколько методов контроля, набор которых наиболее широко представлен при полуавтоматическом способе регистрации информации, где можно выделить следующие методы: визуальный контроль на экране регистратора; двойной ввод информации; контроль идентификатора по списку; контроль вводимой информации по формату; контроль идентификаторов по модулю (11, 10); контроль по сумме сообщений; контрольные суммы по каждому сообщению; общий аппаратный контроль по модулю 2. Сбор первичной информации - это операция получения пакета сообщений, «пачки» первичных документов или файла на машинных носителях для последующей их передачи и обработки. Эта операция также может быть осуществлена ручным, полуавтоматическим и автоматическим способам с централизованной или децентрализованной организацией работ. Полуавтоматический и автоматический способы сбора информации применяются для получения массовой информации в производственных цехах. Для централизованной организации работ характерны периодический опрос удаленных пунктов регистрации первичной информации, находящихся на рабочих местах, выполняемых автоматически, передача этой информации на центральную ЭВМ вычислительного комплекса для учета, контроля выработки продукции и выдачи нового задания. Децентрализованный метод сбора - это метод, при котором передача информации осуществляется с удаленных пунктов по мере накопления информации или по окончании некоторого периода времени, например смены.
Поскольку первичная информация возникает на рабочих местах, удаленных от пунктов ее обработки, возникает проблема в организации системы передачи этой информации. Помимо первичной информации в процессе управления организацией или ее филиалами возникает необходимость в передаче документов, являющихся результатом обработки данных на ЭВМ, а также в организации удаленного доступа к общим базам данных, к коммерческим базам данных глобальных вычислительных сетей или к данным, хранящимся на WEB-серверах. Операция передачи информации на расстояние осуществляется двумя способами: неэлектрическим (например, с помощью экспедиторов, курьеров), для которого характерны высокая надежность и низкая скорость передачи, и электрическим, требующим системы защиты от искажений и несанкционированного доступа. Передачу информации электрическим способом можно осуществлять с использованием следующих средств: телеграфа общего пользования, для которого характерны низкая скорость передачи информации и низкая достоверность передачи; абонентских телеграфных устройств и специальной аппаратуры передачи данных компьютерных сетей. Основным средством передачи данных в ЭИС в настоящее время служат компьютерные сети, подразделяемые на низкоскоростные, среднескоростные и высокоскоростные с использованием передачи данных по коммутируемым либо по специально выделенным каналам связи. Компьютерной сетью называется совокупность взаимосвязанных через каналы передачи данных компьютеров, обеспечивающая пользователей средствами обмена информацией и коллективного использования аппаратных, программных и информационных ресурсов сети. По степени территориальной удаленности компьютерные сети классифицируются на локальные, распределенные и глобальные. Локальные сети ЭВМ связывают абонентов одной организации, расположенных в одном или нескольких близлежащих зданиях и удаленных друг от друга на расстояние не больше 10 км. Локальные сети обслуживают, как правило, до 80 - 90\% потребности в передаче информации и только 10 - 20\% требуют своего обслуживания региональной или глобальной сетью. Локальные сети могут иметь любую структуру, но чаще всего ком- | | -2639 161
пьютеры в локальной сети связаны единым высокоскоростным каналом передачи данных, который является собственностью организации. Региональные сети объединяют пользователей города, области, небольших стран и в качестве связи чаще всего используют телефонные линии. Расстояние между узлами сети составляет 10- 1000 км. Глобальные сети объединяют пользователей, расположенных по всему миру, и часто используют спутниковые каналы связи, позволяющие соединить узлы сети связи и ЭВМ, находящиеся на расстоянии 10-15 тыс. км друг от друга. По способу установления соединений между абонентами сети делятся на несколько видов. Сети с коммутацией каналов характеризуются установлением прямой связи с абонентом на некоторое время в пределах общей очереди. Поэтому основным недостатком такой связи является ожидание соединения в общей очереди. Положительным качеством такой передачи является тот факт, что передача не может быть осуществлена вне очереди (произвольно), что повышает достоверность передачи информации в целом. Ко второму виду относятся сети с коммутацией сообщений, которые характеризуются наличием узлов коммутации сообщений. Для таких узлов необходимо обеспечить наличие технических средств получения и хранения сообщений. Задача ЭВМ, используемых для этих целей, - получить сообщение, запомнить его и в случае освобождения канала связи с абонентом по определенному адресу передать это сообщение. Положительной стороной такой передачи является минимальное время ожидания, отрицательной - то, что сеть получается более дорогой (необходимо разработать специальное программное обеспечение узла коммутации), а при передаче большого объема информации (1 млн байт) канал может быть занят несколько часов. Третьей разновидностью являются сети с коммутацией пакетов, позволяющие длинное сообщение на передающем пункте разбивать на пакеты сообщений. Информация передается пакетами. Положительная сторона такого способа передачи - сокращается время ожидания передачи, отрицательная - необходимость иметь программное обеспечение, позволяющее разбивать на передающем пункте сообщение на пакеты с заголовком, адресом и контрольным числом, а на принимающем пункте - сборку сообщения по идентификатору.
Для обеспечения достоверности передачи информации применяют две группы методов контроля: аппаратный, при котором контроль ведется на уровне символа с использованием помехозащитных кодов, и информационные, организованные по принципу дублирования (двойной передаче сообщений) или по принципу информационной избыточности. Выделяют следующие варианты распознавания ошибок, организованные по принципу дублирования информации: метод решающей обратной связи (передача ведется в одном направлении два раза, ответ получается в форме «ДА - НЕТ»); метод информационной обратной связи (передача сообщения ведется в двух направлениях: «источник - потребитель», «потребитель - источник»; в «источнике» переданное и полученное сообщения сравниваются, что позволяет выявить ошибки передачи). По принципу информационной избыточности используются два метода: контроль по модулю (контроль фрагмента сообщения); метод контрольных сумм. Содержание конкретных работ по проектированию технологических процессов получения первичной информации определяется составом и особенностями используемых методов и средств выполнения рабочих и контрольных операций, выполняемых с помощью определенных программно-технических средств.
8.2 Проектирование процесса загрузки и ведения информационной базы Под системой загрузки и ведения информационной базы понимают некоторый комплекс программной, методической и технической документации, с помощью которой пользователь может осуществить своевременную загрузку и актуализацию данных, хранение достоверных данных, обеспечивать секретность данных, защиту их от сбоев ЭВМ и своевременное восстановление утраченной информации. Проектирование системы загрузки и ведения информационной базы означает проектирование и получение программной и технологической документации по следующим процедурам: 11* 163
загрузка и актуализация данных; обеспечение достоверности вводимых данных; обеспечение защиты данных; • обеспечение надежности хранения данных. Достоверность хранения данных в информационной базе подразумевает отсутствие ошибок, своевременность внесения изменений и непротиворечивость информации. Для обеспечения достоверности вводимых и хранимых данных необходимо выполнить следующие работы: обеспечить контроль вводимой информации при выполнении процедур загрузки и актуализации информации; обеспечить защиту хранимых данных от несанкционированного доступа; обеспечить одновременность актуализации одних и тех же данных, находящихся в разных файлах. В процессе создания (загрузки) и актуализации информационной базы используются интерактивный и пакетный режимы. Интерактивный режим создания и актуализации информационной базы предполагает ввод или обновление отдельных записей файлов по мере необходимости. Режим интерактивного ввода или обновления данных в основном применяется при создании и ведении файлов оперативной информации, когда происходят получение и оформление отдельных документов первичной информации (см. п. 8.1). Файлы оперативной информации создаются в режиме добавления записей по мере получения документов первичной информации. В этом смысле процессы создания и добавления оперативных данных не различаются. Кроме того, процессы первоначального ввода данных и возможной последующей их корректировки имеют небольшие технологические отличия. Например, ввод заказа и внесение изменений в заказ предполагают работу с одной и той же экранной формой. В первом случае заполняется пустая экранная форма, а во втором случае сначала вызывается заполненная экранная форма, а затем корректируется. В том и другом случае выполняются одинаковые методы контроля. При удалении записи также сначала вызывается соответствующая экранная форма для проверки целесообразности этой операции. Пакетный режим создания и актуализации базы данных предполагает предварительный сбор пакета документов или подготовку входного файла первичной информации, с которых осуществляется загрузка (наполнение) основного файла или его обновление. Пакетный режим используется для работы с файлами оперативной информации только в тех случаях, когда требуется ведение централизованной базы данных из локальных источников при невозможности подключения этих источников к вычислительной сети или из соображений оптимизации объема передачи данных по вычислительной сети, например при поступлении учетной информации в бухгалтерию. Пакетный режим всегда используется для создания файлов условно-постоянной информации в силу необходимости одноразового ввода большого объема данных, а также часто используется при актуализации этих файлов вследствие, как правило, массового характера обновлений, например плановой информации или информации классификаторов. В силу сложности технологии пакетного режима рассмотрим особенности проектирования технологического процесса загрузки и актуализации информационной базы на примере файлов условно-постоянной информации. Под загрузкой информационной базы будем понимать совокупность операций по приему, контролю и регистрации поступившей информации, вводу информации в ЭВМ, контролю и исправлению ошибок, записи данных в информационный файл. Содержание операций приема, контроля и регистрации поступившей информации зависит от типа носителя первичной информации. Если поступающая информация представлена на бумажном носителе, то во время ее выполнения осуществляется следующая совокупность действий: контроль количества поступивших документов, полноты и качества их заполнения; отбор правильно заполненных документов и их регистрация в регистрационном журнале; отбраковка документов, не соответствующих требованиям, предъявляемым к документам; формирование запроса на исправление документов с ошибками и отсылка их к источнику информации, т.е. в то подразделение, из которого они поступили. Если информация поступает на машинном носителе (гибком диске), то в этом случае проверяется качество записи диска, регистрируются имя файла, объем, источник и время поступления. При поступлении информации по каналам связи определяются источник поступления, время, количество поступивших записей. Операция ввода информации в ЭВМ может осуществляться несколькими методами: ручной ввод данных с бумажных документов с использованием макетов экранных форм; автоматизированное чтение данных, содержащихся в документах на бумажных носителях, и загрузка их в информационную базу (см. п. 8.3). При вводе больших объемов информации в ЭВМ с клавиатуры оператором допускается значительное количество ошибок, которые необходимо выявить и устранить. При этом контроль вводимой информации, как правило, осуществляется с использованием следующих методов: визуальный контроль на экране дисплея; метод контрольных сумм, рассчитываемых по каждой строке документа или по всему документу до ввода в ЭВМ и после ввода, которые затем сверяются между собой; метод верификации, при котором осуществляется сверка ранее введенных данных, записанных в файл, и данных первичных документов, вводимых оператором второй раз; метод двойного массива, при котором файлы по первичным документам создаются двумя разными операторами и после ввода сверяются по контрольным числам, вычисляемым для каждого из них. Проверенные и исправленные данные заносятся в файл информационной базы. Схема технологической сети проектирования процедуры пакетной загрузки базы данных при ручном способе ввода данных первичных документов отражена на рис. 8.1. Первой выполняется операция «Определение особенностей подготовки данных и формирование требований к системе загрузки» (Ш). Для выполнения этой операции необходимо располагать технологической документацией, описывающей правила работы при получении первичной информации (ДІЛ). Можно выделить следующие особенности подготовки файлов данных: внемашинные форматы данных могут не совпадать с внутри-машинными форматами; получение и подготовка первичной информации с помощью разнообразных технических средств могут привести к рассогласованию кодов представления вводимой информации и кодов ее представления в ЭВМ; все операции по подготовке файлов являются машинно-ручными, поэтому следует учитывать большое количество возможных ошибок; вводимые файлы могут иметь линейную или иерархическую логическую структуру, которую следует учитывать в процессе загрузки; П1 П2 Определение особенностей подготовив данных и формирование требований к системе загрузки
Д1.2У Определение состава операций технологического процесса загрузки ИБ
Д2.1) Д1.1 - технологическая документация, описывающая правила работы при получении первичной информации; Д1.2 - требования к процессу загрузки; Д2.1 - схема технологического процесса загрузки; U3.L- универсум программных средств частичной автоматизации, служебных средств операционной системы и языков программирования; Д3.1 - факторы, определяющие выбор инструментальных средств; Д3.2 - описание выбранных инструментальных средств и методическое обеспечение по их настройке; Д4.1 - блок-схемы программы; Д4.2 - коды программ; Д4.3 - настройка средств частичной автоматизации; Д5.1 - данные контрольного примера; Д5.2 - отлаженная программа; Д5.3 - распечатка результатов контрольного примера; Д5.4 - технологическая документация структуры записей входных файлов могут не совпадать со структурой записей базы данных. Результатом выполнения этой операции является получение списка требований к процедуре загрузки (Д1.2). К основным требованиям, предъявляемым к процедуре загрузки, можно отнести следующие: необходимо обеспечение достоверности вводимой информации; должны выдаваться сообщения об ошибках и местах их возникновения; требуется обеспечение контроля вводимой информации на уровне файла, записи, поля; загрузка должна обеспечить перекодирование информации в случае рассогласования кодов; должно обеспечиваться преобразование файлов во внутренние форматы; должны выполняться редактирование, сортировка и распечатка файлов с постоянной информацией. Второй операцией рассматриваемого процесса служит операция П2 «Определение состава операций ввода и первичной обработки загружаемых файлов». Входной информацией для данной работы являются требования к процедуре загрузки (Д1.2), выходной - состав операций или блок-схема технологического процесса загрузки (Д2.1). Исходя из требований, предъявляемых к процедуре загрузки, выделяют следующие типовые операции, входящие в состав этой процедуры: ввод входных данных и их перекодирование; синтаксический и семантический контроль; распечатка «Ведомости ошибок», анализ ошибок и создание файла корректур; ввод файла корректур в ЭВМ; корректировка входного файла с целью исправления в нем ошибок; редактирование входного исправленного файла; формирование записей основного файла; сортировка или индексирование основного файла с постоянной информацией; распечатка файла с постоянной информацией. Особое внимание должно быть уделено разработке программы синтаксического и семантического контроля загружаемой информации в информационную базу. Синтаксический контроль может осуществляться на уровне структуры файла, записи и отдельного поля. Контроль на уровне файла сводится к контролю типов записей, соподчиненное™ различных типов записей (заголовок, подзаголовок), количества экземпляров каждого типа записи. Контроль на уровне записи сводится к контролю числа полей, их последовательности и длины записи. Контроль на уровне поля включает в себя контроль типа и формата поля. Семантический контроль сводится к арифметическому и ло-I ическому контролю содержимого отдельных полей. Арифметический контроль осуществляется следующими методами: контрольных сумм по документу; контрольных сумм по отдельной записи; контрольного числа по файлу; контроля по модулю 11; балансовый контроль. Логический контроль применяется для реквизитов-признаков и оснований, и при его построении используют следующие виды контроля: контроль на конкретное значение; контроль на диапазон значений; контроль путем сравнения с некоторой константой; контроль зависимостей значений реквизитов; контроль по списку значений (справочнику). На следующей операции (ПЗ) осуществляется «Выбор инструментального средства разработки программ загрузки информационной базы» на основе универсума программных средств частичной автоматизации, служебных средств операционной системы и языков программирования (U3.1). На вход данной операции поступают блок-схема технологического процесса загрузки (Д2.1) и факторы, определяющие выбор инструментальных средств (Д3.1). На выходе получают описание выбранных инструментальных средств и методическое обеспечение по их настройке (Д3.2). К инструментальным средствам частичной автоматизации относятся: генераторы экранных форм СУБД, специализированные генераторы ввода-вывода и утилиты. К основным факторам, влияющим на выбор средств частичной автоматизации, можно отнести: количество и характер функций, выполняемых данным средством, например возможность работы с многоэкранными формами или экранными формами, предназначенными для ввода данных в несколько файлов; наличие большого объема свободных вычислительных ресурсов; квалификация персонала; возможность подключения оригинальных программных средств. Программные средства частичной автоматизации загрузки данных можно разделить по принципу функционирования на конверторы, предназначенные для преобразования данных, создаваемых в других информационных системах, и программы непосредственной загрузки интерпретирующего или генерирующего типа. Результатом выполнения данной операции является выбор конкретных средств частичной автоматизации процедуры загрузки или языков программирования, или их комбинации. Далее осуществляется операция «Настройки средств частичной автоматизации или разработка программ» (П4). В результате формируется программная документация по данной процедуре, в том числе блок-схемы программных модулей (Д4.1), коды программных модулей (Д4.2) и схемы настройки средств частичной автоматизации (Д4.3). На операции П5 осуществляется «Комплексная отладка программы загрузки информации в базу данных» на основе исходных данных для контрольного примера (Д5.1) с получением отлаженной программы процедуры (Д5.2), распечаток результатов реализации контрольного примера (Д5.3) и создание технологической документации по процедуре загрузки (Д5.4). Под актуализацией данных будем понимать совокупность операций над файлами информационной базы, связанных с добавлением новых записей, удалением старых, изменением содержания отдельных полей записей. Процесс проектирования процедуры актуализации условно-постоянной информации в базе данных (технологической сети процесса) представлен на рис. 8.2. Он начинается с операции «Разработка системы организации актуализации данных в ИБ» (П1), сущность которой заключается в определении подразделений -источников изменений, разработке форм документа «Извещение на изменения» и экранных форм, определении маршрутов передвижения этого документа от подразделения-источника до ввода информации об изменениях в ЭВМ, определении регламента и режима ввода изменений.
(Д1.2
©і ПЗ Выбор метода и инструментального средства разработки процедуры актуализации ИБ П4 Настройки средств частичной автоматизации или разработка программ
0"1 Комплексная отледка программы актуализации информации в базе данных
Рис. 8.2. Технологическая сеть проектирования процесса актуализации ИБ: ДІЛ - принципы организации ИБ, Д1.2 - структура ИБ; Д1.3 - список поставщиков изменений; Д1.4 - режим внесения изменений; Д1.5 - маршруты движения извещений на изменения; Д1.6- формы внесения изменений, Д1.7 - макет экранной формы; Д2Л - блок-схема ТП; Д2.2 - технологическая документация; ШЛ - универсум программных средств частичной автоматизации, служебных средств операционной системы и языков программирования, ДЗЛ - факторы, определяющие выбор инструментальных средств, Д3.2 - описание выбранных инструментальных средств и методическое обеспечение по их настройке; Д4Л - блок-схемы программы; Д4.2 - коды программ; Д4.3 - настройка средств частичной автоматизации; Д5Л - данные контрольного примера; Д5.2 - отлаженная программа; Д5.3 - распечатка результатов контрольного примера; Д5.4 - технологическая документация Входная информация, используемая при выполнении данной работы, включает описание структуры информационной базы (Д1.2) и описание принципов ее организации (ДІЛ). Выходная информация включает в свой состав следующие документы: список поставщиков изменяемой информации (ДІ.З); формы первичного документа «Извещение на изменение» (Д1.6); описания маршрутов движения извещения (Д1.5); макеты экранных форм размещения информации об изменениях (Д1.7); режимы внесения изменений (ДІЛ); • совокупность файлов, обновляемых одновременно (Д1-8)-Второй выполняется операция «Разработка технологического процесса внесения изменений» (П2). На вход данной операции поступают список поставщиков информации, формы первичного документа «Извещения на изменения», описание маршрутов движения «Извещения», макеты экранных форм размещения информации об изменениях, режимы внесения изменений. Результатом выполнения данной операции являются блок-схема технологического процесса актуализации данных (Д2Л) и технологическая документация (Д2.2). Можно выделить следующие типовые операции технологического процесса актуализации данных: выписка «Извещения» - данная операция выполняется в подразделениях предприятия - источниках изменений. Ее результат поступает в виде первичного документа «Извещения» в пункт ввода информации; прием, контроль и регистрация извещений; ручная корректировка «Ведомости описи» актуализируемого основного файла с постоянной информацией; ввод информации извещений в ЭВМ; контроль правильности записи информации; исправление ошибок и формирование входного файла изменений; сортировка файла изменений; ввод записей основного файла, требующего изменений; актуализация основного файла; распечатка актуализированного основного файла; сверка начальной и полученной описей основного файла. При наличии расхождений - повторное выполнение вышеперечисленных операций. Последующие операции «Выбор метода актуализации и инструментального средства разработки процедуры актуализации информационной базы» (ИЗ), «Настройка и разработка программных средств» (П4), «Отладка программ и создание технологической документации» (П5) выполняются аналогично операциям в технологической сети проектирования процедуры загрузки информационной базы. Для поддержания надежности хранимых данных при сбоях в работе ЭВМ и разрушениях информационной базы требуется система резервирования и восстановления, технологическая сеть создания которой представлена на рис. 8.3. Содержанием первой операции является «Выбор метода хранения и восстановления информации» (Ш). Проектировщики используют несколько методов хранения информации в информационной базе (ДІЛ): метод дублирования основных файлов и хранения нескольких их копий; метод создания и хранения нескольких поколений каждого основного файла ИБ и файлов корректур к ним; комбинированную систему нескольких поколений с дублированием последнего поколения и файлов корректур. В результате выполнения операции П1 получают документ Д1.2, описывающий выбранный метод хранения информации в информационной базе. Далее проектировщики должны разработать и отладить программу отката и восстановления данных на контрольном примере (П2, ПЗ), в результате выполнения которой получают отлаженный код программы (Д3.1), предназначенной для восстановления хранимых данных в случае сбоя системы при выполнении обращений прикладных программ к файлам ИБ или при выполнении процедуры актуализации данных, результатные данные контрольного примера (Д3.2). Следующей является операция «Разработка технологии восстановления и хранения данных» (П4) и составления технологической документации (Д4.1). Помимо этого необходимо также спроектировать систему учета эксплуатации файлов, в которую входят: разработка (П5) «Журнала учета» (Д5.1), составление и отладка кода программы ведение статистики обращения к файлам (П6, П7) с получением программной документации (Д7.1) и контрольного примера (Д7.2), разработка технологии копирования файлов (П8) с получением соответствующей технологической документации (Д8.1). Проектирование процедур защиты информационной базы от несанкционированного доступа будет рассмотрено в главе 10.
Выбор метода хранения и восстановления П1
Дії П2
Разработка программы восстановления
Д21 ПЗ Разработка контрольного примера и отладка —^ДЗ^)-—^ДЗ^-
П4 П5 П6
Разработка технологии восстановления данных Разработка системы учета эксплуатации файлов в ИБ (Д51 Разработка программы ведения статистики обращения к файлам
П7 П8 Разработка технологии смены носителей или копирования файлов
—»-(д<и) Рис. 8.3. Технологическая сеть проектирования процесса поддержания надежности хранимых данных: U1.1 - универсум методов хранения и восстановления данных; Д1.1 - описание метода хранения и восстановления данных; Д2.1 - код программы восстановления данных; ДЗ. 1 - отлаженная программа; Д3.2 - данные контрольного примера, Д4 1 - технологическая документация; Д5.1 - журнал учета выдачи в эксплуатацию; Д6 1 - код программы; Д7.1 - программная документация; Д7.2 - даииые контрольного примера; Д8.1 - технологическая документация копирования файлов 8.3 Проектирование процесса автоматизированного ввода бумажных документов Одной из основных задач, связанных с сокращением затрат на обработку данных, является автоматизация массового ввода бумажных первичных документов, загрузки данных в информационную базу. Основное отличие массового ввода документов от простого сканирования состоит в том, что обрабатывается большое количество однотипных документов. В качестве примеров приложений данной технологии в конкретных предметных областях можно привести систему ввода и обработки «Платежных поручений» в банке, систему ввода «Налоговых деклараций», систему ввода и проверки бухгалтерских документов в пенсионном фонде. Для организации обработки большого количества бумажных документов и перевода их в электронную форму необходимо разработать систему массового ввода документов (СМВ), которая будет способна работать как с одним, так и с несколькими тысячами бумажных документов в день. При проектировании системы ввода бумажных документов выполняется следующая совокупность операций: определение состава операций, которая должна выполнять система; выбор технических средств реализации выполнения этих операций; выбор и настройка программного обеспечения; • разработка технологической документации. Рассмотрим содержание основных операций автоматизированного ввода бумажных документов. Автоматизированное чтение и ввод документов включают в себя операции, которые можно объединить в несколько стадий: подготовка документов к сканированию; получение изображения документа; распознавание и ввод данных, содержащихся в документе вИБ. 1. Подготовка документов к сканированию - очень важная фаза процесса ввода документов, которая обеспечивает получение достоверных отсканированных изображений, сохраняемых в системе, и включает в себя две операции: непосредственную подготовку документов для сканирования и выполнение описания настройки системы на конкретную форму документа. Подготовка документов для сканирования предполагает выполнение следующих шагов: определение самого документа для сканирования; выбор конкретных областей документа для сканирования; определение технологической цепочки движения документа до сканирования; непосредственная подготовка документов для сканирования, открытие конвертов, удаление скрепок или других предметов, мешающих сканированию; • подготовка пакетов документов для сканирования. Составление описания каждого документа предполагает выполнение трех операций: составления настройки формы документа; настройки модели ввода; настройки полей формы документа и индексации базы данных. В основе выполнения этого состава операций лежит понятие форматированного (структурированного) документа (ФД). Типичными примерами форматируемых документов являются «Платежные поручения», «Прайс-листы», «Декларации о доходах», «Счета» и т.д. Основной структурной единицей форматируемого документа является поле документа. Каждое поле описывается в двух аспектах: визуально, в частности геометрически, и содержательно. С изобразительной точки зрения каждое поле должно быть явно обособлено: пустыми промежутками, разделительными линиями, оригинальным типом шрифта, уровнем фона, цветом и т.д. Содержательная часть характеризуется назначением поля, словарным и алфавитным составом, а также некоторыми законами построения текста, например, в поле почтового адреса должны быть сведения о городе, улице, доме и проч. Геометрические и содержательные характеристики полей могут быть как абсолютно независимыми, так и взаимосвязанными. Например, в приходном ордере рядом с полями «количество» и «цена» находится поле «сумма». Документы, которые подлежат сканированию, могут быть объединены в группы по нескольким признакам. По способу нанесения информации можно выделить документы, в которых ис-
пользуются метки, печатный или рукописный текст. Так, например, Избирательные бюллетени используют меточный способ, в го время как Прайс-листы - печатный, а первичные бухгалтерские документы - в основном рукописные. По геометрической вариантности полей различают документы, в которых расположение всех полей и записей строго фиксировано относительно опорных элементов: рамок, линий, постоянных напечатанных записей, специальных маркеров. Все специально подготовленные для машинной обработки документы обладают этим качеством. Другим типом являются документы, которые имеют произвольное расположение полей. Кроме того, можно разделять документы по наличию явных разделителей полей, которые часто присутствуют в таблицах, бухгалтерских документах и в платежных поручениях, или их отсутствию. 2. Получение изображения документа включает в себя выполнение таких операций, как сканирование; контроль качества отсканированных изображений и возможное повторное сканирование. Сканирование - это очень ответственная операция, и, следовательно, к выбору конкретной модели сканера необходимо подходить достаточно ответственно. При выборе следует учитывать следующие факторы: размеры документов, их состояние, является ли документ односторонним или двухсторонним, производительность сканеров, необходимое разрешение изображения, надежность получаемых изображений и др. В настоящее время на рынке технических средств предлагается достаточно большое количество различных моделей сканеров, которые можно классифицировать по производительности на следующие виды: персональные - низкоскоростные (20-40 строк/мин, например Fujitsu Scan Partner 10, HP ScanJet и др.); настольные офисные - среднескоростные (40-60 строк/мин или 80-120 изображений в минуту, например ВапсТес 2610 Bell&Howell6338, Fujitsu3099, Kodak ImageLink 500 и др.); высокопроизводительные потоковые (90-185 страниц/мин или 180-370 изображений в минуту, например ВапсТес S-series, Photomatrix 5000, Kodak ImageLink 900 и др.). По качеству сканирования, зависящего от разрешающей способности, их можно разделить на следующие группы: | 2-2639 177
с низкой разрешающей способностью (200-400 точек на дюйм); со средней разрешающей способностью (600-800 точею дюйм); с высокой разрешающей способностью (1600-2800 точек; дюйм); специального назначения. Для ввода ветхих документов применяют сканеры специального назначения с вакуумным прижимом документов, которые предъявляют весьма низкие требования к документу и обрабатывают его в щадящем режиме. Такие сканеры позволяют сканировать не полностью раскрытые книги и документы плохого! качества. Скорость ввода у таких устройств 0,25-3 страницы в минуту. Контроль качества отсканированных изображений необходим для того, чтобы все нужные документы были отсканированы и легко читаемы (не должно быть пропущенных страниц, некачественных изображений и т.д.). Для повышения эффективности и надежности системы следует иметь возможность выборочной проверки качества отсканированных изображений, а при сканировании многостраничных документов - возможность отслеживать порядок сканируемых страниц. Повторное сканирование проводится в случае неудовлетворительного качества изображения или из-за проблем, связанных с неправильным порядком страниц в документе. 3. Распознавание и ввод данных, содержащихся в документе, в информационную базу предполагают выполнение следующих основных операций: предварительной обработки изображений; нахождения полей (сегментация документа и чтение текста); проверки распознанной информации; • ввода данных в информационную базу. Предварительная обработка изображения документов использует следующие специальные функции: очищение изображения применяется для снятия с изображений отдельных элементов (например, точки, пятна); снятие фона и выделений (например, с ценных бумаг); выравнивание изображения для последующей его обработки с целью улучшения качества распознавания, чтобы документ показать в строго вертикальном положении в процедуре распознавания без перекосов;
снятие элементов форм (для того чтобы эффективно обрабатывать форму, необходимо удалять с изображения элементы формы: линии, разграфки, таблицы и т.д.); определение идентификатора форм (так как приходится вводить в систему самые разнообразные формы, отличные как по содержанию, так и по структуре; для того чтобы система могла работать со множеством форм, она должна определять, какая форма поступила на обработку, и загружать соответственно заранее настроенное и подготовленное описание формы); восстановление букв и символов, если они оказываются пересеченными элементами формы, например линией (для последующего распознавания символа необходимо удалить линию * таким образом, чтобы буква не пострадала). Кроме того, к предварительной обработке изображения относятся следующие функции, повышающие надежность распознавания: вращение изображения на произвольный угол; масштабирование изображения; регулирование уровня серого цвета; компрессия и декомпрессия изображения. Процессы нахождения полей (сегментация документа) и чтения текста могут быть выполнены последовательно и независимо, если поля полностью определены своими визуальными характеристиками. Такая ситуация характерна для машиночитаемых форм и документов с явными разделителями полей в виде линий или больших промежутков. В документах, не имеющих строго определенного положения полей и явных разделителей между ними, нет принципиально иного способа, как прочитать текст и по его содержанию скорректировать результаты предварительной сегментации. В машиночитаемых формах задача в основном сводится к нахождению опорных элементов и вычислению относительно них положения информативных полей. Документы, не имеющие строго заданной геометрии, но тем не менее использующие явно заданные разделители, обрабатываются достаточно надежно, например таблицы с разделителями в виде горизонтальных и вертикальных прямых. Наиболее сложная ситуация возникает при работе с гибкими формами документов. Термин «гибкая» означает, что известны 12* 179
состав полей, их примерное расположение, некоторые особенности по строению полей, но отсутствует полная и точная ориентация по их расположению. Как правило, задачи обработки разных форм документов, таких, как платежные документы, налоговые декларации и другие, решаются индивидуально путем программирования с использованием общих приемов. Распознавание документа, анализ содержания документа и извлечение данных осуществляются в настоящее время с помощью следующих систем распознавания текстов, отличающихся по стоимости, качеству и скорости работы: OCR (Optical Character Recognition) - технология оптического распознавания печатных символов, т.е. перевода сканированного изображения печатных символов в их текстовое представление; ICR (Intelligent Character Recognition) - распознавание раздельных печатных символов, написанных от руки; OMR (Optical Mark Recognition) - распознавание отметок (обычно перечеркнутые крест-накрест либо галочками квадраты или круги);
стилизованные цифры - распознавание рукописных цифр, написанных от руки по шаблону, как на почтовых конвертах. Существует несколько подходов к реализации технологий ввода рукописных символов. Распознавание on-line осуществляется в тот момент, когда человек пишет специальным пером на сенсорном экране, воспринимающем дополнительную информацию о траектории движения руки, наклоне пера, силе нажима и т.д. Применяется в основном в персональных электронных записных книжках типа 3Com PalmPilot для рукописного ввода числовых и символьных данных. Распознавание off-line - распознавание произвольного рукописного текста, введенного в компьютер через сканер. Распознавание рукописных символов является подмножеством технологии распознавания off-line. Применяется, как правило, для ввода стандартных форм. Очевидно, что распознавание рукописного текста значительно сложнее, чем печатного. Если в последнем случае мы имеем дело с ограниченным числом вариаций изображений шрифтов (шаблонов), то в рукописном варианте число шаблонов неизмеримо больше. Для OCR-систем в основном используются три технологии: матричная (Matrix-based); описательная (основана на описании правил построения символов); • нейронная (основана на использовании нейронных сетей). Проверка распознанных данных является следующей операцией, реализуемой системой ввода. Системы автоматического распознавания обычно вместе с результатом возвращают так называемую «степень уверенности». Для повышения надежности данных после распознавания применяются определенные пользователем автоматизированные методы проверки данных (например, можно проверить, имеется ли распознанная информация в базе данных, и если нет, то пометить поле как некорректное). Если данные после распознавания помечены как некорректные, то они автоматически направляются на ручное редактирование. Во время редактирования оператор видит реальное изображение нераспознанного поля и имеет возможность откорректировать его. После ввода оператором новых данных снова применяются правила проверки данных, т.е. на всех этапах ввода, как автоматического, так и ручного, осуществляется проверка данных в соответствии с правилами, определенными пользователем. Большие требования в данном случае предъявляются к методам проверки вводимых данных. Для повышения надежнос-I и данных используются дополнительные механизмы, такие, как применение словарей и таблиц, определяемых пользователем. Как правило, системы включают специальные встроенные средства для определения специальных процедур проверки для каждого поля документа. Ввод данных, содержащихся в документе, в информационную базу является заключительной операцией. При этом может быть сохранено изображение документа. В отличие от обычной системы распознавания (OCR) система ввода стандартных форм использует формальное описание исходной формы документа или бланка. Это позволяет автоматически помещать распознанную информацию в поля базы данных без участия оператора. Строгое соблюдение стандарта внешнего вида формы существенно повышает точность распознавания полей документа. Основной фактор при оценке эффективности систем распознавания заключается в стоимости исправления ошибок при распознавании, а не в точности и скорости системы. В некоторых случаях затраты на исправление ошибок при распознавании могут перекрыть все плюсы автоматизации и сделать ручной ввод по изображению более эффективным. При разработке и использовании такой системы проектировщику требуется выполнить также большой объем работ по интеграции этой системы ввода в действующую или разрабатываемую информационную систему. На производительность системы очень большое влияние оказывают используемая технология ввода, ее настройка на текущую задачу и вид документов. Здесь нужно учитывать состав оборудования, программное обеспечение и совместимость формата распознанной информации с уже существующими системами. Существует множество компаний, которые предлагают решения или компоненты систем обработки форм. Решение о внедрении системы обработки форм, а также выбор того или иного приложения должны производиться с учетом в первую очередь следующих требований: тип обрабатываемых документов и вид содержащихся в них данных; точность распознавания; наличие эффективной системы редактирования; настраиваемость системы на требования конкретного заказчика и способность изменяться согласно меняющимся внешним условиям без программирования; наличие поддержки сканеров различных типов, а также разного рода плат обработки изображений документов; наличие редактора форм, настраивающего систему на новые формы или изменения старой формы, на которую система была предварительно ориентирована; наличие редактора схем обработки документов, открытого интерфейса подключения различных модулей распознавания (в зависимости от типа формы можно для повышения качества распознавания подключать тот или иной модуль, который наиболее подходит для данного типа формы); наличие редактора схем экспорта в базу данных (данные, которые извлекаются при обработке формы, должны быть переданы в базу данных для хранения или в другие бизнес-приложения для обработки). Рассмотрим в качестве примера систему Cognitive Forms компании Cognitive Technologies. Cognitive Forms - российская система промышленного (иногда говорят поточного) ввода стандартных форм документов, которая работает под управлением операционных систем Windows 95/NT и MacOS. Система принадлежит к классу OCR/ICR/OMR и позволяет вводить в базы данных и информационные системы формы с печатным, рукописным заполнением и отметками (checkbox). Cognitive Forms предназначена для автоматизированного ввода в информационные системы и базы данных произвольных, одно- и многостраничных форм документов, соответствующих определенным требованиям к оформлению и заполнению и подготовленных на лазерных, струйных и матричных принтерах или на стандартных бланках с использованием пишущих машинок. Эта система позволяет осуществлять распределенную поточную обработку (сканирование, распознавание, редактирование и контроль) в сети с производительностью распознавания до 14 ООО страниц формата А4 в смену на одном компьютере и осуществлением автоматического контроля результатов распознавания. Экспорт данных может осуществляться в базы данных, банковские системы типа операционный день и системы создания электронных архивов и автоматизации документооборота. Внедрение системы позволяет обеспечить ускорение ввода стандартных форм документов в 5-10 раз по сравнению с ручным вводом. Сканированные образы могут быть сохранены в электронном архиве банка для ведения истории делопроизводства организации. Cognitive Forms состоит из трех основных модулей: Cognitive FormDesigner отвечает за проектирование описания формы документа для программ распознавания и редактирования. Cognitive FormReader обеспечивает автоматическое распознавание потока стандартных форм, поступающих со сканера. В автоматическом режиме осуществляет поточное распознавание форм по заданному описанию и контекстную проверку результатов. Cognitive FormEditor предназначен для операторского контроля распознанных форм и сохранения информации из введенных форм в записи базы данных и позволяет оператору визуально контролировать и редактировать распознанные поля форм. Cognitive Forms дает возможность осуществлять распределенную в рамках локальной сети, обработку вводимых форм и добиться эффективного доступа к данным в режиме реального врелени. Например, на Pentium И-233 время распознавания системой Cognitive Forms одного бланка составляет около 2 с. Для промышленного ввода применяются высокопроизводительные сканеры: Kodak, Bell+Howell, BancTec, Fujitsu и другие, а также сетевые устройства (Hewlett-Packard). Производительность некоторых моделей достигает сотен страниц в минуту. Технология использования системы сводится к выполнению четырех шагов. Вначале сотрудники Cognitive Technologies или заказчик собственными силами создают описание формы (файл с расширением *.frm) или нескольких форм документов в программе Cognitive FormDesigner. Посредством любого сканера бумажные экземпляры вводятся в компьютер и сохраняются в виде графических изображений (*.tif). Для распознавания стандартных форм, удовлетворяющих требованиям Cognitive Technologies к оформлению, используется программа Cognitive FormReader. После распознавания оператор может произвести проверку, откорректировать данные и сохранить их в формате необходимой базы данных. Для этого в программе FormEditor оператор сравнивает изображение формы и поля базы данных. Он редактирует значения полей, глядя на экран компьютера и не тратя времени на работу с бумажным оригиналом. Система направляет оператора, не давая ему возможности ошибиться в формате данных, регистре, типе, диапазоне значений и т.д., что существенно облегчает ввод большого объема информации в используемые базы данных. Система Cognitive Forms была разработана для применения в банковской сфере для печати и ввода новых форм платежных поручений. Эффективность применения системы ввода бумажных документов в ЭИС основана в первую очередь на значительном сокращении участия человека во вводе данных. Как следствие, можно наблюдать уменьшение времени ввода документов и количества ошибок. Для организаций, обрабатывающих большие потоки форм (центральные налоговые и почтовые ведомства, статистические организации, центры авторизации по расчетам за кредитные карты), использование описанных технологий позволит решить проблемы эффективности обработки сотен тысяч и даже миллионов форм в сжатые сроки. Иопросы для самопроверки Каково содержание основных операций технологического процесса получения первичной информации? Каковы методы и средства выполнения операции съема первичной информации и ее контроля? Каковы методы и средства выполнения операций регистрации и сбора первичной информации и контроля правильности их выполнения? Каковы методы, технические и программные средства обеспечения передачи первичной информации в ЭИС? Какой перечень операций входит в состав технологической сети проектирования процессов получения и передачи первичной информации? Каков состав процедур ведения ИБ? Каковы требования, предъявляемые к процедуре загрузки? Каков состав основных операций, включаемых в процедуру загрузки? Каково содержание операции «Прием, контроль и регистрация первичной информации» и от какого фактора оно зависит? Перечислите методы ввода первичной информации в ЭВМ и методы контроля вводимой информации. Перечислите особенности подготовки первичных данных, влияющих на содержание операций процедуры загрузки. Какой состав методов семантического и синтаксического контроля первичной информации, используемых при загрузке данных? Каков состав операций проектирования процедуры загрузки данных в ИБ? Какие средства частичной автоматизации проектирования процедуры загрузки вы знаете и какие факторы влияют на их выбор? В чем особенность и каков состав операций, выполняемых при вводе информации с бумажных носителей? К |
| Оглавление| |
- Акмеология
- Анатомия
- Аудит
- Банковское дело
- БЖД
- Бизнес
- Биология
- Бухгалтерский учет
- География
- Грамматика
- Делопроизводство
- Демография
- Естествознание
- Журналистика
- Иностранные языки
- Информатика
- История
- Коммуникация
- Конфликтология
- Криминалогия
- Культурология
- Лингвистика
- Литература
- Логика
- Маркетинг
- Медицина
- Менеджмент
- Метрология
- Педагогика
- Политология
- Право
- Промышленность
- Психология
- Реклама
- Религиоведение
- Социология
- Статистика
- Страхование
- Счетоводство
- Туризм
- Физика
- Филология
- Философия
- Финансы
- Химия
- Экология
- Экономика
- Эстетика
- Этика
Лучшие книги
Гражданский процесс: Вопросы и ответы
ЗАПАДНОЕВРОПЕЙСКОЕ ИСКУССТВО от ДЖОТТО до РЕМБРАНДТА
Коммуникации стратегического маркетинга
Консультации по английской грамматике: В помощь учителю иностранного языка.
Международные экономические отношения