Название: Организация работы с документами - Шмелев А.Г. Жанр: Менеджмент Рейтинг: Просмотров: 802 |
Второй тип словарей представляют информационно-поисковые тезаурусы, которые содержат информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отношениях между словами. В некоторых системах АИ вместо словарей для нормализации слов используются алгоритмы, предназначенные для преобразования слов в различные грамматические формы. При этом исчезает необходимость заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе. Как уже отмечалось ранее, сложность формальной обработки текста на ЕЯ состоит прежде всего в том, что текст нельзя представить как простую совокупность слов, имеющих тот или иной смысл. Большая доля смысла текста содержится не в самих словах, а в отношениях между словами. Поэтому для более полного и точного распознавания смысла текста в развитых системах АИ помимо морфологического анализа осуществляется и автоматический синтаксический анализ текста. Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью установления синтаксических связей между членами предложения. В ходе синтаксического анализа используются результаты морфологического анализа. Основой для разработки методов синтаксического анализа систем АИявляются исследования в области математической лингвистики и опыт создания систем машинного перевода. Результаты синтаксического анализа текста обычно представляются в виде дерева отношений между словами с указанием их типов. Например, для русского языка различают до 50 типов отношений между словами. В начале 90-х гг. появились другие, альтернативные технологии автоматического индексирования текста. Например, технология «адаптивного распознавания образов», при которой каждая словоформа представляется в виде своего двоичного кода, который является ее «образом». При этом становится возможен так называемый нечеткий поиск, при котором можно игнорировать опечатки и искажения слов. Преимуществом этой технологии является значительное увеличение скорости индексирования и поиска информации, минимизация объема индекса. Недостатком -снижение полноты и точности поиска вследствие отсутствия семантического анализа текста, который особенно важен в случае русского языка. Для выбора из множества слов текста информативных ключевых слов в системах АИ применяются методы статистического анализа текста. Как показывают исследования, в ЕЯ наблюдается тенденция повторять старые слова, а не использовать новые, так что 70% словоупотреблений приходится на 20% слов. В основе статистических методов анализа текста лежит идея о возможности использования числовых параметров для оценки информативности лексических единиц, составляющих текст. Считается, что как очень редкие, так и очень часто встречаемые термины не могут использоваться в качестве информативных слов, а пик информативности приходится на слова со средней частотой встречаемости. При статистическом анализе текста рассчитывают различные количественные оценки. Например, число вхождений слова в документ; общее число вхождения слова в документы, относительная частота вхождения слова в документ Статистические методы удобны тем, что позволяют автоматически, посредством достаточно простых операций, получить сведения о данной лексической единице в документе или массиве документов. В тоже время использование только статистических методов при определении' информативности слов не всегда приводит к адекватным результатам. Например, удаление часто встречающихся терминов уменьшает полноту, а удаление редко встречающихся терминов снижает точность поиска. Поэтому статистические методы не могут в полной мере оценить информативность слов текста, а ручное индексирование по качеству всегда будет превосходить автоматическое. В современных информационно-поисковых системах часто предусмотрено и ручное и автоматическое индексирование.
20.6. Структуры информационно-поисковых массивов в ИПС
Центральной частью каждой ИПС является информационно-поисковый массив (ИПМ), который может быть организован различными способами. В ДИПС ИПМ подразделяется на две части: сами документы или их копии и ПОД с адресами - номерами документов в поисковом массиве. Поиск осуществляется по второй части ИПМ. В полнотекстовых базах данных поиск может осуществляться как по самому тексту документа (при такой организации поиск будет очень медленным), так и в специальных поисковых файлах, содержащих информацию о тексте документа (индексах). В ИПС используют две принципиальные схемы информационного массива — прямую и инверсную. При прямой организации каждому документу соответствует перечень слов, составляющих текст или поисковый образ документа. Например, логическая структура поискового файла при прямой организации для примера, приведенного в подразделе 20.4, будет выглядеть следующим образом (см. рис. 20.2). При этом отыскание нужных документов производится путем поочередного сравнения поисковых образов документов со словами, составляющими информационный запрос, т.е. реализуется принцип последовательного доступа к данным. Достоинства прямой схемы состоят в простоте организации и использования, например для включения нового документа в массив достаточно добавить новую запись в файл. Недостатком прямой организации поиска является необходимость последовательного просмотра ПОД всех документов, что ведет к большим затратам времени, поэтому в современных текстовых базах данных применяют инверсный способ.
|
| Оглавление| |
- Акмеология
- Анатомия
- Аудит
- Банковское дело
- БЖД
- Бизнес
- Биология
- Бухгалтерский учет
- География
- Грамматика
- Делопроизводство
- Демография
- Естествознание
- Журналистика
- Иностранные языки
- Информатика
- История
- Коммуникация
- Конфликтология
- Криминалогия
- Культурология
- Лингвистика
- Литература
- Логика
- Маркетинг
- Медицина
- Менеджмент
- Метрология
- Педагогика
- Политология
- Право
- Промышленность
- Психология
- Реклама
- Религиоведение
- Социология
- Статистика
- Страхование
- Счетоводство
- Туризм
- Физика
- Филология
- Философия
- Финансы
- Химия
- Экология
- Экономика
- Эстетика
- Этика
Лучшие книги
Гражданский процесс: Вопросы и ответы
ЗАПАДНОЕВРОПЕЙСКОЕ ИСКУССТВО от ДЖОТТО до РЕМБРАНДТА
Коммуникации стратегического маркетинга
Консультации по английской грамматике: В помощь учителю иностранного языка.
Международные экономические отношения