Название: Организация работы с документами - Шмелев А.Г.

Жанр: Менеджмент

Рейтинг:

Просмотров: 802


Второй тип словарей представляют информационно-поисковые тезаурусы, которые содержат информацию об отношениях условной эквивалентности, отношениях подчинения и ассоциативных отно­шениях между словами.

В некоторых системах АИ вместо словарей для нормализации слов используются алгоритмы, предназначенные для преобразова­ния слов в различные грамматические формы. При этом исчезает необходимость заносить в словарь все возможные формы слов, уменьшается объем словарей, увеличивается эффективность поиска, так как в тексте могут быть найдены все грамматические формы слова, заданного в запросе.

Как уже отмечалось ранее, сложность формальной обработки текста на ЕЯ состоит прежде всего в том, что текст нельзя предста­вить как простую совокупность слов, имеющих тот или иной смысл. Большая доля смысла текста содержится не в самих словах, а в отно­шениях между словами. Поэтому для более полного и точного рас­познавания смысла текста в развитых системах АИ помимо морфо­логического анализа осуществляется и автоматический синтаксиче­ский анализ текста.

Синтаксический анализ текста представляет собой исследование структуры предложения текста с целью установления синтаксичес­ких связей между членами предложения. В ходе синтаксического анализа используются результаты морфологического анализа. Осно­вой для разработки методов синтаксического анализа систем АИявляются исследования в области математической лингвистики и опыт создания систем машинного перевода.

Результаты синтаксического анализа текста обычно представля­ются в виде дерева отношений между словами с указанием их типов. Например, для русского языка различают до 50 типов отношений между словами.

В начале 90-х гг. появились другие, альтернативные техноло­гии автоматического индексирования текста. Например, техноло­гия «адаптивного распознавания образов», при которой каждая словоформа представляется в виде своего двоичного кода, кото­рый является ее «образом». При этом становится возможен так называемый нечеткий поиск, при котором можно игнорировать опечатки и искажения слов. Преимуществом этой технологии яв­ляется значительное увеличение скорости индексирования и по­иска информации, минимизация объема индекса. Недостатком -снижение полноты и точности поиска вследствие отсутствия се­мантического анализа текста, который особенно важен в случае русского языка.

Для выбора из множества слов текста информативных ключевых слов в системах АИ применяются методы статистического анализа текста. Как показывают исследования, в ЕЯ наблюдается тенденция повторять старые слова, а не использовать новые, так что 70% сло­воупотреблений приходится на 20% слов.

В основе статистических методов анализа текста лежит идея о возможности использования числовых параметров для оценки ин­формативности лексических единиц, составляющих текст. Счита­ется, что как очень редкие, так и очень часто встречаемые терми­ны не могут использоваться в качестве информативных слов, а пик информативности приходится на слова со средней частотой встречаемости.

При статистическом анализе текста рассчитывают различные количественные оценки. Например, число вхождений слова в доку­мент; общее число вхождения слова в документы, относительная частота вхождения слова в документ

Статистические методы удобны тем, что позволяют автомати­чески, посредством достаточно простых операций, получить све­дения о данной лексической единице в документе или массиве документов. В тоже время использование только статистических методов при определении' информативности слов не всегда при­водит к адекватным результатам. Например, удаление часто встре­чающихся терминов уменьшает полноту, а удаление редко встре­чающихся терминов снижает точность поиска. Поэтому статисти­ческие методы не могут в полной мере оценить информативность слов текста, а ручное индексирование по качеству всегда будет превосходить автоматическое.

В современных информационно-поисковых системах часто пре­дусмотрено и ручное и автоматическое индексирование.

 

20.6. Структуры информационно-поисковых

           массивов в ИПС

 

Центральной частью каждой ИПС является информационно-поисковый массив (ИПМ), который может быть организован раз­личными способами. В ДИПС ИПМ подразделяется на две части: сами документы или их копии и ПОД с адресами - номерами доку­ментов в поисковом массиве. Поиск осуществляется по второй части ИПМ.

В полнотекстовых базах данных поиск может осуществляться как по самому тексту документа (при такой организации поиск будет очень медленным), так и в специальных поисковых файлах, содер­жащих информацию о тексте документа (индексах).

В ИПС используют две принципиальные схемы информацион­ного массива — прямую и инверсную.

При прямой организации каждому документу соответствует пе­речень слов, составляющих текст или поисковый образ документа. Например, логическая структура поискового файла при прямой ор­ганизации для примера, приведенного в подразделе 20.4, будет вы­глядеть следующим образом (см. рис. 20.2).

При этом отыскание нужных документов производится путем поочередного сравнения поисковых образов документов со словами, составляющими информационный запрос, т.е. реализуется принцип последовательного доступа к данным. Достоинства прямой схемы состоят в простоте организации и использования, например для включения нового документа в массив достаточно добавить новую запись в файл.

Недостатком прямой организации поиска является необходи­мость последовательного просмотра ПОД всех документов, что ведет к большим затратам времени, поэтому в современных текстовых базах данных применяют инверсный способ.

 

Адрес документа

 

Ключевые слова

 

D1

 

S2, S3

 

D2

 

S1, S3, S5

 

D3

 

S1, S3

 

D4

 

S3, S6

 

D5

 

S3, S4, S5

 

D6

 

S3, S4

 

D7

 

S1, S2, S4, S5

 

D8

 

S1, S3

 

D9

 

S2, S3, S4, S5

 


Оцените книгу: 1 2 3 4 5