Название: Организация работы с документами - Шмелев А.Г. Жанр: Менеджмент Рейтинг: Просмотров: 798 |
52 AND S4 OR (S6 OR (S3 NOT S3)) будет выполняться в следующем порядке: 53 NOT S5 = {01,02,03,D4,D5,D6,D8,D9}-{D2,D5,D7,D9}= ={D1,03,04,06,08} S6OR(S3NOTS5)={D4}+{D1,D3,D4,D6,D8}={D1,D3,D4,D6,D8} S2 AND S4={D1,D7,D8}*{05,06,07,08,D9}={07,08} {D7,D8} + {D1,D3,D4,D6,D8} = {D1,D3,D4,D6,D7,D8} При формировании запросов в полнотекстовых базах данных желательно учитывать не только логическую взаимосвязь терминов, но и другие аспекты естественного языка. С этой целью используют различные средства. Например, усечение терминов, нормализацию терминов, операторы контекстного поиска, запрос по образцу. Обычно усекают окончания слов для того, чтобы падеж или множественное число не влияли на выбор слова. Как правило, для представления несущественного символа используют знак «?», а для представления ряда несущественных символов используют знак «*». Например, выражение «налог?» может соответствовать словам «налоги», «налогу», «налога», «налог», а выражение «налог*» может соответствовать словам «налогам», «налогообложение», «налоговая» и т.п. В ИПС Евфрат для осуществления этой операции введен оператор «по началу». В некоторых системах эта операция производится автоматически. Автоматическая нормализация терминов состоит в приведении всех форм каждого слова к одной стандартной форме, например, существительного — к именительному падежу единственного числа. Операторы контекстного поиска позволяют учитыватьконтекст и осуществлять поиск в заданной комбинации слов. Эти операторы можно трактовать как функции «близости», которые являются развитием функции «И». Формы представления операторов контекстного поиска существенно различаются, причем во многих ИПС их нет вообще. В ИПС Агама ограничение контекста при поиске (в пределах одного предложения, трех предложений, всего текста) задается в меню настройки запроса. В ИПС Cherchez в качестве операторов контекстного поиска введены функции adj, near, same, with. Они определяют нахождение терминов соответственно: «в одном абзаце», «в одном предложении», «рядом друг с другом», «рядом друг за другом в указанном порядке». Может быть предложен следующий вариант операторов контекстного поиска. Оператор W обозначает слова, стоящие рядом; оператор nW — слова, разделенные не более п символами, стоящие в заданном порядке; оператор nN — слова, разделенные не более п символами, стоящие в произвольном порядке; оператор S — слава, стоящие в одном параграфе; оператор TITLE указывает, что слово должно находиться в заголовке. В поисковых системах сети Internet в качестве инструмента оператора контекстного поиска чаще всего используется оператор NEAR. Некоторые механизмы поиска позволяют выделить в выданном наборе документов особо полезный документ и задать операцию типа «Найти аналогичную информацию», «Найти подобные». При этом поиск выполняется на основе всех содержащихся в данном документе ключевых слов. Подобный тип поиска, который называют QBE (запрос по образцу), может быть очень эффективным, поскольку позволяет задействовать термины, которые были бы неочевидны для пользователя. Запрос типа QBE используется в качестве механизма поиска документальной информации в некоторых поисковых системах сети Internet (Excite, Open Text, WebGrawler). При всем многообразии средств формирования запросов одним из главных требований к любой современной компьютерной системе является наличие удобного и понятного интерфейса, обеспечивающего диалог с пользователем. Во многих современных ИПС существует возможность формулировки запросов на естественном языке. Проблема интерфейса на естественном языке достаточно успешно решается во многих системах, в которых базовым языком общения является английский, например запрос на обычном английском языке обрабатывают следующие поисковые системы Internet: AitaVista, Excite, HotBot, Infoseek Ultra, Lycos, WebGrawler. Русский язык в этом аспекте гораздо сложнее английского, так как менее структурирован, имеет более сложную морфологию и синтаксис. Поэтому в русскоязычных системах пока преобладают традиционные средства запросов.
20.5. Автоматическое индексирование документальной информации
Индексирование документа это процедура отображения текста документа в определенную форму, предназначенную для автоматической обработки (индекс документа). Различают ручное и автоматическое индексирование. При ручном индексировании этот процесс осуществляет информационный работник. На основе анализа содержания документа специалист отображает текст документа в набор ключевых слов или дескрипторов. Преимущество ручного индексирования состоит в его качестве, недостатком является низкая производительность и, следовательно, высокая стоимость. Кроме того, при ручном индексировании вполне возможна ситуация, когда один и тот же документ, обработанный различными специалистами, может получить различные индексы. При автоматическом индексировании (АИ) индексирование осуществляется компьютерной системой. Формально текст документа представляет собой множество символов, разделенных пробелами. Эти отрезки текста называют словоформами. Основная задача автоматического индексирования состоит в распознавании в словоформе соответствующего словарного слова. С этой целью используют автоматический морфологический анализ текста. Морфологический анализ текста — анализ структур словоформ, рассматриваемых изолированно с целью определения принадлежности словоформы слову. Задачами морфологического анализа текста являются: выделение из текста словоформ; распознавание слов или их сочетаний; нормализация словоформ (приведение слова к словарному виду); распознавание грамматических признаков словоформ (часть речи, падеж и т.п.). Грамматические признаки, приписываемые в результате морфологического анализа, могут использоваться на дальнейших этапах обработки исходного текста. Для анализа текста в системах АИ используются различные автоматические словари, которые можно разделит на два типа. Первый тип представлен словарями, используемыми для распознавания словоформ и их нормализации. Например, словарь словоформ, словарь основ слов, словарь окончаний, словарь словосочетаний. Словарь словосочетаний содержит устойчивые последовательности слов. Считается, что и развитом языке насчитывается десятки миллионов понятий, а слов - около миллиона. Поэтому большая часть понятий выражена комбинациями слов. |
| Оглавление| |
- Акмеология
- Анатомия
- Аудит
- Банковское дело
- БЖД
- Бизнес
- Биология
- Бухгалтерский учет
- География
- Грамматика
- Делопроизводство
- Демография
- Естествознание
- Журналистика
- Иностранные языки
- Информатика
- История
- Коммуникация
- Конфликтология
- Криминалогия
- Культурология
- Лингвистика
- Литература
- Логика
- Маркетинг
- Медицина
- Менеджмент
- Метрология
- Педагогика
- Политология
- Право
- Промышленность
- Психология
- Реклама
- Религиоведение
- Социология
- Статистика
- Страхование
- Счетоводство
- Туризм
- Физика
- Филология
- Философия
- Финансы
- Химия
- Экология
- Экономика
- Эстетика
- Этика
Лучшие книги
Гражданский процесс: Вопросы и ответы
ЗАПАДНОЕВРОПЕЙСКОЕ ИСКУССТВО от ДЖОТТО до РЕМБРАНДТА
Коммуникации стратегического маркетинга
Консультации по английской грамматике: В помощь учителю иностранного языка.
Международные экономические отношения