Название: Организация работы с документами - Шмелев А.Г.

Жанр: Менеджмент

Рейтинг:

Просмотров: 802


В процессе построения тезауруса и выделения множества дес­крипторов происходит устранение синонимии, омонимии, полисе­мии ключевых слов, а также выявление парадигматических связей между дескрипторами.

В ЕЯ многие слова могут быть правильно истолкованы только с учетом контекста. В ИПЯ для правильной трактовки ключевых слов необходимы средства для исключения многозначности трактования слов.

Для устранения многозначности (омонимии и полисемии) клю­чевое слово, которое можно неоднозначно трактовать, снабжается пометой, в которой указывается в каком значении данное ключевое слово используется в ИПЯ.

Разработка тезауруса без использования компьютерных техноло­гий — достаточно длительный и трудоемкий процесс.

Большинство автоматизированных методов создания тезауруса основано на автоматическом подсчете частоты слов, содержащихся в документах, считающихся типичными для данной предметной обла­сти. Результаты такой обработки обычно представляются в виде ма­трицы «документ-термин», (см. рис. 20.1). Элемент матрицы на пе­ресечении строки и столбца, трактуется как вес слова в документе. На основе полученной матрицы вычисляются коэффициенты подо­бия между словами, определяемые в зависимости от частоты, с кото­рой слова совместно встречаются в анализируемых документах, и формируется структура тезауруса.

Документы

 

Частота слова в документе

 

 

 

1

 

2

 

3

 

4

 

5

 

6

 

7

 

D1

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D2

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D3

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

D4

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


Оцените книгу: 1 2 3 4 5