Тематичний (предметний) пошук

Тематичний (предметний) пошук

Тематичний (предметний) пошук. Основи.

У міжнародній практиці створення інформаційних систем, в тому числі - бібліотечних, пошук по темам і предметів виділяється в окремий вид, який, по суті, означає розумовий пошук або, точніше, пошук за змістом текстів. При цьому чіткого відмінності між поняттями «тема» і «предмет» пошуку не існує.

Завдання тематичного пошуку в електронних бібліотеках (ЕБ) відрізняється від такої в сфері створення електронних каталогів (ЕК) не настільки принципово, як багато хто, тим більше що пошук в ЕБ переважно заснований на тих же бібліографічних записах (БЗ) в ЕК або відповідних їм по змісту метаданих, структурованих іншими способами (наприклад, за допомогою мов розмітки текстів XML або HTML). Правда, іноді до бібліографічних даних додаються для пошуку деякі додаткові частини документа (наприклад, зміст).

Теоретичне пояснення того, що вільний пошук за ключовими словами (КС) в ЕК або за словами в повних електронних текстах документів не може забезпечити високі показники повноти, полягає в наступних незаперечних законах мовного спілкування:

Технологічно тематичний пошук в електронних бібліотеках (ЕБ) реалізується:

  • за звичайними електронних каталогів ЕБ з використанням прийнятих в них коштів;
  • по метаданих, представленим не в формі записів ЕК (XML, HTML - розмітка);
  • по повних текстів документів з лінгвістичними процесорами, «базами знань» і без них;
  • частинами повних текстів (наприклад, змісту, рефератів, анотацій, найбільш інформативним розділах).

Повнота і точність пошуку інформації залежать від розробленості лінгвістичних засобів системи незалежно від способу його реалізації.

Непогані результати дають статистичні методи обробки текстів, використання оцінки значущості термінів в тексті шляхом ранжирування їх відповідно до деякими показниками "ваги". Однак у великих масивах повнотекстових даних перевірити якість цих коштів надзвичайно важко, доводиться покладатися на деякі імовірнісні оцінки результатів пошуку.

Для реалізації вимог до характеристик тематичного (предметного) пошуку використовуються різні інформаційно-пошукові мови (ІПМ) - штучні мови, спеціально розроблені з метою представлення інформації для машинної обробки і пошуку цієї інформації в АІС.

Зрозуміло, елементи даних для тематичного пошуку в автоматизованій інформаційній системі отримують свої мітки формату або мови розмітки тексту.

Схожі статті