Координатне індексування

Координатне індексування - це вид індексування, при якому смисловий зміст документа або запиту багатоаспектно виражається безліччю ключових слів або дескрипторів. У такий спосіб відбувається згортання інформації, що знаходиться в документі, і перетворення її на ІПМ у вигляді індексу, рубрики, коду (класифікаційною мовою) або дескриптора, ключового слова ( дескрипторною мовою)[3].

Поняття індексування та інформаційно-пошукової мови

Індексування – це процес вираження змісту документа або запиту на інформаційно-пошуковій мові. Він являє собою не опис документа як фізичного об’єкта (створення бібліографічного опису, визначення виду, носія інформації тощо), а є його інтелектуальним аналізом, тобто розкриває його зміст за допомогою систем класифікації, тезаурусів, словників предметних рубрик, авторитетних файлів. Суть індексування полягає в тому, щоб передати зміст. А в разі необхідності й деякі формальні ознаки у вигляді коротких закодованих повідомлень, так званих пошукових образів документів (ПОД). Наявність ПОД забезпечує подальший пошук документів завдяки зіставленню ПОД із пошуковим приписом. Це завдання присвоєння документам (їх копіям, графічним образам, електронним файлам документів), що дозволяють швидко класифікувати, сортувати та шукати інформацію в архіві, що міститься в документах, в архіві без перегляду самого документа. Найпростішою формою індексування є картотека у звичайній бібліотеці, яка дозволяє знайти потрібну книгу без фізичного доступу до самого носія [1]. Процес індексування включає наступні правила:

повно і точно передавати зміст документа;
ключові слова повинні відображати зміст по тексту, розділам, передмові, анотації документа.

Правила індексування добре погоджені між собою і забезпечують тісний взаємозв'язок багатьох технологічних і лінгвістичних рішень, прийнятих при побудові й використанні основних елементів системи в ряду комплектування – програмне забезпечення– індексування інформації – процес проведення пошуку. Якість індексування визначається глибиною детальністю. Глибина індексування характеризує повноту розкриття змісту документа в привласненому йому пошуковому виді. Глибину індексування можна приблизно оцінити числом слів ІПМ, включених індикатором до пошукового образу. Детальне індексування характеризує точне відображення змісту документа в пошуковому виді. Точність відображення визначається смисловою близькістю ключових слів, включених до уявної анотації, слів ІПН, що утворили пошуковий образ. Індексування здійснюється на основі певних інформаційно-пошукових мов[2].

Інформаційно-пошукова мова (ІПМ) — це спеціалізована штучна мова, призначена для передачі змісту і формальних ознак документів, а також інформаційних запитів пошуку потрібних документів. Як будь-яка мова, ІПМ має абетку (система графічних знаків для запису слів і виразів), лексику (сукупність слів, якими користується мова), граматику (засоби, правила, якими користуються для побудови і поєднання слів). Індексуючи документ, здійснюють переклад відомостей про нього з природної мови на штучну — інформаційно-пошукову. Труднощі використання природної мови, як ІПМ, обумовлені ще тим, що в ІПС використовуються як вхідні документи не повні тексти, а реферати, анотації, бібліографічні описи, котрі є результатом згортання змісту документів. Вимоги до ІПМ:

Однозначність (тобто, кожен запис ІПМ повинен мати тільки одне змістовне значення, пояснення, однакову форму запису засобами ІПМ);
Достатня семантична сила (тобто, здатність відображати з необхідною повнотою та точністю смисловий зміст документів та запитів визначеної предметної області);*Відкритість (тобто, забезпечення можливості корегувати мову). В залежності від того, який принцип індексування є провідним розрізняють предметизовані, класифікаційні та дескрипторні нформаційно-пошукові мови [7].

Поняття координатного індексування та дескрипторної мови

Одним з основних видів індексування є координатне- це вид індексування, за якому смисловий зміст документа або запроса багатоаспектно виражається безліччю ключових слів або дескрипторів. Інформаційно- пошукова мова, призначена для координатного індексування документів ( або їх частин) та запитів, за допомогою ключових слів або дескрипторів, назвається дескрипторною мовою. Дескрипторні мови почали створюватися у США у 50-ті рр. Термін «дескриптор» був уведен у використання математиком Кельвином Муерсом. Під дескриптором він розумів « словесний символ, застосовує мий для позначення ідеї або поняття». Ці поняття він називав дескрипторами та вважав, що для того, щоб з’ясувати ключовий зміст документа та перевести його на дескрипторну мову необхідно зробити інтелектуальний аналіз тексту. Індексування має бути здійснено з допомогою спеціальних словників [4]. У сучасному розумінні дескриптор – лексична одиниця, виражена інформативним словом або кодом і є ім'ям класу синонімічних або близьких за змістом ключових слів. Дескрипторна мова служить для координатного, або як його ще називають, «вільного» індексування документів та запитів за допомогою дескрипторів або ключових слів. В основі дескрипторних ІПМ лежить алфавітний перелік лексичних одиниць. Вони дозволяють досить детально та багатоаспектно розкривати зміст документів. Дескриптори та ключові слова легко доповнюються, поновлюються, оскільки в алфавітний перелік можна включити будь-яку лексичну одиницю, необхідну для індексування. Крім того в автоматизовану технологію широко ввійшли до вжитку мова бібліографічного опису, об’єктноознакові та фактографічні пошукові мови [6].

Історія виникнення координатного індексування

Американський логік Мортимер Таубе за допомогою термінів математичної логіки визначив координатне індексування як « метод аналізу інформаційного змісту документів таким чином, щоб їх пошук здійснювався шляхом помноження , складання та доповнення, тобто логічних операцій, які здійснюються над кодами, увведенними у словник. Термін «координація» відноситься не до геометричних осей координат, а до логічної координації». Ідею координатного індексування він здійснив у 1952 році, розробив систему «Унітерм». У ролі індексів в його системі виступали окремі слова, вибрані із тексту документа. Згідно з теорією Таубе, зміст будь-якого документа може бути описано у вигляді набору «ключових слів» (унітермів).

Унітерми- одиничні терміни, які означають найбільш спільні та вихідні (уніфіковані) поняття даної сфери знань. На кожний такий термін заводиться окрема картка з номером документа (унітермкарта). Унітермкарти розташовувались у алфавітному порядку на спеціальній картці. Вони повинні були створювати базову лексику певної науки, тобто комбінацію одиниць, які виразили би будь-які поняття даної науки. За розробки системи виконувалися наступні вимоги:

використання одиничних слів, а не словосполучень;
використання понять однакової спільності, поєднуючи унітерми даної предметної області.

Першу вимогу приходилось порушувати через необхідність використання в пошукових мовах стійкі словосполучення, синонімію, полісемію, омонімію ключових слів. Крім того, практика вимагала враховувати також асоціативний зв’язок (перетин) унітермів та їх родинні відношення, що протиречить другій вимозі до унітермів. Таким чином, вимоги до цих властивостей унітермів робили меншими можливості цієї мови, і вона отримала лише короткочасне використання та розповсюдження. Якість системи «Унітерм» виявилось низьким, так як використання природної мови для опису змісту документа та запитів - призводить до великої втрати інформації. Природна мова дозволяє виразити одну й ту ж думку за допомогою різних слів. Ідентичні за змістом теми, мають мати спільні ключові слова, але Таубе не передбачав розробку тезауруса (словника), що стало причиною великої втрати інформації. У зв’язку з цим система «Унітерм» у наш час практично не використовується. Необхідність обліку синонімів, омонімів і деяких спавши зей ієрархічного типу вимагала створення формалізованою мови ключових слів інформаційно-пошукової системи і спеціальних словників — тезаурусів. Поняття тезаурус має безліч визначень. Під тезаурусом розуміється список особливих лексичних одиниць, які зазвичай представляються в ні де слів або словосполучень. Уперше термін "тезаурус" в нинішньому його розумінні, тобто у відношенні з обчислювальними машинами, вжила А. Мастерман в 1954 р. Вона вважала, що тезаурус можна вважати загальним засобом для опису семантичних структур природної мови та запропонувала використовувати його при машинному перекладі. Сьогодні існує ідея моделювання термінологічним системи за допомогою тезауруса, оскільки саме властивості термінів і терміносистем (системність, стійкість і регулярність, установка на об'єктивність опису тощо) надає можливість моделювати терміносистеми за допомогою тезаурусів. Таким чином, обґрунтовано, що тезауруси - ключові поняття для формалізованого представлення знань. Багато учених(філософи, соціологи і психологи та ін.) вважають мову скарбницею людського досвіду, тому природна мова є одним з головних об'єктів вивчення фахівців з інформатики і суміжних дисциплін [7].

Класифікація та використання координатного індексування

В залежності від типа інформаційно-пошукової мови, розрізняють два режима індексування:

докоординатне (класифікаційне)
пост координатне.

У докоординатному індексуванні зв’язки між термінми індексування встановлюють заздалегідь – за розробкою відповідної інформаційно- пошукової мови. До до координатних мов можна віднести наступне:

перелічені класифікації;
ієрархічні класифікації;
предметні класифікації;
фасетні класифікації.

У посткоординатному індексуванні зв’язки (координація) між термінами індексування встановлюються під час індексування документів, бо під час їх пошуку. До пост координатних мов відносять:

дескрипторні мови;
посткоординовані фасетні класифікації [7].

У практиці бібліотек використовується два методи координатного індексування документів:

вільне індексування, яке передбачає заміну, при необхідності, інформативних слів тексту відповідно до рекомендацій спеціального словника;
контрольоване індексування - інформативні слова тексту заміняються дескрипторами, приведеними у визначеному інформаційно-пошуковому тезаурусі або дескрипторному словнику.

Вільне індексування по зручності використання і доступності перевершує індексування з контролем лексики. Але автоматизація процесів обробки, пошуку документів. більше орієнтована на роботу зі строго формалізованою інформацією, де всі пошукові ознаки і поняття представляються в однаковій формі. Об'єктами індексування в бібліотеках можуть виступати різні види документів. Об'єкт індексування встановлюється на етапі складання бібліографічного запису(БЗ) документу, що дозволяє його ідентифікувати, розкрити його склад і зміст з метою його бібліографічного пошуку. Відповідно до вимог стандартів у методику координатного індексування входять наступні взаємозалежні етапи:

Аналіз і визначення змісту документа як об'єкта індексування.
Виявлення і добір смислових понять природною мовою.
Вибір термінів індексування для позначення смислових понять з урахуванням специфіки бібліотеки, інформаційних потреб читачів.
Формування пошукового образу документа [2].

Різновидом координатного індексування є пермутаційне, або циклічне індексування, яке засноване на використанні ключових слів заголовка тексту і полягає в тому, що всі ключові слова заголовка разом з контекстом по черзі виводяться в пошукову колонку. У цій колонці ключові слова даються в алфавітному порядку. На основі координатного індексування створені і складніші інформаційно-пошукові мови. Основна перевага координатного індексування перед класифікаційним полягає в тому, що координатне індексування не створює жодної скрути при пошуку текстів по будь-якому, заздалегідь не передбаченому поєднанню ознак. Особливим типом індексування слід рахувати розкриття смислового вмісту тексту бібліографію, що приводиться разом з ним, — імена авторів і бібліографічні описи їх робіт, на які посилається автор даного тексту. Таке індексування служить основою для складання покажчиків цитованої літератури — вельми ефективного інструменту не лише для пошуку документів, але і для вирішення інших завдань. Отже, координатне індексування популярне у різних сферах діяльності, наприклад у бібліотечній справі, в багатьох наукових публікаціях в журналах даються переліки ключових слів, у контекстній рекламі та ін [9].

Джерела

Власова Г. В. Індексування як процес аналітико-синтетичної переробки Інформації [Текст] : навч.посіб. / Г. В. Власова. — К., 2006. — С. 172.
Сукиасян Э. Р. Школа индексирования [Текст]: Практ. пособие. / Э. Р. Сукиасян. — М., 2005. — 143 с.
Сукиасян Э. Р. Координатное индексирование : выбор терминов индексирования и формирование поискового образа документа[Текст] / Э. Р. Сукиасян // Библиотека. — 2005. — № 3. — С. 42.
Кушнаренко Н. М., Удалова В. А. Наукова обробка документів [Текст] : Підручник. — 4-те вид. перероб. і доп. — К. : Знання, 2006. —334с.
Кушнаренко Н. М Наукова обробка документів [Текст] : Підручник / Наталя Миколаївна Кушнаренко, Валерія Костянтинівна Удалова. — 4-те вид., перероб. і доп. — К.: Знання, 2006. — 334 с. — ISBN 966-346-234-5.
Кушнаренко Н. Н. Документоведение [Текст] : Учебник / Наталия Николаевна Кушнаренко. — 7-е изд., стер. — К.: Знання, 2006. — 459 с.
Зупарова Л. Б Аналитико-синтетическая переработка информации [Текст] / Л. Б. Зупарова, Т. А. Зайцева; под ред. Ю. Н. Столярова. — М.:ФАИР, 2007. — 400 с. — ISBN 978-5-81831248-4.
Предметизація документів [Електронний ресурс]. — Електрон. дані. — World Wide Web. — URL :http://www.chl.kiev.ua/default.aspx?id=5782
Автоматизовані інформаційно-пошукові мови [Електронний ресурс]. — Електронні дані. — World Wide Web. — URL :http://ubooks.com.ua/books/00092/inx13.php

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.