Повнотекстовий пошук

При пошуці документів, повнотекстовий пошук відноситься до методів пошуку окремого документа або колекції в повнотекстовій базі даних. Повнотекстовий пошук відрізняється від пошуку на основі метаданих або по окремим частинам оригінального тексту, які представлені в базах даних (таких як заголовки, анотації, окремі розділи, або бібліографія).

У повнотекстовому пошуці, пошуковик аналізує всі слова в кожному збереженому документі, та намагається відповідати критеріям пошуку (наприклад, тексту визначеному користувачем). Методи повнотекстового пошуку стали поширеним в онлайн бібліографічних базах даних в 1990-х роках.[перевірити] Багато вебсайтів і додатків (таких як текстові процесори) забезпечують можливості повнотекстового пошуку. Деякі рушії веб-пошукових систем, таких як AltaVista, використовують методи повнотекстового пошуку, в той час як інші індексують тільки частини веб-сторінок, перевіряються їх системами індексації.[1]

Індексація

При роботі з невеликою кількістю документів, цілком можливо, при повнотекстовому пошуку перевірити вміст всіх документів для кожного запиту. Така стратегія називається «послідовним скануванням». Це приклад того, що роблять деякі інструменти, такі як команда grep, при пошуку.

Однак, коли кількість документів для пошуку потенційно велика, або кількість пошукових запитів для виконання є істотною, проблему повнотекстового пошуку часто розділяють на дві задачі: індексування і пошук. На етапі індексації відбувається сканування тексту усіх документів і складається список пошукових термінів (він часто називається показником, але більш правильно називати узгодженням). На етапі пошуку, при виконанні певного запиту, використовуєть тільки індекс, а не текст оригіналу.[2]

Індексатор робить запис в індексі для кожного терміна або слова в документі, і, можливо, занотовує його відносне положення в документі. Зазвичай індексатор буде ігнорувати стоп-слова (такі як «або» та «і»), які є загальними і недостатньо значущіми, щоб бути корисними при пошуку. Деякі індексатори також використовують мовні скорочення слів, які індексуються. Наприклад, слова «копав», «копала», і «копали» будуть занесені в індекс під єдиною концепцією слова «копати».

Посилання

  1. На практиці може бути важко визначити, як працює пошукова система. Алгоритми пошуку, які фактично використовуються службами вебпошуку, рідко повністю розкриваються, для запобігання підвищення штучної популярності у списках пошуку за допомогою пошукової оптимізації сайту.
  2. Capabilities of Full Text Search System. Архів оригіналу за 23 грудня 2010. Процитовано 19 вересня 2018.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.