Рейтинг (інформаційний пошук)

Рейтинг результатів запиту є однією з основних задач інформаційного пошуку (ІП), яка є науковою та інженерною дисципліною яка використовується пошуковими системами. Для заданого запиту q і колекції документів D, які відповідають запиту, задача полягає у присвоєнні рейтингу цим документів, тобто потрібно відсортувати, документи в D відповідно до певного критерію, так, щоб «найкращі» результати з'являться на початку списку результатів, який відображається користувачу. У класичному варіанті критерії рейтингу формулюються у термінах релевантності документів відповідно до інформаційної потреби, яка виражена у запиті.

Рейтинг часто зводиться до розрахунку числових балів для пар запит-документ. Для цього використовується базова функція ранжирування — це може бути косинус подібності між векторами tf-idf,[1] які відповідають запиту і документу у векторній моделі, бали в BM25 або ймовірності у ймовірнісній моделі інформаційного пошуку. Потім рейтинг може бути розрахований шляхом сортування документів у порядку зменшення балів. Іншій підхід полягає у визначенні функції оцінки на парі документів d₁, d, яка приймає позитивне значення тоді і тільки тоді, коли d більш релевантний запиту, ніж d, і використати цю інформацію для сортування.

Функції ранжирування оцінюються різними методами. Один з найпростіших — це визначити влучність перших k найвищих результатів для деяких фіксованих k. Наприклад, це може бути частка 10 найкращих результатів, які є релевантними, в середньому за багатьма запитами.

Часто обчислення функцій ранжирування можна спростити, скориставшись тим, що має значення тільки відносний порядок балів, а не їхня абсолютна величина. Тому, терміни чи чинники, незалежні від документа, можна вилучити, а терміни чи чинники, які не залежать від запиту, можуть бути попередньо обчислені та збережені разом із документом.

Примітки

Див. також

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.