Рейтинг (інформаційний пошук)

Рейтинг результатів запиту є однією з основних задач інформаційного пошуку (ІП), яка є науковою та інженерною дисципліною яка використовується пошуковими системами. Для заданого запиту $q$ і колекції документів $D$ , які відповідають запиту, задача полягає у присвоєнні рейтингу цим документів, тобто потрібно відсортувати, документи в $D$ відповідно до певного критерію, так, щоб «найкращі» результати з'являться на початку списку результатів, який відображається користувачу. У класичному варіанті критерії рейтингу формулюються у термінах релевантності документів відповідно до інформаційної потреби, яка виражена у запиті.

Рейтинг часто зводиться до розрахунку числових балів для пар запит-документ. Для цього використовується базова функція ранжирування — це може бути косинус подібності між векторами tf-idf,[1] які відповідають запиту і документу у векторній моделі, бали в BM25 або ймовірності у ймовірнісній моделі інформаційного пошуку. Потім рейтинг може бути розрахований шляхом сортування документів у порядку зменшення балів. Іншій підхід полягає у визначенні функції оцінки на парі документів $d ₁, d ₂$ , яка приймає позитивне значення тоді і тільки тоді, коли $d ₁$ більш релевантний запиту, ніж $d ₂$ , і використати цю інформацію для сортування.

Функції ранжирування оцінюються різними методами. Один з найпростіших — це визначити влучність перших k найвищих результатів для деяких фіксованих k. Наприклад, це може бути частка 10 найкращих результатів, які є релевантними, в середньому за багатьма запитами.

Часто обчислення функцій ранжирування можна спростити, скориставшись тим, що має значення тільки відносний порядок балів, а не їхня абсолютна величина. Тому, терміни чи чинники, незалежні від документа, можна вилучити, а терміни чи чинники, які не залежать від запиту, можуть бути попередньо обчислені та збережені разом із документом.

Примітки

Обчислення балів для векторів.

Див. також

Навчання ранжуванню — застосування машинного навчання до задачі ранжування

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Обчислення балів для векторів.