Терм-документна матриця

Терм-документна матриця (англ. document-term matrix, term-document matrix) матриця, що описує частоту появи термінів у колекції документів. В терм-документній матриці рядки відповідають документам з колекції, що аналізується, а стовпці асоційовані з термінами. Існують різноманітні схеми для визначення елементів матриці. Одною з них є схема TF-IDF. Такі матриці використовуються при обробці природної мови, зокрема в методах латентно-семантичного аналізу.

Концепція

При створенні бази даних термінів, що задіяні у множині документів, матриця термінів формується як матриця інцидентності, рядки якої описують документи, а елементи рядків свідчать про наявність термінів в цих документах. Наприклад, якщо є два коротких документи:

  • D1 = «Мені подобаються дані»
  • D2 = «Мені не подобаються дані», то відповідна терм-документа матриця буде мати вигляд:
Меніподобаютьсяне подобаютьсядані
D11101
D21011

який показує, що за терміни містяться в тому чи іншому документі, та скільки разів вони зустрічаються. Такий підхід подібний до застосування матриці інцидентності при аналізі речень у корпусі слів одного документу[1].

Див. також

Примітки

  1. Слюсар, В.И. (2020). Применение торцевого произведения матриц в задачах обработки естественного языка.. Нейромережні технології та їх застосування НМТіЗ-2020: збірник наукових праць XIX Міжнародної наукової конференції «Нейромережні технології та їх застосування НМТіЗ-2020». - Краматорськ: Донбаська державна машинобудівна академія. -2020 . с. 156 – 162.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.