Іменована сутність
У витягуванні інформації іменована сутність — це об'єкт реального світу, такий як людина, місцезнаходження, організація, товар тощо, який може бути позначений власною назвою. Він може бути абстрактним або існувати насправді. Прикладами іменованих сутностей є Володимир Зеленський, Київ, Volkswagen Golf або будь-що, чому можна дати власну назву. Іменовані сутності можна розглядати як окремі екземпляри більш загальних сутностей (наприклад, Київ — це екземпляр міста).
Термін «іменована сутність» був введений на конференції MUC-6[1] і складався з виразів імен сутностей (англ. entity name expressions, ENAMEX) та числових виразів (англ. numerical expression, NUMEX).
Більш формальне визначення може бути отримане з жорсткого десигнатора Саула Кріпке. У виразі «іменована сутність» слово «іменована» покликане обмежити можливий набір сутностей лише тими, для яких референтом є один або декілька жорстких десигнаторів.[2] Десигнатор є жорстким, якщо він позначає ту саму річ у всіх можливих світах. Навпаки, нежорсткі десигнатори можуть означати різні речі у різних можливих світах.
Як приклад розглянемо речення «Зеленський — президент України». І «Зеленський», і «Україна» є іменованими сутностями, оскільки вони посилаються на конкретні об'єкти (Володимир Зеленський та Україна). Однак «президент» не є іменованою сутністю, оскільки може використовуватися для позначення безлічі різних об'єктів у різних світах (різних людей у різних країнах або у різні президентські періоди). Жорсткі десигнатори зазвичай включають власні назви, а також деякі природні терміни, такі як біологічні види і речовини.
У спільноті фахівців із розпізнавання іменованих сутностей також прийнято вважати іменованими сутностями вирази часу та числові вирази, такі як суми грошей та інші види одиниць виміру, які можуть порушувати визначення жорсткого десигнатора.
Для іменованих сутностей розрізняють задачу розпізнавання іменованих сутностей і задачу визначення ідентичності іменованих сутностей, наведених у тексті, яку називають зв'язуванням іменованих сутностей. Для вирішення обох завдань потрібні спеціальні алгоритми та ресурси.[3]
Див. також
- Розпізнавання іменованих сутностей (також відоме як ідентифікація об'єктної сутності, фрагментація об'єктної сутності та видобуток об'єктної сутності)
- Зв'язування іменованих сутностей
- Витягування інформації
- Видобування знань
- Інтелектуальний аналіз тексту
- Truecasing
- Apache OpenNLP
- spaCy
- GATE (програма)
- Natural Language Toolkit
Примітки
- Grishman, Ralph; Sundheim, Beth (1996). Design of the MUC-6 evaluation TIPSTER '96 Proceedings.
- Nadeau, David; Sekine, Satoshi (2007). A survey of named entity recognition and classification Lingvisticae Investigationes.
- Nouvel, Damien; Ehrmann, Maud; Rosset, Sophie (2015). У Wiley. Named Entities for Computational Linguistics. ISBN 978-1-84821-838-3.