Поверхнево-синтаксичний аналіз

Поверхне́во-синтакси́чний ана́ліз (англ. shallow parsing, також англ. chunking, «light parsing») — це аналіз речення, який спершу ідентифікує складові частини речень (іменники, дієслова, прикметники тощо), а потім пов'язує їх в одиниці вищого порядку, які мають окремі граматичні значення (іменникові групи або фрази, дієслівні групи тощо). І хоча найелементарніші алгоритми поверхнево-синтаксичного аналізу просто пов'язують складові частини на основі елементарних шаблонів пошуку (наприклад, заданих регулярними виразами), підходи, які застосовують методики машинного навчання (класифікатори, тематичне моделювання тощо) можуть враховувати контекстну інформацію, і відтак формувати фрагменти таким чином, щоби вони краще відображували семантичні зв'язки між основними складовими.[1] Тобто, ці досконаліші методи обходять ту проблему, що поєднання елементарних складових можуть мати різні значення вищого рівня залежно від контексту речення.

Він є методикою, широко вживаною в обробці природної мови. Він є подібним до поняття лексичного аналізу для комп'ютерних мов. Під назвою «гіпотеза поверхневої структури» (англ. Shallow Structure Hypothesis) його також використовують, щоби пояснювати, чому людям, які вивчають другу мову, часто не вдається правильно розбирати складні речення.[2]

Джерела

Примітки

  1. Jurafsky, Daniel; Martin, James H. (2000). Speech and Language Processing. Singapore: Pearson Education Inc. с. 577–586. (англ.)
  2. Clahsen, Felser, Harald, Claudia (2006). Grammatical Processing in Language Learners. Applied Psycholinguistics 27: 3–42. doi:10.1017/S0142716406060024. (англ.)

Література

  • NP Chunking (State of the art). Association for Computational Linguistics. Процитовано 30 січня 2016. (англ.)
  • Abney, Steven (1991). Parsing By Chunks. Principle-Based Parsing. Kluwer Academic Publishers. с. 257–278.. (англ.)

Посилання

Див. також

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.