Корпус текстів

У лінгвістиці кóрпус — підібрана й оброблена за певними правилами сукупність текстів, які використовують як базу для дослідження мови. Їх застосовують для статистичного аналізу і перевірки статистичних гіпотез, підтвердження лінгвістичних правил цієї мови. Корпус текстів є предметом дослідження корпусної лінгвістики.

Основні властивості корпусу

Серед безлічі визначень корпусу можна виділити його основні характеристики:

  • електронний — у сучасному розумінні корпус має бути в електронному вигляді
  • репрезентативний — повинен добре «представляти» об'єкт, який моделює
  • розмічений — головна відмінність корпусу від колекції текстів
  • прагматично орієнтований — створюється під певну задачу

Класифікація корпусів

Класифікувати корпуси можна за різними ознаками: мета створення корпусу, тип мовних даних, «літературність», жанр, динамічність, тип розмітки, обсяг текстів тощо. За критерієм паралельності, наприклад, корпуси можна розділити на одномовні, двомовні і багатомовні. Багатомовні і двомовні поділяють на два типи:

  1. паралельні — сукупність текстів та їх перекладів на одну або кілька мов
  2. зіставні (псевдопаралельні) — оригінальні тексти двома або декількома мовами

Розмітка корпусів

Розмітка полягає в приписуванні текстам і їх компонентам спеціальних тегів: лінгвістичних і зовнішніх (екстралінгвістичних). Виділяють такі лінгвістичні типи розмітки: морфологічна, семантична, синтаксична, анафорична, просодична, дискурсна тощо. До деяких корпусів застосовуються подальші структурні рівні аналізу. Зокрема, деякі невеликі корпуси можуть бути повністю синтаксично розмічені. Такі корпуси зазвичай називають глибоко анотованими або синтаксичними, а сама синтаксична структура при цьому є деревом залежностей.

Ручне розмічання (анотування) текстів — дорога й трудомістка задача. На даний момент у відкритому доступі є різні програмні засоби для розмітки корпусів[1]. Умовно їх можна розділити на відособлені (англ. stand-alone) та веб-орієнтовані (англ. web-based). При цьому акцент розробників в останні роки змістився в бік вебзастосунків. Такі системи мають низку переваг:

  • можливість одночасного розмічання одного документа декількома людьми
  • не вимагають встановлення додаткових програмних засобів, крім браузера
  • гнучке розмежування прав доступу
  • відображення поточного прогресу процесу розмітки
  • можливість модифікації розмічуваного корпусу

Інтернет як корпус

Зовнішні відеофайли
Орехов Б. В. «Интернет-коллекции текстов на малых языках России: методика сбора, очистки и анализа» // Семинар «Компьютерная лингвистика», 2016

Сучасні технології дозволяють створювати «вебкорпуси», тобто корпуси, отримані опрацюванням інтернет-джерел:

Вебкорпус являє собою особливий вид лінгвістичного корпусу, створений поступовим завантаженням текстів з інтернету за допомогою автоматизованих процедур, які на льоту визначають мову і кодування окремих веб сторінок, видаляють шаблони, елементи навігації, посилання і рекламу (т. зв. boilerplate), здійснюють перетворення на текст, фільтрування, нормалізацію і дедуплікацію отриманих документів, які потім можна опрацювати традиційними інструментами корпусної лінгвістики (токенізація, морфосинтаксична і синтаксична анотація) та вбудувати в пошукову корпусну систему. Створення веб-корпусу не тільки значно дешевше, але перш за все його обсяг може бути навіть на порядок більшим, ніж традиційні корпуси[2].

Владимѝр Бенко ARANEA — СЕМЕЙСТВО МИЛЛИАРДНЫХ ВЕБ-КОРПУСОВ

Застосування

Корпус — основне поняття і база даних корпусної лінгвістики. Аналіз і обробка різних типів корпусів є предметом більшості робіт в галузі комп'ютерної лінгвістики (наприклад, видобування ключових слів), розпізнавання мови і машинного перекладу, в яких корпуси часто застосовуються при створенні прихованих марковських моделей для маркування частин мови та інших завдань. Корпуси та частотні словники корисні в навчанні іноземних мов.

Див. також

Примітки

Література

Посилання

Корпуси текстів української мови

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.