Генеральний регіонально анотований корпус української мови

Генеральний регіонально анотований корпус української мови (ГРАК; англ. General Regionally Annotated Corpus of Ukrainian, GRAC) — це корпус української мови обсягом понад 800 млн токенів, призначений для здійснення лінгвістичних досліджень з граматики, лексики, історії української літературної мови, а також для використання під час укладання словників та граматик.

Корпус можна використати для вивчання мови, також при підготовці навчальних матеріалів, підручників, навчальних словників та вправ з використанням прикладів з реальних текстів, з урахуванням частотної сполучуваності тощо. Корпус не є взірцем нормативної української мови, в ньому можуть трапитися слова і сполучення, які не відповідають сучасним нормам літературної мови. Наведені далі статистичні дані стосуються 10 версії корпусу, доступної для пошуку з 20 жовтня 2020 року.

Корпус охоплює період з 1816 по 2021 р. і містить понад 80 тисяч текстів близько 23000 авторів.

Напрями та жанри

35 % корпусу становлять художні тексти. Деякі жанри художніх текстів виділені окремо: дитячі, фольклорні, драматичні твори та сценарії.

З нехудожніх текстів:

  • публіцистичні тексти, зокрема колекції газет 1888—1893 рр., 1905 р., 1913—1918 рр., 1919—1943 рр., сучасні газети різних регіонів, а також тексти з інформаційних сайтів в Інтернеті;
  • мемуари, листи та щоденники, зокрема чималий корпус текстів Facebook, в якому представлені блоги людей з усіх областей України та діаспори;
  • наукові та навчальні тексти: монографії, дисертації, наукові статті, підручники; окремо виділено значні за обсягом підкорпуси наукової літератури з історії, етнографії, філософії, права;
  • релігійні тексти, зокрема два українські переклади Біблії;
  • промови та інтерв'ю.

Також до корпусу залучено деякі словники, де є фразові приклади і фразеологія, зокрема «Словарь української мови» Б. Грінченка і «Російсько-український словник сталих виразів» І. Виргана і М. Пилинської. За допомогою інструментів корпусу в словниках можна шукати не тільки слова, а й лексико-граматичні моделі у складі прикладів та фразеологічних виразів.

Перекладні тексти

Близько 20 % текстів в корпусі є перекладами. Корпус містить переклади з 72 мов, найбільше — з англійської та російської.

Датування

Тексти в корпусі датовано роком написання або останнім роком, коли твір міг бути написаний; перекладні тексти датовані роком створення перекладу. Додатково може бути зазначено також рік видання, за яким подано текст.

Регіональна розмітка

В основу розмітки корпусу за регіонами покладено сучасний адміністративний поділ України. В корпусі представлені тексти з усіх областей України і з Криму.

Один текст може належати до кількох регіональних підкорпусів (якщо автор або перекладач народився, вчився, жив тривалий час в різних регіонах).

Крім регіональних підкорпусів, є підкорпуси творів авторів діаспори (США, Канада, Польща, Німеччина, Велика Британія, Франція та ін.). Це здебільшого тексти емігрантів 1940-х років і, менша частка, — 1917-1920-х рр.

Морфологічна розмітка

ГРАК працює на базі системи морфологічного аналізу, яку розробили спеціалісти гурту r2u.

Програма аналізує текст і для кожної словоформи визначає лему (лексему) і теги (граматичні ознаки).

Дослідження на базі Корпусу

На базі Корпусу проведені дослідження української мови, зокрема історичної динаміки мовної норми[1] та частотності літер і їх сполучень для розроблення шрифтів[2].

Див. також

Примітки

  1. М. О. Шведова. Динаміка вживання варіативних форм іменників-назв неістот у знахідному відмінку однини в літературних текстах регіонів України XIX-XXI ст. // Науковий вісник Херсонського державного університету. Серія «Лінгвістика»: Збірник наукових праць. Випуск 31 / Херс. держ. ун-т. — Херсон: ХДУ, 2018. — С. 88-94.
  2. Кирилиця та латинка в українській мові // Rentafont.com.ua

Посилання

  • uacorpus.org — Генеральний регіонально анотований корпус української мови
  • https://www.facebook.com/groups/488552241633414/ — ГРАК на Фейсбуці
  • Уседоступність матеріалу для зручної роботи з ним. Марія Шведова про ГРАК української мови та неоране поле досліджень. Розмову вела Наталія КОВАЛЬ // 2020, Українська мова та література. №9-10, С. 12-17. https://www.academia.edu/44669209
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.