Коефіцієнт Жуайна

Коефіцієнт Жуайна — в лінгвістиці коефіцієнт, що показує, наскільки універсальне або, навпаки, спеціалізоване застосування того чи іншого слова в текстах різної тематики. Якщо слово вживається лише в текстах певної вузької тематики, коефіцієнт Жуайна близький до 0, якщо ж частота слововживання приблизно однакова в будь-якому тексті, коефіцієнт близький до 100.

Обчислення

Коефіцієнт Жуайна визначається за формулою[1][2]

де  — кількість тематичних сегментів, на які розбито досліджувані тексти;

 — середня частота слова за всіма сегментами;

 — середньоквадратичне відхилення частот за окремими сегментами.

Для обчислення коефіцієнта Жуайна досліджувані тексти розбиваються на сегменти різної тематики приблизно однакового обсягу (при складанні частотних словників зазвичай виділяють 100 сегментів). Для кожного сегмента обчислюється частота вживання певного слова, тобто кількість слововживань, поділена на загальний обсяг сегмента. Для отриманого ряду частот обчислюється середньоквадратичне відхилення , після чого отримані значення підставляються у формулу.

Приклад

Нехай досліджувані тексти розбито на 4 сегменти, кожен розміром по 1 млн слів. Деяке слово, наприклад, «коефіцієнт» зустрічається в цих сегментах відповідно 10, 11, 8 і 3 рази. тоді = 10, = 11, = 9, = 3 вживання на мільйон. Середнє значення

Середньоквадратичне відхилення

Тоді Коефіцієнт Жуайна

Див. також

Примітки

  1. Шаров С.А., Ляшевская О.Н. Частотный словарь современного русского языка на материалах Национального корпуса русского языка — М.: Издательский центр «Азбуковник», 2009. — 1060 с.
  2. Frequency dictionary of French words: A. Juilland, D. Brodin and C. Davidovitch The Romance languages and their structures, First Series F 1. Mouton, The Hague-Paris, 1970. lxxv, 503 pp. ⨍ 120.
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.