Міри розсіяння
Міри розсіяння — параметри, що характеризують ступінь мінливості (варіативності) кількісної ознаки в генеральній чи вибірковій сукупності. Міри розсіяння характеризують, наскільки сильно розкидані (чи, що одне і те ж саме, наскільки тісно згруповані) можливі значення випадкової величини. На практиці, в залежності від типу випадкової величини та особливостей вирішуваної задачі, використовуються різні міри розсіяння.
Необхідність введення мір розсіяння.
Розглянемо дві випадкові величини та , які з однаковою ймовірністю можуть набувати три значення:
: -3, 0, 3.
: -30, 0, 30.
Обидві величини мають однаковий центр (математичне сподівання), який рівний 0. Однак неважко помітити, що величина має значення, які порівняно близькі до центру, в той час як значення величини мають помітно більший розкид. Таким чином, для характеристики випадкової величини, щоб, наприклад, судити, які значення вона може набувати, як вони розсіюються навколо центру, не достатньо мати лише міру центру, оскільки знання лише центру розподілу не дозволяє в достатній мірі охарактеризувати випадкову величину. Тому поряд з мірами центру розподілу вводять інші числові характеристики, серед них і міри розсіяння[1]
Міри розсіяння. Переваги та недоліки.
Відхилення.
Відхилення — різниця між значенням випадкової величини та її математичним сподіванням. У випадку вибірки відхилення — різниця між значенням величини та її середнім значенням.
Абсолютне значення відхилення показує, наскільки далеко лежить величина від центрального значення, в той час як його знак вказує, менше воно чи перевищує середнє значення. Якщо представляє інтерес лише величина відхилення без знаку, то використовують абсолютне відхилення.
Відхилення від математичного сподівання часто називають похибкою, наприклад, в соціології, в метрології тощо. В теорії похибок відхилення похибки як випадкової величини від її математичного сподівання називається випадковою похибкою[2].
Відхилення характеризує розсіяння конкретного значення, але не є характеристикою генеральної сукупності чи вибірки, із якої походить це значення.
Розмах.
Розмах є вибірковою мірою розсіяння, що являє собою різницю між найбільшим та найменшим із значень вибірки[3]:
,
де - відповідно максимальне та мінімальне значення із вибірки.
Це одна з найпростіших статистичних мір розсіяння. Дає інформацію про ширину інтервалу, в якому зосереджений весь набір числових даних, геометрично — ширина відрізка, в якому розташовуються всі значення.
Розмах відноситься до порядкових статистик.
Перевагами цієї міри розсіяння перед іншими є простота розрахунку, наочність та інтуїтивна зрозумілість. Недоліком розмаху є те, що він не враховує інформацію про характер розподілу результатів в інтервалі розсіяння, оскільки не бере до уваги інші значення, крім крайніх значень, незручний для математичних перетворень. Він також дуже чутливий до викидів, які можуть бути у вибірці.
Середнє абсолютне відхилення.
Для врахування інформації про характер розподілу необхідно, щоб під час розрахунку міри брались до уваги всі можливі значення випадкової величини. Якщо є вибірка значень випадкової величини , то, на перший погляд, такою мірою для вибірки може бути середнє відхилення , відповідним аналогом якого для генеральної сукупності є центральний момент першого порядку - математичне сподівання відхилення випадкової величини від її математичного сподівання. Тут - середнє арифметичне значення. Однак ці міри, як для вибірки, так і для генеральної сукупності, тотожно рівні 0. Дійсно, наприклад, для вибірки
.
"Занулення" цієї міри відбувається тому, що в сумі протилежні за знаком відхилення компенсують одне одного. Для уникнення занулення міри замість відхилень достатньо взяти їх абсолютні значення. Тоді для вибірки середнє абсолютне відхилення [1]
,
Перехід від лінійних відхилень до їх абсолютних значень дозволяє уникнути занулення міри.
Середнє абсолютне відхилення для генеральної сукупності — математичне сподівання абсолютного відхилення випадкової величини від її математичного сподівання:
,
де - оператор математичного сподівання,
- математичне сподівання величини .
Середнє абсолютне відхилення дає інформацію, наскільки далеко від центру розподілу в середньому знаходяться значення випадкової величини. В порівнянні з розмахом має перевагу в тому, що розраховується за всіма значеннями, тому містить інформацію про характер розподілу значень, менш чутливе до викидів. Разом з тим, середнє абсолютне відхилення незручне для математичних перетворень, що, значною мірою, і обумовило відносно нешироке використання цієї міри розсіяння.
Дисперсія.
Ще один спосіб уникнути занулення міри розсіяння - усереднювати не відхилення, а квадрати відхилень. Відповідна міра розсіяння для вибірки — середнє із квадратів відхилень від середнього значення - називається вибірковою дисперсією:
.
Вибіркова дисперсія є статистичною оцінкою генеральної дисперсії. На відміну від дисперсії для генеральної сукупності її статистична оцінка є випадковою величиною, оскільки розраховується через випадкові значення.
Дисперсія для генеральної сукупності — центральний момент другого порядку випадкової величини або, іншими словами, математичне сподівання квадрату відхилення випадкової величини від її математичного сподівання:
.
Дисперсія генеральної сукупності є невипадковою (постійною) величиною[4].
Дисперсія серед інших мір розсіяння виділяється тим, що зручна для математичних перетворень, наприклад, дисперсія суми двох незалежних випадкових величин є сумою їх дисперсій. Зручність математичних перетворень з дисперсією стала причиною розробки значного числа статистичних методів, в яких вона використовується, зокрема, дисперсійного аналізу, різних методів перевірки статистичних гіпотез тощо. Дисперсія поряд із стандартним відхиленням є однією з найбільш використовуваних мір розсіяння.
Недоліками дисперсії як міри розсіяння є її ненаочність, що утруднює її розуміння, а також нестійкість до викидів, оскільки сумуються квадрати відхилень, що збільшує вагу великих відхилень. Певною незручністю при використанні дисперсії є також те, що розмірність дисперсії - квадрат розмірності випадкової величини.
Стандартне відхилення.
Стандартне відхилення є додатнім квадратним коренем із дисперсії:
.
Як і дисперсія характеризує розсіяння значень навколо центру розподілу: більшому значенню стандартного відхилення відповідає більший їх розкид. Практична перевага стандартного відхилення як міри розсіяння в порівнянні з дисперсією полягає в тому, що його розмірність збігається з розмірністю випадкової величини, що в ряді випадків робить його зручнішою мірою розсіяння.
Коефіцієнт варіації
Коефіцієнт варіації ( або ) — відношення стандартного відхилення до середнього значення:
.
Має зміст для величин, що вимірюються в шкалах відношень (шкали з абсолютним нулем). Використовується для порівняння ступеня розсіяння випадкових величин різного роду, коли вони виражені в різних одиницях.
Медіана абсолютних відхилень.
Розглянуті вище міри розсіяння в більшій чи меншій мірі нестійкі до викидів. В 1816 році К. Ф. Гаусс в науковій статті про визначення точності числових спостережень[5] запропонував робастну (стійку до викидів) міру розсіяння - медіану абсолютного відхилення.
В загальному випадку медіана абсолютного відхилення:
,
де - оператор медіани,
- медіана випадкової величини.
Медіана абсолютних відхилень в порівнянні з іншими мірами розсіяння є стійкою оцінкою до викидів, що виниклі в наборі даних. У стандартному відхиленні чи дисперсії відхилення від середнього беруться у квадраті, тому більші відхилення мають більшу вагу і, таким чином, викиди сильніше впливають на них. У невелика, як правило, кількість викидів не має ніякого значення[6].
Крім того, що MAD — надійніша оцінка розсіяння, ніж дисперсія вибірки або стандартне відхилення, вона краще працює з розподілами без середнього або дисперсії типу, наприклад, розподілу Коші.
Недоліком міри є великі затрати обчислювальних ресурсів під час її обчислення для великих наборів даних. Крім того, медіана абсолютних відхилень, як і середнє абсолютних відхилень, незручна для математичних перетворень, тому великого поширення ця міра розсіяння не отримала.
Міжквартильний розмах
Міжквартильний розмах як і розмах є порядковою статистикою. Як уже зазначалося, розмах дуже чутливий до викидів. Для того, щоб позбутися чутливості до викидів, можна розраховувати розмах після відкидання екстремальних значень. Такий тип мір розсіяння спирається на поняття процентилів. Міжквартильний розмах — це різниця між 75-м та 25-м процентилями[7]:
.
Міжквартильний розмах поряд з медіаною абсолютних відхилень є робастною мірою. Недоліком цієї міри розсіяння є те, що вона в порівнянні з розмахом менш зрозуміла, незручна для математичних операцій та необхідні великі обчислювальні затрати під час її оцінки для великих наборів даних, оскільки потрібно відсортувати всю вибірку.
Спеціальні міри розсіяння.
Дисперсія Алана
Дисперсія Алана є мірою стабільності різних приладів: годинників, генераторів тощо. Оцінює стабільність, обумовлену шумовими процесами, а не систематичними ефектами. Визначається як половина середнього значення квадратів різниць між послідовними показами відхилення частоти, відібраних за період вибірки[8].
Див. також
Примітки.
- Гмурман В. Е. Теория вероятностей и математическая статистика. – М. : Высш. шк., 2003. – 479 с. ISBN 5-06-004214-6.
- Величко О. М., Коцюба А. М., Новіков В. М. Основи метрології та метрологічна діяльність. Навчальний посібник. — Київ, вид.-во НаУКМА, 2000. — 228 с.
- О. І. Кушлик-Дивульська, Н. В. Поліщук, Б. П. Орел, П. І. Штабалюк. Теорія ймовірностей та математична статистика: навч. посіб. — К. : НТУУ "КПІ", 2014. — 212 с. — ISBN 978-966-622-654-2.
- Н. В. Смирнов, И. В. Дунин-Барковский. Курс теории вероятностей и математической статистики для технических приложений. — М. : "Наука", 1969. — 512 с.
- Gauss, Carl Friedrich (1816). Bestimmung der Genauigkeit der Beobachtungen. Zeitschrift für Astronomie und Verwandte Wissenschaften 1: 187–197.
- Чио К., Фримэн Д. Машинное обучение и безопасность/Пер. с англ. А. В. Снастина. - М.: ДМС Пресс, 2020. - 388 с.: ил. ISBN 978-5-97060-713-8.
- Брюс П., Брюс Э. Практическая статистика для специалистов Data Science/Пер. с англ. - СПб: БХВ-Петербург, 2018. - 304 с: ил. ISBN 978-5-9775-3974-6.
- Allan, D. Statistics of Atomic Frequency Standards, pages 221–230. Proceedings of the IEEE, Vol. 54, No 2, February 1966.