Відособлений розподіл
У теорії ймовірностей та статистиці відосо́блений розпо́діл (англ. marginal distribution) підмножини набору випадкових змінних — це розподіл імовірності змінних, що містяться у цій підмножині. Він дає ймовірності різних значень змінних цієї підмножини без посилання на значення інших змінних. Він контрастує з умовним розподілом, що дає значення ймовірностей в залежності від значень інших змінних.
Частина серії статей з статистики |
Теорія ймовірностей |
---|
|
|
|
Термін відосо́блена змі́нна (англ. marginal variable) використовується для позначення змінних у підмножині збережених змінних. В англійській мові ці терміни отримали позначення англ. marginal, оскільки їх знаходили підсумовуванням значень у таблиці вздовж рядків та стовпчиків, і записуванням сум на полях (англ. margin) таблиці.[1] Розподіл відособлених змінних (відособлений розподіл) отримується шляхом відосо́блення (англ. marginalizing) над розподілом змінних, що скасовуються, а про скасовані змінні кажуть, що їх було знеосо́блено (англ. marginalized out).
Контекстом тут є те, що здійснювані теоретичні дослідження або аналіз даних включають ширший набір випадкових змінних, але увага обмежується зменшеним числом тих змінних. У багатьох застосуваннях аналіз може починатися заданим набором випадкових змінних, потім спершу розширювати набір визначенням нових (таких як сума початкових випадкових змінних), і нарешті зменшувати число змінних шляхом зміщення уваги на відособлений розподіл підмножини (такої як сума). Може здійснюватися декілька різних аналізів, кожен з яких працює з різними підмножинами змінних як з відособленими змінними.
Випадок двох змінних
x1 | x2 | x3 | x4 | py(Y)↓ | |
---|---|---|---|---|---|
y1 | 4⁄32 | 2⁄32 | 1⁄32 | 1⁄32 | 8⁄32 |
y2 | 2⁄32 | 4⁄32 | 1⁄32 | 1⁄32 | 8⁄32 |
y3 | 2⁄32 | 2⁄32 | 2⁄32 | 2⁄32 | 8⁄32 |
y4 | 8⁄32 | 0 | 0 | 0 | 8⁄32 |
px(X) → | 16⁄32 | 8⁄32 | 4⁄32 | 4⁄32 | 32⁄32 |
Спільний та відособлені розподіли пари дискретних випадкових змінних X,Y, що мають ненульову взаємну інформацію I(X; Y). Значення спільного розподілу — в квадраті 4×4, а значення відособлених розподілів — вздовж правого та нижнього країв. |
Для заданих двох випадкових змінних X and Y, для яких є відомим їх спільний розподіл, відособленим розподілом X є просто розподіл імовірності X, усередненої за інформацією про Y. Він є розподілом ймовірності X, коли значення Y є невідомим. Він зазвичай обчислюється підсумовуванням або інтегруванням спільного розподілу за Y.
Для дискретних випадкових змінних відособлену функцію маси ймовірності може бути записано як Pr(X = x). Вона є
де Pr(X = x,Y = y) є спільним розподілом X та Y, тоді як Pr(X = x|Y = y) є умовним розподілом X за умови Y. У цьому випадку змінну Y було від-відособлено.
Двовимірні відособлені та спільні ймовірності дискретних випадкових змінних часто зображують у вигляді двобічних таблиць.
Аналогічно, для неперервних випадкових змінних відособлену функцію густини ймовірності може бути записано як pX(x). Вона є
де pX,Y(x,y) дає спільний розподіл X та Y, тоді як pX|Y(x|y) дає умовний розподіл X за умови Y. Знов-таки, змінну Y було від-відособлено.
Зауважте, що відособлену ймовірність завжди може бути записано як математичне сподівання:
Інтуїтивно, відособлена ймовірність X обчислюється шляхом вивчення умовної ймовірності X для певного значення Y, а потім усереднення цієї умовної ймовірності над розподілом усіх значень Y.
Це випливає із визначення математичного сподівання, тобто, у загальному випадку,
Реальний приклад
Припустімо, що обчислюватиметься ймовірність того, що пішохода, який переходить дорогу пішохідним переходом, не зважаючи на сигнал світлофора, зіб'є машина. Нехай H (від англ. hit) буде дискретною випадковою змінною, що набуватиме значень з {Зіб'є, Не зіб'є}. Нехай L (від англ. light) буде дискретною випадковою змінною, що набуватиме значень з {Червоне, Жовте, Зелене}.
Правдоподібно, що H залежатиме від L. Тобто, P(H = Зіб'є) та P(H = Не зіб'є) набуватимуть різних значень в залежності від того, чи L є червоним, жовтим або зеленим. Пішохода, наприклад, набагато ймовірніше буде збито при спробі перейти, коли світло для поперечного руху є зеленим, ніж коли воно є червоним. Іншими словами, для будь-якої заданої можливої пари значень H та L ми мусимо розглянути спільний розподіл ймовірності H та L, щоби знайти ймовірність того, що така пара трапиться разом, якщо пішохід ігнорує сигнал світлофора.
Тим не менш, у спробі розрахувати відособлену ймовірність P(H = Зіб'є), від нас вимагають ймовірність того, що H = Зіб'є в ситуації, в якій ми фактично не знаємо конкретне значення L, і в якій пішохід ігнорує колір світла світлофора. В загальному випадку пішохода може бути збито, якщо світло є червоним, АБО якщо світло є жовтим, АБО якщо світло є зеленим. Тож у цьому випадку відповідь для відособленої ймовірності може бути знайдено підсумовуванням P(H,L) для всіх можливих значень L, із зважуванням кожного значення L ймовірністю того, що воно може трапитися.
Ось таблиця, що показує умовні ймовірності бути збитим, у залежності від стану світлофора. (Зауважте, що стовпчики в цій таблиці мусять давати в сумі 1, оскільки ймовірність бути збитим або не збитим дорівнює 1 не залежно від стану світлофора.)
Умовний розподіл: P(H|L) | |||
---|---|---|---|
L=Червоне | L=Жовте | L=Зелене | |
H=Не зіб'є | 0.99 | 0.9 | 0.2 |
H=Зіб'є | 0.01 | 0.1 | 0.8 |
Щоби знайти спільний розподіл ймовірності, ми потребуємо більше даних. Нехай P(L=Чевоне) = 0.2, P(L=Жовте) = 0.1, and P(L=Зелене) = 0.7. Домножуючи кожного стовпчика умовного розподілу на ймовірність трапляння цього стовпчика, ми знаходимо спільний розподіл імовірності H та L, наведений у центральному блоці 2×3 записів. (Зауважте, що комірки у цьому блоці 2×3 дають в сумі 1.)
Спільний розподіл: P(H,L) | ||||
---|---|---|---|---|
L=Червоне | L=Жовте | L=Зелене | Відособлена ймовірність P(H) | |
H=Не зіб'є | 0.198 | 0.09 | 0.14 | 0.428 |
H=Зіб'є | 0.002 | 0.01 | 0.56 | 0.572 |
Разом | 0.2 | 0.1 | 0.7 | 1 |
Відособлена ймовірність P(H=Зіб'є) є сумою вздовж рядка H=Зіб'є цієї таблиці спільного розподілу, оскільки вона є ймовірністю бути збитим, коли світло є червоним АБО жовтим АБО зеленим. Аналогічно, відособлена ймовірність P(H=Не зіб'є) є сумою рядка H=Не зіб'є. В цьому прикладі ймовірність того, що пішохода буде збито, якщо він не звертає уваги на стан світлофора, становить 0.572.
Багатовимірні розподіли
Формули для багатовимірних розподілів є подібними до наведені вище, з символами X та/або Y, що інтерпретуються як вектори. Зокрема, кожне підсумовування або інтегрування відбуватиметься над усіма змінними, крім тих, що містяться в X.
Див. також
- Спільний розподіл
- Метрика Васерштейна
Примітки
- Trumpler та Weaver, 1962, с. 32–33.
Література
- Everitt, B. S. (2002). The Cambridge Dictionary of Statistics. Cambridge University Press. ISBN 0-521-81099-X. (англ.)
- Trumpler, Robert J.; Weaver, Harold F. (1962). Statistical Astronomy. Dover Publications. (англ.)