Власна інформація
В теорії інформації вла́сна інформ́ація (англ. self-information), або несподі́ваність (англ. surprisal), — це міра кількості інформації, пов'язаної з подією в імовірнісному просторі, або зі значенням дискретної випадкової величини. Вона виражається в одиницях інформації, наприклад, в бітах, натах або гартлі, залежно від основи логарифму, який застосовується в обчисленнях.
Термін власна інформація іноді використовують як синонім такого пов'язаного поняття теорії інформації, як ентропія. Ці два значення не тотожні, і ця стаття описує лише перший сенс.
Визначення
За визначенням, кількість власної інформації, яка міститься в імовірнісній події, залежить лише від імовірності цієї події: що меншою є її ймовірність, то більшою є власна інформація, пов'язана з отриманням інформації про те, що ця подія дійсно відбулася.
Далі, за визначенням, міра власної інформації є додатною та адитивною. Якщо подія є перетином двох незалежних подій та , то кількість інформації при оголошенні про те, що подія сталася, дорівнює сумі кількостей інформації в оголошеннях про подію та подію відповідно:
- .
Із врахуванням цих властивостей, власною інформацією , пов'язаною з виходом з імовірністю , є
Це визначення відповідає наведеним вище умовам. У наведеному визначенні не вказано основу логарифму: при застосуванні основи 2 одиницями будуть біти. При застосуванні логарифму за основою одиницею буде нат. Для логарифму за основою 10 одиницею буде гартлі.
Як швидке пояснення, кількістю інформації, пов'язаною з випадінням 4 аверсів (або будь-якого конкретного виходу) в 4 послідовних підкиданнях монети, буде 4 біти (ймовірність 1/16), а кількістю інформації, пов'язаною з отриманням результату, відмінного від вказаного, буде 0.09 біт (імовірність 15/16). Див. докладніші приклади нижче.
Інформаційна ентропія випадкової події — це математичне сподівання її власної інформації.
Власна інформація є прикладом власного оцінювального правила.
Приклади
- При підкиданні монети шансом «реверсу» є 0.5. Коли проголошується, що справді випав «реверс», то це дає кількість
- I(«реверс») = log2 (1/0.5) = log2 2 = 1 біт інформації.
- При викиданні правильного грального кубика ймовірність «четвірки» становить 1/6. Коли проголошується, що випала «четвірка», то кількістю власної інформації є
- I(«четвірка») = log2 (1/(1/6)) = log2 (6) = 2.585 бітів власної інформації.
- При незалежному викиданні двох гральних кубиків кількість інформації, пов'язаної з {викидання 1 = «два» і викидання 2 = «чотири»}, дорівнює
- I(«викиданням 1 є два і викиданням 2 є чотири») = log2 (1/P(викидання 1 = «два» і викидання 2 = «чотири»)) = log2 (1/(1/36)) = log2 (36) = 5.170 біт.
Цей вихід дорівнює сумі окремих кількостей власної інформації, пов'язаних із {викидання 1 = «два»} і {викидання 2 = «чотири»}; а саме, 2.585 + 2.585 = 5.170 біт.
- В тій самій ситуації з двома гральними кубиками ми можемо розглядати інформацію, присутню в твердженні «Сумою двох гральних кубиків є п'ять»
- I(«Сумою викидів 1 та 2 є п'ять») = log2 (1/P(«викиди 1 та 2 дають у сумі п'ять»)) = log2 (1/(4/36)) = 3.17 біт. Причиною (4/36) є те, що існує чотири варіанти з 36 можливих, щоби два кубики давали в сумі 5. Це показує, що складніші або неоднозначніші події теж можуть давати інформацію.
Власна інформація розбиття
Власною інформацією розбиття елементів у межах множини (або кластерування) є математичне сподівання інформації перевірного об'єкту; якщо ми обираємо елемент навмання, і спостерігаємо, в якому розділі/кластері він перебуває, то яку кількість інформації ми сподіваємося отримати? Інформацією розбиття , в якому позначає частку елементів у межах розділу , є[1]
Відношення до ентропії
Ентропія — це математичне сподівання власної інформації значень дискретної випадкової величини. Іноді й саму ентропію називають «власною інформацією» випадкової величини, можливо, тому, що ентропія задовольняє , де є взаємною інформацією із самою собою.[2]
Примітки
- Marina Meilă; Comparing clusterings—an information based distance; Journal of Multivariate Analysis, Volume 98, Issue 5, May 2007 (англ.)
- Thomas M. Cover, Joy A. Thomas; Elements of Information Theory; p. 20; 1991. (англ.)
Література
- C.E. Shannon, A Mathematical Theory of Communication, Bell Syst. Techn. J., Vol. 27, pp 379–423, (Part I), 1948. (англ.)
- Підручник «Теорія Інформації та Кодування» В. М. Плотніков