Кількості інформації

Математична теорія інформації ґрунтується на теорії ймовірності й статистиці, і вимірює інформацію за допомогою декількох кількостей інформації (англ. quantities of information). Застосовувану в наступних формулах одиницю інформаційної ентропії визначає вибір логарифмічної основи. Найзвичнішою одиницею інформації є біт, що ґрунтується на двійковому логарифмі. До інших одиниць належать нат, що ґрунтується на натуральному логарифмі, та гартлі, що ґрунтується на десятковому логарифмі.

Проста інформаційна діаграма, що показує адитивні та різницеві відношення серед шеннонових базових кількостей інформації для корельованих змінних та . Область, яка міститься в обох колах, є спільною ентропією . Коло ліворуч (червоний і фіолетовий) є особистою ентропією , в якому червоне є умовною ентропією . Коло праворуч (синій та фіолетовий) є , а синє в ньому є . Фіолетове є взаємною інформацією .

Надалі вираз вигляду , коли є нулем, вважається за згодою рівним нулеві. Це є виправданим, оскільки для будь-якої логарифмічної основи .

Власна інформація

Шеннон вивів міру інформаційного вмісту, названу власною інформацією (англ. self-information) або «несподіваністю» (англ. "surprisal") повідомлення :

де є ймовірністю обрання повідомлення з усіх можливих варіантів вибору в просторі повідомлень . Основа логарифму впливає лише на коефіцієнт масштабування, і, відтак, на одиниці, в яких виражається вимірюваний інформаційний вміст. Якщо основою логарифму є 2, то міра інформації виражається в одиницях бітів.

Інформація передається з джерела до отримувача лише якщо отримувач цієї інформації ще не мав її заздалегідь. Повідомлення, які передають інформацію, що відбувається напевно, і вже відома отримувачеві, реальної інформації не містять. Повідомлення, що трапляються нечасто, містять більше інформації, ніж повідомлення, які трапляються частіше. Цей факт віддзеркалено в наведеному вище рівнянні — незмінне повідомлення, тобто, з імовірністю 1, має нульову міру інформації. Крім того, складене повідомлення з двох (або більше) не пов'язаних (або взаємно незалежних) повідомлень матиме міру інформації, яка є сумою мір інформації кожного з повідомлень окремо. Цей факт також віддзеркалено в наведеному вище рівнянні, що підтверджує обґрунтованість його виведення.

Приклад. Повідомлення прогнозу погоди: «Прогноз на ніч: Темно. Тривала темрява, аж до широко розсіяного світла вранці.» Це повідомлення майже не містить інформації. Проте прогноз хуртовини безумовно міститиме інформацію, оскільки таке не трапляється щовечора. Величина інформації буде ще більшою в точному прогнозі снігу для теплого місця, такого як Маямі. Величина інформації в прогнозі снігу для місця, де сніг не йде ніколи (неможлива подія), є найвищою (нескінченність).

Ентропія

Ентропія (англ. entropy) дискретного простору повідомлень є мірою величини невизначеності (англ. uncertainty), що ми маємо стосовно того, яке повідомлення буде обрано. Її визначено як усереднену власну інформацію повідомлення з цього простору повідомлень:

де

позначує операцію математичного сподівання (англ. expected value).

Важливою властивістю ентропії є те, що вона є найбільшою, коли всі повідомлення в просторі повідомлень є рівноймовірними (тобто, ). В цьому випадку .

Іноді функцію виражають в термінах імовірностей розподілу:

де кожна та

Важливим особливим випадком цього є функція двійкової ентропії:

Спільна ентропія

Спільну ентропію (англ. joint entropy) двох дискретних випадкових змінних та визначають як ентропію їхнього спільного розподілу:

Якщо та є незалежними, то ця спільна ентропія є просто сумою їхніх окремих ентропій.

(Зауваження: Спільну ентропію не слід плутати з перехресною ентропією, незважаючи на подібний запис.)

Умовна ентропія (ухильність)

За заданого конкретного значення випадкової змінної умовну ентропію за визначено як

де є умовною ймовірністю за заданого .

Умовну ентропію (англ. conditional entropy) за заданого , що також називають ухильністю (англ. equivocation) від , задають як

Вона використовує умовне математичне сподівання з теорії імовірності.

Базовою властивістю умовної ентропії є те, що

Відстань Кульбака — Лейблера (приріст інформації)

Відстань Кульбака — Лейблера (або розходження інформації, приріст інформації, або відносна ентропія, англ. Kullback–Leibler divergence, information divergence, information gain, relative entropy) є способом порівнювання двох розподілів, «істинного» розподілу ймовірності та довільного розподілу ймовірності . Якщо ми стискаємо дані таким чином, який передбачає, що є розподілом, що лежить в основі якихось даних, тоді як насправді правильним розподілом є , то відстань Кульбака — Лейблера є числом усереднених додаткових бітів над рівнем, необхідних для стискання, або, математично,

В якомусь сенсі вона дійсно є «відстанню» від до , хоча вона й не є справжньою метрикою через те, що вона не є симетричною.

Взаємна (передавана) інформація

Виявляється, що однією з найкорисніших та найважливіших мір інформації є взаємна інформація (англ. mutual information), або передавана інформація (англ. transinformation). Вона є мірою того, як багато інформації може бути отримано про одну випадкову змінну шляхом спостерігання іншої. Взаємну інформацію відносно (яка концептуально представляє усереднену величину інформації про , яку можна здобути спостеріганням ) задають як

Основною властивістю взаємної інформації є те, що

Тобто, знаючи , ми можемо заощадити в середньому бітів у кодуванні , у порівнянні з незнанням . Взаємна інформація є симетричною:

Взаємну інформацію можливо виразити як усереднену відстань Кульбака — Лейблера (приріст інформації) апостеріорного розподілу ймовірності за заданого значення відносно апріорного розподілу ймовірності :

Іншими словами, вона є мірою того, наскільки в середньому зміниться розподіл ймовірності , якщо ми отримаємо значення . Обчислюють її часто як розходження між добутком відособлених розподілів та справжнім спільним розподілом:

Взаємна інформація є тісно пов'язаною з перевіркою логарифмічним відношенням правдоподібностей в контексті таблиць спряженості та мультиноміального розподілу, та з критерієм χ2 Пірсона: взаємну інформацію можливо розглядати як статистику для оцінювання незалежності в парі змінних, і вона має добре визначений асимптотичний розподіл.

Диференціальна ентропія

Основні міри дискретної ентропії було аналогічно розширено на неперервні простори шляхом заміни сум інтегралами, та функцій маси ймовірності функціями густини ймовірності. І хоча в обох випадках взаємна інформація виражає число бітів інформації, спільне для цих двох джерел, ця аналогія не передбачає однакових властивостей: наприклад, диференціальна ентропія може бути від'ємною.

Диференціальні аналоги ентропії, спільної ентропії, умовної ентропії та взаємної інформації визначено таким чином:

де є функцією густини спільного розподілу, та є відособленими розподілами, а є умовним розподілом.

Див. також

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.