Кількості інформації
Математична теорія інформації ґрунтується на теорії ймовірності й статистиці, і вимірює інформацію за допомогою декількох кількостей інформації (англ. quantities of information). Застосовувану в наступних формулах одиницю інформаційної ентропії визначає вибір логарифмічної основи. Найзвичнішою одиницею інформації є біт, що ґрунтується на двійковому логарифмі. До інших одиниць належать нат, що ґрунтується на натуральному логарифмі, та гартлі, що ґрунтується на десятковому логарифмі.
Надалі вираз вигляду , коли є нулем, вважається за згодою рівним нулеві. Це є виправданим, оскільки для будь-якої логарифмічної основи .
Власна інформація
Шеннон вивів міру інформаційного вмісту, названу власною інформацією (англ. self-information) або «несподіваністю» (англ. "surprisal") повідомлення :
де є ймовірністю обрання повідомлення з усіх можливих варіантів вибору в просторі повідомлень . Основа логарифму впливає лише на коефіцієнт масштабування, і, відтак, на одиниці, в яких виражається вимірюваний інформаційний вміст. Якщо основою логарифму є 2, то міра інформації виражається в одиницях бітів.
Інформація передається з джерела до отримувача лише якщо отримувач цієї інформації ще не мав її заздалегідь. Повідомлення, які передають інформацію, що відбувається напевно, і вже відома отримувачеві, реальної інформації не містять. Повідомлення, що трапляються нечасто, містять більше інформації, ніж повідомлення, які трапляються частіше. Цей факт віддзеркалено в наведеному вище рівнянні — незмінне повідомлення, тобто, з імовірністю 1, має нульову міру інформації. Крім того, складене повідомлення з двох (або більше) не пов'язаних (або взаємно незалежних) повідомлень матиме міру інформації, яка є сумою мір інформації кожного з повідомлень окремо. Цей факт також віддзеркалено в наведеному вище рівнянні, що підтверджує обґрунтованість його виведення.
Приклад. Повідомлення прогнозу погоди: «Прогноз на ніч: Темно. Тривала темрява, аж до широко розсіяного світла вранці.» Це повідомлення майже не містить інформації. Проте прогноз хуртовини безумовно міститиме інформацію, оскільки таке не трапляється щовечора. Величина інформації буде ще більшою в точному прогнозі снігу для теплого місця, такого як Маямі. Величина інформації в прогнозі снігу для місця, де сніг не йде ніколи (неможлива подія), є найвищою (нескінченність).
Ентропія
Ентропія (англ. entropy) дискретного простору повідомлень є мірою величини невизначеності (англ. uncertainty), що ми маємо стосовно того, яке повідомлення буде обрано. Її визначено як усереднену власну інформацію повідомлення з цього простору повідомлень:
де
- позначує операцію математичного сподівання (англ. expected value).
Важливою властивістю ентропії є те, що вона є найбільшою, коли всі повідомлення в просторі повідомлень є рівноймовірними (тобто, ). В цьому випадку .
Іноді функцію виражають в термінах імовірностей розподілу:
- де кожна та
Важливим особливим випадком цього є функція двійкової ентропії:
Спільна ентропія
Спільну ентропію (англ. joint entropy) двох дискретних випадкових змінних та визначають як ентропію їхнього спільного розподілу:
Якщо та є незалежними, то ця спільна ентропія є просто сумою їхніх окремих ентропій.
(Зауваження: Спільну ентропію не слід плутати з перехресною ентропією, незважаючи на подібний запис.)
Умовна ентропія (ухильність)
За заданого конкретного значення випадкової змінної умовну ентропію за визначено як
де є умовною ймовірністю за заданого .
Умовну ентропію (англ. conditional entropy) за заданого , що також називають ухильністю (англ. equivocation) від , задають як
Вона використовує умовне математичне сподівання з теорії імовірності.
Базовою властивістю умовної ентропії є те, що
Відстань Кульбака — Лейблера (приріст інформації)
Відстань Кульбака — Лейблера (або розходження інформації, приріст інформації, або відносна ентропія, англ. Kullback–Leibler divergence, information divergence, information gain, relative entropy) є способом порівнювання двох розподілів, «істинного» розподілу ймовірності та довільного розподілу ймовірності . Якщо ми стискаємо дані таким чином, який передбачає, що є розподілом, що лежить в основі якихось даних, тоді як насправді правильним розподілом є , то відстань Кульбака — Лейблера є числом усереднених додаткових бітів над рівнем, необхідних для стискання, або, математично,
В якомусь сенсі вона дійсно є «відстанню» від до , хоча вона й не є справжньою метрикою через те, що вона не є симетричною.
Взаємна (передавана) інформація
Виявляється, що однією з найкорисніших та найважливіших мір інформації є взаємна інформація (англ. mutual information), або передавана інформація (англ. transinformation). Вона є мірою того, як багато інформації може бути отримано про одну випадкову змінну шляхом спостерігання іншої. Взаємну інформацію відносно (яка концептуально представляє усереднену величину інформації про , яку можна здобути спостеріганням ) задають як
Основною властивістю взаємної інформації є те, що
Тобто, знаючи , ми можемо заощадити в середньому бітів у кодуванні , у порівнянні з незнанням . Взаємна інформація є симетричною:
Взаємну інформацію можливо виразити як усереднену відстань Кульбака — Лейблера (приріст інформації) апостеріорного розподілу ймовірності за заданого значення відносно апріорного розподілу ймовірності :
Іншими словами, вона є мірою того, наскільки в середньому зміниться розподіл ймовірності , якщо ми отримаємо значення . Обчислюють її часто як розходження між добутком відособлених розподілів та справжнім спільним розподілом:
Взаємна інформація є тісно пов'язаною з перевіркою логарифмічним відношенням правдоподібностей в контексті таблиць спряженості та мультиноміального розподілу, та з критерієм χ2 Пірсона: взаємну інформацію можливо розглядати як статистику для оцінювання незалежності в парі змінних, і вона має добре визначений асимптотичний розподіл.
Диференціальна ентропія
Основні міри дискретної ентропії було аналогічно розширено на неперервні простори шляхом заміни сум інтегралами, та функцій маси ймовірності функціями густини ймовірності. І хоча в обох випадках взаємна інформація виражає число бітів інформації, спільне для цих двох джерел, ця аналогія не передбачає однакових властивостей: наприклад, диференціальна ентропія може бути від'ємною.
Диференціальні аналоги ентропії, спільної ентропії, умовної ентропії та взаємної інформації визначено таким чином:
де є функцією густини спільного розподілу, та є відособленими розподілами, а є умовним розподілом.