Розходження Кульбака — Лейблера

В математичній статистиці розхо́дження, диверге́нція або ві́дстань Кульбака — Лейблера (що також називають відно́сною ентропі́єю, англ. Kullback–Leibler divergence, relative entropy) є мірою того, наскільки один розподіл імовірності відрізняється від іншого, еталонного розподілу ймовірності.[1][2] До його застосувань належать відно́сна (шеннонова) ентропі́я в інформаційних системах, випадко́вість (англ. randomness) у неперервних часових рядах, та при́ріст інформа́ції (англ. information gain) при порівнюванні статистичних моделей висновування. На противагу до різновидності інформації, воно є асиметричною міжрозподіловою мірою, і відтак не відповідає вимогам статистичної метрики розкиду. В простому випадку нульове розходження Кульбака — Лейблера показує, що два розглядані розподіли є ідентичними. Простішими словами, воно є мірою несподіваності, з різноманітними застосуваннями, такими як прикладна статистика, гідромеханіка, нейронаука та машинне навчання.

Етимологія

Розходження Кульбака — Лейблера було запропоновано 1951 року Соломоном Кульбаком та Річардом Лейблером як орієнто́ване розхо́дження (англ. directed divergence) між двома розподілами; Кульбак віддавав перевагу термінові інформа́ція розрі́знення (англ. discrimination information).[3] Це розходження обговорено в книзі Кульбака 1959 року «Теорія інформації та статистика».[2]

Означення

Для дискретних розподілів ймовірності $P$ та $Q$ , визначених на одному й тому ж імовірнісному просторі, розходженням Кульбака — Лейблера означено[4]

$D_{\text{KL}}(P\parallel Q)=-\sum _{x\in {\mathcal {X}}}P(x)\log \left({\frac {Q(x)}{P(x)}}\right)$

(1)

що є рівнозначним

D_{\text{KL}}(P\parallel Q)=\sum _{x\in {\mathcal {X}}}P(x)\log \left({\frac {P(x)}{Q(x)}}\right).

Іншими словами, воно є математичним сподіванням логарифмічної різниці між імовірностями $P$ та $Q$ , де математичне сподівання беруть із застосуванням ймовірностей $P$ . Розходження Кульбака — Лейблера можливо визначити лише якщо $Q(x)=0$ для будь-якого $x$ означає $P(x)=0$ (абсолютна неперервність). Коли $P(x)$ є нулем, внесок відповідного члену розцінюють як нульовий, оскільки

\lim _{x\to 0^{+}}x\log(x)=0.

Для розподілів $P$ та $Q$ неперервної випадкової змінної розходженням Кульбака — Лейблера означують інтеграл[5]^{:с. 55}

$D_{\text{KL}}(P\parallel Q)=\int _{-\infty }^{\infty }p(x)\log \left({\frac {p(x)}{q(x)}}\right)\,dx$

(2)

де символами $p$ та $q$ позначено густини імовірності $P$ та $Q$ .

Загальніше, якщо $P$ та $Q$ є ймовірнісними мірами над множиною ${\mathcal {X}}$ , а $P$ є абсолютно неперервною щодо $Q$ , то розходженням Кульбака — Лейблера від $Q$ до $P$ означують

D_{\text{KL}}(P\parallel Q)=\int _{\mathcal {X}}\log \left({\frac {dP}{dQ}}\right)\,dP,

де ${\frac {dP}{dQ}}$ є похідною Радона — Нікодима $P$ щодо $Q$ , і за умови існування правобічного виразу. Це може бути рівнозначно (згідно ланцюгового правила) записано як

D_{\text{KL}}(P\parallel Q)=\int _{\mathcal {X}}\log \left({\frac {dP}{dQ}}\right){\frac {dP}{dQ}}\,dQ,

що є ентропією $P$ відносно $Q$ . У продовження цього випадку, якщо $\mu$ є будь-якою мірою на ${\mathcal {X}}$ , для якої існують $p={\frac {dP}{d\mu }}$ та $q={\frac {dQ}{d\mu }}$ (що означає, що $p$ та $q$ є абсолютно неперервними щодо $\mu$ ), то розходження Кульбака — Лейблера від $Q$ до $P$ задають як

D_{\text{KL}}(P\parallel Q)=\int _{\mathcal {X}}p\log \left({\frac {p}{q}}\right)\,d\mu .

Логарифми в цих формулах беруть за основою 2, якщо інформацію вимірюють в одиницях бітів, або за основою $e$ , якщо інформацію вимірюють в натах. Більшість формул, що залучають розходження Кульбака — Лейблера, виконуються не залежно від основи логарифму.

Існують різні угоди, як посилатися на $D_{\text{KL}}(P\parallel Q)$ словами. Часто на нього посилаються як на розходження між $P$ та $Q$ , проте, це не передає фундаментальної асиметричності в цьому відношенні. Іноді, як у цій статті, можна знайти його опис як розходження $P$ від, або щодо $Q$ . Це віддзеркалює асиметричність баєсового висновування, що починається від апріорного $Q$ , і уточнюється до апостеріорного $P$ .

Простий приклад

Кульбак[2] наводить простий приклад (таблиця 2.1, приклад 2.1). Нехай $P$ та $Q$ є розподілами, показаними в таблиці й на малюнку. $P$ є розподілом з лівого боку малюнку, біноміальним розподілом з $N=2$ та $p=0.4$ . $Q$ є розподілом з правого боку малюнку, дискретним рівномірним розподілом з трьома можливими результатами, $x=0$ , $1$ чи $2$ (тобто, ${\mathcal {X}}=\{0,1,2\}$ ), кожен з імовірністю $p=1/3$ .

x	0	1	2
Розподіл P(x)	0.36	0.48	0.16
Розподіл Q(x)	0.333	0.333	0.333

КЛ-розходження $D_{\text{KL}}(P\parallel Q)$ та $D_{\text{KL}}(Q\parallel P)$ обчислюють із застосуванням означення (1) наступним чином. Цей приклад використовує натуральний логарифм з основою e, позначуваний $\operatorname {ln}$ , щоби отримати результати в натах (див. Одиниці вимірювання інформації).

{\begin{aligned}D_{\text{KL}}(P\parallel Q)&=-\sum _{x\in {\mathcal {X}}}P(x)\ln \left({\frac {P(x)}{Q(x)}}\right)\\&=-0.36\ln \left({\frac {0.36}{0.333}}\right)-0.48\ln \left({\frac {0.48}{0.333}}\right)-0.16\ln \left({\frac {0.16}{0.333}}\right)\\&=-0.0852996\end{aligned}}

{\begin{aligned}D_{\text{KL}}(Q\parallel P)&=-\sum _{x\in {\mathcal {X}}}Q(x)\ln \left({\frac {Q(x)}{P(x)}}\right)\\&=-0.333\ln \left({\frac {0.333}{0.36}}\right)-0.333\ln \left({\frac {0.333}{0.48}}\right)-0.333\ln \left({\frac {0.333}{0.16}}\right)\\&=-0.097455\end{aligned}}

Інтерпретації

Розходження Кульбака — Лейблера від $Q$ до $P$ часто позначують через $D_{\text{KL}}(P\parallel Q)$ .

В контексті машинного навчання $D_{\text{KL}}(P\parallel Q)$ часто називають приростом інформації, отримуваним при застосовуванні $Q$ замість $P$ . За аналогією з теорією інформації, його також називають відно́сною ентропі́єю (англ. relative entropy) $P$ щодо $Q$ . В контексті теорії кодування $D_{\text{KL}}(P\parallel Q)$ можливо тлумачити як вимірювання математичного сподівання числа додаткових бітів, необхідних для кодування зразків з $P$ із застосуванням коду, оптимізованого для $Q$ , замість коду, оптимізованого для $P$ .

Виражене мовою баєсового висновування, $D_{\text{KL}}(P\parallel Q)$ є мірою приросту інформації при перегляді переконань від апріорного розподілу ймовірності $Q$ до апостеріорного розподілу ймовірності $P$ . Іншими словами, це величина інформації, що втрачається при застосуванні $Q$ для наближення $P$ .[6] У застосуваннях $P$ зазвичай представляє «істинний» розподіл даних, спостережень, або точно обчислений теоретичний розподіл, тоді як $Q$ зазвичай представляє теорію, модель, опис, або наближення $P$ . Щоби знаходити розподіл $Q$ , який є найближчим до $P$ , ми можемо мінімізувати КЛ-розходження, обчислюючи інформаційну проекцію.

Розходження Кульбака — Лейблера є окремим випадком ширшого класу розходжень, що називають f-розходженнями, а також класу брегманових розходжень. Воно є єдиним таким розходженням над імовірностями, що належить до обох класів. І хоч його й часто інтуїтивно сприймають як спосіб вимірювання відстані між розподілами ймовірності, розходження Кульбака — Лейблера не є справжньою метрикою. З ним не дотримується нерівність трикутника, і в загальному випадку $D_{\text{KL}}(P\parallel Q)$ не дорівнює $D_{\text{KL}}(Q\parallel P)$ . Проте, його нескінченно малий вигляд, а саме його гессіан, дає метричний тензор, відомий як фішерова інформаційна метрика.

Характеризування

Артур Гобсон довів, що розходження Кульбака — Лейблера є єдиною мірою відмінності між розподілами ймовірності, яка задовольняє деякі бажані властивості, що є канонічним розширенням присутніх у широко вживаному характеризуванні ентропії.[7] Отже, взаємна інформація є єдиною мірою взаємної залежності, яка дотримується певних пов'язаних умов, оскільки її може бути визначено в термінах розходження Кульбака — Лейблера.

Існує також баєсове характеризування розходження Кульбака — Лейблера.[8]

Обґрунтування

Ілюстрація розходження Кульбака — Лейблера (КЛ) для двох нормальних розподілів. Чітко видно типову асиметричність розходження Кульбака — Лейблера.

В теорії інформації теорема Крафта — Макміллана встановлює, що будь-яку безпосередньо розкодовувану схему кодування для кодування повідомлення для виявляння одного значення $x_{i}$ з ряду можливостей $X$ можливо розглядати як представлення неявного розподілу ймовірності $q(x_{i})=2^{-l_{i}}$ над $X$ , де $l_{i}$ є довжиною коду для $x_{i}$ в бітах. Отже, розходження Кульбака — Лейблера можливо інтерпретувати як математичне сподівання додаткової довжини повідомлення над рівнем, яка мусить передаватися, якщо застосовується код, що є оптимальним для заданого (неправильного) розподілу $Q$ , в порівнянні з застосуванням коду, що ґрунтується на істинному розподілі $P$ .

{\begin{aligned}D_{\text{KL}}(P\parallel Q)&=-\sum _{x\in {\mathcal {X}}}p(x)\log q(x)+\sum _{x\in {\mathcal {X}}}p(x)\log p(x)\\&=\mathrm {H} (P,Q)-\mathrm {H} (P)\end{aligned}}

де $\mathrm {H} (P,Q)$ є перехресною ентропією $P$ та $Q$ , а $\mathrm {H} (P)$ є ентропією $P$ .

Зауважте також, що існує зв'язок між розходженням Кульбака — Лейблера та «функцією відхилень» в теорії великих відхилень.[9][10]

Властивості

Розходження Кульбака — Лейблера є завжди невід'ємним,

D_{\text{KL}}(P\parallel Q)\geq 0,

результат, відомий як нерівність Гіббза, з нульовим

D_{\text{KL}}(P\parallel Q)

якщо і лише якщо

P=Q

майже скрізь. Ентропія

\mathrm {H} (P)

відтак встановлює мінімальне значення для перехресної ентропії

\mathrm {H} (P,Q)

, математичного сподівання числа бітів, необхідних при використанні коду на основі

Q

замість

P

, і, відтак, розходження Кульбака — Лейблера представляє математичне сподівання числа додаткових бітів, що мусять передаватися, щоби ідентифікувати значення

x

, вибране з

X

, якщо застосовується код, що відповідає розподілові ймовірності

Q

, а не «істинному» розподілові

P

.

Розходження Кульбака — Лейблера залишається однозначно означеним і для неперервних розподілів, а до того ж ще й інваріантним відносно перетворень параметрів. Наприклад, якщо здійснюють перетворення змінної $x$ на змінну $y(x)$ , то, оскільки $P(x)dx=P(y)dy$ та $Q(x)dx=Q(y)dy$ , розходження Кульбака — Лейблера може бути переписано:

{\begin{aligned}D_{\text{KL}}(P\parallel Q)&=\int _{x_{a}}^{x_{b}}P(x)\log \left({\frac {P(x)}{Q(x)}}\right)\,dx\\[6pt]&=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P(y)\,{\frac {dy}{dx}}}{Q(y)\,{\frac {dy}{dx}}}}\right)\,dy=\int _{y_{a}}^{y_{b}}P(y)\log \left({\frac {P(y)}{Q(y)}}\right)\,dy\end{aligned}}

де

y_{a}=y(x_{a})

та

y_{b}=y(x_{b})

. І хоча й передбачалося, що перетворення було неперервним, але це не є обов'язковим. Це також показує, що розходження Кульбака — Лейблера дає розмірнісно стійку величину, оскільки якщо

x

є змінною з розмірністю, то

P(x)

та

Q(x)

також мають розмірності, бо, наприклад,

P(x)dx

розмірностей не має. Аргумент логарифмічного члену є й залишається безрозмірнісним, як він і мусить. Отже, це можливо розглядати як певним чином фундаментальнішу величину, ніж деякі інші властивості в теорії інформаціїї[11] (такі як власна інформація та шеннонова ентропія), що для не дискретних ймовірностей можуть ставати невизначеними або від'ємними.

Розходження Кульбака — Лейблера є адитивним для незалежних розподілів практично так само, як і шеннонова ентропія. Якщо $P_{1},P_{2}$ є незалежними розподілами, зі спільним розподілом $P(x,y)=P_{1}(x)P_{2}(y)$ , і $Q,Q_{1},Q_{2}$ аналогічно, то

D_{\text{KL}}(P\parallel Q)=D_{\text{KL}}(P_{1}\parallel Q_{1})+D_{\text{KL}}(P_{2}\parallel Q_{2}).

Розходження Кульбака — Лейблера $D_{\text{KL}}(P\parallel Q)$ є опуклим в парі функцій маси ймовірності $(p,q)$ , тобто, якщо $(p_{1},q_{1})$ та $(p_{2},q_{2})$ є двома парами функцій маси ймовірності, то

D_{\text{KL}}(\lambda p_{1}+(1-\lambda )p_{2}\parallel \lambda q_{1}+(1-\lambda )q_{2})\leq \lambda D_{\text{KL}}(p_{1}\parallel q_{1})+(1-\lambda )D_{\text{KL}}(p_{2}\parallel q_{2}){\text{ for }}0\leq \lambda \leq 1.

Приклади

Багатовимірні нормальні розподіли

Припустімо, що ми маємо два багатовимірні нормальні розподіли з середніми $\mu _{0},\mu _{1}$ та з (невиродженими) коваріаційними матрицями $\Sigma _{0},\Sigma _{1}.$ Якщо ці два розподіли мають однакову розмірність, $k$ , то розходження Кульбака — Лейблера між ними є таким:[12]^{:с. 13}

D_{\text{KL}}({\mathcal {N}}_{0}\parallel {\mathcal {N}}_{1})={\frac {1}{2}}\left(\operatorname {tr} \left(\Sigma _{1}^{-1}\Sigma _{0}\right)+(\mu _{1}-\mu _{0})^{\mathsf {T}}\Sigma _{1}^{-1}(\mu _{1}-\mu _{0})-k+\ln \left({\frac {\det \Sigma _{1}}{\det \Sigma _{0}}}\right)\right).

Логарифм в крайньому члені мусить братися за основою e, оскільки всі члени, крім крайнього, є логарифмами за основою e виразів, що є або коефіцієнтами функції густини, або інакше виникають натурально. Тож це рівняння дає результат, вимірюваний в натах. Ділення всього наведеного вище виразу на $ln(2)$ дає розходження в бітах.

Особливим випадком, що є широко вживаною величиною у варіаційному висновуванні, є КЛ-розходження між діагональним багатовимірним нормальним, та стандартним нормальним розподілами:

D_{\text{KL}}\left({\mathcal {N}}\left((\mu _{1},\ldots ,\mu _{k})^{\mathsf {T}},\operatorname {diag} (\sigma _{1}^{2},\ldots ,\sigma _{k}^{2})\right)\parallel {\mathcal {N}}\left(\mathbf {0} ,\mathbf {I} \right)\right)={1 \over 2}\sum _{i=1}^{k}(\sigma _{i}^{2}+\mu _{i}^{2}-\ln(\sigma _{i}^{2})-1).

Відношення до метрик

Можна було би спокуситися назвати розходження Кульбака — Лейблера «метрикою відстані» на просторі розподілів імовірності, але це не буде правильним, оскільки воно не є симетричним, тобто, $D_{\text{KL}}(P\parallel Q)\neq D_{\text{KL}}(Q\parallel P)$ , як і не задовольняє воно нерівність трикутника. Незважаючи на це, будучи дометрикою, воно породжує топологію на просторі розподілів імовірності. Конкретніше, якщо $\{P_{1},P_{2},\ldots \}$ є послідовністю розподілів, такою, що

\lim _{n\to \infty }D_{\text{KL}}(P_{n}\parallel Q)=0

то кажуть, що

P_{n}{\xrightarrow {D}}Q.

З нерівності Прінскера випливає, що

P_{n}{\xrightarrow {D}}P\Rightarrow P_{n}{\xrightarrow {TV}}P,

де крайнє відповідає звичайній збіжності в повній варіації.

Далі Реньї (1970, 1961)[13][14]

Інформаційна метрика Фішера

Розходження Кульбака — Лейблера є безпосередньо пов'язаним з інформаційною метрикою Фішера. Це можна зробити явним наступним чином. Припустімо, що обидва розподіли ймовірності $P$ та $Q$ параметризовано деяким (можливо, багатовимірним) параметром $\theta$ . Розгляньмо тоді два близькі значення $P=P(\theta )$ та $Q=P(\theta _{0})$ , такі, що параметр $\theta$ відрізняється лише на невелику величину від значення параметру $\theta _{0}$ . Конкретно, до першого порядку матимемо (із застосуванням ейнштейнового запису підсумовування)

P(\theta )=P(\theta _{0})+\Delta \theta ^{j}P_{j}(\theta _{0})+\cdots

де $\Delta \theta ^{j}=(\theta -\theta _{0})^{j}$ є невеличкою зміною $\theta$ в напрямку $j$ , а $P_{j}\left(\theta _{0}\right)={\frac {\partial P}{\partial \theta ^{j}}}(\theta _{0})$ є відповідним темпом зміни в розподілі ймовірності. Оскільки розходження Кульбака — Лейблера має нульовий абсолютний мінімум для $P=Q$ , тобто, $\theta =\theta _{0}$ , воно змінюється в маленьких параметрах $\Delta \theta ^{j}$ лише до другого порядку. Формальніше, як і для будь-якого мінімуму, перша похідна цього розходження зникає

\left.{\frac {\partial }{\partial \theta ^{j}}}\right|_{\theta =\theta _{0}}D_{KL}(P(\theta )\parallel P(\theta _{0}))=0,

і за розкладом Тейлора маємо до другого порядку

D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))={\frac {1}{2}}\Delta \theta ^{j}\Delta \theta ^{k}g_{jk}(\theta _{0})+\cdots

де матриця Гессе розходження

g_{jk}(\theta _{0})=\left.{\frac {\partial ^{2}}{\partial \theta ^{j}\,\partial \theta ^{k}}}\right|_{\theta =\theta _{0}}D_{\text{KL}}(P(\theta )\parallel P(\theta _{0}))

мусить бути додатно напівозначеною. Якщо дозволити $\theta _{0}$ змінюватися (й опустити підіндекс 0), то гессіан $g_{jk}(\theta )$ визначатиме (можливо, вироджену) ріманову метрику на просторі параметру $θ$ , що називають інформаційною метрикою Фішера.

Теорема інформаційної метрики Фішера

Коли $p_{(x,\rho )}$ задовольняє наступні нормативні умови:

{\tfrac {\partial \log(p)}{\partial \rho }},{\tfrac {\partial ^{2}\log(p)}{\partial \rho ^{2}}},{\tfrac {\partial ^{3}\log(p)}{\partial \rho ^{3}}}

існують,

{\begin{aligned}\left|{\frac {\partial p}{\partial \rho }}\right|&<F(x):\int _{x=0}^{\infty }F(x)\,dx<\infty ,\\\left|{\frac {\partial ^{2}p}{\partial \rho ^{2}}}\right|&<G(x):\int _{x=0}^{\infty }G(x)\,dx<\infty \\\left|{\frac {\partial ^{3}\log(p)}{\partial \rho ^{3}}}\right|&<H(x):\int _{x=0}^{\infty }p(x,0)H(x)\,dx<\xi <\infty \end{aligned}}

де $ξ$ є незалежною від $ρ$

\left.\int _{x=0}^{\infty }{\frac {\partial p(x,\rho )}{\partial \rho }}\right|_{\rho =0}\,dx=\left.\int _{x=0}^{\infty }{\frac {\partial ^{2}p(x,\rho )}{\partial \rho ^{2}}}\right|_{\rho =0}\,dx=0

тоді

{\mathcal {D}}(p(x,0)\parallel p(x,\rho ))={\frac {c\rho ^{2}}{2}}+{\mathcal {O}}(\rho ^{3}){\text{ as }}\rho \to 0.

Відношення до інших величин теорії інформації

Багато інших величин теорії інформації можливо інтерпретувати як застосування розходження Кульбака — Лейблера до особливих випадків.

Власна інформація

Власну інформацію, відому також як інформаційний вміст сигналу, випадкової змінної або події, означено як від'ємний логарифм імовірності трапляння заданого результату.

При застосуванні до дискретної випадкової змінної власну інформацію може бути представлено як^{[джерело?]}

\operatorname {\operatorname {I} } (m)=D_{\text{KL}}(\delta _{im}\parallel \{p_{i}\}),

є розходженням Кульбака — Лейблера розподілу ймовірності $P(i)$ від дельти Кронекера, що представляє впевненість, що $i=m$ — тобто, число додаткових біт, що мусить бути передано, щоби ідентифікувати $i$ , якби отримувачеві був доступним розподіл імовірності $P(i)$ , а не той факт, що $i=m$ .

Взаємна інформація

Взаємна інформація^{[джерело?]}

{\begin{aligned}\operatorname {I} (X;Y)&=D_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))\\&=\operatorname {E} _{X}\{D_{\text{KL}}(P(Y\mid X)\parallel P(Y))\}\\&=\operatorname {E} _{Y}\{D_{\text{KL}}(P(X\mid Y)\parallel P(X))\}\end{aligned}}

є розходженням Кульбака — Лейблера добутку $P(X)P(Y)$ двох розподілів відособлених ймовірностей від спільного розподілу ймовірності $P(X,Y)$ — тобто, математичним сподіванням числа бітів, яке мусить бути передано, щоби ідентифікувати $X$ та $Y$ , якщо їх кодовано із застосуванням лише їхніх відособлених розподілів замість спільного розподілу. Рівнозначно, якщо спільна ймовірність $P(X,Y)$ є відомою, то це є математичним сподіванням числа додаткових бітів, які мусить бути в середньому надіслано, щоби ідентифікувати $Y$ , якщо значення $X$ ще не є відомим отримувачеві.

Шеннонова ентропія

Шеннонова ентропія^{[джерело?]}

{\begin{aligned}\mathrm {H} (X)&=\operatorname {E} [\operatorname {I} _{X}(x)]\\&=\log(N)-D_{\text{KL}}(p_{X}(x)\parallel P_{U}(X))\end{aligned}}

є числом бітів, які мало би бути передано, щоби ідентифікувати $X$ з $N$ однаково ймовірних можливостей, меншим розходженням Кульбака — Лейблера рівномірного розподілу випадкових варіат $X$ , $P_{U}(X)$ , від істинного розподілу $P(X)$ — тобто, меншим за математичне сподівання числа заощаджених бітів, які мало би бути передано, якби значення $X$ було закодовано відповідно до рівномірного розподілу $P_{U}(X)$ замість істинного розподілу $P(X)$ .

Умовна ентропія

Умовна ентропія^{[джерело?]}

{\begin{aligned}\mathrm {H} (X\mid Y)&=\log(N)-D_{\text{KL}}(P(X,Y)\parallel P_{U}(X)P(Y))\\&=\log(N)-D_{\text{KL}}(P(X,Y)\parallel P(X)P(Y))-D_{\text{KL}}(P(X)\parallel P_{U}(X))\\&=\mathrm {H} (X)-\operatorname {I} (X;Y)\\&=\log(N)-\operatorname {E} _{Y}{\bigl [}D_{\text{KL}}(P(X\mid Y)\parallel P_{U}(X)){\bigr ]}\end{aligned}}

є числом бітів, які мало би бути передано, щоби ідентифікувати $X$ з $N$ однаково ймовірних можливостей, меншим розходженням Кульбака — Лейблера добутку розподілів $P_{U}(X)P(Y)$ від істинного спільного розподілу $P(X,Y)$ — тобто, меншим за математичне сподівання числа заощаджених бітів, які мало би бути передано, якби значення $X$ було кодовано відповідно до рівномірного розподілу $P_{U}(X)$ замість умовного розподілу $P(X|Y)$ змінної $X$ за заданого значення $Y$ .

Перехресна ентропія

Перехресна ентропія між двома розподілами ймовірності вимірює усереднене числом бітів, необхідних, щоби ідентифікувати подію з набору можливостей, якщо застосовувана схема кодування ґрунтується на заданому розподілі ймовірності $q$ замість «істинного» розподілу $p$ . Відтак, перехресну ентропію двох розподілів $p$ та $q$ над одним і тим же ймовірнісним простором означено наступним чином:^{[джерело?]}

\mathrm {H} (p,q)=\operatorname {E} _{p}[-\log(q)]=\mathrm {H} (p)+D_{\text{KL}}(p\parallel q).

Баєсове уточнювання

У баєсовій статистиці розходження Кульбака — Лейблера можливо застосовувати як міру приросту інформації при переході від апріорного розподілу до апостеріорного розподілу: $p(x)\to p(x\mid I)$ . Якщо виявлено деякий новий факт $Y=y$ , його може бути використано, щоби уточнити апостеріорний розподіл для $X$ з $p(x\mid I)$ до нового апостеріорного розподілу $p(x\mid y,I)$ із застосуванням теореми Баєса:

p(x\mid y,I)={\frac {p(y\mid x,I)p(x\mid I)}{p(y\mid I)}}

Цей розподіл має нову ентропію:

\mathrm {H} {\big (}p(-\mid y,I){\big )}=-\sum _{x}p(x\mid y,I)\log p(x\mid y,I),

яка може бути меншою або більшою за первинну ентропію $\mathrm {H} (p(-\mid I))$ . Проте, з точки зору нового розподілу ймовірності, можливо оцінити, що застосування первинного коду на основі $p(x\mid I)$ замість нового коду на основі $p(x\mid y,I)$ додало би таке очікуване число бітів

D_{\text{KL}}{\big (}p(-\mid y,I)\parallel p(-\mid I){\big )}=\sum _{x}p(x\mid y,I)\log \left({\frac {p(x\mid y,I)}{p(x\mid I)}}\right)

до довжини повідомлення. Воно відтак представляє величину корисної інформації, або приріст інформації, про $X$ , що за нашою оцінкою ми дізналися, виявивши $Y=y$ .

Якщо потім надходять подальші дані, $Y_{2}=y_{2}$ , то розподіл імовірності для $x$ може бути уточнено далі, щоби дати нове найкраще припущення $p(x\mid y_{1},y_{2},I)$ . Якщо повторно дослідити приріст інформації для застосування $p(x\mid y_{1},I)$ замість $p(x\mid I)$ , то виявиться, що він може бути як більшим, так і меншим за оцінений минулого разу:

\sum _{x}p(x\mid y_{1},y_{2},I)\log \left({\frac {p(x\mid y_{1},y_{2},I)}{p(x\mid I)}}\right)

може бути ≤ або > за

\displaystyle \sum _{x}p(x\mid y_{1},I)\log \left({\frac {p(x\mid y_{1},I)}{p(x\mid I)}}\right)

і, таким чином, об'єднаний приріст інформації не підкоряється нерівності трикутника:

D_{\text{KL}}{\big (}p(-\mid y_{1},y_{2},I)\parallel p(-\mid I){\big )}

може бути <, = або > за

D_{\text{KL}}{\big (}p(-\mid y_{1},y_{2},I)\parallel p(-\mid y_{1},I){\big )}+D_{\text{KL}}{\big (}p(-\mid y_{1},I)\parallel p(-\mid I){\big )}

Все, що можливо сказати, це що в середньому при усереднюванні із застосуванням $p(y_{2}\mid y_{1},x,I)$ ці дві сторони будуть приблизно рівними.

Баєсове планування експериментів

Поширеною метою в баєсовім плануванні експериментів є максимізувати математичне сподівання розходження Кульбака — Лейблера між апріорним та апостеріорним.[15] Коли апостеріорні наближено вважають нормальними розподілами, то план, що максимізує математичне сподівання розходження Кульбака — Лейблера, називають баєсовим d-оптимальним.

Розрізнювальна інформація

Розходження Кульбака — Лейблера ${\textstyle D_{\text{KL}}{\bigl (}p(x\mid H_{1})\parallel p(x\mid H_{0}){\bigr )}}$ можливо також розглядати як очікувану розрі́знювальну інформа́цію (англ. discrimination information) для $H_{1}$ над $H_{0}$ : середню інформацію на зразок для розрізнення на користь гіпотези $H_{1}$ проти гіпотези $H_{0}$ , коли гіпотеза $H_{1}$ є істинною.[16] Іншою назвою цієї величини, даною їй І. Дж. Ґудом, є очікувана вага свідчення для $H_{1}$ над $H_{0}$ , якої варто чекати від кожного зразка.

Очікувана вага свідчення для $H_{1}$ над $H_{0}$ не є тим же, що й приріст інформації про розподіл імовірності $p(H)$ цих гіпотез, очікуваний на зразок,

D_{\text{KL}}(p(x\mid H_{1})\parallel p(x\mid H_{0}))\neq IG=D_{\text{KL}}(p(H\mid x)\parallel p(H\mid I)).

Як функцію корисності в баєсовім плануванні експерименту, щоби обирати оптимальне наступне питання для дослідження, можливо використовувати будь-яку з цих двох величин, але вони загалом вестимуть до дещо різних стратегій експериментування.

На ентропійній шкалі приросту інформації різниця між майже впевненістю та абсолютною впевненістю є дуже маленькою — кодування відповідно до майже впевненості вимагає заледве більше бітів, ніж кодування відповідно до впевненості абсолютної. З іншого боку, на логіт-шкалі, що випливає з ваги свідчення, різниця між цими двома є величезною — можливо, нескінченною; це може віддзеркалювати різницю між тим, щоби бути майже впевненими (на ймовірнісному рівні), що, скажімо, гіпотеза Рімана є правильною, в порівнянні з тим, щоби бути впевненими в її правильності, оскільки вона має математичне доведення. Ці дві різні шкали функції втрат для невизначеності є корисними обидві, відповідно до того, наскільки добре кожна з них віддзеркалює певні обставини задачі, що розглядають.

Принцип мінімальної розрізнювальної інформації

Ідея розходження Кульбака — Лейблера як розрізнювальної інформації привела Кульбака до пропозиції принципу мініма́льної розрі́знювальної інформа́ції (МРІ, англ. Minimum Discrimination Information, MDI): за наявності нових фактів повинно бути обрано новий розподіл $f$ , що є якомога важче розрізнити від первинного розподілу $f_{0}$ ; так що нові дані продукують якомога менший приріст інформації $D_{\text{KL}}(f\parallel f_{0})$ .

Наприклад, якщо був апріорний розподіл $p(x,a)$ над $x$ та $a$ , і згодом дізналися, що істинним розподілом $a$ був $u(a)$ , то розходженням Кульбака — Лейблера між новим спільним розподілом для $x$ та $a$ , $q(x\mid a)u(a)$ , та ранішим апріорним розподілом, буде

D_{\text{KL}}(q(x\mid a)u(a)\parallel p(x,a))=\operatorname {E} _{u(a)}\left\{D_{\text{KL}}(q(x\mid a)\parallel p(x\mid a))\right\}+D_{\text{KL}}(u(a)\parallel p(a)),

тобто, сума розходження Кульбака — Лейблера $p(a)$ , апріорного розподілу $a$ , від уточненого розподілу $u(a)$ , та математичного сподівання (із застосуванням розподілу ймовірності $u(a)$ ) розходження Кульбака — Лейблера апріорного умовного розподілу $p(x\mid a)$ від нового умовного розподілу $q(x\mid a)$ . (Зауважте, що крайнє математичне сподівання часто називають умовним розходженням Кульбака — Лейблера, англ. conditional Kullback–Leibler divergence, (або умовною відносною ентропією, англ. conditional relative entropy), і позначують $D_{\text{KL}}(q(x\mid a)\parallel p(x\mid a))$ [17]^{:с. 22}) Вона мінімізується, якщо $q(x\mid a)=p(x\mid a)$ над усім носієм $u(a)$ ; і зауважмо, що цей результат включає теорему Баєса, якщо новий розподіл $u(a)$ є фактично δ-функцією, що представляє впевненість у тім, що $a$ має одне певне значення.

МРІ можливо розглядати як розширення принципу недостатнього обґрунтування Лапласа, та принципу максимальної ентропії Е. Т. Джейнса. Зокрема, вона є природним розширенням принципу максимальної ентропії з дискретних на неперервні розподіли, для яких шеннонова ентропія перестає бути настільки корисною (див. диференціальну ентропію), але розходження Кульбака — Лейблера залишається настільки ж відповідним.

В інженерній літературі МРІ іноді називають принципом мінімальної перехресної ентропії (МПЕ, англ. Principle of Minimum Cross-Entropy, MCE), або, для скорочення, англ. Minxent. Мінімізування розходження Кульбака — Лейблера від $m$ до $p$ по відношенню до $m$ є рівнозначним мінімізуванню перехресної ентропії $p$ та $m$ , оскільки

\mathrm {H} (p,m)=\mathrm {H} (p)+D_{\text{KL}}(p\parallel m),

що є доречним, якщо намагатися обрати адекватне наближення $p$ . Проте так же часто це й не є завданням, якого намагаються досягти. Натомість, так же часто це $m$ є деякою незмінною апріорною орієнтирною мірою, а $p$ є тим, що намагаються оптимізувати, мінімізуючи $D_{\text{KL}}(p\parallel m)$ за деякого обмеження. Це призвело до деякої неоднозначності в літературі, і деякі автори намагаються розв'язати цю невідповідність, переозначуючи перехресну ентропію як $D_{\text{KL}}(p\parallel m)$ замість $\mathrm {H} (p,m)$ .

Відношення до доступної роботи

Графік залежності від тиску та об'єму доступної роботи молю газу аргону відносно н. у., обчисленої як

T_{o}

на розходження Кульбака — Лейблера.

Коли ймовірності перемножуються, несподіваності додаються.[18] Несподіваність для події з імовірністю $p$ означено як $s=k\ln(1/p)$ . Якщо $k$ є $\left\{1,1/\ln 2,1.38\times 10^{-23}\right\}$ , то несподіваність є в $\{$ натах, бітах, або $J/K\}$ , так що, наприклад, у випадінні всіх аверсів при підкиданні $N$ монет є $N$ бітів несподіваності.

Найкращі припущення про стан (наприклад, для атомів у газі) виводять максимізуванням усередненої несподіваності (англ. average surprisal) $S$ (ентропії) для заданого набору контрольних параметрів (таких як тиск $P$ чи об'єм $V$ ). Це обмежене максимізування ентропії, як класично,[19] так і квантово-механічно,[20] мінімізує ґіббзову доступність в одиницях ентропії[21] $A\equiv -k\ln(Z)$ , де $Z$ є обмеженою вкладеністю або статистичною сумою.

Коли температура $T$ є фіксованою, вільна енергія ( $T\times A$ ) також мінімізується. Таким чином, якщо $T,V$ та число молекул $N$ є сталими, то вільна енергія Гельмгольца $F\equiv U-TS$ (де $U$ є енергією) мінімізується, коли система «врівноважується». Якщо $T$ та $P$ утримуються сталими (скажімо, під час процесів у вашому тілі), то натомість мінімізується вільна енергія Ґіббза $G=U+PV-TS$ . Зміна у вільній енергії за цих умов є мірою доступної роботи, яку могло би бути виконано в цьому процесі. Таким чином, доступною роботою для ідеального газу за сталої температури $T_{o}$ та тиску $P_{o}$ є $W=\Delta G=NkT_{o}\Theta (V/V_{o})$ , де $V_{o}=NkT_{o}/P_{o}$ та $\Theta (x)=x-1-\ln x\geq 0$ (див. також нерівність Ґіббза).

Загальніше,[22] доступну роботу відносно деяких нормальних умов отримують множенням нормальної температури $T_{o}$ на розходження Кульбака — Лейблера або чисту несподіваність (англ. net surprisal) $\Delta I\geq 0,$ означену як усереднене значення $k\ln(p/p_{o})$ , де $p_{o}$ є ймовірністю заданого стану за нормальних умов. Наприклад, доступною роботою у врівноважуванні одноатомного ідеального газу до нормальних значень $V_{o}$ та $T_{o}$ відтак є $W=T_{o}\Delta I$ , де розходження Кульбака — Лейблера

\Delta I=Nk\left[\Theta \left({\frac {V}{V_{o}}}\right)+{\frac {3}{2}}\Theta \left({\frac {T}{T_{o}}}\right)\right].

Отримані в результаті контури сталого розходження Кульбака — Лейблера для одного молю аргону за стандартної температури та тиску, показані праворуч, наприклад, встановлюють межі для перетворення гарячого на холодне, як у кондиціюванні повітря із застосуванням полум'я, або в пристрої без живлення для перетворення окропу на крижану воду, обговорених тут.[23] Таким чином розходження Кульбака — Лейблера вимірює термодинамічну доступність в бітах.

Квантова теорія інформації

Для матриць густини $P$ та $Q$ на гільбертовім просторі КЛ-розходження (або квантову відносну ентропію, як його часто називають у цьому випадку) від $Q$ до $P$ означено як

D_{\text{KL}}(P\parallel Q)=\operatorname {Tr} (P(\log(P)-\log(Q))).

У квантовій інформатиці мінімум $D_{\text{KL}}(P\parallel Q)$ над усіма окремими станами $Q$ можливо також використовувати як міру заплутаності в стані $P$ .

Відношення між моделями та дійсністю

Подібно до того, як розходження Кульбака — Лейблера «чинного від нормального» вимірює термодинамічну доступність, розходження Кульбака — Лейблера «дійсності від моделі» є також корисним, навіть якщо єдиними підказками про дійсність, що ми маємо, є деякі експериментальні вимірювання. В першому випадку розходження Кульбака — Лейблера описує відстань до рівноіваги, або (будучи домноженим на нормальну температуру) величину доступної роботи, тоді як у другому випадку воно каже про несподіванки, що заховала дійсність у своєму рукаві, або, іншим словами, скільки модель ще має вчитися.

Хоча цей інструмент для оцінювання моделей відносно систем, що є доступними експериментально, можна застосовувати в будь-якій галузі, його застосування для обирання статистичної моделі через інформаційний критерій Акаіке описано особливо добре в працях[24] та книзі[25] Бернема та Андерсона. У двох словах, розходження Кульбака — Лейблера дійсності від моделі можна оцінювати з точністю до сталого адитивного члену функцією (такою як підсумовані квадрати) відхилень, що спостерігаються між даними та прогнозами моделі. Оцінки таких розходжень для моделей, що поділяють спільний адитивний член, можливо своєю чергою використовувати для здійснення вибору серед моделей.

Існують різноманітні оцінювачі, які намагаються мінімізувати розходження Кульбака — Лейблера при намаганні пристосовувати параметризовані моделі, такі як максимально-правдоподібнісні та максимально-інтервальні оцінювачі.

Усиметрене розходження

Самі Кульбак та Лейблер насправді означили це розходження як:

D_{\text{KL}}(P\parallel Q)+D_{\text{KL}}(Q\parallel P)

що є симетричним та невід'ємним. Цю величину іноді використовували для обирання ознак у задачах класифікації, де $P$ та $Q$ є умовними ФГІ ознаки за двох різних випадків.

Альтернатива дається через $\lambda$ -розходження,

D_{\lambda }(P\parallel Q)=\lambda D_{\text{KL}}(P\parallel \lambda P+(1-\lambda )Q)+(1-\lambda )D_{\text{KL}}(Q\parallel \lambda P+(1-\lambda )Q),

яке можливо інтерпретувати як очікуваний приріст інформації про $X$ від виявлення того, з якого розподілу вибирається $X$ , з $P$ чи з $Q$ , якщо вони поточно мають імовірності $\lambda$ та $1-\lambda$ відповідно.^{[прояснити]} ^{[джерело?]}

Значення $\lambda =0.5$ дає розходження Єнсена — Шеннона, означене як

D_{\text{JS}}={\frac {1}{2}}D_{\text{KL}}(P\parallel M)+{\frac {1}{2}}D_{\text{KL}}(Q\parallel M)

де $M$ є усередненням цих двох розподілів,

M={\frac {1}{2}}(P+Q).

$D_{JS}$ також можливо інтерпретувати як ємність зашумленого інформаційного каналу з двома входами, що дають виходові розподіли $P$ та $Q$ . Розходження Єнсена — Шеннона, як і всі f-розходження, є локально пропорційним до фішерової інформаційної метрики. Воно є подібним до хелінґерової метрики (в тому сенсі, що воно зумовлює такий самий афінний зв'язок на статистичному многовиді).

Відношення до інших мір імовірнісної відстані

Існує багато інших важливих мір ймовірнісної відстані. Деякі з них є особливо пов'язаними з розходженням Кульбака — Лейблера. Наприклад:

Повно-варіаційна відстань, $\delta (p,q)$ . Вона є пов'язаною з цим розходженням через нерівність Прінскера: $\delta (P,Q)\leq {\sqrt {{\frac {1}{2}}D_{\text{KL}}(P\parallel Q)}}$
Сімейство розходжень Реньї забезпечує узагальнення розходження Кульбака — Лейблера. Залежно від значення певного параметру, $\alpha$ , може бути виведено різноманітні нерівності.

До інших примітних мір відстані належать хелінґерова відстань, перетин гістограм (англ. histogram intersection), хі-квадратова статистика, відстань квадратичного вигляду (англ. quadratic form distance), збігова відстань, відстань Колмогорова — Смирнова та бульдозерна відстань.[26]

Віднімання даних

Детальніші відомості з цієї теми ви можете знайти в статті Віднімання даних.

Так само, як абсолютна ентропія слугує теоретичною основою для стискання даних, відносна ентрпоія слугує теоретичною основою для віднімання даних — де абсолютна ентропія набору даних в цьому сенсі є даними, необхідними для його відтворення (мінімальний стиснений розмір), в той час як відносна ентропія цільового набору даних за заданого первинного набору даних є даними, необхідними для відтворення цільового за заданого первинного (мінімальний розмір латки).

Див. також

Баєсів інформаційний критерій
Брегманове розходження
Ентропійна ризикована вартість
Інформаційний критерій Акаіке
Інформаційний критерій відхилення
Квантова відносна ентропія
Коефіцієнт приросту інформації
Нерівність ентропійної потужності
Перехресна ентропія
Приріст інформації в деревах рішень
Розходження Єнсена — Шеннона
Соломон Кульбак та Річард Лейблер
Теорія інформації та теорія міри
Ентропія Реньї

Примітки

Kullback, S.; Leibler, R.A. (1951). On information and sufficiency. Annals of Mathematical Statistics 22 (1): 79–86. MR 39968. doi:10.1214/aoms/1177729694. (англ.)
Kullback, S. (1959). Information Theory and Statistics. John Wiley & Sons.. Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9. (англ.)
Kullback, S. (1987). Letter to the Editor: The Kullback–Leibler distance. The American Statistician 41 (4): 340–341. JSTOR 2684769. doi:10.1080/00031305.1987.10475510. (англ.)
MacKay, David J.C. (2003). Information Theory, Inference, and Learning Algorithms (вид. First). Cambridge University Press. с. 34. (англ.)
Bishop C. (2006). Pattern Recognition and Machine Learning (англ.)
Burnham, K. P.; Anderson, D. R. (2002). Model Selection and Multi-Model Inference (вид. 2nd). Springer. с. 51. (англ.)
Hobson, Arthur (1971). Concepts in statistical mechanics. New York: Gordon and Breach. ISBN 0677032404. (англ.)
Baez, John; Fritz, Tobias (2014). A Bayesian characterization of relative entropy. Theory and Application of Categories 29: 421–456. Проігноровано невідомий параметр |eprint= (довідка) (англ.)
Sanov, I.N. (1957). On the probability of large deviations of random magnitudes. Matem. Sbornik 42 (84): 11–44. (англ.)
Novak S.Y. (2011), Extreme Value Methods with Applications to Finance ch. 14.5 (Chapman & Hall). ISBN 978-1-4398-3574-6. (англ.)
Див. розділ «differential entropy – 4» у відео-лекції Серхіо Верду «Relative Entropy» з NIPS 2009 (англ.)
Duchi J., "Derivations for Linear Algebra and Optimization", (англ.)
Rényi A. (1970). Probability Theory. Elsevier. Appendix, Sec.4. ISBN 0-486-45867-9. (англ.)
Rényi, A. (1961). On measures of entropy and information. Proceedings of the 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960. с. 547–561. (англ.)
Chaloner, K.; Verdinelli, I. (1995). Bayesian experimental design: a review. Statistical Science 10 (3): 273–304. doi:10.1214/ss/1177009939. (англ.)
Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). Section 14.7.2. Kullback–Leibler Distance. Numerical Recipes: The Art of Scientific Computing (вид. 3rd). Cambridge University Press. ISBN 978-0-521-88068-8. (англ.)
Thomas M. Cover, Joy A. Thomas (1991) Elements of Information Theory (John Wiley & Sons) (англ.)
Myron Tribus (1961), Thermodynamics and Thermostatics (D. Van Nostrand, New York) (англ.)
Jaynes, E. T. (1957). Information theory and statistical mechanics. Physical Review 106: 620–630. Bibcode:1957PhRv..106..620J. doi:10.1103/physrev.106.620. (англ.)
Jaynes, E. T. (1957). Information theory and statistical mechanics II. Physical Review 108: 171–190. Bibcode:1957PhRv..108..171J. doi:10.1103/physrev.108.171. (англ.)
J.W. Gibbs (1873), "A method of geometrical representation of thermodynamic properties of substances by means of surfaces", reprinted in The Collected Works of J. W. Gibbs, Volume I Thermodynamics, ed. W. R. Longley and R. G. Van Name (New York: Longmans, Green, 1931) footnote page 52. (англ.)
Tribus, M.; McIrvine, E. C. (1971). Energy and information. Scientific American 224: 179–186. Bibcode:1971SciAm.225c.179T. doi:10.1038/scientificamerican0971-179. (англ.)
Fraundorf, P. (2007). Thermal roots of correlation-based complexity. Complexity 13 (3): 18–26. Bibcode:2008Cmplx..13c..18F. arXiv:1103.2481. doi:10.1002/cplx.20195.^{[недоступне посилання з квітня 2019]} (англ.)
Burnham, K.P.; Anderson, D.R. (2001). Kullback–Leibler information as a basis for strong inference in ecological studies. Wildlife Research 28: 111–119. doi:10.1071/WR99107. (англ.)
Burnham, K. P. and Anderson D. R. (2002), Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, Second Edition (Springer Science) ISBN 978-0-387-95364-9. (англ.)
Rubner, Y.; Tomasi, C.; Guibas, L. J. (2000). The earth mover's distance as a metric for image retrieval. International Journal of Computer Vision 40 (2): 99–121. (англ.)

Посилання

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Kullback, S.; Leibler, R.A. (1951). On information and sufficiency. Annals of Mathematical Statistics 22 (1): 79–86. MR 39968. doi:10.1214/aoms/1177729694. (англ.)

[Kullback-2] Kullback, S. (1959). Information Theory and Statistics. John Wiley & Sons.. Republished by Dover Publications in 1968; reprinted in 1978: ISBN 0-8446-5625-9. (англ.)

[3] Kullback, S. (1987). Letter to the Editor: The Kullback–Leibler distance. The American Statistician 41 (4): 340–341. JSTOR 2684769. doi:10.1080/00031305.1987.10475510. (англ.)

[4] MacKay, David J.C. (2003). Information Theory, Inference, and Learning Algorithms (вид. First). Cambridge University Press. с. 34. (англ.)

[5] Bishop C. (2006). Pattern Recognition and Machine Learning (англ.)

[6] Burnham, K. P.; Anderson, D. R. (2002). Model Selection and Multi-Model Inference (вид. 2nd). Springer. с. 51. (англ.)

[7] Hobson, Arthur (1971). Concepts in statistical mechanics. New York: Gordon and Breach. ISBN 0677032404. (англ.)

[8] Baez, John; Fritz, Tobias (2014). A Bayesian characterization of relative entropy. Theory and Application of Categories 29: 421–456. Проігноровано невідомий параметр |eprint= (довідка) (англ.)

[Sanov-9] Sanov, I.N. (1957). On the probability of large deviations of random magnitudes. Matem. Sbornik 42 (84): 11–44. (англ.)

[Novak-10] Novak S.Y. (2011), Extreme Value Methods with Applications to Finance ch. 14.5 (Chapman & Hall). ISBN 978-1-4398-3574-6. (англ.)

[VerduLecture-11] Див. розділ «differential entropy – 4» у відео-лекції Серхіо Верду «Relative Entropy» з NIPS 2009 (англ.)

[12] Duchi J., "Derivations for Linear Algebra and Optimization", (англ.)

[13] Rényi A. (1970). Probability Theory. Elsevier. Appendix, Sec.4. ISBN 0-486-45867-9. (англ.)

[14] Rényi, A. (1961). On measures of entropy and information. Proceedings of the 4th Berkeley Symposium on Mathematics, Statistics and Probability 1960. с. 547–561. (англ.)

[15] Chaloner, K.; Verdinelli, I. (1995). Bayesian experimental design: a review. Statistical Science 10 (3): 273–304. doi:10.1214/ss/1177009939. (англ.)

[16] Press, W.H.; Teukolsky, S.A.; Vetterling, W.T.; Flannery, B.P. (2007). Section 14.7.2. Kullback–Leibler Distance. Numerical Recipes: The Art of Scientific Computing (вид. 3rd). Cambridge University Press. ISBN 978-0-521-88068-8. (англ.)

[17] Thomas M. Cover, Joy A. Thomas (1991) Elements of Information Theory (John Wiley & Sons) (англ.)

[18] Myron Tribus (1961), Thermodynamics and Thermostatics (D. Van Nostrand, New York) (англ.)

[19] Jaynes, E. T. (1957). Information theory and statistical mechanics. Physical Review 106: 620–630. Bibcode:1957PhRv..106..620J. doi:10.1103/physrev.106.620. (англ.)

[20] Jaynes, E. T. (1957). Information theory and statistical mechanics II. Physical Review 108: 171–190. Bibcode:1957PhRv..108..171J. doi:10.1103/physrev.108.171. (англ.)

[21] J.W. Gibbs (1873), "A method of geometrical representation of thermodynamic properties of substances by means of surfaces", reprinted in The Collected Works of J. W. Gibbs, Volume I Thermodynamics, ed. W. R. Longley and R. G. Van Name (New York: Longmans, Green, 1931) footnote page 52. (англ.)

[22] Tribus, M.; McIrvine, E. C. (1971). Energy and information. Scientific American 224: 179–186. Bibcode:1971SciAm.225c.179T. doi:10.1038/scientificamerican0971-179. (англ.)

[23] Fraundorf, P. (2007). Thermal roots of correlation-based complexity. Complexity 13 (3): 18–26. Bibcode:2008Cmplx..13c..18F. arXiv:1103.2481. doi:10.1002/cplx.20195.^{[недоступне посилання з квітня 2019]} (англ.)

[24] Burnham, K.P.; Anderson, D.R. (2001). Kullback–Leibler information as a basis for strong inference in ecological studies. Wildlife Research 28: 111–119. doi:10.1071/WR99107. (англ.)

[25] Burnham, K. P. and Anderson D. R. (2002), Model Selection and Multimodel Inference: A Practical Information-Theoretic Approach, Second Edition (Springer Science) ISBN 978-0-387-95364-9. (англ.)

[earth-26] Rubner, Y.; Tomasi, C.; Guibas, L. J. (2000). The earth mover's distance as a metric for image retrieval. International Journal of Computer Vision 40 (2): 99–121. (англ.)