Відстань Бгаттачар'я

У статистиці відстань Бгаттачар'я вимірює подібність двох розподілів ймовірностей. Поняття тісно пов’язано з коефіцієнтом Бгаттачар'я, який є мірою величини перекриття двох статистичних вибірок. Обидва показники названі на честь Аніла Кумара Бгаттачар'я, статиста, який працював у 1930-х роках в Індійському статистичному інституті.[1]

Коефіцієнт можна використовувати для визначення відносної близькості двох вибірок, що розглядаються. Також використовується для вимірювання роздільності класів у класифікації, і вважається більш надійним, ніж відстань Махаланобіса, оскільки відстань Махаланобіса є окремим випадком відстані Бхаттачар'я, коли нормальні відхилення двох класів однакові. Отже, коли два класи мають схожі математичні очікування, але різні нормальні відхилення, відстань Махаланобіса прямує нуля, тоді як відстань Бгаттачарія зростає залежно від різниці між нормальними відхиленнями.

Визначення

Для розподілу ймовірностей p і q в одній області X відстань Бгаттачар'я визначається як

D_{B}(p,q)=-\ln \left(BC(p,q)\right)

де

BC(p,q)=\sum _{x\in X}{\sqrt {p(x)q(x)}}

є коефіцієнтом Бгаттачар'я для дискретних розподілів ймовірностей .

Для неперервного розподілу ймовірностей коефіцієнт Бгаттачар'я визначається як

BC(p,q)=\int {\sqrt {p(x)q(x)}}\,dx

В будь-якому випадку, $0\leq BC\leq 1$ і $0\leq D_{B}\leq \infty$ . $D_{B}$ не виконує нерівності трикутника.

У найпростішому формулюванні відстань Бгаттачар'я між двома класами за нормального розподілу можна обчислити[2], за математичним очікуванням та дисперсією двох окремих розподілів або класів:

D_{B}(p,q)={\frac {1}{4}}\ln \left({\frac {1}{4}}\left({\frac {\sigma _{p}^{2}}{\sigma _{q}^{2}}}+{\frac {\sigma _{q}^{2}}{\sigma _{p}^{2}}}+2\right)\right)+{\frac {1}{4}}\left({\frac {(\mu _{p}-\mu _{q})^{2}}{\sigma _{p}^{2}+\sigma _{q}^{2}}}\right)

де:

$\sigma _{p}^{2}$	— дисперсія розподілу p,
$\mu _{p}$	— математичне очікування розподілу p, і
$p,q$	— два різні розподіли.

Відстань Махаланобіса, що використовується в лінійному дискримінантному аналізі Фішера, є окремим випадком відстані Бгаттачар'я.

Для багатовимірних нормальних розподілів $p_{i}={\mathcal {N}}({\boldsymbol {\mu }}_{i},\,{\boldsymbol {\Sigma }}_{i})$ ,

D_{B}={1 \over 8}({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{2})^{T}{\boldsymbol {\Sigma }}^{-1}({\boldsymbol {\mu }}_{1}-{\boldsymbol {\mu }}_{2})+{1 \over 2}\ln \,\left({\det {\boldsymbol {\Sigma }} \over {\sqrt {\det {\boldsymbol {\Sigma }}_{1}\,\det {\boldsymbol {\Sigma }}_{2}}}}\right),

де ${\boldsymbol {\mu }}_{i}$ і ${\boldsymbol {\Sigma }}_{i}$ є математичними очікуваннями та коваріантами розподілів, і

{\boldsymbol {\Sigma }}={{\boldsymbol {\Sigma }}_{1}+{\boldsymbol {\Sigma }}_{2} \over 2}.

Зверніть увагу, що в цьому випадку перший член у відстані Бгаттачар'я пов'язаний з відстанню Махаланобіса.

Коефіцієнт Бгаттачар'я

Коефіцієнт Бгаттачар'я — це наближене вимірювання величини перекриття двох статистичних вибірок. Коефіцієнт можна використовувати для визначення відносної близькості двох зразків, що розглядаються.

Розрахунок коефіцієнта Бгаттачар'я передбачає елементарну форму інтегрування перекриття двох зразків. Інтервал значень двох зразків розбивається на обрану кількість розділів, і кількість членів кожного зразка в кожному розділі використовується в наступній формулі,

BC(\mathbf {p} ,\mathbf {q} )=\sum _{i=1}^{n}{\sqrt {p_{i}q_{i}}},

де, враховуючи зразки p і q, n — кількість розділів, і $p_{i}$ , $q_{i}$ — це кількість членів вибірки p і q в i-му розділі.

Отже, ця формула більша для кожного розділу, який містить члени обох зразків, та для кожного розділу, який має велике перекриття двох членів зразка всередині нього. Вибір кількості розділів залежить від кількості членів у кожній вибірці; при занадто малій кількості розділів втрачається точність через погану оцінку області перекриття, а при великій кількості розділів можна отримати такі, що не міститимуть жодного члена, навіть якщо вони розташовані у досить густому просторі вибірки.

Коефіцієнт Бгаттачар'я дорівнюватиме 0, якщо через множення на нуль дві вибірки не мають перекриття. Це означає, що відстань між повністю відокремленими зразками не буде піддаватися лише цьому коефіцієнту.

Коефіцієнт Бгаттачар'я використовується при побудові полярних кодів. [3]

Застосування

Відстань Бхаттачарія широко використовується в дослідженнях вилучення та вибору функцій,[4] обробки зображень,[5] розпізнавання динаміків[6] та кластеризації телефонів.[7]

Пропонований "простір Бгаттачар'я" як техніка вибору властивостей, може бути застосований до сегментації текстур.[8]

Див. також

Примітки

Bhattacharyya, A. (1943). On a measure of divergence between two statistical populations defined by their probability distributions. Bulletin of the Calcutta Mathematical Society 35: 99–109. MR 0010358.
Guy B. Coleman, Harry C. Andrews, "Image Segmentation by Clustering", Proc IEEE, Vol. 67, No. 5, pp. 773–785, 1979
Arıkan, Erdal (July 2009). Channel polarization: A method for constructing capacity-achieving codes for symmetric binary-input memoryless channels. IEEE Transactions on Information Theory 55 (7): 3051–3073. arXiv:0807.3917. doi:10.1109/TIT.2009.2021379.
Euisun Choi, Chulhee Lee, "Feature extraction based on the Bhattacharyya distance", Pattern Recognition, Volume 36, Issue 8, August 2003, Pages 1703–1709
François Goudail, Philippe Réfrégier, Guillaume Delyon, "Bhattacharyya distance as a contrast parameter for statistical processing of noisy optical images", JOSA A, Vol. 21, Issue 7, pp. 1231−1240 (2004)
Chang Huai You, "An SVM Kernel With GMM-Supervector Based on the Bhattacharyya Distance for Speaker Recognition", Signal Processing Letters, IEEE, Vol 16, Is 1, pp. 49-52
Mak, B., "Phone clustering using the Bhattacharyya distance", Spoken Language, 1996. ICSLP 96. Proceedings., Fourth International Conference on, Vol 4, pp. 2005–2008 vol.4, 3−6 Oct 1996
Reyes-Aldasoro, C.C., and A. Bhalerao, "The Bhattacharyya space for feature selection and its application to texture segmentation", Pattern Recognition, (2006) Vol. 39, Issue 5, May 2006, pp. 812–826

Список літератури

Nielsen, F.; Boltz, S. (2010). The Burbea–Rao and Bhattacharyya centroids. IEEE Transactions on Information Theory 57 (8): 5455–5466. arXiv:1004.5049. doi:10.1109/TIT.2011.2159046.
Kailath, T. (1967). The Divergence and Bhattacharyya Distance Measures in Signal Selection. IEEE Transactions on Communication Technology 15 (1): 52–60. doi:10.1109/TCOM.1967.1089532.
Djouadi, A.; Snorrason, O.; Garber, F. (1990). The quality of Training-Sample estimates of the Bhattacharyya coefficient. IEEE Transactions on Pattern Analysis and Machine Intelligence 12 (1): 92–97. doi:10.1109/34.41388.
Короткий перелік властивостей див .: http://www.mtm.ufsc.br/~taneja/book/node20.html

Ланки

Hazewinkel, Michiel, ред. (2001). Bhattacharyya distance. Encyclopedia of Mathematics. Springer. ISBN 978-1-55608-010-4.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Bhattacharyya, A. (1943). On a measure of divergence between two statistical populations defined by their probability distributions. Bulletin of the Calcutta Mathematical Society 35: 99–109. MR 0010358.

[Coleman79-2] Guy B. Coleman, Harry C. Andrews, "Image Segmentation by Clustering", Proc IEEE, Vol. 67, No. 5, pp. 773–785, 1979

[3] Arıkan, Erdal (July 2009). Channel polarization: A method for constructing capacity-achieving codes for symmetric binary-input memoryless channels. IEEE Transactions on Information Theory 55 (7): 3051–3073. arXiv:0807.3917. doi:10.1109/TIT.2009.2021379.

[4] Euisun Choi, Chulhee Lee, "Feature extraction based on the Bhattacharyya distance", Pattern Recognition, Volume 36, Issue 8, August 2003, Pages 1703–1709

[Goudail-5] François Goudail, Philippe Réfrégier, Guillaume Delyon, "Bhattacharyya distance as a contrast parameter for statistical processing of noisy optical images", JOSA A, Vol. 21, Issue 7, pp. 1231−1240 (2004)

[You-6] Chang Huai You, "An SVM Kernel With GMM-Supervector Based on the Bhattacharyya Distance for Speaker Recognition", Signal Processing Letters, IEEE, Vol 16, Is 1, pp. 49-52

[Mak-7] Mak, B., "Phone clustering using the Bhattacharyya distance", Spoken Language, 1996. ICSLP 96. Proceedings., Fourth International Conference on, Vol 4, pp. 2005–2008 vol.4, 3−6 Oct 1996

[Reyes-Aldasoro-8] Reyes-Aldasoro, C.C., and A. Bhalerao, "The Bhattacharyya space for feature selection and its application to texture segmentation", Pattern Recognition, (2006) Vol. 39, Issue 5, May 2006, pp. 812–826