Ймовірнісна класифікація
У машинному навчанні, ймові́рнісний класифіка́тор (англ. probabilistic classifier) — це класифікатор, здатний для заданого зразка входу передбачувати розподіл імовірності над множиною класів, а не просто видавати найправдоподібніший клас, до якого повинен був би належати цей зразок. Імовірнісні класифікатори забезпечують класифікацію зі ступенем упевненості, що може бути корисним як саме по собі,[1] так і при поєднанні класифікаторів у ансамблі.
Типи класифікації
Формально, «звичайний» класифікатор є якимось правилом або функцією, яка призначає зразкові x мітку класу ŷ:
Зразки походять із якоїсь множини X (наприклад, множини всіх документів, або множини всіх зображень), тоді як мітки класів формують скінченну множину Y, визначену до тренування.
Ймовірнісні ж класифікатори узагальнюють це поняття класифікаторів: замість функцій, вони є умовними розподілами , що означає, що для заданого вони призначають імовірності всім (і ці ймовірності дають у сумі одиницю). «Жорстка» класифікація тоді може здійснюватися шляхом застосуванням правила оптимального рішення[2]
або, українською, передбачуваний клас є тим, який має найвищу ймовірність.
Бінарні ймовірнісні класифікатори в статистиці також називають біноміальною регресією. В економетрії ймовірнісну класифікацію в цілому називають дискретним вибором.
Деякі моделі класифікації, такі як наївний баєсів класифікатор, логістична регресія та багатошарові перцептрони (при тренуванні за відповідної функції втрат) є природно ймовірнісними. Інші моделі, такі як опорно-векторні машини, такими не є, але існують методи перетворення їх на ймовірнісні класифікатори.
Породжувальне та обумовлювальне тренування
Деякі моделі, такі як логістична регресія, є тренованими обумовлювально: вони оптимізують на тренувальному наборі безпосередньо умовну ймовірність (див. мінімізацію емпіричного ризику). Інші класифікатори, такі як наївний баєсів, тренуються породжувально: під час тренування знаходяться розподіл обумовлення класами та апріорне класів , а умовний розподіл виводиться через правило Баєса.[2]
Калібрування ймовірності
Не всі класифікаційні моделі є природно ймовірнісними, а деякі, які є, зокрема, наївні баєсові класифікатори, дерева рішень та методи підсилювання, виробляють спотворені розподіли ймовірностей класів.[3] У випадку дерев рішень, де Pr(y|x) є пропорцією тренувальних зразків з міткою y у листку, де закінчується x, ці спотворення виникають тому, що алгоритми навчання, такі як C4.5 або CART, явно спрямовані на вироблення гомогенних листків (даючи ймовірності, близькі до нуля або одиниці, й відтак високий зсув) при одночасному використанні незначної кількості зразків для оцінки доречної пропорції (висока дисперсія).[4]
Для класифікаційних моделей, які виробляють на своїх виходах якогось роду «бал» (такий як спотворений розподіл імовірності, або «знак відстані до гіперплощини» в опорно-векторній машині), існує кілька методів, які перетворюють ці бали на правильно відкалібровані ймовірності приналежності до класів.
Для бінарного випадку загальний підхід полягає в застосуванні масштабування Платта, яке навчається моделі логістичної регресії на балах.[5] Альтернативний метод із застосуванням ізотонічної регресії,[6] як правило, перевершує метод Платта, коли доступно достатньо тренувальних даних.[3]
У багатокласовому випадку можна використовувати зведення до бінарних задач з наступним одновимірним калібруванням за описаним вище алгоритмом, і подальшим застосуванням алгоритму попарного з'єднання Гасті та Тібширані.[7]
Оцінка ймовірнісної класифікації
До часто вживаних функцій втрат для ймовірнісної класифікації належать лог-втрати та середньоквадратична похибка між передбаченими та справжніми розподілами ймовірності. Перша з них зазвичай використовується для тренування логістичних моделей.
Метод, який використовується для призначення балів парам передбачених імовірностей та фактичних результатів розподілів, так, що різні передбачувальні методи можна порівнювати, називається оцінювальним правилом.
Примітки
- Hastie, Trevor; Tibshirani, Robert; Friedman, Jerome (2009). The Elements of Statistical Learning. с. 348. Архів оригіналу за 26 січня 2015. Процитовано 30 жовтня 2016. «В застосуваннях для добування даних інтерес часто полягає більше в самих імовірностях класів , ніж у виконанні призначення класу.» (англ.)
- Bishop, Christopher M. (2006). Pattern Recognition and Machine Learning. Springer. (англ.)
- Niculescu-Mizil, Alexandru; Caruana, Rich (2005). Predicting good probabilities with supervised learning ICML. doi:10.1145/1102351.1102430. Архів оригіналу за 11 березня 2014. Процитовано 30 жовтня 2016. (англ.)
- Zadrozny, Bianca; Elkan, Charles (2001). Obtaining calibrated probability estimates from decision trees and naive Bayesian classifiers ICML. с. 609–616. (англ.)
- Platt, John (1999). Probabilistic outputs for support vector machines and comparisons to regularized likelihood methods. Advances in large margin classifiers 10 (3): 61–74. (англ.)
- Zadrozny, Bianca; Elkan, Charles (2002). Transforming classifier scores into accurate multiclass probability estimates. Proceedings of the eighth ACM SIGKDD international conference on Knowledge discovery and data mining - KDD '02. с. 694–699. ISBN 1-58113-567-X. doi:10.1145/775047.775151. CiteSeerX: 10.1.1.13.7457. (англ.)
- Hastie, Trevor; Tibshirani, Robert (1998). Classification by pairwise coupling. The Annals of Statistics 26 (2): 451–471. Zbl 0932.62071. doi:10.1214/aos/1028144844. CiteSeerX: 10.1.1.46.6032. (англ.)