Завісні втрати

Завісні втрати (англ. hinge loss) у машинному навчанні — це функція втрат, яка використовується для навчання класифікаторів.[1] Завісні втрати використовують для максимальної розділової класифікації, здебільшого для опорних векторних машин (ОВМ). Для поміченого виходу $t = \pm1$ та оцінки класифікатора $y$ , завісна втрата передбачення $y$ визначається як

\ell (y)=\max(0,1-t\cdot y).

Графік завісних втрат (синій, вимірюється вертикально) проти 0-1 втрат (вимірюється вертикально; не правильна класифікація позначена зеленим:

y < 0

) для

t = 1

та змінна

y

(вимірюється горизонтально). Бачимо, що завісні втрати штрафують передбачення

y < 1

, відповідно до розділення в опорній веторній машині.

Варто зауважити, що тут $y$ є «сирим» значенням функції прийняття рішення у класифікаторі, а не міткою класу. Наприклад, в лінійних ОВМ $y=\mathbf {w} \cdot \mathbf {x} +b$ , де $(\mathbf {w} ,b)$ є параметрами гіперплощини та $\mathbf {x}$ — точка, яку потрібно класифікувати.

Зрозуміло, що коли $t$ та $y$ мають однаковий знак (що означає, що $y$ вказує на правильний клас) та $|y|\geqslant 1$ , тоді завісні втрати $\ell (y)=0$ , а коли вони мають різні знаки, то $\ell (y)$ зростає лінійно від $y$ (одностороння помилка). На рисунку пояснюється, чому завісні втрати дають кращу оцінку втрат ніж функція нуль-один.

Узагальнення

Хоч є поширеною практикою узагальнення бінарних ОВМ на багатокласову ОВМ у режимі один з усіх або один в один,[2] також можливе узагальнення з використанням завісної функції. Було запропоновано декілька різних багатокласових завісних втрат.[3] Наприклад, Крамер та Сінгер[4] дали таке визначення у випадку лінійного класифікатора:[5]

\ell (y)=\max(0,1+\max _{t\neq y}\mathbf {w} _{t}\mathbf {x} -\mathbf {w} _{y}\mathbf {x} ).

Тут $y$ — мітка цілі, $\mathbf {w} _{t}$ та $\mathbf {w} _{y}$ — параметри моделі.

Вестон і Воткінс дали подібне визначення, але з сумою замість максимуму:[6][3]

\ell (y)=\sum _{t\neq y}\max(0,1+\mathbf {w} _{t}\mathbf {x} -\mathbf {w} _{y}\mathbf {x} ).

При структуровому передбачуванні завісні втрати можуть бути поширені на структуровані вихідні простори. Структурова опорно-векторна машина з масштабуванням розділення використовує наступний варіант, де $w$ позначає параметри ОВМ, $y$ — передбачення ОВМ, $φ$ додає функцію ознак та $Δ$ є відстанню Геммінга:

{\begin{aligned}\ell (\mathbf {y} )&=\max(0,\Delta (\mathbf {y} ,\mathbf {t} )+\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {y} )\rangle -\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {t} )\rangle )\\&=\max(0,\max _{y\in {\mathcal {Y}}}\left(\Delta (\mathbf {y} ,\mathbf {t} )+\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {y} )\rangle \right)-\langle \mathbf {w} ,\phi (\mathbf {x} ,\mathbf {t} )\rangle ).\end{aligned}}

Оптимізація

Завісні втрати є опуклою функцією, отже, опуклі оптимізатори, що використовуються у машинному навчанні, можуть працювати з ними. Це не диференційовна функція, проте вона має субградієнт відносно параметрів моделі $w$ лінійної ОВМ з функцією оцінки $y=\mathbf {w} \cdot \mathbf {x}$ , який буде

{\frac {\partial \ell }{\partial w_{i}}}={\begin{cases}-t\cdot x_{i}&{\text{if }}t\cdot y<1\\0&{\text{otherwise}}\end{cases}}

Креслення трьох варіантів завісних втрат як функції

z = ty

: «звичайний» варіант (синій), його квадрат (зелений), і кусково гладкий варіант Ренні та Сребро (червоний).

Однак, оскільки похідна завісних втрат при $ty=1$ невизначена, то гладкий варіант, запропонований Ренні та Сребро, є більш бажаним для оптимізації[7]

\ell (y)={\begin{cases}{\frac {1}{2}}-ty&{\text{if}}~~ty\leq 0,\\{\frac {1}{2}}(1-ty)^{2}&{\text{if}}~~0<ty\leq 1,\\0&{\text{if}}~~1\leq ty\end{cases}}

або квадратично гладкий

\ell _{\gamma }(y)={\begin{cases}{\frac {1}{2\gamma }}\max(0,1-ty)^{2}&{\text{if}}~~ty\geq 1-\gamma \\1-{\frac {\gamma }{2}}-ty&{\text{otherwise}}\end{cases}}

запропонований Чангом.[8] Модифікований варіант втрат Губера $L$ є спеціальним випадком цієї функції втрат з $\gamma =2$ , зокрема, $L(t,y)=4\ell _{2}(y)$ .

Примітки

Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). Are Loss Functions All the Same?. Neural Computation 16 (5): 1063–1076. PMID 15070510. doi:10.1162/089976604773135104.
Duan, K. B.; Keerthi, S. S. (2005). Which Is the Best Multiclass SVM Method? An Empirical Study. Multiple Classifier Systems. LNCS 3541. с. 278–285. ISBN 978-3-540-26306-7. doi:10.1007/11494683_28.
Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). A Unified View on Multi-class Support Vector Classification. J. Machine Learning Research 17: 1–32.
Crammer, Koby; Singer, Yoram (2001). On the algorithmic implementation of multiclass kernel-based vector machines. J. Machine Learning Research 2: 265–292.
Moore, Robert C.; DeNero, John (2011). L₁ and L₂ regularization for multiclass hinge loss models. Proc. Symp. on Machine Learning in Speech and Language Processing.
Weston, Jason; Watkins, Chris (1999). Support Vector Machines for Multi-Class Pattern Recognition. European Symposium on Artificial Neural Networks.
Rennie, Jason D. M.; Srebro, Nathan (2005). Loss Functions for Preference Levels: Regression with Discrete Ordered Labels Proc. IJCAI Multidisciplinary Workshop on Advances in Preference Handling.
Zhang, Tong (2004). Solving large scale linear prediction problems using stochastic gradient descent algorithms ICML.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Rosasco, L.; De Vito, E. D.; Caponnetto, A.; Piana, M.; Verri, A. (2004). Are Loss Functions All the Same?. Neural Computation 16 (5): 1063–1076. PMID 15070510. doi:10.1162/089976604773135104.

[duan2005-2] Duan, K. B.; Keerthi, S. S. (2005). Which Is the Best Multiclass SVM Method? An Empirical Study. Multiple Classifier Systems. LNCS 3541. с. 278–285. ISBN 978-3-540-26306-7. doi:10.1007/11494683_28.

[unifiedview-3] Doğan, Ürün; Glasmachers, Tobias; Igel, Christian (2016). A Unified View on Multi-class Support Vector Classification. J. Machine Learning Research 17: 1–32.

[4] Crammer, Koby; Singer, Yoram (2001). On the algorithmic implementation of multiclass kernel-based vector machines. J. Machine Learning Research 2: 265–292.

[5] Moore, Robert C.; DeNero, John (2011). L₁ and L₂ regularization for multiclass hinge loss models. Proc. Symp. on Machine Learning in Speech and Language Processing.

[6] Weston, Jason; Watkins, Chris (1999). Support Vector Machines for Multi-Class Pattern Recognition. European Symposium on Artificial Neural Networks.

[7] Rennie, Jason D. M.; Srebro, Nathan (2005). Loss Functions for Preference Levels: Regression with Discrete Ordered Labels Proc. IJCAI Multidisciplinary Workshop on Advances in Preference Handling.

[zhang-8] Zhang, Tong (2004). Solving large scale linear prediction problems using stochastic gradient descent algorithms ICML.