Напівавтоматичне навчання

Напівавтоматичне навчання або часткове навчання (англ. Semi-supervised learning) — спосіб машинного навчання, різновидність навчання з учителем, яке також використовує немарковані дані для тренування — зазвичай невелику кількість помаркованих даних та велику кількість немаркованих даних. Напівавтоматичне навчання займає проміжну позицію між навчанням без учителя (без залучення будь-яких помаркованих даних для тренування) та навчанням з учителем (із залученням лише помаркованих даних). Багато дослідників машинного навчання виявили, що немарковані дані, при використанні в поєднанні з невеликою кількістю помаркованих даних, можуть значно поліпшити точність навчання. Задання помаркованих даних для задачі навчання часто вимагає кваліфікованої людини (наприклад, для транскрибування аудіо файлу) або фізичного експерименту (наприклад, для визначення 3D структури білка або виявлення наявності нафти в певному регіоні). Тому затрати на маркування даних можуть зробити процес навчання з використанням лише помаркованих даних нездійсненним, в той час як процес задання немаркованих даних не є дуже затратним. У таких ситуаціях, напівавтоматичне навчання може мати велике практичне значення. Таке навчання також представляє інтерес у сфері машинного навчання та як модель для людського навчання.

Задача навчання

Як і в рамках навчання з учителем, нам дається множина з $l$ незалежних однаково розподілених прикладів $x_{1},\dots ,x_{l}\in X$ з відповідними позначками $y_{1},\dots ,y_{l}\in Y$ . Крім того, нам дано $u$ непомаркованих прикладів $x_{l+1},\dots ,x_{l+u}\in X$ . Мета напівавтоматичного навчання полягає у тому, щоб використати цю комбіновану інформацію для перевершення продуктивності класифікації, яку можна отримати або шляхом відкидання немаркованих даних і використання навчання з учителем, або шляхом відкидання міток і використання навчання без учителя.

Напівавтоматичне навчання може належати до трансдуктивного навчання або індуктивного навчання. Метою трансдуктивнго навчання є виведення правильних міток тільки для немаркованих даних $x_{l+1},\dots ,x_{l+u}$ . Метою індукції є виведення правильного відображення з $X$ в $Y$ .

Ми можемо уявляти задачу навчання як іспит, а помарковані дані — як декілька прикладів, які вчитель вирішив у класі. Учитель також надає набір невирішених задач. У постановці трансдуктивного навчання, ці невирішені задачі є іспитом, який забирають додому, і ви хочете добре його скласти загалом. У постановці індуктивного навчання, ці практичні задачі є подібними до тих, з якими ви стикнетесь на іспиті у класі. Необов'язково (і, згідно з принципом Вапника, нерозсудливо) проводити трансдуктивне навчання шляхом логічного виведення правила класифікації для всіх вхідних даних. Однак, на практиці, алгоритми, формально призначені для трансдукції або індукції, часто використовуються як взаємнозамінні.

Припущення, які використовуються у напівавтоматичному навчанні.

Для того, щоб використовувати немарковані дані, потрібно присвоїти деяку структуру для основного розподілу даних. Алгоритми напівавтоматичного навчання використовують принаймні одне з таких припущень. [1]

Припущення плавності

Точки, які лежать близько одна від одної помарковані однаково з більшою імовірністю. Таке саме припущення здебільшого використовується і в навчанні з учителем і дає перевагу у використанні геометрично простих рішень. У випадку напівавтоматичного навчання, припущення плавності додатково дає перевагу для розмежування в регіонах з низькою щільністю, де є менше точок, які розташовані близько одна від одної, але різних класів.

Припущення кластеризованості

Дані, як правило, утворюють дискретні кластери, і точки з одного кластеру помарковані однаково з більшою імовірністю (хоча дані, які використовують однакові мітки, можуть бути розташовані у декількох різних кластерах). Це особливий випадок припущення плавності, який призводить до навчання ознак використовуючи алгоритми кластеризації.

Припущення многовидності (різноманітності)

Дані зібрані приблизно у многовиді з набагато меншою розмірністю, ніж вхідний простір. У цьому випадку ми можемо спробувати вивчити многовид використовуючи як помарковані так і немарковані дані для того, щоб уникнути прокляття розмірності. Тоді навчання може протікати з використанням відстаней і щільностей, визначених на многовиді.

Припущення многовидності має практичне застосування, коли багатовимірні дані генеруються певним процесом, який важко безпосередньо змоделювати, але який має тільки декілька ступенів відхилення. Наприклад, людський голос контролюється декількома голосовими зв'язками,[2] а зображення різних виразів обличчя контролюються декількома м'язами. У цих випадках нам зручніше використовувати відстані та плавності в природному просторі проблеми генерування, ніж у просторі всіх можливих акустичних хвиль або зображень, відповідно.

Історія

Евристичний підхід самонавчання (також відомий як самомаркування) історично найстаріший підхід до напівавтоматичного навчання,[1] з прикладами програм, починаючи з 1960-х років (див., наприклад, Scudder (1965)[3]).

Структуру трансдуктивного навчання було офіційно представлено Володимиром Вапником у 1970-х роках.[4] Зацікавленість у сфері індуктивного навчання з використанням генеративних моделей також з'явилась у 1970-і роки. Ймовірносно приблизно коректне навчання у напрямку напівавтоматичного вивчення гаусової суміші було продемонстровано Ратсабі та Венкатешем у 1995-у році.[5]

Напівавтоматичне навчання останнім часом стає все більш популярним і практично актуальним у зв'язку з цілою низкою задач, для яких доступна величезна кількість немаркованих даних — наприклад, текст вебсторінок, білкові послідовності або зображення. Для перегляду останніх праць див. дослідницьку статтю, написану Чжу (2008).[6]

Підходи до напівавтоматичого навчання

Генеративні моделі

Генеративні підходи до статистичного вивчення в першу чергу прагнуть оцінити $p(x|y)$ , розподіл точок даних кожного класу. Імовірність $p(y|x)$ така, що дана точка $x$ має мітку $y$ , буде пропорційною до $p(x|y)p(y)$ за теоремою Баєса. Напівавтоматичне навчання з використанням генеративних підходів можна розглядати або як розширення навчання з учителем (класифікація та інформація про $p(x)$ ), або як розширення навчання без учителя (кластеризація та деякі мітки).

Генеративні моделі припускають, що розподіли приймають певну форму $p(x|y,\theta )$ , параметризовану вектором $\theta$ . Якщо ці припущення є неправильними, то немарковані дані можуть фактично знизити точність рішення у порівнянні з тим, яке було б отримано тільки з помаркованих даних.[7] Проте, якщо ці припущення правильні, то немарковані дані обов'язково підвищать результативність.[5]

Немарковані дані розподілені відповідно до суміші індивідуально-класових розподілів. Для того, щоб розподіл суміші з немаркованих даних підлягав вивченню, ці дані мають бути упізнаваними, тобто різні параметри повинні призводити до різних підсумкових розподілів. Розподіли гаусової суміші є упізнаваними та зазвичай використовуються у генеративних моделях.

Параметризований спільний розподіл можна записати у вигляді $p(x,y|\theta )=p(y|\theta )p(x|y,\theta )$ за допомогою ланцюгового правила. Кожен вектор $\theta$ пов'язаний з функцією $f_{\theta }(x)={\underset {y}{\operatorname {argmax} }}\ p(y|x,\theta )$ . Потім параметр вибирається на основі підгонки як до помаркованих там і до немаркованих даних, урівноважених за допомогою $\lambda$ :

{\underset {\Theta }{\operatorname {argmax} }}\left(\log p(\{x_{i},y_{i}\}_{i=1}^{l}|\theta )+\lambda \log p(\{x_{i}\}_{i=l+1}^{l+u}|\theta )\right)

[8]

Поділ низької щільності

Це ще один важливий клас методів, який намагається розмежувати регіони, у яких є декілька точок з даними (помаркованими чи немаркованими). Одним з найбільш часто використовуваних алгоритмів є трансдуктивний метод опорних векторів, або ТМОВ (який, незважаючи на назву, може також бути використаним для індуктивного навчання). У той час як метод опорних векторів для навчання з учителем шукає рішення крайової з максимальною маржею у помаркованих даних, метою ТМОВ є позначення немаркованих даних таким чином, що рішення крайової має максимальну маржу у порівнянні з усіма даними. На додаток до стандартної петлі втрати $(1-yf(x))_{+}$ для помаркованих даних, функція втрат $(1-|f(x)|)_{+}$ вводиться і для немаркованих даних, позначивши $y=\operatorname {sign} {f(x)}$ . ТМОВ потім вибирає $f^{*}(x)=h^{*}(x)+b$ з гільбертового простору відтворюваного ядра ${\mathcal {H}}$ шляхом мінімізації регуляризованого емпіричного ризику:

f^{*}={\underset {f}{\operatorname {argmin} }}\left(\displaystyle \sum _{i=1}^{l}(1-y_{i}f(x_{i}))_{+}+\lambda _{1}||h||_{\mathcal {H}}^{2}+\lambda _{2}\sum _{i=l+1}^{l+u}(1-|f(x_{i})|)_{+}\right)

Точне рішення є нерозв'язним через неопуклий член $(1-|f(x)|)_{+}$ , тому дослідження зосереджені на пошуку корисних наближень.[8]

Інші підходи, які здійснюють розподіл низької щільності, включають в себе моделі гаусового процесу, впорядкування інформації, та мінімізацію ентропії (з яких ТМОВ є окремим випадком).

Методи на основі графів

Методи на основі графів для напівавтоматичного навчання використовують дані, представлені за допомогою графа, з вузлом для кожного помаркованого або немаркованого прикладу. Граф може бути побудований з використанням знань в предметній області або на основі подібності прикладів. Два загальні підходи включають з'єднання кожної точки даних з її $k$ найближчими сусідами або з прикладами на відстані в межах $\epsilon$ . Вага $W_{ij}$ ребра між $x_{i}$ й $x_{j}$ встановлюється рівною $e^{\frac {-||x_{i}-x_{j}||^{2}}{\epsilon }}$ .

В рамках регуляризації многовидності [9] [10] граф служить як представник многовидності. Вираз додається до стандартної задачі регуляризації Тихонова для забезпечення гладкості рішення щодо многовидності (у власному просторі задачі), а також навколишнього вхідного простору. Завданням мінімізації стає:

{\underset {f\in {\mathcal {H}}}{\operatorname {argmin} }}\left({\frac {1}{l}}\displaystyle \sum _{i=1}^{l}V(f(x_{i}),y_{i})+\lambda _{A}||f||_{\mathcal {H}}^{2}+\lambda _{I}\int _{\mathcal {M}}||\nabla _{\mathcal {M}}f(x)||^{2}dp(x)\right)

[8]

де ${\mathcal {H}}$ — це гільбертів простір відтворюваного ядра, а ${\mathcal {M}}$ — многовид з даними. Параметри регуляризації $\lambda _{A}$ та $\lambda _{I}$ контролюють гладкість у довколишніх та внутрішніх просторах відповідно. Граф використовується для апроксимації внутрішнього регуляризуючого члена. Визначивши матрицю Кірхгофа $L=D-W$ , де $D_{ii}=\sum _{j=1}^{l+u}W_{ij}$ та $\mathbf {f}$ вектор $[f(x_{1})\dots f(x_{l+u})]$ , отримуємо:

\mathbf {f} ^{T}L\mathbf {f} =\displaystyle \sum _{i,j=1}^{l+u}W_{ij}(f_{i}-f_{j})^{2}\approx \int _{\mathcal {M}}||\nabla _{\mathcal {M}}f(x)||^{2}dp(x)

Евристичні підходи

Деякі з методів напівавтоматичного навчання не пристосовані для використання одночасно як помаркованих так і немаркованих даних, але натомість можуть залучати немарковані дані для навчання з учителем. Наприклад, помарковані та немарковані приклади $x_{1},\dots ,x_{l+u}$ можуть інформувати про спосіб представлення, метрику, або ядра даних на першому кроці без учителя. Тоді навчання з учителем опрацьовує лише помарковані приклади.

Самонавчання — метод-обгортка напівавтоматичного навчання. [11] Спочатку навчання з учителем опрацьовує лише помарковані дані. Цей класифікатор потім застосовується до немаркованих даних, щоб згенерувати більше помаркованих прикладів для навчання з учителем. Загалом, можна бути певним, що лише мітки класифікатора додаються на кожному кроці. [12]

Спільне навчання є розширенням самонавчання, при якому декілька класифікаторів опрацьовують різні (в ідеалі, непересічні) множини ознак і генерують помарковані приклади один для другого. [13]

Напівавтоматичне навчання в людському сприйнятті

Людські відповіді на формальні задачі напівавтоматичного навчання принесли різні висновки щодо ступеня впливу немаркованих даних (короткий виклад див. [14]). Багато задач природного навчання можна також розглядати як приклади напівавтоматичного навчання. Більшість принципів людського навчання передбачає невелику кількість прямих інструкцій (наприклад, маркування об'єктів батьками у дитинстві) у сукупності з величезною кількістю немаркованих прикладів (наприклад, спостерігання за об'єктами не називаючи або не рахуючи їх, або принаймні не описуючи їх).

Немовлята чутливі до структури немаркованих даних, таких як зображення собак і котів, або чоловічих і жіночих облич. [15] Нещодавні дослідження виявили, що немовлята та діти враховують не лише доступні немарковані приклади, а й процес відбору з них, в результаті якого виникають помарковані приклади. [16][17]

Див. також

Навчання з учителем

Джерела

Chapelle, Olivier; Schölkopf, Bernhard; Zien, Alexander (2006). Semi-supervised learning. Cambridge, Mass.: MIT Press. ISBN 978-0-262-03358-9.
Stevens, K.N.(2000), Acoustic Phonetics, MIT Press, ISBN 0-262-69250-3, 978-0-262-69250-2
Scudder, H.J. Probability of Error of Some Adaptive Pattern-Recognition Machines. IEEE Transaction on Information Theory, 11:363–371 (1965). Cited in Chapelle et al. 2006, page 3.
Vapnik, V. and Chervonenkis, A. Theory of Pattern Recognition [in Russian]. Nauka, Moscow (1974). Cited in Chapelle et al. 2006, page 3.
Ratsaby, J. and Venkatesh, S. Learning from a mixture of labeled and unlabeled examples with parametric side information. In Proceedings of the Eighth Annual Conference on Computational Learning Theory, pages 412-417 (1995). Cited in Chapelle et al. 2006, page 4.
Zhu, Xiaojin. Semi-supervised learning literature survey. Computer Sciences, University of Wisconsin-Madison (2008).
Cozman, F. and Cohen, I. Risks of semi-supervised learning: how unlabeled data can degrade performance of generative classifiers. In: Chapelle et al. (2006).
Zhu, Xiaojin. Semi-Supervised Learning University of Wisconsin-Madison.
M. Belkin, P. Niyogi (2004). Semi-supervised Learning on Riemannian Manifolds. Machine Learning 56 (Special Issue on Clustering): 209–239. doi:10.1023/b:mach.0000033120.25363.1e.
M. Belkin, P. Niyogi, V. Sindhwani. On Manifold Regularization. AISTATS 2005.
Triguero, Isaac; García, Salvador; Herrera, Francisco (26 листопада 2013). Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study. Knowledge and Information Systems (англ.) 42 (2): 245–284. ISSN 0219-1377. doi:10.1007/s10115-013-0706-y.
Fazakis, Nikos; Karlos, Stamatis; Kotsiantis, Sotiris; Sgarbas, Kyriakos (29 грудня 2015). Self-Trained LMT for Semisupervised Learning. Computational Intelligence and Neuroscience (англ.) 2016: 1–13. doi:10.1155/2016/3057481.
Didaci, Luca; Fumera, Giorgio; Roli, Fabio (7 листопада 2012). У Gimel’farb, Georgy; Hancock, Edwin; Imiya, Atsushi; Kuijper, Arjan; Kudo, Mineichi; Omachi, Shinichiro; Windeatt, Terry; Yamada, Keiji. Analysis of Co-training Algorithm with Very Small Training Sets. Lecture Notes in Computer Science (англ.). Springer Berlin Heidelberg. с. 719–726. ISBN 9783642341656.
Zhu, Xiaojin; Goldberg, Andrew B. (2009). Introduction to semi-supervised learning. Morgan & Claypool. ISBN 9781598295481.
Younger B. A., Fearing D. D. (1999). Parsing Items into Separate Categories: Developmental Change in Infant Categorization. Child Development 70: 291–303. doi:10.1111/1467-8624.00022.
Xu, F. and Tenenbaum, J. B. (2007). Sensitivity to sampling in Bayesian word learning. Developmental Science. Developmental Science 10: 288–297. doi:10.1111/j.1467-7687.2007.00590.x.
Gweon, H., Tenenbaum J.B., and Schulz L.E (2010). Infants consider both the sample and the sampling process in inductive generalization. Proc Natl Acad Sci U S A. 107 (20): 9066–71. doi:10.1073/pnas.1003095107.

Посилання

Вільно доступна реалізація MATLAB графа на основі алгоритмів напівавтоматичного навчання лапласівського методу опорних векторів та лапласівської регуляризації методом найменших квадратів
Модуль KEEL для напівавтоматичного навчання.
Програмне забезпечення для напівавтоматичного навчання
Алгоритми напівавтоматичного навчання в scikit-learn .

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[Chapelle-1] Chapelle, Olivier; Schölkopf, Bernhard; Zien, Alexander (2006). Semi-supervised learning. Cambridge, Mass.: MIT Press. ISBN 978-0-262-03358-9.

[StevensKN-2] Stevens, K.N.(2000), Acoustic Phonetics, MIT Press, ISBN 0-262-69250-3, 978-0-262-69250-2

[3] Scudder, H.J. Probability of Error of Some Adaptive Pattern-Recognition Machines. IEEE Transaction on Information Theory, 11:363–371 (1965). Cited in Chapelle et al. 2006, page 3.

[4] Vapnik, V. and Chervonenkis, A. Theory of Pattern Recognition [in Russian]. Nauka, Moscow (1974). Cited in Chapelle et al. 2006, page 3.

[Ratsaby-5] Ratsaby, J. and Venkatesh, S. Learning from a mixture of labeled and unlabeled examples with parametric side information. In Proceedings of the Eighth Annual Conference on Computational Learning Theory, pages 412-417 (1995). Cited in Chapelle et al. 2006, page 4.

[survey-6] Zhu, Xiaojin. Semi-supervised learning literature survey. Computer Sciences, University of Wisconsin-Madison (2008).

[7] Cozman, F. and Cohen, I. Risks of semi-supervised learning: how unlabeled data can degrade performance of generative classifiers. In: Chapelle et al. (2006).

[SSL_EoML-8] Zhu, Xiaojin. Semi-Supervised Learning University of Wisconsin-Madison.

[9] M. Belkin, P. Niyogi (2004). Semi-supervised Learning on Riemannian Manifolds. Machine Learning 56 (Special Issue on Clustering): 209–239. doi:10.1023/b:mach.0000033120.25363.1e.

[10] M. Belkin, P. Niyogi, V. Sindhwani. On Manifold Regularization. AISTATS 2005.

[11] Triguero, Isaac; García, Salvador; Herrera, Francisco (26 листопада 2013). Self-labeled techniques for semi-supervised learning: taxonomy, software and empirical study. Knowledge and Information Systems (англ.) 42 (2): 245–284. ISSN 0219-1377. doi:10.1007/s10115-013-0706-y.

[12] Fazakis, Nikos; Karlos, Stamatis; Kotsiantis, Sotiris; Sgarbas, Kyriakos (29 грудня 2015). Self-Trained LMT for Semisupervised Learning. Computational Intelligence and Neuroscience (англ.) 2016: 1–13. doi:10.1155/2016/3057481.

[13] Didaci, Luca; Fumera, Giorgio; Roli, Fabio (7 листопада 2012). У Gimel’farb, Georgy; Hancock, Edwin; Imiya, Atsushi; Kuijper, Arjan; Kudo, Mineichi; Omachi, Shinichiro; Windeatt, Terry; Yamada, Keiji. Analysis of Co-training Algorithm with Very Small Training Sets. Lecture Notes in Computer Science (англ.). Springer Berlin Heidelberg. с. 719–726. ISBN 9783642341656.

[ZhuGoldberg-14] Zhu, Xiaojin; Goldberg, Andrew B. (2009). Introduction to semi-supervised learning. Morgan & Claypool. ISBN 9781598295481.

[15] Younger B. A., Fearing D. D. (1999). Parsing Items into Separate Categories: Developmental Change in Infant Categorization. Child Development 70: 291–303. doi:10.1111/1467-8624.00022.

[16] Xu, F. and Tenenbaum, J. B. (2007). Sensitivity to sampling in Bayesian word learning. Developmental Science. Developmental Science 10: 288–297. doi:10.1111/j.1467-7687.2007.00590.x.

[17] Gweon, H., Tenenbaum J.B., and Schulz L.E (2010). Infants consider both the sample and the sampling process in inductive generalization. Proc Natl Acad Sci U S A. 107 (20): 9066–71. doi:10.1073/pnas.1003095107.