Бутстрепова агрегація

Бутстреп агрегація (англ. Bootstrap aggregating) — це машинний навчальний груповий мета-алгоритм, створений для покращення стабільності і точності машинних навчальних алгоритмів, які використовують статистичні класифікації і регресії. Він також зменшує неточність, хоча зазвичай застосовується до методів «дерева рішень», але може використовуватися з будь-яким типом методів.

Метод схожий на ансамбль методів однак, замість використання декількох моделей на одних і тих самих данних, кожна модель застосовується до різних вибірок отриманих методом бутстреп. [1]

Опис методу

Наприклад, дано стандартний навчальний набір D розміром n. Даний мета-алгоритм сукупності створює нові навчальні зразки $D_{i}$ , відбираючи однорідно або із заміною зразки з набору D , кожен з яких розміром nʹ. Деякі спостереження можуть повторюватися в кожному $D_{i}$ . Якщо n′=n, тоді для великого n набір $D_{i}$ очікувано матиме дріб (1 — 1/e) (≈63.2 %) єдиних прикладів D, а всі інші будуть дублюватися. Такий вид відбору відомий як бутстреп відбір.

Сумування приводить до «покращення нестійких процедур» (Брейман, 1996), які включають, наприклад, штучні нервові системи, класифікаційні і регресивні дерева та відбір підгрупи в лінійній регресії (Брейман, 1996). Цікаве застосування алгоритму показано тут.[2][3] Алгоритм трішки понижує значення стійких методів таких як К-найближчі сусіди (Брейман, 1996).

Приклад: Озон

Щоб проілюструвати основні принципи бутстрепу, нижче показано аналіз відношення між озоном і температурою (дані з Rousseeuw and Leroy (1986), доступно в класичних наборах даних, аналіз робиться в R (мова програмування).

Взаємозв'язок між озоном і температурою в цьому прикладі є очевидно нелінійним, що видно на розсіяному графіку. Щоб описати математично це відношення застосовують LOESS рівні частинки. Замість того, щоб побудувати одну точку з повним набором даних, зразу намалювали 100 зразків за аналогією. Кожен зразок відрізняється від початкового набору даних, але він схожий за розподілом і мінливістю. Прогноз був зроблений на основі 100 груп. Перші 10 прогнозованих зразків є сірими лініями на графіку, які є дуже гнучкими.

Беручи середнє число із 100 зразків, кожний з них встановлює підгрупу початкових даних, ми підходимо до одного сукупного прогнозованого — це червоні лінії на графіку.

https://upload.wikimedia.org/wikipedia/en/d/de/Ozone.png

Сукупність найближчих сусідніх класифікаторів

Похибка одного найближчого сусіднього класифікатора є вдвічі більшою за похибку Баєсовського класифікатора.[4] За допомогою уважного вибору розміру зразків сукупність сумування цих зразків може привести до помітного покращення 1NN класифікатора. Беручи велику кількість зразків розміром $n'$ , супутній найближчий класифікатор буде послідовним, забезпечуючи $n'\to \infty$ та відходячи від норми, але $n'/n\to 0$ як відібраний розмір $n\to \infty$ .

Під безкінечною симуляцією сукупний найближчий сусідній класифікатор може розглядатися як масовий найближчий сусідній класифікатор. Допускаємо, що характерний простір є $d$ вимірним і позначається $C_{n,n'}^{bnn}$ , сукупний найближчий класифікатор базується на навчальному наборі розміром $n$ та зі зразком розміром $n'$ . У безкінечному відборі зразків за певних регулярних умов на групових розподілах крайня похибка має наступну формулу[5]

{\mathcal {R}}_{\mathcal {R}}(C_{n,n'}^{bnn})-{\mathcal {R}}_{\mathcal {R}}(C^{Bayes})=\left(B_{1}{\frac {n'}{n}}+B_{2}{\frac {1}{(n')^{4/d}}}\right)\{1+o(1)\},

для деяких констант $B_{1}$ and $B_{2}$ . Оптимальний вибір nʹ, що збалансовує два терміни, є у формулі $n'=Bn^{d/(d+4)}$ для деякої константи $B$ .

Історія

Бутстреп агрегація була запропонована Лео Брейманом у 1994 році для покращення класифікації випадково утворених наборів даних. See Breiman, 1994. Technical Report No. 421.

Див. також

Підсилювання (машинне навчання)
Статистичний бутстреп
Перехресне затверджування
Random forest
Random subspace method (attribute bagging)

Примітки

Practical Statistics for Data Scientists [Book]. www.oreilly.com (англ.). Процитовано 21 травня 2021.
Sahu, A., Runger, G., Apley, D., Image denoising with a multi-phase kernel principal component approach and an ensemble version, IEEE Applied Imagery Pattern Recognition Workshop, pp.1-7, 2011.
Shinde, Amit, Anshuman Sahu, Daniel Apley, and George Runger. «Preimages for Variation Patterns from Kernel PCA and Bagging.» IIE Transactions, Vol.46, Iss.5, 2014
Castelli, Vittorio. Nearest Neighbor Classifiers, p.5. columbia.edu. Columbia University. Процитовано 25 квітня 2015.
Samworth R. J. (2012). Optimal weighted nearest neighbour classifiers. Annals of Statistics 40 (5): 2733–2763. doi:10.1214/12-AOS1049.

Посилання

Breiman, Leo (1996). Bagging predictors. Machine Learning 24 (2): 123–140. doi:10.1007/BF00058655. CiteSeerX: 10.1.1.121.7654.

Alfaro, E., Gámez, M. and García, N. (2012). adabag: An R package for classification with AdaBoost.M1, AdaBoost-SAMME and Bagging.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Practical Statistics for Data Scientists [Book]. www.oreilly.com (англ.). Процитовано 21 травня 2021.

[2] Sahu, A., Runger, G., Apley, D., Image denoising with a multi-phase kernel principal component approach and an ensemble version, IEEE Applied Imagery Pattern Recognition Workshop, pp.1-7, 2011.

[3] Shinde, Amit, Anshuman Sahu, Daniel Apley, and George Runger. «Preimages for Variation Patterns from Kernel PCA and Bagging.» IIE Transactions, Vol.46, Iss.5, 2014

[Castelli2015-4] Castelli, Vittorio. Nearest Neighbor Classifiers, p.5. columbia.edu. Columbia University. Процитовано 25 квітня 2015.

[Samworth12-5] Samworth R. J. (2012). Optimal weighted nearest neighbour classifiers. Annals of Statistics 40 (5): 2733–2763. doi:10.1214/12-AOS1049.