Зниження розмірності

У статистиці, машинному навчанні та теорії інформації зниження розмірності є процесом скорочення кількості випадкових змінних[1] шляхом отримання множини головних змінних. Цей процес можна поділити на обирання ознак та виділяння ознак.[2]

Обирання ознак

Обирання ознак — це процес пошуку підмножини первісних змінних (ознак або властивостей) для використання в побудові моделі. Є три стратегії:

  • фільтрування (наприклад, отримання інформації)
  • обгортання (наприклад, пошук, який керується точністю)
  • вкладення або вбудування (ознаки обираються для додавання або видалення при створенні моделі ґрунтуючись на помилках прогнозування)

Дивись також задачі комбінаторної оптимізації.

В деяких випадках аналіз даних, такий як класифікація або регресія, можна зробити у скороченому просторі більш точно, ніж у початковому.[3]

Конструювання ознак

Конструювання ознак перетворює дані з багатовимірного простору в простір невеликої кількості вимірів. Таке перетворення може бути лінійним, як в методі головних компонент, проте також існує багато методів нелінійного зниження розмірності.[4][5] Для багатовимірних даних можна використати тензорне представлення для скорочення розмірності через навчання полілінійного підпростору.[6]

Метод головних компонент (МГК)

Основна лінійна техніка зменшення розмірності, метод головних компонент, здійснює лінійне відображення даних в менш вимірний простір таким чином, що максимізується дисперсія даних у маловимірному представленні. Фактично, будується матриця коваріації (а іноді й кореляції) даних, і обчислюються власні вектори цієї матриці. Власні вектори, що відповідають найбільшим власним числам (головні компоненти), тепер можуть бути використані для реконструкції великої частки дисперсії у вихідних даних. Більш того, перші кілька власних векторів часто можна тлумачити в термінах великомасштабної фізичної поведінки системи[джерело?][чому?]. Початковий простір зменшується (з втратою даних, проте, зберігається найважливіша дисперсія) до простору, який визначається кількома власними векторами.

Розклад невід'ємних матриць (РНМ)

РНМ розкладає невід'ємну матрицю на добуток двох невід'ємних матриць, що було перспективним інструментом в таких областях, де існують лише невід'ємні сигнали,[7][8] такі як астрономія[9][10]. РНМ добре відома завдяки правилу мультиплікативного оновлення Lee & Seung[7], який постійно розроблявся: включення невизначеностей[9], розгляд відсутніх даних та паралельність обчислень[11], послідовність побудови[11], що веде до стабільності та лінійності РНМ[10], як і інші оновлення.

За допомогою стабільної компонентної бази під час побудови та лінійності процесу моделювання, послідовний РНМ[11] здатний зберігати потік при прямому відтворенні навколозоряних структур в астрономії[10], як один із способів виявлення екзопланет, особливо при безпосередньому зображені навколозоряних дисків. У порівнянні з МГК, РНМ не видаляє середнє матриць, що призводить до нефізичних невід'ємних потоків, тому РНМ здатний зберігати більше інформації, ніж МГК, як показав Рен та інші[10].

Ядровий метод головних компонент

Метод головних компонент можна використати нелінійним шляхом за допомогою ядрового трюку. Отримана методика здатна побудувати нелінійні відображення, які максимізують дисперсію даних. Отримана методика називається ядровий метод головних компонент.

Лінійний розділювальний аналіз

Лінійний розділювальний аналіз (ЛРА) — це узагальнення лінійного дискримінанта Фішера, який використовується для статистики, розпізнавання образів та машинного навчання, щоб знайти лінійну комбінацію ознак, які характеризують або відокремлюють два або більше класів об'єктів або подій.

Автокодувальник

Автокодувальники можуть використовуватися для навчання нелінійним функціям зменшення розмірності та кодування разом із оберненою функцією, яка дозволяє перейти від кодуванного до оригінального зображення.

Зниження розмірності

Для багатовимірних наборів даних, тобто таких, у яких більше 10 вимірів, перед застосування методу k-найближчих сусідів спочатку знижують розмірність з метою уникнення прокляття розмірності.[12]

Виділяння ознак та зниження розмірності можна об'єднати в один етап за допомогою методу головних компонент (МГК), лінійного розділювального аналізу (ЛРА), канонічного кореляційного аналізу (ККА) або розкладення невід'ємних матриць (РНМ) — методів попередньої обробки даних перед K-NN кластеризацією векторів ознак у просторі скороченої розмірності. У машинному навчанні цей процес також називається маловимірним вкладенням.[13]

Для дуже-багатовимірних наборів даних, наприклад, для пошуку подібності у потоках відео, ДНК даних або у багатовимірних часових рядах, застосовують швидке наближення K-NN пошуку за допомогою методів Locality-sensitive hashing, випадкова проекція[14], тензорний скетч[15] та інші методи багатовимірного пошуку подібності, що доступні, наприклад, у наборі інструментів VLDB.

Примітки

  1. Roweis, S. T.; Saul, L. K. (2000). Nonlinear Dimensionality Reduction by Locally Linear Embedding. Science 290 (5500): 2323–2326. Bibcode:2000Sci...290.2323R. PMID 11125150. doi:10.1126/science.290.5500.2323.
  2. Pudil, P.; Novovičová, J. (1998). Novel Methods for Feature Subset Selection with Respect to Problem Knowledge. У Liu, Huan; Motoda, Hiroshi. Feature Extraction, Construction and Selection. с. 101. ISBN 978-1-4613-7622-4. doi:10.1007/978-1-4615-5725-8_7.
  3. Rico-Sulayes, Antonio (2017). Reducing Vector Space Dimensionality in Automatic Classification for Authorship Attribution. Revista Ingeniería Electrónica, Automática y Comunicaciones 38 (3): 26–35.
  4. Samet, H. (2006) Foundations of Multidimensional and Metric Data Structures. Morgan Kaufmann. ISBN 0-12-369446-9
  5. C. Ding, X. He, H. Zha, H.D. Simon, Adaptive Dimension Reduction for Clustering High Dimensional Data, Proceedings of International Conference on Data Mining, 2002
  6. Lu, Haiping; Plataniotis, K.N.; Venetsanopoulos, A.N. (2011). A Survey of Multilinear Subspace Learning for Tensor Data. Pattern Recognition 44 (7): 1540–1551. doi:10.1016/j.patcog.2011.01.004.
  7. Daniel D. Lee; H. Sebastian Seung (1999). Learning the parts of objects by non-negative matrix factorization. Nature 401 (6755): 788791. Bibcode:1999Natur.401..788L. PMID 10548103. doi:10.1038/44565. Проігноровано невідомий параметр |last-author-amp= (довідка)
  8. Daniel D. Lee & H. Sebastian Seung (2001). Algorithms for Non-negative Matrix Factorization Advances in Neural Information Processing Systems 13: Proceedings of the 2000 Conference. MIT Press. с. 556562.
  9. Blanton, Michael R.; Roweis, Sam (2007). K-corrections and filter transformations in the ultraviolet, optical, and near infrared. The Astronomical Journal 133: 134. Bibcode:2007AJ....133..734B. arXiv:astro-ph/0606170. doi:10.1086/510127.
  10. Ren, Bin; Pueyo, Laurent; Zhu, Guangtun B.; Duchêne, Gaspard (2018). Non-negative Matrix Factorization: Robust Extraction of Extended Structures. The Astrophysical Journal 852: 104. Bibcode:2018ApJ...852..104R. arXiv:1712.10317. doi:10.3847/1538-4357/aaa1f2.
  11. Zhu, Guangtun B. (2016-12-19). «Nonnegative Matrix Factorization (NMF) with Heteroscedastic Uncertainties and Missing data». arXiv:1612.06037 [astro-ph.IM].
  12. Kevin Beyer, Jonathan Goldstein, Raghu Ramakrishnan, Uri Shaft (1999) «When is „nearest neighbor“ meaningful?». Database Theory—ICDT99, 217—235
  13. Shaw, B.; Jebara, T. (2009). Structure preserving embedding. Proceedings of the 26th Annual International Conference on Machine Learning – ICML '09. с. 1. ISBN 9781605585161. doi:10.1145/1553374.1553494.
  14. Bingham, E.; Mannila, H. (2001). Random projection in dimensionality reduction. Proceedings of the seventh ACM SIGKDD international conference on Knowledge discovery and data mining – KDD '01. с. 245. ISBN 158113391X. doi:10.1145/502512.502546.
  15. Shasha, D High (2004) Performance Discovery in Time Series Berlin: Springer. ISBN 0-387-00857-8

Посилання

Джерела

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.