Виявлення аномалій
В аналізі даних, ви́явленням анома́лій (або ви́явленням ви́кидів) називається знаходження та ідентифікація елементів, подій або спостережень, що не відповідають очікуваній поведінці (патернам) або іншим елементам набору даних.[1] Інколи аномальні елементи можуть стати причиною багатьох проблем, наприклад: банківське шахрайство, медичні проблеми, проблеми пошуку помилок у тексті тощо. Аномалії також називають викидами, нововведеннями, шумами, відхиленнями та винятковими ситуаціями.[2]
Зокрема, в контексті виявлення зловживань або вторгнень до мережі, цікавими об'єктами часто є не рідкісні об'єкти, а несподівані сплески активності. Ця модель (патерн) не дотримується загального статистичного визначення викиду як рідкісного об'єкту, і багато методів виявлення викидів (зокрема методи із навчанням без вчителя) не працюватимуть на цих даних, якщо їх не буде відповідно агреговано. Натомість алгоритми кластерного аналізу будуть здатні виявити мікрокластери, утворені цими патернами.[3]
Існують три основні категорії методів виявлення аномалій. Методи ви́явлення анома́лій без на́гляду (неконтрольовані алгоритми) визначають аномалії на непозначеному наборі даних, виходячи з припущення, що більшість зразків у цьому набору є нормальними, і шукаючи зразки, що виглядають якнайменше відповідними решті набору даних. Методи контрольо́ваного ви́явлення анома́лій вимагають набору даних, що позначено як «нормальні» або «аномальні», та включають навчання класифікатора (ключовою відмінністю від інших задач класифікації є притаманно незбалансований характер виявлення викидів). Методи напі́в-контрольо́ваного ви́явлення анома́лій створюють модель, що представляє нормальну поведінку, виходячи із заданого нормального навчального набору даних, і потім перевіряють правдоподібність того, що тестовий екземпляр було породжено вивченою моделлю.[джерело?]
Застосування
Виявлення аномалій може застосовуватися в багатьох галузях, таких як виявлення вторгнень, шахрайств, дефектів, моніторинг справності систем, виявлення подій у давачевих мережах та виявлення порушень екосистем. Його часто застосовують у попередній обробці для усунення аномальних даних з набору. В контрольованому навчанні усунення аномальних даних з набору призводить до статистично значимого покращення точності.[4][5]
Популярні методи
В літературі було запропоновано різні методи виявлення аномалій. Деякими з популярних методів є:
- Методи на основі щільності (k найближчих сусідів,[6][7][8] фактор локального відхилення,[9] та багато інших варіацій цієї ідеї[10]).
- Підмножинне[11] та кореляційне[12] виявлення викидів для багатовимірних даних.[13]
- Однокласовий метод опорних векторів.[14]
- Ізоляційний ліс.[15]
- Відтворювальні штучні нейронні мережі.[16]
- Виявлення викидів на базі кластерного аналізу.[17]
- Відхилення від асоціативних правил та частих наборів даних.
- Виявлення викидів на базі нечіткої логіки.
- Ансамблеві методи з використанням бутстрепової агрегації особливостей,[18][19] нормалізації оцінок[20][21] та різних джерел відмінності.[22][23]
Застосування в захисті даних
Використовувати виявлення аномалій в системах виявлення вторгнень було запропоновано Дороті Деннінг у 1986 році.[24] Виявлення аномалій для систем виявлення вторгнень, як правило, здійснюється за допомогою порогових значень та статистики, але також може бути здійснюватися за допомогою м'яких обчислень та індуктивного навчання.[25] Види статистичних даних, запропоновані в 1999 році, включають профілі користувачів, робочих станцій, мереж, віддалених хостів, груп користувачів, програми на базі частот, середніх значень, відхилень, коваріацій та стандартних відхилень.[26] Двійником виявлення аномалій у системі виявлення вторгнень є виявлення зловживань.
Програмне забезпечення
- ELKI — це Java-інструментарій з відкритим кодом для аналізу даних, що містить декілька алгоритмів виявлення аномалій, а також прискорення індексу для них.
Див. також
- Викид (статистика)
- Виявлення змін
- Ієрархічна часова пам'ять
Посилання
- Chandola, V.; Banerjee, A.; Kumar, V. (2009). Anomaly detection: A survey. ACM Computing Surveys} 41 (3): 1. doi:10.1145/1541880.1541882. Архів оригіналу за 11 лютого 2014. Процитовано 22 червня 2015. (англ.)
- Hodge, V. J.; Austin, J. (2004). A Survey of Outlier Detection Methodologies. Artificial Intelligence Review 22 (2): 85. doi:10.1007/s10462-004-4304-y. (англ.)
- Dokas, Paul; Ertoz, Levent; Kumar, Vipin; Lazarevic, Aleksandar; Srivastava, Jaideep; Tan, Pang-Ning (2002). Data mining for network intrusion detection. Proceedings NSF Workshop on Next Generation Data Mining. (англ.)
- Tomek, Ivan (1976). An Experiment with the Edited Nearest-Neighbor Rule. IEEE Transactions on Systems, Man, and Cybernetics 6 (6): 448. doi:10.1109/TSMC.1976.4309523. (англ.)
- Smith, M. R.; Martinez, T. (2011). Improving classification accuracy by identifying and removing instances that should be misclassified. The 2011 International Joint Conference on Neural Networks. с. 2690. ISBN 978-1-4244-9635-8. doi:10.1109/IJCNN.2011.6033571. (англ.)
- Knorr, E. M.; Ng, R. T.; Tucakov, V. (2000). Distance-based outliers: Algorithms and applications. The VLDB Journal the International Journal on Very Large Data Bases 8 (3–4): 237. doi:10.1007/s007780050006. (англ.)
- Ramaswamy, S.; Rastogi, R.; Shim, K. (2000). Efficient algorithms for mining outliers from large data sets Proceedings of the 2000 ACM SIGMOD international conference on Management of data - SIGMOD '00. с. 427. ISBN 1581132174. doi:10.1145/342009.335437. (англ.)
- Angiulli, F.; Pizzuti, C. (2002). Fast Outlier Detection in High Dimensional Spaces Principles of Data Mining and Knowledge Discovery. Lecture Notes in Computer Science 2431. с. 15. ISBN 978-3-540-44037-6. doi:10.1007/3-540-45681-3_2. (англ.)
- Breunig, M. M.; Kriegel, H.-P.; Ng, R. T.; Sander, J. (2000). LOF: Identifying Density-based Local Outliers. Proceedings of the 2000 ACM SIGMOD International Conference on Management of Data. SIGMOD. с. 93–104. ISBN 1-58113-217-4. doi:10.1145/335191.335388. (англ.)
- Schubert, E.; Zimek, A.; Kriegel, H. -P. (2012). Local outlier detection reconsidered: A generalized view on locality with applications to spatial, video, and network outlier detection. Data Mining and Knowledge Discovery. doi:10.1007/s10618-012-0300-z. (англ.)
- Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2009). Outlier Detection in Axis-Parallel Subspaces of High Dimensional Data Advances in Knowledge Discovery and Data Mining. Lecture Notes in Computer Science 5476. с. 831. ISBN 978-3-642-01306-5. doi:10.1007/978-3-642-01307-2_86. (англ.)
- Kriegel, H. P.; Kroger, P.; Schubert, E.; Zimek, A. (2012). Outlier Detection in Arbitrarily Oriented Subspaces 2012 IEEE 12th International Conference on Data Mining. с. 379. ISBN 978-1-4673-4649-8. doi:10.1109/ICDM.2012.21. (англ.)
- Zimek, A.; Schubert, E.; Kriegel, H.-P. (2012). A survey on unsupervised outlier detection in high-dimensional numerical data. Statistical Analysis and Data Mining 5 (5): 363–387. doi:10.1002/sam.11161. (англ.)
- Schölkopf, B.; Platt, J. C.; Shawe-Taylor, J.; Smola, A. J.; Williamson, R. C. (2001). Estimating the Support of a High-Dimensional Distribution. Neural Computation 13 (7): 1443. doi:10.1162/089976601750264965. (англ.)
- Liu, Fei Tony; Ting, Kai Ming; Zhou, Zhi-Hua (1 березня 2012). Isolation-Based Anomaly Detection. ACM Trans. Knowl. Discov. Data 6 (1). с. 3:1–3:39. ISSN 1556-4681. doi:10.1145/2133360.2133363. Процитовано 13 травня 2017.
- Hawkins, Simon; He, Hongxing; Williams, Graham; Baxter, Rohan (2002). Outlier Detection Using Replicator Neural Networks In Proc. of the Fifth Int. Conf. and Data Warehousing and Knowledge Discovery. с. 170–180. doi:10.1007/3-540-46145-0_17. (англ.)
- He, Z.; Xu, X.; Deng, S. (2003). Discovering cluster-based local outliers. Pattern Recognition Letters 24 (9–10): 1641. doi:10.1016/S0167-8655(03)00003-5. (англ.)
- Lazarevic, A.; Kumar, V. (2005). Feature bagging for outlier detection. Proc. 11th ACM SIGKDD international conference on Knowledge Discovery in Data Mining: 157–166. doi:10.1145/1081870.1081891. (англ.)
- Nguyen, H. V.; Ang, H. H.; Gopalkrishnan, V. (2010). Mining Outliers with Ensemble of Heterogeneous Detectors on Random Subspaces Database Systems for Advanced Applications. Lecture Notes in Computer Science 5981. с. 368. ISBN 978-3-642-12025-1. doi:10.1007/978-3-642-12026-8_29. (англ.)
- Kriegel, H. P.; Kröger, P.; Schubert, E.; Zimek, A. (2011). Interpreting and Unifying Outlier Scores (PDF) Proceedings of the 2011 SIAM International Conference on Data Mining. с. 13–24. ISBN 978-0-89871-992-5. doi:10.1137/1.9781611972818.2. (англ.)
- Schubert, E.; Wojdanowski, R.; Zimek, A.; Kriegel, H. P. (2012). On Evaluation of Outlier Rankings and Outlier Scores (PDF) Proceedings of the 2012 SIAM International Conference on Data Mining. с. 1047–1058. ISBN 978-1-61197-232-0. doi:10.1137/1.9781611972825.90. (англ.)
- Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). Ensembles for unsupervised outlier detection. ACM SIGKDD Explorations Newsletter 15: 11. doi:10.1145/2594473.2594476. (англ.)
- Zimek, A.; Campello, R. J. G. B.; Sander, J. R. (2014). Data perturbation for outlier detection ensembles Proceedings of the 26th International Conference on Scientific and Statistical Database Management - SSDBM '14. с. 1. ISBN 9781450327220. doi:10.1145/2618243.2618257. (англ.)
- Denning, D. E. (1987). An Intrusion-Detection Model. IEEE Transactions on Software Engineering (2): 222. doi:10.1109/TSE.1987.232894. CiteSeerX: 10.1.1.102.5127. (англ.)
- Teng, H. S.; Chen, K.; Lu, S. C. (1990). Adaptive real-time anomaly detection using inductively generated sequential patterns. Proceedings of the IEEE Computer Society Symposium on Research in Security and Privacy: 278–284. ISBN 0-8186-2060-9. doi:10.1109/RISP.1990.63857.[недоступне посилання з березня 2019] (англ.)
- Jones, Anita K.; Sielken, Robert S. (1999). Computer System Intrusion Detection: A Survey. Technical Report, Department of Computer Science, University of Virginia, Charlottesville, VA. CiteSeerX: 10.1.1.24.7802. (англ.)
Література
- Chandola, V.; Banerjee, A.; Kumar, V. (2009). Anomaly detection: A survey. ACM Computing Surveys} 41 (3): 1. doi:10.1145/1541880.1541882. Архів оригіналу за 11 лютого 2014. Процитовано 22 червня 2015.
- Hodge, V. J.; Austin, J. (2004). A Survey of Outlier Detection Methodologies. Artificial Intelligence Review 22 (2): 85. doi:10.1007/s10462-004-4304-y.
Посилання
- www.MachineLearning.ru — професійний вікі-ресурс, присвячений машинному навчання та інтелектуального аналізу даних (рос.)
- Костянтин Воронцов. Курс лекцій Математичні методи навчання за прецедентами, МФТІ, 2004—2008 (рос.)