Матриця невідповідностей

В галузі машинного навчання, й зокрема в задачі статистичної класифікації, ма́триця невідпові́дностей[12] (англ. confusion matrix), також відома як матриця помилок (англ. error matrix),[13] — це таблиця особливого компонування, що дає можливість унаочнювати продуктивність алгоритму, зазвичай керованого навчанняспонтаннім навчанні її зазвичай називають ма́трицею допасо́ваності, англ. matching matrix). Кожен з рядків цієї матриці представляє зразки прогнозованого класу, тоді як кожен зі стовпців представляє зразки справжнього класу (або навпаки).[14] Її назва походить від того факту, що вона дає можливість просто бачити, чи допускає система невідповідності між цими двома класами (наприклад, часто помилково маркуючи один як інший).

Термінологія та виведення
з матриці невідповідностей
позитивний стан (П)
число справжніх позитивних випадків у даних
негативний стан (Н)
число справжніх негативних випадків у даних

істинно позитивний (ІП)[1][2]
рівнозначно із влучанням
істинно негативний (ІН)[1][2]
рівнозначно із правильним відхиленням
хибно позитивний (ХП)[1][2]
рівнозначно з хибною тривогою, помилка I роду
хибно негативний (ХН)[1][2]
рівнозначно з пропусканням, помилка II роду

чутливість,[2] діагностична чутливість (ДЧ),[1][3] повнота,[4] коефіцієнт влучання, або істиннопозитивний рівень (ІПР)
ІПР = ІПП = ІПІП + ХН = 1 - ІНР
діагностична специфічність (ДС),[1][3] вибірність або істиннонегативний рівень (ІНР)
ІНР = ІНН = ІНІН + ХП = 1 - ХПР
влучність[4] або прогностична значущість позитивного результату (ПЗ+)[3]
ПЗ+ = ІПІП + ХП = 1 - РХВ
прогностична значущість негативного результату (ПЗ-)[3]
ПЗ- = ІНІН + ХН = 1 - РХП
коефіцієнт невлучання, або хибнонегативний рівень (ХНР)
ХНР = ХНП = ХНХН + ІП = 1 - ІПР
побічний продукт, або хибнопозитивний рівень (ХПР)
ХПР = ХПН = ХПХП + ІН = 1 - ІНР
рівень хибного виявляння (РХВ)
РХВ = ХПХП + ІП = 1 - ПЗ+
рівень хибного пропускання (РХП)
РХП = ХНХН + ІН = 1 - ПЗ-
поріг поширеності (ПП)
ПП = ІПР (-ІНР + 1) + ІНР - 1(ІПР + ІНР - 1)
міра загрози (МЗ) або критичний індекс успіху (КІУ)
МЗ = ІПІП + ХН + ХП

точність,[2] діагностична ефективність (ДЕ)[1][3]
ДЕ = ІП + ІНП + Н = ІП + ІНІП + ІН + ХП + ХН
збалансована точність[5] (ЗТ)
ЗТ = ІПР + ХПР2
міра F1[4]
гармонійне середнє влучності та чутливості
F1 = 2 · ПЗ+ · ІПРПЗ+ + ІПР = 2 ІП2 ІП + ХП + ХН
коефіцієнт кореляції Меттьюза (ККМ)
ККМ = ІП · ІН - ХП · ХН(ІП + ХП)(ІП + ХН)(ІН + ХП)(ІН + ХН)
індекс Фаулкса — Меттьюза (ФМ)
ФМ = ІПІП + ХП · ІПІП + ХН = ПЗ+ · ІПР
поінформованість, або букмекерська поінформованість (БП)
БП = ІПР + ІНР - 1
маркованість (МК) або Δp
МК = ПЗ+ + ПЗ- - 1

Джерела: Fawcett (2006),[6] Powers (2011),[7] Ting (2011),[8] CAWCR,[9] D. Chicco & G. Jurman (2020) (2020),[10] Tharwat (2018),[11] Смоляр та ін. (2013),[1] Коваль та ін. (2016),[2] Швець (2015),[3] Гущин та Сич (2018),[4] Мірошниченко та Івлієва (2019).[5]

Вона є особливим видом таблиці спряженості з двома вимірами («справжній» та «прогнозований») та ідентичними наборами «класів» в обох вимірах (кожна з комбінацій виміру та класу є змінною цієї таблиці спряженості).

Приклад

Нехай задано вибірку з 13 зображень — 8 котів та 5 псів, де коти належать до класу 1, а пси належать до класу 0,

справжній = [1,1,1,1,1,1,1,1,0,0,0,0,0],

припустімо, що ми перевіряємо класифікатор, який розрізняє котів та псів. Для цього ці 13 зображень подамо у класифікатор, і, нехай, класифікатор зробив 8 точних прогнозів, та 5 помилок: для 3 котів було помилково зроблено прогноз, що це пси (перші три прогнози), й для 2 псів було зроблено помилковий прогноз, що це коти (крайні 2 прогнози).

прогнозований = [0,0,0,1,1,1,1,1,0,0,0,1,1]

Маючи ці два мічені набори (справжній та прогнозований), ми можемо створити матрицю невідповідностей, що узагальнюватиме ці результати перевірки класифікатора:

Справжній клас
Кіт Пес
Прогнозований
клас
Кіт 5 2
Пес 3 3

В цій матриці невідповідностей система порахувала, що із 8 зображень котів 3 були псами, а для 2 з 5 зображень псів було зроблено прогноз, що це коти. Всі правильні прогнози розміщено на діагоналі таблиці (виділеній жирним), тож цю таблицю легко візуально перевіряти на помилки прогнозування, оскільки їх представлено значеннями поза цією діагоналлю.

Абстрактно, матриця невідповідностей є такою:

Справжній клас
П Н
Прогнозований
клас
П ІП ХП
Н ХН ІН

де П = Позитивний, Н = Негативний, ІП = Істинно Позитивний, ХП = Хибно Позитивний, ІН = Істинно Негативний, ХН = Хибно Негативний.

Таблиця невідповідностей

В прогнозній аналітиці, табли́ця невідпові́дностей (англ. table of confusion, іноді також звана ма́трицею невідпові́дностей), — це таблиця з двома рядками та двома стовпцями, що повідомляє число хибно позитивних (англ. false positives), хибно негативних (англ. false negatives), істинно позитивних (англ. true positives) та істинно негативних (англ. true negatives) результатів. Це уможливлює аналіз, докладніший за просту пропорцію правильних класифікацій (точність). Точність видаватиме оманливі результати, якщо набір даних є незбалансованим, тобто коли число спостережень в різних класах сильно різниться. Наприклад, якби в цих даних було 95 котів і лише 5 псів, певний класифікатор міг би класифікувати всі спостереження як котів. Загальна точність становила би 95 %, але, докладніше, класифікатор мав би 100 %-вий рівень розпізнавання (чутливість) для класу котів, але 0 %-вий рівень розпізнавання для класу псів. Міра F1 є ще ненадійнішою в таких випадках, і тут видавала би понад 97,4 %, тоді як поінформованість усуває це упередження, й видає 0 як імовірність поінформованого рішення для будь-якого виду гадання навмання (в даному випадку завжди гадання, що це є коти).

Згідно Давіде Чікко та Джузеппе Журмана, найінформативнішою метрикою для оцінювання матриці невідповідностей є коефіцієнт кореляції Меттьюза (ККМ, англ. Matthews correlation coefficient, MCC).[15]

Виходячи з наведеної вище матриці невідповідностей, відповідною їй таблицею невідповідностей для котів буде

Справжній клас
Кіт Не-кіт
Прогнозований
клас
Кіт 5 істинно позитивних 2 хибно позитивних
Не-кіт 3 хибно негативних 3 істинно негативних

Остаточна таблиця невідповідностей міститиме усереднені значення для всіх класів узятих разом.

Визначмо експеримент з П позитивними випадками та Н негативними випадками для якогось стану. Наведені вище чотири результати може бути сформульовано в матриці невідповідностей 2×2 наступним чином:

Справжній стан
загальна сукупність позитивний стан негативний стан поширеність = Σ позитивних станівΣ загальної сукупності точність = Σ істинно позитивних + Σ істинно негативнихΣ загальної сукупності
Прогнозований стан
позитивний
прогнозований стан
істинно позитивний хибно позитивний,
помилка I роду
прогностична значущість позитивного результату (ПЗ+), влучність = Σ істинно позитивнихΣ позитивних прогнозованих станів рівень хибного виявляння (РХВ) = Σ хибно позитивнихΣ позитивних прогнозованих станів
негативний
прогнозований стан
хибно негативний,
помилка II роду
істинно негативний рівень хибного пропускання (РХП) = Σ хибно негативнихΣ негативних прогнозованих станів прогностична значущість негативного результату (ПЗ-) = Σ істинно негативнихΣ негативних прогнозованих станів
істиннопозитивний рівень (ІПР), повнота, чутливість, ймовірність виявлення, потужність = Σ істинно позитивнихΣ позитивних станів хибнопозитивний рівень (ХПР), побічний продукт, ймовірність хибної тривоги = Σ хибно позитивнихΣ негативних станів відношення правдоподібності позитивного результату (ВП+) = ІПРХПР діагностичне відношення шансів (ДВШ) = ВП+ВП− міра F1 = 2 · влучність · повнотавлучність + повнота
хибнонегативний рівень (ХНР), коефіцієнт невлучання = Σ хибно негативнихΣ позитивних станів специфічність, вибірність, істиннонегативний рівень (ІНР) = Σ істинно негативнихΣ негативних станів відношення правдоподібності негативного результату (ВП-) = ХНРІНР

Примітки

  1. Смоляр, В.А.; Шаповал, Н.А.; Гузь, О.А; Хоперія, В.Г. (2013). Оцінка ефективності експрес-гістологічного дослідження у визначенні обсягу дисекції за папілярного раку щитоподібної залози. Клінічна ендокринологія та ендокринна хірургія (Київ: Український науково-практичний центр ендокринної хірургії, трансплантації ендокринних органів і тканин МОЗ України) 3 (44).
  2. Коваль, С.С.; Макеєв, С.С.; Новікова, Т.Г. (2016). Оцінка ефективності застосування методики інтеграції даних ОФЕКТ/МРТ у діагностиці метастазів головного мозку. Клінічна онкологія (Київ: ДУ «Інститут нейрохірургії ім. акад. А.П. Ромоданова НАМН України») 3 (23).
  3. Швець У. С. Основні поняття доказової медицини.  2015.
  4. Гущин, І. В.; Сич, Д. О. (жовтень 2018). Аналіз впливу попередньої обробки тексту на результати текстової класифікації. Молодий вчений (Харківський національний університет імені В.Н. Каразіна) 10 (62): 264–266.
  5. Мірошниченко, І. В.; Івлієва, К. Г. (2019). Оцінювання кредитного ризику методами машинного навчання. doi:10.32702/2307-2105-2019.12.87.
  6. Fawcett, Tom (2006). An Introduction to ROC Analysis. Pattern Recognition Letters 27 (8): 861–874. doi:10.1016/j.patrec.2005.10.010. (англ.)
  7. Powers, David M W (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies 2 (1): 37–63. (англ.)
  8. Ting, Kai Ming (2011). У Sammut, Claude; Webb, Geoffrey I. Encyclopedia of machine learning. Springer. ISBN 978-0-387-30164-8. doi:10.1007/978-0-387-30164-8. (англ.)
  9. Brooks, Harold; Brown, Barb; Ebert, Beth; Ferro, Chris; Jolliffe, Ian; Koh, Tieh-Yong; Roebber, Paul; Stephenson, David (26 січня 2015). WWRP/WGNE Joint Working Group on Forecast Verification Research. Collaboration for Australian Weather and Climate Research. World Meteorological Organisation. Процитовано 17 липня 2019. (англ.)
  10. The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics 21 (1): 6-1–6-13. January 2020. PMC 6941312. PMID 31898477. doi:10.1186/s12864-019-6413-7. Проігноровано невідомий параметр |vauthors= (довідка) (англ.)
  11. Classification assessment methods. Applied Computing and Informatics. August 2018. doi:10.1016/j.aci.2018.08.003. Проігноровано невідомий параметр |vauthors= (довідка); Проігноровано невідомий параметр |doi-access= (довідка) (англ.)
  12. Сперкач, М. О.; Юзьвак, Д. Ю. (2019). Розв'язання задачі класифікації текстів методами обробки природньої мови та машинного навчання. Науковий огляд 4 (57).
  13. Stehman, Stephen V. (1997). Selecting and interpreting measures of thematic classification accuracy. Remote Sensing of Environment 62 (1): 77–89. Bibcode:1997RSEnv..62...77S. doi:10.1016/S0034-4257(97)00083-7. (англ.)
  14. Powers, David M W (2011). Evaluation: From Precision, Recall and F-Measure to ROC, Informedness, Markedness & Correlation. Journal of Machine Learning Technologies 2 (1): 37–63. Проігноровано невідомий параметр |s2cid= (довідка) (англ.)
  15. The advantages of the Matthews correlation coefficient (MCC) over F1 score and accuracy in binary classification evaluation. BMC Genomics 21 (1): 6-1–6-13. January 2020. PMC 6941312. PMID 31898477. doi:10.1186/s12864-019-6413-7. Проігноровано невідомий параметр |vauthors= (довідка) (англ.)
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.