Витік (машинне навчання)

У статистиці та машиннім навчанні ви́тік (також ви́тік да́них або ви́тік ці́лі, англ. leakage, data leakage, target leakage) — це використання в процесі тренування моделі такої інформації, яка не буде очікувано доступною в момент передбачування, що спричинює переоцінювання передбачувальними оцінками (метриками) корисності моделі для виконання її у виробничім середовищі.[1]

Витік часто буває тонким та непрямим, ускладнюючи його виявляння та усування. Витік може спричинювати обрання моделювальником неоптимальної моделі, яку в іншому випадку могла би перевершити безвитокова модель.[1]

Режими витоку

Витік може траплятися на багатьох етапах процесу машинного навчання. Причини витоку можливо класифікувати за двома можливими джерелами витоку для моделі: ознаки, та тренувальні зразки.[1]

Витік ознак

Стовпчиковий витік спричинюється включенням під час тренування моделі стовпчиків, що є одними з: повторів мітки, посередників для мітки, або самою міткою, які не є доступними в момент передбачування (анахронізми[2]). До них можуть належати витоки, які частково видають мітку.

Наприклад, включення стовпчика «ЩомісячнаЗарплатня» при передбачуванні стовпчика «РічнаЗарплатня», або «ХвилинЗапізнення» при передбачуванні «ЧиБулоЗапізнення», або, тонше, «ЧислоЗатриманихПлатежів» при передбачуванні «ЧиНадатиПозику».

Витік тренувальних зразків

Рядковий витік спричинюється неправильним поділом інформації рядками даних.

Типи витоків даних:

  • Передчасне обозначування, витік від передчасного обозначування перед поділом ПЗ/Тренування/Перевірка (мусить допасовуватися MinMax/n-грамів/тощо лише на тренувальній долі, а потім перетворювати перевірний набір).
  • Дублювання рядків між тренуванням/затверджуванням/перевіркою (наприклад, перевибирання набору даних, щоби доповнити його розмір, до поділу, наприклад, різними обертаннями/збільшеннями одного зображення, натяжковим вибиранням перед поділом, або дублюванням рядків для довибирання класу меншості)
  • Не н. о. р. дані
    • Часовий витік (наприклад, розбивання набору даних часового ряду випадковим чином замість новіших даних у перевірному наборі при застосуванні поділу Тренування/Перевірка, або перехресного затверджування з ковзним початком)
    • Груповий витік — не включення стовпчика поділу на групи (наприклад, група Ендрю Ина мала 100 тис. рентгенівських знімків 30 тис. пацієнтів, що означає близько 3 знімків на пацієнта. У цій праці використовували випадкове розбивання, замість забезпечувати, щоби всі знімки одного пацієнта були в одній і тій же долі. Тож модель частково запам'ятовувала пацієнтів замість навчатися розпізнавати пневмонію на рентгенівських знімках грудної клітини. Переглянута праця мала падіння в оцінках.[3][4])

Для залежних від часу наборів даних структура досліджуваної системи змінюється з часом (тобто, є «нестаціонарною»). Це може вносити систематичні відмінності між тренувальним та затверджувальним наборами. Наприклад, якщо модель для передбачування цін акцій тренують на певному п'ятирічному періоді, нереалістично розглядати наступний п'ятирічний період як витягнутий з тієї ж генеральної сукупності. Як інший приклад, припустімо, що модель розроблюють для передбачування ризику особи отримати діагноз певної хвороби протягом наступного року.

Див. також

Примітки

  1. Shachar Kaufman; Saharon Rosset; Claudia Perlich (January 2011). Leakage in Data Mining: Formulation, Detection, and Avoidance. Proceedings of the ACM SIGKDD International Conference on Knowledge Discovery and Data Mining 6: 556–563. doi:10.1145/2020408.2020496. Процитовано 13 січня 2020. (англ.)
  2. Soumen Chakrabarti (2008). 9. Data Mining: Know it All. Morgan Kaufmann Publishers. с. 383. ISBN 978-0-12-374629-0. «Анахронічні змінні є згубною проблемою для добування. Проте вони не становлять жодної проблеми під час розгортання, хіба що хтось очікує, що ця модель працюватиме! Анахронічні змінні перебувають не на своєму місці в часі. Конкретніше, під час моделювання даних вони переносять інформацію у зворотному напрямку, із майбутнього до минулого.» (англ.)
  3. Guts, Yuriy (30 жовтня 2018). Yuriy Guts. TARGET LEAKAGE IN MACHINE LEARNING (Talk) AI Ukraine Conference. Ukraine. Проігноровано невідомий параметр |lay-url= (довідка) (англ.)
  4. Nick, Roberts (16 листопада 2017). Replying to @AndrewYNg @pranavrajpurkar and 2 others. Brooklyn, NY, USA: Twitter. Архів оригіналу за 10 червня 2018. Процитовано 13 січня 2020. «Replying to @AndrewYNg @pranavrajpurkar and 2 others ... Were you concerned that the network could memorize patient anatomy since patients cross train and validation? “ChestX-ray14 dataset contains 112,120 frontal-view X-ray images of 30,805 unique patients. We randomly split the entire dataset into 80% training, and 20% validation.”» (англ.)
This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.