Категорійна змінна
У статистиці категорі́йна змі́нна (англ. categorical variable) — це змінна, яка може набувати одне з обмеженого та, зазвичай, фіксованого числа можливих значень, відносячи кожен індивідуалізований об'єкт або іншу одиницю дослідження до певної групи, або номінальної категорії, на підставі деякої якісної властивості.[1] В інформатиці та деяких галузях математики категорійні змінні називають переліками або переліковими типами. Часто (хоча й не в цій статті) кожне з можливих значень категорійної змінної називають рі́внем (англ. level). Розподіл ймовірності, пов'язаний із випадковою категорійною змінною, називають категорійним розподілом.
Категорі́йні да́ні (англ. categorical data) — це тип статистичних даних, який складається з категорійних змінних, або з даних, які було перетворено на такий вигляд, наприклад, таких, як згруповані дані. Конкретніше, категорійні дані можуть походити зі спостережень якісних даних, які підсумовуються як кількості або перехресні табулювання, або зі спостережень кількісних даних, згрупованих в межах заданих проміжків. Часто чисто категорійні дані підсумовують у вигляді таблиці спряженості. Проте, зокрема при розгляді аналізу даних, є звичним застосовувати термін «категорійні дані» до наборів даних, які, містячи деякі категорійні змінні, можуть також містити й не категорійні змінні.
Категорійну змінну, що може набувати рівно двох значень, називають двійковою змінною, або дихотомі́чною змі́нною (англ. dichotomous variable); важливим окремим випадком є змінна Бернуллі. Категорійні змінні з понад двома можливими значеннями називають політомі́чними змі́нними (англ. polytomous variable); категорійні змінні часто вважають політомічними, якщо не вказано інше. Дискретизація розглядає неперервні дані так, якби вони були би категорійними. Дихотомізація розглядає неперервні дані або політомічні змінні так, якби вони були би двійковими змінними. Регресійний аналіз часто розглядає категорійне членство за допомогою однієї або більше кількісних фіктивних змінних.
Приклади категорійних змінних
Приклади значень, які може бути представлено в категорійній змінній:
- Група крові особи: A, B, AB або O.
- Політична партія, за яку міг би голосувати виборець, наприклад, «Християнські демократи», «Соціал-демократи», «Партія зелених» тощо.
- Тип гірської породи: магматичний, осадовий або метаморфічний.
- Ідентичність певного слова (наприклад, у моделі мови): Один з V можливих варіантів вибору для словника розміру V.
Позначення
Для простоти у статистичній обробці категорійним змінним можуть призначати числові індекси, наприклад, від 1 до K для K-позиційної категорійної змінної (тобто, для змінної, яка може виражати рівно K можливих значень). В цілому, однак, ці числа є довільними, і не мають ніякої значущості поза простим забезпеченням зручної мітки для певного значення. Іншими словами, значення в категорійній змінній існують на номінальній шкалі: кожне з них представляє логічно окреме поняття, вони не обов'язково можуть бути змістовно впорядкованими, і ними неможливо іншим чином маніпулювати так, як можливо було би маніпулювати числами. Натомість, чинними операціями є еквівалентність, входження до множини, та інші операції, пов'язані з множинами.
В результаті центральна тенденція набору категорійних змінних задається його модою; ані середнє значення, ані медіану визначити неможливо. Наприклад, маючи множину людей, ми можемо розглядати набір категорійних змінних, які відповідають їхнім прізвищам. Ми можемо розглядати такі операції, як еквівалентність (чи мають дві людини одне й те саме прізвище), входження до множини (чи має особа прізвище із заданого переліку), підрахунок (скільки людей мають задане прізвище), або знаходження моди (яке з прізвищ трапляється найчастіше). Проте, ми не можемо змістовно обчислити «суму» Ковальчук + Яковенко, або запитати, чи є Ковальчук «меншим» або «більшим», ніж Яковенко. В результаті, ми не в змозі змістовно запитати, що в множині прізвищ є «середнім прізвищем» (середнє значення), або «прізвищем, найближчим до середини» (медіаною).
Зверніть увагу, що при цьому ігнорується поняття абеткового порядку, яке є характеристикою, властивою не прізвищам як таким, а способові, яким ми будуємо мітки. Наприклад, якщо ми запишемо прізвища латинкою, і розглядатимемо латинський порядок літер, ми можемо отримати відмінний результат при обчисленні «Ковальчук < Яковенко», ніж якби ми писати ці прізвища звичною кирилицею; а якщо ми запишемо прізвища китайськими символами, ми не зможемо змістовно обчислити «Ковальчук < Яковенко» взагалі, оскільки для цих символів послідовне впорядкування не визначено. Проте якщо ми розглядатимемо прізвища як написані, наприклад, кирилицею, і визначимо впорядкування відповідно до стандартного абеткового порядку, то ми дієво перетворимо їх на порядкові змінні, визначені на порядковій шкалі.
Число можливих значень
Категорійні випадкові змінні, як правило, описують статистично категорійним розподілом, який дозволяє довільний K-позиційній категорійний змінній бути вираженою окремими ймовірностями, вказаними для кожного з K можливих виходів. Такі полі-категорійні категорійні змінні часто аналізують із застосуванням поліноміального розподілу, який підраховує частоту кожного можливого поєднання кількостей траплянь різних категорій. Регресійний аналіз категорійних виходів здійснюють шляхом поліноміальної логістичної регресії, поліноміального пробіту, або пов'язаного з цим типу дискретного обирання моделі.
Категорійні змінні, які мають лише два можливих виходи (наприклад, «так» і «ні», або «успіх» і «невдача»), відомі як двійкові змінні (або змінні Бернуллі). Через їхню важливість, ці змінні часто розглядають як окрему категорію, з окремим розподілом (розподілом Бернуллі) та окремими регресійними моделями (логістична регресія, пробіт-регресія тощо). В результаті, термін «категорійна змінна» часто відводять для випадків з 3 або більше виходами, які іноді позначують терміном багатопозиційна змінна (англ. multi-way variable), на противагу до двійкової змінної.
Також можливо розглядати такі категорійні змінні, в яких кількість категорій не фіксується заздалегідь. Як приклад, для категорійної змінної, яка описує певне слово, ми можемо не знати заздалегідь розміру словника, і ми хотіли би дозволити можливість трапляння слів, яких ми ще не бачили. Стандартні статистичні моделі, як ті, що залучають категорійний розподіл та поліноміальну логістичну регресію, передбачають, що число категорій є відомим завчасно, і зміна числа категорій на льоту є мудрованою. В таких випадках мусять застосовуватися передовіші методики. Прикладом є процес Діріхле, який припадає на галузь непараметричної статистики. В такому випадку логічно передбачають, що існує нескінченне число категорій, але в будь-який момент часу більшість з них (фактично, всі, крім скінченного числа) ніколи не було бачено. Всі формули виражають у термінах числа вже фактично побачених категорій, замість (нескінченного) загального числа потенційних категорій, які можуть існувати, і створюють методи для послідовного уточнювання статистичних розподілів, включно з додаванням «нових» категорій.
Категорійні змінні та регресія
Категорійні змінні являють собою якісний метод маркування даних (наприклад, являють собою категорії, або входження до груп). Вони можуть включатися як незалежні змінні до регресійного аналізу, або як залежні змінні до логістичної регресії чи пробіт-регресії, але мусять бути перетворені на кількісні дані для уможливлення аналізу даних. Це робиться за рахунок застосування систем кодування. Аналіз проводиться таким чином, що кодуються лише g - 1 груп (де g є числом груп). Це зводить до мінімуму надмірність, у той же час представляючи повний набір даних, оскільки від кодування всіх g груп не було би отримано жодної додаткової інформації: наприклад, при кодуванні статі (де g = 2: чоловіча та жіноча), якщо ми кодуємо лише жінок, всі решта обов'язково будуть чоловіками. В загальному випадку не кодують ту групу, яка становить найменший інтерес.[2]
Існують три основні системи кодування, які зазвичай застосовують в аналізі категорійних змінних у регресії: фіктивне кодування (англ. dummy coding), впли́вове кодування (англ. effects coding) та контрастове кодування (англ. contrast coding). Рівняння регресії набуває вигляду Y = bX + a, де b є градієнтом, і задає вагу, емпірично призначену пояснювальникові, X є пояснювальною змінною, а a є Y-відтином, і ці значення набувають різного сенсу в залежності від системи кодування, яку застосовують. Вибір системи кодування не впливає на статистики F та R2. Проте кожен обирає систему кодування на основі порівняння, яке його цікавить, оскільки інтерпретації значень b різнитимуться.[2]
Фіктивне кодування
Фіктивне кодування (англ. dummy coding) застосовують тоді, коли мається на увазі контрольна, або порівняльна група. Внаслідок цього дані однієї групи аналізують відносно порівняльної групи: a представляє середнє значення порівняльної групи, а b є різницею між середнім значенням експериментальної групи та середнім значенням контрольної групи. Передбачається, що для визначення придатної контрольної групи має бути виконано три критерії: ця група повинна бути міцно усталеною (наприклад, не повинна бути категорією «інші»), повинні бути логічні підстави для обрання цієї групи як порівняльної (наприклад, передбачається, що ця група має найвищий бал за залежною змінною), і, нарешті, розмір вибірки цієї групи повинен бути істотним, а не малим, у порівнянні з іншими групами.[3]
У фіктивному кодуванні еталонній групі призначують значення 0 для кожної кодової змінної, групі, яка становить інтерес для порівняння з еталонною, призначують значення 1 для встановленої для неї кодової змінної, а всім іншим групам для цієї конкретної кодової змінної призначують 0.[2]
Значення b повинні інтерпретуватися так, що експериментальна група порівнюється з контрольною. Тому встановлення від'ємного значення b спричинить те, що експериментальна група матиме нижчі бали за залежною змінною, ніж контрольна група. Щоби проілюструвати це, припустімо, що ми вимірюємо оптимізм серед кількох національностей, і ми вирішили, що французи слугуватимуть придатною контрольною групою. Якщо ми порівнюємо їх з італійцями, і спостерігаємо від'ємне значення b, це підкаже, що італійці в середньому отримують нижчі бали за оптимізмом.
Наступна таблиця є прикладом фіктивного кодування з французами як контрольною групою, і C1, C2 та C3 відповідно як кодами для італійців, німців та інших (ані французів, ані італійців, ані німців):
Національність | C1 | C2 | C3 |
Французи | 0 | 0 | 0 |
Італійці | 1 | 0 | 0 |
Німці | 0 | 1 | 0 |
Інші | 0 | 0 | 1 |
Впли́вове кодування
У системі впли́вового кодування (англ. effects coding) дані аналізують шляхом порівняння однієї групи з усіма іншими групами. На відміну від фіктивного кодування, контрольна група відсутня. Натомість, порівняння здійснюють за поєднанням середніх значень усіх груп (тепер a є генеральним середнім). Таким чином, дані розглядають не по відношенню до іншої групи, а скоріше по відношенню до генерального середнього.[2]
Впли́вове кодування може бути або зваженим, або незваженим. Зважене впли́вове кодування є просто підрахунком зваженого генерального середнього, який бере таким чином до уваги розмір вибірки кожної зі змінних. Це є найдоречнішим у ситуаціях, коли вибірка є репрезентативною для досліджуваної генеральної сукупності. Незважене впли́вове кодування є найдоречнішим у ситуаціях, коли відмінності в розмірах вибірки є результатом випадкових чинників. Для кожного з них інтерпретація b є різною: у незваженому впли́вовому кодуванні b є різницею між середнім значенням експериментальної групи та генеральним середнім, тоді як у зваженій ситуації воно є середнім експериментальної групи мінус зважене генеральне середнє.[2]
У впли́вовому кодуванні ми кодуємо групу, яка становить інтерес, через 1, так само, як ми робили би це для фіктивного кодування. Принциповою відмінністю є те, що ми встановлюємо код -1 для тієї групи, яка становить найменший інтерес. Оскільки ми продовжуємо використовувати схему кодування g - 1, то групою, яка насправді не продукуватиме даних, буде -1, отже, це засвідчує той факт, що та група цікавить нас найменше. Всім іншим групам призначують код 0.
Значення b повинні інтерпретуватися таким чином, що експериментальна група порівнюється з поєднанням середніх значень усіх груп (або зваженим генеральним середнім у випадку зваженого впли́вового кодування). Тому встановлення від'ємного b спричинятиме те, що кодована група матиме нижчий бал, ніж середнє значення всіх груп за залежною змінною. Використовуючи наш попередній приклад балів оптимізму серед національностей, якщо розгляданою групою є італійці, то спостереження від'ємного значення b означатиме, що вони отримують нижчий бал оптимізму.
Наступна таблиця є прикладом впли́вового кодування, в якому групою, що становить найменший інтерес, є Інші.
Національність | C1 | C2 | C3 |
Французи | 0 | 0 | 1 |
Італійці | 1 | 0 | 0 |
Німці | 0 | 1 | 0 |
Інші | −1 | −1 | −1 |
Контрастове кодування
Контрастова система кодування (англ. contrast coding) дозволяє дослідникові безпосередньо ставити конкретні питання. Замість того, щоби система кодування диктувала здійснювані порівняння (тобто, порівняння з контрольною групою, як у фіктивному кодуванні, або з усіма групами, як у впли́вовому), можна розробити унікальне порівняння, яке живить конкретні дослідницькі питання. Ця пристосована гіпотеза зазвичай ґрунтується на попередній теорії та/або дослідженні. Пропоновані гіпотези зазвичай є такими: по-перше, є центральна гіпотеза, яка постулює велику відмінність між двома наборами груп; друга гіпотеза припускає, що відмінності між групами в межах кожного з наборів є малими. За допомогою своїх апріорі сфокусованих гіпотез контрастове кодування може приводити до збільшення потужності статистичної перевірки у порівнянні з менш спрямованими попередніми системами кодування.[2]
Деякі відмінності проявляються при порівнянні наших апріорних коефіцієнтів між дисперсійним аналізом та регресією. На відміну від застосування в дисперсійному аналізі, в якому дослідник на власний розсуд вирішує, чи обирати ортогональні значення коефіцієнтів, чи не ортогональні, в регресії важливо, щоби значення коефіцієнтів, які призначують у контрастовому кодуванні, були ортогональними. Крім того, в регресії значення коефіцієнтів мусять бути або в дробовому, або в десятковому вигляді. Вони не можуть набувати проміжкових значень.
Побудову контрастових кодів обмежено трьома правилами:
- Сума контрастових коефіцієнтів за кожною кодовою змінною мусить дорівнювати нулеві.
- Різниця між сумою додатних коефіцієнтів та сумою від'ємних коефіцієнтів повинна дорівнювати 1.
- Кодові змінні повинні бути ортогональними.[2]
Порушення правила 2 продукує точні значення R2 та F, указуючи, що ми досягли би тих самих висновків про те, чи існує значна різниця, чи ні; проте, ми більше не можемо інтерпретувати значення b як середню різницю.
Щоби проілюструвати побудову контрастових кодів, розгляньмо наступну таблицю. Коефіцієнти було обрано так, щоби проілюструвати наші апріорні гіпотези: Гіпотеза 1: Французи та італійці отримуватимуть вищі бали за оптимізм, ніж німці (французи = +0.33, італійці = +0.33, німці = -0.66). Це ілюструється за допомогою призначення однакових коефіцієнтів категоріям французів та італійців, і відмінного коефіцієнту німцям. Призначені знаки показують напрямок взаємовідносин (отже, надання німцям від'ємного знаку показує, що їхні гіпотетичні бали оптимізму є нижчими). Гіпотеза 2: Очікується, що французи та італійці відрізняються за своїми балами оптимізму (французи = +0.50, італійці = -0.50, німці = 0). Тут призначення нульового значення німцям показує, що вони не включаються до аналізу цієї гіпотези. Знов-таки, призначені знаки показують пропоноване взаємовідношення.
Національність | C1 | C2 |
Французи | +0.33 | +0.50 |
Італійці | +0.33 | −0.50 |
Німці | −0.66 | 0 |
Безглузде кодування
Безглузде кодування (англ. nonsense coding) трапляється тоді, коли замість призначуваних «0», «1» та «-1», бачених у попередніх системах кодування, застосовують випадкові значення. Незважаючи на те, що воно виробляє правильні середні значення для змінних, застосувати безглузде кодування не радять, оскільки воно вестиме до неінтерпретовних статистичних результатів.[2]
Вкладання
Вклада́ння (англ. embeddings) — це кодування категорійних значень у дійснозначні (а іноді й комплекснозначні) векторні простори високої розмірності, зазвичай таким чином, що «подібним» значенням призначують «подібні» вектори, або за критерієм якогось іншого типу, що робить ці вектори зручними для відповідного застосування. Поширеним особливим випадком є вкладання слів, у яких можливими значеннями категорійної змінної є слова мови, і словам з близькими значеннями мають призначуватися подібні вектори.
Взаємодії
Взаємодія може виникати при розгляді взаємозв'язку між трьома або більше змінними, і описує ситуацію, в якій одночасний вплив двох змінних на третю не є адитивним. Взаємодії з категорійними змінними можуть виникати двома шляхами: або як взаємодії між категорійними та категорійними змінними, або як взаємодії між категорійними та неперервними змінними.
Взаємодії між категорійними та категорійними змінними
Цей тип взаємодії виникає тоді, коли ми маємо дві категорійні змінні. Для дослідження цього типу взаємодії здійснюють кодування із застосуванням системи, що найвідповідніше спрямовується на гіпотезу дослідника. Добуток кодів видає взаємодію. Потім можна обчислити значення b, і визначити, чи є взаємодія значною.[2]
Взаємодії між категорійними та неперервними змінними
Аналіз простих градієнтів (англ. simple slopes analysis) є поширеною при застосуванні в регресії ретроспективною перевіркою, аналогічною до простого впли́вового аналізу в дисперсійному аналізі, яку використовують для аналізу взаємодій. У цій перевірці ми розглядаємо прості градієнти однієї незалежної змінної при певних значеннях іншої незалежної змінної. Така перевірка не обмежується застосуванням із неперервними змінними, і може застосовуватися також тоді, коли незалежна змінна є категорійною. Ми не можемо просто вибирати значення для зондування взаємодії, як ми робили би це у випадку неперервної змінної, через номінальну природу даних (наприклад, у неперервному випадку можливо аналізувати дані на високому, середньому та низькому рівнях, призначаючи 1 стандартне відхилення вище середнього значення, на середньому значенні, і на одне стандартне відхилення нижче середнього значення відповідно). В нашому категорійному випадку для дослідження простих градієнтів ми будемо застосовувати рівняння простої регресії для кожної з груп. Існує поширена практика стандартизування або центрування змінних, щоби робити дані інтерпретовнішими в аналізі простих градієнтів; проте категорійні змінні ніколи не повинні ані стандартизуватися, ані центруватися. Цю перевірку можливо застосовувати з усіма системами кодування.[2]
Див. також
- Шкала
- Перелік видів аналізу категорійних даних
- Якісні дані
- Тип статистичних даних
- Унітарний код
Примітки
- Yates, Daniel S.; Moore, David S; Starnes, Daren S. (2003). The Practice of Statistics (вид. 2nd). New York: Freeman. ISBN 978-0-7167-4773-4. Архів оригіналу за 9 лютого 2005. Процитовано 17 квітня 2016. (англ.)
- Cohen, J.; Cohen, P.; West, S. G.; & Aiken, L. S. (2003). Applied multiple regression/correlation analysis for the behavioural sciences (3rd ed.). New York, NY: Routledge. (англ.)
- Hardy, Melissa (1993). Regression with dummy variables. Newbury Park, CA: Sage. (англ.)
Література
- Andersen, Erling B. 1980. Discrete Statistical Models with Social Science Applications. North Holland, 1980. (англ.)
- Bishop, Y. M. M..; Fienberg, S. E.; Holland, P. W. (1975). Discrete Multivariate Analysis: Theory and Practice. MIT Press. ISBN 978-0-262-02113-5. MR 381130. (англ.)
- Christensen, Ronald (1997). Log-linear models and logistic regression. Springer Texts in Statistics (вид. Second). New York: Springer-Verlag. с. xvi+483. ISBN 0-387-98247-7. MR 1633357. (англ.)
- Friendly, Michael. Visualizing categorical data. SAS Institute, 2000. (англ.)
- Lauritzen, Steffen L. (2002). Lectures on Contingency Tables (вид. updated electronic version of the (University of Aalborg) 3rd (1989)). (англ.)
- NIST/SEMATEK (2008) Handbook of Statistical Methods (англ.)
- Agresti, Alan. Categorical Data Analysis - 3rd ed., 2013 (англ.)
- Azen, Razia. Categorical Data Analysis for the Behavioral and Social Sciences, 2011 (англ.)