Баєсів інформаційний критерій
У статистиці, ба́єсів інформаці́йний крите́рій (БІК, англ. bayesian information criterion, BIC), або крите́рій Шва́рца (англ. Schwarz criterion, також англ. SBC, SBIC) — статистичний критерій для обирання моделі серед скінченної множини моделей; найприйнятнішою є модель із найнижчим БІК. Він ґрунтується, зокрема, на функції правдоподібності, і тісно пов'язаний з інформаційним критерієм Акаіке (ІКА).
Частина з циклу Статистика |
Баєсова статистика |
---|
Теорія |
|
Методи |
При допасовуванні моделей можливо підвищувати правдоподібність шляхом додавання параметрів, але це може призводити до перенавчання. Як БІК, так і ІКА намагаються розв'язувати цю проблему введенням члена штрафу для числа параметрів у моделі; член штрафу в БІК є більшим, ніж в ІКА.
БІК було розроблено Ґідеоном Шварцем, і опубліковано в праці 1978 року,[1] в якій він навів баєсівське обґрунтування його застосування.
Визначення
БІК формально визначається як[2]
де
- = максимізоване значення функції правдоподібності моделі , тобто, , де є значеннями параметрів, які максимізують функцію правдоподібності;
- = спостережувані дані;
- = число точок даних в , число спостережень, або, рівнозначно, розмір вибірки;
- = число вільних параметрів, які належить оцінити. Якщо модель, що розглядають, є лінійною регресією, то є числом регресорів, включно з відтином;
БІК є асимптотичним результатом, виведеним за припущення, що розподіл даних належить до експоненційного сімейства. Тобто, інтеграл функції правдоподібності , помножений на апріорний розподіл ймовірності над параметрами моделі , для незмінних спостережених даних наближується як
Для великих це може бути наближено наведеною вище формулою. БІК використовують в задачах обирання моделі, що в них додавання сталої до БІК не змінює результату.
Властивості
- Він не залежить від апріорного, або апріорне є «невизначеним» (сталою).
- Він може вимірювати ефективність параметризованої моделі в термінах передбачування даних.
- Він штрафує складність моделі, де складність позначає кількість параметрів моделі.
- Він наближено дорівнює критерієві мінімальної довжини опису, але з протилежним знаком.
- Його можна застосовувати для обирання числа кластерів відповідно до внутрішньої складності, присутньої в певному наборі даних.
- Він тісно пов'язаний з іншими критеріями штрафованої правдоподібності, такими як RIC[прояснити: ком.] та інформаційний критерій Акаіке.
Обмеження
Критерій БІК страждає на два головні обмеження[3]
- наведене вище наближення чинне лише для розміру вибірки , який є набагато більшим за число параметрів моделі .
- БІК не може обробляти складні зібрання моделей, як у задачі обирання змінних (або обирання ознак) за високої розмірності.[3]
Гаусів особливий випадок
За припущення, що похибки або збурення моделі є незалежними та однаково розподіленими згідно нормального розподілу, і граничної умови, що похідна логарифмічної правдоподібності по відношенню до істинної дисперсії є нульовою, це перетворюється (з точністю до адитивної сталої, яка залежить від n, але не від моделі) на[4]
де є дисперсією похибки. Дисперсію похибки в цьому випадку визначають як
що є зсунутою оцінкою істинної дисперсії.
В термінах залишкової суми квадратів БІК є
При перевірці декількох лінійних моделей відносно насиченої моделі БІК може бути переписано в термінах девіантності як[5]
де є числом параметрів моделі в перевірці.
При обиранні з декількох моделей найприйнятнішою є модель із найнижчим БІК. БІК є зростаючою функцією дисперсії похибки , і зростаючою функцією k. Тобто, незрозуміла дисперсія в залежній змінній та число описових змінних збільшують значення БІК. Отже, нижчий БІК означає або меншу кількість описових змінних, або кращу допасованість, або обидві. Силу свідчення проти моделі з вищим БІК може бути узагальнено наступним чином:[5]
ΔБІК | Свідчення проти вищого БІК |
---|---|
0 to 2 | Не варте більше ніж просто згадування |
2 to 6 | Позитивне |
6 to 10 | Сильне |
>10 | Дуже сильне |
БІК зазвичай штрафує вільні параметри сильніше за Інформаційний критерій Акаіке, хоча це залежить від розміру n і відносної величини n і k.
Важливо мати на увазі, що БІК можна застосовувати для порівняння оцінюваних моделей лише якщо числові значення залежної змінної є однаковими для всіх порівнюваних оцінок. Порівнюваним моделям не потрібно бути вкладеними, на відміну від випадку, коли моделі порівнюють із застосуванням критерію Фішера або перевірки відношенням правдоподібностей.
Див. також
- Інформаційний критерій Акаіке
- Баєсове порівняння моделей
- Інформаційний критерій девіантності
- Інформаційний критерій Геннена — Куїнна
- Відстань Єнсена — Шеннона
- Відстань Кульбака — Лейблера
- Мінімальна довжина повідомлення
- Обирання моделі
Примітки
- Schwarz, Gideon E. (1978). Estimating the dimension of a model. Annals of Statistics 6 (2): 461–464. MR 468014. doi:10.1214/aos/1176344136. (англ.)
- Wit, Ernst; Edwin van den Heuvel; Jan-Willem Romeyn (2012). ‘All models are wrong...’: an introduction to model uncertainty. Statistica Neerlandica 66 (3): 217–236. doi:10.1111/j.1467-9574.2012.00530.x. (англ.)
- Giraud, C. (2015). Introduction to high-dimensional statistics. Chapman & Hall/CRC. ISBN 9781482237948. (англ.)
- Priestley, M.B. (1981). Spectral Analysis and Time Series. Academic Press. ISBN 0-12-564922-3. (p. 375). (англ.)
- Kass, Robert E.; Raftery, Adrian E. (1995). Bayes Factors. Journal of the American Statistical Association 90 (430): 773–795. ISSN 0162-1459. doi:10.2307/2291091. (англ.)
Джерела
- Bhat, H. S.; Kumar, N (2010). On the derivation of the Bayesian Information Criterion. Архів оригіналу за 28 березня 2012. (англ.)
- Findley, D. F. (1991). Counterexamples to parsimony and BIC. Annals of the Institute of Statistical Mathematics 43: 505–514. doi:10.1007/BF00053369. (англ.)
- Kass, R. E.; Wasserman, L. (1995). A reference Bayesian test for nested hypotheses and its relationship to the Schwarz criterion. Journal of the American Statistical Association 90: 928–934. (англ.)
- Liddle, A. R. (2007). Information criteria for astrophysical model selection. Monthly Notices of the Royal Astronomical Society 377: L74–L78. (англ.)
- McQuarrie, A. D. R.; Tsai, C.-L. (1998). Regression and Time Series Model Selection. World Scientific. (англ.)