Баєсова лінійна регресія

Ба́єсова ліні́йна регре́сія в статистиці — це підхід до лінійної регресії, в якому статистичний аналіз застосовується в контексті баєсового висновування. Якщо помилки регресійної моделі мають нормальний розподіл і якщо розглядається певна форма апріорного розподілу, то для апостеріорного розподілу ймовірності параметрів моделі доступні точні результати.

Налаштування моделі

Розгляньмо стандартну задачу лінійної регресії, в якій для $i=1,...,n$ ми вказуємо умовну ймовірність $y_{i}$ для заданого вектора $k\times 1$ провісників $\mathbf {x} _{i}$ :

y_{i}=\mathbf {x} _{i}^{\rm {T}}{\boldsymbol {\beta }}+\epsilon _{i},

де ${\boldsymbol {\beta }}$ є вектором завдовжки $k\times 1$ , а $\epsilon _{i}$ є незалежними однаково розподіленими випадковими величинами з нормальним розподілом:

\epsilon _{i}\sim N(0,\sigma ^{2}).

Це відповідає такій функції правдоподібності:

\rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right).

Розв'язком звичайних найменших квадратів є оцінка вектора коефіцієнтів за допомогою псевдообернення Мура-Пенроуза:

{\hat {\boldsymbol {\beta }}}=(\mathbf {X} ^{\rm {T}}\mathbf {X} )^{-1}\mathbf {X} ^{\rm {T}}\mathbf {y}

де $\mathbf {X}$ є матрицею плану $n\times k$ , кожен з рядків якої є вектором провісників $\mathbf {x} _{i}^{\rm {T}}$ , а $\mathbf {y}$ є вектором-стовпцем $[y_{1}\;\cdots \;y_{n}]^{\rm {T}}$ .

Це є частотним підходом, що передбачає наявність достатньої кількості вимірювань, щоби сказати щось суттєве про ${\boldsymbol {\beta }}$ . За баєсового ж підходу дані надаються з додатковою інформацією у вигляді апріорного розподілу ймовірності. Ці апріорні переконання про параметри поєднуються з функцією правдоподібності даних згідно з теоремою Баєса для отримання апостеріорного переконання про параметри ${\boldsymbol {\beta }}$ та $\sigma$ . Це апріорне може мати різний функціональний вигляд в залежності від області визначення та інформації, що доступна апріорі.

Зі спряженими апріорними

Спряжений апріорний розподіл

Для довільного апріорного розподілу може не існувати аналітичного розв'язку задачі пошуку апостеріорного розподілу. В цьому розділі ми розглянемо так зване спряжене апріорне, для якого апостеріорний розподіл може бути виведено аналітично.

Апріорне $\rho ({\boldsymbol {\beta }},\sigma ^{2})$ є спряженим до функції правдоподібності, якщо вона має такий самий функційний вигляд по відношенню до ${\boldsymbol {\beta }}$ та $\sigma$ . Оскільки логарифмічна правдоподібність є квадратичною в ${\boldsymbol {\beta }}$ , логарифмічна правдоподібність переписується так, що правдоподібність стає нормальною в $({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})$ . Запишімо

{\begin{aligned}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})&=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})\\&+({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}}).\end{aligned}}

Логарифмічна правдоподібність тепер переписується як

{\begin{aligned}\rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})&\propto (\sigma ^{2})^{-v/2}\exp \left(-{\frac {vs^{2}}{2{\sigma }^{2}}}\right)(\sigma ^{2})^{-(n-v)/2}\\&\times \exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} )({\boldsymbol {\beta }}-{\hat {\boldsymbol {\beta }}})\right),\end{aligned}}

де

vs^{2}=(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\hat {\boldsymbol {\beta }}}),

та

v=n-k,

де $k$ є кількістю коефіцієнтів регресії.

Це підказує такий вигляд апріорного:

\rho ({\boldsymbol {\beta }},\sigma ^{2})=\rho (\sigma ^{2})\rho ({\boldsymbol {\beta }}|\sigma ^{2}),

де $\rho (\sigma ^{2})$ є оберненим гамма-розподілом

\rho (\sigma ^{2})\propto (\sigma ^{2})^{-(v_{0}/2+1)}\exp \left(-{\frac {v_{0}s_{0}^{2}}{2{\sigma }^{2}}}\right).

У записі, запропонованому в статті про обернений гамма-розподіл, це є густиною розподілу ${\text{Inv-Gamma}}(a_{0},b_{0})$ з $a_{0}=v_{0}/2$ та $b_{0}={\frac {1}{2}}v_{0}s_{0}^{2}$ з $v_{0}$ та $s_{0}^{2}$ як апріорних значень $v$ та $s^{2}$ відповідно. Рівносильно, це також може бути описано як зважений обернений розподіл хі-квадрат, ${\mbox{Scale-inv-}}\chi ^{2}(v_{0},s_{0}^{2}).$

Далі густина умовного апріорного $\rho ({\boldsymbol {\beta }}|\sigma ^{2})$ є нормальним розподілом,

\rho ({\boldsymbol {\beta }}|\sigma ^{2})\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}\mathbf {\Lambda } _{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right).

У записі нормального розподілу густина умовного апріорного є ${\mathcal {N}}\left({\boldsymbol {\mu }}_{0},\sigma ^{2}\mathbf {\Lambda } _{0}^{-1}\right).$

Апостеріорний розподіл

Із вже визначеним апріорним, апостеріорний розподіл може бути виражено як

\rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto \rho (\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ^{2})\rho ({\boldsymbol {\beta }}|\sigma ^{2})\rho (\sigma ^{2})

\propto (\sigma ^{2})^{-n/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})\right)

\times (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})\right)

\times (\sigma ^{2})^{-(a_{0}+1)}\exp \left(-{\frac {b_{0}}{{\sigma }^{2}}}\right).

За певного переформулювання[1] апостеріорне може бути переписано так, що апостеріорне середнє ${\boldsymbol {\mu }}_{n}$ вектора параметрів ${\boldsymbol {\beta }}$ може бути виражено в термінах оцінки найменших квадратів ${\hat {\boldsymbol {\beta }}}$ та апріорного середнього ${\boldsymbol {\mu }}_{0}$ , де підтримка апріорного вказується матрицею точності апріорного ${\boldsymbol {\Lambda }}_{0}$

{\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}(\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}).

Для підтвердження того, що ${\boldsymbol {\mu }}_{n}$ дійсно є апостеріорним середнім, квадратні члени в експоненті може бути переформульовано як квадратичну форму в ${\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n}$ .[2]

(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})^{\rm {T}}(\mathbf {y} -\mathbf {X} {\boldsymbol {\beta }})+({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})^{\rm {T}}{\boldsymbol {\Lambda }}_{0}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{0})=

({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})+\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}.

Тепер апостеріорне може бути виражено як добуток нормального розподілу на обернений гамма-розподіл:

\rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto (\sigma ^{2})^{-k/2}\exp \left(-{\frac {1}{2{\sigma }^{2}}}({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +\mathbf {\Lambda } _{0})({\boldsymbol {\beta }}-{\boldsymbol {\mu }}_{n})\right)

\times (\sigma ^{2})^{-(n+2a_{0})/2-1}\exp \left(-{\frac {2b_{0}+\mathbf {y} ^{\rm {T}}\mathbf {y} -{\boldsymbol {\mu }}_{n}^{\rm {T}}(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}){\boldsymbol {\mu }}_{n}+{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}}{2{\sigma }^{2}}}\right).

Отже, апостеріорний розподіл може бути параметризовано таким чином.

\rho ({\boldsymbol {\beta }},\sigma ^{2}|\mathbf {y} ,\mathbf {X} )\propto \rho ({\boldsymbol {\beta }}|\sigma ^{2},\mathbf {y} ,\mathbf {X} )\rho (\sigma ^{2}|\mathbf {y} ,\mathbf {X} ),

де ці два множники відповідають густинам розподілів ${\mathcal {N}}\left({\boldsymbol {\mu }}_{n},\sigma ^{2}{\boldsymbol {\Lambda }}_{n}^{-1}\right)$ та ${\text{Inv-Gamma}}\left(a_{n},b_{n}\right)$ , з їхніми параметрами, що задаються як

{\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +\mathbf {\Lambda } _{0}),\quad {\boldsymbol {\mu }}_{n}=({\boldsymbol {\Lambda }}_{n})^{-1}(\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}}+{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}),

a_{n}=a_{0}+{\frac {n}{2}},\qquad b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\rm {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).

Це може інтерпретуватися як баєсове навчання, де параметри уточнюються відповідно до наступних рівнянь.

{\boldsymbol {\mu }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+\mathbf {X} ^{\rm {T}}\mathbf {X} {\hat {\boldsymbol {\beta }}})=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0})^{-1}({\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}+\mathbf {X} ^{\rm {T}}\mathbf {y} ),

{\boldsymbol {\Lambda }}_{n}=(\mathbf {X} ^{\rm {T}}\mathbf {X} +{\boldsymbol {\Lambda }}_{0}),

a_{n}=a_{0}+{\frac {n}{2}},

b_{n}=b_{0}+{\frac {1}{2}}(\mathbf {y} ^{\rm {T}}\mathbf {y} +{\boldsymbol {\mu }}_{0}^{\rm {T}}{\boldsymbol {\Lambda }}_{0}{\boldsymbol {\mu }}_{0}-{\boldsymbol {\mu }}_{n}^{\rm {T}}{\boldsymbol {\Lambda }}_{n}{\boldsymbol {\mu }}_{n}).

Свідчення моделі

Свідчення моделі $p(\mathbf {y} |m)$ є ймовірністю даних за заданої моделі $m$ . Воно також відоме як відособлена правдоподібність, а також як передбачувана апріорна густина. Тут модель визначається функцією правдоподібності $p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma )$ та апріорним розподілом параметрів, тобто, $p({\boldsymbol {\beta }},\sigma )$ . Свідчення моделі фіксує одним числом, наскільки гарно така модель пояснює ці спостереження. Свідчення моделі баєсової лінійної регресії, представлене в цьому розділі, може застосовуватись для порівняння конкурентних лінійних моделей баєсовим порівнянням моделей. Ці моделі можуть відрізнятися як кількістю та значеннями змінних-провісників, так і своїми апріорними параметрами моделі. Складність моделі вже враховано свідченням моделі, оскільки воно відособлює параметри інтегруванням $p(\mathbf {y} ,{\boldsymbol {\beta }},\sigma |\mathbf {X} )$ над усіма можливими значеннями ${\boldsymbol {\beta }}$ та $\sigma$ .

p(\mathbf {y} |m)=\int p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma )\,p({\boldsymbol {\beta }},\sigma )\,d{\boldsymbol {\beta }}\,d\sigma

Цей інтеграл може бути обчислено аналітично, а розв'язок представлено наступним рівнянням.[3]

p(\mathbf {y} |m)={\frac {1}{(2\pi )^{n/2}}}{\sqrt {\frac {\det({\boldsymbol {\Lambda }}_{0})}{\det({\boldsymbol {\Lambda }}_{n})}}}\cdot {\frac {b_{0}^{a_{0}}}{b_{n}^{a_{n}}}}\cdot {\frac {\Gamma (a_{n})}{\Gamma (a_{0})}}

Тут $\Gamma$ позначає гамма-функцію. Оскільки ми обрали спряжене апріорне, то відособлену правдоподібність також може бути легко обчислено розв'язанням наступного рівняння для довільних значень ${\boldsymbol {\beta }}$ та $\sigma$ .

p(\mathbf {y} |m)={\frac {p({\boldsymbol {\beta }},\sigma |m)\,p(\mathbf {y} |\mathbf {X} ,{\boldsymbol {\beta }},\sigma ,m)}{p({\boldsymbol {\beta }},\sigma |\mathbf {y} ,\mathbf {X} ,m)}}

Зауважте, що це рівняння є ні чим іншим, як переформулюванням теореми Баєса. Підставлення формул для апріорного, правдоподібності та апостеріорного, та спрощення отримуваного виразу ведуть до аналітичного виразу, наведеного вище.

Інші випадки

Виводити апостеріорний розподіл аналітично в загальному випадку може бути неможливо або непрактично. Проте можливо наближувати апостеріорне методом приблизного баєсового висновування, таким як вибірка Монте-Карло[4] або варіаційні баєсові методи.

Особливий випадок ${\boldsymbol {\mu }}_{0}=0,\mathbf {\Lambda } _{0}=c\mathbf {I}$ називається гребеневою регресією.

Схожий аналіз може виконуватись для загального випадку багатовимірної регресії, і його частина забезпечує баєсову оцінку коваріаційних матриць: див. багатовимірну баєсову лінійну регресію.

Див. також

Баєсова лінійна статистика
Регуляризація Тихонова

Примітки

Проміжні кроки цього обчислення може бути знайдено в O'Hagan (1994) на початку розділу про лінійні моделі.
Проміжні кроки є в Fahrmeir et al. (2009) на С. 188.
Проміжні кроки цього обчислення можна знайти в O'Hagan (1994) на С. 257.
Carlin and Louis(2008) and Gelman, et al. (2003) пояснюють, як використовувати вибіркові методи для баєсової лінійної регресії.

Джерела

Box, G. E. P.; Tiao, G. C. (1973). Bayesian Inference in Statistical Analysis. Wiley. ISBN 0-471-57428-7. (англ.)
Carlin, Bradley P. and Louis, Thomas A. (2008). Bayesian Methods for Data Analysis, Third Edition. Boca Raton, FL: Chapman and Hall/CRC. ISBN 1-58488-697-8. (англ.)
O'Hagan, Anthony (1994). Bayesian Inference. Kendall's Advanced Theory of Statistics 2B (вид. First). Halsted. ISBN 0-340-52922-9. (англ.)
Gelman, Andrew, Carlin, John B., Stern, Hal S. and Rubin, Donald B. (2003). Bayesian Data Analysis, Second Edition. Boca Raton, FL: Chapman and Hall/CRC. ISBN 1-58488-388-X. (англ.)
Walter Gero. Bayesian Linear Regression—Different Conjugate Models and Their (In)Sensitivity to Prior-Data Conflict. — 2009. (англ.)
Goldstein, Michael; Wooff, David (2007). Bayes Linear Statistics, Theory & Methods. Wiley. ISBN 978-0-470-01562-9. (англ.)
Fahrmeir, L., Kneib, T., and Lang, S. (2009). Regression. Modelle, Methoden und Anwendungen (вид. Second). Heidelberg: Springer. ISBN 978-3-642-01836-7. doi:10.1007/978-3-642-01837-4. (англ.)
Rossi, Peter E.; Allenby, Greg M.; McCulloch, Robert (2006). Bayesian Statistics and Marketing. John Wiley & Sons. ISBN 0470863676. (англ.)
Thomas P. Minka (2001) Bayesian Linear Regression, Microsoft research web page (англ.)

Посилання

Bayesian estimation of linear models (R programming wikibook). Реалізація баєсової лінійної регресії мовою R.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] Проміжні кроки цього обчислення може бути знайдено в O'Hagan (1994) на початку розділу про лінійні моделі.

[2] Проміжні кроки є в Fahrmeir et al. (2009) на С. 188.

[3] Проміжні кроки цього обчислення можна знайти в O'Hagan (1994) на С. 257.

[4] Carlin and Louis(2008) and Gelman, et al. (2003) пояснюють, як використовувати вибіркові методи для баєсової лінійної регресії.

Баєсова статистика
Частина з циклу Статистика

Теорія
Апостеріорна ймовірність Апостеріорний прогнозний розподіл Апріорна ймовірність Баєсів інформаційний критерій Баєсова ефективність Баєсова ймовірність Баєсова мережа Баєсове висновування Гіперапріорний розподіл Гіперпараметр Емпіричний баєсів метод Імовірний інтервал Інтерпретації ймовірності Коефіцієнт Баєса Оцінка апостеріорного максимуму Правдоподібність Правило Баєса Правило Кромвеля Прийнятне правило рішення Принцип максимальної ентропії Принцип недостатнього обґрунтування Спряжений апріорний розподіл Теорема Баєса Теорема Бернштайна — фон Мізеса
Методи
Баєсова лінійна регресія Баєсова оцінка Приблизне баєсове обчислення

Регресійний аналіз
Частина з циклу Статистика

Моделі
Лінійна регресія Проста лінійна регресія Звичайні найменші квадрати Поліноміальна регресія Загальна лінійна модель
Узагальнена лінійна модель Дискретний вибір Логістична регресія Поліноміальний логіт Змішаний логіт Пробіт Поліноміальний пробіт Впорядкований логіт Впорядкований пробіт Пуассон
Багаторівнева модель Фіксовані рівні факторів Випадкові рівні факторів Змішана модель
Нелінійна регресія Непараметрична Напівпараметрична Робастна Квантильна Ізотонічна Головні компоненти Найменші кути Локальна Сегментована
Похибки вимірювань
Оцінка
Найменші квадрати Звичайні найменші квадрати Лінійні Частинні Повні Узагальнені Зважені Нелінійні Невід'ємні Ітеративно перезважувані Регуляризація Тихонова
Найменших модулів Баєсова Баєсова багатовимірна
Підґрунтя
Перевірка регресійних моделей Середній та передбачуваний відгук Похибки та залишки Допасованість Студентизований залишок Теорема Гаусса — Маркова