Регресія Демінга

У статистиці регресія Демінга (названа на честь В. Едвардса Демінга) є моделлю з похибками у змінних, яка намагається знайти лінію, яка найкраще підходить для двовимірного набору даних. Вона відрізняється від простої лінійної регресії тим, що пояснює похибку в спостереженнях як на осі x, так і на осі y. Це особливий випадок загальних найменших квадратів, що дозволяє приймати будь-яку кількість показників для прогнозу й складнішу структуру помилок.

Регресія Демінга. Червоні відрізки показують похибку як x, так й y. Цей підхід відрізняється від традиційного методу найменших квадратів, який вимірює похибку тільки для y, тобто, береться відстань відрізків паралельних осі y. На малюнку, відхилення вимірюється перпендикулярно до прямої. Така ситуація виникає, коли похибки x та y мають однакове відхилення.

Регресія Демінга еквівалентна методу максимальної правдоподібності моделі похибок у змінних, в якій похибки для двох змінних вважаються незалежними й нормально розподіленими, та відомо співвідношення їхніх відхилень, позначених δ.[1] На практиці це співвідношення можна оцінити з відповідних джерел даних; проте процедура регресії не враховує можливі похибки при оцінці цього співвідношення.

Регресію Демінга лише трохи складніше обчислити в порівнянні з простою лінійною регресією. Більшість статистичних програмних пакетів, що використовуються в клінічній хімії, пропонують регресію Демінга.

Модель спочатку була введена Адкоком (1878), який розглядав випадок δ = 1, а потім більш загалом Куммел (1879) з довільним δ. Проте їхні ідеї залишалися значною мірою непоміченими понад 50 років, поки їх не відродив Коопманс (1937). Пізніше ще більше пропагував Демінг (1943). Остання книга стала настільки популярною в клінічній хімії та суміжних областях, що цей метод навіть був названий регресією Демінга в цих областях.[2]

Уточнення

Припустимо, що наявні дані (y_i, x_i) є виміряними спостереженнями «істинних» значень (y_i*, x_i*), які лежать на лінії регресії:

{\begin{aligned}y_{i}&=y_{i}^{*}+\varepsilon _{i},\\x_{i}&=x_{i}^{*}+\eta _{i},\end{aligned}}

де помилки ε та η незалежні, а відношення їх відхилень вважається відомим:

\delta ={\frac {\sigma _{\varepsilon }^{2}}{\sigma _{\eta }^{2}}}.

На практиці відхилення параметрів $x$ та $y$ часто невідоме, що ускладнює оцінку $\delta$ . Зверніть увагу, що коли метод вимірювання для $x$ та $y$ є однаковим, ці відхилення, ймовірно, також будуть однаковими, тому $\delta =1$ для цього випадку.

Ми прагнемо знайти таку лінію «найкращого підходу»,

y^{*}=\beta _{0}+\beta _{1}x^{*},

де зважена сума квадратних залишків моделі зведена до мінімуму:[3]

SSR=\sum _{i=1}^{n}{\bigg (}{\frac {\varepsilon _{i}^{2}}{\sigma _{\varepsilon }^{2}}}+{\frac {\eta _{i}^{2}}{\sigma _{\eta }^{2}}}{\bigg )}={\frac {1}{\sigma _{\varepsilon }^{2}}}\sum _{i=1}^{n}{\Big (}(y_{i}-\beta _{0}-\beta _{1}x_{i}^{*})^{2}+\delta (x_{i}-x_{i}^{*})^{2}{\Big )}\ \to \ \min _{\beta _{0},\beta _{1},x_{1}^{*},\ldots ,x_{n}^{*}}SSR

Дивись Jensen (2007)[4] для повного виведення.

Рішення

Рішення може бути виражено через моменти вибірки другого ступеня. Тобто спочатку обчислюємо наступні величини (всі суми йдуть від i = 1 to n):

{\begin{aligned}&{\overline {x}}={\frac {1}{n}}\sum x_{i},\quad {\overline {y}}={\frac {1}{n}}\sum y_{i},\\&s_{xx}={\tfrac {1}{n-1}}\sum (x_{i}-{\overline {x}})^{2},\\&s_{xy}={\tfrac {1}{n-1}}\sum (x_{i}-{\overline {x}})(y_{i}-{\overline {y}}),\\&s_{yy}={\tfrac {1}{n-1}}\sum (y_{i}-{\overline {y}})^{2}.\end{aligned}}

Нарешті, оцінки найменших квадратів параметрів моделі будуть[5]

{\begin{aligned}&{\hat {\beta }}_{1}={\frac {s_{yy}-\delta s_{xx}+{\sqrt {(s_{yy}-\delta s_{xx})^{2}+4\delta s_{xy}^{2}}}}{2s_{xy}}},\\&{\hat {\beta }}_{0}={\overline {y}}-{\hat {\beta }}_{1}{\overline {x}},\\&{\hat {x}}_{i}^{*}=x_{i}+{\frac {{\hat {\beta }}_{1}}{{\hat {\beta }}_{1}^{2}+\delta }}(y_{i}-{\hat {\beta }}_{0}-{\hat {\beta }}_{1}x_{i}).\end{aligned}}

Ортогональна регресія

Для випадку рівних відхилень похибки, тобто коли $\delta =1$ , регресія Демінга стає ортогональною регресією: вона мінімізує суму квадратів перпендикулярних відстаней від точок даних до лінії регресії. У цьому випадку позначимо кожне спостереження як точку z_j в комплексній площині (тобто, точка (x_j, y_j) записується як z_j = x_j + iy_j, де i — уявна одиниця). Позначимо як Z суму квадратичних відмінностей точок даних від центроїда (також позначається в комплексних координатах), яка є точкою, горизонтальними та вертикальними розташуваннями якої є середні значення цих точок даних. Тоді:[6]

Якщо Z = 0, то кожна лінія через центроїд є лінією з найкращим ортогональним підходом.
Якщо Z ≠ 0, лінія ортогональної регресії проходить через центроїд і паралельна вектору від початку до ${\sqrt {Z}}$ .

Тригонометричне представлення лінії ортогональної регресії було дано Кулідж в 1913 році.[7]

Додаток

У випадку трьох не колінеарних точок у площині трикутник з цими точками, як його вершини, має унікальний еліпс Штайнера, дотичний до сторін трикутника в їхніх серединах. Велика вісь цього еліпса падає на ортогональну лінію регресії для трьох вершин.[8]

Див. також

Наближення прямою

Примітки

(Linnet, 1993)
Cornbleet, Gochman (1979)
Fuller, ch.1.3.3
Jensen, Anders Christian (2007)
Glaister (2001)
Minda and Phelps (2008), Theorem 2.3.
Coolidge, J. L. (1913).
Minda and Phelps (2008), Corollary 2.4.

Список літератури

Adcock, R. J. (1878). A problem in least squares. The Analyst (Annals of Mathematics) 5 (2): 53–54. JSTOR 2635758. doi:10.2307/2635758.
Coolidge, J. L. (1913). Two geometrical applications of the mathematics of least squares. The American Mathematical Monthly 20 (6): 187–190. doi:10.2307/2973072.
Cornbleet, P.J.; Gochman, N. (1979). Incorrect Least–Squares Regression Coefficients. Clin. Chem. 25 (3): 432–438. PMID 262186.
Deming, W. E. (1943). Statistical adjustment of data. Wiley, NY (Dover Publications edition, 1985). ISBN 0-486-64685-8.
Fuller, Wayne A. (1987). Measurement error models. John Wiley & Sons, Inc. ISBN 0-471-86187-1.
Glaister, P. (2001). Least squares revisited. The Mathematical Gazette 85: 104–107. doi:10.2307/3620485.
Jensen, Anders Christian (2007). Deming regression, MethComp package.
Koopmans, T. C. (1937). Linear regression analysis of economic time series. DeErven F. Bohn, Haarlem, Netherlands.
Kummell, C. H. (1879). Reduction of observation equations which contain more than one observed quantity. The Analyst (Annals of Mathematics) 6 (4): 97–105. JSTOR 2635646. doi:10.2307/2635646.
Linnet, K. (1993). Evaluation of regression procedures for method comparison studies. Clinical Chemistry 39 (3): 424–432. PMID 8448852.
Minda, D.; Phelps, S. (2008). Triangles, ellipses, and cubic polynomials. American Mathematical Monthly 115 (8): 679–689. MR 2456092.^{[недоступне посилання з липня 2019]}

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

[1] (Linnet, 1993)

[2] Cornbleet, Gochman (1979)

[3] Fuller, ch.1.3.3

[4] Jensen, Anders Christian (2007)

[5] Glaister (2001)

[6] Minda and Phelps (2008), Theorem 2.3.

[7] Coolidge, J. L. (1913).

[8] Minda and Phelps (2008), Corollary 2.4.