Відстань Кука
У статистиці відстань Кука є загальноприйнятою оцінкою впливу спостереження під час застосування методу найменших квадратів у регресійному аналізі.[1] На практиці, при застосуванні методу найменших квадратів, відстань Кука може використовуватися для наступних цілей: визначити впливові спостереження даних, які потрібно перевірити на валідність; визначення областей простору, у яких непогано було б отримати більше результатів спостереження. Відстань названа на честь американського статистика Ральфа Денніса Кука, який у 1977 році запропонував дану концепцію.[2][3]
Означення
Дані з великими значеннями залишків (викиди) та/або великими значеннями важелів можуть спотворювати результати й точність регресійної моделі. Відстань Кука вимірює ефект видалення даного спостереження з вибірки. Вважається, що для спостережень з великою відстанню Кука доцільно проводити більш глибокий аналіз.
Для алгебраїчного представлення спочатку визначимо:
де — похибки регресії, — параметри регресії, — матриця регресорів із одиничним першим стовпчиком. Тоді оцінка коефіцієнтів регресії методом найменших квадратів має представлення , а отже, відповідно, прогнозовані значення для обчислюються за формулою:
де — проекційна матриця. Причому -тий діагональний елемент матриці , що обчислюється як ,[4] називається важелем -го спостереження. Аналогічно, -тий елемент вектора залишків має вигляд і позначається як .
Відстань Кука спостереження визначається як сума всіх змін у регресійній моделі, у разі видалення -го спостереження
де — прогноз відгука, отриманий вилученням -го спостереження,
де — середньоквадратична похибка регресійної моделі.[5]
Аналогічно, відстань Кука можна виразити через важелі
Визначення спостережень із великим впливом
Існують різні припущення щодо того, які межі використовувати для виявлення точок із великим впливом. Пропонується, у разі ввжати спостереження впливовим.[6] Також, іноді використовується припущення, що слід враховувати , де - кількість спостережень.[7]
Інтерпретація
Зокрема, можна інтерпретувати як відстань, яку проходить оцінка, в межах довірчого еліпсоїда, що є областю вірогідних значень параметра.[прояснити] Це показується за допомогою альтернативного, проте еквівалентного зображення відстані Кука в термінах зміни оцінки параметра у випадку включення та виключення конкретного спотсереження з регресіного аналізу.
Посилання
- Mendenhall, William; Sincich, Terry (1996). A Second Course in Statistics: Regression Analysis (вид. 5th). Upper Saddle River, NJ: Prentice-Hall. с. 422. ISBN 0-13-396821-9. «A measure of overall influence an outlying observation has on the estimated coefficients was proposed by R. D. Cook (1979). Cook's distance, Di, is calculated...»
- Cook, R. Dennis (February 1977). Detection of Influential Observations in Linear Regression. Technometrics (American Statistical Association) 19 (1): 15–18. JSTOR 1268249. MR 0436478. doi:10.2307/1268249.
- Cook, R. Dennis (March 1979). Influential Observations in Linear Regression. Journal of the American Statistical Association (American Statistical Association) 74 (365): 169–174. JSTOR 2286747. MR 0529533. doi:10.2307/2286747.
- Hayashi, Fumio (2000). Econometrics. Princeton University Press. с. 21–23.
- Statistics 512: Applied Linear Models. Purdue University. Архів оригіналу за 30 листопада 2016. Процитовано 24 грудня 2017.
- Cook, R. Dennis; Weisberg, Sanford (1982). Residuals and Influence in Regression. New York, NY: Chapman & Hall. ISBN 0-412-24280-X.
- Bollen, Kenneth A.; Jackman, Robert W. (1990). У Fox, John; Long, J. Scott. Regression Diagnostics: An Expository Treatment of Outliers and Influential Cases. Newbury Park, CA: Sage. с. 257–91. ISBN 0-8039-3366-5.
Література
- Atkinson, Anthony; Riani, Marco (2000). Deletion Diagnostics. Robust Diagnostics and Regression Analysis. New York: Springer. с. 22–25. ISBN 0-387-95017-6.
- Heiberger, Richard M.; Holland, Burt (2013). Case Statistics. Statistical Analysis and Data Display. Springer Science & Business Media. с. 312–27. ISBN 9781475742848.
- Krasker, William S.; Kuh, Edwin; Welsch, Roy E. (1983). Estimation for dirty data and flawed models. Handbook of Econometrics 1. Elsevier. с. 651–698. doi:10.1016/S1573-4412(83)01015-6.
- Aguinis, Herman; Gottfredson, Ryan K.; Joo, Harry (2013). Best-Practice Recommendations for Defining Identifying and Handling Outliers. Organizational Research Methods (Sage) 16 (2): 270–301.