Лінійна регресія

У статистиці лінійна регресія — це метод моделювання залежності між скалярною змінною y та векторною (у загальному випадку) змінною X. У разі, якщо змінна X також є скаляром, регресію називають простою.

Приклад простої лінійної регресії з однією незалежною змінною

При використанні лінійної регресії взаємозв'язок між даними моделюється за допомогою лінійних функцій, а невідомі параметри моделі оцінюються за вхідними даними. Подібно до інших методів регресійного аналізу лінійна регресія повертає розподіл умовної імовірності y в залежності від X, а не розподіл спільної імовірності y та X, що стосується області мультиваріативного аналізу.

При розрахунках параметрів моделі лінійної регресії зазвичай застосовується метод найменших квадратів (МНК), але також можуть бути використані інші методи. Але метод найменших квадратів може бути використаний і для нелінійних моделей, тому МНК та лінійна регресія, хоч і є тісно пов'язаними, але не є синонімами.

Означення

Загальна лінійна регресійна модель має вигляд:

y=\beta _{0}+\beta _{1}x_{1}+\ldots +\beta _{K}x_{K}+u,

де

y\,

— залежна пояснювана змінна,

(x_{1},x_{2},\ldots ,x_{K})

— незалежні пояснювальні змінні,

u\,

— випадкова похибка, розподіл якої в загальному випадку залежить від незалежних змінних, але математичне сподівання якої дорівнює нулеві.

Згідно з цією моделлю, математичне сподівання залежної змінної є лінійною функцією незалежних змінних:

\mathbb {E} (y)=\beta _{0}+\beta _{1}x_{1}+\ldots +\beta _{K}x_{K}+u.

Вектор параметрів $(\beta _{0},\beta _{1},\ldots ,\beta _{K})$ є невідомим і задача лінійної регресії полягає у пошуку цих параметрів на основі деяких експериментальних значень $y\,$ і $(x_{1},x_{2},\ldots ,x_{K}).$ Тобто для деяких n експериментів мають бути відомими значення $\{x_{i1},\ldots ,x_{iK}\}_{i=1}^{n}$ незалежних змінних і відповідні їм значення $y_{i}$ залежної змінної.

Згідно з означенням моделі для кожного експериментального випадку залежність між змінними визначається формулою

y_{i}=\beta _{0}+\beta _{1}x_{1,i}+\ldots +\beta _{K}x_{K,i}+u_{i},

або, у матричних позначеннях, $y=X\beta +u,\,$

де:

y={\begin{pmatrix}y_{1}\\y_{2}\\\vdots \\y_{n}\end{pmatrix}},\quad X={\begin{pmatrix}x'_{1}\\x'_{2}\\\vdots \\x'_{n}\end{pmatrix}}={\begin{pmatrix}1&x_{11}&\cdots &x_{1K}\\1&x_{21}&\cdots &x_{2K}\\\vdots &\ddots &\vdots \\1&x_{n1}&\cdots &x_{nK}\end{pmatrix}},\quad \beta ={\begin{pmatrix}\beta _{0}\\\beta _{1}\\\vdots \\\beta _{K}\end{pmatrix}},\quad u={\begin{pmatrix}u_{1}\\u_{2}\\\vdots \\u_{n}\end{pmatrix}}.

На основі цих даних потрібно оцінити значення параметрів $(\beta _{0},\beta _{1},\ldots ,\beta _{K}),$ а також розподіл випадкової величини $u\,.$ Зважаючи на характеристики досліджуваних змінних, можуть додаватися різні додаткові специфікації моделі і застосовуватися різні методи оцінки параметрів. Серед найпоширеніших специфікацій лінійних моделей є класична модель лінійної регресії і узагальнена модель лінійної регресії.

Класична модель лінійної регресії

Згідно з класичною моделлю додатково вводяться такі вимоги щодо специфікації моделі і відомих експериментальних даних:

$\forall i\neq j\quad \mathbb {E} (u_{i}u_{j}|x_{i})=0$ (відсутність кореляції залишків)
$\forall i\quad \mathbb {E} (u_{i}^{2}|x_{i})=\sigma ^{2}$ (гомоскедастичність)

попередні дві властивості можна також записати в матричних позначеннях

\mathbb {V} (u|X)=\sigma ^{2}I_{n},

де

I_{n}

— одинична матриця розмірності n.

Ранг матриці X дорівнює K+1.
Усі елементи матриці X є невипадковими.

Часто додається також умова нормальності випадкових відхилень, яка дозволяє провести значно ширший аналіз оцінок параметрів та їх значимості, хоча і не є обов'язковою для можливості використання наприклад методу найменших квадратів:

$u_{i}|x_{i}\sim {\mathcal {N}}(0,\sigma ^{2}).$

Для асимптотичних властивостей оцінок додатково вимагається виконання деяких додаткових умов на матрицю X коли її розмірність прямує до безмежності. Однією з таких умов може бути існування границі при прямуванні розмірності до нескінченності:

$\lim _{n\to \infty }\lambda _{-}(X'X)=\infty ,$ де $\lambda _{-}$ позначає найменше власне значення матриці.

Узагальнена модель лінійної регресії

Умови гомоскедастичності та відсутності кореляції між випадковими залишками у моделі не часто виконуються на практиці. Якщо замість цих двох умов у визначенні моделі взяти загальнішу умову $\mathbb {V} (u|X)=\sigma ^{2}W,$ де $W\,$ — відома додатноозначена матриця, то одержана модель називається узагальненою моделлю лінійної регресії.

Оскільки для кожної додатноозначеної матриці $W\,$ існує матриця $N\,,$ така що $W^{-1}=NN,$ то модель

Ny=NX\beta +Nu,\,

вже буде класичною моделлю лінійної регресії.

Методи оцінювання

Залежно від об'єктів, що досліджуються за допомогою лінійної регресії, та конкретних цілей дослідження можуть використовуватися різні методи оцінки невідомих параметрів. Найпопулярнішим є звичайний метод найменших квадратів. Він приймає за оцінку параметра значення, що мінімізують суму квадратів залишків по всіх спостереженнях:

{\hat {\beta }}={\underset {\beta }{\operatorname {arg\,min} }}\,\sum _{i=1}^{n}\left|y_{i}-\beta _{0}-\sum _{j=1}^{K}X_{ij}\beta _{j}\right|^{2}={\underset {\beta }{\operatorname {arg\,min} }}\,{\big \|}y-X\beta {\big \|}^{2}.

Метод найменших квадратів можна застосувати у будь-яких задачах, в яких ранг матриці $X$ рівний кількості її стовпців. Також цей метод дає простий аналітичний вираз для оцінки параметрів:

{\hat {\beta }}=(X'X)^{-1}X'y.

У випадку класичної моделі лінійної регресії оцінка методу найменших квадратів є незміщеною, змістовною і найкращою лінійною незміщеною оцінкою (детальніше про ці статистичні властивості у статті метод найменших квадратів).

У випадку коли деякі з умов класичної лінійної регресії не виконуються метод найменших квадратів може не бути оптимальним. Так для узагальненої моделі лінійної регресії де $\mathbb {V} (u|X)=\sigma ^{2}W,$ найкращою лінійною незміщеною оцінкою є оцінка, що одержується так званим узагальненим методом найменших квадратів:

{\hat {\beta }}=(X^{T}W^{-1}X)^{-1}X^{T}W^{-1}y.

Узагальнений метод найменших квадратів теж одержується мінімізацією деякої норми вектора відхилень:

{\hat {\beta }}={\underset {\beta }{\operatorname {arg\,min} }}(y-X\beta )^{T}W^{-1}(y-X\beta ).

Серед інших методів оцінювання:

Метод найменших модулів, що знаходить мінімум суми не квадратів відхилень, а їх абсолютних значень:

{\hat {\beta }}={\underset {\beta }{\operatorname {arg\,min} }}\,\sum _{i=1}^{n}\left|y_{i}-\beta _{0}-\sum _{j=1}^{K}X_{ij}\beta _{j}\right|.

Цей метод є найкращим в сенсі максимальної вірогідності у випадку коли відхилення мають розподіл Лапласа. Метод найменших модулів є значно менш чутливим до викидів значень, ніж метод найменших квадратів, проте може мати більш ніж один розв'язок і не має простої формули визначення оцінки.

Метод максимальної вірогідності. Використовується коли відомі всі розподіли відхилень для всіх спостережень. При класичній і узагальненій моделях лінійної регресії з умовою нормальності відхилень приводить до того ж результату, що і метод найменших квадратів і узагальнений метод найменших квадратів відповідно.
Ортогональна регресія. Застосовується у випадках коли в значення пояснюючих змінних теж можуть містити випадкові складові і при оцінці враховуються можливі відхилення по всіх змінних.

Див. також

Література

Айвазян С. А., Мхитарян В. С. Прикладная статистика и основы эконометрики: Учебник для вузов. — М.: ЮНИТИ, 1998. — 1022 с.
Карташов М. В. Імовірність, процеси, статистика — Київ, ВПЦ Київський університет, 2007.
С. Р. Рао, Линейные статистические методы и их применения / Пер. с англ. — М.: Наука,1968
Rao, C. Radhakrishna; Toutenburg, Shalabh, Heumann (2008). Linear Models and Generalizations (3rd ed.). Berlin: Springer. ISBN 978-3-540-74226-5.

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.

Регресійний аналіз
Частина з циклу Статистика

Моделі
Лінійна регресія Проста лінійна регресія Звичайні найменші квадрати Поліноміальна регресія Загальна лінійна модель
Узагальнена лінійна модель Дискретний вибір Логістична регресія Поліноміальний логіт Змішаний логіт Пробіт Поліноміальний пробіт Впорядкований логіт Впорядкований пробіт Пуассон
Багаторівнева модель Фіксовані рівні факторів Випадкові рівні факторів Змішана модель
Нелінійна регресія Непараметрична Напівпараметрична Робастна Квантильна Ізотонічна Головні компоненти Найменші кути Локальна Сегментована
Похибки вимірювань
Оцінка
Найменші квадрати Звичайні найменші квадрати Лінійні Частинні Повні Узагальнені Зважені Нелінійні Невід'ємні Ітеративно перезважувані Регуляризація Тихонова
Найменших модулів Баєсова Баєсова багатовимірна
Підґрунтя
Перевірка регресійних моделей Середній та передбачуваний відгук Похибки та залишки Допасованість Студентизований залишок Теорема Гаусса — Маркова