Коефіцієнт кореляції Пірсона
Коефіцієнт кореляції Пірсона (позначають «r») — в статистиці, показник кореляції (лінійної залежності) між двома змінними X та Y, який набуває значень від −1 до +1 включно. Він широко використовується в науці для вимірювання ступеня лінійної залежності між двома змінними. Показник був розроблений Карлом Пірсоном (Karl Pearson) зі схожої ідеї, представленої Френсісом Гальтоном в 1880-х рр.[1][2]
![](../I/Correlation_coefficient.png.webp)
Визначення
Коефіцієнт кореляції Пірсона між двома змінними дорівнює коваріації двох змінних, або сумі добутків відхилень, поділеній на добуток їх стандартних відхилень. Нехай, є дві вибірки Коефіцієнт кореляції Пірсона розраховують за формулою:
де — вибіркові середні і — вибіркові дисперсії, .
Інтерпретація
Коефіцієнт кореляції набуває значень від −1 до 1. Значення +1 означає, що залежність між X та Y є лінійною, і всі точки функції лежать на прямій, яка відображає зростання Y при зростанні X. Значення −1 означає, що всі точки лежать на прямій, яка відображає зменшення Y при зростанні X. Якщо коефіцієнт кореляції Пірсона = 0, то саме лінійної кореляції між змінними немає.
Значущість кореляції
Кореляція | Негативна | Позитивна |
---|---|---|
Відсутня | −0.09 до 0.0 | 0.0 до 0.09 |
Низька | −0.3 до −0.1 | 0.1 до 0.3 |
Середня | −0.5 до −0.3 | 0.3 до 0.5 |
Висока | −1.0 до −0.5 | 0.5 до 1.0 |
Різні автори[3][4] пропонують різні підходи до інтерпретації значення коефіцієнта кореляції. В той же час, всі критерії є певною мірою умовними, і не повинні трактуватися надто прискіпливо.[4] Інтерпретація кореляції залежить від контексту та мети. Наприклад, показник кореляції 0.9 може бути дуже низьким у випадку дослідження законів фізики з використанням високоякісного обладнання, проте може трактуватися як дуже високий в гуманітарних науках, де існує вплив багатьох інших факторів.
Відстань Пірсона
Показник відстані для двох змінних, відомий як «відстань Пірсона», може бути обчислений з коефіцієнта кореляції як:[5]
З огляду на те, що коефіцієнт кореляції Пірсона набуває лежить в множині [-1;+1], відстань Пірсона може дорівнювати [0;2].
Коефіцієнт кореляції Пірсона і метод найменших квадратів
Квадрат коефіцієнта кореляції, що є коефіцієнтом детермінації, обчислює частку варіативності змінної Y, яка пояснюється зміною X в простій лінійній регресії. Загальна варіація показників відносно їх середнього значення може бути представлена наступним чином:
- ,
де є середньозваженими значеннями регресії. Застосувавши математичні перетворення, отримаємо:
Два доданки зверху показують частку варіативності Y, яка пояснюється зміною X (справа) і ту, яка не пояснюється зміною X (зліва).
Далі, ми застосуємо умову методу найменших квадратів, за якою значення коваріації між і дорівнює нулю. Таким чином, рівняння кореляції між спостережними та середньозваженими значеннями регресії можуть бути записані так:
Звідси
Це рівняння показує частку варіативності Y, яка є лінійною функцією X.
Обчислення зваженої кореляції
Проведені спостереження мають різні ступені важливості, які можуть бути виражені через вектор ваги w. Для обчислення кореляції між векторами x та y з використанням вектора ваги w (для будь-якого n),[6][7]
- Зважена середня:
- Зважена коваріація:
- Зважена кореляція:
Примітки
- J. L. Rodgers and W. A. Nicewander. Thirteen ways to look at the correlation coefficient. The American Statistician, 42(1):59-66, February 1988.
- Stigler, Stephen M. (1989). Francis Galton's Account of the Invention of Correlation. Statistical Science 4 (2): 73–79. JSTOR 2245329. doi:10.1214/ss/1177012580.
- A. Buda and A.Jarynowski (2010) Life-time of correlations and its applications vol.1, Wydawnictwo Niezalezne: 5-21, December 2010, ISBN 978-83-915272-9-0
- Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.)
- Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (pp. 110) ISBN 1-4020-8879-5
- Архівована копія. Архів оригіналу за 28 липня 2012. Процитовано 26 жовтня 2012.
- A MATLAB Toolbox for computing Weighted Correlation Coefficients