Коефіцієнт кореляції Пірсона

Коефіцієнт кореляції Пірсона (позначають «r») — в статистиці, показник кореляції (лінійної залежності) між двома змінними X та Y, який набуває значень від −1 до +1 включно. Він широко використовується в науці для вимірювання ступеня лінійної залежності між двома змінними. Показник був розроблений Карлом Пірсоном (Karl Pearson) зі схожої ідеї, представленої Френсісом Гальтоном в 1880-х рр.[1][2]

Приклади діаграм розсіву з різними значеннями коефіцієнту кореляції (r)

Визначення

Коефіцієнт кореляції Пірсона між двома змінними дорівнює коваріації двох змінних, або сумі добутків відхилень, поділеній на добуток їх стандартних відхилень. Нехай, є дві вибірки Коефіцієнт кореляції Пірсона розраховують за формулою:

де  — вибіркові середні і  — вибіркові дисперсії, .

Інтерпретація

Коефіцієнт кореляції набуває значень від −1 до 1. Значення +1 означає, що залежність між X та Y є лінійною, і всі точки функції лежать на прямій, яка відображає зростання Y при зростанні X. Значення −1 означає, що всі точки лежать на прямій, яка відображає зменшення Y при зростанні X. Якщо коефіцієнт кореляції Пірсона = 0, то саме лінійної кореляції між змінними немає.

Значущість кореляції

КореляціяНегативнаПозитивна
Відсутня−0.09 до 0.00.0 до 0.09
Низька−0.3 до −0.10.1 до 0.3
Середня−0.5 до −0.30.3 до 0.5
Висока−1.0 до −0.50.5 до 1.0

Різні автори[3][4] пропонують різні підходи до інтерпретації значення коефіцієнта кореляції. В той же час, всі критерії є певною мірою умовними, і не повинні трактуватися надто прискіпливо.[4] Інтерпретація кореляції залежить від контексту та мети. Наприклад, показник кореляції 0.9 може бути дуже низьким у випадку дослідження законів фізики з використанням високоякісного обладнання, проте може трактуватися як дуже високий в гуманітарних науках, де існує вплив багатьох інших факторів.

Відстань Пірсона

Показник відстані для двох змінних, відомий як «відстань Пірсона», може бути обчислений з коефіцієнта кореляції як:[5]

З огляду на те, що коефіцієнт кореляції Пірсона набуває лежить в множині [-1;+1], відстань Пірсона може дорівнювати [0;2].

Коефіцієнт кореляції Пірсона і метод найменших квадратів

Квадрат коефіцієнта кореляції, що є коефіцієнтом детермінації, обчислює частку варіативності змінної Y, яка пояснюється зміною X в простій лінійній регресії. Загальна варіація показників відносно їх середнього значення може бути представлена наступним чином:

,

де є середньозваженими значеннями регресії. Застосувавши математичні перетворення, отримаємо:

Два доданки зверху показують частку варіативності Y, яка пояснюється зміною X (справа) і ту, яка не пояснюється зміною X (зліва).

Далі, ми застосуємо умову методу найменших квадратів, за якою значення коваріації між і дорівнює нулю. Таким чином, рівняння кореляції між спостережними та середньозваженими значеннями регресії можуть бути записані так:

Звідси

Це рівняння показує частку варіативності Y, яка є лінійною функцією X.

Обчислення зваженої кореляції

Проведені спостереження мають різні ступені важливості, які можуть бути виражені через вектор ваги w. Для обчислення кореляції між векторами x та y з використанням вектора ваги w (для будь-якого n),[6][7]

  • Зважена середня:
  • Зважена коваріація:
  • Зважена кореляція:

Примітки

  1. J. L. Rodgers and W. A. Nicewander. Thirteen ways to look at the correlation coefficient. The American Statistician, 42(1):59-66, February 1988.
  2. Stigler, Stephen M. (1989). Francis Galton's Account of the Invention of Correlation. Statistical Science 4 (2): 73–79. JSTOR 2245329. doi:10.1214/ss/1177012580.
  3. A. Buda and A.Jarynowski (2010) Life-time of correlations and its applications vol.1, Wydawnictwo Niezalezne: 5-21, December 2010, ISBN 978-83-915272-9-0
  4. Cohen, J. (1988). Statistical power analysis for the behavioral sciences (2nd ed.)
  5. Fulekar (Ed.), M.H. (2009) Bioinformatics: Applications in Life and Environmental Sciences, Springer (pp. 110) ISBN 1-4020-8879-5
  6. Архівована копія. Архів оригіналу за 28 липня 2012. Процитовано 26 жовтня 2012.
  7. A MATLAB Toolbox for computing Weighted Correlation Coefficients

Див. також

This article is issued from Wikipedia. The text is licensed under Creative Commons - Attribution - Sharealike. Additional terms may apply for the media files.