皮爾遜(pearson)相關系數

异端审判 2024-07-10 16:00 3次浏览 0 条评论 taohigo.com

按照統計學的定義,相關分析時研究兩個或兩個以上處於同等地位的隨機變量的相關關系的統計分析方法。在數據分析中,相關分析常用來探測兩組數據之間的相關關系,如變化趨勢是否一致、是否存在正向或者負向聯系以及關系的強弱如何等。與回歸分析相比,相關分析不需要區分自變量和因變量,通常對數據回歸分析之前,要先進行相關分析。

本篇介紹pearson相關系數。

pearson相關系數是由卡爾.皮爾遜從弗朗西斯.高爾頓在19世紀80年代提出的一個相似但稍有不同的想法演變來的,用於度量兩個變量之間的線性相關程度,值介於-1和1之間。兩個變量的pearson相關系數用它們的協方差與方差的商表示。

協方差的計算與推導:

begin{align} cov(X,Y) &= E(X-E(X))(Y-E(Y)) notag \ &= E(XY) – E(XE(Y) + YE(X)) + E(E(X)E(Y)) notag \ &= E(XY) – E(X)E(Y) tag{隨機變量的協方差} \ &= frac{1}{n}sum{x_iy_i}-(frac{1}{n}sum_{i=1}^{n}x_i)(frac{1}{n}sum_{i=1}^{n}y_i) notag \ &= frac{1}{n^2}(nsum_{i=1}^{n}x_iy_i-(sum_{i=1}^{n}x_i)(sum_{i=1}^{n}y_i)) tag{離散隨機變量的協方差} end{align}

平方差的計算與推導:

begin{align} D(X) &= E((X-E(X))^2) notag \ &= E(X^2)-2E(XE(X))+E(E^2(X)) notag \ &= E(X^2)-E^2(X) tag{隨機變量的平方差} \ &= frac{1}{n}sum_{i=1}^{n}(x_{i}^{2})-(frac{1}{n}sum_{i=1}^{n}x_i)^2 notag \ &= frac{1}{n^2}(nsum_{i=1}^{n}x_i^2-(sum_{i=1}^{n}x_i)^2) tag{離散隨機變量的平方差} end{align}

協方差的計算與推導:

begin{align} r(X, Y) &= frac{cov(X, Y)}{sqrt{D(X)}sqrt{D(Y)}} notag \ &= frac{E(X, Y) – E(X)E(Y)}{sqrt{E(X^2)-E^2(X)}sqrt{E(Y^2)-E^2(Y)}} tag{隨機變量的皮爾遜系數} \ &= frac{nsum_{i=1}^{n}x_iy_i-(sum_{i=1}^{n}x_i)(sum_{i=1}^{n}y_i)}{sqrt{nsum_{i=1}^{n}x_i^2-(sum_{i=1}^{n}x_i)^2}sqrt{nsum_{i=1}^{n}y_i^2-(sum_{i=1}^{n}y_i)^2}} tag{離散變量的皮爾遜系數} end{align}

下面是一組新生兒出生時身高和體重的數據,並計算他們之間的pearson相關系數。

pearson相關系數及中間比那輛的計算:

pearson相關系數的大小可以表示隨機變量之間的相關程度和方向,如下表所示: