跳到主要内容

协方差

协方差和相关系数是用来表征两个随机变量之间关系的概念

协方差

通俗的来讲,协方差可以用来表征两个变量在变化过程中是同方向变化?还是反方向变化以及同向或反向程度如何。

定义

对随机变量 XXYY, 若 E(X)E(X) , E(Y)E(Y)E(XY)E(XY) 均存在, 则称 E[(XE(X))(YE(Y))]E[(X-E(X))(Y-E(Y))]XXYY 的协方差,记为 cov(X,Y)\operatorname{cov}(X,Y), 即

cov(X,Y)=E[(XE(X))(YE(Y))]\operatorname{cov}(X,Y) = E[(X-E(X))(Y-E(Y))]

协方差概念可以看作对方差概念的自然推广。 事实上, D(X)=cov(X,X)D(X) = \operatorname{cov}(X,X), 即随机变量的方差相当于自己和自己的协方差。

将协方差的定义展开得

cov(X,Y)=E[(XE(X))(YE(Y))]=E[XY]E(XE(Y))E(YE(X))+E(X)E(Y)=E(XY)E(X)E(Y)\begin{aligned} \operatorname{cov}(X,Y) =& E[(X-E(X))(Y-E(Y))] \\ =& E[XY] - E(XE(Y)) - E(YE(X)) + E(X)E(Y) \\ =& E(XY) - E(X)E(Y) \end{aligned}

性质

  1. 对称性, cov(X,Y)=cov(Y,X)\operatorname{cov}(X,Y) = \operatorname{cov}(Y,X)
  2. 对常数 a,b,c,dRa,b,c,d \in R, cov(aX+c,bY+d)=abcov(X,Y)\operatorname{cov}(aX+c,bY+d)=ab\operatorname{cov}(X,Y)
  3. cov(X1+X2,Y)=cov(X1,Y)+cov(X2,Y)\operatorname{cov}(X_1+X_2, Y)=\operatorname{cov}(X_1,Y)+\operatorname{cov}(X_2,Y)
  4. XXYY 独立, 则 cov(X,Y)=0\operatorname{cov}(X,Y)=0

相关系数

简而言之,相关系数就是用 X,YX,Y 的协方差除以 XX 的标准差和 YY 的标准差。相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差

既然是一种特殊的协方差,那它:

  1. 也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。
  2. 由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度

定义

设随机变量 XXYY 的方差均存在, 且 D(X)>0,D(Y)>0D(X)>0, D(Y)>0, 则称

cov(X,Y)D(X)D(Y)\frac{\operatorname{cov}(X, Y)}{\sqrt{D(X) D(Y)}}

XXYY 的相关系数, 记为 ρXY\rho_{X Y} 或者 Corr(X,Y)\operatorname{Corr}(X, Y) 。若 ρXY>0\rho_{X Y} > 0, 则称 XXYY 正相关; 若 ρXY<0\rho_{X Y} < 0, 则称 XXYY 负相关

线性相关性

若随机变量 XXYY 的相关系数 ρXY=0\rho_{XY}=0, 则称 XXYY 线性无关线性不相关

若随机变量 XXYY 独立, 则 XXYY 不相关。 但反之未必成立

相关系数 ρXY\rho_{XY} 刻画了 XXYY 之间的线性相关特征

但即使相关系数 ρXY\rho_{XY} 为零, 也只能说明 XXYY 之间没有任何线性关系, 而 XXYY 完全可以有着很强的非线性关系, 而独立性则说明随机变量 XXYY 之间没有任何关系

独立性和不相关是不等价的, 但在正态分布的情况下, 独立性与不相关却是等价的。

总结

对于两个变量 X,YX,Y

当他们的相关系数为 1 时,说明两个变量变化时的正向相似度最大,即,你变大一倍,我也变大一倍;你变小一倍,我也变小一倍。也即是完全正相关(以X、Y为横纵坐标轴,可以画出一条斜率为正数的直线,所以X、Y是线性关系的)。

随着他们相关系数减小,两个变量变化时的相似度也变小,当相关系数为 0 时,两个变量的变化过程没有任何相似度,也即两个变量无关。

当相关系数继续变小,小于 0 时,两个变量开始出现反向的相似度,随着相关系数继续变小,反向相似度会逐渐变大。

当相关系数为 -1 时,说明两个变量变化的反向相似度最大,即,你变大一倍,我变小一倍;你变小一倍,我变大一倍。也即是完全负相关(以X、Y为横纵坐标轴,可以画出一条斜率为负数的直线,所以X、Y也是线性关系的)。