协方差和相关系数是用来表征两个随机变量之间关系的概念
协方差
通俗的来讲,协方差可以用来表征两个变量在变化过程中是同方向变化?还是反方向变化以及同向或反向程度如何。
对随机变量 X 和 Y, 若 E(X) , E(Y) 和 E(XY) 均存在, 则称 E[(X−E(X))(Y−E(Y))] 为 X 和 Y 的协方差,记为 cov(X,Y), 即
cov(X,Y)=E[(X−E(X))(Y−E(Y))]
协方差概念可以看作对方差概念的自然推广。 事实上, D(X)=cov(X,X), 即随机变量的方差相当于自己和自己的协方差。
将协方差的定义展开得
cov(X,Y)===E[(X−E(X))(Y−E(Y))]E[XY]−E(XE(Y))−E(YE(X))+E(X)E(Y)E(XY)−E(X)E(Y)
- 对称性, cov(X,Y)=cov(Y,X)
- 对常数 a,b,c,d∈R, cov(aX+c,bY+d)=abcov(X,Y)
- cov(X1+X2,Y)=cov(X1,Y)+cov(X2,Y)
- 若 X 和 Y 独立, 则 cov(X,Y)=0
相关系数
简而言之,相关系数就是用 X,Y 的协方差除以 X 的标准差和 Y 的标准差。相关系数也可以看成协方差:一种剔除了两个变量量纲影响、标准化后的特殊协方差
既然是一种特殊的协方差,那它:
- 也可以反映两个变量变化时是同向还是反向,如果同向变化就为正,反向变化就为负。
- 由于它是标准化后的协方差,因此更重要的特性来了:它消除了两个变量变化幅度的影响,而只是单纯反应两个变量每单位变化时的相似程度
设随机变量 X 和 Y 的方差均存在, 且 D(X)>0,D(Y)>0, 则称
D(X)D(Y)cov(X,Y)
为 X 和 Y 的相关系数, 记为 ρXY 或者 Corr(X,Y) 。若 ρXY>0, 则称 X 和 Y 正相关; 若 ρXY<0, 则称 X 和 Y 负相关。
线性相关性
若随机变量 X 和 Y 的相关系数 ρXY=0, 则称 X 和 Y 线性无关或线性不相关
若随机变量
X 和
Y 独立, 则
X 和
Y 不相关。 但
反之未必成立。
相关系数 ρXY 刻画了 X 和 Y 之间的线性相关特征
但即使相关系数 ρXY 为零, 也只能说明 X 和 Y 之间没有任何线性关系, 而 X 和 Y 完全可以有着很强的非线性关系, 而独立性则说明随机变量 X 和 Y 之间没有任何关系
独立性和不相关是
不等价的, 但在正态分布的情况下, 独立性与不相关却是等价的。
对于两个变量 X,Y:
当他们的相关系数为 1 时,说明两个变量变化时的正向相似度最大,即,你变大一倍,我也变大一倍;你变小一倍,我也变小一倍。也即是完全正相关(以X、Y为横纵坐标轴,可以画出一条斜率为正数的直线,所以X、Y是线性关系的)。
随着他们相关系数减小,两个变量变化时的相似度也变小,当相关系数为 0 时,两个变量的变化过程没有任何相似度,也即两个变量无关。
当相关系数继续变小,小于 0 时,两个变量开始出现反向的相似度,随着相关系数继续变小,反向相似度会逐渐变大。
当相关系数为 -1 时,说明两个变量变化的反向相似度最大,即,你变大一倍,我变小一倍;你变小一倍,我变大一倍。也即是完全负相关(以X、Y为横纵坐标轴,可以画出一条斜率为负数的直线,所以X、Y也是线性关系的)。