协方差和皮尔逊相关系数
协方差(Covariance)分析实例
协方差用于衡量两个变量的共同变化方向:
• 正值:变量同向变化(一个变量增大,另一个也倾向于增大)。
• 负值:变量反向变化(一个变量增大,另一个倾向于减小)。
• 绝对值大小:反映变量变化的协同程度(但受量纲影响,不能直接比较不同单位变量)。
以下通过具体示例演示协方差的计算和解释。
示例背景
研究某班级学生的学习时间(小时/周)与考试成绩(满分100分)的关系,收集5名学生的数据:
| 学生 | 学习时间(X) | 考试成绩(Y) |
|---|
| A | 2 | 60 |
| B | 3 | 65 |
| C | 5 | 75 |
| D | 7 | 85 |
| E | 9 | 95 |
1. 协方差计算公式
样本协方差公式:
Cov(X,Y)=n−11i=1∑n(Xi−Xˉ)(Yi−Yˉ)
• Xˉ,Yˉ:变量均值
• n:样本量
2. 手动计算步骤
(1) 计算均值
Xˉ=52+3+5+7+9=5.2
Yˉ=560+65+75+85+95=76
(2) 计算每个样本的偏差乘积
| 学生 | Xi−Xˉ | Yi−Yˉ | 偏差乘积 (Xi−Xˉ)(Yi−Yˉ) |
|---|
| A | 2 - 5.2 = -3.2 | 60 - 76 = -16 | (-3.2)(-16) = 51.2 |
| B | 3 - 5.2 = -2.2 | 65 - 76 = -11 | (-2.2)(-11) = 24.2 |
| C | 5 - 5.2 = -0.2 | 75 - 76 = -1 | (-0.2)(-1) = 0.2 |
| D | 7 - 5.2 = 1.8 | 85 - 76 = 9 | (1.8)(9) = 16.2 |
| E | 9 - 5.2 = 3.8 | 95 - 76 = 19 | (3.8)(19) = 72.2 |
(3) 求和并计算协方差
∑(Xi−Xˉ)(Yi−Yˉ)=51.2+24.2+0.2+16.2+72.2=163.0
Cov(X,Y)=5−1163.0=40.75
3. 结果解释
• 协方差值为 40.75:正数表明学习时间与考试成绩呈正相关,即学习时间增加,成绩倾向于提高。
• 数值大小:协方差值本身没有标准化,无法直接判断相关性强弱(需结合相关系数)。
4. 使用Python验证
通过Python的numpy库计算协方差:
import numpy as np
X = np.array([2, 3, 5, 7, 9])
Y = np.array([60, 65, 75, 85, 95])
cov_matrix = np.cov(X, Y, ddof=1)
cov_xy = cov_matrix[0, 1]
print("协方差 Cov(X, Y) =", cov_xy)
输出:
协方差 Cov(X, Y) = 40.75
5. 协方差 vs 相关系数
为消除量纲影响,进一步计算皮尔逊相关系数(标准化协方差):
r=σXσYCov(X,Y)
其中,σX,σY 为标准差。
(1) 计算标准差
σX=4(2−5.2)2+(3−5.2)2+⋯+(9−5.2)2=3.033
σY=4(60−76)2+(65−76)2+⋯+(95−76)2=14.790
(2) 计算相关系数
r=3.033×14.79040.75≈0.976
• 结果解释:相关系数接近1,表明学习时间与考试成绩存在极强的正线性关系。
6. 实际应用意义
• 教育策略:学校可鼓励学生增加学习时间以提高成绩。
• 资源分配:针对学习时间短的学生提供额外辅导。
• 局限性:协方差和相关系数仅反映线性关系,需结合散点图检查非线性模式。
总结
• 协方差:判断变量变化方向,数值受量纲影响。
• 相关系数:标准化协方差,量化相关性强度(-1到1)。
• 分析流程:先计算协方差判断方向,再通过相关系数评估强度,最后结合业务背景解读。