9.3 变量间的相关关系与统计案例
[知识梳理]
1.相关关系与回归方程
(1)相关关系的分类
①正相关:从散点图上看,点散布在从左下角到右上角的区域内,如图1;
②负相关:从散点图上看,点散布在从左上角到右下角的区域内,如图2.
(2)线性相关关系:从散点图上看,如果这些点从整体上看大致分布在一条直线附近,则称这两个变量之间具有线性相关关系,这条直线叫做回归直线.
(3)回归方程
①最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做
最小二乘法.
②回归方程:两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,
(x n ,y n ),其回归方程为y ^=b ^x +a ^,则b ^=
i =1
n
(x i -x )(y i -y )
i =1
n
(x i -x )2
=
∑i =1
n
x i y i -n x y
∑i =1
n
x 2
i -n x
2
,a
^=y -b ^
x .其中,b ^是回归方程的斜率,a ^是在y 轴上的截距,x -=1n ∑n i =1x i ,y -=
1
n
∑n
i =1
y i ,(x -,y -
)称为样本点的中心.
说明:回归直线y ^=b ^x +a ^
必过样本点的中心(x -,y -
),这个结论既是检验所求回归直线方程是否准确的依据,也是求参数的一个依据.
(4)样本相关系数
r =
i =1n
(x i -x )(y i -y )
i =1n
(x i -x )2i =1
n (y i -y )2
,用它来衡量两个变量间的线性相关关系.
①当r >0时,表明两个变量正相关; ②当r <0时,表明两个变量负相关;
③r 的绝对值越接近1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常当|r |>0.75时,认为两个变
量有很强的线性相关关系.
2.独立性检验
(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.
(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为
2×2列联表
构造一个随机变量K2=
n(ad-bc)2
(a+b)(c+d)(a+c)(b+d)
,其中n=a+b+c+d为样
本容量.
(3)独立性检验
利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.
[诊断自测] 1.概念思辨
(1)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (2)通过回归方程y ^=b ^x +a ^
可以估计和观测变量的取值和变化趋势.( ) (3)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) (4)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.( )
答案 (1)√ (2)√ (3)√ (4)×
2.教材衍化
(1)(必修A3P 94A 组T 3)某种产品的广告费用支出x (单位:万元)与销售额y (单位:万元)之间有如下的对应数据:
由最小二乘法得到线性回归直线方程y ^=b ^x +a ^
,则此直线一定经过点( ) A .(5,60) B .(5,50) C .(6,50) D .(8,70) 答案 B
解析 回归直线样本点的中心为(x -,y -),而x -=15×(2+4+5+6+8)=5,y
-
=1
5
×(30+40+60+50+70)=50,所以回归直线一定经过点(5,50).故选B. (2)(选修A1-2P 96T 2)通过随机询问72名不同性别的大学生在购买食物时是否看生产日期,得到如下列联表:
则有________的把握认为性别与是否读生产日期有关. 答案 99.5%
解析 由表中数据得k =
72×(16×8-20×28)2
36×36×44×28
≈8.416>7.879,所以可知有
99.5%的把握认为性别与是否读生产日期有关.
3.小题热身
(1)设回归方程为y ^
=3-5x ,则变量x 增加一个单位时 ( )