第十章 第二节 变量的相关性与统计案例
- 格式:pdf
- 大小:815.37 KB
- 文档页数:15
第3讲变量间的相关关系、统计案例)1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为错误!=错误!x+错误!,其中错误!=错误!,错误!=错误!-错误!错误!.(4)相关系数当r〉0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r|大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)2×2列联表:假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称2×2列联表)为:y1y2总计x1a b a+b x2c d c+d总计a+cb+d a+b+c+d(2)K2统计量K2=错误!(其中n=a+b+c+d为样本容量).1.辨明三个易误点(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x,y)点,可能所有的样本数据点都不在直线上.(2)利用回归方程分析问题时,所得的数据易误认为准确值,而实质上是预测值(期望值).(3)虽然任何一组不完全相同的数据都可以求出回归直线方程,但只有具有线性相关关系的一组数据才能得到有意义的回归直线方程,求出的方程才具有实际价值.2.求回归方程的方法求解回归方程的关键是确定回归系数错误!,错误!,因求解错误!的公式计算量太大,一般题目中给出相关的量,如x,错误!,错误!x错误!,错误! x i y i等,便可直接代入求解.充分利用回归直线过样本中心点(错误!,错误!),即有错误!=错误!错误!+错误!,可确定错误!.1.有关线性回归的说法,不正确的是()A.具有相关关系的两个变量是非确定性关系B.散点图能直观地反映数据的相关程度C.回归直线最能代表线性相关的两个变量之间的关系D.散点图中的点越集中,两个变量的线性相关性越强D2.某商品销售量y(件)与销售价格x(元/件)负相关,则其回归直线方程可能是()A。
第二节变量的相关性与统计案例[考纲要求]1会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2. 了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).3•了解回归分析的思想、方法及其简单应用.4•了解独立性检验的思想、方法及其初步应用.突破点一回归分析抓牢双基•自学回扣[基本知识]1. 变量间的相关关系(1) 常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2) 从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相垒点散布在左上角到右下角的区域内,两个变量的相关关系为负相关. __________[基本能力]、判断题(对的打,错的打“X” )(1) 相关关系与函数关系都是一种确定性的关系,也是一种因果关系. ()(2) “名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系. ()(3) 只有两个变量有相关关系,所得到的回归模型才有预测价值. ()答案:⑴X (2)V (3) V二、填空题1•已知x, y的取值如下表,从散点图可以看出y与x具有线性相关关系,且回归方程为y = 0.95x + a,则 a = _______ .答案:2.62•两个变量y与x的回归模型中,分别选择了4个不同模型,经计算得到它们的相关系数r的值如下表,其中拟合效果最好的模型是 ____________ .答案:模型1A A 103•已知变量x, y之间具有线性相关关系,其回归方程为y =- 3 + bx,若无X i= 17 ,i = 110 AZ yi= 4,则b的值为_________ .i= 1答案:2研透高考廉化提能[全析考法]考法一相关关系的判断•[例1](1)(20佃福建泉州月考)在下列各图中,两个变量具有相关关系的图是()°* * • » »\ I**:心* X②③A .①②B .①③C .②③D .②④(2)(2019昆明一中一模)若对于变量x的取值为3,4,5,6,7 时,变量y对应的值依次分别为4.0,2.5,—0.5,- 1,- 2;若对于变量u的取值为1,2,3,4时,变量v对应的值依次分别为2,3,4,6,则变量x和y,变量u和v的相关关系是()x 和y 是负相关,变量[解析]⑴①为函数关系;②为正相关关系;③为负相关关系;④没有明显相关性.(2)变量x 增加,变量y 减少,所以变量 x 和y 是负相关;变量 u 增加,变量v 增加, 所以变量u 和v 是正相关,故选 D.[答案]⑴C (2)D [方法技巧]判断相关关系的2种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关 系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.⑵相关系数法:利用相关系数判定,|r|越趋近于1相关性越强.考法二 线性回归分析 •[例2] (2018全国卷n )下图是某地区2000年至2016年环境基础设施投资额 y(单位: 亿元)的折线图.为了预测该地区 2018年的环境基础设施投资额,建立了 y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y=-30.4 + 13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模 型②:y = 99+ 17.5t.(1) 分别利用这两个模型,求该地区 2018年的环境基础设施投资额的预测值; (2) 你认为用哪个模型得到的预测值更可靠?并说明理由.[解](1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y =- 30.4A.变量 B .变量 x 和y 是正相关,变量 x 和y 是正相关,变量 u 和v 是正相关 u 和v 是负相关 C .变量 x 和y 是负相关,变量 u 和v 是负相关u 和v 是正相关 D .变量+ 13.5X 19= 226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为y= 99 + 17.5X 9 = 256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(i )从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y=-30.4+ 13.5t上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010 年相对2009 年的环境基础设施投资额有明显增加,2010 年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y y= 99+ 17.5t可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii )从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1 亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)[方法技巧]1. 回归直线方程中系数的2种求法(1) 公式法:利用公式,求出回归系数y b,a y.(2) 待定系数法:利用回归直线过样本点中心(-x,-y )求系数.2. 回归分析的2 种策略(1) 利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(2) 利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数y b.[集训冲关]1. [考法一]四名同学根据各自的样本数据研究变量x, y之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y与x负相关且?= 2.347x- 6.423;②y与x负相关且?=— 3.476x + 5.648;③y与x正相关且?= 5.437X+ 8.493;④y 与x 正相关且y y=- 4.326x- 4.578.其中一定不正确的结论的序号是( )A. ①②B. ②③C .③④D .①④解析:选D 正相关指的是y 随x 的增大而增大,负相关指的是 y 随x 的增大而减小, 故不正确的为①④. 2.[考法二]二手车经销商小王对其所经营的 A 型号二手汽车的使用年数x 与销售价格y(单位:万元/辆)进行整理,得到如下数据使用年数x 2 3 4 5 6 7 售价y 20 12 8 6.4 4.4 3 z = In y3.002.482.081.861.481.10z 关于x 的折线图,如图所示:(1)由折线图可以看出,可以用线性回归模型拟合 与x 的关系,请用相关系数加以说明;(2)求y 关于x 的回归方程,并预测某辆 A 型号二手车当使用年数为 9年时售价约为多少.(b ,a 小数点后保留两位有效数字)参考公式:n _ iXi — x 如一y ' xy j — nx yi = 1“- i = 1A —— A ——------------ ,a = y — bx , n -2 — 2 xx i — nxi =1n— 1解:(1)由题意,知 x =-X (2 + 3 + 4+ 5+ 6 + 7) = 4.5,6z = * (3 + 2.48 + 2.08 + 1.86 + 1.48 + 1.10) = 2, 647.64 — 6 X 4.5 X 2…r =4.18X 1.53••• z 与x 的相关系数大约为—0.99,说明z 与x 的线性相关程度很高. A 47.64 — 6X 4.5 X 2 (2)b= 139— 6X 4.52•- a = z — b x = 2+ 0.36 X 4.5= 3.62, • z 与x 的线性回归方程是 z=— 0.36x + 3.62, 又z = lny ,「. y 关于x 的回归方程是,=e— 0.36x +3.620.36X 9+ 3.620.38令 x = 9,得 y = e = e ,•/ In 1.46〜0.38,「. y = 1.46, 即预测某辆A 型号二手车当使用年数为9年时售价约为1.46万元.突破点二 独立性检验抓牢双基•自学回扣[基本知识]1. 分类变量变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. 2. 列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{X 1, X 2}和{y 1, y 2},其样本频数列联表(称为2X 2列联表)为y 1y 2 总计 X 1 a b a + b X 2 c d c + d 总计a + cb + da +b +c + dK 2=恒+—a +Cj [b + d (其中n = a + b +c +d 为样本容量),可利用独立性检验判6.366337 一0.99,型一 0.36,17.54.18,断表来判断“ X与Y的关系”.[基本能力]一、判断题(对的打“/ ,错的打“X” )(1) 事件X,Y关系越密切,则由观测数据计算得到的K2的值越大.()(2) 由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.()答案:⑴“(2)X二、填空题1.下面是2 X 2列联表:则表中a, b的值分别为解析:•/ a+ 21 = 73,「.a= 52,又a + 22= b,「. b= 74.答案:52,742. 为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2 X 2列联表:已知P(K2> 3.841)宀 0.05,2根据表中数据,得到K2的观测值k= 13X 20一10X 7〜4.844.则认为选修文科与23 X 27 X 20 X 30性别有关系出错的可能性为__________ .答案:5%3. (2019阜阳质检)某班主任对全班30名男生进行了作业量多少的调查,数据如下表:该班主任据此推断男生认为作业多与喜欢玩电脑游戏有关系,则这种推断犯错误的概率不超过 .答案:0.05研透高考廉化提能[典例](2018全国卷川)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式•为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人•第一组工人用第一种生产方式,第二组工人用第二种生产方式•根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:第一种生产方式第—种生产方式865 5 6 8 99 7 6 2701223456689877654332814 4 52 110 090(1) 根据茎叶图判断哪种生产方式的效率更高?并说明理由.(2) 求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m和不超过m的工人数填入下面的列联表:?2附: K2=nad二坐-(a+ b ]c+ d ]a+ c ]b+ d )P( K3^^)0. 0500, 0100. 001k3,8416,63516 828[解](1)第二种生产方式的效率更高.理由如下:(i )由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min ,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.(ii )由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min ,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.(iii)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.(iv )由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最7多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎 上的最多,关于茎 7大致呈对称分布•又用两种生产方式的工人完成生产任务所需时间分 布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方 式完成生产任务所需的时间更少•因此第二种生产方式的效率更高.(以上给出了 4种理由,答出其中任意一种或其他合理理由均可得分 )列联表如下:⑶因为宀 節薦。
完整版变量间的相关关系统计案例引言:经济学中一个重要的分支是相关关系的研究,通过统计分析不同变量之间的相关性,可以帮助我们理解变量之间的关系。
本文以汽车生产数量和国内生产总值(GDP)为例,通过统计分析两者之间的相关关系,展示相关分析在实际问题中的应用。
方法:本案例采用了经济学中常用的相关分析方法,包括Pearson相关系数和散点图。
本文使用了国在过去10年内的汽车生产数量和GDP的数据。
汽车生产数量的数据来自国家汽车协会,GDP数据来自国家统计局。
分析过程:1.数据收集和整理:将过去10年内的每年汽车生产数量和GDP数据整理成一个数据表格,便于后续分析。
2.描述统计分析:计算汽车生产数量和GDP的均值、标准差和极差等描述性统计量,以了解数据的整体情况。
3.散点图绘制:将每年的汽车生产数量和GDP数据绘制成散点图,横轴表示汽车生产数量,纵轴表示GDP,每个散点表示一个年份。
4.相关性分析:计算汽车生产数量和GDP之间的Pearson相关系数,该系数介于-1和1之间。
系数为正则表示两者正相关,系数为负则表示两者负相关,系数越接近于1或-1,则相关性越强。
结果:1.描述统计分析结果显示,过去10年内每年的汽车生产数量均值为X辆,标准差为X辆,极差为X辆;每年GDP的均值为X万元,标准差为X万元,极差为X万元。
2.散点图显示,汽车生产数量和GDP呈现出一定的正相关趋势。
随着汽车生产数量的增加,GDP也有相应增加的趋势。
3. 相关性分析结果显示,汽车生产数量和GDP之间的Pearson相关系数为X。
由于该系数为正数且接近于1,可以得出结论:汽车生产数量与GDP存在着强正相关关系。
讨论:本案例通过相关分析的方法,探讨了汽车生产数量与GDP之间的关系。
研究结果表明,两者之间存在着强正相关关系,即汽车生产数量的增加会促进GDP的增长。
可能的解释是汽车工业作为一个重要的制造业部门,对于经济的增长有着显著的贡献。
变量间的相关关系、统计案例1. 两个变量的线性相关(1)正相关在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关. (2)负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关. (3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2. 回归方程(1)最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎨⎧b ^=∑n i =1(x i-x )(y i-y )∑ni =1(x i-x )2=∑ni =1x i y i -n x y∑n i =1x 2i-n x2a ^=y -b ^x.3. 回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法. (2)样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中(x ,y )称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性. 4. 独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为 2×2列联表构造一个随机变量K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d 为样本容量.(3)独立性检验利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验.1. 已知x 、y 的取值如下表:从所得的散点图分析,y 与x 线性相关,且y =0.95x +a ,则a ^=________. 答案 2.6 解析 因为回归直线必过样本点的中心(x ,y ),又x =2,y =4.5,代入y ^=0.95x +a ^,得a ^=2.6.2. (2011·辽宁)调查了某地若干户家庭的年收入x (单位:万元)和年饮食支出y (单位:万元),调查显示年收入x 与年饮食支出y 具有线性相关关系,并由调查数据得到y 对x 的线性回归方程:y ^=0.254x +0.321.由线性回归方程可知,家庭年收入每增加1万元,年饮食支出平均增加______万元.答案 0.254 解析 由题意知[0.254(x +1)+0.321]-(0.254x +0.321)=0.254. 3. (2012·湖南)设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确...的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x ,y )C.若该大学某女生身高增加1 cm,则其体重约增加0.85 kgD.若该大学某女生身高为170 cm,则可断定其体重必为58.79 kg答案 D 解析由于线性回归方程中x的系数为0.85,因此y与x具有正的线性相关关系,故A正确.又线性回归方程必过样本点的中心(x,y),因此B正确.由线性回归方程中系数的意义知,x每增加1 cm,其体重约增加0.85 kg,故C正确.当某女生的身高为170 cm时,其体重估计值是58.79 kg,而不是具体值,因此D不正确.4.为了评价某个电视栏目的改革效果,在改革前后分别从居民点抽取了100位居民进行调查,经过计算K2≈0.99,根据这一数据分析,下列说法正确的是() A.有99%的人认为该电视栏目优秀B.有99%的人认为该电视栏目是否优秀与改革有关系C.有99%的把握认为该电视栏目是否优秀与改革有关系D.没有理由认为该电视栏目是否优秀与改革有关系答案 D 解析只有K2≥6.635才能有99%的把握认为该电视栏目是否优秀与改革有关系,而即使K2≥6.635也只是对“该电视栏目是否优秀与改革有关系”这个论断成立的可能性大小的结论,与是否有99%的人等无关.故只有D正确.5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:() A.99.9% B.97.5% C.95% D.90%答案 A 解析可计算K2≈11.377>10.828.故选A.题型一两个变量间的相关关系例15个学生的数学和物理成绩如下表:思维启迪:将每个学生的数学成绩和物理成绩分别作为点的横坐标和纵坐标,作散点图,然后根据散点图判断两个变量是否存在相关关系.解以x轴表示数学成绩,y轴表示物理成绩,可得到相应的散点图如图所示.由散点图可知,各组数据对应点大致在一条直线附近,所以两者之间具有相关关系,且为正相关.探究提高判断变量之间有无相关关系,一种简便可行的方法就是绘制散点图,根据散点图很容易看出两个变量之间是否具有相关性,是不是存在线性相关关系,是正相关还是负相关,相关关系是强还是弱.对变量x,y有观测数据(x i,y i) (i=1,2,…,10),得散点图(1);对变量u、v有观测数据(u i,v i) (i=1,2,…,10),得散点图(2).由这两个散点图可以判断()A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案 C 解析由图(1)可知,各点整体呈递减趋势,x与y负相关;由图(2)可知,各点整体呈递增趋势,u与v正相关.题型二线性回归分析例2(2012·福建)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:(1)求线性回归方程y ^=b ^x +a ^,其中b ^=-20,a ^=y -b ^x ;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本) 思维启迪:根据回归直线过样本点中心来求线性回归方程,然后利用回归方程求最大利润.解 (1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80,又b ^=-20,所以a ^=y -b ^x =80+20×8.5=250,从而线性回归方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20(x -8.25)2+361.25. 当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润. 探究提高 回归直线过样本点中心(x ,y )是一条重要性质;利用线性回归方程可以估计总体,帮助我们分析两个变量的变化趋势.(2011·广东)为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:小李这56号打6小时篮球的投篮命中率为________. 答案 0.5 0.53解析 小李这5天的平均投篮命中率y =0.4+0.5+0.6+0.6+0.45=0.5,可求得小李这5天的平均打篮球时间x =3.根据表中数据可求得b ^=0.01,a ^=0.47,故线性回归方程为y ^=0.01x +0.47,将x =6代入得6号打6小时篮球的投篮命中率约为0.53. 题型三 独立性检验例3 为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老年人,结果如下:(1)(2)能否有99.5%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关? (3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.思维启迪:直接计算K 2的值,然后利用表格下结论.解 (1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为70500×100%=14%.(2)K 2=500×(40×270-30×160)2200×300×70×430≈9.967.由于9.967>7.879,所以有99.5%的把握认为该地区的老年人是否需要帮助与性别有关. (3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.探究提高 (1)根据样本估计总体是抽样分析的一个重要内容.要使估计的结论更加准确,抽样取得的样本很关键.(2)根据独立性检验知,需要提供服务的老人与性别有关,因此在调查时,采取男、女分层抽样的方法更好,从而看出独立性检验的作用.某班主任对全班50名学生的积极性和对待班级工作的态度进行了调查,统计数据如下表所示:系?说明理由.解 由K 2=50×(18×19-6×7)224×26×25×25≈11.54.∵K 2>10.828,故可以有99.9%的把握认为学生的学习积极性与对待班级工作的态度有关系. 典例:(12分)某地10户家庭的年收入和年饮食支出的统计资料如表所示:(2)如果某家庭年收入为9万元,预测其年饮食支出.审题视角 可以画出散点图,根据图中点的分布判断家庭年收入和年饮食支出的线性相关性.规范解答解 (1)由题意,知年收入x 为解释变量,年饮食支出y 为预报变量,作散点图如图所示.[3分]从图中可以看出,样本点呈条状分布,年收入和年饮食支出有比较好的线性相关关系,因此可以用线性回归方程刻画它们之间的关系.[4分] 因为x =6,y=1.83,∑i =110x 2i =406,∑i =110y 2i =35.13,∑i =110x i y i =117.7,所以b ^=∑i =110x i y i -10x y∑i =110x 2i -10x2≈0.172,a ^=y -b ^x ≈1.83-0.172×6=0.798.从而得到线性回归方程为y ^=0.172x +0.798.[8分](2)y ^=0.172×9+0.798=2.346(万元).所以家庭年收入为9万元时,可以预测年饮食支出为2.346万元.[12分]温馨提醒 (1)在统计中,用样本的频率分布表、频率分布直方图、统计图表中的茎叶图、折线图、条形图,去估计总体的相关问题,以及用散点图判断相关变量的相关性等都体现了数与形的完美结合.借助于形的直观,去统计数据,分析数据,无不体现了数形结合的思想.(2)本题利用散点图分析两变量间的相关关系,充分体现了数形结合思想的应用.(3)本题易错点为散点图画的不准确,导致判断错误.A组专项基础训练(时间:35分钟,满分:57分)一、选择题(每小题5分,共20分)1.2011·陕西)设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归直线(如图),以下结论中正确的是()A.直线l过点(x,y)B.x和y的相关系数为直线l的斜率C.x和y的相关系数在0到1之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同答案 A 解析因为相关系数是表示两个变量是否具有线性相关关系的一个值,它的绝对值越接近1,两个变量的线性相关程度越强,所以B、C错误.D中n为偶数时,分布在l两侧的样本点的个数可以不相同,所以D错误.根据线性回归直线一定经过样本点中心可知A正确.2.(2011·山东)某产品的广告费用x与销售额y的统计数据如下表:根据上表可得线性回归方程y=b x+a中的b为9.4,据此模型预报广告费用为6万元时销售额为() A.63.6万元B.65.5万元C.67.7万元D.72.0万元答案 B解析∵x=4+2+3+54=72,y=49+26+39+544=42,又y^=b^x+a^必过(x,y),∴42=72×9.4+a ^ ,∴a ^ =9.1.∴线性回归方程为y ^=9.4x +9.1.∴当x =6时,y ^=9.4×6+9.1=65.5(万元).3. (2012·课标全国)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为 ( )A .-1B .0C.12D .1答案 D解析 样本点都在直线上时,其数据的估计值与真实值是相等的,即y i =y ^i ,代入相关系数公式r =1-∑i =1n(y i -y ^i )2∑i =1n (y i -y )2=1.4. 在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )①若K 2的观测值满足K 2≥6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;②从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;③从统计量中得知有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误. A .①B .①③C .③D .②答案 C解析 ①推断在100个吸烟的人中必有99人患有肺病,说法错误,排除A ,B ;③正确. 二、填空题(每小题5分,共15分)5. 某市居民2005~2009年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:出有________线性相关关系. 答案 13 正解析 把2005~2009年家庭年平均收入按从小到大顺序排列为11.5,12.1,13,13.3,15,因此中位数为13(万元),由统计资料可以看出,当年平均收入增多时,年平均支出也增多,因此两者之间具有正线性相关关系.6. 在一项打鼾与患心脏病的调查中,共调查了1 671人,经过计算K 2的观测值k =27.63,根据这一数据分析,我们有理由认为打鼾与患心脏病是________的(有关,无关). 答案 有关解析 由观测值k =27.63与临界值比较,我们有99.9%的把握说打鼾与患心脏病有关. 7. 在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由此得到回归直线的斜率b 是__________.(结果保留两位小数)答案 0.88 解析 把表中数据代入公式b ^=∑5i =1x i y i -5x y ∑5i =1x 2i -5x 2≈0.88.三、解答题(共22分)8. (10分)某企业上半年产品产量与单位成本资料如下:且已知产量x (1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n =6,x =3.5,y=71,∑6i =1x 2i =79,∑6i =1x i y i =1 481,b ^=∑6i =1x i y i -6x y∑6i =1x 2i -6x 2=1 481-6×3.5×7179-6×3.52≈-1.82,a ^=y -b ^x =71+1.82×3.5=77.37,∴线性回归方程为y ^ =b ^ x +a ^=-1.82x +77.37.(2)因为单位成本平均变动b ^=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b ^的意义有产量每增加一个单位即1 000件时,单位成本平均减少1.82元. (3)当产量为6 000件时,即x =6,代入线性回归方程,得y ^=77.37-1.82×6=66.45(元) ∴当产量为6 000件时,单位成本大约为66.45元. 9. (12分)(2011·安徽)某地最近十年粮食需求量逐年上升,下表是部分统计数据:(1)利用所给数据求年需求量与年份之间的线性回归方程y =b x +a ; (2)利用(1)中所求出的直线方程预测该地2012年的粮食需求量.解 (1)由所给数据看出,年需求量与年份之间是近似直线上升的,下面求线性回归方程.为此对数据预处理如下:对预处理后的数据,容易算得x =0,y =3.2.b ^=(-4)×(-21)+(-2)×(-11)+2×19+4×29-5×0×3.2(-4)2+(-2)2+22+42-5×02=26040=6.5,a ^=y -b ^x =3.2.由上述计算结果,知所求线性回归方程为y ^-257=b ^(x -2 006)+a ^=6.5(x -2 006)+3.2,即y ^=6.5(x -2 006)+260.2.① (2)利用直线方程①,可预测2012年的粮食需求量约为 6.5×(2 012-2 006)+260.2=6.5×6+260.2=299.2(万吨).B 组 专项能力提升 (时间:25分钟,满分:43分)一、选择题(每小题5分,共15分) 1. 以下四个命题,其中正确的是( )①从匀速传递的产品生产流水线上,质检员每20分钟从中抽取一件产品进行某项指标检测,这样的抽样是分层抽样;②两个随机变量相关性越强,则相关系数的绝对值越接近于1 ;③在线性回归方程y ^=0.2x +12中,当解释变量x 每增加一个单位时,预报变量y ^平均增加0.2个单位;④对分类变量X 与Y ,它们的随机变量K 2的观测值k 来说,k 越小,“X 与Y 有关系”的把握程度越大. A .①④B .②④C .①③D .②③答案 D 解析 ①是系统抽样;对于④,随机变量K 2的观测值k 越小,说明两个相关变量有关系的把握程度越小.2. (2011·湖南)通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 答案 A 解析 根据独立性检验的定义,由K 2≈7.8>6.635可知我们有99%以上的把握认为“爱好该项运动与性别有关”,故选A.3.(2011·江西)为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:则y 对x( )A.y ^=x -1B.y ^=x +1C.y ^ =88+12xD.y ^=176答案 C解析 因为x =174+176+176+176+1785=176,y =175+175+176+177+1775=176,又y 对x 的线性回归方程表示的直线恒过点(x ,y ),所以将(176,176)代入A 、B 、C 、D 中检验知选C.二、填空题(每小题5分,共15分)4. ①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r=1或r =-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上.上面是关于相关系数r 的几种说法,其中正确的序号是__________. 答案 ①③解析 若r >0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确;r <0,表示两个相关变量负相关,x 增大时,y 相应减小,故②错误;|r |越接近1,表示两个变量相关性越高,|r |=1表示两个变量有确定的关系(即函数关系),故③正确.5. (2011·广东)某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________ cm.答案 185 解析 儿子和父亲的身高可列表如下:设线性回归方程y ^=a ^+b x ,由表中的三组数据可求得b =1,故a ^=y -b ^x =176-173=3,故线性回归方程为y ^=3+x ,将x =182代入得孙子的身高为185 cm.6. 某炼钢厂废品率x (%)与成本y (元/t)的线性回归方程为y ^=105.492+42.569x .当成本控制在176.5元/t 时,可以预计生产的1 000 t 钢中,约有________ t 钢是废品. 答案 16.68解析 ∵176.5=105.492+42.569x ,∴x ≈1.668,即成本控制在176.5元/t 时,废品率为1.668%.∴生产的1 000 t 钢中,约有1 000×1.668%=16.68(t)钢是废品. 三、解答题7. (13分)某产品的广告支出x (单位:万元)与销售收入y (单位:万元)之间有下表所对应的数据:(1)(2)求出y 对x 的线性回归方程;(3)若广告费为9万元,则销售收入约为多少万元? 解 (1)作出的散点图如图所示(2)观察散点图可知各点大致分布在一条直线附近,列出下表易得x =52,y =692,所以b ^=∑4i =1x i y i -4x y ∑4i =1x 2i -4x 2=418-4×52×69230-4×⎝⎛⎭⎫522=735,a ^=y -b ^x =692-735×52=-2. 故y 对x 的线性回归方程为y ^=735x -2.(3)当x =9时,y ^=735×9-2=129.4. 故当广告费为9万元时,销售收入约为129.4万元.。
第二节 变量间的相关关系与统计案例1.变量间的相关关系:例1.下面现象间的关系属于线性相关关系的是( ) A .圆的周长和它的半径之间的关系B .价格不变条件下,商品销售额与销售量之间的关系C .家庭收入愈多,其消费支出也有增长的趋势D .正方形面积和它的边长之间的关系 演变1.下列关系中是函数关系的是( )A .球的半径长度和体积的关系B .农作物收获和施肥量的关系C .商品销售额和利润的关系D .产品产量与单位成品成本的关系例2.对变量x ,y 有观测数据(i x ,i y )(i =1,2,…,10),得散点图1;对变量u ,v 有观测数据(i u ,i v )(i =1,2,…,10),得散点图2,由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关演变1.在一组样本数据1122(,),(,),,(,)n n x y x y x y ⋅⋅⋅(122,,,,n n x x x ≥⋅⋅⋅不全相等)的散点图中,若所有样本点(,)(1,2,,)i i x y i n =⋅⋅⋅都在直线112y x =+上,则这组样本数据的样本相关系数为( )A. -1B.0C.12D.1 例3.实验测得四组),(y x 的值为)5,4(),4,3(),3,2(),2,1(,则y 与x 之间的回归方程为( )A .1ˆ+=x yB .2ˆ+=x yC .12ˆ+=x yD .1ˆ+=x y 演变1.在回归直线方程中,b 表示( )A .当x 增加一个单位时,y 增加a 的数量B .当y 增加一个单位时,x 增加b 的数量C .当x 增加一个单位时,y 的平均增加量D .当y 增加一个单位时,x 的平均增加量演变2.工人月工资(x 元)与劳动生产率(x 千元)变化的回归直线方程为ˆ5080yx =+,下列判断不正确的是( )A .劳动生产率为1000元时,工资为130元B .劳动生产率提高1000元时,则工资提高80元C .劳动生产率提高1000元时,则工资提高130元D.当月工资为210元时,劳动生产率为2000元2.独立性检验:例1.为调查某地区老年人是否需要志愿者提供帮助,用简单随机抽样方法从该地区调查了500位老人,结果如下:(1)估计该地区老年人中,需要志愿者提供帮助的老年人的比例;(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?例2.为考察数学成绩与物理成绩的关系,在高二年级随机抽取了300名学生,得到如下列联表:请你由表中的数据考察数学成绩与物理成绩之间是否有关系?并说明理由。
变量间的相关关系与统计案例一、基础知识1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.体现的不一定是因果关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关;点散布在左上角到右下角的区域内,两个变量的这种相关关系为负相关.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线.(2)回归方程为y ^=b ^x +a ^,其中(3)通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法.(4)相关系数:当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验 (1)2×2列联表设X ,Y 为两个变量,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)如下:(2)独立性检验利用随机变量K 2(也可表示为χ2)的观测值k=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c+d 为样本容量)来判断“两个变量有关系”的方法称为独立性检验.二、常用结论(1)求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点 (x ,y ).(2)根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.(3)根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.考点一 回归分析考法(一) 求线性回归方程[典例] (2019·湘东五校联考)已知具有相关关系的两个变量x ,y 的几组数据如下表所示:(1)(2)请根据上表数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^,并估计当x =20时y 的值.参考公式:b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2,a ^=y -b ^x .[解] (1)散点图如图所示:(2)依题意,x =15×(2+4+6+8+10)=6,y =15×(3+6+7+10+12)=7.6,∑i =15x 2i =4+16+36+64+100=220,∑i =15x i y i =6+24+42+80+120=272,∴b ^=∑i =15x i y i -5 x y∑i =15x 2i -5 x2=272-5×6×7.6220-5×62=4440=1.1, ∴a ^=7.6-1.1×6=1,∴线性回归方程为y ^=1.1x +1,故当x =20时,y =23.考法(二) 相关系数及应用[典例] 如图是我国2012年至2018年生活垃圾无害化处理量(单位:亿吨)的折线图.由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明. 参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17(y i -y )2=0.55, 7≈2.646.参考公式:相关系数r =∑i =1n(t i -t )(y i -y )∑i =1n(t i -t )2∑i =1n (y i -y )2.[解] 由折线图中数据和参考数据及公式得t =4,∑i=17(t i -t )2=28,∑i =17(y i -y )2=0.55,∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.[解题技法]1.线性回归分析问题的类型及解题方法 (1)求线性回归方程:①利用公式,求出回归系数b ^,a ^.②待定系数法:利用回归直线过样本点中心求系数. (2)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值.(3)利用回归直线判断正、负相关:决定正相关还是负相关的是系数b ^. 2.模型拟合效果的判断(1)残差平方和越小,模型的拟合效果越好. (2)相关指数R 2越大,模型的拟合效果越好.(3)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.[题组训练]1.(2019·惠州调研)某商场为了了解毛衣的月销售量y (件)与月平均气温x (℃)之间的关系,随机统计了某4个月的月销售量与当月平均气温,其数据如下表:由表中数据算出线性回归方程y =b x +a 中的b =-2,气象部门预测下个月的平均气温约为6 ℃,据此估计该商场下个月毛衣销售量约为( )A .46件B .40件C .38件D .58件解析:选A 由题中数据,得x =10,y =38,回归直线y ^=b ^x +a ^过点(x ,y ),且b ^=-2,代入得a ^=58,则回归方程y ^=-2x +58,所以当x =6时,y =46,故选A.2.近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次,统计数据如下表:根据以上数据,绘制了散点图.参考数据:其中v i =lg y i ,v =17∑i =17v i .(1)根据散点图判断,在推广期内,y =a +bx 与y =c ·d x (c ,d 均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及上表中数据,建立y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次.参考公式:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^=α^+β^μ的斜率和截距的最小二乘估计公式分别为β=∑i =1nu i v i -n u v ∑i =1nu 2i -n u2,α^=v -β^U .解:(1)根据散点图可以判断,y =c ·d x 适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型.(2)y =c ·d x 两边同时取常用对数,得lg y =lg(c ·d x )=lg c +x lg d , 设lg y =v ,则v =lg c +x lg d . ∵x =4,v =2.54,∑i =17x 2i =140,∴lg d =∑i =17x i v i -7 x v ∑i =17x 2i -7 x2≈78.12-7×4×2.54140-7×42=0.25,把(4,2.54)代入v =lg c +x lg d ,得lg c =1.54, ∴v ^=1.54+0.25x ,∴y ^=101.54+0.25x =101.54·(100.25)x .把x =8代入上式,得y ^=101.54+0.25×8=103.54=103×100.54=3 470,∴y 关于x 的回归方程为y ^=101.54·(100.25)x ,活动推出第8天使用扫码支付的人次为3 470.考点二 独立性检验[典例] (2018·全国卷Ⅲ节选)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)求40名工人完成生产任务所需时间的中位数m ,并将完成生产任务所需时间超过m 和不超过m 的工人数填入下面的列联表:(2)根据(1)中的列联表,能否有99%的把握认为两种生产方式的效率有差异? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),[解] (1)由茎叶图知m =79+812=80.列联表如下:(2)因为K 2=40(15×15-5×5)220×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.[解题技法][题组训练]1.(2019·沧州模拟)某班主任对全班50名学生进行了作业量的调查,数据如表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025,P (K 2≥6.635)≈0.010.则________(填“有”或“没有”)97.5%的把握认为“学生的性别与认为作业量大 有关”.解析:因为K 2=50×(18×15-8×9)226×24×27×23≈5.059>5.024,所以有97.5%的把握认为“学生的性别与认为作业量大有关”. 答案:有2.为考察某种疫苗预防疾病的效果,进行动物试验,得到统计数据如下:现从所有试验动物中任取一只,取到“注射疫苗”动物的概率为25.(1)求2×2列联表中的数据x ,y ,A ,B 的值.(2)绘制发病率的条形统计图,并判断疫苗是否影响到了发病率?(3)能否在犯错误的概率不超过0.001的前提下认为疫苗有效? 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .临界值表:解:(1)设“从所有试验动物中任取一只,取到‘注射疫苗’动物”为事件M , 由已知得P (M )=y +30100=25,所以y =10,则B =40,x =40,A =60. (2)未注射疫苗发病率为4060=23≈0.67,注射疫苗发病率为1040=14=0.25.发病率的条形统计图如图所示,由图可以看出疫苗影响到了发病率.(3)因为K 2=100×(20×10-40×30)260×40×50×50≈16.67>10.828.所以能在犯错误的概率不超过0.001的前提下认为疫苗有效.[课时跟踪检测]A 级1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C 由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.2.(2019·长沙模拟)为了解某社区居民购买水果和牛奶的年支出费用与购买食品的年支出费用的关系,随机调查了该社区5户家庭,得到如下统计表:根据上表可得回归方程y =b x +a ,其中b =0.59,a =y -b x ,据此估计,该社区一户购买食品的年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为( )A .1.795万元B .2.555万元C .1.915万元D .1.945万元解析:选A x =15×(2.09+2.15+2.50+2.84+2.92)=2.50(万元),y =15×(1.25+1.30+1.50+1.70+1.75)=1.50(万元),其中b ^=0.59,则a ^=y -b ^ x =0.025,y ^=0.59x +0.025,故年支出费用为3.00万元的家庭购买水果和牛奶的年支出费用约为y ^=0.59×3.00+0.025=1.795(万元).3.下面四个命题中,错误的是( )A .从匀速传递的产品生产流水线上,质检员每15分钟从中抽取一件产品进行某项指标检测,这样的抽样是系统抽样B .对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大C .两个随机变量相关性越强,则相关系数的绝对值越接近于0D .在回归直线方程y ^=0.4x +12中,当解释变量x 每增加一个单位时,预报变量平均增加0.4个单位解析:选C 两个随机变量的线性相关性越强,则相关系数的绝对值越接近于1,故C 错误.4.春节期间,“厉行节约,反对浪费”之风悄然吹开,某市通过随机询问100名性别不同的居民是否能做到“光盘”行动,得到如下的列联表:附表及公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .A .有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”B .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别无关”C .在犯错误的概率不超过1%的前提下,认为“该市居民能否做到‘光盘’与性别有关”D .有90%以上的把握认为“该市居民能否做到‘光盘’与性别无关”解析:选A 由列联表得到a =45,b =10,c =30,d =15,则a +b =55,c +d =45,a +c =75,b +d =25,ad =675,bc =300,n =100,计算得K 2的观测值k = n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=100×(675-300)255×45×75×25≈3.030.因为2.706<3.030<3.841,所以有90%以上的把握认为“该市居民能否做到‘光盘’与性别有关”.5.为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:有________以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”. 解析:由2×2列联表可知,K 2=100×(25×30-10×35)240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.答案:90%6.随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:则y 关于t 的回归方程是________________.解析:由表中数据得n =5,t =1n ∑i =1n t i =155=3,y =1n ∑i =1n y i =365=7.2.又∑i =1nt 2i -n t 2=55-5×32=10, ∑i =1nt i y i -n t y =120-5×3×7.2=12.从而b ^=∑i =1nt i y i -n t y ∑i =1nt 2i -n t2=1210=1.2, a ^=y -b ^t =7.2-1.2×3=3.6, 故所求回归方程为y ^=1.2t +3.6. 答案:y ^=1.2t +3.67.某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (万元)和销售量y (万台)的数据如下:(2)若用y =c +d x 模型拟合y 与x 的关系,可得回归方程y ^=1.63+0.99x ,经计算线性回归模型和该模型的R 2分别约为0.75和0.88,请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x .根据(2)的结果,求当广告费x =20时,销售量及利润的预报值.参考公式:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计分别为b ^=∑i =1nx i y i -n x y ∑i =1nx 2i -n x2=∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2,a ^=y -b ^x .参考数据:5≈2.24.解:(1)∵x =8,y =4.2,∑i =17x i y i =279.4,∑i =17x 2i =708,∴b ^=∑i =17x i y i -7x y∑i =17x 2i -7x2=279.4-7×8×4.2708-7×82=0.17,a ^=y -b ^x =4.2-0.17×8=2.84, ∴y 关于x 的线性回归方程为y ^=0.17x +2.84.(2)∵0.75<0.88且R 2越大,反映残差平方和越小,模型的拟合效果越好, ∴选用y ^=1.63+0.99x 更好.(3)由(2)知,当x =20时,销售量的预报值y ^=1.63+0.9920≈6.07(万台),利润的预报值z =200×(1.63+0.9920)-20≈1 193.04(万元).B 级1.(2018·江门一模)为探索课堂教学改革,江门某中学数学老师用“传统教学”和“导学案”两种教学方式分别在甲、乙两个平行班进行教学实验.为了解教学效果,期末考试后,分别从两个班级各随机抽取20名学生的成绩进行统计,得到如下茎叶图.记成绩不低于70分者为“成绩优良”.(1)请大致判断哪种教学方式的教学效果更佳,并说明理由;(2)构造一个教学方式与成绩优良的2×2列联表,并判断能否在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .临界值表:解:(1)“理由1:乙班样本数学成绩大多在70分以上,甲班样本数学成绩70分以下的明显更多. 理由2:甲班样本数学成绩的平均分为70.2;乙班样本数学成绩的平均分为79.05. 理由3:甲班样本数学成绩的中位数为68+722=70,乙班样本数学成绩的中位数为77+782=77.5. (2)2×2列联表如下:由上表数据可得K 2=40×(10×4-10×16)20×20×26×14≈3.956>3.841,所以能在犯错误的概率不超过0.05的前提下认为“成绩优良与教学方式有关”.2.(2019·广州调研)某基地蔬菜大棚采用无土栽培方式种植各类蔬菜.过去50周的资料显示,该地周光照量X (单位:小时)都在30小时以上,其中不足50小时的有5周,不低于50小时且不超过70小时的有35周,超过70小时的有10周.根据统计,该基地的西红柿增加量y (千克)与使用某种液体肥料的质量x (千克)之间的对应数据为如图所示的折线图.(1)依据折线图计算相关系数r (精确到0.01),并据此判断是否可用线性回归模型拟合y 与x 的关系;(若|r |>0.75,则线性相关程度很高,可用线性回归模型拟合)(2)蔬菜大棚对光照要求较高,某光照控制仪商家为该基地提供了部分光照控制仪,但每周光照控制仪运行台数受周光照量X 限制,并有如下关系:元;若某台光照控制仪未运行,则该台光照控制仪周亏损1 000元.若商家安装了3台光照控制仪,求商家在过去50周的周总利润的平均值.相关系数公式:r =∑i =1n(x i -x )(y i -y )∑i =1n(x i -x )2∑i =1n(y i -y )2,参考数据:0.3≈0.55,0.9≈0.95.解:(1)由已知数据可得x =2+4+5+6+85=5,y =3+4+4+4+55=4.因为∑i =15(x i -x )(y i -y )=(-3)×(-1)+0+0+0+3×1=6,∑i =15(x i -x )2=(-3)2+(-1)2+02+12+32=25,∑i =15(y i -y )2=(-1)2+02+02+02+12=2,所以相关系数r =∑i =15(x i -x )(y i -y )∑i =15(x i -x )2∑i =15(y i -y )2=625×2=0.9≈0.95. 因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系. (2)由条件可得在过去50周里,当X >70时,共有10周,此时只有1台光照控制仪运行, 每周的周总利润为1×3 000-2×1 000=1 000(元). 当50≤X ≤70时,共有35周,此时有2台光照控制仪运行, 每周的周总利润为2×3 000-1×1 000=5 000(元). 当30<X <50时,共有5周,此时3台光照控制仪都运行, 每周的周总利润为3×3 000=9 000(元). 所以过去50周的周总利润的平均值为 1 000×10+5 000×35+9 000×550=4 600(元),所以商家在过去50周的周总利润的平均值为4 600元.。
高考数学知识点:变量间的相关关系-统计案例2016-04-22 15:15一、变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.典型例题1:某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.2.由回归方程进行预报,仅是一个预报值,而不是真实发生的值.3.使用K2统计量作2×2列联表的独立性检验时,要求表中的4个数据都要大于5,在选取样本容量时一定要注意.二、两个变量的线性相关1.从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.2.回归方程为3.求最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.4.相关系数,当r>0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.典型例题2:1.相关关系的判断方法一是利用散点图直观判断,二是利用相关系数作出判断.2.对于由散点图作出相关性判断时,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性.3.由相关系数r判断时|r|越趋近于1相关性越强.三、独立性检验典型例题3:。
1122211()()()n ni i i i i i n ni ii i x x y y x y nx y b x x x nx a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑学 校: 年 级: 教学课题:统计案例 学员姓名: 辅导科目:数学 学科教师:王光明教学目标 变量间的相关关系与统计案例教学内容考情分析从近三年高考试题分析,高考对本部分的考察多以散点图和相关关系为主,另外对线性回归方程与独立性检验在实际应用中的考察。
基础知识1.两个变量的线性相关:(1)正相关:在散点图中,点散布在从左下角到右上角的区域.对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线:如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.2.最小二乘法:求回归直线使得样本数据的点到回归直线的距离的平方和最小的方法.3.回归方程方程ˆybx a =+是两个具有线性相关关系的变量的一组数据1122(,),(,),(,)n n x y x y x y 的回归方程,其中 4.回归分析的基本思想及其初步应用 (1)回归分析是对具有相关关系的两个 变量进行统计分析的方法,其常用的 研究方法步骤是画出散点图,求出回归直线方程,并利用回归直线方程进行预报.(2)对n 个样本数据(x 1,y 1)、(x 2,y 2)、…、(xn ,yn ),(,)x y 称为样本点的中心. (3)除用散点图外,还可以用样本相关系数r 来衡量两个变量x ,y 相关关系的强弱,1222211()()ni ii nni i i i x y nx yr x nx y n y ===-•=--∑∑∑当r >0,表明两个变量正相关,当r <0,表明两个变量负相关,r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |0.75>时,认为这两个变量具有很强的线性相关关系.5、用相关指数2R 来刻画回归的效果,公式是22121()1()niii nii y y R y y ==-=--∑∑2R的值越大,说明残差平方和越小,也就是说模型拟合效果好5.独立性检验的基本思想及其初步应用(1)若变量的不同“值”表示个体所属的不同类型,则这类变量称为分类变量.(2)列出的两个分类变量的频数表,称为列联表.(3)利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验独立性检验公式2K=2()()()()()n ad bca b a c b d c d-++++注意事项1.(1)函数关系是一种确定的关系,相关关系是一种非确定的关系.事实上,函数关系是两个非随机变量的关系,而相关关系是非随机变量与随机变量的关系.(2)当K2≥3.841时,则有95%的把握说事A与B有关;当K2≥6.635时,则有99%的把握说事件A与B有关;当K2≤2.706时,则认为事件A与B无关.2.(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则,求出的回归直线方程毫无意义.(2)线性回归方程中的截距和斜率都是通过样本数据估计而来的,存在误差,这种误差会导致预报结果的偏差;而且回归方程只适用于我们所研究的样本总体.(3)独立性检验的随机变量K2=3.841是判断是否有关系的临界值,K2≤3.841应判断为没有充分证据显示事件A与B有关系,而不能作为小于95%的量化值来判断.题型一相关关系的判断【例1】对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )A. r2<r4<0<r3<r1B. r4<r2<0<r1<r3C. r4<r2<0<r3<r1D. r2<r4<0<r1<r3答案:A解析:由相关系数的定义以及散点图所表达的含义可知r 2<r 4<0<r 3<r 1.故选A.【变式1】 根据两个变量x ,y 之间的观测数据画成散点图如图所示,这两个变量是否具有线性相关关系________(填“是”与“否”).[来源:学科网]解析 从散点图看,散点图的分布成团状,无任何规律,所以两个变量不具有线性相关关系. 答案 否题型二 独立性检验【例2】通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线 20 30 50 总计60 50110由K 2=n ad -dc 2a +bc +d a +cb +d,算得K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828对照附表,得到的正确结论是( )A. 有99%以上的把握认为“选择过马路的方式与性别有关”B. 有99%以上的把握认为“选择过马路的方式与性别无关”C. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D. 在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关”答案:A解析:∵K2=110×40×30-20×20260×50×60×50≈7.8>6.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.【变式2】某企业有两个分厂生产某种零件,按规定内径尺寸(单位:mm)的值落在[29.94,30.06)的零件为优质品.从两个分厂生产的零件中各抽出了500件,量其内径尺寸,得结果如下表:甲厂:分组[29.86,29.90)[29.90,29.94)[29.94,29.98)[29.98,30.02)[30.02,30.06)[30.06,30.10)[30.10,30.14)频数1263861829261 4 乙厂:分组[29.86,29.90)[来源:学。
第二节
变量的相关性与统计案例
[考纲要求]
1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).
3.了解回归分析的思想、方法及其简单应用.4.了解独立性检验的思想、方法及其初步应用.
突破点一
回归分析
[基本知识]
1.变量间的相关关系
(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.
(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.
2.两个变量的线性相关回归直线
从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线回归方程
回归方程为y ^=b ^x +a ^,其中b ^=错误!,a ^=y --b ^x
-
最小二乘法
通过求错误!的最小值而得到回归直线的方法,即使得样本数据的点到回归直
线的距离的平方和最小,这一方法叫做最小二乘法
相关系数
当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.
r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性
[基本能力]
一、判断题(对的打“√”,错的打“×”)
(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.(
)
(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.()
(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.()
答案:(1)×
(2)√
(3)√
二、填空题
1.已知x ,y 的取值如下表,从散点图可以看出y 与x 具有线性相关关系,且回归方程为y ^=0.95x +a ^,则a ^
=________.
x 0134y
2.2
4.3
4.8
6.7
答案:2.6
2.两个变量y 与x 的回归模型中,分别选择了4个不同模型,经计算得到它们的相关系数r 的值如下表,其中拟合效果最好的模型是________.
模型模型1模型2模型3模型4r
0.98
0.80
0.50
0.25
答案:模型1
3.已知变量x ,y 之间具有线性相关关系,其回归方程为y ^=-3+b ^
x ,若错误!i =17,
错误!i =4,则b ^
的值为________.
答案:2
[全析考法]
考法一相关关系的判断
[例1]
(1)(2019·福建泉州月考)在下列各图中,两个变量具有相关关系的图是(
)
A .①②
B .①③
C .②③
D .②④
(2)(2019·昆明一中一模)若对于变量x 的取值为3,4,5,6,7时,变量y 对应的值依次分别为4.0,2.5,-0.5,-1,-2;若对于变量u 的取值为1,2,3,4时,变量v 对应的值依次分别为2,3,4,6,则变量x 和y ,变量u 和v 的相关关系是(
)
A .变量x 和y 是正相关,变量u 和v 是正相关
B .变量x 和y 是正相关,变量u 和v 是负相关
C .变量x 和y 是负相关,变量u 和v 是负相关。