2021版高考数学一轮复习 第十一章 统计与统计案例 第3讲 变量间的相关关系、统计案例教案 文 新人教A版
- 格式:doc
- 大小:2.96 MB
- 文档页数:16
2021届高考数学一轮复习第十一章统计与统计案例算法课时跟踪训练58变量间的相关关系统计案例文20210724352[基础巩固]一、选择题1.如图是一容量为100的样本质量的频率分布直方图,样本质量均在[5,20]内,其分组为[5,10),[10,15),[15,20],则样本质量落在[15,20]内的频数为( )A.10 B.20C.30 D.40[解析]由题意得组距为5,故样本质量在[5,10),[10,15)内的频率分别为0.3和0.5,因此样本质量在[15,20]内的频率为1-0.3-0.5=0.2,频数为100×0.2=20,故选B.[答案] B2.(2020·重庆卷)重庆市2020年各月的平均气温(℃)数据的茎叶图如下:则这组数据的中位数是( )A.19 B.20 C.21.5 D.23[解析] 由茎叶图知,该组数据的中位数为20+202=20,故选B.[答案] B3.(2021·全国卷Ⅲ)某旅行都市为向游客介绍本地的气温情形,绘制了一年中各月平均最高气温顺平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15℃,B 点表示四月的平均最低气温约为5℃.下面叙述不正确的是( )A .各月的平均最低气温都在0℃以上B .七月的平均温差比一月的平均温差大C .三月和十一月的平均最高气温差不多相同D .平均最高气温高于20℃的月份有5个[解析] 由图可知平均最高气温高于20℃的月份为六月、七月和八月,有3个,因此选项D 不正确.故选D.[答案] D4.(2020·安徽卷)若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1,2x 2-1,…,2x 10-1的标准差为( )A .8B .15C .16D .32[解析] 令y i =2x i -1(i =1,2,3,…,10),则σ(y )=2σ(x )=16. [答案] C5.(2021·温州八校联考)如图所示是一容量为100的样本的频率分布直方图,则由图形中的数据,可知其中位数为( )A .12.5B .13C .13.5D .14[解析] 中位数是把频率分布直方图分成两个面积相等部分的平行于纵轴的直线横坐标,第一个矩形的面积是0.2,第二个矩形的面积是0.5,第三个矩形的面积是0.3,故将第二个矩形分成3∶2即可,∴中位数是13.[答案] B6.将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:则7个剩余分数的方差为( ) A.1169 B.367 C .36 D.677[解析] 由题意知87+94+90+91+90+90+x +917=91,解得x =4.因此s 2=17[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2]=17(16+9+1+0+1+9+0)=367.[答案] B 二、填空题7.依照某市环境爱护局公布2010~2020这六年每年的空气质量优良的天数,绘制折线图如图.依照图中信息可知,这六年每年的空气质量优良天数的中位数是________.[解析] 由折线图可知空气质量优良天数从小到大排列为290,300,310,320,320,340,故其中位数为310+3202=315.[答案] 3158.2021年端午节期间,为确保交通安全,某市交警大队调取市区某路口监控设备记录的18:00~20:00该路口220辆汽车通过的速度,其频率分布直方图如图所示,其中a ,c 的等差中项为b ,且a ,b 的等差中项为0.010.已知该路口限速90 km/h ,则这些车辆中超速行驶的约有__________辆.[解析] 由题意得,⎩⎪⎨⎪⎧a +c =2b ,a +b =2×0.010,a +2b +c =0.1-0.010+0.030,解得⎩⎪⎨⎪⎧a =0.005,b =0.015,c =0.025.因此汽车行驶速度超过90 km/h 的频率为10a =0.05,故汽车行驶速度超过90 km/h 的大约有220×0.05=11(辆).[答案] 119.已知总体的各个个体的值由小到大依次为3,7,a ,b,17,20,且总体的中位数为12,若要使该总体的标准差最小,则a =________.[解析] 总体的中位数为a +b2=12,即a +b =24,数据是从小到大排列的,7≤a ≤b ≤17,又总体的标准差最小,∴a =b =12.[答案] 12 三、解答题10.(2020·广东卷)某都市100户居民的月平均用电量(单位:度),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x 的值;(2)求月平均用电量的众数和中位数;(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240)的用户中应抽取多少户?[解] (1)由(0.002+0.0095+0.011+0.0125+x +0.005+0.0025)×20=1得x =0.0075,∴直方图中x 的值为0.0075.(2)月平均用电量的众数是220+2402=230.∵(0.002+0.0095+0.011)×20=0.45<0.5,∴月平均用电量的中位数在[220,240)内,设中位数为a ,则(0.002+0.0095+0.011)×20+0.0125×(a -220)=0.5,解得a =224,即中位数为224.(3)月平均用电量在[220,240)的用户有0.0125×20×100=25(户),同理可求月平均用电量为[240,260),[260,280),[280,300]的用户分别为15户、10户、5户,故抽取比例为1125+15+10+5=15,∴从月平均用电量在[220,240)的用户中应抽取25×15=5(户).[能力提升]11.甲、乙两人在一次射击竞赛中各射靶5次,两人成绩的条形统计图如图所示,则( )A .甲的成绩的平均数小于乙的成绩的平均数B .甲的成绩的中位数等于乙的成绩的中位数C .甲的成绩的方差小于乙的成绩的方差D .甲的成绩的极差小于乙的成绩的极差[解析] 由题意可知,甲的成绩为4,5,6,7,8,乙的成绩为5,5,5,6,9.因此甲、乙的成绩的平均数均为6,A 错;甲、乙的成绩的中位数分别为6,5,B 错误;甲、乙的成绩的方差分别为15×[(4-6)2+(5-6)2+(6-6)2+(7-6)2+(8-6)2]=2,15×[(5-6)2+(5-6)2+(5-6)2+(6-6)2+(9-6)2]=125,C 对;甲、乙的成绩的极差均为4,D 错. [答案] C12.某参赛队预备在甲、乙两名球员中选一人参加竞赛.如图所示的茎叶图记录了一段时刻内甲、乙两人训练过程中的成绩,若甲、乙两名球员的平均成绩分别是x 1、x 2,则下列结论正确的是( )A.x 1>x 2,选甲参加更合适 B .x 1>x 2,选乙参加更合适 C .x 1=x 2,选甲参加更合适 D .x 1=x 2,选乙参加更合适[解析] 依照茎叶图可得甲、乙两人的平均成绩分别为x 1≈31.67,x 2≈24.17,从茎叶图来看,甲的成绩比较集中,而乙的成绩比较分散,因此甲发挥得更稳固,选甲参加竞赛更合适,故选A.[答案] A13.(2021·北京卷)某市居民用水拟实行阶梯水价,每人月用水量中不超过w 立方米的部分按4元/立方米收费,超出w 立方米的部分按10元/立方米收费,从该市随机调查了10000位居民,获得了他们某月的用水量数据,整理得到如下频率分布直方图:(1)假如w为整数,那么依照此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个数据用该组区间的右端点值代替,当w=3时,估量该市居民该月的人均水费.[解](1)由用水量的频率分布直方图知,该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15,因此该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得居民该月用水费用的数据分组与频率分布表:组号12345678分组[2,4](4,6](6,8](8,10](10,12](12,17](17,22](22,27] 频率0.10.150.20.250.150.050.050.054×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).14.2017年8月22日金乡县首届“诚信文艺奖”评选暨2021“百姓大舞台”第一季大型才艺大赛决赛在红星美凯龙举行.在竞赛现场,12名专业人士和12名观众代表分别组成评判小组A,B,给参赛选手打分,如图是两个评判组对同一选手打分的茎叶图:(1)求A 组数据的众数和极差,B 组数据的中位数;(2)对每一组运算用于衡量相似性的数值,回答:小组A 与小组B 哪一个更像是由专业人士组成的?并说明理由.[解] (1)由茎叶图可得:A 组数据的众数为47,极差为55-42=13;B 组数据的中位数为55+582=56.5. (2)小组A 更像是由专业人士组成的.理由如下: 小组A ,B 数据的平均数分别为x A =112×(42+42+44+45+46+47+47+47+49+50+50+55)=56412=47, x B =112×(36+42+46+47+49+55+58+62+66+68+70+73)=67212=56, 因此小组A ,B 数据的方差分别为s 2A =112×[(42-47)2+(42-47)2+…+(55-47)2]=112×(25+25+9+4+1+4+9+9+64)=12.5,s 2B =112×[(36-56)2+(42-56)2+…+(73-56)2]=112×(400+196+100+81+49+1+4+36+100+144+196+289)=133.因为s 2A <s 2B ,因此小组A 的成员的相似程度高.由于专业裁判给分更符合专业规则,相似程度应该更高,因此小组A 更像是由专业人士组成的.。
第三节变量间的相关关系与统计案例[备考方向要明了]考什么怎么考1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.4.了解回归分析的基本思想、方法及其简单应用. 高考对本节内容的考查主要是线性回归分析和独立性检验的统计分析方法,三种题型都有可能出现,难度中档,如2012年湖南T4,辽宁T19等.[归纳·知识整合]1.两个变量的线性相关(1)正相关:在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)负相关:在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)线性相关关系、回归直线如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.[探究] 相关关系和函数关系有何异同点?提示:(1)相同点:两者均是指两个变量的关系.(2)不同点:①函数关系是一种确定的关系,而相关关系是一种非确定的关系.②函数关系是一种因果关系,而相关关系不一定是因果关系,也可能是伴随关系.2.回归方程(1)最小二乘法:求回归直线使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法. (2)回归方程:方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.⎩⎪⎨⎪⎧b ^=∑i =1n x i -x -y i -y-∑i =1n x i -x-2=∑i =1nx i y i -n x -y-∑i =1nx 2i -n x -2,a ^=y --b ^x -.3.残差分析(1)残差:对于样本点(x 1,y 1),(x 2,y 2),…,(x n ,y n ),它们的随机误差为e i =y i -bx i-a ,i =1,2,…,n ,其估计值为e ^i =y i -y ^i =y i -b ^x i -a ^,i =1,2,…,n ,e ^i 称为相应于点(x i ,y i )的残差.(2)相关指数R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y-2, R 2越大,意味着残差平方和越小,即模型的拟合效果越好;R 2越小,残差平方和越大,即模型的拟合效果越差.在线性回归模型中,R 2表示解释变量对于预报变量变化的贡献率,R 2越接近于1,表示回归的效果越好.4.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. (2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表:y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +dK 2=n ad -bc 2a +ba +cb +dc +d(其中n =a +b +c +d 为样本容量),则利用独立性检验判断表来判断“X 与Y 的关系”.[自测·牛刀小试]1.下列结论正确的是( ) ①函数关系是一种确定性关系; ②相关关系是一种非确定性关系;③回归分析是对具有函数关系的两个变量进行统计分析的一种方法; ④回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法. A .①② B .①②③ C .①②④D .①②③④解析:选C 由回归分析的方法及概念判断.2.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y =0.95x +a ,则a =( )A.3.25 C .2.2D .0解析:选B x =2,y =4.5,因为回归方程经过点(x ,y ),所以a =4.5-0.95×2=2.6.3.工人月工资y (元)关于劳动生产率x (千元)的回归方程为y =650+80x ,下列说法中正确的个数是( )①劳动生产率为1 000元时,工资为730元; ②劳动生产率提高1 000元,则工资提高80元; ③劳动生产率提高1 000元,则工资提高730元; ④当月工资为810元时,劳动生产率约为2 000元. A .1 B .2 C .3D .4解析:选C 将数据代入方程计算可判断①②④正确.4.一位母亲记录了自己儿子3~9岁的身高数据(略),由此建立的身高与年龄的回归模型为y ^=7.19x +73.93,用这个模型预测这个孩子10岁时的身高,则正确的叙述是( )A .身高一定是145.83 cmB .身高在145.83 cm 以上C .身高在145.83 cm 左右D .身高在145.83 cm 以下解析:选C 用回归模型y ^=7.19x +73.93,只能作预测,其结果不一定是一个确定值.5.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A.若K2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病B.从独立性检验可知,有99%的把握认为吸烟与患肺病有关时,我们说某人吸烟,那么他有99%的可能患有肺病C.若从统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D.以上三种说法都不正确解析:选C 根据独立性检验的思想知.相关关系的判断[例1] 在某地区的12~30岁居民中随机抽取了10个人的身高和体重的统计资料如表:身高(cm)143156159172165体重(kg)4149617968身高(cm)171177161164160体重(kg)6974696854根据上述数据,画出散点图并判断居民的身高和体重之间是否有相关关系.[自主解答] 以x轴表示身高,y轴表示体重,可得到相应的散点图如图所示.由散点图可知,两者之间具有相关关系,且为正相关.———————————————————利用散点图判断相关关系的技巧(1)在散点图中如果所有的样本点都落在某一函数的曲线上,就用该函数来描述变量间的关系,即变量之间具有函数关系.(2)如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.(3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.1.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解析:选C 对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0,所以有r 2<0<r 1.线性回归方程及其应用[例2] 某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x (元) 8 8.2 8.4 8.6 8.8 9 销量y (件)908483807568(1)求回归直线方程y ^=bx +a ,其中b =-20,a =y --b x -;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)[自主解答] (1)由于x =16(x 1+x 2+x 3+x 4+x 5+x 6)=8.5,y =16(y 1+y 2+y 3+y 4+y 5+y 6)=80.所以a =y -b x =80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得L =x (-20x +250)-4(-20x +250)=-20x 2+330x -1 000=-20⎝⎛⎭⎪⎫x -3342+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润. ———————————————————求回归直线方程时的注意点求回归方程,关键在于正确求出系数a ,b ,由于计算量较大,所以计算时要仔细谨慎,避免因计算产生失误,特别注意,只有在散点图大体呈线性时,求出的回归方程才有意义.2.某种产品的广告费支出x 与销售额(单位:百万元)之间有如下对应数据:x 2 4 5 6 8 y3040506070如果y 与x 之间具有线性相关关系. (1)作出这些数据的散点图; (2)求这些数据的线性回归方程;(3)预测当广告费支出为9百万元时的销售额. 解:(1)(2)x =5,y =50,∑i =15x i y i =1 390,∑i =15x 2i =145,b ^=∑i =15x i y i -5x·y∑i =15x 2i -5x -2=7, a ^=y --b ^x -=15,∴线性回归方程为y ^=7x +15. (3)当x =9时,y ^=78.即当广告费支出为9百万元时,销售额为78百万元.独立性检验的基本思想及其应用[例3] (2012·湖南衡阳第二次联考)衡阳市第一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的2×2列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.优秀 非优秀 合计 甲班 10乙班 30合计110(1)请完成上面的列联表;(2)根据列表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”; 参考公式与临界值表:K 2=n ad -bc 2a +bc +d a +cb +dP (K 2≥k 0)0.100 0.050 0.025 0.010 0.001 k 02.7063.8415.0246.63510.828[自主解答] (1)列联表如下:优秀 非优秀 合计 甲班 10 50 60 乙班 20 30 50 合计3080110(2)根据列联表中的数据,得到K 2=110×10×30-20×50260×50×30×80≈7.486<10.828.因此按99.9%的可靠性要求,不能认为“成绩与班级有关系”. ———————————————————独立性检验的步骤(1)根据样本数据制成2×2列联表. (2)根据公式K 2=n ad -bc 2a +ba +cb +dc +d计算K 2的观测值.(3)比较K 2与临界值的大小关系作统计推断.3.地震、海啸、洪水、森林大火等自然灾害频繁出现,紧急避险常识越来越引起人们的重视,某校为了了解学生对紧急避险常识的了解情况,从七年级和八年级各选取100名同学进行紧急避险常识知识竞赛.图(1)和图(2)分别是对七年级和八年级参加竞赛的学生成绩按[40,50),[50,60),[60,70),[70,80]分组,得到的频率分布直方图.(1)分别计算参加这次知识竞赛的两个年级学生的平均成绩(注:统计方法中,同一组数据常用该组区间的中点值作为代表);(2)完成下面2×2列联表,并回答是否有99%的把握认为“两个年级学生对紧急避险常识的了解有差异”?成绩小于60分人数成绩不小于60分人数合计 七年级 八年级 合计附:K 2=n ad -bc 2a +bc +d a +c b +d.临界值表: P (K 2≥k )0.10 0.05 0.010 k2.7063.8416.635解:(1)七年级学生竞赛平均成绩为(45×30+55×40+65×20+75×10)÷100=56, 八年级学生竞赛平均成绩为(45×15+55×35+65×35+75×15)÷100=60. (2)2×2列联表如下:成绩小于60分人数成绩不小于60分人数合计 七年级 70 30 100 八年级 50 50 100 合计12080200∴K 2=200×50×70-50×302100×100×120×80≈8.333>6.635.∴有99%的把握认为“两个年级学生对紧急避险常识的了解有差异”.1种求法——相关关系的判定和线性回归方程的求法(1)函数关系一种理想的关系模型,而相关关系是一种更为一般的情况.(2)如果两个变量不具有线性相关关系,即使求出回归直线方程也毫无意义,而且用其进行估计和预测也是不可信的.(3)回归直线方程只适用于我们所研究的样本的总体.样本的取值范围一般不超过回归直线方程的适用范围,否则就没有实用价值.1个难点——独立性检验思想的理解独立性检验的思想类似于反证法,即要确定“两个变量X和Y有关系”这一结论成立的可信度,首先假设结论不成立,即它们之间没关系,也就是它们是相互独立的,利用概率的乘法公式可推知,(ad-bc)接近于零,也就是随机变量K2=n ad-bc2应该很小,如果计算出的K2的观测值k不是很小,通a+b c+d a+c b+d过查表P(K2≥k0)的概率很小.又根据小概率事件不可能发生,由此判断假设不成立,从而可以肯定地断言X与Y之间有关系.答题模板——概率与统计的综合问题[典例] (2012辽宁高考改编·满分12分)电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2×2列联表,并据此资料判断是否有95%的把握认为“体育迷”与性别有关?非体育迷体育迷合计男女合计(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性,若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附K 2=n ad -bc 2a +bc +d a +cb +d, P (K 2≥k )0.050.01 k3.8416.635[快速规范审题]第(1)问1.审条件,挖解题信息观察条件:100名观众收看节目时间的频率分布直方图及日均收看时间不低于40分钟的观众称为体育迷,女体育迷10名―――――――→借助直方图可确定非体育迷及体育迷人数 2.审结论,明确解题方向观察所求结论:完成2×2列联表并判断“体育迷”与性别的相关性――――→需要确定a ,b ,c ,d 及K 2的值3.建联系,找解题突破口由直方图及条件确定体育迷与非体育迷人数―→完成列联表―→计算K 2可判断结论 第(2)问1.审条件,挖解题信息观察条件:―→确定“超级体育迷”标准且有2名女性“超级体育迷”―――――――→由频率分布直方图 确定“超级体育迷”的人数 2.审结论,明确解题方向观察结论:―→从“超级体育迷”中任取2人求至少有1名女性观众的概率―――――→分类分析1名女性观众或两名女性观众3.建联系,找解题突破口由频率分布直方图确定“超级体育迷”的人数―――――――→列举法列举出 所有基本事件并计数为n 和至少有1名女性的基本事件,计数为m mP n=−−−−→代入求概率 [准确规范答题](1)由频率分布直方图可知,在抽取的100人中,“体育迷”有25人,从而完成2×2列联表如下:非体育迷体育迷合计男301545女451055合计7525100 ⇨(3分)将2×2列联表中的数据代入公式计算,得K2=100×30×10-45×152 75×25×45×55=10033≈3.030.因为3.030<3.841,所以我们没有95%的把握认为“体育迷”与性别有关.⇨(6分)(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件为(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2),其中a i表示男性,i=1,2,3,b j表示女性,j=1,2.⇨(9分)由10个基本事件组成,而且这些基本事件的出现是等可能的.用A表示“任选2人中,至少有1人是女性”这一事件,则A为(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2),⇨(11分)由7个基本事件组成,因而P(A)=710.⇨(12分)[答题模板速成] 解决概率与统计的综合问题的一般步骤:第一步⇒第二步⇒第三步⇒第四步⇒第五步⇒第六步忽视直方图纵轴表示为−−−→频率组距导致每组人数计算失误.K2的计算不准确、导致结果判断出错.1.“超级体育迷”人数计算错误导致失误.2.由5人中任取2人列举出所有可能结果时重复或遗漏某一情况导致失误.理清题意,理解问题中的条件和结论.尤其是直方图中给定的信息,找关键量 由直方图确定所需的数据,列出2×2列联表利用独立性检验的步骤进行判断确定基本事件总数及所求事件所含基本事件的个数利用概率公式求事件的概率反思回顾、检查关键点易错点及答题规范一、选择题(本大题共6小题,每小题5分,共30分) 1.下列关系中,是相关关系的为( ) ①学生的学习态度与学习成绩之间的关系; ②教师的执教水平与学生的学习成绩之间的关系; ③学生的身高与学生的学习成绩之间的关系; ④家庭的经济条件与学生的学习成绩之间的关系. A .①② B .①③ C .②③D .②④解析:选A ①中学生的学习态度与学习成绩之间不是因果关系,但具有相关性是相关关系.②教师的执教水平与学生的学习成绩之间的关系是相关关系.③④都不具备相关关系.2.(2012·新课标全国卷)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x+1上,则这组样本数据的样本相关系数为( )A .-1B .0 C.12D .1解析:选D 因为所有的点都在直线上,所以它就是确定的函数关系,所以相关系数为1.3.已知回归直线的斜率的估计值为 1.23,样本点的中心为(4,5),则回归直线方程为( )A.y ^=1.23x +4 B.y ^=1.23x +5 C.y ^=1.23x +0.08D.y ^=0.08x +1.23解析:选C 因回归直线方程必过样本点的中心(x ,y ),将点(4,5)代入A 、B 、C 检验可知.4.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x (cm) 174 176 176 176 178 儿子身高y (cm)175175176177177则y 对x 的线性回归方程为( ) A .y =x -1 B .y =x +1 C .y =88+12xD .y =176 解析:选C 设y 对x 的线性回归方程为y =bx +a ,因为b =-2×-1+0×-1+0×0+0×1+2×1-22+22=12, a =176-12×176=88,所以y 对x 的线性回归方程为y =12x +88.5.有人发现,多看电视容易使人变冷漠,下表是一个调查机构对此现象的调查结果:冷漠 不冷漠 总计 多看电视 68 42 110 少看电视 20 38 58 总计8880168A .99%B .97.5%C .95%D .90%解析:选A 可计算K 2≈11.377>6.635.6.通过随机询问110名性别不同的行人,对过马路是愿意走斑马线还是愿意走人行天桥进行抽样调查,得到如下的列联表:男 女 总计 走天桥 40 20 60 走斑马线203050总计60 50 110由K 2=n ad -bc 2a +bc +d a +cb +d,算得K 2=110×40×30-20×20260×50×60×50≈7.8.附表:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828对照附表,得到的正确结论是( )A .有99%以上的把握认为“选择过马路的方式与性别有关”B .有99%以上的把握认为“选择过马路的方式与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“选择过马路的方式与性别无关” 解析:选A ∵K 2=110×40×30-20×20260×50×60×50≈7.8>6.635,∴有99%以上的把握认为“选择过马路的方式与性别有关”.二、填空题(本大题共3小题,每小题5分,共15分)7.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的线性回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加________万元.解析:x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2458.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系:时间x 1 2 3 4 5 命中率y0.40.50.60.60.4小李这5天的平均投篮命中率为________;用线性回归分析的方法,预测小李该月6号打6小时篮球的投篮命中率为________.解析:平均命中率y =15×(0.4+0.5+0.6+0.6+0.4)=0.5;而x =3, i =15(x i -x )(y i -y )=(-2)×(-0.1)+(-1)×0+0×0.1+1×0.1+2×(-0.1)=0.1,∑i =15(x i-x )2=(-2)2+(-1)2+02+12+22=10,于是b ^=0.01,a ^=y -b ^x =0.47,故y ^=0.01x+0.47,令x =6,得y ^=0.53.答案:0.5 0.539.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科 文科 男 13 10 女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025. 根据表中数据,得到K 2=50×13×20-10×7223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.解析:k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%三、解答题(本大题共3小题,每小题12分,共36分) 10.已知x ,y 的一组数据如下表:x 1 3 6 7 8 y12345(1)从x ,y (2)对于表中数据,甲、乙两同学给出的拟合直线分别为y =13x +1与y =12x +12,试利用“最小平方法(也称最小二乘法)”判断哪条直线拟合程度更好.解:(1)从x ,y 中各取一个数组成数对(x ,y ),共有25对,其中满足x +y ≥10的有(6,4),(6,5),(7,3),(7,4),(7,5),(8,2),(8,3),(8,4),(8,5),共9对.故所求概率P =925.(2)用y =13x +1作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 1=⎝ ⎛⎭⎪⎫43-12+(2-2)2+(3-3)2+⎝ ⎛⎭⎪⎫103-42+⎝ ⎛⎭⎪⎫113-52=73.用y =12x +12作为拟合直线时,所得y 值与y 的实际值的差的平方和为S 2=(1-1)2+(2-2)2+⎝ ⎛⎭⎪⎫72-32+(4-4)2+⎝ ⎛⎭⎪⎫92-52=12.∵S 2<S 1,∴直线y =12x +12的拟合程度更好.11.为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x 、物理成绩y 进行分析.下面是该生7次考试的成绩.数学 88 83 117 92 108 100 112 物理949110896104101106(1)他的数学成绩与物理成绩哪个更稳定?请给出你的证明;(2)已知该生的物理成绩y 与数学成绩x 是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少?并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.(其中,数据(x i ,y i )(i =1,2,…,n )的线性回归方程为y ^=b ^x +a ^,b ^=∑i =1nx i -x-y i -y-∑i =1nx i -x-2,a ^=y --b ^x -)解:(1)∵x -=100+-12-17+17-8+8+127=100,y -=100+-6-9+8-4+4+1+67=100,∴s 2数学=9947=142.∴s 2物理=2507,∵s 2数学>s 2物理,∴该生的物理成绩更稳定. (2)由于x 与y 之间具有线性相关关系,∴b ^=i =17x i y i -7x - y-i =17x 2i -7x -2=497994=0.5, a ^=y --b ^x -=100-0.5×100=50.∴线性回归方程为y ^=0.5x +50.当y =115时,x =130. 建议:进一步加强对数学的学习,提高数学成绩的稳定性,这将有助于物理成绩的进一步提高. 12.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩后,得到如下的列联表.优秀 非优秀 总计 甲班 10乙班 30合计105已知从全部105人中随机抽取1人为优秀的概率为27.(1)请完成上面的列联表;(2)根据列联表的数据,若按95%的可靠性要求,能否认为“成绩与班级有关系”; (3)若按下面的方法从甲班优秀的学生中抽取一人:把甲班优秀的10名学生从2到11进行编号,先后两次抛掷一枚均匀的骰子,出现的点数之和为被抽取人的序号.试求抽到6号或10号的概率.附:K 2=n ad -bc 2a +bc +d a +cb +d,P (K 2≥k )0.05 0.01 k3.8416.635解:(1)优秀 非优秀 总计 甲班 10 45 55 乙班 20 30 50 合计3075105(2)根据列联表中的数据,得到 K 2=105×10×30-20×45255×50×30×75≈6.109>3.841,因此有95%的把握认为“成绩与班级有关系”.(3)设“抽到6号或10号”为事件A ,先后两次抛掷一枚均匀的骰子,出现的点数为(x ,y ),则所有的基本事件有(1,1)、(1,2)、(1,3)、…、(6,6),共36个.事件A 包含的基本事件有(1,5),(2,4),(3,3),(4,2),(5,1),(4,6),(5,5),(6,4),共8个,∴P (A )=836=29.1.观察下列各图形:其中两个变量x、y具有相关关系的图是( )A.①②B.①④C.③④D.②③解析:选C 相关关系有两种情况:所有点看上去都在一条直线附近波动,是线性相关;若所有点看上去都在某条曲线(不是一条直线)附近波动,是非线性相关.①②是不相关的,而③④是相关的.2.考察黄烟经过培养液处理是否跟发生青花病有关系.调查了457株黄烟,得到下表中数据:培养液处理未处理合计青花病25210235无青花病80142222合计105352457根据表中数据可知K2=( )A.40.682 B.31.64C.45.331 D.41.61解析:选D 代入K2公式得K2≈41.61.3.某电脑公司有6名产品推销员,其工作年限与年推销金额的数据如下表:推销员编号1234 5工作年限x/年35679推销金额y/万元2334 5(1)以工作年限为自变量x,推销金额为因变量y,作出散点图;(2)求年推销金额y关于工作年限x的线性回归方程;(3)若第6名推销员的工作年限为11年,试估计他的年推销金额.解:(1)依题意,画出散点图如图所示,(2)从散点图可以看出,这些点大致在一条直线附近,设所求的线性回归方程为y ^=b ^x +a ^.则b ^=∑i =15x i -xy i -y-∑i =15x i -x2=1020=0.5,a ^=y -b ^x -=0.4, ∴年推销金额y 关于工作年限x 的线性回归方程为 y ^=0.5x +0.4.(3)由(2)可知,当x =11时, y ^=0.5x +0.4=0.5×11+0.4=5.9(万元).∴可以估计第6名推销员的年推销金额为5.9万元.4.冶炼某种金属可以用旧设备和改造后的新设备,为了检验用这两种设备生产的产品中所含杂质的关系,调查结果如下表所示:杂质高 杂质低 旧设备 37 121 新设备22202根据以上数据试判断含杂质的高低与设备改造有无关系? 解:由已知数据得到如下2×2列联表:杂质高 杂质低 合计 旧设备 37 121 158 新设备 22 202 224 合计59323382由公式K 2=382×37×202-121×222158×224×59×323≈13.11,由于13.11>10.828,故有99.9%的把握认为含杂质的高低与设备改造是有关的.附:什么样的考试心态最好大部分学生都不敢掉以轻心,因此会出现很多过度焦虑。
第3讲 变量间的相关关系、统计案例1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系. 2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=,a ^=y --b ^x -.(4)相关系数当r >0时,说明两个变量正相关; 当r <0时,说明两个变量负相关.r 的绝对值越接近于1,说明两个变量的线性相关性越强.r 的绝对值越接近于0,说明两个变量之间几乎不存在线性相关关系,通常|r |大于时,认为两个变量有很强的线性相关性. 3.独立性检验(1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为:y 1 y 2 总计x 1 a b a +b x 2c d c +d 总计a +cb +da +b +c +d(2)K 2统计量K 2=n 〔ad -bc 〕2〔a +b 〕〔c +d 〕〔a +c 〕〔b +d 〕(其中n =a +b +c +d 为样本容量).判断正误(正确的打“√〞,错误的打“×〞)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( )(3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 的关系越密切,由观测数据计算得到的K 2的观测值越大.( ) (5)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) 答案:(1)× (2)√ (3)√ (4)√ (5)√某商品销售量y (件)与销售价格x (元/件)负相关,那么其回归直线方程可能是( ) A.y ^=-10x +200 B.y ^=10x +200 C.y ^=-10x -200D.y ^=10x -200解析:选A.因为商品销售量y (件)与销售价格x (元/件)负相关,所以b ^<0,排除B ,D. 又因为x =0时,y >0,所以应选A.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进展独立性检验,经计算K 2,那么所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系〞.( ) 附:P (K 2≥k 0)k 04A.0.1%B .1%C .99%D .99.9%解析:选C.,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系〞. 下面是一个2×2列联表y 1 y 2总计 x 1 a21 73 x 2225 27 总计b46那么表中a 、b 处的值分别为________. 解析:因为a +21=73,所以a =52. 又因为a +2=b ,所以b =54. 答案:52、54x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^x +a ^,那么a ^=________.x 0 1 3 4 y解析:由得x -=2,y -,因为回归方程经过点(x -,y -),所以a ^=4.5-0.95×2=2.6.相关关系的判断[典例引领]变量x 和y 满足关系yx +1,变量y 与z 正相关.以下结论中正确的选项是( ) A .x 与y 正相关,x 与z 负相关 B .x 与y 正相关,x 与z 正相关 C .x 与y 负相关,x 与z 负相关 D .x 与y 负相关,x 与z 正相关【解析】 因为yx +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,那么z =b ^y +a ^b ^x +b ^+a ^,故x 与z 负相关.【答案】 C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关.(3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.[通关练习]1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C.由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,那么由散点图可判断变量x 与y 负相关,u 与v 正相关.2.某公司在2021年上半年的收入x (单位:万元)与月支出y (单位:万元)的统计资料如表所示:月份 1月份2月份3月份4月份5月份6月份 收入x 支出y根据统计资料,那么( )A .月收入的中位数是15,x 与y 有正线性相关关系B .月收入的中位数是17,x 与y 有负线性相关关系C .月收入的中位数是16,x 与y 有正线性相关关系D .月收入的中位数是16,x 与y 有负线性相关关系解析:选C.月收入的中位数是15+172=16,收入增加,支出增加,故x 与y 有正线性相关关系.线性回归方程及其应用(高频考点)线性回归问题是高考中的热点问题,考察形式可以是小题,也可以是解答题.高考中对线性回归问题的考察主要有以下三个命题角度: (1)由回归直线方程求参数值; (2)求回归直线方程; (3)利用回归方程进展预测.[典例引领]角度一 由回归直线方程求参数值(2021·高考山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.∑i =110x i =225 ∑i =110y i =1 600,b ^,据此估计其身高为( ) A .160 B .163 C .166D .170【解析】 由题意可知y ^=4x +a ^,又x -,y -=160,因此160=22.5×4+a ^,所以a ^=70,因此y ^=4xx =24时,y ^=4×24+70=96+70=166. 【答案】 C角度二、三 求回归直线方程并进展预测(2021·高考全国卷Ⅲ)以下图是我国2021年至2021年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2021-2021.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数准确到0.01),预测2021年我国生活垃圾无害化处理量. 附注:参考数据:∑i =17y i ,∑i =17t i y i =40.17,∑i =17〔y i -y -〕2=0.55,7≈2.646.参考公式:相关系数r =回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:【解】 (1)由折线图中数据和附注中参考数据得,r =错误!≈0.99.因为y 与t ,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y -=9.327≈及(1)得b ^==2.8928≈,a ^=y --b ^t ≈-0.103×4≈0.92. 所以,y 关于t 的回归方程为y ^t .将2021年对应的t =9代入回归方程得y ^=0.92+0.10×9=1.82. 所以预测2021年我国生活垃圾无害化处理量约为1.82亿吨.求回归直线方程的步骤[提醒] 利用回归直线方程进展预测是对总体的估计,此估计值不是准确值.(2021·石家庄市教学质量检测(二))为了解某地区某种农产品的年产量x (单位:吨)对价格y (单位:千元/吨)和年利润z 的影响,对近五年该农产品的年产量和价格统计如下表:x 1 2 3 4 5 y(1)求y 关于x 的线性回归方程y ^=b ^x +a ^;(2)假设每吨该农产品的本钱为2千元,假设该农产品可全部卖出,预测当年产量为多少时,年利润z 取到最大值?(保存两位小数)参考公式:b ^=∑n i =1〔x i -x -〕〔y i -y -〕∑ni =1 〔x i -x -〕2=∑ni =1x i y i -n x -y -∑n i =1x 2i -n x -2, a ^=y --b ^x -.解:(1) x -=3,y -=5,∑5i =1x i y i ,∑5i =1x 2i =55, 解得b ^,a ^, 所以y ^x .(2)年利润z =xx )-2xx 2x ,所以当x ,年利润z 最大.独立性检验[典例引领](2021·高考全国卷Ⅱ)海水养殖场进展某水产品的新、旧网箱养殖方法的产量比照,收获时各随机抽取了100 个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)设两种养殖方法的箱产量相互独立,记A 表示事件“旧养殖法的箱产量低于50 kg, 新养殖法的箱产量不低于50 kg 〞,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50 kg 箱产量≥50 kg旧养殖法 新养殖法(3)(准确到0.01). 附:P (K 2≥k )kK 2=n 〔ad 〔a +b 〕〔c +d 〕〔a +c 〕〔b +d 〕.【解】 (1)记B 表示事件“旧养殖法的箱产量低于50 kg 〞,C 表示事件“新养殖法的箱产量不低于50 kg 〞.由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为 ,故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 ,故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.409 2. (2)根据箱产量的频率分布直方图得列联表箱产量<50 kg箱产量≥50 kg旧养殖法 62 38 新养殖法3466K 2=2002100×100×96×104≈15.705.,故有99%的把握认为箱产量与养殖方法有关.(3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg ,箱产量低于55 kg的直方图面积为,故新养殖法箱产量的中位数的估计值为50+错误!≈(kg).(1)独立性检验的一般步骤①根据样本数据制成2×2列联表;②根据公式K2=n〔ad-bc〕2〔a+b〕〔c+d〕〔a+c〕〔b+d〕计算K2的值;③查表比拟K2与临界值的大小关系,作出统计判断.(2)解独立性检验的应用问题的关注点①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题.②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解K2.(2021·惠州市第三次调研考试)在某校举行的航天知识竞赛中,参与竞赛的文科生与理科生人数之比为1∶3,且成绩分布在[40,100],分数在80以上(含80)的同学获奖.按文、理科用分层抽样的方法抽取200人的成绩作为样本,得到成绩的频率分布直方图如下图.(1)求a的值,并计算所抽取样本的平均值x(同一组中的数据用该组区间的中点值作代表);(2)填写下面的2×2列联表,并判断能否有超过95%的把握认为“获奖与学生的文、理科有关〞?文科生理科生总计获奖 5不获奖总计200附表及公式:K2=2〔a+b〕〔c+d〕〔a+c〕〔b+d〕P(K2≥k0)k0解:(1)a ,x -=45×0.1+55×0.15+65×0.25+75×0.3+85×+95×0.05=69. (2)2×2列联表如下:文科生 理科生 总计 获奖 5 35 40 不获奖 45 115 160 总计50150200因为K 2=200×〔5×115-35×45〕240×160×50×150=256≈,所以有超过95%的把握认为“获奖与学生的文、理科有关〞.求回归方程,关键在于正确求出系数a ^,b ^,由于a ^,b ^的计算量大,计算时应仔细慎重,分层进展,防止因计算而产生错误.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式; (2)根据一组观测值,预测变量的取值及判断变量取值的变化趋势; (3)求出线性回归方程. 易错防范(1)回归分析中易误认为样本数据必在回归直线上,实质上回归直线必过(x ,y )点,可能所有的样本数据点都不在直线上.(2)利用回归方程分析问题时,所得的数据易误认为是准确值,而实质上是预测值(期望值).(3)独立性检验中统计量K 2的观测值k 的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.1.(2021·南昌市第一次模拟测试)为了规定工时定额,需要确定加工零件所花费的时间,为此进展了5次试验,得到5组数据(x 1,y 1),(x 2,y 2),(x 3,y 3),(x 4,y 4),(x 5,y 5).根据收集到的数据可知x 1+x 2+x 3+x 4+x 5=150,由最小二乘法求得回归直线方程为y ^x ,那么y 1+y 2+y 3+y 4+y 5的值为( )解析:选 C.由x 1+x 2+x 3+x 4+x 5=150,得x -=30,代入回归直线方程y ^x ,得y -=75,那么y 1+y 2+y 3+y 4+y 5=375.2.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:由K 2=n 〔ad -〔a +b 〕〔c +d 〕〔a +c 〕〔b +d 〕,算得K 2=110×〔40×30-20×20〕260×50×60×50≈7.8.附表:A .%的前提下,认为“爱好该项运动与性别有关〞B .%的前提下,认为“爱好该项运动与性别无关〞C .有99%以上的把握认为“爱好该项运动与性别有关〞D .有99%以上的把握认为“爱好该项运动与性别无关〞解析:选C.根据独立性检验的定义,由K 2≈,,即有99%以上的把握认为“爱好该项运动与性别有关〞,应选C.3.(2021·赣州摸底考试)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,假设所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,那么实数b 的值为________. 解析:令t =x 2,那么曲线的回归方程变为线性的回归方程,即y =bt -13,此时t =∑6i =1x 2i6=72,y =∑6i =1y i 6=136,代入y =bt -13,得136=b ×72-13,解得b =57. 答案:574.有甲、乙两个班级进展一门课程的考试,按照学生考试成绩优秀和不优秀统计后,得到如下的列联表:) 解析:成绩与班级有无关系,就是看随机变量的值与临界值2.706的大小关系. 由公式得K 2的观测值k =90×〔10×38-7×35〕217×73×45×45≈,所以成绩与班级无关.答案:无关5.(2021·广东省六校联考)某市调研考试后,某校对甲、乙两个文科班的数学考试成绩进展分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的列联表,且在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.(1)(2)根据列联表中的数据,%的可靠性要求,能否认为“成绩与班级有关系〞.参考公式与临界值表:K 2=n 〔ad -bc 〕2〔a +b 〕〔c +d 〕〔a +c 〕〔b +d 〕.解:(1)(2)K 2=110×〔10×30-20×50〕260×50×30×80≈7.486<10.828.%的可靠性要求,不能认为“成绩与班级有关系〞.6.(2021·成都市第二次诊断性检测)某项科研活动共进展了5次试验,其数据如下表所示:x 555 559 551 563 552 y601605597599598(1)从特征量y 的5次试验数据中随机地抽取两个数据,求至少有一个大于600的概率; (2)求特征量y 关于x 的线性回归方程y ^=b ^x +a ^,并预测当特征量x 为570时特征量y 的值. (附:回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=解:(1)记“至少有一个大于600〞为事件A , 那么P (A )=1-C 23C 25=710.(2)由题中表格可知,x -=555+559+551+563+5525=556,y -=601+605+597+599+5985b ^=-1×1+3×5+〔-5〕×〔-3〕+7×〔-1〕+〔-4〕×〔-2〕〔-1〕2+32+〔-5〕2+72+〔-4〕2=30100,a ^=y --b ^x -, 所以线性回归方程为y ^x +433.2. 当x =570时,y ^故特征量x 为570时,特征量y 的估计值为604.2.1.(2021·张掖市第一次诊断考试)中央政府为了应对因人口老龄化而造成的劳动力短缺等问题,拟定出台“延迟退休年龄政策〞.为了了解人们对“延迟退休年龄政策〞的态度,责成人社部进展调研.人社部从网上年龄在15~65岁的人群中随机调查100人,调查数据的频率分布直方图和支持“延迟退休〞的人数与年龄的统计结果如下:年龄 [15,25)[25,35)[35,45)[45,55)[55,65]支持“延迟 退休〞的人数155152817(1)由以上统计数据填2×2列联表,并判断是否有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策〞的支持度有差异;45岁以下45岁以上总计 支持 不支持 总计(2)假设以458人参加某项活动.现从这8人中随机抽2人.(ⅰ)抽到1人是45岁以下时,求抽到的另一人是45岁以上的概率. (ⅱ)记抽到45岁以上的人数为X ,求随机变量X 的分布列及数学期望. 参考数据:P (K 2≥k 0)k 0K 2=2〔a +b 〕〔c +d 〕〔a +c 〕〔b +d 〕解:(1)列联表如下:45岁以下45岁以上总计 支持 35 45 80 不支持 15 5 20 总计5050100因为K 2=100250×50×80×20=4,所以有95%的把握认为以45岁为分界点的不同人群对“延迟退休年龄政策〞的支持度有差异.(2)(ⅰ)抽到1人是45岁以下的概率为68=34,抽到1人是45岁以下且另一人是45岁以上的概率为C 16C 12C 28=37.故所求概率为3734=47.(ⅱ)从不支持“延迟退休〞的人中抽取8人,那么45岁以下的应抽6人,45岁以上的应抽2人.那么X =0,1,2.P (X =0)=C 26C 28=1528,P (X =1)=C 16C 12C 28=1228=37,P (X =2)=C 22C 28=128.可得随机变量X 的分布列为X 0 1 2 P152837128故E (X )=1×37+2×128=12.2.(2021·广东汕头模拟)二手车经销商小王对其所经营的A 型号二手汽车的使用年数x 与销售价格y (单位:万元/辆)进展整理,得到如下数据:使用年数x 2 3 4 567 售价y201283 z =ln y下面是z 关于x 的折线图:(1)由折线图可以看出,可以用线性回归模型拟合z 与x 的关系,请用相关系数加以说明; (2)求y 关于x 的回归方程,并预测某辆A 型号二手车当使用年数为9年时售价约为多少;(b ^、a ^小数点后保存两位有效数字)(3)基于本钱的考虑,该型号二手车的售价不得低于7 118元,请根据(2)求出的回归方程预测在收购该型号二手车时车辆的使用年数不得超过多少年.参考公式:b ^=∑ni =1〔x i -x -〕〔y i -y -〕∑ni =1〔x i -x -〕2=∑ni =1x i y i -n x -y -∑ni =1x 2i -n x -2,a ^=y --b ^x -,r =∑ni =1〔x i -x -〕〔y i -y -〕∑ni =1〔x i -x -〕2∑ni =1〔y i -y -〕2参考数据:∑6i =1x i y i ,∑6i =1x i z i ,∑6i =1x 2i =139, ∑6i =1〔x i -x -〕2≈4.18, ∑6i =1〔y i -y -〕2≈13.96, ∑6i =1〔z i -z -〕2≈≈0.38,ln 0.711 8≈-0.34. 解:(1)由题意,知x -=16×,z -=16×(3+2.48+2.08+1.86+1.48+1.10)=2,又∑6i =1x i z i ,∑6i =1〔x i -x -〕2≈, ∑6i =1〔z i -z -〕2≈, 所以r =错误!=-错误!≈,所以z 与x ,说明z 与x 的线性相关程度很高. (2)b ^=错误!=-错误!≈, 所以a ^=z --b ^x -,所以z 与x 的线性回归方程是z ^x ,又z =ln y ,所以y 关于x 的回归方程是y ^=e x.令x =9,得y ^=e =e ,因为≈,所以y ^,即预测某辆A 型号二手车当使用年数为9年时售价约为1.46万元.(3)当y ^≥0.711 8,即e x ≥0.711 8=e ln 0.711 8=e 时,x ,解得x ≤11,因此,预测在收购该型号二手车时车辆的使用年数不得超过11年.。
变量间的相关关系与统计案例在统计学中,变量之间的相关关系是一个非常重要的概念。
通过分析变量之间的相关关系,我们可以更好地理解数据之间的联系,为进一步的分析和预测提供基础。
本文将通过一些统计案例,介绍变量间相关关系的概念,并通过实际数据进行分析,帮助读者更好地理解相关关系的含义及其在实际应用中的重要性。
首先,我们需要了解什么是变量间的相关关系。
在统计学中,变量之间的相关关系是指它们之间存在的某种关联或者依存关系。
这种关系可以是正向的,也可以是负向的。
正向的相关关系意味着两个变量的数值同时增加或减少,负向的相关关系则表示一个变量的数值增加时,另一个变量的数值减少。
通过相关系数的计算,我们可以量化这种相关关系的强度和方向。
接下来,我们通过一个实际的统计案例来说明变量间相关关系的应用。
假设我们有一组数据,包括了某个城市每月的平均气温和冰淇淋销量。
我们想要分析气温和冰淇淋销量之间是否存在相关关系。
首先,我们可以通过散点图来观察两个变量之间的关系。
如果散点图呈现出一种明显的趋势,那么说明两个变量之间可能存在相关关系。
接着,我们可以通过计算相关系数来量化这种关系的强度。
最常用的相关系数是皮尔逊相关系数,它的取值范围在-1到1之间,绝对值越接近1,表示两个变量之间的相关关系越强。
在这个案例中,我们发现气温和冰淇淋销量之间存在着正向的相关关系。
也就是说,随着气温的升高,冰淇淋销量也会增加。
这个发现对于冰淇淋生产商来说是非常有用的信息,他们可以根据气温的变化来调整生产和销售策略,以更好地满足消费者的需求。
除了正向的相关关系,我们还可以遇到负向的相关关系。
比如,一个城市的降雨量和游乐园的游客数量之间可能存在负向的相关关系。
这意味着降雨量增加时,游客数量会减少。
这对于游乐园的经营者来说也是非常重要的信息,他们可以根据天气预报来调整营销策略,以减少降雨天对游客数量的影响。
通过以上案例,我们可以看到,变量间的相关关系在实际应用中具有非常重要的意义。
第3讲 变量间的相关关系、统计案例一、知识梳理 1.变量间的相关关系常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.2.两个变量的线性相关(1)从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫回归直线.(2)从散点图上看,点分布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点分布在左上角到右下角的区域内,两个变量的相关关系为负相关.(3)回归方程为y ^=b ^x +a ^,其中b ^=∑ni =1x i y i -n x y ∑n i =1 x 2i -n x 2,a ^=y -b ^x -.(4)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常|r |大于0.75时,认为两个变量有很强的线性相关性.3.独立性检验(1)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称2×2列联表)为:(2)K 2统计量K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).常用结论1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本中心点(x -,y -).2.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.3.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值. 二、习题改编1.(必修3P90例题改编)已知x 与y 之间的一组数据如表:已求得y 关于x 的线性回归方程为y ^=2.1x +0.85,则m 的值为 . 答案:0.52.(选修12P16习题1.2T2改编)为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025. 根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为 .解析:K 2的观测值k ≈4.844>3.841,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.答案:5%一、思考辨析判断正误(正确的打“√”,错误的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( ) (2)利用散点图可以直观判断两个变量的关系是否可以用线性关系表示.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 的关系越密切,由观测数据计算得到的K 2的观测值越大.( ) (5)通过回归方程y ^=b ^x +a ^可以估计和观测变量的取值和变化趋势.( ) 答案:(1)× (2)√ (3)√ (4)√ (5)√ 二、易错纠偏常见误区(1)混淆相关关系与函数关系; (2)对独立性检验K 2值的意义不清楚; (3)不知道回归直线必过样本点中心.1.两个变量的相关关系有①正相关,②负相关,③不相关,则下列散点图从左到右分别反映的变量间的相关关系是( )A .①②③B .②③①C .②①③D .①③②解析:选D.第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角区域分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②.2.某校为了研究学生的性别和对待某一活动的态度(支持和不支持两种态度)的关系,运用2×2列联表进行独立性检验,经计算K 2=7.069,则所得到的统计学结论是:有多少的把握认为“学生性别与支持该活动有关系”.( )附:P (K 2≥k 0)0.100 0.050 0.025 0.010 0.001 k 02.7063.8415.0246.63510.828A.0.1% B .1% C .99%D .99.9%解析:选C.因为7.069与附表中的6.635最接近,所以得到的统计学结论是:有1-0.010=0.99=99%的把握认为“学生性别与支持该活动有关系”.3.已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^= .x 0 1 3 4 y2.24.34.86.7解析:由已知得x -=2,y -=4.5,因为回归方程经过点(x -,y -),所以a ^=4.5-0.95×2=2.6.答案:2.6相关关系的判断(师生共研)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关【解析】 因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.【答案】 C判定两个变量正、负相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:r >0时,正相关;r <0时,负相关. (3)线性回归方程中:b ^>0时,正相关;b ^<0时,负相关.1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解析:选C.由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.2.对变量x ,y 有观测数据(x i ,y i )(i =1,2,3,4,5),得表1;对变量u ,v 有观测数据(u i ,v i )(i =1,2,3,4,5),得表2.由这两个表可以判断( )表1:x 1 2 3 4 5 y2.93.33.64.45.1表2:u 1 2 3 4 5 v2520211513A.变量x 与y 正相关,u 与v 正相关 B .变量x 与y 负相关,u 与v 正相关 C .变量x 与y 负相关,u 与v 负相关D .变量x 与y 正相关,u 与v 负相关解析:选D.由题可知,随着x 的增大,对应的y 值增大,其散点图呈上升趋势,故x 与y 正相关;随着u 的增大,v 减小,其散点图呈下降趋势,故u 与v 负相关.线性回归方程及其应用(师生共研)(2020·福州市第一学期抽测)随着我国中医学的发展,药用昆虫的使用相应愈来愈多.每年春暖以后至寒冬前,昆虫大量活动与繁殖,易于采集各种药用昆虫.已知一只药用昆虫的产卵数y (单位:个)与一定范围内的温度x (单位:℃)有关,于是科研人员在3月份的31天中随机挑选了5天进行研究,现收集了该种药用昆虫的5组观测数据如下表:日期 2日 7日 15日 22日 30日 温度x /℃ 10 11 13 12 8 产卵数y /个2325302616科研人员确定的研究方案是:先从这5组数据中任选2组,用剩下的3组数据建立y 关于x 的线性回归方程,再对被选取的2组数据进行检验.(1)若选取的是3月2日与30日这2组的数据,请根据3月7日、15日和22日这3组的数据,求出y 关于x 的线性回归方程;(2)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2个,则认为得到的线性回归方程是可靠的,试问(1)中所得的线性回归方程是否可靠?附:回归直线的斜率和截距的最小二乘估计公式分别为b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -.【解】 (1)由已知数据得x -=12,y -=27,∑3i =1 (x i -x -)(y i -y -)=5,∑3i =1(x i -x -)2=2.所以b ^=∑3i =1(x i -x -)(y i -y -)∑3i =1 (x i -x -)2=52, a ^=y --52x -=27-52×12=-3.所以y 关于x 的线性回归方程为y ^=52x -3.(2)由(1)知,y 关于x 的线性回归方程为y ^=52x -3.当x =10时,y ^=52×10-3=22,|22-23|<2,当x =8时,y ^=52×8-3=17,|17-16|<2.所以(1)中所得的线性回归方程y ^=52x -3是可靠的.线性回归分析问题的类型及解题方法(1)求线性回归方程①利用公式,求出回归系数b ^,a ^;②待定系数法:利用回归直线过样本点的中心求系数. (2)样本数据的相关系数r =∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2∑ni =1(y i -y -)2,反映样本数据的相关程度,|r |越大,则相关性越强.1.对两个变量x ,y 进行线性回归分析,计算得到相关系数r =-0.996 2,则下列说法中正确的是( )A .x 与y 正相关B .x 与y 具有较强的线性相关关系C .x 与y 几乎不具有线性相关关系D .x 与y 的线性相关关系还需进一步确定解析:选B.因为相关系数r =-0.996 2,所以x 与y 负相关,因为|r |=0.996 2,非常接近1,所以相关性很强,故选B.2.(2020·成都第一次诊断性检测)在2018年俄罗斯世界杯期间,莫斯科的部分餐厅销售了来自中国的小龙虾,这些小龙虾均标有等级代码.为得到小龙虾等级代码数值x 与销售单价y (单位:元)之间的关系,经统计得到如下数据:等级代码数值x38 48 58 68 78 88销售单价y /元 16.8 18.8 20.8 22.8 24 25.8(1)已知销售单价y 与等级代码数值x 之间存在线性相关关系,求y 关于x 的线性回归方程(系数精确到0.1);(2)若莫斯科某餐厅销售的中国小龙虾的等级代码数值为98,请估计该等级的中国小龙虾销售单价为多少元?参考公式:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为b ^=∑ni =1x i y i -n x - y -∑n i =1x 2i -n x -2,a ^=y --b ^x -.参考数据:∑6i =1x i y i =8 440,∑6i =1x 2i =25 564. 解:(1)由题意,得x -=38+48+58+68+78+886=63,y -=16.8+18.8+20.8+22.8+24+25.86=21.5,b ^=∑6i =1x i y i -6x - y -∑6i =1x 2i -6x -2=8 440-6×63×21.525 564-6×63×63≈0.2,a ^=y --b ^x -=21.5-0.2×63=8.9.故所求线性回归方程为y ^=0.2x +8.9.(2)由(1),知当x =98时,y =0.2×98+8.9=28.5. 所以估计该等级的中国小龙虾销售单价为28.5元.独立性检验(师生共研)(2019·高考全国卷Ⅰ)某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意 不满意 男顾客 40 10 女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).【解】 (1)由调查数据知,男顾客中对该商场服务满意的比率为4050=0.8,因此男顾客对该商场服务满意的概率的估计值为0.8.女顾客中对该商场服务满意的比率为3050=0.6,因此女顾客对该商场服务满意的概率的估计值为0.6.(2)K 2=100×(40×20-30×10)250×50×70×30≈4.762.由于4.762>3.841,故有95%的把握认为男、女顾客对该商场服务的评价有差异.(1)独立性检验的一般步骤 ①根据样本数据制成2×2列联表;②根据公式K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )计算K 2的值;③查表比较K 2与临界值的大小关系,作出统计判断. (2)解独立性检验的应用问题的关注点①两个明确:(ⅰ)明确两类主体;(ⅱ)明确研究的两个问题; ②两个准确:(ⅰ)准确画出2×2列联表;(ⅱ)准确理解K 2.(2020·长沙市统一模拟考试)为了解某校学生参加社区服务的情况,采用按性别分层抽样的方法进行调查,已知该校共有学生960人,其中男生560人,从全校学生中抽取了容量为n 的样本,得到一周参加社区服务时间的统计数据如下表:超过1小时不超过1小时男 20 8女12m(1)求m ,n 的值;(2)能否有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关?附:P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )解:(1)由已知,该校有女生400人,故12+m 20+8=400560,得m =8,从而n =20+8+12+8=48. (2)作出2×2列联表如下:超过1小时的人数不超过1小时的人数总计 男 20 8 28 女 12 8 20 合计321648K 2=48×(160-96)28×20×32×16=2435≈0.685 7<3.841.所以没有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关.[基础题组练]1.(2020·陕西西安陕师大附中等八校联考)设两个变量x 和y 之间具有线性相关关系,它们的相关系数为r ,y 关于x 的回归直线方程为y ^=kx +b ,则( )A .k 与r 的符号相同B .b 与r 的符号相同C .k 与r 的符号相反D .b 与r 的符号相反解析:选A.因为相关系数r 为正,表示正相关,回归直线方程上升,r 为负,表示负相关,回归直线方程下降,所以k 与r 的符号相同.故选A.2.在一次对性别与说谎是否相关的调查中,得到如下数据:说谎 不说谎 总计 男 6 7 13 女 8 9 17 总计141630根据表中数据,得到如下结论正确的一项是( ) A .在此次调查中有95%的把握认为是否说谎与性别有关 B .在此次调查中有99%的把握认为是否说谎与性别有关C .在此次调查中有99.5%的把握认为是否说谎与性别有关D .在此次调查中没有充分的证据显示说谎与性别有关解析:选D.由已知得k =30×(6×9-7×8)213×17×14×16≈0.002<0.455,所以在犯错误的概率不超过50%的情况下,认为说谎与性别无关,也就是说,在此调查中没有充分的证据显示说谎与性别有关.3.经调查某地若干户家庭的年收入x (万元)和年饮食支出y (万元)具有线性相关关系,并得到y 关于x 的回归直线方程:y ^=0.245x +0.321,由回归直线方程可知,家庭年收入每增加1万元,年饮食支出平均增加 万元.解析:x 变为x +1,y ^=0.245(x +1)+0.321=0.245x +0.321+0.245,因此家庭年收入每增加1万元,年饮食支出平均增加0.245万元.答案:0.2454.如图是一组数据(x ,y )的散点图,经最小二乘估计公式计算,y 与x 之间的线性回归方程为y ^=b ^x +1,则b ^= .解析:由题图知x -=0+1+3+44=2,y -=0.9+1.9+3.2+4.44=2.6,将(2,2.6)代入y ^=b ^x +1中,解得b ^=0.8. 答案:0.85.(2020·陕西汉中略阳天津高级中学等12校联考)某市为了了解民众对开展创建文明城市工作以来的满意度,随机调查了40名群众,并将他们随机分成A ,B 两组,每组20人,A 组群众给第一阶段的创文工作评分,B 组群众给第二阶段的创文工作评分,根据两组群众的评分绘制了如图所示的茎叶图.(1)根据茎叶图比较群众对两个阶段的创文工作满意度评分的平均值和集中数据(不要求计算出具体值,给出结论即可);(2)完成下面的2×2列联表,并通过计算判断是否有99%的把握认为民众对两个阶段创文工作的满意度存在差异?低于70分不低于70分总计 第一阶段 第二阶段 总计参考公式:K 2=(-)(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .P (K 2≥k )0.050 0.010 0.001 k3.8416.63510.828解:(1)根据题中茎叶图可以看出,B 组群众给第二阶段创文工作满意度评分的平均值高于A 组群众给第一阶段创文工作满意度评分的平均值,且给分相对于A 组更集中些.(2)填写2×2列联表如下:低于70分不低于70分总计 第一阶段 11 9 20 第二阶段 3 17 20 总计142640所以K 2=40×(11×17-9×3)20×20×14×26≈7.033>6.635.所以有99%的把握认为民众对两个阶段创文工作的满意度存在差异.6.某品牌手机厂商推出新款的旗舰机型,并在某地区跟踪调查得到这款手机上市时间(x 个月)和市场占有率(y %)的几组相关对应数据:x 1 2 3 4 5 y0.020.050.10.150.18(1)根据上表中的数据,用最小二乘法求出y 关于x 的线性回归方程;(2)根据上述回归方程,分析该款旗舰机型市场占有率的变化趋势,并预测自上市起经过多少个月,该款旗舰机型市场占有率能超过0.5%(精准到月).解:(1)根据表中数据,计算x -=15×(1+2+3+4+5)=3,y -=15×(0.02+0.05+0.1+0.15+0.18)=0.1,所以b ^=1×0.02+2×0.05+3×0.1+4×0.15+5×0.18-5×3×0.112+22+32+42+52-5×32=0.042, 所以a ^=0.1-0.042×3=-0.026, 所以线性回归方程为y ^=0.042x -0.026.(2)由上面的回归方程可知,上市时间与市场占有率正相关, 即上市时间每增加1个月,市场占有率都增加0.042个百分点; 由y ^=0.042x -0.026>0.5,解得x ≥13;预计上市13个月时,该款旗舰机型市场占有率能超过0.5%.[综合题组练]1.(2020·兰州市诊断考试)“一本书,一碗面,一条河,一座桥”曾是兰州的城市名片,而现在“兰州马拉松”又成为了兰州的另一张名片,随着全民运动健康意识的提高,马拉松运动不仅在兰州,而且在全国各大城市逐渐兴起,参与马拉松训练与比赛的人数逐年增加.为此,某市对人们参加马拉松运动的情况进行了统计调查.其中一项调查是调查人员从参与马拉松运动的人中随机抽取200人,对其每周参与马拉松长跑训练的天数进行统计,得到以下统计表:若某人平均每周进行长跑训练天数不少于5,则称其为“热烈参与者”,否则称为“非热烈参与者”.(1)经调查,该市约有2万人参与马拉松运动,试估计其中“热烈参与者”的人数; (2)根据上表的数据,填写下列2×2列联表,并通过计算判断是否能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关?附:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )(n 为样本容量)解:(1)以200人中“热烈参与者”的频率作为概率,则该市“热烈参与者”的人数约为20 000×40200=4 000.(2)2×2列联表为K 2=200×(35×55-105×5)40×160×140×60≈7.292>6.635.故能在犯错误的概率不超过0.01的前提下认为“热烈参与马拉松”与性别有关. 2.(2020·长沙市统一模拟考试)某互联网公司为了确定下一季度的前期广告投入计划,收集了近6个月广告投入量x (单位:万元)和收益y (单位:万元)的数据如下表:他们用两种模型①y =bx +a ,②y =a e bx分别进行拟合,得到相应的回归方程并进行残差分析,得到如图所示的残差图及一些统计量的值:(1)根据残差图,比较模型①,②的拟合效果,应选择哪个模型?并说明理由; (2)残差绝对值大于2的数据被认为是异常数据,需要剔除. ①剔除异常数据后,求出(1)中所选模型的回归方程; ②广告投入量x =18时,(1)中所选模型收益的预报值是多少?附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归直线y ^=b ^x +a ^的斜率和截距的最小二乘估计分别为:b ^=∑n i =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -n x - y -∑n i =1x 2i -n x -2,a ^=y --b ^x -. 解:(1)应该选择模型①,因为模型①的残差点比较均匀地落在水平的带状区域中,且模型①的带状区域比模型②的带状区域窄,所以模型①的拟合精度高,回归方程的预报精度高.(2)①剔除异常数据,即3月份的数据后,得 x -=15×(7×6-6)=7.2,y -=15×(30×6-31.8)=29.64.∑5i =1x i y i =1 464.24-6×31.8=1 273.44,∑5i =1x 2i =364-62=328. b ^=∑5i =1x i y i -5x - y -∑5i =1x 2i -5x -2=1 273.44-5×7.2×29.64328-5×7.2×7.2=206.468.8=3,a ^=y --b ^x -=29.64-3×7.2=8.04.所以y 关于x 的回归方程为y ^=3x +8.04.②把x =18代入(ⅰ)中所求回归方程得y ^=3×18+8.04=62.04. 故预报值为62.04万元.。