2023年高考数学(文科)一轮复习讲义——变量间的相关关系与统计案例
- 格式:doc
- 大小:633.00 KB
- 文档页数:25
第二节 变量的相关性与统计案例[考纲要求]1.会作两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).3.了解回归分析的思想、方法及其简单应用. 4.了解独立性检验的思想、方法及其初步应用.突破点一 回归分析[基本知识]1.变量间的相关关系(1)常见的两变量之间的关系有两类:一类是函数关系,另一类是相关关系;与函数关系不同,相关关系是一种非确定性关系.(2)从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为正相关,点散布在左上角到右下角的区域内,两个变量的相关关系为负相关.2.两个变量的线性相关 回归直线从散点图上看,如果这些点从整体上看大致分布在通过散点图中心的一条直线附近,称两个变量之间具有线性相关关系,这条直线叫做回归直线回归方程回归方程为y ^=b ^x +a ^,其中b ^=∑i =1nx i y i -n x - y-∑i =1nx 2i -n x -2, a ^=y --b ^x - 最小二乘法通过求Q =∑i =1n(y i -bx i -a )2的最小值而得到回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小,这一方法叫做最小二乘法 相关系数当r >0时,表明两个变量正相关;当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强;r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性[基本能力]一、判断题(对的打“√”,错的打“×”)(1)相关关系与函数关系都是一种确定性的关系,也是一种因果关系.( )(2)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) 答案:(1)× (2)√ (3)√ 二、填空题1.已知x ,y 的取值如下表,从散点图可以看出y 与x 具有线性相关关系,且回归方程为y ^=0.95x +a ^,则a ^=________.x0 1 3 4y2.24.34.86.7答案:2.62.两个变量y 与x 的回归模型中,分别选择了4个不同模型,经计算得到它们的相关系数r 的值如下表,其中拟合效果最好的模型是________.模型 模型1 模型2 模型3 模型4 r0.980.800.500.25答案:模型13.已知变量x ,y 之间具有线性相关关系,其回归方程为y ^=-3+b ^x ,若∑i =110x i =17, ∑i =110y i =4,则b ^的值为________.答案:2[全析考法]考法一 相关关系的判断[例1] (1)(2019·福建泉州月考)在下列各图中,两个变量具有相关关系的图是( )A .①②B .①③C .②③D .②④(2)(2019·昆明一中一模)若对于变量x 的取值为3,4,5,6,7时,变量y 对应的值依次分别为4.0,2.5,-0.5,-1,-2;若对于变量u 的取值为1,2,3,4时,变量v 对应的值依次分别为2,3,4,6,则变量x 和y ,变量u 和v 的相关关系是( )A .变量x 和y 是正相关,变量u 和v 是正相关B .变量x 和y 是正相关,变量u 和v 是负相关C .变量x 和y 是负相关,变量u 和v 是负相关D .变量x 和y 是负相关,变量u 和v 是正相关[解析] (1)①为函数关系;②为正相关关系;③为负相关关系;④没有明显相关性. (2)变量x 增加,变量y 减少,所以变量x 和y 是负相关;变量u 增加,变量v 增加,所以变量u 和v 是正相关,故选D.[答案] (1)C (2)D [方法技巧]判断相关关系的2种方法(1)散点图法:如果所有的样本点都落在某一函数的曲线附近,变量之间就有相关关系.如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r |越趋近于1相关性越强.考法二 线性回归分析[例2] (2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t .(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值; (2)你认为用哪个模型得到的预测值更可靠?并说明理由.[解] (1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(ⅰ)从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ⅱ)从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分) [方法技巧]1.回归直线方程中系数的2种求法 (1)公式法:利用公式,求出回归系数b ^,a ^.(2)待定系数法:利用回归直线过样本点中心(x -,y -)求系数. 2.回归分析的2种策略(1)利用回归方程进行预测:把回归直线方程看作一次函数,求函数值. (2)利用回归直线判断正、负相关:决定正相关还是负相关的是回归系数b ^.[集训冲关]1.[考法一]四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④D .①④解析:选D 正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.2.[考法二]二手车经销商小王对其所经营的A型号二手汽车的使用年数x与销售价格y(单位:万元/辆)进行整理,得到如下数据:使用年数x 234567售价y 20128 6.4 4.4 3z=ln y 3.00 2.48 2.08 1.86 1.48 1.10 z关于(1)由折线图可以看出,可以用线性回归模型拟合z与x的关系,请用相关系数加以说明;(2)求y关于x的回归方程,并预测某辆A型号二手车当使用年数为9年时售价约为多少.(b^,a^小数点后保留两位有效数字)参考公式:b^=∑i=1n(x i-x-)(y i-y-)∑i=1n(x i-x-)2=∑i=1nx i y i-n x-y-∑i=1nx2i-n x-2,a^=y--b^x-,r=∑i=1n(x i-x-)(y i-y-)∑i=1n(x i-x-)2∑i=1n(y i-y-)2.参考数据:∑i=16x i y i=187.4,∑i=16x i z i=47.64,∑i=16x2i=139,∑i=16(x i-x-)2=4.18, ∑i=16(y i-y-)2=13.96,∑i=16(z i-z-)2=1.53,ln 1.46≈0.38.解:(1)由题意,知x-=16×(2+3+4+5+6+7)=4.5,z-=16×(3+2.48+2.08+1.86+1.48+1.10)=2,又∑i =16x i z i =47.64,∑i =16(x i -x -)2=4.18,∑i =16(z i -z -)2=1.53,∴r =47.64-6×4.5×24.18×1.53=- 6.366.395 4≈-0.99,∴z 与x 的相关系数大约为-0.99,说明z 与x 的线性相关程度很高. (2)b ^=47.64-6×4.5×2139-6×4.52=-6.3617.5≈-0.36,∴a ^=z --b ^x -=2+0.36×4.5=3.62, ∴z 与x 的线性回归方程是z ^=-0.36x +3.62, 又z =ln y ,∴y 关于x 的回归方程是y ^=e -0.36x +3.62. 令x =9,得y ^=e -0.36×9+3.62=e 0.38, ∵ln 1.46≈0.38,∴y ^=1.46,即预测某辆A 型号二手车当使用年数为9年时售价约为1.46万元.突破点二 独立性检验[基本知识]1.分类变量变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量. 2.列联表列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为y 1 y 2 总计 x 1 a b a +b x 2 c d c +d 总计a +cb +da +b +c +dK 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量),可利用独立性检验判断表来判断“X 与Y 的关系”.[基本能力]一、判断题(对的打“√”,错的打“×”)(1)事件X,Y关系越密切,则由观测数据计算得到的K2的值越大.()(2)由独立性检验可知,有99%的把握认为物理成绩优秀与数学成绩有关,某人数学成绩优秀,则他有99%的可能物理优秀.()答案:(1)√(2)×二、填空题1.下面是2×2列联表:y1y2总计x1 a 2173x2222547总计 b 46120则表中a,b的值分别为解析:∵a+21=73,∴a=52,又a+22=b,∴b=74.答案:52,742.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720已知P(K2≥3.841)≈0.05,P(根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.答案:5%3.(2019·阜阳质检)某班主任对全班30名男生进行了作业量多少的调查,数据如下表:认为作业多认为作业不多总计喜欢玩电脑游戏12820不喜欢玩电脑游戏2810总计141630不超过________.答案:0.05[典例](2018·全国卷Ⅲ)某工厂为提高生产效率,开展技术创新活动,提出了完成某项生产任务的两种新的生产方式.为比较两种生产方式的效率,选取40名工人,将他们随机分成两组,每组20人.第一组工人用第一种生产方式,第二组工人用第二种生产方式.根据工人完成生产任务的工作时间(单位:min)绘制了如下茎叶图:(1)根据茎叶图判断哪种生产方式的效率更高?并说明理由.(2)求40名工人完成生产任务所需时间的中位数m,并将完成生产任务所需时间超过m 和不超过m的工人数填入下面的列联表:超过m 不超过m第一种生产方式第二种生产方式(3)根据(2)附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),[解](1)第二种生产方式的效率更高.理由如下:(ⅰ)由茎叶图可知:用第一种生产方式的工人中,有75%的工人完成生产任务所需时间至少80 min,用第二种生产方式的工人中,有75%的工人完成生产任务所需时间至多79 min.因此第二种生产方式的效率更高.(ⅱ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间的中位数为85.5 min,用第二种生产方式的工人完成生产任务所需时间的中位数为73.5 min.因此第二种生产方式的效率更高.(ⅲ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需平均时间高于80 min;用第二种生产方式的工人完成生产任务所需平均时间低于80 min.因此第二种生产方式的效率更高.(ⅳ)由茎叶图可知:用第一种生产方式的工人完成生产任务所需时间分布在茎8上的最多,关于茎8大致呈对称分布;用第二种生产方式的工人完成生产任务所需时间分布在茎7上的最多,关于茎7大致呈对称分布.又用两种生产方式的工人完成生产任务所需时间分布的区间相同,故可以认为用第二种生产方式完成生产任务所需的时间比用第一种生产方式完成生产任务所需的时间更少.因此第二种生产方式的效率更高.(以上给出了4种理由,答出其中任意一种或其他合理理由均可得分) (2)由茎叶图知m =79+812=80.列联表如下:(3)因为K 2=40(15×15-5×5)20×20×20×20=10>6.635,所以有99%的把握认为两种生产方式的效率有差异.[方法技巧](1)独立性检验的关键是正确列出2×2列联表,并计算出K 2的值.(2)独立性检验是对两个变量有关系的可信程度的判断,而不是对它们是否有关系的判断.[针对训练]1.(2019·安徽黄山一模)在吸烟与患肺癌这两个分类变量的独立性检验的计算中,下列说法正确的是( )A .若K 2的观测值为k =6.635,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,那么在100个吸烟的人中必有99人患有肺癌B .由独立性检验可知,在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系时,我们说某人吸烟,那么他有99%的可能患有肺癌C .若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误D .以上三种说法都不正确解析:选C 独立性检验得出的结论是带有概率性质的,只能说结论成立的概率有多大,而不能完全肯定一个结论,因此才出现了临界值表,在分析问题时一定要注意这点,不可对某个问题下确定性结论,否则就可能对统计计算的结果作出错误的解释.若从统计量中求出在犯错误的概率不超过0.01的前提下认为吸烟与患肺癌有关系,是指有1%的可能性使得判断出现错误.故选C.2.(2019·池州模拟)某职称晋级评定机构对参加某次专业技术考试的100人的成绩进行了统计,绘制的频率分布直方图如图所示.规定80分以上者晋级成功,否则晋级失败(满分为100分).(1)求图中a 的值;(2)估计该次考试的平均分x -(同一组中的数据用该组的区间中点值代表);(3)根据已知条件完成下面2×2列联表,并判断能否有85%的把握认为“晋级成功”与性别有关.晋级成功 晋级失败总计 男 16 女 50 总计⎝ ⎛⎭⎪⎪⎫参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )其中n =a +b +c +dP (K 2≥k )0.40 0.25 0.15 0.10 0.05 0.025 k0.7081.3232.0722.7063.8415.024解×10=1,解得a =0.005.(2)由频率分布直方图知各小组的中点值依次是55,65,75,85,95, 对应的频率分别为0.05,0.30,0.40,0.20,0.05,则估计该次考试的平均分为x -=55×0.05+65×0.3+75×0.4+85×0.2+95×0.05=74(分).(3)由频率分布直方图知,晋级成功的频率为0.2+0.05=0.25,故晋级成功的人数为100×0.25=25,填写2×2列联表如下:晋级成功 晋级失败 总计 男 16 34 50 女 9 41 50 总计2575100K 2=100×(16×41-34×9)25×75×50×50≈2.613>2.072,所以有85%的把握认为“晋级成功”与性别有关.[课时跟踪检测]1.(2019·广雅中学期中)为研究变量x 和y 的线性相关性,甲、乙二人分别作了研究,利用线性回归方法得到回归直线l 1和l 2两人计算知x -相同,y -也相同,下列正确的是( )A .l 1与l 2重合B .l 1与l 2一定平行C .l 1与l 2相交于点(x -,y -)D .无法判断l 1和l 2是否相交解析:选C 由于线性回归直线一定经过样本点的中心(x -,y -),所以l 1与l 2相交于点(x -,y -),故选C.2.(2018·邵阳二模)假设有两个分类变量X 和Y 的2×2列联表如下:对同一样本,( ) A .a =45,c =15 B .a =40,c =20 C .a =35,c =25D .a =30,c =30解析:选A 根据2×2列联表与独立性检验可知,当a a +10与cc +30相差越大时,X 与Y 有关系的可能性越大,即a ,c 相差越大,a a +10与cc +30相差越大,故选A.3.(2019·太原一模)已知某产品的广告费用x (单位:万元)与销售额y (单位:万元)具有线性相关关系,其统计数据如下表:由上表可得线性回归方程y =b x +a ,据此模型预测广告费用为8万元时的销售额是( )A .59.5万元B .52.5万元C .56万元D .63.5万元解析:选A 由表可知x -=4.5,y -=35,所以计算得b ^=7,a ^=3.5,所以线性回归方程为y ^=7x +3.5,所以广告费用为8万元时销售额的预测值为59.5万元,故选A.4.(2019·商丘第一中学一模)某医疗所为了检查新开发的流感疫苗对甲型H1N1流感的预防作用,把1 000名注射疫苗的人与另外1 000名未注射疫苗的人半年的感冒记录作比较,提出假设H 0:“这种疫苗不能起到预防甲型H1N1流感的作用”,并计算得P (K 2≥6.635)≈0.01,则下列说法正确的是( )A .这种疫苗能起到预防甲型H1N1流感的有效率为1%B .若某人未使用疫苗则他在半年中有99%的可能性得甲型H1N1流感C .有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”D .有1%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”解析:选C 因为P (K 2≥6.635)≈0.01,这说明假设不合理的程度为99%,即这种疫苗不能起到预防甲型H1N1流感的作用不合理的程度约为99%,所以有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”,故选C.5.(2019·柳州高中一模)根据如下样本数据得到了回归方程y =bx +a ,则( ) A .a >0,b >0 B .a <0,b >0 C .a >0,b <0 D .a <0,b <0解析:选C 由表格数据可知y 与x 是负相关关系,所以b <0,且当x =0时,y >0,所以a >0,故选C.6.(2019·四川石室中学月考)统计显示,目前我国中型规模以上工业、企业的用能量占全社会能源消耗的70%左右.其中,用能量占全社会用能量60%以上的企业是仅占全国企业15的高耗能企业.某厂进行节能降耗技术改造后,下面是该厂节能降耗技术改造后连续五年的生产利润:预测第7年该厂的生产利润约为( ) A .1.88千万元 B .2.22千万元 C .1.56千万元D .2.35千万元解析:选A 由所给数据计算得x -=15×(1+2+3+4+5)=3,y -=15×(0.6+0.8+0.9+1.2+1.5)=1,b ^=2.210=0.22,a ^=y --b ^ x -=1-0.22×3=0.34,则所求的线性回归方程为y ^=0.22x+0.34,当x =7时,y ^=0.22×7+0.34=1.88,于是预测第7年该厂的生产利润约为1.88千万元.故选A.7.(2019·山西实验中学一模)某电子产品的成本价格由两部分组成,一是固定成本,二是可变成本,为确定该产品的成本,进行5次试验,收集到的数据如表:由最小二乘法得到回归方程y =0.67x +54.9,则a =________.解析:计算可得,x -=30,y -=307+a5,所以307+a 5=0.67×30+54.9,解得a =68.答案:688.(2019·湖南师大附中月考)在西非肆虐的“埃博拉病毒”的传播速度很快,已经成为全球性的威胁,为了考察某种埃博拉病毒疫苗的效果,现随机抽取100只小鼠进行试验,得到如下列联表:参考公式:K 2=n (ad -bc )(a +b )(c +d )(a +c )(b +d )参照附表,在犯错误的概率最多不超过________(填百分比)的前提下,可认为“该种疫苗有预防埃博拉病毒感染的效果”.解析:由题意可得,K 2=100×(10×30-20×40)250×50×30×70≈4.762>3.841,参照附表可得,在犯错误的概率不超过5%的前提下,可认为“该种疫苗有预防埃博拉病毒感染的效果”.答案:5%9.某公司为确定明年投入某产品的广告支出,对近5年的年广告支出m 与年销售额t (单位:百万元)进行了初步统计,得到下列表格中的数据:经测算,年广告支出m 与年销售额t 满足线性回归方程t =6.5m +17.5,则p =________. 解析:由于回归直线过样本点的中心,m -=5,t -=190+p 5,代入t ^=6.5m +17.5,解得p =60.答案:6010.(2019·河南豫南豫北联考)某老师对全班50名学生学习积极性和参加社团活动情况进行调查,统计数据如下所示:(1)(2)若从不参加社团活动的28人中按照分层抽样的方法选取7人,再从所选出的7人中随机选取2人作为代表发言,求至少有一人学习积极性高的概率;(3)运用独立性检验的思想方法分析,请你判断是否有99.9%的把握认为学生的学习积极性与参与社团活动有关系?附:K 2=n (ad -bc)2(a +b )(c +d )(a +c )(b +d ),n =a +b +c +d .解:(1)(2)285人,将其中学习积极性高的2人记为A ,B ,学习积极性一般的5人记为1,2,3,4,5,从A ,B,1,2,3,4,5这7人中任选2人,共有以下21个等可能性基本事件:AB ,A 1,A 2,A 3,A 4,A 5,B 1,B 2,B 3,B 4,B 5,12,13,14,15,23,24,25,34,35,45,则至少有一人学习积极性高的事件有11个,所以至少有一人学习积极性高的概率P =1121.(3)因为K 2=50×(17×20-5×8)225×25×22×28≈11.688>10.828,所以有99.9%的把握认为学生的学习积极性与参与社团活动有关系.11.(2019·成都高三摸底测试)某医疗科研项目组对5只实验小白鼠体内的A ,B 两项指标数据进行收集和分析,得到的数据如下表:(1)试根据上表,求B 项指标数据y 关于A 项指标数据x 的线性回归方程y ^=b ^x +a ^;(2)现要从这5只小白鼠中随机抽取3只,求其中至少有一只小白鼠的B 项指标数据高于3的概率.解:(1)由题意,可得x -=7,y -=3,∑i =15x i y i =110,∑i =15x 2i =255,b ^=∑i =15x i y i -5x - y-∑i =15x 2i -5x -2=12. ∵a ^=y --b ^ x -,∴a ^=-12.∴所求线性回归方程为y ^=12x -12.(2)设1号至5号小白鼠依次为a 1,a 2,a 3,a 4,a 5,则在这5只小白鼠中随机抽取3只的抽取情况有a 1a 2a 3,a 1a 2a 4,a 1a 2a 5,a 1a 3a 4,a 1a 3a 5,a 1a 4a 5,a 2a 3a 4,a 2a 3a 5,a 2a 4a 5,a 3a 4a 5,共10种.随机抽取的3只小白鼠中至少有一只的B 项指标数据高于3的情况有a 1a 2a 4,a 1a 2a 5,a 1a 3a 4,a 1a 3a 5,a 1a 4a 5,a 2a 3a 4,a 2a 3a 5,a 2a 4a 5,a 3a 4a 5,共9种.∴从这5只小白鼠中随机抽取3只,其中至少有一只小白鼠的B 项指标数据高于3的概率为910.。
§10.3 变量间的相关关系、统计案例考纲展示►1.会作两个相关变量的散点图,会利用散点图认识变量之间的相关关系. 2.了解最小二乘法的思想,能根据给出的线性回归系数公式建立线性回归方程. 3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用. 4.了解回归分析的基本思想、方法及其简单应用.考点1 变量间的相关关系1.常见的两变量之间的关系有两类:一类是函数关系,另一类是________;与函数关系不同,________是一种非确定性关系.答案:相关关系 相关关系2.从散点图上看,点散布在从左下角到右上角的区域内,两个变量的这种相关关系称为________,点散布在左上角到右下角的区域内,两个变量的相关关系为________.答案:正相关 负相关对回归系数的理解:解释变量;预报变量.某工厂工人月工资y (元)依劳动产值x (万元)变化的回归直线方程为y ^=900x +600,下列判断正确的是__________.①劳动产值为10 000元时,工资为500元; ②劳动产值提高10 000元时,工资提高1 500元; ③劳动产值提高10 000元时,工资提高900元; ④劳动产值为10 000元时,工资为900元. 答案:③解析:回归系数b ^的意义为:解释变量每增加1个单位,预报变量平均增加b 个单位.[典题1] (1)下列四个散点图中,变量x 与y 之间具有负的线性相关关系的是( )A BC D[答案] D[解析] 观察散点图可知,只有D 选项的散点图表示的是变量x 与y 之间具有负的线性相关关系.(2)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ [答案] D[解析] 由回归方程y ^=b ^x +a ^知,当b ^>0时,y 与x 正相关,当b ^<0时,y 与x 负相关,∴①④一定错误.[点石成金] 相关关系的直观判断方法就是作出散点图,若散点图呈带状且区域较窄,说明两个变量有一定的线性相关性,若呈曲线型也是有相关性,若呈图形区域且分布较乱则不具备相关性.考点2 线性回归分析1.回归分析对具有________的两个变量进行统计分析的方法叫回归分析.其基本步骤是:(ⅰ)画散点图;(ⅱ)求________;(ⅲ)用回归直线方程作预报.答案:相关关系 回归直线方程 2.回归直线如果散点图中点的分布从整体上看大致在________附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.答案:一条直线3.回归直线方程的求法——最小二乘法设具有线性相关关系的两个变量x ,y 的一组观察值为(x i ,y i )(i =1,2,…,n ),则回归直线方程y ^=b ^x +a ^的系数为:⎩⎪⎨⎪⎧b ^=∑i =1nx i-x y i-y ∑i =1nx i-x2= ,a ^=y -b ^x ,其中x =1n ∑i =1n x i ,y =1n ∑i =1ny i ,(x ,y )称为样本点的________.答案:∑i =1nx i y i -n x y∑i =1nx 2i -n x 2中心4.相关系数当r >0时,表明两个变量________; 当r <0时,表明两个变量________.r 的绝对值越接近于1,表明两个变量的线性相关性________.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.答案:正相关 负相关 越强[教材习题改编]已知回归直线的斜率的估计值为1.23,样本点的中心为(4,5),则回归直线方程为__________.答案:y ^=1.23x +0.08解析:设回归直线方程为y ^=1.23x +a ^, 因为回归直线必过样本点的中心(x ,y ), 将点(4,5)代入回归直线方程得a ^=0.08, 所以所求方程为y ^=1.23x +0.08.变量的相关关系:散点图;回归直线过(x ,y ).某工厂经过技术改造后,生产某种产品的产量x (吨)与相应的生产能耗y (吨标准煤)有如下几组样本数据.x 3 4 5 6 y2.5344.50.7,那么当产量x =10吨时,估计相应的生产能耗为__________吨标准煤.答案:7.35解析:先求得x =4.5,y =3.5,由y ^=0.7x +a ^过点(x ,y ),得a ^=0.35, 所以回归直线方程是y ^=0.7x +0.35.当x =10吨时,y ^=7+0.35=7.35(吨标准煤).[典题2] (1)已知x ,y 的取值如下表,从散点图可以看出y 与x 线性相关,且回归方程为y ^=0.95x +a ^,则a ^=( )x 0 1 3 4 y2.24.34.86.7A.3.25 C .2.2D .0[答案] B[解析] 由已知得x =2,y =4.5, 因为回归方程经过点(x ,y ), 所以a ^=4.5-0.95×2=2.6.(2)由某种设备的使用年限x i (年)与所支出的维修费y i (万元)的数据资料算得如下结果,∑i =15x 2i =90,∑i =15x i y i =112,∑i =15x i =20,∑i =15y i =25.①求所支出的维修费y 对使用年限x 的线性回归方程y ^=b ^x +a ^; ②(ⅰ)判断变量x 与y 之间是正相关还是负相关; (ⅱ)当使用年限为8年时,试估计支出的维修费是多少.附:在线性回归方程y ^=b ^x +a ^中,b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2,a ^=y -b ^x ,其中x ,y 为样本平均值.[解] ①∵∑i =15x i =20,∑i =15y i =25,∴x =15∑i =15x i =4,y =15∑i =15y i =5,∴b ^=∑i =15x i y i -5x y∑i =15x 2i -5x 2=112-5×4×590-5×42=1.2, a ^=y -b ^x =5-1.2×4=0.2.∴线性回归方程为y ^=1.2x +0.2. ②(ⅰ)由①知,b ^=1.2>0, ∴变量x 与y 之间是正相关.(ⅱ)由①知,当x =8时,y ^=9.8,即使用年限为8年时,支出维修费约是9.8万元. [点石成金] 1.正确理解计算b ^,a ^的公式和准确的计算是求线性回归方程的关键.2.回归直线方程y ^=b ^x +a ^必过样本点的中心(x ,y ).3.在分析两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程来估计和预测.某地最近十年粮食需求量逐年上升,下表是部分统计数据:年份 2006 2008 2010 2012 2014 需求量(万吨)236246257276286(1)利用所给数据求年需求量与年份之间的回归直线方程y ^=b ^x +a ^; (2)利用(1)中所求出的回归直线方程预测该地2016年的粮食需求量.解:(1)由所给数据看出,年需求量与年份之间是近似直线上升,下面来配回归直线方程,为此对数据预处理如下:年份-2 010 -4 -2 0 2 4 需求量-257-21-111929对预处理后的数据,容易算得,x =0,y =3.2,b ^=-4×-21+-2×-11+2×19+4×29-5×0×3.2-42+-22+22+42-5×02=26040=6.5,a ^=y -b ^x =3.2. 由上述计算结果知,所求回归直线方程为 y ^-257=b ^(x -2 010)+a ^=6.5(x -2 010)+3.2, 即y ^=6.5×(x -2 010)+260.2.(2)利用(1)中所求回归直线方程,可预测2016年的粮食需求量为6.5×(2 016-2 010)+260.2=6.5×6+260.2=299.2(万吨).考点3 独立性检验1.分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.2.列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的可能取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为2×2列联表:y1y2总计x1 a b a+bx2 c d c+d总计a+c b+d a+b+c+dK2=n ad-bc2a+b a+c b+d c+d(其中n=________为样本容量),则利用独立性检验判断表来判断“X与Y的关系”.答案:a+b+c+d(1)[教材习题改编]为调查中学生的近视情况,测得某校150名男生中有80名近视,140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,最有说服力的方法是________.(填序号)①回归分析;②期望与方差;③独立性检验;④概率.答案:③解析:“近视”与“性别”是两个分类变量,其是否有关,应该用独立性检验来判断.(2)[教材习题改编]在研究吸烟与患肺癌的关系中,通过收集数据、整理分析数据得出“吸烟与患肺癌有关”的结论,并且有99%以上的把握认为这个结论是成立的,有下列四种说法:①100个吸烟者中至少有99人患有肺癌;②1个人吸烟,那么这人有99%的概率患有肺癌;③在100个吸烟者中一定有患肺癌的人;④在100个吸烟者中可能一个患肺癌的人也没有.其中正确说法的序号是________.答案:④对独立性检验的理解:K2的计算;对P(K2≥k0)的解释.[2017·湖南张家界模拟]某高校教“统计初步”课程的教师随机调查了选该课程的一些学生的情况,具体数据如下表:专业性别非统计专业统计专业男1310女720 为了判断主修统计专业是否与性别有关系,根据表中的数据,得到K2的观测值k=50×13×20-10×7223×27×20×30≈4.844.因为k>3.841,所以判定主修统计专业与性别有关系,那么这种判断出错的可能性为________.附表:P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828 答案:5%解析:∵k>3.841,查临界值表,得P(K2≥3.841)=0.05,故这种判断出错的可能性为5%.[典题3] (1)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表:理科文科总计男131023女72027总计203050已知P2P(K2≥5.024)≈0.025.根据表中数据,得到K2=50×13×20-10×7223×27×20×30≈4.844,则认为选修文理科与性别有关系出错的可能性约为________.[答案]5%[解析]由K2≈4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%.(2)[2017·江西九江模拟]某校数学课外兴趣小组为研究数学成绩是否与性别有关,先统计本校高三年级每个学生一学期数学成绩平均分(采用百分制),剔除平均分在40分以下的学生后,共有男生300名,女生200名.现采用分层抽样的方法,从中抽取了100名学生,按性别分为两组,并将两组学生的成绩分为6组,得到如下所示的频数分布表.分数段[40,50)[50,60)[60,70)[70,80)[80,90)[90,100] 男39181569女64510132①估计男、女生各自的平均分(同一组数据用该组区间中点值作代表),从计算结果看,数学成绩与性别是否有关;②规定80分以上为优分(含80分),请你根据已知条件作出2×2列联表,并判断是否有90%以上的把握认为“数学成绩与性别有关”.优分 非优分 总计 男生 女生 总计100附表及公式:P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.841 6.63510.828K 2=n ad -bc 2a +bc +d a +cb +d.[解] ①x 男=45×0.05+55×0.15+65×0.3+75×0.25+85×0.1+95×0.15=71.5,x 女=45×0.15+55×0.1+65×0.125+75×0.25+85×0.325+95×0.05=71.5,从男、女生各自的平均分来看,并不能判断数学成绩与性别有关.②由频数分布表可知,在抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:优分 非优分 总计 男生 15 45 60 女生 15 25 40 总计3070100可得K 2=100×15×25-15×45260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”. [点石成金] 1.独立性检验的关键是正确列出2×2列联表,并计算出K 2的值. 2.弄清判断两变量有关的把握性与犯错误概率的关系,根据题目要求作出正确的回答.[2017·广西玉林、贵港联考]某市地铁即将于2015年6月开始运营,为此召开了一个价格听证会,拟定价格后又进行了一次调查,随机抽查了50人,他们的收入与态度如下; 月收入 (单位: 百元) [15, 25)[25, 35)[35, 45)[45, 55)[55, 65)[65, 75]赞成定 价者人数 1 2 3 5 3 4认为价 格偏高 者人数4812521“认为价格偏高者”的月平均收入的差距是多少(结果保留2位小数);(2)由以上统计数据填写下面的2×2列联表分析是否有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.月收入低于 55百元的人数月收入不低于 55百元的人数总计认为价 格偏高者赞成 定价者 总计附:K 2=a +bc +d a +c b +d. P (K 2≥k 0)0.05 0.01 k 03.8416.635解:x 1=20×1+30×2+40×3+50×5+60×3+70×41+2+3+5+3+4≈50.56.“认为价格偏高者”的月平均收入为x 2=20×4+30×8+40×12+50×5+60×2+70×14+8+12+5+2+1=38.75,∴“赞成定价者”与“认为价格偏高者”的月平均收入的差距是x 1-x 2=50.56-38.75=11.81(百元).(2)根据条件可得2×2列联表如下:月收入低于55百元的人数月收入不低于55百元的人数总计认为价格偏高者29332 赞成定价者11718 总计401050 K2=50×7×29-3×11210×40×18×32≈6.27<6.635,∴没有99%的把握认为“月收入以55百元为分界点对地铁定价的态度有差异”.[方法技巧] 1.求回归方程,关键在于正确求出系数a^,b^,由于a^,b^的计算量大,计算时应仔细谨慎,分层进行,避免因计算而产生错误.(注意线性回归方程中一次项系数为b^,常数项为a^,这与一次函数的习惯表示不同.)2.回归分析是处理变量相关关系的一种数学方法.主要解决:(1)确定特定量之间是否有相关关系,如果有就找出它们之间贴近的数学表达式;(2)根据一组观察值,预测变量的取值及判断变量取值的变化趋势;(3)求出线性回归方程.[易错防范] 1.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.2.独立性检验中统计量K2的观测值k的计算公式很复杂,在解题中易混淆一些数据的意义,代入公式时出错,而导致整个计算结果出错.真题演练集训1.[2015·福建卷]为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x(万元)8.28.610.011.311.9支出y(万元) 6.27.58.08.59.8 根据上表可得回归直线方程y=b x+a,其中b=0.76,a=y-b x.据此估计,该社区一户年收入为15万元家庭的年支出为( )A.11.4万元 B.11.8万元C.12.0万元 D.12.2万元答案:B解析:由题意知,x=8.2+8.6+10.0+11.3+11.95=10,y=6.2+7.5+8.0+8.5+9.85=8,∴a^=8-0.76×10=0.4,∴当x=15时,y^=0.76×15+0.4=11.8(万元).2.[2016·新课标全国卷Ⅲ]下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1-7分别对应年份2008-2014.(1)由折线图看出,可用线性回归模型拟合y与t的关系,请用相关系数加以说明;(2)建立y关于t的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i=17y i=9.32,∑i=17t i y i=40.17,i=17y i-y2=0.55,7≈2.646.参考公式:相关系数r=∑i=1nt i-t y i-y∑i=1nt i-t2∑i=1ny i-y2,回归方程y^=b^t+a^中斜率和截距的最小二乘估计公式分别为b^=∑i=1nt i-t y i-y∑i=1nt i-t2,a^=y-b^t.解:(1)由折线图中数据和附注中参考数据,得t =4,∑i =17(t i -t)2=28,∑i =17y i -y2=0.55,∑i =17 (t i -t)(y i -y )=∑i =17t i y i -t∑i =17y i =40.17-4×9.32=2.89,r ≈ 2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1),得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.103, a ^=y -b ^t ≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为y ^=0.92+0.10t . 将2016年对应的t =9代入回归方程,得 y ^=0.92+0.10×9=1.82.所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨.3.[2015·新课标全国卷Ⅰ]某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.x y w∑i =18(x i∑i =18(w i∑i =18(x i -∑i =18(w i --x )2-w )2x )(y i -y )w )(y i -y )46.65636.8289.81.61 469108.8表中w i =x i ,w =18∑i =18x i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+β u 的斜率和截距的最小二乘估计分别为β^=∑i =1nu i -uv i -v∑i =1nu i -u2,α^=v -β^u .解:(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^=∑i =18w i -wy i -y∑i =18w i -w2=108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w , 因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值 z ^=0.2(100.6+68x )-x =-x +13.6x +20.12.所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.4.[2014·新课标全国卷Ⅱ]某地区2007年至2013年农村居民家庭人均纯收入y (单位:千元)的数据如下表: 年份 2007 2008 2009 2010 2011 2012 2013 年份代号t 1 2 3 4 5 6 7 人均纯收入y2.93.33.64.44.85.25.9(1)求y 关于t 的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民家庭人均纯收入的变化情况,并预测该地区2015年农村居民家庭人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t .解:(1)由所给数据计算得t =17×(1+2+3+4+5+6+7)=4,y =17×(2.9+3.3+3.6+4.4+4.8+5.2+5.9)=4.3,∑i =17(t i -t )2=9+4+1+0+1+4+9=28,∑i =17(t i -t)(y i -y )=(-3)×(-1.4)+(-2)×(-1)+(-1)×(-0.7)+0×0.1+1×0.5+2×0.9+3×1.6=14,b ^=∑i =17t i -ty i -y∑i =17t i -t2=1428=0.5, a ^=y -b ^t =4.3-0.5×4=2.3.所求回归方程为y ^=0.5t +2.3.(2)由(1)知,b ^=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得 y ^=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.课外拓展阅读 统计案例问题的规范答题[典例] [2013·福建卷]某工厂有25周岁以上(含25周岁)工人300名,25周岁以下工人200名.为研究工人的日平均生产量是否与年龄有关,现采用分层抽样的方法,从中抽取了100名工人,先统计了他们某月的日平均生产件数,然后按工人年龄在“25周岁以上(含25周岁)”和“25周岁以下”分为两组,再将两组工人的日平均生产件数分成5组:[50,60),[60,70),[70,80),[80,90),[90,100]分别加以统计,得到如图所示的频率分布直方图.(1)从样本中日平均生产件数不足60件的工人中随机抽取2人,求至少抽到一名“25周岁以下组”工人的概率;(2)规定日平均生产件数不少于80件者为“生产能手”,请你根据已知条件完成2×2列联表,并判断是否有90%的把握认为“生产能手与工人所在的年龄组有关”?P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828附:K 2=a +bc +d a +cb +d.[审题视角] 由频率分布直方图列举基本事件,结合古典概型,求概率.利用独立性检验公式计算K 2.[解] (1)由已知得,样本中有25周岁以上组工人60名,25周岁以下组工人40名.所以,样本中日平均生产件数不足60件的工人中,25周岁以上组工人有60×0.05=3(人),记为A 1,A 2,A 3;25周岁以下组工人有40×0.05=2(人),记为B 1,B 2.从中随机抽取2名工人,所有的可能结果共有10种,它们是(A 1,A 2),(A 1,A 3),(A 2,A 3),(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).其中,至少有1名“25周岁以下组”工人的可能结果共有7种,它们是(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2).故所求的概率P =710.(2)由频率分布直方图可知,在抽取的100名工人中,“25周岁以上组”中的生产能手有60×0.25=15(人),“25周岁以下组”中的生产能手有40×0.375=15(人),据此可得2×2列联表如下:生产能手 非生产能手总计 25周岁以上组 15 45 60 25周岁以下组15 25 40 总计3070100所以K 2=n ad -bc 2a +bc +d a +cb +d=100×15×25-15×45260×40×30×70=2514≈1.79. 因为1.79<2.706,所以没有90%的把握认为“生产能手与工人所在的年龄组有关”. [答题模板] 第1步:由分层抽样计算两组工人的数目; 第2步:由频率分布直方图计算两组不足60件的人数; 第3步:列举5人抽取2人的基本事件数; 第4步,由古典概型计算概率;第5步:统计生产能手与非生产能手,列2×2列联表; 第6步:由公式计算K 2,确定答案. 归纳总结(1)分层抽样比为100500=15,故25周岁以上有300×15=60(人),25周岁以下的200×15=40(人),然后再根据频率计算“不足60件”的人数,并设定符号.(2)列2×2列联表时,其中的数字应先由频率分布直方图算出后再列表.。
§10.4变量间的相关关系、统计案例考试要求1.会作两个相关变量的数据的散点图,会利用散点图认识变量间的相关关系.2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程.3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.4.了解回归分析的基本思想、方法及其简单应用.知识梳理1.相关关系与回归方程(1)相关关系的分类①正相关在散点图中,点散布在从左下角到右上角的区域,两个变量的这种相关关系称为正相关.②负相关在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(2)线性相关关系如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线.(3)回归方程①最小二乘法求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法.②回归方程方程y ^=b ^x +a ^是两个具有线性相关关系的变量的一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )的回归方程,其中a ^,b ^是待定参数.错误!(4)回归分析①定义:对具有相关关系的两个变量进行统计分析的一种常用方法.②样本点的中心对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其中(x ,y )称为样本点的中心.③相关系数当r >0时,表明两个变量正相关;当r<0时,表明两个变量负相关.r的绝对值越接近于1,表明两个变量的线性相关性越强.r的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r|大于0.75时,认为两个变量有很强的线性相关性.2.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X和Y,它们的取值分别为{x1,x2}和{y1,y2},其样本频数列联表(称为2×2列联表)为y1y2总计x1a b a+bx2c d c+d总计a+c b+d a+b+c+d构造一个随机变量K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),其中n=a+b+c+d为样本容量.(3)独立性检验:利用随机变量K2来判断“两个分类变量有关系”的方法称为独立性检验.常用结论1.回归直线过样本点的中心(x,y).2.求b^时,常用公式b^=错误!.3.回归分析和独立性检验都是基于样本观测数据进行估计或推断,得出的结论都可能犯错误.思考辨析判断下列结论是否正确(请在括号中打“√”或“×”)(1)散点图是判断两个变量相关关系的一种重要方法和手段.(√)(2)线性回归直线y^=b^x+a^至少经过点(x1,y1),(x2,y2),…,(x n,y n)中的一个点.(×)(3)相关系数的绝对值越接近1,样本数据的线性相关程度越强.(√)(4)若分类变量X,Y关系越密切,则由观测数据计算得到的K2的观测值越小.(×)教材改编题1.实验测得四组(x,y)的值为(1,2),(2,3),(3,4),(4,5),则y与x之间的线性回归方程为() A.y^=x+1 B.y^=x+2C.y^=2x+1D.y^=x-1答案A解析由已知可得x =14×(1+2+3+4)=2.5,y =14×(2+3+4+5)=3.5,所以回归直线过点(2.5,3.5),所以把点(2.5,3.5)代入四个选项中验证,可得只有y ^=x +1成立.2.下列关于样本数据的统计分析的判断中正确的是()A .若相关系数r =0,则说明样本数据没有相关性B .相关系数r 越大,样本数据的线性相关性越强C .用最小二乘法求得的线性回归模型的残差和一定是0D .相关指数R 2越大,残差平方和越小,模型的拟合效果越差答案C解析对于A ,当r =0时,只表明样本数据间没有线性相关关系,但是不排除它们之间有其他相关关系,故A 错误;对于B ,相关系数|r |越大,样本数据的线性相关性越强,故B 错误;对于C ,残差和为错误!(y i -y ^i )=错误!y i -(b ^x i +a ^)]=错误!i -b ^错误!i -错误!a ^=n y -nb ^x -na^=n (y -b ^x -a ^)=0,故C 正确;对于D ,相关指数R 2越大,表示残差平方和越小,即模型的拟合效果越好,故D 错误.3.为了判断高中三年级学生是否选修文科与性别的关系.现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720已知P (K 2≥3.841)≈0.05,P (K 2≥5.024)≈0.025.根据表中数据,得到K 2的观测值k =50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.答案5%解析K 2的观测值k ≈4.844>3.841,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.题型一相关关系的判断例1(1)对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图1,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图2.由这两个散点图可以判断()图1图2A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关答案C解析由题图可得两组数据均线性相关,且图1的回归直线的斜率为负,图2的回归直线的斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.(2)下列有关回归分析的说法中不正确的是()A .回归直线必过点(x ,y )B .回归直线就是散点图中经过样本数据点最多的那条直线C .当相关系数r >0时,两个变量正相关D .如果两个变量的线性相关性越弱,则|r |就越接近于0答案B解析对于A ,回归直线必过点(x ,y ),故A 正确;对于B ,回归直线在散点图中可能不经过任一样本数据点,故B 不正确;对于C ,当相关系数r >0时,则两个变量正相关,故C 正确;对于D ,如果两个变量的线性相关性越弱,则|r |就越接近于0,故D 正确.教师备选在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组数据的相关系数为()A .-1B .0C.12D .1答案D解析所有样本点均在同一条斜率为正数的直线上,则相关系数最大,为1.思维升华判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)相关系数:当r >0时,正相关;当r <0时,负相关;|r |越接近于1,相关性越强.(3)线性回归方程:当b ^>0时,正相关;当b ^<0时,负相关.跟踪训练1(1)已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是()A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关答案C解析因为y =-0.1x +1的斜率小于0,故x 与y 负相关.因为y 与z 正相关,可设z =b ^y +a ^,b ^>0,则z =b ^y +a ^=-0.1b ^x +b ^+a ^,故x 与z 负相关.(2)对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是()A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3答案A解析由散点图知图(1)与图(3)是正相关,故r 1>0,r 3>0,图(2)与图(4)是负相关,故r 2<0,r 4<0,且图(1)与图(2)的样本点集中在一条直线附近,因此r 2<r 4<0<r 3<r 1.题型二回归分析命题点1线性回归分析例2(2022·郑州模拟)2021年2月25日,在全国脱贫攻坚总结表彰大会上,习近平总书记庄严宣告:我国脱贫攻坚战取得全面胜利.目前,河南省53个贫困县已经全部脱贫摘帽,退出贫困县序列.2016年起,我省某贫困地区创新开展产业扶贫,响应第三产业的扶贫攻坚政策,经济收入逐年增加.该地的经济收入变化及构成比例如图所示:年份2016年2017年2018年2019年2020年年份代号x12345经济收入y(单位:百万元)59141720(1)根据以上图表,试分析:与2016年相比,2020年第三产业与种植业收入变化情况;(2)求经济收入y关于x的线性回归方程,并预测2025年该地区的经济收入.解(1)①与2016年相比,2020年第三产业的收入占比大幅度增加;②2016年第三产业的收入为0.3百万元,2020年第三产业的收入为6百万元,收入大幅度增加;③与2016年相比,种植业收入占比减少,但种植业收入依然保持增长.(2)由表格中的数据可知,x=1+2+3+4+55=3,y=5+9+14+17+205=13,错误!2i=12+22+32+42+52=55,错误!i y i=1×5+2×9+3×14+4×17+5×20=233,则b ^=错误!=错误!=233-5×3×1355-5×32=3.8,所以a ^=y -b ^x =1.6,故经济收入y 关于x 的线性回归方程为y ^=3.8x +1.6,当x =10时,y ^=39.6,则预测2025年该地区的经济收入为39.6百万元.命题点2非线性回归分析例3(2022·吉林模拟)全球化时代,中国企业靠什么在激烈的竞争中成为世界一流企业呢?由人民日报社指导,《中国经济周刊》主办的第十八届中国经济论坛在人民日报社举行,就中国企业如何提升全球行业竞争力进行了研讨.数据显示,某企业近年加大了科技研发资金的投入,其科技投入x (百万元)与收益y (百万元)的数据统计如下:科技投入x 1234567收益y19202231405070根据数据特点,甲认为样本点分布在指数型曲线y =2bx +a 的周围,据此他对数据进行了一些初步处理.如下表:z 错误!2i错误!i y i错误!i z i错误!(y i -y )2错误!(y i -y i ^)2514012391492134130其中z i =log 2y i ,z =17错误!i .(1)请根据表中数据,建立y 关于x 的非线性回归方程(系数精确到0.1);(2)①乙认为样本点分布在直线y =mx +n 的周围,并计算得回归方程为y ^=8.25x +3,以及该回归模型的相关指数R 2乙=0.893,试比较甲、乙两人所建立的模型,谁的拟合效果更好?②由①所得的结论,计算该企业欲使收益达到1亿元,科技投入的费用至少要多少百万元?(精确到0.1)附:相关指数:R 2=1-错误!.参考数据:log 25≈2.3.解(1)将y =2bx +a 两边取对数得log 2y =bx +a ,令z =log 2y ,则z ^=b ^x +a ^,∵x =4,∴根据最小二乘估计可知,b ^=错误!=149-7×4×5140-7×42≈0.32,∴a ^=z -b ^x =5-0.32×4=3.72≈3.7,∴线性回归方程为z ^=0.3x +3.7,即y ^=20.3x +3.7.(2)①甲建立的回归模型的R 2甲=1-1302134≈0.939>R 2乙=0.893.∴甲建立的回归模型拟合效果更好.②由①知,甲建立的回归模型拟合效果更好.设20.3x +3.7≥100,解得0.3x +3.7≥log 2100=2+2log 25,解得x ≥9.7.∴科技投入的费用至少要9.7百万元,下一年的收益才能达到1亿元.教师备选1.(2022·湖北九师联盟联考)下表是关于某设备的使用年限x (单位:年)和所支出的维修费用y (单位:万元)的统计表.x 23456y3.44.25.15.56.8由上表可得线性回归方程y ^=0.81x +a ^,若规定:维修费用y 不超过10万元,一旦大于10万元,该设备必须报废.据此模型预测,该设备使用年限的最大值约为()A .7B .8C .9D .10答案D解析由表格,得x =15×(2+3+4+5+6)=4,y =15×(3.4+4.2+5.1+5.5+6.8)=5,因为线性回归直线恒过点(x ,y ),所以5=0.81×4+a ^,解得a ^=1.76,所以线性回归方程为y ^=0.81x +1.76,由y ≤10,得0.81x +1.76≤10,解得x ≤82481≈10.17,由于x ∈N *,所以据此模型预测,该设备使用年限的最大值约为10.2.用模型y =c e kx 拟合一组数据时,为了求出回归方程,设z =ln y ,其变换后得到线性回归方程为z =0.5x +2,则c 等于()A .0.5B .e 0.5C .2D .e 2答案D解析因为y =c e kx ,两边取对数得,ln y =ln(c e kx )=ln c +ln e kx =kx +ln c ,则z =kx +ln c ,而z =0.5x +2,于是得ln c =2,即c =e 2.思维升华求线性回归方程的步骤跟踪训练2为实施乡村振兴,科技兴农,某村建起了田园综合体,并从省城请来专家进行技术指导.根据统计,该田园综合体西红柿亩产量的增加量y (千克)与某种液体肥料每亩使用量x (千克)之间的对应数据如下.x (千克)24568y (千克)300400400400500(1)由上表数据可知,可用线性回归模型拟合y 与x 的关系,请计算相关系数r 并加以说明(若|r |>0.75,则线性相关程度很高,可用线性回归模型拟合);(2)求y 关于x 的线性回归方程,并预测当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为多少千克?参考数据:10≈3.16.解(1)由已知数据可得x =2+4+5+6+85=5,y =300+400+400+400+5005=400,所以错误!(x i -x )(y i -y )=(-3)×(-100)+(-1)×0+0×0+1×0+3×100=600,错误!=(-3)2+(-1)2+02+12+32=25,错误!=(-100)2+02+02+02+1002=1002,所以相关系数r =错误!=60025×1002=310≈0.95.因为|r |>0.75,所以可用线性回归模型拟合y 与x 的关系.(2)b ^=错误!=60020=30,a ^=400-5×30=250,所以线性回归方程为y ^=30x +250.当x =15时,y ^=30×15+250=700,即当液体肥料每亩使用量为15千克时,西红柿亩产量的增加量约为700千克.题型三独立性检验例4(2021·全国甲卷)甲、乙两台机床生产同种产品,产品按质量分为一级品和二级品,为了比较两台机床产品的质量,分别用两台机床各生产了200件产品,产品的质量情况统计如下表:一级品二级品总计甲机床15050200乙机床12080200总计270130400(1)甲机床、乙机床生产的产品中一级品的频率分别是多少?(2)能否有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d.P(K2≥k0)0.0500.0100.001k0 3.841 6.63510.828解(1)根据题表中数据知,甲机床生产的产品中一级品的频率是150200=0.75,乙机床生产的产品中一级品的频率是120 200=0.6.(2)根据题表中的数据可得K2=400×(150×80-120×50)2200×200×270×130=40039≈10.256.因为10.256>6.635,所以有99%的把握认为甲机床的产品质量与乙机床的产品质量有差异.教师备选(2020·全国Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级[0,200](200,400](400,600]1(优)216252(良)510123(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次≤400人次>400空气质量好空气质量不好附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),P(K2≥k0)0.0500.0100.001 k0 3.841 6.63510.828解(1)由频数分布表可知,该市一天的空气质量等级为1的概率为2+16+25100=0.43;空气质量等级为2的概率为5+10+12100=0.27;空气质量等级为3的概率为6+7+8100=0.21;空气质量等级为4的概率为7+2+0100=0.09.(2)由频数分布表可知,一天中到该公园锻炼的平均人次的估计值为100×20+300×35+500×45100=350.(3)2×2列联表如下:人次≤400人次>400空气质量好3337空气质量不好228K2=100×(33×8-37×22)255×45×70×30≈5.820>3.841,所以有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.思维升华独立性检验的一般步骤(1)根据样本数据制成2×2列联表;(2)根据公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算;(3)比较K2与临界值的大小关系,作统计推断.跟踪训练3(2022·太原模拟)为进一步保护环境,加强治理空气污染,某市环保监测部门对市区空气质量进行调研,随机抽查了市区100天的空气质量等级与当天空气中SO2的浓度(单位:μg/m3),整理数据得到下表:SO2的浓度空气质量等级[0,50](50,150](150,475]1(优)28622(良)5783(轻度污染)3894(中度污染)11211若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”,根据上述数据,回答以下问题.(1)估计事件“该市一天的空气质量好,且SO2的浓度不超过150”的概率;(2)完成下面的2×2列联表,SO2的浓度空气质量[0,150](150,475]总计空气质量好空气质量不好总计(3)根据(2)中的列联表,能否有99%的把握认为该市一天的空气质量与当天SO2的浓度有关?解(1)由表格可知,该市一天的空气质量好,且SO2的浓度不超过150的天数为28+6+5+7=46,则“该市一天的空气质量好,且SO2的浓度不超过150”的概率P=46100=0.46.(2)由表格数据可得列联表如下,SO2的浓度空气质量[0,150](150,475]总计空气质量好461056空气质量不好242044总计7030100(3)K2=100×(46×20-24×10)270×30×56×44≈8.936>6.635,所以有99%的把握认为该市一天的空气质量与当天SO2的浓度有关.课时精练1.如表是2×2列联表,则表中的a,b的值分别为()y1y2总计x1a835x2113445总计b 4280A.27,38B .28,38C .27,37D .28,37答案A解析a =35-8=27,b =a +11=27+11=38.2.(2022·湘豫名校模拟)根据如表样本数据:x 23456y42.5-0.5-2-3得到的线性回归方程为y ^=b ^x +a ^,则()A.a ^>0,b ^>0 B.a ^>0,b ^<0C.a ^<0,b ^>0 D.a ^<0,b ^<0答案B解析由表中的数据可得,变量y 随着x 的增大而减小,则b ^<0,x =2+3+4+5+65=4,y =4+2.5-0.5-2-35=0.2,又线性回归方程y ^=b ^x +a ^经过点(4,0.2),可得a ^>0.3.某种产品的广告费支出x 与销售额y (单位:万元)之间的关系如表:x 24568y3040605070y 与x 的线性回归方程为y ^=6.5x +17.5,当广告支出6万元时,随机误差的残差为()A .-5B .-5.5C .-6D .-6.5答案D解析由题意结合线性回归方程的预测作用可得,当x =6时,y ^=6.5×6+17.5=56.5,则随机误差的残差为50-56.5=-6.5.4.(2022·宝鸡模拟)蟋蟀鸣叫可以说是大自然优美、和谐的音乐,殊不知蟋蟀鸣叫的频率x (每分钟鸣叫的次数)与气温y (单位:℃)存在着较强的线性相关关系.某地观测人员根据如表的观测数据,建立了y 关于x 的线性回归方程y ^=0.25x +k ,则下列说法不正确的是()x (次数/分钟)2030405060y (℃)2527.52932.536A.k 的值是20B .变量x ,y 呈正相关关系C .若x 的值增加1,则y 的值约增加0.25D .当蟋蟀52次/分鸣叫时,该地当时的气温预测值为33.5℃答案D解析由题意,得x =15×(20+30+40+50+60)=40,y =15×(25+27.5+29+32.5+36)=30,则k =y -0.25x =30-0.25×40=20,故A 正确;由线性回归方程可知,b ^=0.25>0,变量x ,y 呈正相关关系,故B 正确;若x 的值增加1,则y 的值约增加0.25,故C 正确;当x =52时,y ^=0.25×52+20=33,故D 不正确.5.下列说法正确的是()A .设有一个线性回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位B .若两个具有线性相关关系的变量的相关性越强,则相关系数r 的值越接近于1C .在残差图中,残差点分布的水平带状区域越窄,说明模型的拟合精度越低D .在线性回归模型中,相关指数R 2越接近于1,说明回归的效果越好答案D解析A 选项,因为y ^=3-5x ,所以变量x 增加一个单位时,y 平均减少5个单位,故A 错误;B 选项,线性相关性具有正负,相关性越强,则相关系数r 的绝对值越接近于1,故B 错误;C 选项,在残差图中,残差点分布的水平带状区域越窄,说明波动越小,即模型的拟合精度越高,故C 错误;D 选项,在线性回归模型中,相关指数R 2越接近于1,说明模型拟合的精度越高,即回归的效果越好,故D正确.6.2021年5月18日,《佛山市第七次全国人口普查公报》发布.公报显示,佛山市常住人口为9498863人.为了进一步分析数据特征,某数学兴趣小组先将近五次人口普查数据作出散点图(横坐标为人口普查的序号,第三次普查记为1,…,第七次普查记为5,纵坐标为当次人口普查佛山市人口数(单位:万人),再利用不同的函数模型作出回归分析,如图,以下说法正确的是()A.佛山市人口数与普查序号呈负相关关系B.散点的分布呈现出很弱的线性相关特征C.回归方程2的拟合效果更好D.应用线性回归方程1可以预测第八次人口普查时佛山市人口会超过1400万人答案C解析对于A,散点图中的点的分布从左下方至右上方,故呈正相关关系,故A错误;对于B,利用模型1,样本点基本分布在直线的两侧,故具有较强的线性相关特征,故B错误;对于C,因为0.9794>0.9726,所以回归方程2的拟合效果更好,故C正确;对于D,利用模型1,当x=6时,y=183.5×6-1.7=1099.3<1400,故D错误.7.(2022·广州模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表:零件数x(个)1020304050加工时间y(min)62a758189若用最小二乘法求得线性回归方程为y ^=0.67x +54.9,则a 的值为________.答案68解析由已知x =10+20+30+40+505=30,y =62+a +75+81+895=61+2+a 5,所以61+2+a5=0.67×30+54.9,解得a =68.8.(2022·青岛模拟)某驾驶员培训学校为对比了解“科目二”的培训过程采用大密度集中培训与周末分散培训两种方式的效果,调查了105名学员,统计结果为:接受大密度集中培训的55个学员中有45名学员一次考试通过,接受周末分散培训的学员一次考试通过的有30个.根据统计结果,认为“能否一次考试通过与是否集中培训有关”犯错误的概率不超过________.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d ;P (K 2≥k 0)0.050.0250.0100.001k 03.8415.0246.63510.828答案0.025解析由题意可得列联表如下,集中培训分散培训总计一次考过453075一次未考过102030总计5550105K 2=105×(45×20-10×30)255×50×75×30≈6.109>5.024.故犯错误的概率不超过0.025.9.(2022·河南九师联盟联考)机动车行经人行横道时,应当减速慢行:遇行人正在通过人行横道,应当停车让行,俗称“礼让行人”.如表是某市一主干路口监控设备所抓拍的1-5月份驾驶员不“礼让行人”行为统计数据:月份12345违章驾驶员人数1201051009580(1)请利用所给数据求违章人数y 与月份x 之间的线性回归方程y ^=b ^x +a ^,并预测该路口10月份的不“礼让行人”违章驾驶员人数;(2)交警从这5个月内通过该路口的驾驶员中随机抽查70人,调查驾驶员不“礼让行人”行为与驾龄的关系,如表所示:不礼让行人礼让行人驾龄不超过1年2416驾龄1年以上1614判断是否有90%的把握认为“礼让行人”行为与驾龄有关?解(1)由表中的数据可知,x =1+2+3+4+55=3,y =120+105+100+95+805=100,所以b ^=错误!=1410-150055-45=-9,故a ^=y -b ^x =100-(-9)×3=127,所以所求的线性回归方程为y ^=-9x +127;令x =10,则y ^=-9×10+127=37.(2)K 2=70×(24×14-16×16)240×30×40×30=1445≈0.311<2.706,因此,没有90%以上的把握认为“礼让行人”行为与驾龄有关.10.现代物流成为继劳动力、自然资源外影响企业生产成本及利润的重要因素.某企业去年前八个月的物流成本和企业利润的数据(单位:万元)如表所示:月份12345678物流成本x 8383.58086.58984.57986.5利润y114116106122132114m 132残差e i ^=y i -y i^0.20.61.8-3-1-4.6-1根据最小二乘法估计公式求得线性回归方程为y ^=3.2x -151.8.(1)求m 的值,并利用已知的线性回归方程求出8月份对应的残差值e ^8;(2)请先求出线性回归模型y ^=3.2x -151.8的相关指数R 2(精确到0.0001);若根据非线性回归模型y =267.76ln x -1069.2求得解释变量(物流成本)对于预报变量(利润)的相关指数R 20=0.9057,请说明以上两种模型哪种模型拟合效果更好?(3)通过残差分析,怀疑残差绝对值最大的那组数据有误,经再次核实后发现其真正利润应该为116万元.请重新根据最小二乘法的思想与公式,求出新的回归方程.附(修正前的参考数据):错误!i y i =78880,错误!2i =56528,x =84,错误!(y i -y )2=904.解(1)因为y ^=3.2x -151.8,x =84,所以y =3.2×84-151.8=117,114+116+106+122+132+114+m +132=117×8,解得m =100,所以8月份对应的残差值e ^8=132-3.2×86.5+151.8=7.(2)由已知公式得错误!(y i -y i ^)2=0.22+0.62+1.82+(-3)2+(-1)2+(-4.6)2+(-1)2+72=84.8,R 2=1-错误!=1-84.8904≈0.9062>R 20,所以线性回归模型y ^=3.2x -151.8拟合效果更好.(3)第八组数据的利润应为116万元,此时错误!i y i =78880-86.5×16=77496,又错误!2i =56528,x =84,y =117-168=115,所以b ^=错误!=77496-8×84×11556528-8×842=2.7,a ^=115-2.7×84=-111.8,所以重新采集数据后,回归方程为y ^=2.7x -111.8.11.某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修该课程的55名学生,得到数据如下表:喜欢统计课程不喜欢统计课程男生205女生1020临界值参考:P (K 2≥k 0)0.100.050.250.0100.0050.001k 02.7063.8415.0246.6357.87910.828(参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d )参照附表,得到的正确结论是()A .在犯错误的概率不超过0.1%的前提下,认为“喜欢‘应用统计’课程与性别有关”B .在犯错误的概率不超过0.1%的前提下,认为“喜欢‘应用统计’课程与性别无关”C .有99%以上的把握认为“喜欢‘应用统计’课程与性别有关”D .有99%以上的把握认为“喜欢‘应用统计’课程与性别无关”答案A 解析K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )=55×(20×20-10×5)230×25×30×25=5394512.0>10.828,故在犯错误的概率不超过0.1%的前提下,认为“喜欢‘应用统计’课程与性别有关”.12.已知变量y 与x 的一组数据如表所示,根据数据得到y 关于x 的非线性回归方程为y ^=e bx -1.x 1234ye 2e 3e 5e 6若y ^=e 13,则x 等于()A .6B .7C .8D .9答案B解析由y ^=e bx -1,得ln y ^=bx -1,令z =ln y ,则z ^=bx -1,由题意知,x =1+2+3+44=2.5,z =2+3+5+64=4,因为(x ,z )满足z ^=bx -1,所以4=b ×2.5-1,解得b =2,所以z ^=2x -1,所以y ^=e 2x -1,令e 2x -1=e 13,解得x =7.13.(2022·武汉部分重点中学联考)下列选项中,正确的是()A .对于回归分析,相关系数r 的绝对值越小,说明拟合效果越好B .以模型y =c ·e kx 去拟合一组数据时,为了求出回归方程,设z =ln y ,将其变换后得到线性回归方程z ^=0.3x +4,则c ,k 的值分别是e 4和0.3C .线性回归方程y ^=b ^x +a ^中,b ^的符号和相关系数r 的符号无关D .通过回归直线y ^=b ^x +a ^及回归系数b ^,可以精确反映变量的取值和变化趋势答案B解析对于A ,回归分析中,相关系数绝对值越大,拟合效果越好,A 不正确;对于B ,由y =c ·e kx 两边取对数得ln y =kx +ln c ,依题意,k =0.3,ln c =4,即c =e 4,B 正确;对于C ,由公式知,C 不正确.对于D ,回归直线y ^=b ^x +a ^及回归系数b ^,不能精确反映变量的取值和变化趋势,D 不正确.14.(2022·漳州模拟)根据下面的数据:x 1234y32487288求得y 关于x 的线性回归方程为y ^=19.2x +12,则这组数据相对于所求的线性回归方程的4个残差的方差为________.(注:残差是指实际观测值与预测值之间的差)答案 3.2解析把x =1,2,3,4依次代入线性回归方程y ^=19.2x +12,所得预测值依次为y ^1=31.2,y ^2=50.4,y ^3=69.6,y ^4=88.8,对应的残差依次为0.8,-2.4,2.4,-0.8,它们的平均数为0,所以4个残差的方差为s 2=0.82+(-2.4)2+2.42+(-0.8)24=3.2.15.已知由样本数据(x i ,y i ),i =1,2,3,4,5,6求得的线性回归方程为y ^=2x +1,且x =3.现发现一个样本数据(8,12)误差较大,去除该数据后重新求得的回归直线l 的纵截距依然是1,则下列说法不正确的是()A .去除前变量x 每增加1个单位,变量y 一定增加2个单位B .去除后剩余样本数据中x 的平均数为2C .去除后的线性回归方程为y ^=2.5x +1D .去除后相关系数r 变大答案A解析当x =3时,y =2×3+1=7,则错误!i =6x =18,错误!i =6y =42,去除样本数据(8,12)后的新数据,x ′=18-85=2,y ′=42-125=6,设去除样本数据(8,12)后重新求得的线性回归方程为y ^=a ^x +1,则2a ^+1=6,解得a ^=2.5,故去除后的线性回归方程为y ^=2.5x +1,C 正确;对于A 选项,去除前变量x 每增加1个单位,变量y 大约增加2个单位,A 错误;对于B 选项,去除后剩余样本数据中x 的平均数为2,B 正确;对于D 选项,去除了误差较大的样本数据后,线性相关性变强,因为y 关于x 为正相关,则r >0,所以,相关系数r 变大,D 正确.16.(2022·石嘴山模拟)商务部会同海关总署、国家药监局于3月31日发布关于有序开展医疗物资出口的公告.如医疗物资出口中出现质量问题,将认真调查,发现一起,查处一起,切实维护“中国制造”的形象,更好地发挥医疗物资对支持全球疫情防控的重要作用.为了监控某种医疗物资的一条生产线的生产过程,检验员每隔30min 从该生产线上随机抽取一个医疗物资,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个医疗物资的尺寸:抽取次数医疗物资尺寸抽取次数医疗物资尺寸19.95910.26210.12109.9139.961110.1349.961210.02510.01139.2269.921410.0479.981510.05810.04169.95。
第84讲成对数据的统计分析知识梳理知识点一、变量间的相关关系1、变量之间的相关关系当自变量取值一定时,因变量的取值带有一定的随机性,则这两个变量之间的关系叫相关关系.由于相关关系的不确定性,在寻找变量之间相关关系的过程中,统计发挥着非常重要的作用.我们可以通过收集大量的数据,在对数据进行统计分析的基础上,发现其中的规律,对它们的关系作出判断.注意:相关关系与函数关系是不同的,相关关系是一种非确定的关系,函数关系是一种确定的关系,而且函数关系是一种因果关系,但相关关系不一定是因果关系,也可能是伴随关系.2、散点图将样本中的n 个数据点(,)(1,2,,)i i x y i n =⋅⋅⋅描在平面直角坐标系中,所得图形叫做散点图.根据散点图中点的分布可以直观地判断两个变量之间的关系.(1)如果散点图中的点散布在从左下角到右上角的区域内,对于两个变量的这种相关关系,我们将它称为正相关,如图(1)所示;(2)如果散点图中的点散布在从左上角到右下角的区域内,对于两个变量的这种相关关系,我们将它称为负相关,如图(2)所示.3、相关系数若相应于变量x 的取值i x ,变量y 的观测值为(1)i y i n ≤≤,则变量x 与y的相关系数()nnii iixx y y x ynx yr ---==∑∑通常用r 来衡量x 与y 之间的线性关系的强弱,r 的范围为11r -≤≤.(1)当0r >时,表示两个变量正相关;当0r <时,表示两个变量负相关.(2)r 越接近1,表示两个变量的线性相关性越强;r 越接近0,表示两个变量间几乎不存在线性相关关系.当||1r =时,所有数据点都在一条直线上.(3)通常当0.75r >时,认为两个变量具有很强的线性相关关系.知识点二、线性回归1、线性回归线性回归是研究不具备确定的函数关系的两个变量之间的关系(相关关系)的方法.对于一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程y bx a =+ 的求法为1122211()()nni i i ii i nni i i i x x y y x ynx yb x x x nxa y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑ 其中,11n i i x x n ==∑,11ni i y y n ==∑,(x ,y )称为样本点的中心.2、残差分析对于预报变量y ,通过观测得到的数据称为观测值i y ,通过回归方程得到的 y 称为预测值,观测值减去预测值等于残差,ˆi e称为相应于点(,)i i x y 的残差,即有ˆi e =ˆi i y y -.残差是随机误差的估计结果,通过对残差的分析可以判断模型刻画数据的效果以及判断原始数据中是否存在可疑数据等,这方面工作称为残差分析.(1)残差图通过残差分析,残差点()ˆ,i i x e比较均匀地落在水平的带状区域中,说明选用的模型比较合适,其中这样的带状区域的宽度越窄,说明模型拟合精确度越高;反之,不合适.(2)通过残差平方和21ˆ()ni i i Q y y==-∑分析,如果残差平方和越小,则说明选用的模型的拟合效果越好;反之,不合适.(3)相关指数用相关指数来刻画回归的效果,其计算公式是:22121ˆ()1()nii i n ii yyR yy ==-=--∑∑.2R 越接近于1,说明残差的平方和越小,也表示回归的效果越好.知识点三、非线性回归解答非线性拟合问题,要先根据散点图选择合适的函数类型,设出回归方程,通过换元将陌生的非线性回归方程化归转化为我们熟悉的线性回归方程.求出样本数据换元后的值,然后根据线性回归方程的计算方法计算变换后的线性回归方程系数,还原后即可求出非线性回归方程,再利用回归方程进行预报预测,注意计算要细心,避免计算错误.1、建立非线性回归模型的基本步骤:(1)确定研究对象,明确哪个是解释变量,哪个是预报变量;(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(是否存在非线性关系);(3)由经验确定非线性回归方程的类型(如我们观察到数据呈非线性关系,一般选用反比例函数、二次函数、指数函数、对数函数、幂函数模型等);(4)通过换元,将非线性回归方程模型转化为线性回归方程模型;(5)按照公式计算线性回归方程中的参数(如最小二乘法),得到线性回归方程;(6)消去新元,得到非线性回归方程;(7)得出结果后分析残差图是否有异常.若存在异常,则检查数据是否有误,或模型是否合适等.知识点四、独立性检验1、分类变量和列联表(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这样的变量称为分类变量.(2)列联表:①定义:列出的两个分类变量的频数表称为列联表.②2×2列联表.一般地,假设有两个分类变量X 和Y ,它们的取值分别为{1x ,2x }和{1y ,2y },其样本频数列联表(称为2×2列联表)为1y 2y 总计1x aba b2x cd c d+总计a c+b d+n a b c d=+++从22⨯列表中,依据a a b +与cc d+的值可直观得出结论:两个变量是否有关系.2、等高条形图(1)等高条形图和表格相比,更能直观地反映出两个分类变量间是否相互影响,常用等高条形图表示列联表数据的频率特征.(2)观察等高条形图发现a a b +与cc d+相差很大,就判断两个分类变量之间有关系.3、独立性检验计算随机变量22()()()()()n ad bc a b c d a c b d χ-=++++利用2χ的取值推断分类变量X 和Y 是否独立的方法称为χ2独立性检验.α0.100.050.0100.0050.001x α2.7063.8416.6357.87910.828【解题方法总结】常见的非线性回归模型(1)指数函数型x y ca =(0a >且1a ≠,0c >)两边取自然对数,()ln ln x y ca =,即ln ln ln y c x a =+,令ln y yx x '=⎧⎨'=⎩,原方程变为ln ln y c x a ''=+,然后按线性回归模型求出ln a ,ln c .(2)对数函数型ln y b x a=+令ln y y x x'=⎧⎨'=⎩,原方程变为y bx a ''=+,然后按线性回归模型求出b ,a .(3)幂函数型ny ax =两边取常用对数,()lg lg n y ax =,即lg lg lg y n x a =+,令lg lg y y x x'=⎧⎨'=⎩,原方程变为lg y nx a ''=+,然后按线性回归模型求出n ,lg a .(4)二次函数型2y bx a=+令2y y x x'=⎧⎨'=⎩,原方程变为y bx a ''=+,然后按线性回归模型求出b ,a .(5)反比例函数型b y a x=+型令1y y x x '=⎧⎪⎨'=⎪⎩,原方程变为y bx a ''=+,然后按线性回归模型求出b ,a .必考题型全归纳题型一:变量间的相关关系例1.(2024·河北·高三校联考期末)下列四幅残差分析图中,与一元线性回归模型拟合精度最高的是()A .B.C.D .例2.(2024·天津蓟州·高三校考开学考试)对两个变量x ,y 进行线性相关检验,得线性相关系数10.8995r =,对两个变量u ,v 进行线性相关检验,得线性相关系数20.9568r =-,则下列判断正确的是()A .变量x 与y 正相关,变量u 与v 负相关,变量x 与y 的线性相关性较强B .变量x 与y 负相关,变量u 与v 正相关,变量x 与y 的线性相关性较强C .变量x 与y 正相关,变量u 与v 负相关,变量u 与v 的线性相关性较强D .变量x 与y 负相关,变量u 与v 正相关,变量u 与v 的线性相关性较强例3.(2024·宁夏吴忠·高三盐池高级中学校考阶段练习)在如图所示的散点图中,若去掉点P,则下列说法正确的是()A.样本相关系数r变大B.变量x与变量y的相关程度变弱C.变量x与变量y呈正相关D.变量x与变量y的相关程度变强变式1.(2024·四川成都·高三统考阶段练习)已知建筑地基沉降预测对于保证施工安全,实现信息化监控有着重要意义.某工程师建立了四个函数模型来模拟建筑地基沉降随时间的变化趋势,并用相关指数、误差平方和、均方根值三个指标来衡量拟合效果.相关指数越接近1表明模型的拟合效果越好,误差平方和越小表明误差越小,均方根值越小越好.依此判断下面指标对应的模型拟合效果最好的是()A.相关指数误差平方和均方根值0.9498.4910.499B.相关指数误差平方和均方根值0.933 4.1790.436C.相关指数误差平方和均方根值0.997 1.7010.141D.相关指数误差平方和均方根值0.997 2.8990.326变式2.(2024·高三课时练习)甲、乙、丙、丁四位同学各自对,A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r0.820.780.690.85m106115124103则能体现A,B两变量有更强的线性相关性的是()A.甲B.乙C.丙D.丁变式3.(2024·河北石家庄·统考三模)观察下列四幅残差图,满足一元线性回归模型中对随机误差的假定的是()A.B.C.D.变式4.(2024·全国·高三专题练习)甲、乙、丙、丁四位同学分别对一组变量进行线性相关试验,并分别计算出相关系数r,则线性相关程度最高的是()甲乙丙丁r0.870.910.580.83A.甲B.乙C.丙D.丁变式5.(2024·全国·高三专题练习)给出下列有关线性回归分析的四个命题:x y;①线性回归直线未必过样本数据点的中心()②回归直线就是散点图中经过样本数据点最多的那条直线;r 时,两个变量正相关;③当相关系数0④如果两个变量的相关性越强,则相关系数r就越接近于1.其中真命题的个数为()A.1B.2C.3D.4【解题方法总结】判定两个变量相关性的方法(1)画散点图:点的分布从左下角到右上角,两个变量正相关;点的分布从左上角到右下角,两个变量负相关.(2)样本相关系数:当r >0时,正相关;当r <0时,负相关;|r |越接近于1,相关性越强.(3)经验回归方程:当ˆ>0b时,正相关;当ˆ<0b 时,负相关.题型二:一元线性回归模型例4.(2024·天津蓟州·高三校考开学考试)为研究某种细菌在特定环境下,随时间变化的繁殖情况,得到如下实验数据:天数(x 天)3456繁殖个数(y 千个)2.5344.5由最小二乘法得y 与x 的线性回归方程为 0.7y x a=+,则当7x =时,繁殖个数y 的预测值为()A .4.9B .5.25C .5.95D .6.15例5.(2024·湖南长沙·高三长郡中学校联考阶段练习)某社区为了丰富退休人员的业余文化生活,自2018年以来,始终坚持开展“悦读小屋读书活动”.下表是对2018年以来近5年该社区退休人员的年人均借阅量的数据统计:年份20182019202020212022年份代码x 12345年人均借阅量y (册)1y 2y 162228(参考数据:5190i i y ==∑)通过分析散点图的特征后,年人均借阅量y 关于年份代码x 的回归分析模型为 5y x m =+,则2024年的年人均借阅量约为()A .31B .32C .33D .34例6.(2024·辽宁·辽宁实验中学校考模拟预测)已知x ,y 的对应值如下表所示:x2468y 11m +21m +33m +11若y 与x 线性相关,且回归直线方程为 1.60.6y x =+,则m =()A .2B .3C .4D .5变式6.(2024·广西南宁·南宁二中校联考模拟预测)某单位在当地定点帮扶某村种植一种草莓,并把这种原本露天种植的草莓搬到了大棚里,获得了很好的经济效益.根据资料显示,产出的草莓的箱数x (单位:箱)与成本y (单位:千元)的关系如下:x 102030406080y1y 2y 3y 4y 5y 6y (1)根据散点图可以认为x 与y 之间存在线性相关关系,请用最小二乘法求出线性回归方程ˆˆˆybx a =+(ˆa ,ˆb 用分数表示)(2)某农户种植的草莓主要以300元/箱的价格给当地大型商超供货,多余的草莓全部以200元/箱的价格销售给当地小商贩.据统计,往年1月份当地大型商超草莓的需求量为50箱、100箱、150箱、200箱的概率分别为110,15,12,15,根据回归方程以及往年商超草莓的需求情况进行预测,求今年1月份农户草莓的种植量为200箱时所获得的利润情况.(最后结果精确到个位)附:()()61790i i i x x y y =--=∑,6154i i y ==∑,在线性回归直线方程ˆˆˆybx a =+中()()()121ˆniii nii x x y y bx x ==--=-∑∑,ˆˆay bx =-.变式7.(2024·江西·高三统考开学考试)某新能源汽车销售部对今年1月至7月的销售量进行统计与分析,因不慎丢失一些数据,现整理出如下统计表与一些分析数据:月份1月2月3月4月5月6月7月月份代号x1234567销售量y (单位:万辆)15.6m ns37.739.644.5其中31.2y =.(1)若m ,n ,s 成递增的等差数列,求从7个月的销售量中任取1个,月销售量不高于27万辆的概率;(2)若()721670.48i i y y =-=∑,x 与y 的样本相关系数0.99r =,求y 关于x 的线性回归方程ˆˆˆybx a =+,并预测今年8月份的销售量(ˆb 精确到0.1).附:相关系数()()niix x y y r --=∑ˆˆˆybx a =+中斜率和截距的最小二乘估计公式分别为()()()121ˆniii niix x y y bx x ==--=-∑∑,ˆˆay bx =-.2.65≈25.89≈.变式8.(2024·四川成都·高三石室中学校考开学考试)已知某绿豆新品种发芽的适宜温度在6~22℃℃之间,一农学实验室研究人员为研究温度x (℃)与绿豆新品种发芽数y (颗)之间的关系,每组选取了成熟种子50颗,分别在对应的8~14℃℃的温度环境下进行实验,得到如下散点图:其中24y =,71()()70i i i x x y y =--=∑,721()=176i i y y =-∑.(1)运用相关系数进行分析说明,是否可以用线性回归模型拟合y 与x 的关系?(2)求出 y 关于 x 的线性回归方程y bx a =+$$$,并预测在19℃的温度下,种子的发芽的颗数.参考公式:相关系数()()niix x y y r --=∑y bx a =+$$$,其中121((niii nii x x y y bx x ==--=-∑∑ ,a y bx =-$$8.77≈.变式9.(2024·安徽亳州·蒙城第一中学校联考模拟预测)为调查某地区植被覆盖面积x (单位:公顷)和野生动物数量y 的关系,某研究小组将该地区等面积花分为400个区块,从中随机抽取40个区块,得到样本数据(),i i x y (1,2,,40i = ),部分数据如下:x … 2.7 3.6 3.2 3.9…y…50.663.752.154.3…经计算得:401160==∑i i x ,4012400==∑i i y ,()4021160=-=∑i i x x ,()()4011280=--=∑i i i x x y y .(1)利用最小二乘估计建立y 关于x 的线性回归方程;(2)该小组又利用这组数据建立了x 关于y 的线性回归方程,并把这两条拟合直线画在同一坐标系xOy 下,横坐标x ,纵坐标y 的意义与植被覆盖面积x 和野生动物数量y 一致.设前者与后者的斜率分别为1k ,2k ,比较1k ,2k 的大小关系,并证明.附:y 关于x 的回归方程 y abx =+ 中,斜率和截距的最小二乘估计公式分别为:1221ˆni ii nii x y nx ybxnx==-⋅=-∑∑,a y bx =-$$,ni ix y nx yr -=∑【解题方法总结】求经验回归方程的步骤题型三:非线性回归例7.(2024·湖南·校联考模拟预测)若需要刻画预报变量w 和解释变量x 的相关关系,且从已知数据中知道预报变量w 随着解释变量x 的增大而减小,并且随着解释变量x 的增大,预报变量w 大致趋于一个确定的值,为拟合w 和x 之间的关系,应使用以下回归方程中的(0b >,e 为自然对数的底数)()A .w bx a=+B .ln w b x a=-+C .w a=-D .e xw b a-=+例8.(2024·全国·高三专题练习)云计算是信息技术发展的集中体现,近年来,我国云计算市场规模持续增长.已知某科技公司2018年至2022年云计算市场规模数据,且市场规模y与年份代码x 的关系可以用模型21e c xy c =(其中e 为自然对数的底数)拟合,设ln z y =,得到数据统计表如下:年份2018年2019年2020年2021年2022年年份代码x12345云计算市场规模y /千万元7.4112036.666.7ln z y=22.433.64由上表可得经验回归方程0.52z x a =+,则2025年该科技公司云计算市场规模y 的估计值为()A . 5.08e B . 5.6e C . 6.12e D . 6.5e例9.(多选题)(2024·福建厦门·厦门一中校考三模)在对具有相关关系的两个变量进行回归分析时,若两个变量不呈线性相关关系,可以建立含两个待定参数的非线性模型,并引入中间变量将其转化为线性关系,再利用最小二乘法进行线性回归分析.下列选项为四个同学根据自己所得数据的散点图建立的非线性模型,且散点图的样本点均位于第一象限,则其中可以根据上述方法进行回归分析的模型有()A .212y c x c x=+B .12x c y x c +=+C .()12ln y c x c =++D .21x c y c e+=变式10.(2024·全国·高三专题练习)已知变量的关系可以用模型e mx y k =拟合,设ln z y =,其变换后得到一组数据如下.由上表可得线性回归方程3z x a =+,则k =()x 12345z2451014A .3e -B .2e -C .2e D .3e 变式11.(2024·全国·高三专题练习)某校课外学习小组研究某作物种子的发芽率y 和温度x (单位:C )的关系,由实验数据得到如图所示的散点图.由此散点图判断,最适宜作为发芽率y 和温度x 的回归方程类型的是()A .y a bx =+B .()20y a bx b =+>C .e xy a b =+D .ln y a b x=+变式12.(2024·全国·高二专题练习)兰溪杨梅从5月15日起开始陆续上市,据调查统计,得到杨梅销售价格(单位:Q 元/千克)与上市时间t (单位:天)的数据如下表所示:时间t /(单位:天)102070销售价格Q (单位:元/千克)10050100根据上表数据,从下列函数模型中选取一个描述杨梅销售价格Q 与上市时间t 的变化关系:2,,,log t b Q at b Q at bt c Q a b Q a t =+=++=⋅=⋅.利用你选取的函数模型,在以下四个日期中,杨梅销售价格最低的日期为()A .6月5日B .6月15日C .6月25日D .7月5日变式13.(2024·四川泸州·高三四川省泸县第四中学校考开学考试)抗体药物的研发是生物技术制药领域的一个重要组成部分,抗体药物的摄入量与体内抗体数量的关系成为研究抗体药物的一个重要方面.某研究团队收集了10组抗体药物的摄入量与体内抗体数量的数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值,抗体药物摄入量为x (单位:mg ),体内抗体数量为y (单位:AU/mL ).101i ii t z=∑101ii t=∑101ii z=∑1021ii t=∑29.2121634.4(1)根据经验,我们选择d y cx =作为体内抗体数量y 关于抗体药物摄入量x 的回归方程,将d y cx =两边取对数,得ln ln ln y c d x =+,可以看出ln x 与ln y 具有线性相关关系,试根据参考数据建立y 关于x 的回归方程,并预测抗体药物摄入量为25mg 时,体内抗体数量y 的值;(2)经技术改造后,该抗体药物的有效率z 大幅提高,经试验统计得z 服从正态分布()20.48,0.03N :,那这种抗体药物的有效率z 超过0.54的概率约为多少?附:①对于一组数据()(),1,2,,10i i u v i =L ,其回归直线 vu a β=+ 的斜率和截距的最小二乘估计分别为µ1221ni i i nii u v nuvunuβ==-=-∑∑, av u β=- ;②若随机变量()2~,Z N μσ,则有()0.6826P Z μσμσ-<<+≈,(22)0.9544P Z μσμσ-<<+≈,(33)0.9974P Z μσμσ-<<+≈;③取e 2.7≈.变式14.(2024·江西赣州·高三校考阶段练习)为了研究某种细菌随天数x 变化的繁殖个数y ,收集数据如下:天数x 123456繁殖个数y612254995190(1)在图中作出繁殖个数y 关于天数x 变化的散点图,并由散点图判断ˆˆy bxa =+( ˆ,ab 为常数)与 21e ˆc xc y =( 12,c c 为常数,且 120,0c c >≠)哪一个适宜作为繁殖个数y 关于天数x 变化的回归方程类型?(给出判断即可,不必说明理由)(2)对于非线性回归方程 21e ˆc xc y =( 12,c c 为常数,且 120,0c c >≠),令ln z y =,可以得到繁殖个数的对数z 关于天数x 具有线性关系及一些统计量的值.xyz()621ii x x =-∑()()61ii i xx y y =--∑()()61ii i xx z z =--∑3.5062.83 3.5317.50596.5712.09(ⅰ)证明:“对于非线性...回归方程 21e ˆc x c y =,令ln z y =,可以得到繁殖个数的对数z 关于天数x 具有线性..关系(即ˆˆˆ,ˆˆ,z x βαβα=+为常数)”;(ⅱ)根据(ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程(系数保留2位小数).附:对于一组数据()()()1122,,,,,,n n u v u v u v ,其回归直线方程ˆˆˆvu βα=+的斜率和截距的最小二乘估计分别为()()()121ˆˆˆ,niii nii u u v v v u u u βαβ==--==--∑∑.变式15.(2024·重庆沙坪坝·高三重庆八中校考阶段练习)在正常生产条件下,根据经验,可以认为化肥的有效利用率近似服从正态分布2(0.54,0.02)N ,而化肥施肥量因农作物的种类不同每亩也存在差异.(1)假设生产条件正常,记X 表示化肥的有效利用率,求(0.56)PX ≥;(2)课题组为研究每亩化肥施用量与某农作物亩产量之间的关系,收集了10组数据,并对这些数据作了初步处理,得到了如图所示的散点图及一些统计量的值.其中每亩化肥施用量为x (单位:公斤),粮食亩产量为y (单位:百公斤)参考数据:101i ii x y =∑101ii x =∑101ii y =∑1021ii x=∑101ii i t z =∑101ii t =∑101ii z =∑1021ii t=∑65091.552.51478.630.5151546.5ln i i t x =,ln (1i zi y i ==,2,⋯,10).(i )根据散点图判断,y a bx =+与d y cx =,哪一个适宜作为该农作物亩产量y 关于每亩化肥施用量x 的回归方程(给出判断即可,不必说明理由);(ii )根据(i )的判断结果及表中数据,建立y 关于x 的回归方程;并预测每亩化肥施用量为27公斤时,粮食亩产量y 的值.(e 2.7)≈附:①对于一组数据(,)(1i i u v i =,2,3,⋯,)n ,其回归直线ˆˆˆvu βα=+的斜率和截距的最小二乘估计分别为121ˆni i i nii u v nuvunu β==-=-∑∑,ˆˆˆv u αβ=-;②若随机变量2(,)X N μσ ,则()0.6827P X μσμσ-<<+≈,(22)0.9545P X μσμσ-<<+≈.变式16.(2024·重庆·高三校联考开学考试)某公司为了解年研发资金投入量x (单位:亿元)对年销售额y (单位:亿元)的影响.对公司近12年的年研发资金投入量xi 和年销售额yi 的数据,进行了对比分析,建立了两个模型:①2ˆˆy x αβ=+,②ˆˆe x t y λ+=$,其中α,β,λ,t 均为常数,e 为自然对数的底数,并得到一些统计量的值.令()2,,l 1n ,2,3,,12i i i i x i u v y =⋅⋅⋅==,经计算得如下数据:xy()1221i i x x =-∑()1221i i y y=-∑uv20667724604.20()1221ii uu=-∑()()121iii u u y y =--∑()1221ii v v =-∑()()121iii x x v v =--∑312502153.0814(1)请从相关系数的角度,分析哪一个模型拟合程度更好?(2)(ⅰ)根据分析及表中数据,建立y 关于x 的回归方程;(ⅱ)若下一年销售额y 需达到90亿元,预测下一年的研发资金投入量x 是多少亿元?附:①相关系数()()niix x y y r --=∑ˆˆy abx =+$中公式分别为()()()1122211ˆˆˆ,n niii ii i nniii i x x y y x y nx ybay b x x x xnx====---⋅===-⋅--∑∑∑∑;②参考数据: 4.499830849.4868,e 90=⨯≈≈.变式17.(2024·江苏镇江·江苏省镇江中学校考三模)经观测,长江中某鱼类的产卵数y 与温度x 有关,现将收集到的温度i x 和产卵数()1,2,,10i y i = 的10组观测数据作了初步处理,得到如图的散点图及一些统计量表.101ii x=∑101ii t=∑101ii y=∑101ii z=∑()1021ii x x =-∑36054.5136044384()1021ii tt=-∑()()101ii i tt y y =--∑()()101iii x x zz =--∑()()101iii x x y y =--∑3588326430表中1011ln ,10i i i ii t z y z z ====∑(1)根据散点图判断,,y a bx y n =+=+21e c xy c =哪一个适宜作为y 与x 之间的回归方程模型并求出y 关于x 回归方程;(给出判断即可,不必说明理由)(2)某兴趣小组抽取两批鱼卵,已知第一批中共有6个鱼卵,其中“死卵”有2个;第二批中共有8个鱼卵,其中“死卵”有3个.现随机挑选一批,然后从该批次中随机取出2个鱼卵,求取出“死卵”个数的分布列及数学期望.附:对于一组数据()()()1122,,,,,n n u v u v u v ,其回归直线v u αβ=+的斜率和截距的最小二乘估计分别为()()()121,niii nii u u v v v u u u βαβ==--==--∑∑.变式18.(2024·广西南宁·南宁三中校考一模)数据显示中国车载音乐已步入快速发展期,随着车载音乐的商业化模式进一步完善,市场将持续扩大,下表为2018-2022年中国车载音乐市场规模(单位:十亿元),其中年份2018—2022对应的代码分别为1-5.年份代码x12345车载音乐市场规模y2.83.97.312.017.0(1)由上表数据知,可用指数函数模型x y a b =⋅拟合y 与x 的关系,请建立y 关于x 的回归方程;(2)根据上述数据求得y 关于x 的回归方程后,预测2024年的中国车载音乐市场规模.参考数据:v51i ii x v=∑0.524e 0.472e 71.61.9433.82 1.7 1.626.84其中ln i i v y =,5115i i v v ==∑.参考公式:对于一组数据()11,u v ,()22,u v ,L ,(),n n u v 其回归直线ˆˆˆv u αβ=+的斜率和截距的最小二乘法估计公式分别为 121ni ii ni i u v nu vu nuβ==-⋅=-∑∑,ˆˆv u αβ=-.变式19.(2024·安徽合肥·合肥市第八中学校考模拟预测)当前移动网络已融入社会生活的方方面面,深刻改变了人们的沟通、交流乃至整个生活方式.4G 网络虽然解决了人与人随时随地通信的问题,但随着移动互联网快速发展,其已难以满足未来移动数据流量暴涨的需求,而5G 作为一种新型移动通信网络,不但可以解决人与人的通信问题,而且还可以为用户提供增强现实、虚拟现实、超高清(3D )视频等更加身临其境的极致业务体验,更重要的是还可以解决人与物、物与物的通信问题,从而满足移动医疗、车联网、智能家居、工业控制、环境监测等物联网应用需求,为更好的满足消费者对5G 网络的需求,中国电信在某地区推出了六款不同价位的流量套餐,每款套餐的月资费x (单位:元)与购买人数y (单位:万人)的数据如下表:套餐A B C D E F 月资费x (元)384858687888购买人数y (万人)16.818.820.722.424.025.5对数据作初步的处理,相关统计量的值如下表:61iii v ω=∑61ii v=∑61ii ω=∑621ii v=∑75.324.618.3101.4其中ln ,ln i i i i v x y ω==,且绘图发现,散点()(),16i i v i ω≤≤集中在一条直线附近.(1)根据所给数据,求出y 关于x 的回归方程;(2)已知流量套餐受关注度通过指标()36x T x y +=来测定,当()8568,7e 5e T x ⎛⎫∈ ⎪⎝⎭时相应的流量套餐受大众的欢迎程度更高,被指定为“主打套餐”.现有一家四口从这六款套餐中,购买不同的四款各自使用.记四人中使用“主打套督”的人数为X ,求随机变量X 的分布列和期望.附:对于一组数据()()()1122,,,,,,n n v v v ωωω ,其回归方程bv a ω=+的斜率和截距的最小二乘估计值分别为()()()121ˆˆ,niii ni i v v ba bvv v ωωω==-⋅-==--∑∑.【解题方法总结】换元法变成一元线性回归模型题型四:列联表与独立性检验例10.(2024·广东佛山·华南师大附中南海实验高中校考模拟预测)四川省将从2022年秋季入学的高一年级学生开始实行高考综合改革,高考采用“3+1+2”模式,其中“1”为首选科目,即物理与历史二选一.某校为了解学生的首选意愿,对部分高一学生进行了抽样调查,制作出如下两个等高条形图,根据条形图信息,下列结论正确的是()A .样本中选择物理意愿的男生人数少于选择历史意愿的女生人数B .样本中女生选择历史意愿的人数多于男生选择历史意愿的人数C .样本中选择物理学科的人数较多D .样本中男生人数少于女生人数例11.(2024·全国·高三专题练习)在新高考改革中,浙江省新高考实行的是7选3的33+模式,即语数外三门为必考科目,然后从物理、化学、生物、政治、历史、地理、技术(含信息技术和通用技术)7门课中选考3门.某校高二学生选课情况如下列联表一和列联表二(单位:人)选物理不选物理总计男生340110450女生140210350总计480320800表一选生物不选生物总计男生150300450女生150200350总计300500800表二试根据小概率值0.005α=的独立性检验,分析物理和生物选课与性别是否有关()附:()222.n ad bc n a b c d P x a b c d a c b d αχαχ-==+++=≥++++(),()()()()α0.150.100.050.0250.010.0050.001ax 2.0722.7063.8415.0246.6357.87910.828A .选物理与性别有关,选生物与性别有关B .选物理与性别无关,选生物与性别有关C .选物理与性别有关,选生物与性别无关D .选物理与性别无关,选生物与性别无关例12.(2024·全国·高三专题练习)通过随机询问相同数量的不同性别大学生在购买食物时是否看营养说明,得知有16的男大学生“不看”,有13的女大学生“不看”,若有99%的把握认为性别与是否看营养说明之间有关,则调查的总人数可能为()A .150B .170C .240D .175变式20.(2024·全国·高三专题练习)针对时下的“短视频热”,某高校团委对学生性别和喜欢短视频是否有关联进行了一次调查,其中被调查的男生、女生人数均为()*5m m ∈N 人,男生中喜欢短视频的人数占男生人数的45,女生中喜欢短视频的人数占女生人数的35.零假设为0H :喜欢短视频和性别相互独立.若依据0.05α=的独立性检验认为喜欢短视频和性别不独立,则m 的最小值为()附:()()()()()22n ad bc a b c d a c b d χ-=++++,附表:α0.050.01x α3.841 6.635A .7B .8C .9D .10变式21.(2024·全国·高三专题练习)在一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀,统计成绩后,得到如下2×2列联表:优秀非优秀合计甲班人数50乙班人数20。
变量间的相关关系、统计案例一、选择题1.如图是相关变量x,y的散点图,现对这两个变量进行线性相关分析,方案一:根据图中所有数据,得到线性回归方程y=b1x+a1,相关系数为r1;方案二:剔除点(10,21),根据剩下数据得到线性回归直线方程y=b2x+a2,相关系数为r2.则( )A.0<r1<r2<1 B.0<r2<r1<1C.-1<r1<r2<0 D.-1<r2<r1<0D [根据相关变量x,y的散点图知,变量x,y具有负线性相关关系,且点(10,21)是离群值.方案一中,没剔除离群值,线性相关性弱些,成负相关;方案二中,剔除离群值,线性相关性强些,也是负相关.所以相关系数-1<r2<r1<0.故选D.]2.(2020·全国卷Ⅰ)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y 和温度x的回归方程类型的是( )A.y=a+bx B.y=a+bx2C.y=a+b e x D.y=a+b ln xD [根据散点图,用光滑的曲线把图中各点依次连起来(图略),由图并结合选项可排除A,B,C,故选D.]3.为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y与x之间有线性相关关系.设其回归直线方程为y=b x+a.已知x i=225,y i=1 600,b=4.该班某学生的脚长为24,据此估计其身高为( )A.160 cm B.163 cm C.166 cm D.170 cmC [∵x i=225,∴=x i=22.5.∵y i=1 600,∴=y i=160.又b=4,∴a=-b=160-4×22.5=70.∴回归直线方程为y=4x+70.将x=24代入上式得y=4×24+70=166.故选C.]4.现行普通高中学生在高一时面临着选科的问题,学校抽取了部分男、女学生意愿的一份样本,制作出如下两个等高堆积条形图:根据这两幅图中的信息,下列哪个统计结论是不正确的( )A.样本中的女生数量多于男生数量B.样本中有两理一文意愿的学生数量多于有两文一理意愿的学生数量C.样本中的男生偏爱两理一文D.样本中的女生偏爱两文一理D [由条形图知女生数量多于男生数量,有两理一文意愿的学生数量多于有两文一理意愿的学生数量,男生偏爱两理一文,女生中有两理一文意愿的学生数量多于有两文一理意愿的学生数量,故选D.]5.某医疗所为了检查新开发的流感疫苗对甲型H1N1流感的预防作用,把1 000名注射疫苗的人与另外1 000名未注射疫苗的人半年的感冒记录作比较,提出假设H0:“这种疫苗不能起到预防甲型H1N1流感的作用”,并计算得P(K2≥6.635)≈0.01,则下列说法正确的是( )A.这种疫苗能起到预防甲型H1N1流感的有效率为1%B.若某人未使用疫苗,则他在半年中有99%的可能性得甲型H1N1流感C.有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”D.有1%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”C [因为P(K2≥6.635)≈0.01,这说明假设不合理的程度为99%,即这种疫苗不能起到预防甲型H1N1流感的作用不合理的程度约为99%,所以有99%的把握认为“这种疫苗能起到预防甲型H1N1流感的作用”,故选C.]二、填空题6.对具有线性相关关系的变量x,y有一组观测数据(x i,y i)(i=1,2,…,8),其线性回归方程是y=x+a,且x1+x2+x3+…+x8=2(y1+y2+y3+…+y8)=6,则实数a的值为 . [依题意可知样本点的中心为,则=×+a,解得a=.]7.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:甲乙丙丁r 0.820.780.690.85m106115124103则 同学的试验结果体现A,B两变量有更强的线性相关性.丁 [r越大,m越小,线性相关性越强.]8.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K2≈3.918,经查临界值表知P(K2≥3.841)≈0.05.则下列结论中,正确结论的序号是 .①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%.① [K2≈3.918>3.841,而P(K2≥3.841)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.]三、解答题9.(2021·陕西西安高三模拟)某社区随机选取了部分居民,调查他们对今年春节期间社区组织文艺和体育活动的意见(每人只选择其中一项),调查结果如下表所示:文艺活动体育活动男性居民1520女性居民2510(1)估计该社区男性居民中选择体育活动的概率和全体居民中选择文艺活动的概率;(2)判断能否有95%的把握认为居民选择的活动类型与性别有关.附:K2=,其中n=a+b+c+d.P(K2≥k)0.050.010.001k 3.8416.63510.828[解](1)由表格中的数据可知,该社区男性居民中选择体育活动的概率为=,该社区全体居民中选择文艺活动的概率为=.(2)由表格中数据可得K2=≈5.833>3.841,因此,有95%的把握认为居民选择的活动类型与性别有关.1.(2021·南昌市八一中学高三三模)已知变量y关于x的回归方程为y=e bx-0.5,其一组数据如表所示,若x=5,则预测y值可能为( )x1234y e e3e4e6A.e5 B.e C.e7 D.eD [由y=e bx-0.5得:ln y=bx-0.5,∴=b·-0.5,解得:b=1.6,∴回归方程为y=e1.6x-0.5,若x=5,则y=e8-0.5=e.]2.在对具有线性相关的两个变量x和y进行统计分析时,得到如下数据:x4m81012y12356由表中数据求得y关于x的回归方程为y=0.65x-1.8,则(4,1),(m,2),(8,3)这三个样本点中落在回归直线下方的有( )A.1个 B.2个 C.3个 D.0个B [由表中数据,得=×(4+m+8+10+12)=,=×(1+2+3+5+6)=3.4,代入回归方程y=0.65x-1.8中,得3.4=0.65×-1.8,计算得出m=6.所以x=4时,y=0.65×4-1.8=0.8<1,点(4,1)在回归直线y=0.65x-1.8上方;x=6时,y=0.65×6-1.8=2.1>2,点(6,2)在回归直线y=0.65x-1.8下方;x=8时,y=0.65×8-1.8=3.4>3,点(8,3)在回归直线y=0.65x-1.8下方.综上,(4,1),(6,2),(8,3)这三个样本点中落在回归直线下方的有2个.故选B.]3.针对时下的“游戏热”,某校团委对“学生性别和喜欢打游戏是否有关”作了一次调查,其中女生人数是男生人数的,女生喜欢打游戏的人数占女生人数的,男生喜欢打游戏的人数占男生人数的.若有95%的把握认为是否喜欢打游戏和性别有关,则男生至少有人.附:P(K2≥k)0.050.010.001k 3.8416.63510.82818 [设男生人数为x,由题意可得列联表如下:喜欢打游戏不喜欢打游戏总计女生x男生x x总计x x若有95%的把握认为是否喜欢打游戏和性别有关,则k≥3.841,即k==≥3.841,解得x≥15.257.因为各部分人数均为整数,所以x是18的倍数,所以若有95%的把握认为是否喜欢打游戏和性别有关,则男生至少有18人.]4.碳达峰就是二氧化碳的排放不再增长,达到峰值之后再慢慢减下去;碳中和是指在一定时间内直接或间接产生的温室气体排放总量通过植树造林、节能减排等方式,以抵消自身产生的二氧化碳排放量,实现二氧化碳“零排放”.2020年9月,中国向世界宣布了2030年前实现碳达峰,2060年前实现碳中和的目标.某城市计划通过绿色能源(光伏、风电、核能)替代煤电能源,智慧交通,大力发展新能源汽车以及植树造林置换大气中的二氧化碳实现碳中和.该城市某研究机构统计了若干汽车5年内所行驶的里程数(万千米)的频率分布直方图,如图.(1)求a的值及汽车5年内所行驶里程的平均值(同一组中的数据用该组区间的中点值为代表);(2)据“碳中和罗盘”显示:一辆汽车每年行驶1万千米的排碳量需要近200棵树用1年时间来吸收.根据频率分布直方图,该城市每一辆汽车平均需要多少棵树才能够达到“碳中和”;(3)该城市为了减少碳排量,计划大力推动新能源汽车,关于车主购买汽车时是否考虑对大气污染的因素,对300名车主进行了调查,这些车主中新能源汽车车主占,且这些车主在购车时考虑大气污染因素的占20%,燃油汽车车主在购车时考虑大气污染因素的占10%.根据以上统计情况,补全下面2×2列联表,并回答是否有99%的把握认为购买新能源汽车与考虑大气污染有关.考虑大气污染没考虑大气污染合计新能源汽车车主燃油汽车车主合计附:K2=,其中n=a+b+c+d.P(K2≥k)0.100.0250.010.0050.001k 2.7065.0246.6357.87910.828[解](1)由(0.05+a+0.35+0.25+a+0.05)×1=1,解得a=0.15.设x为汽车5年内所行驶里程的平均值,则x=3.5×0.05+4.5×0.15+5.5×0.35+6.5×0.25+7.5×0.15+8.5×0.05=5.95(万千米).(2)由(1)可知,一辆汽车1年内所行驶里程的平均值为=1.19(万千米).因为一辆汽车每年行驶1万千米的排碳量需要近200棵树用1年时间来吸收,所以每一辆汽车平均需要1.19×200=238(棵)树才能够达到“碳中和”.(3)补全的2×2列联表如下:考虑大气污染没考虑大气污染合计新能源汽车车主104050燃油汽车车主25225250合计35265300所以K 2=≈4.04.因为4.04<6.635,所以没有99%的把握认为购买新能源汽车与考虑大气污染有关.(2021·湖北孝感高中高三月考)红铃虫是棉花的主要害虫之一,其产卵数与温度有关.现收集到一只红铃虫的产卵数y (个)和温度x (℃)的8组观测数据,制成图1所示的散点图.现用两种模型①y =e bx +a ,②y =cx 2+d 分别进行拟合,由此得到相应的回归方程并进行残差分析,进一步得到图2所示的残差图.图1 产卵数散点图图2 两种模型的残差图根据收集到的数据,计算得到如下值:x z t (x i -x)2(t i -t)2(z i -z)(x i -x)(y i -y)(t i -t)252.89646168422 68848.4870 308表中z i =ln y i ;z =i ;t i =x ;t =i .(1)根据残差图,比较模型①、②的拟合效果,应选择哪个模型?并说明理由;(2)根据(1)中所选择的模型,求出y 关于x 的回归方程(计算过程中四舍五入保留两位小数),并求温度为34 ℃时,产卵数y的预报值.参考数据:e5.41≈224,e5.50≈245,e5.59≈268.附:对于一组数据(ω1,v1),(ω2,v2),…,(ωn,v n),其回归直线v=α+βω的斜率和截距的最小二乘估计分别为β = ,α=v-βω.[解](1)应该选择模型①.由于模型①残差点比较均匀地落在水平的带状区域中,且带状区域的宽度比模型②带状宽度窄,所以模型①的拟合精度更高,回归方程的预报精度相应就会越高,故选模型①比较合适.(2)令z=ln y,z与温度x可以用线性回归方程来拟合,则z=a+b x.∴b= = = ≈0.29,a=z-bx≈2.89-0.29×25=-4.36,则z关于x的线性回归方程为z=0.29x-4.36,即ln y=0.29x-4.36,∴产卵数y关于温度x的回归方程为y=e0.29x-4.36,当x=34时,y=e0.29×34-4.36=e5.50≈245(个),∴在气温为34 ℃时,一个红铃虫的产卵数的预报值为245个.。
第4节 变量间的相关关系与统计案例考试要求 1.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系;2.了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆);3.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;4.了解回归分析的基本思想、方法及其简单应用.1.相关关系与回归分析回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法;判断相关性的常用统计图是:散点图;统计量有相关系数与相关指数.(1)在散点图中,点散布在从左下角到右上角的区域,对于两个变量的这种相关关系,我们将它称为正相关.(2)在散点图中,点散布在从左上角到右下角的区域,两个变量的这种相关关系称为负相关.(3)如果散点图中点的分布从整体上看大致在一条直线附近,称两个变量具有线性相关关系. 2.线性回归方程(1)最小二乘法:使得样本数据的点到回归直线的距离的平方和最小的方法叫做最小二乘法.(2)回归方程:两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为y ^=b ^x +a ^__,则b ^=, a ^=y --b ^x -.其中,b ^是回归方程的斜率,a ^是在y 轴上的截距.回归直线一定过样本点的中心(x -,y -). 3.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法.(2)样本点的中心:对于一组具有线性相关关系的数据(x 1, y 1)(x 2, y 2),…,(x n, y n ), 其中(x -,y -)称为样本点的中心. (3)相关系数当r >0时,表明两个变量正相关; 当r <0时,表明两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强.r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系.通常|r |大于0.75时,认为两个变量有很强的线性相关性.(4)相关指数:R 2=.其中是残差平方和,其值越小,则R 2越大(接近1),模型的拟合效果越好. 4.独立性检验(1)利用随机变量K 2来判断“两个分类变量有关系”的方法称为独立性检验. (2)列联表:列出的两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(2×2列联表)为y 1 y 2 总计 x 1 a b a +b x 2 c dc +d总计a +cb +d a +b +c +d则随机变量K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )n =a +b +c +d 为样本容量.1.求解回归方程的关键是确定回归系数a ^,b ^,应充分利用回归直线过样本点的中心(x -,y -).2.根据回归方程计算的y ^值,仅是一个预报值,不是真实发生的值.3.根据K 2的值可以判断两个分类变量有关的可信程度,若K 2越大,则两分类变量有关的把握越大.1.思考辨析(在括号内打“√”或“×”)(1)“名师出高徒”可以解释为教师的教学水平与学生的水平成正相关关系.( )(2)通过回归直线方程y ^=b ^x +a ^可以估计预报变量的取值和变化趋势.( ) (3)只有两个变量有相关关系,所得到的回归模型才有预测价值.( ) (4)事件X ,Y 关系越密切,则由观测数据计算得到的K 2的观测值越大.( ) 答案 (1)√ (2)√ (3)√ (4)√2.(易错题)(2022·兰州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )(n ≥2,n ∈N *,x 1,x 2,…,x n 不全相等)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,则这组样本数据的样本相关系数为( ) A.-1 B.0C.12D.1答案 D解析 由题设知,所有样本点(x i ,y i )(i =1,2,…,n )都在直线y =12x +1上,可知这组样本数据完全正相关,故其相关系数为1,故选D.3.两个变量y 与x 的回归模型中,分别选择了4个不同模型,它们的相关指数R 2如下,其中拟合效果最好的模型是( ) A.模型1的相关指数R 2为0.98 B.模型2的相关指数R 2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25答案 A解析在两个变量y与x的回归模型中,它们的相关指数R2越近于1,拟合效果越好,在四个选项中A的相关指数最大,所以拟合效果最好的是模型1.4.(2020·全国Ⅰ卷)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bxB.y=a+bx2C.y=a+b e xD.y=a+b ln x答案 D解析由散点图可以看出,这些点大致分布在对数型函数的图象附近.故选D. 5.为了判断高中三年级学生是否选修文科与性别的关系,现随机抽取50名学生,得到如下2×2列联表:理科文科男1310女720已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=50×(13×20-10×7)223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为________.答案 5%解析 K 2的观测值k ≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.6.(2022·银川模拟)某车间为了提高工作效率,需要测试加工零件所花费的时间,为此进行了5次试验,这5次试验的数据如下表:零件数x (个) 10 20 30 40 50 加工时间y (min)62a758189若用最小二乘法求得回归直线方程为y ^=0.67x +54.9,则a 的值为________. 答案 68解析 x -=10+20+30+40+505=30,y -=62+a +75+81+895=61+2+a 5,所以61+2+a5=0.67×30+54.9, 解得a =68.考点一 相关关系的判断1.某商家今年上半年各月的人均销售额(单位:千元)与利润率统计表如下:月份 1 2 3 4 5 6 人均销售额 6 5 8 3 4 7 利润率(%)12.610.418.53.08.116.3根据表中数据,下列说法正确的是( ) A.利润率与人均销售额成正相关关系 B.利润率与人均销售额成负相关关系 C.利润率与人均销售额成正比例函数关系D.利润率与人均销售额成反比例函数关系 答案 A解析 由统计表可得利润率与人均销售额不是正比例关系,也不是反比例关系,排除C 和D ;其属于正相关关系,A 正确,B 错误.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A.r 2<r 4<0<r 3<r 1B.r 4<r 2<0<r 1<r 3C.r 4<r 2<0<r 3<r 1D.r 2<r 4<0<r 1<r 3 答案 A解析 由散点图知图①与图③是正相关,故r 1>0,r 3>0, 图②与图④是负相关,故r 2<0,r 4<0,且图①与图②的样本点集中在一条直线附近,因此r 2<r 4<0<r 3<r 1,故选A. 3.(2022·合肥模拟)根据如下样本数据,得到回归直线方程y ^=b ^x +a ^,则( )x 3 4 5 6 7 8 y-3.0 -2.00.5-0.52.54.0A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^<0,b ^<0答案 C解析 作出散点图(图略),由散点图可知,a ^<0,b ^>0. 感悟提升 判断相关关系的两种方法:(1)散点图法:如果样本点的分布从整体上看大致在某一曲线附近,变量之间就有相关关系;如果样本点的分布从整体上看大致在某一直线附近,变量之间就有线性相关关系.(2)相关系数法:利用相关系数判定,|r |越趋近于1,相关性越强. 考点二 回归分析 角度1 线性回归方程及应用例1 (2021·成都诊断)某种机械设备随着使用年限的增加,它的使用功能逐渐减退,使用价值逐年减少,通常把它使用价值逐年减少的“量”换算成费用,称之为“失效费”.某种机械设备的使用年限x (单位:年)与失效费y (单位:万元)的统计数据如下表所示:使用年限x (单位:年) 1234567失效费y (单位:万元)2.903.30 3.604.40 4.805.20 5.90(1)由上表数据可知,可用线性回归模型拟合y 与x 的关系,请用相关系数加以说明;(精确到0.01)(2)求出y 关于x 的线性回归方程,并估算该种机械设备使用10年的失效费. 参考公式:相关系数r =∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2∑ni =1(y i -y -)2.线性回归方程y ^=b ^x +a ^中斜率和截距最小二乘估计计算公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -. 参考数据:∑7i =1(x i -x -)(y i -y -)=14.00, ∑7i =1(y i -y -)2=7.08,198.24≈14.10.解 (1)由题意,知x -=1+2+3+4+5+6+77=4,y -=2.90+3.30+3.60+4.40+4.80+5.20+5.907=4.30,∑7i =1(x i -x -)2=(1-4)2+(2-4)2+(3-4)2+(4-4)2+(5-4)2+(6-4)2+(7-4)2=28, ∴r =14.0028×7.08=14.00198.24≈14.0014.10≈0.99.因为y 与x 的相关系数近似为0.99,所以y 与x 的线性相关程度相当大,从而可以用线性回归模型拟合y 与x 的关系. (2)∵b ^=∑7i =1 (x i -x -)(y i -y -)∑7i =1 (x i -x -)2=1428=0.5, ∴a ^=y --b ^x -=4.3-0.5×4=2.3.∴y 关于x 的线性回归方程为y ^=0.5x +2.3.将x =10代入线性回归方程,得y ^=0.5×10+2.3=7.3, ∴估算该种机械设备使用10年的失效费为7.3万元. 角度2 非线性回归方程及应用例2 (2022·郑州调研)人类已经进入大数据时代.目前,数据量级已经从TB(1 TB =1 024 GB)级别跃升到PB(1 PB =1 024 TB),EB(1 EB =1 024 PB)乃至ZB(1 ZB =1 024 EB)级别.国际数据公司(IDC)研究结果表明,2008年全球产生的数据量为0.49 ZB ,2009年数据量为0.8 ZB ,2010年增长到1.2 ZB ,2011年数据量更是高达1.82 ZB.下表是国际数据公司(IDC)研究的全球近6年每年产生的数据量(单位:ZB)及相关统计量的值:表中z i =ln y i ,z -=16∑6i =1z i . (1)根据上表数据信息判断,方程y =c 1·e c 2x (e 是自然对数的底数)更适宜作为该公司统计的年数据量y 关于年份序号x 的回归方程类型,试求此回归方程(c 2精确到0.01);(2)有人预计2022年全世界产生的数据规模将超过2011年的50倍.根据(1)中的回归方程,说明这种判断是否准确,并说明理由. 参数数据:e4.56≈95.58,e4.58≈97.51,回归方程y ^=a ^+b ^x 中,b ^=∑n i =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i -nx -2, a ^=y --b ^x -.解 (1)由y =c 1·e c 2x 得ln y =c 2x +ln c 1, 即z =c 2x +ln c 1,∴c 2=∑6i =1(x i -x -)(z i -z -)∑6i =1(x i -x -)2=6.7317.5≈0.38.又∵z -=c 2x -+ln c 1,0.38×3.5+ln c 1=2.85,ln c 1=1.52. ∴ln y =0.38x +1.52,即y =e 0.38x +1.52为所求的回归方程. (2)根据(1)知回归方程为y =e 0.38x +1.52.当x =9时,y =e 0.38×9+1.52=e 4.94>e 4.56≈95.58,95.581.82≈52.52.据此可以判断2022年全球产生的数据量超过2011年的50倍,因此,这种判断是准确的.感悟提升 回归分析问题的类型及解题方法 (1)求回归方程①根据散点图判断两变量是否线性相关,如不是,应通过换元构造线性相关. ②利用公式,求出回归系数b ^.③待定系数法:利用回归直线过样本点的中心求系数a ^.(2)利用回归方程进行预测,把线性回归方程看作一次函数,求函数值. (3)利用回归直线判断正、负相关,决定正相关还是负相关的是系数b ^.(4)回归方程的拟合效果,可以利用相关系数判断,当|r |越趋近于1时,两变量的线性相关性越强.训练1 下面给出了根据我国2015~2021年水果人均占有量y (单位:kg)和年份代码x 绘制的散点图和线性回归方程的残差图.(2015年~2021年的年份代码x 分别为1~7)(1)根据散点图分析y 与x 之间的相关关系;(2)根据散点图相应数据计算得∑7i =1y i =1 074,∑7i =1x i y i =4 517,求y 关于x 的线性回归方程;(精确到0.01)(3)根据线性回归方程的残差图,分析线性回归方程的拟合效果. 附:回归方程y ^=a ^+b ^x 中斜率和截距的最小二乘估计公式分别为 b ^=∑ni =1 (x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2, a ^=y --b ^x -.解 (1)从散点图可以看出,这些点的分布整体上在一条直线附近,且当x 由小变大时,y 也由小变大,所以y 与x 之间具有线性相关关系,且是正相关. (2)由题意可知,x -=1+2+3+4+5+6+77=4,y -=17∑7i =1y i=1 0747, ∑7i =1x 2i =12+22+32+42+52+62+72=140, ∴b ^=∑7i =1x i y i-7x - y -∑7i =1x 2i -7x -2=4 517-7×4×1 0747140-7×42=22128≈7.89,∴a ^=y --b ^x -=1 0747-7.89×4≈121.87,∴y 关于x 的线性回归方程为y ^=7.89x +121.87.(3)由残差图可以看出历年数据的残差均分布在-2~2之间,且图中各点比较均匀地分布在数值0所在直线附近,带状区域很窄,说明对应的回归直线拟合效果较好.考点三 独立性检验例3 (2021·武汉质检)有关研究表明,正确佩戴安全头盔,规范使用安全带能够将交通事故死亡风险大幅降低,对保护群众生命安全具有重要作用.2020年4月,“一盔一带”安全守护行动在全国各地开展,行动期间,公安交管部门将加强执法管理,依法查纠摩托车和电动自行车骑乘人员不佩戴安全头盔,汽车驾乘人员不使用安全带的行为,助推养成安全习惯,该行动开展一段时间后,某市针对电动自行车骑乘人员是否佩戴安全头盔问题进行调查,在随机调查的1 000名骑行人员中,记录其年龄和是否佩戴头盔情况,得到统计图如图所示.(1)估算该市电动自行车骑乘人员的平均年龄; (2)根据所给的数据,完成列联表:是否佩戴头盔是否(3)根据(2)中的列联表,判断是否有99%的把握认为佩戴安全头盔与年龄有关. 附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)该市电动自行车骑乘人员平均年龄为25×0.25+35×0.35+45×0.2+55×0.15+65×0.05=39(周岁). (2)完成2×2列联表如下:(3)K 2的观测值k =1 000×(60×540-60×340)2600×400×880×120=12522≈5.682<6.635.故没有99%的把握认为佩戴安全头盔与年龄有关.感悟提升 1.在2×2列联表中,如果两个变量没有关系,则应满足ad -bc ≈0. |ad -bc |越小,说明两个变量之间关系越弱;|ad -bc |越大,说明两个变量之间关系越强.2.解决独立性检验的应用问题,一定要按照独立性检验的步骤得出结论.独立性检验的一般步骤:(1)根据样本数据制成2×2列联表:(2)根据公式K2=n(ad-bc)2(a+b)(a+c)(b+d)(c+d)计算K2的观测值k;(3)通过比较观测值k与临界值的大小关系来作统计推断.训练2 (2022·南宁模拟)第五代移动通信技术(5G技术)是最新一代蜂窝移动通信技术,也是继4G、3G和2G系统之后的延伸.5G的性能目标是高数据速率、减少延迟、节省能源、降低成本、提高系统容量和大规模设备连接.某大学为了解学生对“5G”相关知识的了解程度,随机抽取100名学生参与测试,并根据得分划分成“不太了解”或“比较了解”两类后整理得到如下列联表:(1)补全列联表,并判断是否有99.9%的把握认为“学生对5G的了解程度与性别有关”;(2)从“不太了解”的学生中按性别分层抽取6人,再从这6人中随机选取2人参加“5G”知识讲座,求抽到的2人中恰有1名女生的概率.附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)(n=a+b+c+d). 临界值表:解(1)补全的列联表如下:不太了解 比较了解 总计 男生 25 33 58 女生 5 37 42 总计3070100所以K 2的观测值k =100×(25×37-33×5)258×42×30×70≈11.291>10.828,故有99.9%的把握认为“学生对5G 的了解程度与性别有关”. (2)“不太了解”的男生有25人,女生有5人,按性别分层抽样从中抽取6人,则男生应抽取5人,记为a ,b ,c ,d ,e ,女生应抽取1人,记为x ,再从这6人中随机抽取2人共有15种情况:xa ,xb ,xc ,xd ,xe ,ab ,ac ,ad ,ae ,bc ,bd ,be ,cd ,ce ,de ,抽到恰有1名女生有5种情况:xa ,xb ,xc ,xd ,xe , 所以所求的概率为515=13.1.为调查中学生近视情况,测得某校在150名男生中有80名近视,在140名女生中有70名近视.在检验这些学生眼睛近视是否与性别有关时,用下列哪种方法最有说服力( ) A.回归分析 B.均值与方差 C.独立性检验 D.概率答案 C解析 “近视”与“性别”是两类变量,其是否有关,应用独立性检验判断. 2.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图(1);对变量u ,v ,有观测数据(u i ,v i )(i =1,2,…,10),得散点图(2),由这两个散点图可以判断( )A.变量x 与y 正相关,u 与v 正相关B.变量x 与y 正相关,u 与v 负相关C.变量x 与y 负相关,u 与v 正相关D.变量x 与y 负相关,u 与v 负相关 答案 C解析 由题图(1)可知,y 随x 的增大而减小,各点整体呈下降趋势,x 与y 负相关,由题图(2)可知,u 随v 的增大而增大,各点整体呈上升趋势,u 与v 正相关. 3.有下列说法:①在残差图中,残差点比较均匀地落在水平的带状区域内,说明选用的模型比较合适;②用相关指数R 2来刻画回归的效果,R 2值越接近于1,说明模型的拟合效果越好;③比较两个模型的拟合效果,可以比较残差平方和的大小,残差平方和越小的模型,拟合效果越好.正确的是( ) A.①② B.②③ C.①③ D.①②③答案 D4.(2022·昆明诊断)下表是关于某设备的使用年限x (单位:年)和所支出的维修费用y (单位:万元)的统计表:x 2 3 4 5 6 y3.44.25.15.56.8由表可得线性回归方程y ^=0.81x +a ^,若规定:维修费用y 不超过10万元,一旦大于10万元时,该设备必须报废.据此模型预测,该设备使用年限的最大值约为( ) A.7B.8C.9D.10答案 D解析 由已知表格,得x -=15×(2+3+4+5+6)=4, y -=15×(3.4+4.2+5.1+5.5+6.8)=5,因为回归直线恒过样本点的中心(x -,y -), 所以5=0.81×4+a ^,解得a ^=1.76, 所以回归直线的方程为y ^=0.81x +1.76,由y ≤10,得0.81x +1.76≤10,解得x ≤82481≈10.17,由于x ∈N *,所以据此模型预测,该设备使用年限的最大值为10.故选D. 5.某高校为调查学生喜欢“应用统计”课程是否与性别有关,随机抽取了选修课程的55名学生,得到数据如下表:附表:参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参照附表,得到的正确结论是( )A.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关B.在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别无关C.有99.99%以上的把握认为喜欢“应用统计”课程与性别有关D.有99.99%以上的把握认为喜欢“应用统计”课程与性别无关 答案 A解析 ∵K 2的观测值k =55×(20×20-5×10)225×30×30×25≈11.978>10.828,所以有99.9%的把握认为喜欢“应用统计”课程与性别有关,即在犯错误的概率不超过0.1%的前提下,认为喜欢“应用统计”课程与性别有关. 6.下列说法:①残差可用来判断模型拟合的效果;②设有一个回归方程:y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位; ③线性回归直线:y ^=b ^x +a ^必过点(x -,y -);④在一个2×2列联表中,由计算得K 2的观测值k =6.665,则有99%的把握确认这两个变量间有关系(其中P (K 2≥6.635)=0.010), 其中错误的个数是( ) A.0 B.1 C.2 D.3答案 B解析 对于①,残差可用来判断模型拟合的效果,残差越小,拟合效果越好,∴①正确;对于②,回归方程y ^=3-5x 中,变量x 增加一个单位时,y 平均减少5个单位,∴②错误;对于③,线性回归直线y ^=b ^x +a ^必过样本点的中心(x -,y -),∴③正确; 对于④,在2×2列联表中,由计算得k =6.665,对照临界值得,有99%的把握确认这两个变量间有关系,∴④正确. 综上,其中错误的命题是②,共1个,故选B.7.已知x 和y 的散点图如图所示,在相关关系中,若用y =c 1e c 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21,R 22中较大的是________.答案 R 21解析 由散点图知,用y =c 1e c 2x 拟合的效果比y ^=b ^x +a ^拟合的效果要好,所以R 21>R 22,故较大者为R 21.8.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2的观测值k ≈3.918,经查临界值表知P (K 2≥3.841)≈0.05.则下列结论中,正确结论的序号是________. ①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒;③这种血清预防感冒的有效率为95%;④这种血清预防感冒的有效率为5%. 答案 ①解析 k ≈3.918≥3.841,而P (K 2≥3.814)≈0.05,所以有95%的把握认为“这种血清能起到预防感冒的作用”.要注意我们检验的是假设是否成立和该血清预防感冒的有效率是没有关系的,不是同一个问题,不要混淆.9.在一次对人体脂肪含量和年龄的关系的研究中,研究人员获得了一组样本数据,并制成如图所示的人体脂肪含量与年龄的关系的散点图,下列结论中正确的是________(填序号).①人体脂肪含量与年龄正相关,且脂肪含量的中位数等于20%; ②人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%;③人体脂肪含量与年龄负相关,且脂肪含量的中位数等于20%; ④人体脂肪含量与年龄负相关,且脂肪含量的中位数小于20%. 答案 ②解析 观察图形,可知人体脂肪含量与年龄正相关,且脂肪含量的中位数小于20%.10.(2022·河南名校联考)某学校食堂统计了最近5天到餐厅就餐的人数x (单位:百人)与食堂向食材公司购买所需食材(原材料)的数量y (单位:袋),得到如下统计表:(1)根据所给的5组数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(2)已知购买食材的费用C (单位:元)与数量y (单位:袋)的关系为C =⎩⎨⎧400y -20,0<y <36(y ∈N ),380y ,y ≥36(y ∈N ),投入使用的每袋食材相应的销售单价为700元,多余的食材必须无偿退还食材公司,据悉下周一大约有1 500人到食堂餐厅就餐,根据(1)中求出的线性回归方程,预测食堂应购买多少袋食材,才能获得最大利润,最大利润是多少?(注:利润L =销售收入-原材料费用)参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1 (x i -x -)2=∑ni =1x i y i -nx - y -∑n i =1x 2i-nx -2,a ^=y --b ^x -. 参考数据:∑5i =1x i y i =1 343,∑5i =1x 2i =558,∑5i =1y 2i=3 237. 解 (1)由所给数据可得x -=13+9+8+10+125=10.4,y -=32+23+18+24+285=25,所以b ^=∑5i =1x i y i -5x - y -∑5i =1x 2i-5x -2=1 343-5×10.4×25558-5×10.42=2.5,又a ^=y --b ^x -=25-2.5×10.4=-1, 所以y 关于x 的线性回归方程为y ^=2.5x -1. (2)由(1)中求出的线性回归方程知,当x =15时,y =36.5,即预计需要购买食材36.5袋. 因为C =⎩⎪⎨⎪⎧400y -20,0<y <36(y ∈N ),380y ,y ≥36(y ∈N ),所以当y <36时,利润L =700y -(400y -20)=300y +20,y ∈N , 此时当y =35时,利润L max =300×35+20=10 520(元);当y ≥36时,根据线性回归方程预测需要购买食材36.5袋,并且剩余的食材只能无偿退还,此时当y =36时,利润L =700×36-380×36=11 520(元), 当y =37时,利润L =700×36.5-380×37=11 490(元).综上,食堂应购买36袋食材,才能获得最大利润,最大利润为11 520元. 11.(2022·“四省八校”开学考试)据我国一项专题调查显示,某市高级职称的中年知识分子中竟有高达75.3%的人处于亚健康状态,更令人担忧的是85%以上的企业管理者处于慢性疲劳状态或亚健康状态,这是由他们所处的特殊工作及生活的环境和行为模式所决定的.亚健康是指非病非健康的一种临界状态.如果这种状态不能及时得到纠正,非常容易引起身心疾病.某高科技公司为了了解亚健康与性别的关系,对本公司部分员工进行了不记名问卷调查,该公司处于正常工作状态的员工(包括管理人员)共有8 000人,其中男性员工有6 000人,女性员工有2 000人,从8 000人中用分层抽样的方法随机抽取了400人作为样本进行健康状况的调查.(1)求男性员工、女性员工各抽取多少人?(2)通过调查得到如图所示的统计图,其中a=0.2,b=0.1.根据统计图,完成下面2×2列联表,健康亚健康总计男员工女员工总计400问是否有97.5%的把握认为人处于亚健康状态与性别有关?参考公式:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d),n=a+b+c+d. 参考数据:P(K≥k0)0.050.0250.0100.005k0 3.841 5.024 6.6357.879解(1)由题意知样本容量与总体的比值为4008 000=120,∴男性员工抽取了6 000×120=300(人),女性员工抽取了2 000×120=100(人).(2)由统计图可知,样本中男员工处于亚健康状态的人数为300×0.2=60,样本中女员工处于亚健康状态的人数为100×0.1=10,2×2列联表为健康 亚健康 总计 男员工 240 60 300 女员工 90 10 100 总计33070400则K 2的观测值k =400×(240×10-60×90)2300×100×330×70≈5.195>5.024,∴有97.5%的把握认为人处于亚健康状态与性别有关.12.已知某次考试之后,班主任从全班同学中随机抽取一个容量为8的样本,他们的数学、物理成绩(单位:分)对应如下表:学生编号 1 2 3 4 5 6 7 8 数学成绩 60 65 70 75 80 85 90 95 物理成绩7277808488909395给出散点图如下:根据以上信息,判断下列结论:①根据散点图,可以判断数学成绩与物理成绩具有线性相关关系; ②根据散点图,可以判断数学成绩与物理成绩具有一次函数关系;③从全班随机抽取甲、乙两名同学,若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩一定比乙同学的物理成绩高. 其中正确的为________(填序号). 答案 ①解析 由散点图知,各点大致分布在一条直线附近,故可以判断数学成绩与物理成绩具有线性相关关系,但不能判断数学成绩与物理成绩具有一次函数关系,故①正确,②错误;若甲同学数学成绩为80分,乙同学数学成绩为60分,则甲同学的物理成绩可能比乙同学的物理成绩高,故③错误.13.在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-12附近波动.经计算∑6i =1x i =12,∑6i =1y i =14,∑6i =1x 2i =23,则实数b 的值为________. 答案 1723解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y =bt -12, 此时t -=∑6i =1x 2i 6=236,y -=∑6i =1yi 6=73,代入y =bt -12,得73=b ×236-12,解得b =1723.14.近年来,国资委、党委高度重视扶贫开发工作,坚决贯彻落实中央扶贫工作重大决策部署,在各个贫困县全力推进定点扶贫各项工作,取得了积极成效,某贫困县为了响应国家精准扶贫的号召,特地承包了一块土地,已知土地的使用面积以及相应的管理时间的关系如下表所示:并调查了某村300名村民参与管理的意愿,得到的部分数据如下表所示:(1)求y 关于x 的线性回归方程(计算结果保留两位小数);(2)是否有99.9%的把握认为村民的性别与参与管理的意愿具有相关性?参考公式:b ^=∑ni =1(x i -x -)(y i -y -)∑ni =1(x i -x -)2,a ^=y --b ^x -,K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .临界值表:解 (1)依题意得,x -=1+2+3+4+55=3,y -=8+10+13+25+245=16,故∑5i =1(x i -x -)(y i -y -)=(-2)×(-8)+(-1)×(-6)+1×9+2×8=47, ∑5i =1(x i -x -)2=4+1+1+4=10,则b ^=∑5i =1(x i -x -)(y i -y -)∑5i =1 (x i -x -)2=4710=4.7,a ^=y --b ^x -=16-4.7×3=1.9.所以y 关于x 的线性回归方程为y ^=4.7x +1.9. (2)依题意,女性不愿意参与管理的人数为50, 计算得K 2的观测值为k =300×(150×50-50×50)2200×100×200×100=300×5 000×5 000200×100×200×100=18.75>10.828, 故有99.9%的把握认为村民的性别与参与管理的意愿具有相关性.。