高考题变量间的相关关系回归方程习题课
- 格式:pptx
- 大小:224.71 KB
- 文档页数:17
4.3.1 一元线性回归模型第1课时 相关关系、回归直线方程、回归直线方程的性质 课后训练巩固提升1.(多选题)四名同学根据各自的样本数据研究变量x,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论,其中一定不正确的是( )A.y 与x 负相关,且y ^=2.347x-6.423 B.y 与x 负相关,且y ^=-3.476x+5.648 C.y 与x 正相关,且y ^=5.437x+8.493 D.y 与x 正相关,且y ^=-4.326x-4.578解析:当y 与x 线性相关时,y 与x 正相关的充要条件是b ^>0,y 与x 负相关的充要条件是b ^<0,故AD 一定不正确. 答案:AD2.已知x 与y 之间的一组数据如下表.若已求得y 关于x 的回归直线方程为y ^=2.2的值为( ) A.1 B.0.85C.0.7D.0.5 解析:=m+15.54,则m+15.54=2.2×1.5+0.7,解得m=0.5.故选D.答案:D3.已知根据如下样本数据得到的回归直线方程为y ^=b ^x+a ^,则( ) A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^<0,b ^<0解析:作出散点图(图略),可知a ^>0,b ^<0. 答案:B4.已知变量x 与y 正相关,且由观测数据算得x =3,y =3.5,则由该观测数据求得的回归直线方程可能是( ) A.y ^=0.4x+2.3 B.y ^=2x-2.4 C.y ^=-2x+9.5 D.y ^=-0.3x+4.4解析:由变量x 与y 正相关,可知C,D 均错.又回归直线经过样本点的中心(3,3.5),经验证,可知A 正确,B 错误.故选A. 答案:A5.过(3,10),(7,20),(11,24)三点的回归直线方程是( ) A.y ^=1.75+5.75xB.y ^=-1.75+5.75xC.y ^=5.75+1.75xD.y ^=5.75-1.75x解析:由题意易得,b ^=1.75,a ^=5.75,故所求的回归直线方程为y ^=5.75+1.75x.故选C. 答案:C6.为了均衡教育资源,调查了某地若干户家庭的年收入x(单位:万元)和年教育支出y(单位:万元).调查显示,年收入x 与年教育支出y 具有线性相关关系,并由调查数据得到y 关于x 的回归直线方程为y ^=0.15x+0.2.由回归直线方程可知,家庭年收入每增加1万元,年教育支出平均增加 万元. 答案:0.157.期中考试后,某校高三(9)班对全班50名学生的成绩进行分析,得到数学成绩y 关于总成绩x 的回归直线方程为y ^=6+0.4x.由此可以估计,若2名同学的总成绩相差50分,则他们的数学成绩大约相差 分. 解析:由回归系数b ^=0.4可知,x 每增大1个单位,y ^增大0.4个单位,故两名同学的总成绩相差50分,他们的数学成绩大约相差50×0.4=20(分). 答案:208.在一项关于16艘轮船的研究中,船的吨位区间为[192,3 246](单位:吨),船员的人数为5~32,船员人数y 关于吨位x 的回归直线方程为y ^=9.5+0.006 2x,(1)若两艘船的吨位相差1 000,估计这两艘船的船员人数相差多少; (2)估计吨位最大的船和最小的船的船员人数.解:(1)由题意可知,这两艘船的船员人数大约相差0.0062×1000≈6. (2)当x=192时,y ^=9.5+0.006 2×192≈11, 当x=3 246时,y ^=9.5+0.006 2×3 246≈30.故估计吨位最大的船和最小的船的船员人数分别为30和11.9.从某居民区随机抽取10个家庭,获得第i 个家庭的月收入x i (单位:千元)与月储蓄y i (单位:千元)的数据资料,算得∑i=110x i =80,∑i=110y i =20,∑i=110x i y i =184,∑i=110x i 2=720.(1)求家庭的月储蓄y 关于月收入x 的回归直线方程y ^=b ^x+a ^; (2)判断变量x 与y 之间是正相关还是负相关;(3)若该居民区某家庭月收入为7千元,估计该家庭的月储蓄. 解:(1)由题意知,n=10, x =110∑i=110x i =8,y =110∑i=110y i =2,则b ^=184-10×8×2720-10×82=0.3,a ^=2-0.3×8=-0.4.故所求回归直线方程为y ^=0.3x-0.4. (2)因为b ^=0.3>0,所以x 与y 之间是正相关. (3)当x=7时,y ^=0.3×7-0.4=1.7. 故该家庭的月储蓄约为1.7千元.10.某同学家开了一家饮品店,他为了研究气温对热饮销售的影响,经过统计,得到卖出的热饮杯数y 与当天气温x 的对比表如下.(1)作出散点图;(2)y与x是正相关还是负相关;(3)求y关于x的回归直线方程;(4)若某天的气温为2 ℃,估计这天卖出的热饮杯数. 解:(1)作出散点图如图所示.(2)由散点图可知,y与x负相关.(3)根据数据可知,x=16911,y=122811,b^≈-2.352,a^=y−b^x≈147.767.故所求的回归直线方程为y^=-2.352x+147.767.(4)当x=2时,y^=143.063.因此,当某天的气温为2 ℃时,这天大约可以卖出143杯热饮.。
课后限时集训(五十五)(建议用时:60分钟)A组基础达标一、选择题1.在下列各图中,两个变量具有相关关系的图是( )(1) (2) (3) (4)A.(1)(2) B.(1)(3)C.(2)(4) D.(2)(3)D[(1)为函数关系;(2)明显成正相关;(3)明显成负相关;(4)没有明显相关性.] 2.(2024·成都模拟)已知x,y的取值如下表所示:x 013 4y 2.2 4.3 4.8 6.7A.2.2 B.2.6C.3.36 D.1.95B[由表格数据计算得x=2,y=4.5,又由公式a=y-b x,得a=2.6,故选B.]3.(2024·开封模拟)在一组样本数据(x1,y1),(x2,y2),…,(x n,y n),(n≥2,x1,x2,…,x n不全相等)的散点图中,若全部样本点(x i,y i)(i=1,2,…,n)都在直线y=-3x+1上,则这组样本数据的样本相关系数为( )A.-3 B.0C.-1 D.1C[在一组样本数据的散点图中,全部样本点(x i,y i)(i=1,2,…,n)都在一条直线y =-3x+1上,那么这组样本数据完全负相关,且相关系数为-1,故选C.] 4.(2024·南阳联考)对具有线性相关关系的变量x,y,测得一组数据如下:x 24568y 2040607080=10时,y的估计值为( )A .105.5B .106C .106.5D .107C [因为x =2+4+5+6+85=5,y =20+40+60+70+805=54.故将x =5,y =54代入y =10.5x +a 可得a =54-52.5=1.5,则y =10.5x +1.5,当x =10时,y =10.5×10+1.5=106.5.]5.通过随机询问110名性别不同的学生是否爱好某项运动,得到如下的列联表:男 女 合计 爱好 40 20 60 不爱好 20 30 50 合计 6050110由χ2=n ad -bc 2a +bc +d a +cb +d算得,χ2=110×40×30-20×20260×50×60×50≈7.8.附表:P (χ2≥x 0)0.050 0.010 0.001 x 03.8416.63510.828参照附表,得到的正确结论是 ( )A .有99%以上的把握认为“爱好该项运动与性别有关”B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” A [依据独立性检验的定义,由χ2的观测值为7.8>6.635,可知我们在犯错误的概率不超过0.01的前提下,即有99%以上的把握认为“爱好该项运动与性别有关”.]二、填空题6.某车间为了规定工时定额,须要确定加工零件所花费的时间,为此进行了5次试验.依据收集到的数据(如下表),由最小二乘法求得回来方程y =0.67x +54.9.零件数x (个) 10 203040 50 加工时间y (min)6275818968 [由x =30,得y =0.67×30+54.9=75.设表中的“模糊数字”为a ,则62+a +75+81+89=75×5,∴a =68.]7.某高校“统计初步”课程的老师随机调查了选该课程的一些学生的状况,详细数据如下表:专业性别非统计专业统计专业 男 13 10 女720为了推断主修统计专业是否与性别有关系,依据表中的数据,得到χ2=50×13×20-10×7223×27×20×30≈4.844,因为χ2≥3.841,所以判定主修统计专业与性别有关系,那么这种推断出错的可能性为________.5% [∵χ2≈4.844>3.841,∴有95%的把握认为主修统计专业与性别有关系,即作出“主修统计专业与性别有关系”的推断出错的可能性不超过5%.]8.(2024·长沙模拟)某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了比照表:气温(℃) 18 13 10 -1 用电量(度)24343864由表中数据得回来直线方程y =bx +a 中的b =-2,预料当气温为-4 ℃时,用电量约为________度.68 [依据题意知x =18+13+10+-14=10,y =24+34+38+644=40,所以a =40-(-2)×10=60,y =-2x +60,所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量约为68度.]三、解答题9.(2024·重庆调研)某厂商为了解用户对其产品是否满足,在运用该产品的用户中随机调查了80人,结果如下表:满足 不满足 男用户 30 10 女用户2020求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满足与用户性别有关?请说明理由.P(χ2≥x0)0.1000.0500.0250.010 x0 2.706 3.841 5.024 6.635注:χ2=n ad-bc2a+b c+d a+c b+d,n=a+b+c+d.[解] (1)用分层抽样的方法在满足产品的用户中抽取5人,则抽取比例为550=110.所以在满足产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人).抽取的5人中,三名男用户记为a,b,c,两名女用户记为r,s则从这5人中任选2人,共有10种状况:ab,ac,ar,as,bc,br,bs,cr,cs,rs.其中恰好是男、女用户各1人的有6种状况:ar,as,br,bs,cr,cs.故所求的概率为P=610=0.6.(2)由题意,得χ2=80×30×20-20×10230+20×10+20×30+10×20+20=163≈5.333>5.024.又P(χ2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满足与性别有关”.10.某测试团队为了探讨“饮酒”对“驾车平安”的影响,随机选取100名驾驶员先后在无酒状态、酒后状态下进行“停车距离”测试.测试的方案:电脑模拟驾驶,以某速度匀速行驶,记录下驾驶员的“停车距离”(驾驶员从看到意外状况到车子完全停下所须要的距离).无酒状态与酒后状态下的试验数据分别列于表1和表2.表1:无酒状态停车距离d(米)(10,20](20,30](30,40](40,50](50,60] 频数26m n 8 2 平均每毫升血液酒精含量x(毫克)1030507090 平均停车距离y(米)3050607090(1)求m,n的值,并估计驾驶员无酒状态下停车距离的平均数;(2)依据最小二乘法,由表2的数据计算y关于x的回来方程y=bx+a;(3)该测试团队认为:驾驶员酒后驾车的平均“停车距离”y大于(1)中无酒状态下的停车距离平均数的3倍,则认定驾驶员是“醉驾”.请依据(2)中的回来方程,预料当每毫升血液酒精含量大于多少毫克时为“醉驾”?(附:对于一组数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回来直线y =bx +a 的斜率和截距的最小二乘估计分别为b =∑ni =1x i -xy i -y∑ni =1x i -x 2=∑ni =1x i y i -n x y∑ni =1x 2i -n x2,a =y -b x )[解] (1)依题意,得610m =50-26,解得m =40,又m +n +36=100,解得n =24. 故停车距离的平均数为15×26100+25×40100+35×24100+45×8100+55×2100=27.(2)依题意,可知x =50,y =60,∑5i =1x i y i =10×30+30×50+50×60+70×70+90×90=17 800,∑5i =1x 2i =102+302+502+702+902=16 500,所以b =17 800-5×50×6016 500-5×502=0.7, a =60-0.7×50=25,所以回来直线方程为y =0.7x +25.(3)由(1)知当y >81时认定驾驶员是“醉驾”.令y >81,得0.7x +25>81,解得x >80,当每毫升血液酒精含量大于80毫克时认定为“醉驾”.B 组 实力提升1.(2024·张掖模拟)如表是我国某城市在2024年1月份至10月份各月最低温与最高温(℃)的数据一览表. 月份 1 2 3 4 5 6 7 8 9 10 最高温 5 9 9 11 17 24 27 30 31 21 最低温-12-31-271719232510( )A .最低温与最高温为正相关B .每月最高温与最低温的平均值在前8个月逐月增加C .月温差(最高温减最低温)的最大值出现在1月D.1月至4月的月温差(最高温减最低温)相对于7月至10月,波动性更大B[依据题意,依次分析选项:对于A,知该城市的各月最低温与最高温具有相关关系,由数据分析可得最低温与最高温为正相关,则A正确;对于B,由表中数据,每月最高温与最低温的平均值依次为:-3.5,3,5,4.5,12,20.5,23,26.5,28,15.5,在前8个月不是逐月增加,则B错误;对于C,由表中数据,月温差依次为:17,12,8,13,10,7,8,7,6,11;月温差的最大值出现在1月,C正确;对于D,有C的结论,分析可得1月至4月的月温差相对于7月至10月,波动性更大,D正确,故选B.]2.(2024·贵阳模拟)随着资本市场的强势进入,互联网共享单车“忽如一夜春风来”,遍布了一二线城市的大街小巷.为了解共享单车在A市的运用状况,某调查机构借助网络进行了问卷调查,并从参加调查的网友中抽取了200人进行抽样分析,得到下表(单位:人):常常运用间或或不用合计30岁及以下703010030岁以上6040100 合计13070200 依据以上数据,________(填“能”“不能”)在犯错误的概率不超过0.15的前提下认为A市运用共享单车状况与年龄有关.附:P(χ2≥x0)0.150.100.050.0250.010 x0 2.072 2.706 3.841 5.024 6.635χ2=n ad-bc2a+b c+d a+c b+d,其中n=a+b+c+d.能[由列联表可知,χ2=200×70×40-30×602100×100×130×70≈2.198.因为2.198>2.072,所以能在犯错误的概率不超过0.15的前提下认为A市运用共享单车状况与年龄有关.]。
第79讲 变量的相关性、回归分析、独立性检验1.设某大学的女生的体重y(单位:kg )与身高x(单位:cm )具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n),用最小二乘法建立的回归方程为y =0.85x -85.71,则下列结论中不正确...的是(D ) A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生的身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生的身高为170 cm ,则可断定其体重必为58.79 kgA 、B 、C 均正确,是回归方程的性质.D 项是错误的,线性回归方程只能预测学生的体重,选项D 应改为“若该大学某女生身高为170 cm ,则估计其体重大约为58.79 kg ”才正确.2.(2017·山东卷)为了研究某班学生的脚长x(单位:厘米)和身高y(单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系.设其回归直线方程为y =b x +a .已知∑i =110x i =225,∑i =110y i =1 600,b =4.该班某学生的脚长为24,据此估计其身高为(C )A .160B .163C .166D .170因为∑i =110x i =225,所以x -=110∑i =110x i =22.5.因为∑i =110y i =1 600,所以y -=110∑i =110y i =160.又b =4,所以a =x --b x -=160-4×22.5=70. 所以回归直线方程为y =4x +70. 将x =24代入上式得y =4×24+70=166.3.下列关于K 2的说法中正确的是(C )A .K 2在任何相互独立问题中都可以用于检验有关还是无关B .K 2的值越大,两个事件的相关性就越大C .K 2是用来判断两个分类变量是否有关系的随机变量,只对两个分类变量适合D .K 2的观测值的计算公式为k =n (ad -bc )(a +b )(c +d )(a +c )(b +d )4.通过随机询问110名性别不同的大学生是否爱好某项运动,得到如下的列联表:男 女 总计 爱好 40 20 60 不爱好 20 30 50 总计6050110由K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )算得,K 2=110×(40×30-20×20)260×50×60×50≈7.8.附表:P(K 2≥k)0.0500.0100.001k 3.841 6.635 10.828参照附表,A .有99%以上的把握认为“爱好该项运动与性别有关” B .有99%以上的把握认为“爱好该项运动与性别无关”C .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别有关”D .在犯错误的概率不超过0.1%的前提下,认为“爱好该项运动与性别无关” 解:因为7.8>6.635,所以99%以上的把握认为“爱好该项运动与性别有关”,选A . 5.对于一组数据的两个函数模型,模型Ⅰ和模型Ⅱ的残差平方和分别为180.2和290.7,若从中选取一个拟合程度较好的函数模型,应选 模型Ⅰ .解:残差平方和越小,函数模型对数据的拟合效果越好;残差平方和越大,说明函数模型对数据的拟合效果越差.6.已知x 、y 的取值如下表所示,x134y 2.2 4.3 4.8 6.7从所得的散点图分析,a = 2.6 . 解:因为回归直线方程必过样本点的中心(x -,y -),由表中数据得x -=2,y -=4.5,将(2,4.5)代入y =0.95x +a ,可得a =2.6.7.(2018·全国卷Ⅱ)下图是某地区2000年至2016年环境基础设施投资额y(单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,…,17)建立模型①:y ^=-30.4+13.5t ;根据2010年至2016年的数据(时间变量t 的值依次为1,2,…,7)建立模型②:y ^=99+17.5t.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值. (2)你认为用哪个模型得到的预测值更可靠?并说明理由.(1)利用模型①,可得该地区2018年的环境基础设施投资额的预测值为y ^=-30.4+13.5×19=226.1(亿元).利用模型②,可得该地区2018年的环境基础设施投资额的预测值为y ^=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(i )从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =-30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y ^=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.(ii )从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.(以上给出了2种理由,考生答出其中任意一种或其他合理理由均可得分)8.一车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了8次试验,收集的数据如下表:零件数x(个) 10 20 30 40 加工时间y(min ) 62 68 75 81 零件数x(个)50607080加工时间y(min ) 89 95 102 108设回归方程为y =bx +a ,则点(a ,b)在直线x +45y -10=0的(C ) A .左上方 B .左下方 C .右上方 D .右下方解:由x -=45,y -=85,得a +45b =85,即有a +45b -10>0,故点(a ,b)在直线x +45y -10=0的右上方,故选C .9.某医疗研究所为了了解某种血清预防感冒的作用,把500名使用过这种血清的人与另外500名未使用这种血清的人一年中的感冒记录比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2=3.918,经查临界值表知P(K 2≥3.841)≈0.05.由下列结论中,正确结论的序号是 ① .①有95%的把握认为“这种血清能起到预防感冒的作用”;②若某人未使用该血清,那么他在一年中有95%的可能性得感冒; ③这种血清预防感冒的有效率为95%; ④这种血清预防感冒的有效率为5%.解:因为K 2=3.918≥3.841,而P(K 2≥3.841)≈0.05, 所以有95%的把握认为“这种血清能起到预防感冒的作用”.10.(2018·佛山一模)有甲、乙两家公司都愿意聘用某求职者,这两家公式的具体聘用信息如下:甲公司 :职位 A B C D 月薪/元 6000 7000 8000 9000 获得相应职位概率0.40.30.20.1乙公司:职位 A B C D 月薪/元 5000 7000 9000 11000 获得相应职位概率0.40.30.20.1(1)(2)某课外实习作业小组调查了1000名职场人士,就选择这两家公司的意愿作了统计, 人员结构 选择意愿 40岁以上 (含40岁) 男性40岁以上 (含40岁) 女性40岁以下 男性40岁以下 女性选择甲公司 110 120 140 80 选择乙公司150902001101出“选择意愿与年龄有关系”的结论犯错误的概率的上限是多少?并用统计学知识分析,选择意愿与年龄变量和性别变量哪一个关联性更大?附:K2=n(ad-bc)2(a+b)(c+d)(a+c)(b+d)P(K2≥k) 0.050 0.025 0.010 0.005 k 3.841 5.024 6.635 7.879(1)设甲公司与乙公司的月薪分别为随机变量X,Y,则E(X)=6000×0.4+7000×0.3+8000×0.2+9000×0.1=7000,E(Y)=5000×0.4+7000×0.3+9000×0.2+11000×0.1=7000,D(X)=(6000-7000)2×0.4+(7000-7000)2×0.3+(8000-7000)2×0.2+(9000-7000)2×0.1=10002,D(Y)=(5000-7000)2×0.4+(7000-7000)2×0.3+(9000-7000)2×0.2+(11000-7000)2×0.1=20002,则E(X)=E(Y),D(X)<D(Y),我希望不同职位的月薪差距小一些,故选择甲公司;或我希望不同职位的月薪差距大一些,故选择乙公司.(2)因为k1=5.5513>5.024,根据表中对应值,得出“选择意愿与年龄有关系”的结论犯错的概率的上限是0.025,由数据分布可得选择意愿与性别两个分类变量的2×2列联表如下:选择甲公司选择乙公司总计男250 350 600女200 200 400总计450 550 1000计算K2=1000×(250×200-350×200)2600×400×450×550=2000297≈6.734,且K2=6.734>6.635,对照临界值表得出结论“选择意愿与性别有关”的犯错误的概率上限为0.01,由0.01<0.025,所以与年龄相比,选择意愿与性别关联性更大.感谢您的下载!快乐分享,知识无限!由Ruize收集整理!。
6.5 相关系数及回归方程两个变量间的相关关系:①有关概念:相关关系与函数关系不同.函数关系中的两个变量间是一种确定性关系.相关关系是一种非确定性关系,即相关关系是非随机变量与随机变量之间的关系.如果一个变量的值由小变大时另一个变量的值由小变大,这种相关称为正相关;如果一个变量的值由小变大时另一个变量的值由大变小,这种相关称为负相关;如果散点图中点的分布从整体上看大致在一条直线附近,就称这两个变量之间具有线性相关关系.②回归方程: 是两个具有线性相关关系的变量的一组数据的回归方程,其中是待定参数. 的计算公式.考向一 样本中心【例1-1】某种产品的广告费支出与销售额之间有如下对应数据(单位:百万元),根据下表求出关于的线性回归方程为,则表中的值为( )A. B. C. D.y bx a =+1122()()()n n x y x y x y ,,,,,,a b 、a b 、1122211()()()()nni i i ii i nni ii i x x y y x y nx yb x x xn x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑x y y x 6.5175ˆ.yx =+a 505456.564【答案】B【解析】根据规律知道回归直线一定过样本中心,故得到,将坐标代入方程得到的值为.故答案为:B. 【例1-2】已知表中数据y 与x 有较好的线性关系,通过计算得到y 关于x 的线性回归方程为ˆˆ1.05yx a =+,则相应于下列各点的残差中绝对值最小的是( )A .(2,4)B .(4,6)C .(8,10)D .(10,12.5)【答案】D【解析】ˆˆˆ6,8.3,8.3 1.056,2, 1.052x y aa y x ==∴=⨯+∴=∴=+, 相应于点(2,4),(4,6),(8,10),(10,12.5)的残差分别为0.1,0.2,0.4,0---,故选D.【举一反三】1.“关注夕阳、爱老敬老”—某马拉松协会从2013年开始每年向敬老院捐赠物资和现金.下表记录了第x 年(2013年是第一年)与捐赠的现金y (万元)的对应数据,由此表中的数据得到了y 关于x 的线性回归方程.ˆ035ymx =+,则预测2019年捐赠的现金大约是( ) A .5万元B .5.2万元C .5.25万元D .5.5万元【答案】C5,196x y a ==+6.5175ˆ.yx =+a 54【解析】由已知得,29t =, 所以样本点的中心点的坐标为(4.5,3.5),代入.ˆ035ymx =+, 得3.5 4.50.35m =+,即0.7m =,所以0.7035ˆ.x y=+, 取7x =,得ˆ0.770.35 5.25y=⨯+=, 预测2019年捐赠的现金大约是5.25万元.2.某同学将收集到的6组数据对,制作成如图所示的散点图(各点旁的数据为该点坐标),并由这6组数据计算得到回归直线l :y bx a =+$$$和相关系数r .现给出以下3个结论:①0r >;②直线l 恰过点D ;③1b >. 其中正确结论的序号是( )A .①②B .①③C .②③D .①②③【答案】A【解析】由图像可得,从左到右各点是上升排列的,变量具有正相关性,所以0r >,①正确; 由题中数据可得: 1.5 2.4 3.54 5.8 6.846x +++++==, 2.1 2.8 3.3 3.5 4.35 3.56y +++++==,所以回归直线过点(4,3.5)D ,②正确;又61621()()10.360.514120.14()iii ii x x yy b x x ==--==≈<-∑∑,③错误.故选A 3.有一散点图如图所示,在5个(,)x y 数据中去掉(3,10)D 后,下列说法正确的是( )A .残差平方和变小B .相关系数r 变小C .相关指数2R 变小D .解释变量x 与预报变量y 的相关性变弱【答案】A【解析】∵从散点图可分析得出:只有D 点偏离直线远,去掉D 点,变量x 与变量y 的线性相关性变强, ∴相关系数变大,相关指数变大,残差的平方和变小,故选:A.考向二回归方程【例2】某人经营淡水池塘养草鱼,根据过去40期的养殖档案,该池塘的养殖重量X (百斤)都在20百斤以上,其中不足40百斤的有8期,不低于40百斤且不超过60百斤的有20期,超过60百斤的有12期.根据统计,该池塘的草鱼重量的增加量y (百斤)与使用某种饵料的质量x (百斤)之间的关系如图所示.(1)根据数据可知y 与x 具有线性相关关系,请建立y 关于x 的回归方程ˆˆˆybx a =+;如果此人设想使用某种饵料10百斤时,草鱼重量的增加量须多于5百斤,请根据回归方程计算,确定此方案是否可行?并说明理由.(2)养鱼的池塘对水质含氧量与新鲜度要求较高,某商家为该养殖户提供收费服务,即提供不超过3台增氧冲水机,每期养殖使用的冲水机运行台数与鱼塘的鱼重量X 有如下关系:若某台增氧冲水机运行,则商家每期可获利5千元;若某台冲水机未运行,则商家每期亏损2千元.视频率为概率,商家欲使每期冲水机总利润的均值达到最大,应提供几台增氧冲水机? 附:对于一组数据()()()1122,,,,n n x y x y x y ,其回归方程ˆˆˆybx a =+的斜率和截距的最小二乘估计公式分别为1221ˆni ii ni i x y nxy bx nx ==-=-∑∑()()()121,niii ni i x x y y x x ==--=-∑∑ˆˆay bx =- 【答案】(1)337y 1313x =+$当10x =时,此方案可行.(2)应提供2台增氧冲水机 【解析】(1)依题意,5,4,x y ==()()5126iii x x y x =--=∑()()()515213ˆ,13iii i i x x y y bx x ==--∴==-∑∑337ˆ451313a y bx =-=-⨯=$所以3371313y x =+$当10x =时,67ˆ513y=>,故此方案可行. (2)设盈利为Y ,安装1台时,盈利5000Y =, 安装2台时,12040,3000,5X Y p <<==;440,10000,5X Y p ==…. 14()300010000860055E Y ∴=⨯+⨯=安装3台时,12040,1000,5X Y p <<==; 4060,8000,X Y =剟3;5P =160,15000,5X Y P >==. 13()1000800055E Y ∴=⨯+⨯11500080005+⨯=.86008000>,故应提供2台增氧冲水机.【举一反三】1.李克强总理在2018年政府工作报告指出,要加快建设创新型国家,把握世界新一轮科技革命和产业变革大势,深入实施创新驱动发展战略,不断增强经济创新力和竞争力.某手机生产企业积极响应政府号召,大力研发新产品,争创世界名牌.为了对研发的一批最新款手机进行合理定价,将该款手机按事先拟定的价格进行试销,得到一组销售数据(),(1,2,,6)i i x y i =,如表所示:已知611606i i y y ===∑.(1)若变量,x y 具有线性相关关系,求产品销量y (百件)关于试销单价x (千元)的线性回归方程ˆˆˆy bx a =+;(2)用(1)中所求的线性回归方程得到与i x 对应的产品销量的估计值i y .当销售数据(),i i x y 对应的残差的绝对值ˆ1i i y y -≤时,则将销售数据(),i i x y 称为一个“好数据”.现从6个销售数据中任取3个子,求“好数据”个数ξ的分布列和数学期望()E ξ.(参考公式:线性回归方程中ˆˆ,ba 的估计值分别为1221ˆˆˆ,)ni ii nii x y nxyb ay bx xnx =-=-==--∑∑. 【答案】(1) ˆ482yx =-+ (2)见解析 【解析】(1)由611606i i y y ===∑,可求得48t =,故11910ni ii x y==∑,=1980nx y ,21199ni i x ==∑,2=181.5nx ,代入可得122119101980704199181.517.5ni ii ni i x y nx yb x nx==---====---∑∑,ˆˆ604 5.582ay bx =-=+⨯=, 所以所求的线性回归方程为ˆ482yx =-+. (2)利用(1)中所求的线性回归方程ˆ482yx =-+可得,当13x =时,170y =;当24x = 时,266y =;当35x =时,362y =;当46x =时,458y =;当57x =时,554y =;当68x =时,650y =.与销售数据对比可知满足||1(1,2,,6)i i y y i -≤=的共有4个“好数据”:(3,70)、(4,65)、(5,62)、(6,59) 于是ξ的所有可能取值为1,2,31242361(1)5C C P C ξ===,2142363(2)5C C P C ξ===,3042361(3)5C C P C ξ===, ∴ξ 的分布列为:所以1232555E ξ=⨯+⨯+⨯=.考向三 非线性回归【例3】近期,某公交公司分别推出支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,由于推广期内优惠力度较大,吸引越来越多的人开始使用扫码支付.某线路公交车队统计了活动刚推出一周内每一天使用扫码支付的人次,用x 表示活动推出的天数,y 表示每天使用扫码支付的人次(单位:十人次),统计数据如表所示:根据以上数据,绘制了如图所示的散点图.(1)根据散点图判断,在推广期内,y a bx =+与(,xy c d c d =⋅均为大于零的常数)哪一个适宜作为扫码支付的人次y 关于活动推出天数x 的回归方程类型?(给出判断即可,不必说明理由);(2)根据(1)的判断结果及表l 中的数据,求y 关于x 的回归方程,并预测活动推出第8天使用扫码支付的人次;(3)推广期结束后,车队对乘客的支付方式进行统计,结果如表所示:已知该线路公交车票价为2元,使用现金支付的乘客无优惠,使用乘车卡支付的乘客享受8折优惠,扫码支付的乘客随机优惠,根据统计结果得知,使用扫码支付的乘客,享受7折优惠的概率为16,享受8折优惠的概率为13,享受9折优惠的概率为12.根据所给数据以事件发生的频率作为相应事件发生的概率,估计一名乘客一次乘车的平均费用. 参考数据:其中lg i i u y =,7117i i u u ==∑.【答案】(1)xy c d =⋅适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型;(2)y 关于x 的回归方程式为:0.25ˆ 3.4710xy=⨯,第8天使用扫码支付的人次为347人次;(3)1.66元.【解析】(1)根据散点图判断,x y c d =⋅适宜作为扫码支付的人数y 关于活动推出天数x 的回归方程类型;(2)由(1)知回归方程为x y c d =⋅,两边同时取常用对数得:()lg lg lg lg xy c dc d x =⋅=+⋅,设lg y u =,lg lg u c d x ∴=+⋅,又4x =, 1.54u =,721140i i x ==∑,7172221750.1274 1.547lg 0.2514074287i ii i i x u xu d x x==--⨯⨯∴====-⨯-∑∑,把样本中心点()4,1.54代入lg lg u c d x =+⋅,即1.54lg 0.254c =+∙,解得:4ˆl 0.5gc=, 0.5405ˆ.2ux ∴=+, lg 0.540.25y x ∴=+,y ∴关于x 的回归方程式为:()0.540.250.540.250.2510101040ˆ 3.71xx x y +==⨯=⨯,把8x =代入上式得,23.4734ˆ107y=⨯=, 活动推出第8天使用扫码支付的人次为347人次;(3)记一名乘客乘车支付的费用为Z ,则Z 的取值可能为:2,1.8,1.6,1.4, 则()20.1P Z==,()11.80.30.152P Z ==⨯=, ()11.60.60.30.73P Z ==+⨯=,()11.40.30.056P Z ==⨯=; 分布列为:所以,一名乘客一次乘车的平均费用为:20.1 1.80.15 1.60.7 1.40.05 1.66⨯+⨯+⨯+⨯=(元). 【举一反三】1.为方便市民出行,倡导低碳出行.某市公交公司推出利用支付宝和微信扫码支付乘车活动,活动设置了一段时间的推广期,在推广期内采用随机优惠鼓励市民扫码支付乘车.该公司某线路公交车队统计了活动推广期第一周内使用扫码支付的情况,其中 (单位:天)表示活动推出的天次, (单位:十人次)表示当天使用扫码支付的人次,整理后得到如图所示的统计表1和散点图. 表1:(1)由散点图分析后,可用作为该线路公交车在活动推广期使用扫码支付的人次关于活动推出天次的回归方程,根据表2的数据,求此回归方程,并预报第8天使用扫码支付的人次(精确到整数).表2:表中,.(2)推广期结束后,该车队对此期间乘客的支付情况进行统计,结果如表3.表3:统计结果显示,扫码支付中享受5折支付的频率为,享受7折支付的频率为,享受9折支付的频率为.已知该线路公交车票价为1元,将上述频率作为相应事件发生的概率,记随机变量为在活动期间该线路公交车搭载乘客一次的收入(单位:元),求的分布列和期望.参考公式:对于一组数据,其回归直线的斜率和截距的最小二乘估计分别为参考数据:,,.【答案】(1) ,人次为2447 (2)见解析【解析】(1)由题意得,,,关于的线性回归方程为,关于的回归方程为,当时,,第8天使用扫码支付的人次为2447;(2)由题意得的所有取值为0.5,0.7,0.9,1,,,,,的分布列为:1.有下列说法:①若某商品的销售量y (件)关于销售价格x (元/件)的线性回归方程为5350y x =-+,当销售价格为10元时,销售量一定为300件;②线性回归直线y bx a =+$$$一定过样本点中心(,)x y ;③若两个随机变量的线性相关性越强,则相关系数r 的值越接近于1;④在残差图中,残差点比较均匀落在水平的带状区域中即可说明选用的模型比较合适,与带状区域的宽度无关;⑤在线性回归模型中,相关指数2R 表示解释变量对于预报变量变化的贡献率,2R 越接近于1,表示回归的效果越好;其中正确的结论有几个( ) A .1 B .2C .3D .4【答案】B【解析】①当销售价格为10时,销售量的预估值为300件,但预估值与实际值未必相同,①错误; ②由最小二乘法可知,回归直线必过(),x y ,②正确;③若两个随机变量为负相关,若线性相关性越强,相关系数r 越接近1-,③错误; ④残差图中,带状区域越窄,模型拟合度越高,④错误;⑤相关指数2R 越接近1,拟合度越高,则在线性回归模型中,回归效果越好,⑤正确. 可知正确的结论为:②⑤,共2个本题正确选项:B2.已知下表为x 与y 之间的一组数据,若y 与x 线性相关,则y 与x 的回归直线y bx a =+必过点( )A .(2,2)B .(1.5,0)C .(1,2)D .(1.5,4)【答案】D【解析】由题可得32x =,4y =, 22223333(0)(14)(1)(34)(2)(54)(3)(74)102222ˆ233335(0)(1)(2)(3)2222b --+--+--+--===-+-+-+-,3ˆ4212a=-⨯=,则回归方程为ˆ21yx =+,将A ,B ,C ,D 四项分别代入方程,只有(1.5,4)这个点在直线上,故选D 。
【师说 高中全程复习构想】(新课标)2015届高考数学 10.3变量间的相关关系练习一、选择题1.①正相关,②负相关,③不相关,则下列散点图分别反映的变量是( )A .①②③B .②③①C .②①③D .①③②解析:第一个散点图中,散点图中的点是从左下角区域分布到右上角区域,则是正相关;第三个散点图中,散点图中的点是从左上角分布到右下角区域,则是负相关;第二个散点图中,散点图中的点的分布没有什么规律,则是不相关,所以应该是①③②,故选D. 答案:D2.下列有关回归直线方程y ^=b ^x +a ^的叙述正确的是( ) ①反映y ^与x 之间的函数关系; ②反映y 与x 之间的函数关系; ③表示y ^与x 之间的不确定关系;④表示最接近y 与x 之间真实关系的一条直线. A .①② B .②③ C .③④ D .①④解析:y ^=b ^x +a ^表示y ^与x 之间的函数关系,而不是y 与x 之间的函数关系,但它反映的关系最接近y 与x 之间的真实关系. 答案:D3.观测两相关变量得如下数据:x -9 -6.99 -5.01 -2.98 -5 5 4.999 4 y-9-7-5-3-5.024.9953.998则下列选项中最佳的回归方程为( )A.y ^=12x +1B.y ^=xC.y ^=2x +13D.y ^=2x +1解析:因为表格的每组数据的x 和y 都近似相等,所以回归方程为y ^=x. 答案:B4.为了解儿子身高与其父亲身高的关系,随机抽取5对父子的身高数据如下:父亲身高x(cm) 174 176 176 176 178 儿子身高y(cm)175175176177177则y 对x 的线性回归方程为( ) A.y ^=x -1 B.y ^=x +1 C.y ^=88+12x D.y ^=176解析:设y 对x 的线性回归方程为y ^=b ^x +a ^,因为b ^=-2×-1+0×-1+0×0+0×1+2×1-22+22=12,a ^=176-12×176=88,所以y 对x 的线性回归方程为y ^=12x +88.选C.答案:C 5.已知回归直线的斜率的估计值是1.23,样本点的中心为(4,5),则回归直线的方程是( ) A.y ^=1.23x +4 B.y ^=1.23x +5 C.y ^=1.23x +0.08 D.y ^=0.08x +1.23解析:D 显然错误,把(4,5)代入A 、B 、C 检验,满足的只有C. 答案:C6.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r1表示变量Y 与X 之间的线性相关系数,r2表示变量V 与U 之间的线性相关系数,则( ) A .r2<r1<0 B .0<r2<r1 C .r2<0<r1 D .r2=r1解析:对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关,即r1>0;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,即r 2<0.∴r2<0<r1.故选C.二、填空题7.某产品的广告费用x 与销售额y 的统计数据如下表:广告费用x(万元) 3 4 5 6 销售额y(万元)25304045根据上表可得回归方程:y ^=b ^x +a ^中的b ^=7.据此模型,若广告费用为10万元,则预报销售额等于__________万元.解析:x =3+4+5+64=4.5,y =25+40+40+454=35,代入回归直线方程35=7×4.5+a ^,解得a ^=3.5,故回归直线方程为y ^=7x +3.5,x =10时,y =73.5. 答案:73.58.x 2 4 5 6 8 y3040605070已知:x =2+4+5+6+85=5,y =30+40+60+50+705=50,∑i =15x2i =22+42+52+62+82=145,∑i =15xiyi =2×30+4×40+5×60+6×50+8×70=1380,则y 与x 的线性回归方程是__________.解析:b ^=∑i =15xiyi -5xy∑i =15x2i -5x 2=1380-5×5×50145-5×25=132,a ^=y -b ^x =50-5×132=352,∴y ^=132x +352. 答案:y ^=132x +3529.某数学老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为__________cm.解析:设父亲身高为x cm ,儿子身高为y cm ,则x 173 170 176 y170176182x =173,y =176,b ^=0×-6+-3×0+3×602+9+9=1,a =y -b x =176-1×173=3, ∴y ^=x +3,当x =182时,y ^=185.答案:185 三、解答题10.在7块并排、形状大小相同的试验田上进行施化肥量对水稻产量影响的试验,得到如施化肥量x 15 20 25 30 35 40 45 水稻产量y330345365405445450455(1)画出散点图;(2)判断是否具有线性相关关系. 解析:(1)散点图如下图所示.(2)观察散点图知,散点图中的点分布在一条直线附近,则水稻产量与施化肥量之间具有线性相关关系.11x 6 8 10 12 y2356(1)请在图中画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)试根据(2)求出的线性回归方程,预测记忆力为9的同学的判断力. ⎝ ⎛⎭⎪⎪⎫相关公式:b ^=∑ni =1xiyi -n x ·y ∑ni =1x2i -n x 2,a ^=y -b ^x .解析:(1)如图所示.(2)∑ni =1xiyi =6×2+8×3+10×5+12×6=158, x =6+8+10+124=9,y =2+3+5+64=4,∑n i =1x2i =62+82+102+122=344, b ^=158-4×9×4344-4×92=1420=0.7,a ^=y -b ^x =4-0.7×9=-2.3,故线性回归方程为y ^=0.7x -2.3.(3)由回归直线方程,当x =9时,y ^=6.3-2.3=4,所以预测记忆力为9的同学的判断力约为4.12.某企业上半年产品产量与单位成本资料如下:月份 产量(千件) 单位成本(元) 1 2 73 2 3 72 3 4 71 4 3 73 5 4 69 6568(1)求出线性回归方程;(2)指出产量每增加1000件时,单位成本平均变动多少? (3)假定产量为6000件时,单位成本为多少元?解析:(1)n =6,∑6i =1xi =21,∑6i =1yi =426,x =3.5,y =71,∑6i =1x2i =79,∑6i =1xiyi =1 481, b ^=∑6i =1xiyi -6x —y —∑6i =1x2i -6x 2=1 481-6×3.5×7179-6×3.52≈-1.82.a ^=y -b ^x =71+1.82×3.5=77.37. 回归方程为y ^=a ^+b ^x =77.37-1.82x.(2)因为单位成本平均变动b ^=-1.82<0,且产量x 的计量单位是千件,所以根据回归系数b ^的意义有:产量每增加一个单位即1 000件时,单位成本平均减少1.82元.(3)当产量为6 000件时,即x =6,代入回归方程,得y ^=77.37-1.82×6=66.45(元). 当产量为6 000件时,单位成本为66.45元.。
变量间的相关关系与线性回归方程2一、选择题 1.已知线性回归方程,当变量每增加一个单位时,则的变化情况正确的是A .平均增加约1.2个单位B .平均增加约3个单位C .平均减少约1.2个单位D .平均减少约3个单位2.已知5个学生的数学和英语成绩如下表:学生 A B CD E 数学 80 75 70 65 60 英语7066686462则数学与英语成绩之间A .是函数关系B .是相关关系,但相关性很弱C .具有较好的相关关系,且是正相关D .具有较好的相关关系,且是负相关3.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4)(11.8,3),(12.5,2),(13,1),r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则 A .r 2<r 1<0 B .0<r 2<r 1 C .r 2<0<r 1D .r 2=r 14.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费(单位:千元)对年销售量(单位:)和年利润(单位:千元)的影响.对近8年的年宣传费和年销售量数据作了初步处理,得到下面的散点图及一些统计量的值.有下列5个曲线类型:①y bx a =+;②y c x d =+;③;④;⑤,则较适宜作为年销售量关于年宣传费的回归方程的是A .①②B .②③C .②④D .③⑤5.对两个变量y 和x 进行回归分析,得到一组样本数据()()()1122,,,,,,,n n x y x y x y L 则下列说法中不正确的是A .由样本数据得到的回归方程ˆˆˆy bx a =+必过样本点的中心()y x ,B .残差平方和越小的模型,拟合的效果越好C .用相关指数2R 来刻画回归效果,2R 越小说明拟合效果越好D .若变量y 和x 之间的相关系数为9462.0-=r ,则变量y 和x 之间具有线性相关关系 二、填空题6.已知方程ˆ0.8582.71yx =-是根据女大学生的身高预报她的体重的回归方程,其中x 的单位是cm ,ˆy的单位是kg ,那么针对某个体(160,53)的残差是________. 三、解答题7.下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,,17L )建立模型①:ˆ30.413.5yt =-+;根据2010年至2016年的数据(时间变量t 的值依次为1,2,,7L )建立模型②:ˆ9917.5yt =+. (1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.变量间的相关关系与线性回归方程2答案一、选择题 1.【答案】A 【解析】令x =a ,则.令x =a +1,则.所以当变量每增加一个单位时,则平均增加约1.2个单位. 故选A . 2.【答案】C【解析】画出散点图,通过散点图进行判断.设数学成绩和英语成绩分别为x ,y ,画出散点图,如图,从图上可以看出数学成绩和英语成绩具有较好的相关关系,且是正相关.故选C .3.【答案】C【解析】根据题中提供的数据,变量Y 随X 的增大而增大,故Y 与X 正相关,即r 1>0; 变量V 随U 的增大而减小,故V 与U 负相关,即r 2<0, 故r 2<0<r 1. 4.【答案】B【解析】从散点图知,样本点分布在开口向右的抛物线(上支)附近或对数曲线(上部分)的附近,所以y =或y =p +q ln x 较适宜,故选B.5.【答案】C【解析】样本中心点一定在直线上,所以A 正确; 残差平方和越小的模型,拟合效果越好,故B 正确;2R 越大,拟合效果越好,故C 不正确;当75.0 r 时,表示变量间具有较强的线性相关关系,故D 正确.二、填空题6.【答案】0.29-【解析】把160x =代入ˆ0.8582.71yx =-, 得ˆ0.8516082.7153.29y=⨯-=, 所以残差ˆˆ5353.290.29e y y =-=-=-.三、解答题7.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为y $=–30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为 y $=99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠. 理由如下:(i )从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =–30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型y $=99+17.5t 可以较好地描述2010年以后的环境基础设施投资额的变化趋势,因此利用模型②得到的预测值更可靠.学&科网(ii )从计算结果看,相对于2016年的环境基础设施投资额220亿元,由模型①得到的预测值226.1亿元的增幅明显偏低,而利用模型②得到的预测值的增幅比较合理,说明利用模型②得到的预测值更可靠.。
1131.已知变量x 与y 正相关,且由观测数据算得样本平均数x -=3,y -=3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3 B.y ^=2x -2.4 C.y ^=-2x +9.5D.y ^=-0.3x +4.4【解析】 因为变量x 和y 正相关,则回归直线的斜率为正,故可以排除选项C 和D.因为样本点的中心在回归直线上,把点(3,3.5)的坐标代入检验,A 满足.【答案】 A2.(2018·武昌元月调考)根据如下样本数据:得到的回归方程为y =bx +a ,若a =7.9,则x 每增加一个单位,y 就( ) A .增加1.4个单位 B .减少1.4个单位 C .增加1.2个单位D .减少1.2个单位【解析】 根据样本数据可得,x - =5,y -=0.9,由于样本点的中心(x -,y -)满足y -=b x -+a ,所以0.9=b ×5+7.9,可得b =-1.4.故选B. 【答案】 B3.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 【解析】 ∵0.85>0,∴y 与x 正相关,∴A 正确; ∵回归直线经过样本点的中心(x -,y -),∴B 正确; ∵Δy =0.85(x +1)-85.71-(0.85x -85.71)=0.85, ∴C 正确. 【答案】 D4.为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表:(1)统计量:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )(n =a +b +c +d ).(2)独立性检验的临界值表:则下列说法正确的是A .有99%的把握认为环保知识测试成绩与专业有关 B .有99%的把握认为环保知识测试成绩与专业无关 C .有95%的把握认为环保知识测试成绩与专业有关 D .有95%的把握认为环保知识测试成绩与专业无关 【解析】 因为K 2=40×(14×13-7×6)220×20×21×19≈4.912,【答案】 C5.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表:附:已知在全部105人中随机抽取1人,成绩优秀的概率为7,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按97.5%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按97.5%的可靠性要求,不能认为“成绩与班级有关系”【解析】 由题意知,成绩优秀的学生数是30,成绩非优秀的学生数是75,所以c =20,b =45,选项A 、B 错误.根据列联表中的数据,得到K 2=105×(10×30-20×45)255×50×30×75≈6.109>5.024,因此有97.5%的把握认为“成绩与班级有关系”.【答案】 C6.已知数组(x 1,y 1),(x 2,y 2),…,(x 10,y 10)满足线性回归方程y ^=b ^x +a ^,则“(x 0,y 0)满足线性回归方程y ^=b ^x +a ^”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件【解析】 x 0,y 0为这10组数据的平均数,根据公式计算线性回归方程y ^=b ^x +a ^的b ^以后,再根据a ^=y --b ^x -(x -,y -为样本平均数)求得a ^.因此(x -,y -)一定满足线性回归方程,但满足线性回归方程的除了(x -,y -)外,可能还有其他样本点.【答案】 B7.(2018·海南模拟)某车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得线性回归方程y ^=0.67x +54.9.零件数x (个) 10 203040 50 加工时间(min)62758189【解析】 x -=30,线性回归方程必过样本点的中心(x -,y -),则y -=0.67×30+54.9=75,设模糊数据为a ,则62+a +75+81+895=75,解得a =68.故填68.【答案】 688.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温(℃)18 13 10 -1 用电量(度)24343864由表中数据得回归直线方程y ^=b ^x +a ^中的b ^=-2,预测当气温为-4 ℃时,用电量约为________度.【解析】 根据题意知x -=18+13+10+(-1)4=10,y -=24+34+38+644=40,因为回归直线过样本点的中心,所以a ^=40-(-2)×10=60,所以当x =-4时,y =(-2)×(-4)+60=68,所以用电量约为68度.【答案】 689.(2018·广州模拟)为了判断高中三年级学生选修文理科是否与性别有关,现随机抽取50名学生,得到2×2列联表如下:已知P (K 2≥3.841根据表中数据,得到K 2=50×(13×20-10×7)223×27×20×30≈4.844,则认为选修文理科与性别有关系出错的可能性约为________.【解析】 由K 2=4.844>3.841.故认为选修文理科与性别有关系出错的可能性约为5%. 【答案】 5%10.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是________.【解析】 依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38, 则38=13×34+a ^,解得a ^=18. 【答案】 1811.某百货公司1~6月份的销售量x 与利润y 的统计数据如下表:(1)根据2~5月份的数据,画出散点图,求出y 关于x 的线性回归方程y =b ^x +a ^; (2)若由线性回归方程得到的估计数据与剩下的检验数据的误差均不超过2万元,则认为得到的线性回归方程是理想的,试问所得线性回归方程是否理想?【解析】 (1)根据表中2~5月份的数据作出散点图,如图所示: 计算得x -=11,y -=24, a ^=y --b ^x -=24-187×11=-307.故y 关于x 的线性回归方程为y ^=187x -307.(2)当x =10时,y ^=187×10-307=1507,此时⎪⎪⎪⎪⎪⎪1507-22<2;当x =6时,y ^=187×6-307=787,此时⎪⎪⎪⎪⎪⎪787-12<2.故所得的线性回归方程是理想的.12.某高校共有学生15 000人,其中男生105 00人,女生4 500人,为调查该校学生每周平均体育运动时间的情况,采用分层抽样的方法,收集300位学生每周平均体育运动时间的样本数据(单位:小时).(1)应收集多少位女生的样本数据?(2)根据这300个样本数据,得到学生每周平均体育运动时间的频率分布直方图(如图所示),其中样本数据的分组区间为:[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],估计该校学生每周平均体育运动时间超过4小时的概率;(3)在样本数据中,有60位女生的每周平均体育运动时间超过4小时,请列出每周平均体育运动时间与性别列联表,并判断是否有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).【解析】 (1)300×15 000=90,所以应收集90位女生的样本数据. (2)由频率分布直方图得 1-2×(0.025+0.100)=0.75,所以该校学生每周平均体育运动时间超过4小时的概率的估计值为0.75.(3)由(2)知,300位学生中有300×0.75=225(人)的每周平均体育运动时间超过4小时,75人的每周平均体育运动时间不超过4小时.又因为样本数据中有210份是关于男生的,90份是关于女生的,所以每周平均体育运动时间与性别列联表如下:每周平均体育运动时间与性别列联表结合列联表可算得K2=75×225×210×90=21≈4.762>3.841.所以有95%的把握认为“该校学生的每周平均体育运动时间与性别有关”.。
变量之间的相关关系和两个变量的线性相关链接高考1.(2015湖北,4,5分,★★☆)已知变量x和y满足关系y=-0.1x+1,变量y与z正相关. 下列结论中正确的是()A.x与y正相关,x与z负相关B.x与y正相关,x与z正相关C.x与y负相关,x与z负相关D.x与y负相关,x与z正相关2.(2014重庆,3,5分,★★☆)已知变量x与y正相关,且由观测数据算得样本平均数=3,=3.5,则由该观测数据算得的线性回归方程可能是()A.=0.4x+2.3B.=2x-2.4C.=-2x+9.5D.=-0.3x+4.43.(2014湖北,4,5分,★★☆)根据如下样本数据得到的回归方程为=bx+a,则()A.a>0,b>0B.a>0,b<0C.a<0,b>0D.a<0,b<04.(2011山东,7,5分,★★☆)某产品的广告费用x与销售额y的统计数据如下表:根据上表可得回归方程=x+中的为9.4,据此模型预测广告费用为6万元时销售额为()A.63.6万元B.65.5万元C.67.7万元D.72.0万元5.(2015重庆,17,13分,★★☆)随着我国经济的发展,居民的储蓄存款逐年增长.设某地区城乡居民人民币储蓄存款(年底余额)如下表:(1)求y关于t的回归方程=t+;(2)用所求回归方程预测该地区2015年(t=6)的人民币储蓄存款.附:回归方程=t+中,==-.三年模拟1.(2016安徽安庆宿松凉亭中学期中,★☆☆)在下列各图中,两个变量具有线性相关关系的是()A.(1)(2)B.(1)(3)C.(2)(4)D.(2)(3)2.(2016福建漳州东山二中期末,★☆☆)已知x与y之间的一组数据:则回归直线=x+必过点()A.(2,2)B.(1.5,4)C.(1.5,0)D.(1,2)3.(2015湖南浏阳一中、攸县一中、醴陵一中联考,★★☆)某产品在某零售摊位的零售价x(单位:元)与每天的销售量y(单位:个)的统计资料如下表所示.由下表可得回归直线方程=x+中的=-4,据此模型预测当零售价为15元时,每天的销售量为()A.51个B.50个C.49个D.48个4.(2015黑龙江大庆铁人中学期末,★★☆)某工厂对某产品的产量与成本的资料分析后有如下数据:由表中数据得到的线性回归方程=x+中的=1.1,据此模型预测当产量为9千件时,成本约为________万元.5.(2016宁夏银川一中期末,★★☆)某种商品的广告费用支出x(千元)与销售额y(万元)之间有如下对应数据:(1)根据上表数据,用最小二乘法求出销售额y关于广告费用支出x的线性回归方程;(参考数据:2×3+4×4+5×6+6×5+8×7=138,22+42+52+62+82=145)(2)当广告费用支出为10千元时,预测一下该商品的销售额为多少万元.6.(2016山西右玉一中期末,★★☆)有5名学生的数学和化学成绩如下表所示:(1)如果y与x具有线性相关关系,求线性回归方程;(2)预测如果某学生数学成绩为79分,他的化学成绩为多少.参考公式:=,=-.。
10.3-变量的相关性与一元线性回归模型-专项训练【原卷版】(时间:45分钟分值:90分)【基础落实练】1.(5分)(2024·烟台模拟)两个变量x与y之间的经验回归方程()A.表示x与y之间的函数关系B.表示x与y之间的不确定关系C.反映x与y之间的真实关系D.是反映x与y之间的真实关系的一种最佳拟合2.(5分)下图是某地区2001年至2021年环境保护建设投资额(单位:万元)的折线图.根据该折线图判断,下列结论正确的是()A.为预测该地2026年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠B.为预测该地2026年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠C.投资额与年份负相关D.投资额与年份的相关系数r<03.(5分)某单位为了了解办公楼用电量y(kW·h)与气温x(℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:气温(℃)181310-1用电量(kW·h)24343864由表中数据得到经验回归方程=-2x+,当气温为-4℃时,预测用电量为() A.68kW·h B.52kW·hC.12kW·hD.28kW·h4.(5分)(2024·福州模拟)为研究变量x,y的相关关系,收集得到下面五个样本点(x,y):x56.5788.5y98643若由最小二乘法求得y关于x的经验回归方程为=-1.8x+,则据此计算残差为0的样本点是()A.(5,9)B.(6.5,8)C.(7,6)D.(8,4)5.(5分)(多选题)(2023·济南模拟)某同学将收集到的六对数据制作成散点图,得到其经验回归方程为l1:=0.68x+,计算其相关系数为r1,决定系数为 12.经过分析确定点F为“离群点”,把它去掉后,再利用剩下的五对数据计算得到经验回归方程为l 2:=x+0.68,相关系数为r2,决定系数为22.下列结论正确的是()A.r2>r1>0B.12> 22C.0<<0.68D.>0.686.(5分)(多选题)(2023·福州模拟)为研究混凝土的抗震强度y与抗压强度x的关系,某研究部门得到下表的样本数据:x 140150170180195y23a262828若y 与x 线性相关,且经验回归方程为=0.1x +9.1,则下列说法正确的是()A .a =24B .y 与x 正相关C .y 与x 的相关系数为负数D .若x =220,则y =31.17.(5分)(多选题)某芯片研发单位用在“A 芯片”上的研发费用占本单位总研发费用的百分比y 如表所示.已知 =40%,于是分别用p =30%和p =40%得到了两条经验回归方程:=x +,=x +,对应的相关系数分别为r1,r 2,百分比y 对应的方差分别为12, 22,则下列结论正确的是()(附:=∑ =1-∑ =12- 2,= - )年份20182019202020212022年份代码x12345y20%p 40%50%qA .r1>r 2B . 12> 22C .>D .>8.(5分)两个线性相关变量x 与y 的统计数据如表:x 99.51010.511y1110865其经验回归方程是=x +40,则相应点(9,11)的残差为________.9.(10分)(2020·全国Ⅱ卷节选)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑ =120x i =60,∑ =120y i =1200,∑ =120(x i - )2=80,∑ =120(y i - )2=9000,∑ =120(x i - )(y i - )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01).附:相关系数r ∑( - )( - ),2≈1.414.【能力提升练】10.(5分)甲、乙、丙、丁四位同学各自对A ,B 两个变量的线性相关性做了试验,并用回归分析方法分别求得相关系数r 与残差平方和m ,如表:项目甲乙丙丁r 0.820.780.690.85m106115124103则哪位同学的试验结果体现的A ,B 两变量有更强的线性相关性()A .甲B .乙C .丙D .丁11.(5分)(多选题)(2023·唐山模拟)某制衣品牌为使成衣尺寸更精准,选择了10名志愿者,对其身高(单位:cm)和臂展(单位:cm)进行了测量,这10名志愿者身高和臂展的折线图如图所示.已知这10名志愿者身高的均值为176cm,根据这10名志愿者的数据求得臂展u关于身高v的经验回归方程为=1.2v-34,则下列结论正确的是()A.这10名志愿者身高的极差小于臂展的极差B.这10名志愿者的身高和臂展呈负相关C.这10名志愿者臂展的均值为176.2cmD.根据经验回归方程可估计身高为160cm的人的臂展为158cm12.(5分)(多选题)针对某疾病,各地医疗机构采取了各种有针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示,由表格可得y关于x的经验回归方程为=6x2+,则下列说法正确的是()周数(x)12345治愈人数(y)2173693142A.=4B.=-8C.此回归模型第4周的残差为5D.估计第6周治愈人数为22013.(5分)(2024·太原模拟)某产品的广告费投入与销售额的统计数据如表所示:广告费x/万元4235销售额y/万元49263954根据上表建立经验回归方程,预测当广告费投入6万元时,销售额为__________万元.14.(10分)(2024·漳州模拟)2022年11月17日,由工业和信息化部、安徽省人民政府共同主办的第十七届“中国芯”集成电路产业促进大会在合肥成功举办.此次大会以“强芯固基以质为本”为主题,旨在培育壮大我国集成电路产业,夯实产业基础、营造良好产业生态.某芯片研发单位用在“A芯片”上的研发费用占本单位总研发费用的百分比y(%)如表所示.年份2016201720182019202020212022年份代码t1234567y(%)20%30%32%39%42%46%50%(1)根据表中的数据,作出相应的折线图;并结合相关数据,计算相关系数r,并推断y 与t线性相关程度;(已知:0.8≤ ≤1,则认为y与t线性相关很强;0.3≤ <0.8,则认为y与t线性相关一般; <0.3,则认为y与t线性相关较弱)(2)求出y与t的经验回归方程(保留一位小数);(3)请判断,若2024年用在“A芯片”上的研发费用不低于295万元,则该单位2024年芯片研发的总费用预算为500万元是否符合研发要求?附:相关数据:∑ =17y i =259,7≈2.65,∑=17-2≈25.34,∑ =17- .相关计算公式:相关系数r ∑ - =1在经验回归方程=x +中,=∑ =1- ∑ =12,= - .15.(10分)(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m 2)和材积量(单位:m 3),得到如下数据:样本号i 12345根部横截面积x i0.040.060.040.080.08材积量y i0.250.400.220.540.51样本号i 678910总和根部横截面积x i0.050.050.070.070.060.6材积量y i0.340.360.460.420.403.9并计算得∑ =1102=0.038,∑ =1102=1.6158,∑ =110x i y i =0.2474.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r ∑( - )( - ),1.896≈1.377.10.3-变量的相关性与一元线性回归模型-专项训练【解析版】(时间:45分钟分值:90分)【基础落实练】1.(5分)(2024·烟台模拟)两个变量x与y之间的经验回归方程()A.表示x与y之间的函数关系B.表示x与y之间的不确定关系C.反映x与y之间的真实关系D.是反映x与y之间的真实关系的一种最佳拟合【解析】选D.根据经验回归方程的定义,可得两个变量x与y之间的经验回归方程是反映x与y之间的真实关系的一种最佳拟合.2.(5分)下图是某地区2001年至2021年环境保护建设投资额(单位:万元)的折线图.根据该折线图判断,下列结论正确的是()A.为预测该地2026年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠B.为预测该地2026年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠C.投资额与年份负相关D.投资额与年份的相关系数r<0【解析】选B.因为2009年之前与2010年之后投资额变化较大,故为预测该地2026年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠,所以A错误,B正确;随年份的增长,投资额总体上在增长,所以投资额与年份正相关,r>0,故C,D错误.3.(5分)某单位为了了解办公楼用电量y(kW·h)与气温x(℃)之间的关系,随机统计了四个工作日的用电量与当天平均气温,并制作了对照表:气温(℃)181310-1用电量(kW·h)24343864由表中数据得到经验回归方程=-2x+,当气温为-4℃时,预测用电量为()A.68kW·hB.52kW·hC.12kW·hD.28kW·h【解析】选A.由题干表格可知 =10, =40,根据经验回归直线必过( , )得=40+20=60,所以经验回归方程为=-2x+60,因此当x=-4时,=68.4.(5分)(2024·福州模拟)为研究变量x,y的相关关系,收集得到下面五个样本点(x,y):x56.5788.5y98643若由最小二乘法求得y关于x的经验回归方程为=-1.8x+,则据此计算残差为0的样本点是()A.(5,9)B.(6.5,8)C.(7,6)D.(8,4)【解析】选C.由题意可知, =5+6.5+7+8+8.55=7, =9+8+6+4+35=6,所以经验回归方程的样本中心点为(7,6),所以6=-1.8×7+,解得=18.6,所以=-1.8x+18.6,在收集的5个样本点中,(7,6)一点在=-1.8x+18.6上,故计算残差为0的样本点是(7,6).5.(5分)(多选题)(2023·济南模拟)某同学将收集到的六对数据制作成散点图,得到其经验回归方程为l1:=0.68x+,计算其相关系数为r1,决定系数为 12.经过分析确定点F为“离群点”,把它去掉后,再利用剩下的五对数据计算得到经验回归方程为l2:=x+0.68,相关系数为r2,决定系数为 22.下列结论正确的是()A.r2>r1>0B.12> 22C.0<<0.68D.>0.68【解析】选AC.由题图可知两变量呈正相关,故r1>0,r2>0,去掉“离群点”后,相关性更强,所以r1<r2,故12< 22,故A正确,B错误;根据题图,当去掉F点后,直线基本在A,B,C,D,E附近的那条直线上,直线的倾斜程度会略向x轴偏向,故斜率会变小,因此0<<0.68,故C正确,D错误.6.(5分)(多选题)(2023·福州模拟)为研究混凝土的抗震强度y与抗压强度x的关系,某研究部门得到下表的样本数据:x140150170180195y23a262828若y与x线性相关,且经验回归方程为=0.1x+9.1,则下列说法正确的是()A.a=24B.y与x正相关C.y与x的相关系数为负数D .若x =220,则y =31.1【解析】选AB .依题意, =140+150+170+180+1955=167, =23+ +26+28+285=+1055,由+1055=0.1×167+9.1,解得a =24,故A 正确;因为经验回归方程=0.1x +9.1中x 的系数为正,所以y 与x 正相关,且相关系数为正数,故B 正确,C 错误;当x =220时,y 的值约为31.1,故D 错误.7.(5分)(多选题)某芯片研发单位用在“A 芯片”上的研发费用占本单位总研发费用的百分比y 如表所示.已知 =40%,于是分别用p =30%和p =40%得到了两条经验回归方程:=x +,=x+,对应的相关系数分别为r 1,r 2,百分比y 对应的方差分别为12, 22,则下列结论正确的是()(附:=∑ =1-∑=12- 2,= -)年份20182019202020212022年份代码x12345y20%p 40%50%qA .r 1>r 2B . 12> 22C .>D .>【解析】选ABC .p =30%时,q =60%,变量x ,y 呈线性正相关,故r 1>r 2,故A 正确;方差反映数据的稳定性,显然p =40%时更稳定,故此时方差更小,即 12> 22,故B 正确;由于=∑ =1-∑ =12- 2,当p =30%时,∑ =15x i y i =1×20%+2×30%+3×40%+4×50%+5×60%=700%,当p =40%时,∑ =15x i y i =1×20%+2×40%+3×40%+4×50%+5×50%=670%,所以>,故C 正确;因为=-,>,所以<,故D 错误.8.(5分)两个线性相关变量x 与y 的统计数据如表:x 99.51010.511y1110865其经验回归方程是=x +40,则相应点(9,11)的残差为________.【解析】因为 =15×(9+9.5+10+10.5+11)=10, =15×(11+10+8+6+5)=8,所以8=10+40,解得=-3.2,所以=-3.2x +40,当x =9时,=11.2,所以残差为11-11.2=-0.2.答案:-0.29.(10分)(2020·全国Ⅱ卷节选)某沙漠地区经过治理,生态系统得到很大改善,野生动物数量有所增加.为调查该地区某种野生动物的数量,将其分成面积相近的200个地块,从这些地块中用简单随机抽样的方法抽取20个作为样区,调查得到样本数据(x i ,y i )(i =1,2,…,20),其中x i 和y i 分别表示第i 个样区的植物覆盖面积(单位:公顷)和这种野生动物的数量,并计算得∑ =120x i =60,∑ =120y i =1200,∑ =120(x i - )2=80,∑ =120(y i - )2=9000,∑ =120(x i - )(y i - )=800.(1)求该地区这种野生动物数量的估计值(这种野生动物数量的估计值等于样区这种野生动物数量的平均数乘以地块数);(2)求样本(x i ,y i )(i =1,2,…,20)的相关系数(精确到0.01).附:相关系数r ∑( - )( - ),2≈1.414.【解析】(1)样区这种野生动物数量的平均数为120∑ =120y i =120×1200=60,地块数为200,该地区这种野生动物数量的估计值为200×60=12000.(2)样本(x i ,y i )的相关系数r∑( - )( - )=223≈0.94.【能力提升练】10.(5分)甲、乙、丙、丁四位同学各自对A ,B 两个变量的线性相关性做了试验,并用回归分析方法分别求得相关系数r 与残差平方和m ,如表:项目甲乙丙丁r 0.820.780.690.85m106115124103则哪位同学的试验结果体现的A ,B 两变量有更强的线性相关性()A .甲B .乙C .丙D .丁【解析】选D .|r |越接近1,m 越小,线性相关性越强.11.(5分)(多选题)(2023·唐山模拟)某制衣品牌为使成衣尺寸更精准,选择了10名志愿者,对其身高(单位:cm)和臂展(单位:cm)进行了测量,这10名志愿者身高和臂展的折线图如图所示.已知这10名志愿者身高的均值为176cm,根据这10名志愿者的数据求得臂展u 关于身高v 的经验回归方程为=1.2v -34,则下列结论正确的是()A.这10名志愿者身高的极差小于臂展的极差B.这10名志愿者的身高和臂展呈负相关C.这10名志愿者臂展的均值为176.2cmD.根据经验回归方程可估计身高为160cm的人的臂展为158cm【解析】选AD.对于选项A,因为这10名志愿者臂展的最大值大于身高的最大值,而臂展的最小值小于身高的最小值,所以这10名志愿者身高的极差小于臂展的极差,故A正确;对于选项B,因为1.2>0,所以这10名志愿者的身高和臂展呈正相关关系,故B错误;对于选项C,因为这10名志愿者身高的均值为176cm,所以这10名志愿者臂展的均值为1.2×176-34=177.2(cm),故C错误;对于选项D,若一个人的身高为160cm,则由经验回归方程=1.2-34,可得这个人的臂展的估计值为158cm,故D正确.12.(5分)(多选题)针对某疾病,各地医疗机构采取了各种有针对性的治疗方法,取得了不错的成效,某地开始使用中西医结合方法后,每周治愈的患者人数如表所示,由表格可得y关于x的经验回归方程为=6x2+,则下列说法正确的是()周数(x)12345治愈人数(y)2173693142A.=4B .=-8C .此回归模型第4周的残差为5D .估计第6周治愈人数为220【解析】选BC .设t =x 2,则=6t+,由已知得 =15×(1+4+9+16+25)=11, =15×(2+17+36+93+142)=58,所以=58-6×11=-8,故A 错误,B 正确;在=6x 2-8中,令x =4,得4=6×42-8=88,所以此回归模型第4周的残差为y 4-4=93-88=5,故C 正确;在=6x 2-8中,令x =6,得6=6×62-8=208,故D 错误.13.(5分)(2024·太原模拟)某产品的广告费投入与销售额的统计数据如表所示:广告费x/万元4235销售额y/万元49263954根据上表建立经验回归方程,预测当广告费投入6万元时,销售额为__________万元.【解析】因为 =4+2+3+54=3.5,=49+26+39+544=42,∑ =14-.5)×(49-42)+(2-3.5)×(26-42)+(3-3.5)×(39-42)+(5-3.5)×(54-42)=47,∑ =14=(4-3.5)2+(2-3.5)2+(3-3.5)2+(5-3.5)2=5,所以=∑ =14- ∑ =14=475=9.4,因为数据的样本中心点在经验回归直线上,所以=42-9.4×3.5=9.1,所以经验回归方程为=9.4x+9.1,当x=6时,=9.4×6+9.1=65.5,所以广告费投入6万元时,销售额为65.5万元.答案:65.514.(10分)(2024·漳州模拟)2022年11月17日,由工业和信息化部、安徽省人民政府共同主办的第十七届“中国芯”集成电路产业促进大会在合肥成功举办.此次大会以“强芯固基以质为本”为主题,旨在培育壮大我国集成电路产业,夯实产业基础、营造良好产业生态.某芯片研发单位用在“A芯片”上的研发费用占本单位总研发费用的百分比y(%)如表所示.年份2016201720182019202020212022年份代码t1234567y(%)20%30%32%39%42%46%50%(1)根据表中的数据,作出相应的折线图;并结合相关数据,计算相关系数r,并推断y 与t线性相关程度;(已知:0.8≤ ≤1,则认为y与t线性相关很强;0.3≤ <0.8,则认为y与t线性相关一般; <0.3,则认为y与t线性相关较弱)(2)求出y与t的经验回归方程(保留一位小数);(3)请判断,若2024年用在“A芯片”上的研发费用不低于295万元,则该单位2024年芯片研发的总费用预算为500万元是否符合研发要求?附:相关数据:∑ =17y i =259,7≈2.65,∑=17- 2≈25.34,∑ =17-.相关计算公式:相关系数r ∑ - =1在经验回归方程=x +中,=∑ =1- ∑ =12,= - .【解析】(1)折线图如图:由题意得: =17×1+2+3+4+5+6+7=4,所以∑ =17=9+4+1+0+1+4+9=28,所以∑ =17- 2=27,所以r ∑ -=1.98,因为0.98>0.8,所以y 与t 线性相关很强.(2)由题意得:=∑ =17- ∑ =17=13228≈4.7,所以= - ≈2597-4.7×4=18.2,所以y 关于t 的经验回归方程为=4.7t +18.2.(3)2024年对应的年份代码t =9,则当t =9时,=4.7×9+18.2=60.5,所以预测2024年用在“A 芯片”上的研发费用为500×60.5%=302.5(万元),因为302.5>295,所以符合研发要求.15.(10分)(2022·全国乙卷)某地经过多年的环境治理,已将荒山改造成了绿水青山.为估计一林区某种树木的总材积量,随机选取了10棵这种树木,测量每棵树的根部横截面积(单位:m 2)和材积量(单位:m 3),得到如下数据:样本号i 12345根部横截面积x i0.040.060.040.080.08材积量y i0.250.400.220.540.51样本号i 678910总和根部横截面积x i0.050.050.070.070.060.6材积量y i0.340.360.460.420.403.9并计算得∑ =1102=0.038,∑ =1102=1.6158,∑ =110x i y i =0.2474.(1)估计该林区这种树木平均一棵的根部横截面积与平均一棵的材积量;(2)求该林区这种树木的根部横截面积与材积量的样本相关系数(精确到0.01);(3)现测量了该林区所有这种树木的根部横截面积,并得到所有这种树木的根部横截面积总和为186m 2.已知树木的材积量与其根部横截面积近似成正比.利用以上数据给出该林区这种树木的总材积量的估计值.附:相关系数r ∑( - )( - ),1.896≈1.377.【解析】(1)样本中10棵这种树木的根部横截面积的均值 =0.610=0.06,样本中10棵这种树木的材积量的均值 =3.910=0.39,据此可估计该林区这种树木平均一棵的根部横截面积为0.06m 2,平均一棵的材积量为0.39m 3;(2)r∑( - )( - )∑-10≈0.01340.01377≈0.97,则r ≈0.97;(3)设该林区这种树木的总材积量的估计值为Y m 3,又已知树木的材积量与其根部横截面积近似成正比,可得0.060.39=186,解得Y =1209,则该林区这种树木的总材积量估计为1209m 3.。