高考理科数学课时练习变量间的相关关系统计案例理含解析
- 格式:doc
- 大小:203.67 KB
- 文档页数:8
课时作业(六十) 变量间的相关关系与统计案例一、选择题1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断( )A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关 答案:C解析:由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关,故选C.2.(2013·湖北)四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确...的结论的序号是( ) A .①② B .②③ C .③④ D .①④答案:D解析:由回归直线方程y ^=b ^x +a ^,知当b ^>0时,y 与x 正相关;当b ^<0时,y 与x 负相关.∴①④一定错误.故选D.3.(2015·云南模拟)变量U 与V 相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U 与V 的线性回归分析,R 2表示解释变量对于预报变量变化的贡献率,则R 2=( )A.35 B .45 C .1 D .3答案:C解析:依题意,注意到点(1,1.4),(2,2.2),(3,3),(4,3.8)均位于直线y -1.4=2.2-1.42-1(x -1)上,即y =0.8x +0.6上,因此解释变量对于预报变量变化的贡献率R 2=1,故选C.4.(2015·安庆模拟)某著名纺织集团为了减轻生产成本继续走高的压力,计划提高某种产品的价格,为此销售部在10月1日至10月5日连续五天对某个大型批发市场中该产品一天的销售量及其价格进行了调查,其中该产品的价格x (元)与销售量y (万件)之间的数据如下表所示.已知销售量y 与价格x 之间具有线性相关关系,其回归直线方程为:y =-3.2x +a ,若该集团提高价格后该批发市场的日销售量为7.36万件,则该产品的价格约为( )A .14.2元B .10.8元C .14.8元D .10.2元答案:D解析:依题意x =10,y =8.因为线性回归直线必过样本点的中心(x ,y ),所以8=-3.2×10+a ^,解得a ^=40.所以回归直线方程为y ^=-3.2x +40.令y =7.36,则7.36=-3.2x +40,解得x =10.2.所以该产品的价格约为10.2元.故选D.5.(2015·合肥检测)有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下所示的列联表.附:K 2=a +bc +d a +c b +d.已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是( )A .列联表中c 的值为30,b 的值为35B .列联表中c 的值为15,b 的值为50C .根据列联表中的数据,若按95%的可靠性要求,能认为“成绩与班级有关系”D .根据列联表中的数据,若按95%的可靠性要求,不能认为“成绩与班级有关系” 答案:C解析:因为总体有105人,且成绩优秀的概率为27.所以成绩优秀的人数为105×27=30(人),故10+c =30,所以c =20,A 错,B 错. 又因为非优秀人数有105-30=75(人), 所以b =45. 所以K 2=-255×50×30×75≈6.11>3.841,所以有95%的可靠性,能认为“成绩与班级有关系”, 故应选C.6.下表是降耗技术改造后生产甲产品过程中记录的产量(吨)与相应的生产能耗y (吨标准煤)的几组对应数据,根据表中提供的数据,求出y 关于x 的线性回归方程y ^=0.7x +0.35,那么表中m 的值为( )A.4 C .3 D .4.5答案:C解析:依题意得x =14×(3+4+5+6)=4.5,y =14(2.5+m +4+4.5)=14(11+m ),由于回归直线必经过样本点的中心⎝ ⎛⎭⎪⎫4.5,11+m 4,于是有11+m 4=0.7×4.5+0.35,解得m =3,故应选C.7.已知数组(x 1,y 1),(x 2,y 2),…,(x 10,y 10)满足线性回归方程y ^=b ^x +a ^,则“(x 0,y 0)满足线性回归方程y ^=b ^x +a ^”是“x 0=x 1+x 2+…+x 1010,y 0=y 1+y 2+…+y 1010”的( )A .充分不必要条件B .必要不充分条件C .充要条件D .既不充分也不必要条件答案:B解析:x 0,y 0为这10组数据的平均值,根据公式计算线性回归方程y ^=b ^x +a ^的b ^以后,再根据a ^=y -b ^x (x ,y 为样本平均值)求得a ^.因此(x ,y )一定满足线性回归方程,但满足线性回归方程的除了(x ,y )外,可能还有其他样本点.8.为了普及环保知识,增强环保意识,某大学从理工类专业的A 班和文史类专业的B 班各抽取20名同学参加环保知识测试.统计得到成绩与专业的列联表如下.(1)卡方统计量:K 2=n ad -bc a +bc +d a +cb +d.(其中n =n 11+n 12+n 21+n 22); (2)独立性检验的临界值表:则下列说法正确的是A .有99%的把握认为环保知识测试成绩与专业有关 B .有99%的把握认为环保知识测试成绩与专业无关 C .有95%的把握认为环保知识测试成绩与专业有关 D .有95%的把握认为环保知识测试成绩与专业无关 答案:C 解析:K 2=-220×20×21×19=28057≈4.912, 3.841<K 2<6.635,所以有95%的把握认为环保知识测试成绩与专业有关.故应选C.9.(2015·固原一中模拟)下列四个命题中,正确的是( ) A .人的年龄与其拥有的财富之间具有相关关系B .从独立性检验可知有99%的把握认为吃地沟油与患胃肠癌有关系时,我们说某一个人吃地沟油,那么他有99%的可能患胃肠癌C .若从统计量中求出有95%的把握认为吃地沟油与患胃肠癌有关系,是指有5%的可能性使得判断出现错误D .已知一系列样本点(x i ,y i )(i =1,2,3,…,n )的回归直线方程为y ^=2x +b ,若样本点(r,1)与(1,s )的残差相同,则有s =2r +3答案:C解析:对于A ,人的年龄与其拥有的财富之间不具有相关关系;根据独立检验的意义,可知B 错误,C 是正确的;对于D ,由1-(2r +b )=s -(2×1+b )⇒s =-2r +3.故应选C. 二、填空题10.为了解篮球爱好者小李的投篮命中率与打篮球时间之间的关系,下表记录了小李某月1号到5号每天打篮球时间x (单位:小时)与当天投篮命中率y 之间的关系.小李这56号打6小时篮球的投篮命中率为________.答案:0.5 0.53解析:平均命中率y =15×(0.4+0.5+0.6+0.6+0.4)=0.5,而x =3,∑i =15(x i -x )(y i -y )=(-2)×(-0.1)+(-1)×0+0×0.1+1×0.1+2×(-0.1)=0.1,∑i =15(x i -x )2=(-2)2+(-1)2+02+12+22=10,于是b ^=0.01,a ^=y -b ^x =0.47, ∴y ^=0.01x +0.47,令x =6,得y ^=0.53.11.(2015·通化模拟)某产品的广告费用x 与销售额y 的统计数据如下表.根据上表可得回归方程y =b x +a 中的b 为7.据此模型预测广告费用10万元时销售额为________万元. 答案:73.5解析:由题表,可知x =4.5,y =35, 代入回归方程y ^=7x +a ^,得a ^=3.5,所以回归方程为y ^=7x +3.5,所以当x =10时,y ^=7×10+3.5=73.5(万元).12.为了判断高中三年级学生选修文科是否与性别有关,现随机抽取50名学生,得到2×2列联表如下.巳知P (K 2根据表中数据,得到K 2=-223×27×20×30≈4.844,则认为选修文科与性别有关系出错的可能性约为________.答案:5%解析:由K 2=4.844>3.841,故认为选修文科与性别有关系出错的可能性约为5%.13.某数学4老师身高176 cm ,他爷爷、父亲和儿子的身高分别是173 cm 、170 cm 和182 cm.因儿子的身高与父亲的身高有关.该老师用线性回归分析的方法预测他孙子的身高为________cm.答案:185解析:由题设知,父亲与儿子对应的取值如下表所示.于是有x =173,y =176,b ^=∑3i =1x i y i -3x y∑3i =1x 2i -3x2=1,a ^=176-173×1=3,得回归方程y ^=x +3, 所以当x =182时,y ^=185. 三、解答题14.(2015·营口模拟)随机调查某社区80个人,以研究这一社区居民在20:00—22:00时间段的休闲方式与性别有关,得到下面的数据表.(1)3人在这一时间段以看书为休闲方式的人数为随机变量X ,求X 的分布列和期望;(2)根据以上数据,能否有99%的把握认为在20∶00—22∶00时间段的休闲方式与性别有关系?附:K 2=n ad -bca +bc +d a +cb +d.解:(1)由题意可知且每个男性在这一时间段以看书为休闲方式的概率为P =5060=56,根据题意可得X ~B ⎝ ⎛⎭⎪⎫3,56, ∴P (X =k )=C k 3⎝ ⎛⎭⎪⎫163-k ⎝ ⎛⎭⎪⎫56k,k =0,1,2,3,所以E (X )=3×56=52.(2)由K 2=n n 11n 22-n 12n 212n 1+n 2+n +1n +2,得K 2=-260×20×20×60≈8.889,因为8.889>6.635,所以我们有99%的把握认为休闲方式与性别有关.。
课时作业变量间的相关关系、统计案例
一、选择题
.在一组样本数据(,),(,),…,(,)(≥,,,…,不全相等)的散点图中,若所有样本点(,)(=,,…,)都在直线=
+上,则这组样本数据的样本相关系数为( )
.-.
.
解析:样本点都在一条直线上时,其样本数据的相关系数为.
答案:
.根据如下样本数据
得到的回归方程为=+,则().>,> .>,<
.<,> .<,<
解析:由表中数据画出散点图,如图,
由散点图可知<,>,选.
答案:
.(·辽宁大连双基)已知,的取值如表所示:
如果与线性相关,且线性回归方程为=+,则的值为()
.-
.-
解析:将=,=代入到=+中,得=-.故选.
答案:
.(·湖北武汉调考)根据如下样本数据
得到的回归直线方程为=+.若=,则每增加个单位,就()
.增加个单位
.减少个单位
.减少个单位
.增加个单位
解析:=(++++)=,=(+-+-)=,所以样本中心为(,),代入
回归直线方程可得=×+⇒
=-,所以每增加个单位,就减少个单位,故选.
答案:.(·兰州、张掖联考)对具有线性相关关系的变量,有一组观测数据(,)(=,,…,),其回归直线方程是=+,且+++…+=(+++…+)=,则实数的值是()
解析:依题意可知样本中心点为,则=×+,解得=.
答案:.(·东营一模)某商品的销售量(件)与销售价格(元件)存在线性相关关。
课时作业(六十六)第66讲变量间的相关关系、统计案例基础热身1.为考察高中生的性别与是否喜欢数学课程之间的关系,利用2×2列联表进行检验,经计算K2的观测值k=7.069,参考下表,则认为“性别与是否喜欢数学课程有关”犯错误的概率不超过()A.0.001B.0.01C.0.99D.0.9992.[2017·宁德质检]从某学校随机抽取的5名女大学生的身高x(cm)和体重y(kg)数据如下表:根据上表可得回归直线方程为=0.92x+,则=()A.-96.8B.96.8C.-104.4D.104.43.[2017·石家庄一模]下列说法错误的是()A.回归直线过样本点的中心(,)B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1C.对于分类变量X与Y,其随机变量K2的观测值k越大,则判断“X与Y有关系”的把握程度越小D.在回归直线方程=0.2x+0.8中,当解释变量x每增加1个单位时,预报变量平均增加0.2个单位4.[2017·哈尔滨九中二模]为了研究某种细菌在特定环境下随时间变化的繁殖规律,得到如下数据:若已知回归直线方程为=0.85x-0.25,则表中c的值为.能力提升5.[2017·成都九校期中]某学校为了了解该校学生是否喜欢某项运动与性别之间的关系,随机调查了110名学生,得到如下2×2列联表:由公式K2=-,计算得K2的观测值k≈7.82.附表:参照附表,以下结论正确是()A.有99.5%以上的把握认为“是否喜欢该项运动与性别有关”B.有99.5%以上的把握认为“是否喜欢该项运动与性别无关”C.有99%以上的把握认为“是否喜欢该项运动与性别有关”D.有99%以上的把握认为“是否喜欢该项运动与性别无关”6.[2017·豫南九校联考]给出下列说法:①分类变量A与B的随机变量K2的观测值越大,说明“A与B有关系”的可信度越大;②以模型y=c e kx去拟合一组数据时,为了求出回归方程,设z=ln y,经计算得到线性回归方程z=0.3x+4,则c,k的值分别是e4和0.3;③根据具有线性相关关系的两个变量的统计数据,得到回归直线方程=+x,若=2,=1,=3,则=1;④若变量x和y 满足关系y=-0.1x+1,且变量y与z正相关,则x与z也正相关.其中正确说法的个数是() A.1 B.2C.3D.47.[2017·福州外国语学校检测]在一组样本数据(x1,y1),(x2,y2),…,(x n,y n)(n≥2,x1,x2,…,x n不全相等)的散点图中,若所有样本点(x i,y i)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据的相关系数为()A.-1B.0C. D.18.一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了5次试验,收集到的数据如下:由表中数据求得线性回归方程=x+,已知回归直线在y轴上的截距为56.5,根据回归方程,预测加工102分钟所得零件的个数约为.9.(12分)某种多面体玩具共有12个面,在其十二个面上分别标有数字1,2,3,…,12.若该玩具质地均匀,则抛掷该玩具后,任何一个数字所在的面朝上的概率均相等.为检验某批玩具是否合格,制定检验标准为:多次抛掷该玩具,并记录朝上的面上标记的数字,若各数字出现的频率的极差不超过0.05,则认为该玩具合格.(1)在某批玩具中随机抽取20件进行检验,将每个玩具各面数字出现频率的极差绘制成茎叶图(如图K66-1所示),试估计这批玩具的合格率.图K66-1(2)现有该种玩具一个,将其抛掷100次,并记录朝上的一面标记的数字,得到如下数据:①试判断该玩具是否合格.②将该玩具抛掷一次,记事件A:朝上的面标记的数字是完全平方数(能写成整数的平方形式的数,如9=32,9为完全平方数);事件B:朝上的面标记的数字不超过4.试根据上表中的数据,完成以下2×2列联表(其中表示A的对立事件),并判断在犯错误的概率不超过0.01的前提下,能否认为事件A与事件B有关.难点突破10.(13分)[2017·临汾一中模拟]某印刷厂为了研究印刷单册书籍的成本y(单位:元)与印刷册数x(单位:千册)之间的关系,在印制某种书籍时进行了统计,相关数据见下表:根据以上数据,技术人员分别借助甲、乙两种不同的回归模型,得到了两个回归方程,甲:=+1.1,乙:=+1.6.为了评价两种模型的拟合效果,完成以下任务:(1)①完成下表(计算结果精确到0.1):②分别计算模型甲与模型乙的残差平方和Q1及Q2,并通过比较Q1,Q2的大小,判断哪个模型拟合效果更好.(2)该书上市后,受到广大读者的热烈欢迎,不久便全部售罄,于是印刷厂决定进行二次印刷,根据市场调查,新需求量为8千册(概率为0.8)或10千册(概率为0.2),若印刷厂以每册5元的价格将书出售给订货商,问印刷厂二次印刷8千册还是10千册恒获得更多的利润?(按(1)中拟合效果较好的模型计算印刷单册书的成本)课时作业(六十六)1.B[解析]k=7.069>6.635,对照表格,则认为“性别与是否喜欢数学课程有关”犯错误的概率不超过0.01.2.A[解析]依据题意可知,==165,==55,将其代入=0.92x+中,得=-96.8,故选A.3.C[解析]根据相关知识分析知A,B,D正确;C中,对于分类变量X与Y的随机变量K2的观测值k来说,k越大,则判断“X与Y有关系”的把握程度越大,故C不正确.故选C.4.6[解析]==5,==,代入回归直线方程中,得=0.85×5-0.25,∴c=6.5.C[解析]由题意知k≈7.82>6.635,故有99%以上的把握认为“是否喜欢该项运动与性别有关”,故选C.6.C[解析]根据独立性检验的原理知,分类变量A与B的随机变量K2的观测值越大,说明“A 与B有关系”的可信度越大,①正确;根据回归分析的意义知,②正确;易知③正确;根据y与z 正相关,y与x负相关,可知x与z负相关,④错误.故选C.7.D[解析]由题设知,所有样本点(x i,y i)(i=1,2,…,n)都在直线y=x+1上,则这组样本数据完全正相关,故这组样本数据的相关系数为1,故选D.8.70[解析]因为回归直线在y轴上的截距为56.5,所以=56.5,所以线性回归方程为=x+56.5,又由表中数据知==30,==76,则有76=30+56.5,解得=0.65,所以回归直线方程为=0.65x+56.5.当=102时,x=70,故预测加工102分钟所得零件的个数约为70.9.解:(1)由题意知,20个样本中,极差为0.052,0.071,0.073的三个玩具不合格,故合格率可估计为×100%=85%,即这批玩具的合格率约为85%.(2)①由数据可知,5点和9点对应最大频率0.10,4点对应最小频率0.06,故频率的极差为0.04≤0.05,故该玩具合格.②根据统计数据,可得以下2×2列联表:于是K2的观测值k==≈14.286>6.635,故在犯错误的概率不超过0.01的前提下,能认为事件A与事件B有关.10.解:(1)①经计算,可得下表:②Q1=0.12+(-0.1)2+0.12=0.03,Q2=0.12=0.01,Q1>Q2,故模型乙的拟合效果更好.(2)若二次印刷8千册,则印刷厂获利为(5-1.7)×8000=26 400(元).若二次印刷10千册,由(1)可知,单册书印刷成本为+1.6=1.664(元),故印刷总成本为16 640(元).设新需求量为X(千册),印刷厂获利为Y(元),则则E(X)=8×0.8+10×0.2=8.4,故E(Y)=5×1000×E(X)-16 640=42 000-16 640=25 360,故印刷8千册恒获得更多的利润.。
课时规范练56 变量间的相关关系、统计案例基础巩固组1.甲、乙、丙、丁四位同学各自对A,B两个变量的线性相关性做了试验,并用回归分析方法分别求得相关系数r与残差平方和m,如下表:学生甲乙丙丁r0.82 0.78 0.69 0.85m106 115 124 103哪位同学的试验结果体现的A,B两变量有更强的线性相关性()A.甲B.乙C.丙D.丁2.(2020全国Ⅰ,理5)某校一个课外学习小组为研究某作物种子的发芽率y和温度x(单位:℃)的关系,在20个不同的温度条件下进行种子发芽实验,由实验数据(x i,y i)(i=1,2,…,20)得到下面的散点图:由此散点图,在10 ℃至40 ℃之间,下面四个回归方程类型中最适宜作为发芽率y和温度x的回归方程类型的是()A.y=a+bxB.y=a+bx2C.y=a+b e xD.y=a+b ln x3.(2022四川成都高考适应一)下图是某地区2001年至2021年环境保护建设投资额(单位:万元)的折线图.根据该折线图判断,下列结论正确的是()A.为预测该地2022年的环境保护建设投资额,应用2001年至2021年的数据建立回归模型更可靠B.为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠C.投资额与年份成负相关D.投资额与年份的相关系数r<04.某社区随机选取了部分居民,调查他们对今年春节期间社区组织文艺和体育活动的意见(每人只选择其中一项),调查结果如下表所示:性别文艺活动体育活动男15 20女25 10(1)估计该社区男性居民中选择体育活动的概率和全体居民中选择文艺活动的概率;(2)能否有95%的把握认为居民选择的活动类型与性别有关?附:K2=,其中n=a+b+c+d.P(K2≥k0) 0.050 0.010 0.001k03.841 6.635 10.828综合提升组5.某商家为了解某种加热手套如何定价可以获得最大利润,现对这种加热手套进行试销售.统计后得到其单价x(单位:元)与销量y(单位:副)的相关数据如表:x/元80 85 90 95 100y/副140 130 110 90 80(1)已知销量y与单价x具有线性相关关系,求y关于x的线性回归方程;(2)若每副该加热手套的成本为65元,试销售结束后,请利用(1)中所求的线性回归方程确定单价为多少元时,销售利润最大?(结果保留到整数)附:对于一组数据(x1,y1),(x2,y2),…,(x n,y n),其回归直线x+的斜率和截距的最小二乘估计分别为参考数据:x i y i=48 700,=40 750.创新应用组6.(2022山西临汾二模)买鞋时常常看到下面脚长与鞋号对应表,脚长(单位:mm) 220 225 230 235 240 245 250 255 260鞋号34 35 36 37 38 39 40 41 42 (1)若将表中两行数据看成数列,记脚长为数列{a n},鞋号为数列{b n},试写出b n关于a n的表达式,并估计30号童鞋所对应的脚长是多少mm?(2)有人认为可利用线性回归模型拟合脚长x(单位:mm)和鞋号y之间的关系,请说明合理性;若一名篮球运动员脚长为282 mm,请判断该运动员穿多大号的鞋?请说明理由.参考公式:r=答案:课时规范练56变量间的相关关系、统计案例1.D r越大,m越小,线性相关性越强,故选D.2.D结合题中散点图,由图象的大致走向判断,此函数应该是对数函数模型,故应该选用的函数模型为y=a+b ln x.3.B因为2009年之前与2010年之后投资额变化较大,故为预测该地2022年的环境保护建设投资额,应用2010年至2021年的数据建立回归模型更可靠,所以A错误,B正确;随年份的增长,投资额总体在增长,所以投资额与年份成正相关,r>0,故C,D错误.故选B.4.解 (1)由表格中的数据可知,该社区男性居民中选择体育活动的概率为,该社区全体居民中选择文艺活动的概率为(2)由表格中数据可得k=5.833>3.841,因此,有95%的把握认为居民选择的活动类型与性别有关.5.解 (1)由表中数据,计算得(80+85+90+95+100)=90,(140+130+110+90+80)=110, 则==3.2,=110+3.2×90=398,所以y关于x的线性回归方程为=3.2x+398.(2)设定价为x元,利润为f(x),则f(x)=(3.2x+398)(x65)=3.2x2+606x25 870,所以当x==94.687 5≈95(元)时,f(x)最大,所以为使得销售的利润最大,单价应该定为95元.6.解(1)在数列{a n}中,a n+1=a n+5,a1=220,∴{a n}为等差数列,可得a n=215+5n.①在数列{b n}中,b n+1=b n+1,b1=34,∴{b n}也是等差数列,可得b n=33+n.②由①②可得b n=0.2a n10.当b n=30时,a n=200,估计30号童鞋对应的脚长是200mm.(2)利用表格中数据可以发现,脚长与鞋号之间满足一次函数关系,相关系数为1,故可用线性回归模型拟合.利用公式算出=0.2,x=10, =0.2x10,将x=282代入=0.2x10,得=46.4.建议一:选46号鞋,刚开始会稍有挤脚,但穿过一段时间后鞋子会变大,就比较舒适了.建议二:选47号鞋,穿上会比较宽松,运动员运动量比较大,宽松的鞋子会更舒适一些.建议三:选46.5号鞋,相对而言更合脚一些.。
课时作业62 变量间的相关关系与统计案例1.(2019·辽宁丹东教学质量监测)某校为了研究学生的性别和对待某一活动的态度(支持与不支持)的关系,运用2×2列联表进行独立性检验,经计算K 2=6.705,则所得到的统计学结论是:有 的把握认为“学生性别与支持该活动没有关系”.( C )附:C .1%D .0.1%解析:因为6.635<6.705<10.828,因此有1%的把握认为“学生性别与支持该活动没有关系”,故选C.2.已知变量x 和y 满足关系y =-0.1x +1,变量y 与z 正相关.下列结论中正确的是( C )A .x 与y 正相关,x 与z 负相关B .x 与y 正相关,x 与z 正相关C .x 与y 负相关,x 与z 负相关D .x 与y 负相关,x 与z 正相关解析:由y =-0.1x +1,知x 与y 负相关,即y 随x 的增大而减小,又y 与z 正相关,所以z 随y 的增大而增大,减小而减小,所以z 随x 的增大而减小,x 与z 负相关,故选C.3.对具有线性相关关系的变量x ,y 有一组观测数据(x i ,y i )(i =1,2,…,8),其线性回归方程是y ^=13x +a ^,且x 1+x 2+x 3+…+x 8=2(y 1+y 2+y 3+…+y 8)=6,则实数a ^的值是( B )A.116 B .18 C.14D .12解析:依题意可知样本点的中心为⎝ ⎛⎭⎪⎫34,38,则38=13×34+a ^,解得a ^=18.4.为考察A 、B 两种药物预防某疾病的效果,进行动物实验,分别得到如下等高条形图:根据图中信息,在下列各项中,说法正确的是( C ) A .药物A 、B 对该疾病均没有预防效果 B .药物A 、B 对该疾病均有显著的预防效果 C .药物A 的预防效果优于药物B 的预防效果 D .药物B 的预防效果优于药物A 的预防效果解析:根据两个等高条形图知,药物A 实验显示不服药与服药时患病的差异较药物B 实验显示明显大,∴药物A 的预防效果优于药物B 的预防效果.故选C.5.(2019·河南焦作一模)已知变量x 和y 的统计数据如下表:根据上表可得回归直线方程为y =b x -0.25,据此可以预测当x =8时,y ^=( C ) A .6.4 B .6.25 C .6.55D .6.45解析:由题意知x =3+4+5+6+75=5,y =2.5+3+4+4.5+65=4,将点(5,4)代入y ^=b ^x -0.25,解得b ^=0.85,则y ^=0.85x -0.25, 所以当x =8时,y ^=0.85×8-0.25=6.55,故选C.6.(2019·南昌模拟)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如表.附表:由K 2=a +bc +d a +cb +d算得,K 2=258×42×35×65≈9.616,参照附表,得到的正确结论是( C )A .在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.001的前提下,认为“生育意愿与城市级别无关”C .在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别有关”D .在犯错误的概率不超过0.01的前提下,认为“生育意愿与城市级别无关” 解析:由题意K 2的观测值≈9.616>6.635,所以在犯错误的概率不超过0.01的前提下认为“生育意愿与城市级别有关”.7.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,为此进行了5次试验.根据收集到的数据(如下表),由最小二乘法求得回归方程y ^=0.77x +52.9.解析:由已知可计算求出x =30,而线性回归方程必过点(x ,y ),则y =0.77×30+52.9=76,设模糊数字为a ,则a +62+75+80+905=76,计算得a =73.8.(2019·赣中南五校联考)心理学家分析发现视觉和空间想象能力与性别有关,某数学兴趣小组为了验证这个结论,从所在学校中按分层抽样的方法抽取50名同学(男30,女20),给所有同学几何题和代数题各一题,让各位同学自由选择一道题进行解答.选题情况如下表:(单位:人)过 0.025 .附表:解析:由列联表计算K 2的观测值k =30×20×20×30≈5.556>5.024,∴推断犯错误的概率不超过0.025.9.(2019·安徽蚌埠段考)为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:有解析:由2×2列联表可知,K 2=-240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.10.在2018年1月15日那天,某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,5家商场的售价x 元和销售量y 件之间的一组数据如下表所示:由散点图可知,销售量y 与价格x 之间有较强的线性相关关系,其线性回归方程是y ^=-3.2x +40,且m +n =20,则其中的n = 10 .解析:x =9+9.5+m +10.5+115=8+m 5,y =11+n +8+6+55=6+n 5,回归直线一定经过样本点中心(x ,y ),即6+n5=-3.2⎝ ⎛⎭⎪⎫8+m 5+40,即3.2m +n =42.又因为m +n =20,即⎩⎪⎨⎪⎧3.2m +n =42,m +n =20,解得⎩⎪⎨⎪⎧m =10,n =10,故n =10.11.(2019·重庆调研)某厂商为了解用户对其产品是否满意,在使用该产品的用户中随机调查了80人,结果如下表:(1)5人中任选2人,求被选中的恰好是男、女用户各1人的概率;(2)有多大把握认为用户对该产品是否满意与用户性别有关?请说明理由.注:K 2=a +bc +d a +cb +d,n =a +b +c +d .解:(1)用分层抽样的方法在满意产品的用户中抽取5人,则抽取比例为550=110.所以在满意产品的用户中应抽取女用户20×110=2(人),男用户30×110=3(人).抽取的5人中,三名男用户记为a ,b ,c ,两名女用户记为r ,s ,则从这5人中任选2人,共有10种情况:ab ,ac ,ar ,as ,bc ,br ,bs ,cr ,cs ,rs .其中恰好是男、女用户各1人的有6种情况:ar ,as ,br ,bs ,cr ,cs . 故所求的概率为P =610=0.6.(2)由题意,得K 2的观测值为k =-2++++=163≈5.333>5.024. 又P (K 2≥5.024)=0.025.故有97.5%的把握认为“产品用户是否满意与性别有关”.12.(2016·全国卷Ⅲ)下图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.(1)由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量.附注:参考数据:∑i =17y i =9.32,∑i =17t i y i =40.17,∑i =17y i -y2=0.55,7≈2.646.参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:b ^=∑i =1nt i -ty i -y∑i =1nt i -t2,a ^=y -b ^t -.解:(1)由折线图中数据和附注中参考数据得t =4,∑i =17(t i -t )2=28,∑i =17y i -y2=0.55,∑i =17(t i -t )(y i -y )=∑i =17t i y i -t ∑i =17y i =40.17-4×9.32=2.89,r ≈2.890.55×2×2.646≈0.99.因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.(2)由y =9.327≈1.331及(1)得b ^=∑i =17t i -ty i -y∑i =17t i -t2=2.8928≈0.10, a ^=y -b ^ t -=1.331-0.10×4≈0.93. 所以y 关于t 的回归方程为 y ^=0.93+0.10t .将2016年对应的t =9代入回归方程得:y ^=0.93+0.10×9=1.83. 所以预测2016年我国生活垃圾无害化处理量将约为1.83亿吨.13.(2019·湖南张家界一模)已知变量x ,y 之间的线性回归方程为y ^=-0.7x +10.3,且变量x ,y 之间的一组相关数据如下表所示,则下列说法错误的是( C )A.变量x ,B .可以预测,当x =20时,y ^=-3.7 C .m =4D .该回归直线必过点(9,4)解析:由-0.7<0,得变量x ,y 之间呈负相关关系,故A 正确;当x =20时,y ^=-0.7×20+10.3=-3.7,故B 正确;由表格数据可知x =14×(6+8+10+12)=9,y =14(6+m +3+2)=11+m 4,则11+m 4=-0.7×9+10.3,解得m =5,故C 错;由m =5,得y =6+5+3+24=4,所以该回归直线必过点(9,4),故D 正确.故选C.14.(2019·湖南永州模拟)已知x 与y 之间的几组数据如下表:假设根据上表数据所得的线性回归方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( C )A.b ^>b ′,a ^>a ′ B .b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′D .b ^<b ′,a ^<a ′解析:由两组数据(1,0)和(2,2)可求得直线方程为y =2x -2,b ′=2,a ′=-2.而利用线性回归方程的公式与已知表格中的数据,可求得b ^=∑i =16x i y i -6 x·y∑i =16x 2i -6 x 2=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y -b ^x =136-57×72=-13,所以b ^<b ′,a ^>a ′.15.(2019·青岛模拟)针对时下的“韩剧热”,某校团委对“学生性别和喜欢韩剧是否有关”作了一次调查,其中女生人数是男生人数的12,男生喜欢韩剧的人数占男生人数的16,女生喜欢韩剧的人数占女生人数23.若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有 12 人.则k >3.841,即k =3x 2⎝ ⎛⎭⎪⎫x 6·x 6-5x 6·x 32x ·x 2·x 2·x =3x8>3.841,解得x >10.243.因为x 6,x2为整数,所以若有95%的把握认为是否喜欢韩剧和性别有关,则男生至少有12人.16.(2019·包头一模)如图是某企业2010年至2016年的污水净化量(单位:吨)的折线图.注:年份代码1~7分别对应年份2010~2016.(1)由折线图看出,可用线性回归模型拟合y 和t 的关系,请用相关系数加以说明; (2)建立y 关于t 的回归方程,预测2017年该企业的污水净化量;(3)请用数据说明回归方程预报的效果.参考数据:y -=54,∑i =17(t i -t -)(y i -y -)=21,14≈3.74,∑i =17(y i -y ^i )2=94. 参考公式:相关系数r=∑i =1nt i -ty i -y∑i =1nt i -t2∑i =1n y i -y2,线性回归方程y ^=a ^+b ^t ,b ^=∑i =1nt i -ty i -y∑i =1n t i -t2,a ^=y -b ^t -.反映回归效果的公式为:R 2=1-∑i =1ny i -y ^i2∑i =1ny i -y2,其中R 2越接近于1,表示回归的效果越好.解:(1)由折线图中的数据得,t =4,∑i =17(t i -t -)2=28,∑i =17(y i -y -)2=18,所以r =2128×18≈0.935. 因为y 与t 的相关系数近似为0.935,说明y 与t 的线性相关程度相当大,所以可以用线性回归模型拟合y 与t 的关系.(2)因为y -=54,b ^=∑i =17t i -ty i -y∑i =17t i -t2=2128=34, 所以a ^=y -b ^t =54-34×4=51,所以y 关于t 的线性回归方程为y ^=b ^t +a ^=34t +51.将2017年对应的t =8代入得y ^=34×8+51=57,所以预测2017年该企业污水净化量约为57吨.(3)因为R 2=1-∑i =17y i -y ^i2∑i =17y i -y2=1-94×118=1-18=78=0.875,所以“污水净化量的差异”有87.5%是由年份引起的,这说明回归方程预报的效果是良好的.。
课时规范练66变量间的相关关系、统计案例课时规范练第103页一、选择题1.下面是一个2×2列联表:y1y2合计x1a2173x2222547合计b46120则表中a,b的值分别为( )A.94,72B.52,50C.52,74D.74,52答案:C解析:∵a+21=73,∴a=52.又a+22=b,∴b=74.2.对变量x,y有观测数据(x i,y i)(i=1,2,…,10),得散点图1;对变量u,v有观测数据(u i,v i)(i=1,2,…,10),得散点图2.由这两个散点图可以判断( )A.变量x与y正相关,u与v正相关B.变量x与y正相关,u与v负相关C.变量x与y负相关,u与v正相关D.变量x与y负相关,u与v负相关答案:C3.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A.若K2的观测值为6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99个患有肺病B.由独立性检验知,有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患肺病C.若统计量中求出有95%的把握认为吸烟与患肺病有关系,是指有5%的可能性使得推断出现错误D.以上三种说法都不正确答案:C4.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程=3-5x,变量x增加一个单位时,y平均增加5个单位;③回归直线方程x+必过点();④有一个2×2列联表中,由计算得K2的观测值k=13.079,则有99.9%的把握认为这两个变量间有关系.其中错误的个数是( )A.0B.1C.2D.3P(K2≥k )0.50.400.250.150.100.050.0250.010.0050.001k 0.4550.7081.3232.0722.7063.8415.0246.6357.87910.828答案:B解析:一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x的系数具备直线斜率的功能,对于回归直线方程=3-5x,当x增加一个单位时,y平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程x+必过点(),③正确;因为K2的观测值k=13.079>10.828,故有99.9%的把握认为这两个变量有关系,④正确.5.甲、乙、丙、丁四位同学各自对A,B两变量的线性相关性做试验,并用回归分析方法分别求得相关系数r与残差平方和m如下表:甲乙丙丁r 0.820.780.690.85m106115124103则哪位同学的试验结果体现A,B两变量更强的线性相关性( )A.甲B.乙C.丙D.丁答案:D解析:丁同学所得相关系数r最大,残差平方和m最小,所以A,B两变量线性相关性更强.6.某奶茶店的日销售收入y(单位:百元)与当天平均气温x(单位:℃)之间的关系如下:x -2-1012y54221甲、乙、丙三位同学对上述数据进行了研究,分别得到了x与y之间的三个线性回归方程:①y=-x+2.8;②y=-x+3;③y=-1.2x+2.6,其中正确的是( )A.①B.①②C.②③D.①②③答案:A解析:=0,=2.8.∵回归方程过点(),即(0,2.8),经检验可知①正确.故选A.7.对两个变量y和x进行回归分析,得到一组样本数据:(x1,y1),(x2,y2),…,(x n,y n),则下列说法中不正确的是( )A.由样本数据得到的回归方程x+必过样本点的中心()B.残差平方和越小的模型,拟合的效果越好C.用R2来刻画回归效果,R2的值越小,说明模型的拟合效果越好D.若变量y和x之间的相关系数r=-0.9362,则变量y与x之间具有线性相关关系答案:C解析:R2的值越大,说明残差平方和越小,也就是说模型的拟合效果越好,故选C.二、填空题8.50名学生,得到如下2×2列联表:理科文科合计男131023女72027合计203050已知P(K2≥3.841)≈0.05,P(K2≥5.024)≈0.025.根据表中数据,得到K2的观测值k=≈4.844,则认为选修文科与性别有关系出错的可能性约为.答案:5%解析:由K2的观测值k≈4.844>3.841,故认为选修文科与性别有关系出错的可能性约为5%.9.某市居民2009~2013年家庭年平均收入x(单位:万元)与年平均支出Y(单位:万元)的统计资料如下表所示:年份/年20092010201120122013收入x/万元11.512.11313.315支出Y/万6.88.89.81012元根据统计资料,居民家庭年平均收入的中位数是,家庭年平均收入与年平均支出有线性相关关系.答案:13万元正解析:根据中位数的定义,居民家庭年平均收入的中位数是13万元,家庭年平均收入与年平均支出有正线性相关关系.三、解答题10.某单位为了了解用电量y(千瓦时)与气温x(℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了对照表:气温/℃181310-1用电量/千瓦时24343864由表中数据得线性回归方程x+=-2,预测当气温为-4℃时,请估计用电量为多少千瓦时?解:=10,=40,∵回归方程过点(),∴40=-2×10+.∴=60.∴=-2x+60.令x=-4,得=(-2)×(-4)+60=68.故气温为-4℃时,估计用电量为68千瓦时.11.电视传媒公司为了解某地区观众对某类体育节目的收视情况,随机抽取了100名观众进行调查,其中女性有55名.下面是根据调查结果绘制的观众日均收看该体育节目时间的频率分布直方图:将日均收看该体育节目时间不低于40分钟的观众称为“体育迷”,已知“体育迷”中有10名女性.(1)根据已知条件完成下面的2”与性别有关?非体育迷体育迷合计男女合计(2)将日均收看该体育节目不低于50分钟的观众称为“超级体育迷”,已知“超级体育迷”中有2名女性.若从“超级体育迷”中任意选取2人,求至少有1名女性观众的概率.附:K2=.P(K2≥k)0.050.01k 3.8416.635解:(1)由频率分布直方图可知,在抽取的100人中,“体育迷”为25人,从而完成2×2列联表如下:非体育迷体育迷合计男301545女451055合计7525100将2×2列联表中的数据代入公式计算,得K2的观测值k=≈3.030.因为3.030<3.841,所以我们没有理由认为“体育迷”与性别有关.(2)由频率分布直方图可知,“超级体育迷”为5人,从而一切可能结果所组成的基本事件空间为Ω={(a1,a2),(a1,a3),(a2,a3),(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)}.其中a i表示男性,i=1,2,3.b j表示女性,j=1,2.Ω由10个基本事件组成,而且这些基本事件的出现是等可能的.用A表示“任选2人中,至少有1人是女性”这一事件,则A={(a1,b1),(a1,b2),(a2,b1),(a2,b2),(a3,b1),(a3,b2),(b1,b2)},事件A由7个基本事件组成,因而P(A)=.12.为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.下表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2)表1:注射药物A后皮肤疱疹面积的频数分布表疱疹面积[60,65)[65,70)[70,75)[75,80)频数30402010表2:注射药物B后皮肤疱疹面积的频数分布表疱疹面积[60,65)[65,70)[70,75)[75,80)[80,85)频数1025203015(1)完成下面频率分布直方图,并比较注射两种药物后疱疹面积的中位数大小;图1 注射药物A后皮肤疱疹面积的频率分布直方图图2 注射药物B后皮肤疱疹面积的频率分布直方图(2)完成下面2×2列联表,并回答能否有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B 后的疱疹面积有差异”.表3:疱疹面积小于70mm2疱疹面积不小于70 mm2合计注射药物A a=b=注射药物B c=d=合计n=附:K2=P(K2≥k )0.100.050.0250.010.001k 2.7063.8415.0246.63510.828解:(1)图1 注射药物A后皮肤疱疹面积的频率分布直方图图2 注射药物B后皮肤疱疹面积的频率分布直方图可以看出注射药物A后的疱疹面积的中位数在65至70之间,而注射药物B后的疱疹面积的中位数在70至75之间,所以注射药物A后疱疹面积的中位数小于注射药物B后疱疹面积的中位数.(2)表3:疱疹面积小于70mm2疱疹面积不小于70 mm2合计注射药物A a=70b=30100注射药物B c=35d=65100合计10595n=200k=≈24.56,由于k>10.828,所以有99.9%的把握认为“注射药物A后的疱疹面积与注射药物B后的疱疹面积有差异”.希望对大家有所帮助,多谢您的浏览!。
课时作业(六十三) 变量间的相关关系、统计案例1.(多选)2020年3月15日,某市物价部门对5家商场的某商品一天的销售量及其价格进行调查,5家商场的售价x (元)和销售量y (件)之间的一组数据如表所示:价格x 9 9.5 10 10.5 11 销售量y1110865按公式计算,y 与x 的回归直线方程是:y ^ =-3.2x +a ^,相关系数|r |=0.986,则下列说法正确的有( )A .变量x ,y 线性负相关且相关性较强B .a ^=40C .当x =8.5时,y 的估计值为12.8D .相应于点(10.5,6)的残差约为0.4ABC [对A ,由表可知y 随x 增大而减少,可认为变量x ,y 线性负相关,且由相关系数|r |=0.986可知相关性强,故A 正确.对B ,价格平均x =15 (9+9.5+10+10.5+11)=10,销售量y =15 (11+10+8+6+5)=8.故回归直线恒过定点(10,8),故8=-3.2×10+a ^ ⇒a ^=40,故B 正确. 对C ,当x =8.5时,y ^=-3.2×8.5+40=12.8,故C 正确.对D ,相应于点(10.5,6)的残差e ^=6-(-3.2×10.5+40)=-0.4,故D 不正确.故选ABC.] 2.(多选)因防疫的需要,多数大学开学后启用封闭式管理.某大学开学后也启用封闭式管理,该校有在校学生9 000人,其中男生4 000人,女生5 000人,为了解学生在封闭式管理期间对学校的管理和服务的满意度,随机调查了40名男生和50名女生,每位被调查的学生都对学校的管理和服务给出了满意或不满意的评价,经统计得到如下列联表:满意 不满意 男 20 20 女4010附表:P (K 2≥k )0.100 0.05 0.025 0.010 0.001 k2.7063.8415.0246.63510.828附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )以下说法正确的有( )A .满意度的调查过程采用了分层抽样的抽样方法B .该学校学生对学校的管理和服务满意的概率的估计值为0.6C .有99%的把握认为学生对学校的管理和服务满意与否与性别有关系D .没有99%的把握认为学生对学校的管理和服务满意与否与性别有关系AC [因为男女比例为4 000∶5 000,故A 正确.满意的频率为20+4090 =23 ≈0.667,所以该学校学生对学校的管理和服务满意的概率的估计值约为0.667,所以B 错误.由列联表K 2=90×(20×10-20×40)240×50×60×30=9>6.635,故有99%的把握认为学生对学校的管理和服务满意与否与性别有关系,所以C 正确,D 错误.故选AC.]3.为了研究某种细菌在特定环境下随时间变化的繁殖规律,得如下实验数据,计算得回归直线方程为y ^=0.85x -0.25.由以上信息,得到下表中c 的值为________.解析: x =3+4+5+6+75 =5,y =2.5+3+4+4.5+c 5 =14+c5 ,代入回归直线方程中得:14+c5=0.85×5-0.25,解得c =6.答案: 64.某校某次数学考试规定80分以上(含80分)为优分,在1 000名考生中随机抽取的100名学生中,“男生组”中的优分有15人,“女生组”中的优分有15人,据此可得2×2列联表如下:________________.附表及公式P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解析:K 2=100×(15×25-15×45)260×40×30×70≈1.79,因为1.79<2.706,所以没有90%以上的把握认为“数学成绩与性别有关”. 答案: 没有90%以上的把握认为“数学成绩与性别有关”5.某市春节期间7家超市广告费支出x i (万元)和销售额y i (万元)数据如表:超市 A B C D E F G 广告费支出x i 1 2 4 6 11 13 19 销售额y i19324044525354(1)若用线性回归模型拟合y 与x 的关系,求y 与x 的线性回归方程;(2)若用二次函数回归模型拟合y 与x 的关系,可得回归方程:y ^=-0.17x 2+5x +20,经计算,二次函数回归模型和线性回归模型的R 2分别约为0.93和0.75,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出3万元时的销售额.解析:(1) b ^ =∑i=17xiyi -7x -y -∑i=17x 2i -7x 2=2 794-7×8×42708-7×82=1.7.所以a ^ =y -b ^x =42-1.7×8=28.4, 故y 关于x 的线性回归方程是y ^=1.7x +28.4. (2)因为0.75<0.93,所以二次函数回归模型更合适.当x =3时,y ^=33.47.故选择二次函数回归模型更合适,并且用此模型预测A 超市广告费支出3万元时的销售额为33.47万元.6.为了解某校学生参加社区服务的情况,采用按性别分层抽样的方法进行调查.已知该校共有学生960人,其中男生560人,从全校学生中抽取了容量为n 的样本,得到一周参加社区服务时间的统计数据如下表:(1)求m ,n (2)能否有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关? (3)以样本中学生参加社区服务时间超过1小时的频率作为该事件发生的概率,现从该校学生中随机调查6名学生,试估计这6名学生中一周参加社区服务时间超过1小时的人数.附:K 2=n (ad bc 2(a +b )(c +d )(a +c )(b +d )解析:(1)由已知,该校有女生400人,故12+m 20+8 =400560 ,得m =8,从而n =20+8+12+8=48. (2)作出2×2列联表如下:K 2=48×(160-96)228×20×32×16 =2435≈0.685 7<3.841.所以没有95%的把握认为该校学生一周参加社区服务时间是否超过1小时与性别有关. (3)根据以上数据,学生一周参加社区服务时间超过1小时的概率P =3248 =23 ,故估计这6名学生中一周参加社区服务时间超过1小时的人数是4.7.(2020·全国卷Ⅲ)某学生兴趣小组随机调查了某市100天中每天的空气质量等级和当天到某公园锻炼的人次,整理数据得到下表(单位:天):锻炼人次空气质量等级[0,200](200,400](400,600] 1(优)216252(良)51012 3(轻度污染)6784(中度污染)720(1)分别估计该市一天的空气质量等级为1,2,3,4的概率;(2)求一天中到该公园锻炼的平均人次的估计值(同一组中的数据用该组区间的中点值为代表);(3)若某天的空气质量等级为1或2,则称这天“空气质量好”;若某天的空气质量等级为3或4,则称这天“空气质量不好”.根据所给数据,完成下面的2×2列联表,并根据列联表,判断是否有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关?人次≤400人次>400空气质量好空气质量不好附:K2=n ad bc2(a+b)(c+d)(a+c)(b+d),P(K2≥k)0.0500.0100.001k 3.841 6.63510.828解析:(1)由所给数据,该市一天的空气质量等级为1,2,3,4的概率的估计值如下表:空气质量等级123 4概率的估计值0.430.270.210.09(2)一天中到该公园锻炼的平均人次的估计值为1100(100×20+300×35+500×45)=350.(3)根据所给数据,可得2×2列联表:人次≤400人次>400空气质量好 33 37 空气质量不好228根据列联表得K 2=100×(33×8-22×37)255×45×70×30≈5.820.由于5.820>3.841,故有95%的把握认为一天中到该公园锻炼的人次与该市当天的空气质量有关.8.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响,对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到如图散点图及一些统计量的值.x y w∑i =18(x i -x)2∑i =18(w i -w )2∑i =18(x i -x )· (y i -y )∑i =18(w i -w )· (y i -y )46.6 563 6.8 289.81.61.469 108.8表中w i =xi ,w =18∑i =1w i .(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型(给出判断即可,不必说明理由)?(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程.(3)已知这种产品的利润z 与x ,y 的关系为z =0.2y -x .根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v ^ =α^ +β^u 的斜率和截距的最小二乘估计分别为:解析: (1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程,由d ^ =∑i=18(wi -w )·(yi -y )∑i=18(wi -w )2=108.81.6=68. 得c ^ =y -d ^w =563-68×6.8=100.6.所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ∧=100.6+68x .(3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849 =576.6, 年利润z 的预报值z ^=576.6×0.2-49=66.32.②根据(2)的结果知,年利润z 的预报值z ^=0.2(100.6+68x )-x =-x +13.6x +20.12. 所以当x =13.62 =6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.。
课时作业(五十四)附:P(K2≥k0)0.1000.0500.0250.0100.005k0 2.706 3.841 5.024 6.6357.879,其中n=a+b+c+dK2=(a+b)(c+d)(a+c)(b+d)一、选择题1.(2013·石家庄质检(二))设(x1,y1),(x2,y2),…,(x n,y n)是变量x和y的n个样本点,直线l是由这些样本点通过最小二乘法得到的线性回归方程(如图),以下结论中正确的是()A.x和y正相关B.x和y的相关系数为直线l的斜率C.x和y的相关系数在-1到0之间D.当n为偶数时,分布在l两侧的样本点的个数一定相同解析:由图可知x和y是负相关,相关系数与直线的斜率无关,相关系数的取值范围在-1与1之间,所以选C.答案:C2.(2013·湖南省六校联考)两个变量y与x的回归模型中,分别选择了4个不同模型,计算出它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1(相关指数R2为0.97)B.模型2(相关指数R2为0.89)C.模型3(相关指数R2为0.56)D.模型4(相关指数R2为0.45)解析:在回归分析中,相关指数R2越大,说明两变量拟合效果越好,故选A.答案:A3.变量X与Y相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U与V相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1),r1表示变量Y与X之间的线性相关系数,r2表示变量V与U之间的线性相关系数,则()A.r2<r1<0 B.0<r2<r1C.r2<0<r1D.r2=r1解析:作出X,Y对应散点图可知Y与X正相关,∴r1>0.作出U,V对应散点图可知U与V负相关∴r2<0.∴r2<0<r1.答案:C4.(2013·郑州第三次质量预测)已知实数:x,y取值如下表:从所得的散点图分析可知:y与x线性相关,且y=0.95x+a,则a的值是()A.1.30 B.1.45C .1.65D .1.80解析:由数表可知此样本数据的中心点为 x =0+1+4+5+6+86=4, y =1.3+1.8+5.6+6.1+7.4+9.36=5.25, 代入回归方程y ^=0.95x +a 可得a =1.45,故选B. 答案:B5.(2013·云南昆明高三调研)变量U 与V 相对应的一组样本数据为(1,1.4),(2,2.2),(3,3),(4,3.8),由上述样本数据得到U 与V 的线性回归分析,R 2表示解释变量对于预报变量变化的贡献率,则R 2=( )A.35B.45 C .1D .3解析:依题意,注意到点(1,1.4),(2,2.2),(3,3),(4,3.8)均位于直线y -1.4=2.2-1.42-1(x -1),即y =0.8x +0.6上,因此解释变量对于预报变量变化的贡献率R 2=1,选C.答案:C6.(2013·东北三校第二次联考)以下有关线性回归分析的说法不正确的是( )A .通过最小二乘法得到的线性回归直线过样本点的中心(x ,y )B .用最小二乘法求回归直线方程,是寻求使∑i =1n(y i -bx i -a )2最小的a ,b 的值C .相关系数r 越小,表示两个变量相关性越弱D .R 2=1-∑i =1n (y i -y ^i )2∑i =1n(y i -y )2越接近1,表示回归的效果越好解析:相关系数0<r <1时,表示正相关,r 越小相关性越弱,-1<r <0时表示负相关,r 越小相关性越强,所以C 不正确,选C.答案:C 7.下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程y ^=b ^x +a ^必过点(x ,y );④在一个2×2列联表中,由计算得K 2=13.079,则有99%的把握确认这两个变量间有关系.其中错误的个数是( ) A .0 B .1 C .2D .3解析:一组数据都加上或减去同一个常数,数据的平均数有变化,方差不变(方差是反映数据的波动程度的量),①正确;回归方程中x 的系数具备直线斜率的功能,对于回归方程y ^=3-5x ,当x 增加一个单位时,y 平均减少5个单位,②错误;由线性回归方程的定义知,线性回归方程y ^=b ^x +a ^必过点(x ,y ),③正确;因为K 2=13.079>10.828,故有99%的把握确认这两个变量有关系,④正确.故选B.答案:B 二、填空题8.某地居民2008~2012年家庭年平均收入x (单位:万元)与年平均支出Y (单位:万元)的统计资料如下表所示:,家庭年平均收入与年平均支出有________线性相关关系.解析:根据中位数的定义,居民家庭年平均收入的中位数是13,家庭年平均收入与年平均支出有正线性相关关系.答案:13 正9.(2013·河北保定月考)为了解某班学生喜爱打篮球是否与性别有关,对该班50名学生进行了问卷调查,得到了如下的2×2列联表:喜爱打篮球不喜爱打篮球合计男生20525女生101525合计302050(请用百分数表示)解析:由公式可得k2≈8.333>7.879,故填99.5%.答案:99.5%三、解答题10.某学生对其亲属30人的饮食习惯进行了一次调查,并用茎叶图表示30人的饮食指数.(说明:图中饮食指数低于70的人,饮食以蔬菜为主;饮食指数高于70的人,饮食以肉类为主.)(1)根据茎叶图,帮助这位学生说明其亲属30人的饮食习惯;(2)根据以上数据完成下列2×2的列联表:(3)出简要分析.解:(1)在30位亲属中,50岁以上的人多以食蔬菜为主,50岁以下的人多以食肉为主.(2)2×2的列联表如下:(3)因为K2=30×(8-128)212×18×20×10=30×120×12012×18×20×10=10>6.635,所以有99%的把握认为亲属的饮食习惯与年龄有关.11.某农科所对冬季昼夜温差大小与某反季节大豆新品种发芽多少之间的关系进行分析研究,他们分别记录了12月1日至12月5日的每天昼夜温差与实验室每天每100棵种子中的发芽数,得到如下资料:下的3组数据求线性回归方程,再对被选取的2组数据进行检验.(1)求选取的2组数据恰好是不相邻2天数据的概率;(2)若选取的是12月1日与12月5日的2组数据,请根据12月2日至12月4日的数据,求出y 关于x 的线性回归方程y ^=b ^x +a ^;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2颗,则认为得到的线性回归方程是可靠的,试问(2)中所得的线性回归方程是否可靠?解:(1)设抽到不相邻2组数据为事件A ,因为从5组数据中选取2组数据共有10种情况,每种情况都是等可能出现的,其中抽到相邻2组数据的情况有4种,所以P (A )=1-410=35.(2)由数据求得,x =12,y =27,由公式求得.b ^=52,a ^=y -b ^x =-3. 所以y 关于x 的线性回归方程为y ^=52x -3.(3)当x =10时,y ^=52×10-3=22,|22-23|<2; 当x =8时,y ^=52×8-3=17,|17-16|<2. 所以该研究所得到的线性回归方程是可靠的. [热点预测]12.(2013·辽宁省大连市高三第一次模拟考试节选)某工厂用甲、乙两种不同工艺生产一大批同一种零件,零件尺寸均在[21.7,22.3](单位:cm)之间,把零件尺寸在[21.9,22.1)的记为一等品,尺寸在[21.8,21.9)∪[22.1,22.2)的记为二等品,尺寸在[21.7,21.8)∪[22.2,22.3]的记为三等品,现从甲、乙工艺生产的零件中各随机抽取100件产品,所得零件尺寸的频率分布直方图如图所示:根据上述数据完成下列2×2列联表,根据此数据你认为选择不同的工艺与生产出一等品是否有关?甲工艺 乙工艺 合计 一等品 非一等品 合计解:2×2列联表如下:甲工艺 乙工艺 合计 一等品 50 60 110 非一等品 50 40 90 合计100100200χ2=200×(50×40-60×50)2100×100×110×90≈2.02<3.841,所以没有理由认为选择不同的工艺与生产出一等品有关.。
高考数学复习 课时作业61 变量间的相关关系、统计案例一、选择题1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423;②y 与x 负相关且y ^=-3.476x +5.648;③y 与x 正相关且y ^=5.437x +8.493;④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( D ) A .①② B .②③ C .③④ D .①④解析:正相关指的是y 随x 的增大而增大,负相关指的是y 随x 的增大而减小,故不正确的为①④.2.下列说法错误的是( B )A .自变量取值一定时,因变量的取值带有一定随机性的两个变量之间的关系叫做相关关系B .在线性回归分析中,相关系数r 的值越大,变量间的相关性越强C .在残差图中,残差点分布的带状区域的宽度越狭窄,其模型拟合的精度越高D .在回归分析中,R 2为0.98的模型比R 2为0.80的模型拟合的效果好解析:根据相关关系的概念知A 正确;当r >0时,r 越大,相关性越强,当r <0时,r 越大,相当性越弱,故B 不正确;对于一组数据的拟合程度的好坏的评价,一是残差点分布的带状区域越窄,拟合效果越好,二是R 2越大,拟合效果越好,所以R 2为0.98的模型比R2为0.80的模型拟合的效果好,C 、D 正确,故选B.3.为了解某商品销售量y (件)与其单价x (元)的关系,统计了(x ,y )的10组值,并画成散点图如图,则其回归方程可能是( B )A.y ^=-10x -198B.y ^=-10x +198C.y ^=10x +198D.y ^=10x -198解析:由图象可知回归直线方程的斜率小于零,截距大于零,故选B.4.若一函数模型为y =ax 2+bx +c (a ≠0),为将y 转化为t 的回归直线方程,需作变换t =( C )A .x 2B .(x +a )2C.⎝ ⎛⎭⎪⎫x +b 2a 2D .以上都不对解析:y 关于t 的回归直线方程,实际上就是y 关于t 的一次函数.因为y =a ⎝ ⎛⎭⎪⎫x +b 2a 2+4ac -b 24a,所以可知选项C 正确.5.(2019·湖北七市联考)广告投入对商品的销售额有较大影响,某电商对连续5个年度的广告费和销售额进行统计,得到统计数据如表(单位:万元)由表可得回归方程为y =10.2x +a ,据此模拟,预测广告费为10万元时的销售额约为( C )A .101.2B .108.8C .111.2D .118.2解析:由题意得:x =4,y =50,∴50=4×10.2+a ^,解得a ^=9.2,∴回归直线方程为y ^=10.2x +9.2,∴当x =10时,y ^=10.2×10+9.2=111.2,故选C.6.某考察团对10个城市的职工人均工资x (千元)与居民人均消费y (千元)进行调查统计,得出y 与x 具有线性相关关系,且回归方程为y ^=0.6x +1.2.若某城市职工人均工资为5千元,估计该城市人均消费额占人均工资收入的百分比为( D )A .66%B .67%C .79%D .84%解析:因为y 与x 具有线性相关关系,满足回归方程y ^=0.6x +1.2,该城市职工人均工资为x =5,所以可以估计该城市的职工人均消费水平y =0.6×5+1.2=4.2,所以可以估计该城市人均消费额占人均工资收入的百分比为4.25=84%.7.(2019·江西九校联考)随着国家二孩政策的全面放开,为了调查一线城市和非一线城市的二孩生育意愿,某机构用简单随机抽样方法从不同地区调查了100位育龄妇女,结果如下表.非一线 一线 总计 愿生 45 20 65 不愿生 13 22 35 总计5842100由K 2=n ad -bc 2a +bc +d a +cb +d,得K 2=100×45×22-20×13265×35×58×42≈9.616.参照下表,P (K 2≥k 0)0.050 0.010 0.001 k 03.8416.63510.828A .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别有关”B .在犯错误的概率不超过0.1%的前提下,认为“生育意愿与城市级别无关”C .有99%以上的把握认为“生育意愿与城市级别有关”D .有99%以上的把握认为“生育意愿与城市级别无关”解析:∵K 2≈9.616>6.635,∴有99%以上的把握认为“生育意愿与城市级别有关”. 二、填空题8.某单位为了了解用电量y (度)与气温x (℃)之间的关系,随机统计了某4天的用电量与当天气温,并制作了如下对照表:气温(℃) 18 13 10 -1 用电量(度)24343864由表中数据得线性回归直线方程y =b x +a 中的b =-2,预测当气温为-4 ℃时,用电量为68度.解析:回归直线过点(x ,y ),根据题意得x =18+13+10+-14=10,y =24+34+38+644=40,将(10,40)代入y ^=-2x +a ^,解得a ^=60,则y ^=-2x +60,当x =-4时,y ^=(-2)×(-4)+60=68,即当气温为-4 ℃时,用电量约为68度.9.(2019·安徽蚌埠段考)为了研究工人的日平均工作量是否与年龄有关,从某工厂抽取了100名工人,且规定日平均生产件数不少于80件者为“生产能手”,列出的2×2列联表如下:生产能手 非生产能手总计 25周岁以上 25 35 60 25周岁以下10 30 40 总计3565100解析:由2×2列联表可知,K 2= 100×25×30-10×35240×60×35×65≈2.93,因为2.93>2.706,所以有90%以上的把握认为“工人是否为‘生产能手’与工人的年龄有关”.三、解答题10.某公司为了了解广告投入对销售收益的影响,在若干地区各投入万元广告费用,并将各地的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.(1)根据频率分布直方图计算图中各小长方形的宽度;(2)估计该公司投入万元广告费用之后,对应销售收益的平均值(以各组的区间中点值代表该组的取值);(3)该公司按照类似的研究方法,测得另外一些数据,并整理得到下表:算y 关于x 的线性回归方程.解:(1)设各小长方形的宽度为m ,由频率分布直方图中各小长方形面积总和为1,可知(0.08+0.1+0.14+0.12+0.04+0.02)·m =0.5m =1,故m =2.(2)由(1)知,各分组依次是[0,2),[2,4),[4,6),[6,8),[8,10),[10,12],其中点值分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20, 0.28, 0.24,0.08,0.04,故可估计平均值为1×0.16+3×0.2+5×0.28+7×0.24+9×0.08+11×0.04=5. (3)空白栏中填5. 由题意可知,x =1+2+3+4+55=3,y =2+3+2+5+75=3.8,∑i =15x i y i =1×2+2×3+3×2+4×5+5×7=69,∑i =15x 2i =12+22+32+42+52=55. 根据公式可求得b ^=69-5×3×3.855-5×32=1210=1.2,a ^=3.8-1.2×3=0.2,即线性回归方程为y ^=1.2x +0.2.11.已知某产品连续4个月的广告费用为x i (i =1,2,3,4)千元,销售额为y i (i =1,2,3,4)万元,经过对这些数据的处理,得到如下数据信息:①x 1+x 2+x 3+x 4=18,y 1+y 2+y 3+y 4=14;②广告费用x 和销售额y 之间具有较强的线性相关关系;③回归直线方程y ^=b ^x +a ^中的b ^=0.8(用最小二乘法求得).那么,当广告费用为6千元时,可预测销售额约为( B )A .3.5万元B .4.7万元C .4.9万元D .6.5万元解析:依题意得x =4.5,y =3.5,由回归直线必过样本中心点得a =3.5-0.8×4.5=-0.1.当x =6时,y ^=0.8×6-0.1=4.7.12.近代统计学的发展起源于二十世纪初,它是在概率论的基础上发展起来的,统计性质的工作则可以追溯到远古的“结绳记事”和《二十四史》中大量的关于我国人口、钱粮、水文、天文、地震等资料的记录.近几年,雾霾来袭,对某市该年11月份的天气情况进行统计,结果如下表:表一构对比以上两年11月份(该年不限行30天、次年限行30天,共60天)的调查结果:表二没有雾霾 a 有雾霾 b总计303060(1)请由表一中数据求a ,b 的值,并估计在该年11月份任取一天是晴天的概率; (2)请用统计学原理计算,若没有90%的把握认为雾霾与限行有关系,则限行时有多少天没有雾霾?P (K 2≥k 0)0.100 0.050 0.010 0.001 k 02.7063.8416.63510.828(表中数据使用时四舍五入取整数)解:(a )a =10,b =20,所求概率P =630=15.(2)设限行时有x 天没有雾霾,则有雾霾的天数为30-x ,由题意得K 2的观测值k =n ad -bc 2a +bc +d a +cb +d≤3,代入数据化简得21x 2-440x +1 500≤0,x ∈[0,30],x ∈N *,即(7x -30)(3x -50)≤0,解得307≤x ≤503,所以5≤x ≤16,且x ∈N *,所以若没有90%的把握认为雾霾与限行有关系,则限行时有5~16天没有雾霾. 尖子生小题库——供重点班学生使用,普通班学生慎用13.(2019·山西八校联考)某电视厂家准备在元旦举行促销活动,现根据近七年的广告费与销售量的数据确定此次广告费支出.广告费支出x (万元)和销售量y (万台)的数据如下:年份 2011 2012 2013 2014 2015 2016 2017 广告费 支出x 1 2 4 6 11 13 19 销售量y1.93.24.04.45.25.35.4(2)若用y =c +d x 模型拟合y 与x 的关系,可得回归方程y ^=1.63+0.99x ,经计算线性回归模型和该模型的R 2分别约为0.75和0.88,请用R 2说明选择哪个回归模型更好;(3)已知利润z 与x ,y 的关系为z =200y -x .根据(2)的结果回答下列问题: ①广告费x =20时,销售量及利润的预报值是多少? ②广告费x 为何值时,利润的预报值最大?(精确到0.01)参考公式:回归直线y ^=a ^+b ^x 的斜率和截距的最小二乘估计分别为b ^=∑i =1nx i y i -n x y∑i =1nx 2i -n x 2=∑i =1nx i -xy i -y∑i =1nx i -x2,a ^=y -b ^x .参考数据:5≈2.24.解:(1)∵x =8,y =4.2,∑i =17x i y i =279.4,∑i =17x 2i =708,∴b ^=∑i =17x i y i -7x y∑i =17x 2i -7x 2=279.4-7×8×4.2708-7×82=0.17, a ^=y -b ^x =4.2-0.17×8=2.84,∴y 关于x 的线性回归方程为y ^=0.17x +2.84.(2)∵0.75<0.88且R 2越大,反映残差平方和越小,模型的拟合效果越好,∴选用y ^=1.63+0.99x 更好.(3)由(2)知,①当x =20时,销售量的预报值y ^=1.63+0.9920≈6.07(万台),利润的预报值z =200×(1.63+0.9920)-20≈1 193.04(万元).②z =200(1.63+0.99x )-x =-x +198x +326=-(x )2+198x +326=-(x -99)2+10 127,∴当x =99,即x =9 801时,利润的预报值最大,故广告费为9 801万元时,利润的预报值最大.。