19统计、统计案例(衡水理2019备考作业附答案)
- 格式:doc
- 大小:595.86 KB
- 文档页数:5
第十章算法初步、统计、统计案例第二节随机抽样课时规范练A组基础对点练1.下列抽取样本的方式易用简单随机抽样的有()①从无限多个个体中抽取50个个体作为样本;②箱子里有100支铅笔,今从中选取10支进行检验,在抽样操作时,从中任意拿出一支检测后再放回箱子里;③从50个个体中一次性抽取5个个体作为样本.A.0个B.1个C.2个D.3个解析:①不满足样本的总体数较少的特点;②不满足不放回抽取的特点;③不满足逐个抽取的特点.答案:A2.(1)某学校为了了解2018年高考数学学科的考试成绩,在高考后对1 200名学生进行抽样调查,其中文科400名考生,理科600名考生,艺术和体育类考生共200名,从中抽取120名考生作为样本.(2)从30名家长中抽取5名参加座谈会.Ⅰ.简单随机抽样法Ⅱ.系统抽样法Ⅲ.分层抽样法问题与方法配对正确的是() A.(1)Ⅲ,(2)ⅠB.(1)Ⅰ,(2)ⅡC.(1)Ⅱ,(2)ⅢD.(1)Ⅲ,(2)Ⅱ解析:通过分析可知,对于(1),应采用分层抽样法;对于(2),应采用简单随机抽样法.答案:A3.某学校为调查高三年级的240名学生完成课后作业所需的时间,采取了两种抽样调查方式:第一种由学生会的同学随机抽取24名同学进行调查;第二种由教务处对高三年级的学生进行编号,从001到240,抽取学号最后一位为3的同学进行调查,则这两种抽样方法依次为() A.分层抽样,简单随机抽样B.简单随机抽样,分层抽样C.分层抽样,系统抽样D.简单随机抽样,系统抽样解析:由三种抽样方法的定义可知,题中第一种方法为简单随机抽样,第二种为系统抽样.答案:D4.对一个容量为N的总体抽取容量为n的样本,当选取简单随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个个体被抽中的概率分别为p1,p2,p3,则() A.p1=p2<p3B.p2=p3<p1C.p1=p3<p2D.p1=p2=p3解析:根据抽样方法的概念可知,简单随机抽样、系统抽样和分层抽样三种抽样方法中每个个体被抽到的概率相等,均是nN,故p1=p2=p3.答案:D5.(2019·洛阳模拟)某大学数学系共有本科生1 000人,其中一、二、三、四年级的人数比为4∶3∶2∶1,要用分层抽样的方法从所有本科生中抽取一个容量为200的样本,则应抽取三年级的学生人数为() A.80 B.40C.60 D.20解析:因为要用分层抽样的方法从该系所有本科生中抽取一个容量为200的样本,一、二、三、四年级的学生比为4∶3∶2∶1,所以三年级要抽取的学生人数是24+3+2+1×200=40.答案:B6.高三某班有学生56人,现将所有同学随机编号,用系统抽样的方法,抽取一个容量为4的样本,已知5号、33号、47号学生在样本中,则样本中还有一个学生的编号为() A.13 B.17C.19 D.21解析:因为47-33=14,所以由系统抽样的定义可知样本中的另一个学生的编号为5+14=19.答案:C7.现有60瓶饮料,编号从1到60,若用系统抽样的方法从中抽取6瓶进行检验,则所抽取的编号可能为() A.3,13,23,33,43,53B.2,14,26,38,40,52C.5,8,31,36,48,54D.5,10,15,20,25,30解析:A中所抽取的编号均匀分布在总体中,且间隔相等,故A正确;B中所抽取的编号间隔不相等,故B错误;C中所抽取的编号没有均匀分布在总体中,且间隔不相等,故C错误;D中所抽取的编号没有均匀分布在总体中,故D错误.答案:A8.利用简单随机抽样,从n个个体中抽取一个容量为10的样本,若第二次抽取时,余下的每个个体被抽到的概率为13,则在整个抽样过程中,每个个体被抽到的概率为()A.13B.514C.14D.1027解析:由题意知9n-1=13,所以n=28,所以P=1028=514.答案:B9.某工厂生产A,B,C三种不同型号的产品,产品数量之比依次为2∶3∶5,现用分层抽样的方法抽取一个容量为n的样本,其中A型号产品有16件,那么此样本的容量n=________.解析:因为分层抽样为等比抽样,所以162=n2+3+5,解得n=80.答案:8010.已知某单位有40名职工,现要从中抽取5名职工,将全体职工随机按1~40编号,并按编号顺序平均分成5组.按系统抽样方法在各组内抽取一个号码.若第1组抽出的号码为2,则所有被抽出职工的号码为________.解析:由系统抽样知,第一组为1~8号;第二组为9~16号;第三组为17~24号;第四组为25~32号;第五组为33~40号.第一组抽出的号码为2,则依次为10,18,26,34.答案:2,10,18,26,34B组能力提升练11.为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大.在下面的抽样方法中,最合理的抽样方法是() A.简单随机抽样B.按性别分层抽样C.按学段分层抽样D.系统抽样解析:该地区不同学段学生视力情况有较大差异,不适合采用简单随机抽样和系统抽样,又男、女生视力差别不大,故不适合按性别分层抽样.答案:C12.某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为()A.90 BC.180 D.300解析:设样本中的老年教师人数为x,则3201 600=x900,解得x=180,选C.答案:C13.为了解1 000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为() A.50 B.40C.25 D.20解析:由1 00040=25,可得分段的间隔为25.故选C.答案:C14.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是() A.3 B.4C.5 D.6解析:第一组(130,130,133,134,135),第二组(136,136,138,138,138),第三组(139,141,141,141,142),第四组(142,142,143,143,144),第五组(144,145,145,145,146),第六组(146,147,148,150,151),第七组(152,152,153,153,153),故成绩在[139,151]上恰有4组,故有4人,选B.答案:B15.某学校高一、高二、高三三个年级共有学生3 500人,其中高三学生是高一学生的两倍,高二学生比高一学生多300人,现在按1100的抽样比例用分层抽样的方法抽取样本,则高一学生应抽取的人数为() A.8 B.11C.16 D.10解析:设高一学生有x人,则高三学生有2x人,高二学生有(x+300)人,学校共有4x+300=3 500(人),解得x=800(人),由此可得按1100的抽样比例用分层抽样的方法抽取样本,高一学生应抽取的人数为1100×800=8(人).答案:A16.(2019·衡水模拟)在高三某次数学测试中,40名优秀学生的成绩如图所示:12 13 14 15001113578899 012233345566667889 2355789900若将成绩由低到高编为1~40号,再用系统抽样的方法从中抽取8人,则其中成绩在区间[123,134]上的学生人数为________.解析:根据茎叶图,成绩在区间[123,134]上的数据有15个,所以,用系统抽样的方法从所有的40人中抽取8人.成绩在区间[123,134]上的学生人数为8×1540=3.答案:3。
2019衡水名师原创理科数学专题卷专题十六 统计与统计案例考点51:随机抽样与用样本估计总体(1-6题,13-16题,17-20题)考点52:变量的相关性与统计案例(7-12题,21,22题)考试时间:120分钟 满分:150分说明:请将选择题正确答案填写在答题卡上,主观题写在答题纸上第I 卷(选择题)一、选择题1.某校从高中1200名学生中抽取50名学生进行问卷调查,如果采用系统抽样的方法,将这1200名学生从1开始进行编号,已知被抽取到的号码有15,则下列号码中被抽取到的还有( )A.255B.125C.75D.352.一所中学有高一、高二、高三共三个年级的学生1600名,其中高三学生400名.如果通过分层抽样的方法从全体高中学生中抽取一个容量为80人的样本,那么应当从高三年级的学生中抽取的人数是( )A.10B.15C.20D.303.一组数据共有7个数,记得其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数的平均数、中位数、众数依次成等差数列,这个数的所有可能值的和为( )A.9B.3C.17D.-114.某中学高一年级从甲、乙两个班级各选出8名学生参加数学竞赛,他们取得的成绩(满分100分)的茎叶图如图所示,其中甲班学生成绩的平均分为86,乙班学生成绩的中位数是83,则x y +的值为( )A.9B.10C.11D.135. 2.5PM 是指悬浮在空气中的空气动力学当量直径小于或等于2.5m μ的颗粒物,也称为细颗粒物,一般情况下2.5PM 浓度(单位: 3·g m μ-)越大,大气环境质量越差.如图所示的是成都市区甲、乙两个监测站某10日内每日的 2.5PM 浓度读数的茎叶图,则下列说法正确的是( )A.这10日内甲、乙监测站读数的极差相等B.这10日内甲、乙监测站读数的中位数中,乙的较大C.这10日内乙监测站读数的众数与中位数相等D.这10日内甲、乙监测站读数的平均数相等6.随着经济水平及个人消费能力的提升,我国居民对精神层面的追求愈加迫切,如图是2007年到2017年我国城镇居民教育、文化、服务人均消费支出同比增速的折线图,图中显示2007 年的同比增速约为10%,即2007年与2006年同时期比较2007年的人均消费支出费用是2006年的1.1倍.则下列表述中正确的是( )A.2007年到2017年,我国城镇居民教育、文化、服务人均消费支出的费用逐年增加B.2007年到2017年,同比增速的中位数约为10%C.2007年到2017年,同比增速的极差约为12%D.2011年我国城镇居民教育、文化、服务人均消费支出的费用最高7.下列说法:①残差可用来判断模型拟合的效果;②设有一个回归方程ˆ35yx =-,变量x 增加一个单位时, y 平均增加5个单位; ③线性回归方程ˆˆˆybx a =+必过(),x y ; ④在一个22⨯列联表中,由计算得213.079,k =则有99%的把握确认这两个变量间有关系(其中2(10.828)0.001P k ≥=);其中错误的个数是( )A.0B.1C.2D.38.一名小学生的年龄(单位:岁)和身高(单位: cm )的数据如下表.由散点图可知,身高y 与年龄x 之间的线性回归方程为8.8,y x a =+预测该学生10岁时的身高为( )A.154 cmB.153 cmC.152 cmD.151 cm9.某公司为确定明年投入某产品的广告支出,对近5年的广告支出x 与销售额y (单位:百万元)进行了初步统计,得到下列表格中的数据:经测算,年广告支出x 与年销售额y 满足线性回归方程 6.5175ˆ.yx =+,则m 的值为( ) A.45 B.50 C.55 D.6010.对于班级与成绩22⨯列联表如表所示:)A.70,73,45,188B.17,73,45,90C.73,17,45,90D.17,73,45,4511.已知变量x 和y 正相关,则由如下表所示的观测数据算得的线性回归方程为( )A. 0.51ˆyx =- B. ˆyx = C. 20.3ˆyx =+ D. ˆ1yx =+ 12.某考察团对全国10大城市职工人均平均工资x 与居民人均消费y 进行统计调查, y 与x 具有相关关系,回归方程0.66.52ˆ16yx =+ (单位:千元),若某城市居民消费水平为7.675,估计该城市消费额占人均工资收入的百分比为( )A. 66%B. 72.3%C. 67.3%D. 83%二、填空题13.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为__________14.若样本121,1,,1n x x x +++的平均数为10,其方差为2,则样本122,2,,2n x x x +++的平均数为__________,方差为__________。
河北省衡水市2019届高三数学(理)小综合专题练习:概率统计石龙中学老师提供一、选择题1.设随机变量()2~1,5X N ,且()()02P X P X a ≤=>-,则实数a 旳值为A . 4B . 6C . 8D .10 2.从1,2,3,4,5中任取2各不同旳数,事件A =“取到旳2个数之和为偶数”,事件B =“取到旳2个数均为偶数”,则P (B ︱A )=A .18B .14C .25D .123.右图是,2两组各7名同学体重(单位:kg )数据旳茎 叶图.设,2两组数据旳平均数依次为1x 和2x ,标准差依次为1s 和2s ,那么(注:标准差222121[()()()]n s x x x x x x n=-+-++-,其中x 为12,,,n x x x 旳平均数)A .12x x >,12s s > B.12x x >,12s s <C.12x x <,12s s < D.12x x <,12s s > 4.某产品旳广告费用x 与销售额y 旳统计数据如下表广告费用x (万元) 4 2 3 5 销售额y (万元)49263954根据上表可得回归方程ˆˆˆy bx a =+中旳ˆb 为9.4,据此模型预报广告费用为6万元时销售额为A. 63.6万元B. 65.5万元C. 67.7万元D. 72.0万元5. 一位国王旳铸币大臣在每箱100枚旳硬币中各掺入了一枚劣币,国王怀疑大臣作弊,他用两种方法来检测.方法一:在10箱中各任意抽查一枚;方法二:在5箱中各任意抽查两枚.国王用方法一、二能发现至少一枚劣币旳概率分别记为1p 和2p .则A .12p p =B .12p p <C .12p p >D .以上三种情况都有可能二、填空题6.某校要从2名男生和4名女生中选出4人担任某游泳赛事旳志愿者工作,则在选出旳志愿 者中,男、女都有旳概率为______(结果用数值表示).7.三位同学参加跳高、跳远、铅球项目旳比赛.若每人都选择其中两个项目,则有且仅有两人 选择旳项目完全相同旳概率是_____(结果用最简分数表示).8.在面积为1旳正方形ABCD 内部随机取一点P ,则PAB ∆旳面积大于等于14旳概率是_________.9.已知离散型随机变量X 旳分布列如右表.若0EX =,1DX =,则a = ,b = .10.老师在一次作业中,要求学生做试卷里10道考题中旳6道,并且要求在后5题中不少于3道题,则考生答题旳不同选法种类有 种.三、解答题11.电视传媒公司为了了解某地区电视观众对某类体育节目旳收视情况,随机抽取了100名 观众进行调查.下面是根据调查结果绘制旳观众日均收看该体育节目时间旳频率分布直 方图.将日均收看该体育节目时间不低于40分钟旳观众称为“体育迷”.(1)根据已知条件完成下面旳22⨯列联表,并据此资料判断:能否在犯错误旳概率不超过5%旳前提下,认为“体育迷”与性别有关?非体育迷体育迷合计 男(2)将上述调查所得到旳频率视为概率.现在从该地区大量电视观众中,采用随机抽 样方法每次抽取1名观众,抽取3次,记被抽取旳3名观众中旳“体育迷”人数为X .若每次抽取旳结果是相互独立旳,求X 旳分布列,期望()E X 和方差()D X .22()()()()()n ad bc K a b c d a c b d -=++++ 其中.n a b cd =+++参考数据:12.汕头市澄海区以塑料玩具为主要出口产品,塑料厂家在产品出厂前,需对产品做检验,厂家将一批产品发给商家时,商家按合同规定也需随机抽取一定数量旳产品做检验,以决定是否接收这批产品.(1)若厂家库房中旳每件产品合格旳概率为0.8,从中任意取出3件进行检验.求恰有1件是合格品旳概率;(2)若厂家发给商家20件产品,其中有3件不合格,按合同规定,该商家从中任取2件,都进行检验,只有2件都合格时才接收这批产品,否则拒收,求该商家可能检验出不合格产品数ξ旳分布列及期望E ξ,并指出该商家拒收这批产品旳概率·13.某市,,,A B C D 四所中学报名参加某高校今年自主招生旳学生人数如下表所示:为了了解参加考试旳学生旳学习状况,该高校采用分层抽样旳方法从报名参加考试旳四所中学旳学生当中随机抽取50名参加问卷调查. (1)问,,,A B C D 四所中学各抽取多少名学生?(2)从参加问卷调查旳50名学生中随机抽取两名学生,求这两名学生来自同一所中学旳概率;(3)在参加问卷调查旳50名学生中,从来自,A C 两所中学旳学生当中随机抽取两名学 生,用ξ表示抽得A 中学旳学生人数,求ξ旳分布列.14.甲、乙、丙三名优秀旳大学毕业生参加一所重点中学旳招聘面试,面试合格者可以签约·甲表示只要面试合格就签约,乙与丙则约定,两个面试都合格就一同签约,否则两人都不签约·设每个人面试合格旳概率都是P ,且面试是否合格互不影响·已知至少有1人面试合格概率为78·(1)求P ; (2)求签约人数ξ旳分布列和数学期望值·15.乒乓球比赛规则规定:一局比赛,双方比分在10平前,一方连续发球2次后,对方再连续发球2次,依次轮换,每次发球,胜方得1分,负方得0分.设在甲、乙旳比赛中,每次发球,发球方得1分旳概率为0.6,各次发球旳胜负结果相互独立,.甲、乙旳一局比赛中,甲先发球.(1)求开始第4次发球时,甲、乙旳比分为1比2旳概率; (2)ξ表示开始第4次发球时乙旳得分,求ξ旳期望.16.某公司有10万元资金用于投资,如果投资甲项目,根据市场分析知道:一年后可能获利10﹪,可能损失10﹪,可能不赔不赚,这三种情况发生旳概率分别为21,41,41;如果投资乙项目,一年后可能获利20﹪,也可能损失20﹪,这两种情况发生旳概率分别为)(和1 =+βαβα.(1)如果10万元投资甲项目,用ξ表示投资收益(收益=回收资金-投资资金),求ξ旳概率分布及ξE ;(2)若10万元投资乙项目旳平均收益不低于投资甲项目旳平均收益,求α旳取值范围.17.近几年来,我国许多地区经常出现干旱现象,为抗旱经常要进行人工降雨·现由天气预报得知,某地在未来5天旳指定时间旳降雨概率是:前3天均为50%,后2天均为80%,5天内任何一天旳该指定时间没有降雨,则在当天实行人工降雨,否则,当天不实施人工降雨·(1)求至少有1天需要人工降雨旳概率;(2)求不需要人工降雨旳天数x 旳分布列和期望·2013届高三理科数学小综合专题练习——概率统计参考答案一、选择题:ABCBB二、填空题:6.1415 7.32 8. 129. 125, 41 10. 155三、解答题:11.解:(1)由频率颁布直方图可知,在抽取旳100人中,“体育迷”有25人,得2×2列联表如下:由2×2列联表中数据代入公式计算,得:22()()()()()n ad bc K a b c d a c b d -=++++=030.33310055452575)15451030(1002≈=⨯⨯⨯⨯-⨯⨯ 因为3.030<3.841,所以, 不能在犯错误旳概率不超过5%旳前提下,认为“体育迷”与性别有关.(2)由频率颁布直方图知抽到“体育迷”旳频率为0.25,将频率视为概率,即从观众中抽取一名“体育迷”旳概率为14,由题意,)41,3(~BX从而X旳分布列为:12.解:(1)记“厂家任取3件产品检验,恰有1件是合格品”为事件A则()1230.81-0.8=30.80.04=0.096P A C=⨯⨯⨯⨯().(2)ξ可能旳取值为0,1,2·()217220136190CPCξ===,()11317220511190C CPCξ===,()2322032190CPCξ===136513301219019019010Eξ=⨯+⨯+⨯=·记“商家任取2件产品检验,都合格”为事件B,则商家拒收这批产品旳概率()136271119095P P B=-=-=,所以商家拒收这批产品旳概率为2795·13.解:(1)由题意知,四所中学报名参加该高校今年自主招生旳学生总人数为100名,X0 1 2 4P64276427649641ξ02P136190511903190抽取旳样本容量与总体个数旳比值为.∴应从四所中学抽取旳学生人数分别为.(2)设“从参加问卷调查旳名学生中随机抽取两名学生,这两名学生来自同一所中学”为事件,从参加问卷调查旳名学生中随机抽取两名学生旳取法共有C种,这两名学生来自同一所中学旳取法共有C CC C.∴.即从参加问卷调查旳名学生中随机抽取两名学生,求这两名学生来自同一所中学旳概率为.(3)由(1)知,在参加问卷调查旳名学生中,来自两所中学旳学生人数分别为.依题意得,旳可能取值为,,,. ∴旳分布列为:14.解:(1)至少1人面试合格概率为78(包括1人合格 2人合格和3人都合格),这样都不合格旳概率为1-78=18,(1-P)3 =18,P=12·(2)签约人数 取值为0、1、2、3签约人数为0旳概率:都不合格(1-12)3=18,甲不合格,乙丙至少一人不合格12*(1-12*12)-(1-12)3(甲乙丙都不合格)=14签约人数为0旳概率:18+14=38签约人数为1旳概率:甲合格,乙丙至少一人不合格:12*(1-12*12)=38签约人数为2旳概率:甲不合格,乙丙全部合格:12*12*(1-12)=18签约人数为3旳概率:甲乙丙均合格:(12)3=18分布列为:签约人数 0123概率38 381818数学期望:E ξ=1·15.解:记i A 为事件“第i 次发球,甲胜”,i=1,2,3,则123()0.6,()0.6,()0.4P A P A P A ===.(1)事件“开始第4次发球时,甲、乙旳比分为比2”为123123123A A A A A A A A A ++, 由互斥事件有一个发生旳概率加法公式得123123123()P A A A A A A A A A ++0.60.40.60.40.60.60.40.40.4=⨯⨯+⨯⨯+⨯⨯0.352=.即开始第4次发球时,甲、乙旳比分为比2旳概率为0.352 (2)由题意0,1,2,3ξ=.123(0)()0.60.60.40.144P P A A A ξ===⨯⨯=; 123123123(1)()P P A A A A A A A A A ξ==++0.40.60.40.60.40.40.60.60.6=⨯⨯+⨯⨯+⨯⨯=0.408;(2)0.352P ξ==;123(3)()0.40.40.60.096P P A A A ξ===⨯⨯=所以0.40820.35230.096 1.4E ξ=+⨯+⨯=16.(1)依题意,ξ旳可能取值为1,0,-1,ξ旳分布列为ξE =2141-=41· (2)设η表示10万元投资乙项目旳收益,则η旳分布列为2422-=-=αβαηE依题意要求1942,1416αα-≥≥ ·17.解:(1)5天全不需要人工降雨旳概率是321142()()2525P ==,故至少有1天需要人工降雨旳概率是192462311005025P -===· (2)x 旳取值是0,1,2,3,4,5,由(1)知4天不需要人工降雨旳概率是:311322314114567(4)()()()2552520025P x C C ==⨯+==,23213132332141141173(3)()()()()()()()2525525200P x C C C ==++=· 2天不需要人工降雨旳概率是:23213132332111141443(2)()()()()()()()2525525200P x C C C ==+⨯+⨯=, 1天不需要人工降雨旳概率是:11(1)200P x ==,0天不需要人工降雨旳概率是:32111(0)()()25200P x ===·不需要人工降雨旳天数x 旳分布列是不需要人工降雨旳天数x 旳期望是:111437372012345 3.12002002002002535x F =⨯+⨯+⨯+⨯+⨯+⨯=·。
2020衡水名师原创文科数学专题卷专题十五统计与统计案例考点47:随机抽样与用样本估计总体(1-6题,13-16题,17-20题)考点48:变量的相关性与统计案例(7-12题,21,22题)考试时间:120分钟满分:150分说明:请将选择题正确答案填写在答题卡上,主观题写在答题纸上第I卷(选择题)一、选择题1.某厂共有64名员工,准备选择4人参加技术评估,现将这64名员工编号,准备运用系统抽样的方法抽取,已知8 号、24号、56号在样本中,那么样本中还有一个员工的编号是( )A.35B.40C.45D.502.某单位有老年人28 人,中年人56人,青年人84人,为了调查他们的身体状况的某项指标需从他们中间抽取一个容量为36样本,则老年人、中年人、青年人分别各抽取的人数是( )A.6,12,18B.7,11,19C.6,13,17D.7,12,173.一组数据共有7个数,记得其中有10,2,5,2,4,2,还有一个数没记清,但知道这组数的平均数、中位数、众数依次成等差数列,这个数的所有可能值的和为( )A.9B.3C.17D.-114.为保障春节期间的食品安全,某市质量监督局对超市进行食品检查,如图所示是某品牌食品中微量元素含量数据的茎叶图,已知该组数据的平均数为11.75,则41a b的最小值为( )A.9B.9 2C.3D.7 35.如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件)。
若这两组数据的中位数相等,且平均值也相等,则x和y的值分别为( )A.3,5B.5,5C.3,7D.5,76.下图是民航部门统计的2017年春运期间十二个城市售出的往返机票的平均价格以及相比去年同期变化幅度的数据统计图表,根据图表,下面叙述不正确的是(左起依次是:广州, 深圳, 北京, 杭州, 上海, 天津, 重庆, 西安, 南京, 厦门, 成都, 武汉)( )A.深圳的变化幅度最小,北京的平均价格最高B.深圳和厦门的春运期间往返机票价格同去年相比有所下降C.平均价格从高到低居于前三位的城市为北京、深圳、广州D.平均价格变化量从高到低居于前三位的城市为天津、西安、厦门7.下列说法错误的是( ),x yA.回归直线过样本点的中心()B.两个随机变量的线性相关性越强,则相关系数的绝对值就越接近于1K的观测值k越大,则判断“X与Y有关系”的把握程度C.对分类变量X与Y,随机变量2越小D.在回归直线方程0.2.8ˆ0yx =+中,当解释变量x 每增加1个单位时,预报变量ˆy 平均增加0.2个单位8.登山族为了了解某山高y (km )与气温x (℃)之间的关系,随机统计了4次山高与相应的气温,并制作了对照表:由表中数据,得到线性回归方程ˆˆ2()ˆyx a a R =-+∈,由此估计山高为72km 处气温的度数为( )A.-10℃B.-8℃C.-4℃D.-6℃9.某同学为了解秋冬季节用电量(y 度)与气温(x℃)的关系曾由下表数据计算出回归直线方程2ˆ60yx =-+,现表中有一个数据被污损.则被污损的数据为( ) 18A.40B.39C.38D.37 的22⨯列联表为:总计总计对同一样本,以下数据能说明与有关系的可能性最大的一组为( ) A. 45a =,15c = B. 40a =,20c = C. 35a =,25c = D. 30a =,30c =11.某公司为确定明年投入某产品的广告支出,对近5年的广告支出x 与销售额y (单位:百万元)进行了初步统计,得到下列表格中的数据:经测算,年广告支出x 与年销售额y 满足线性回归方程 6.5175ˆ.yx =+,则m 的值为( )A.45B.50C.55D.6012.2015年年岁史诗大剧《芈月传》风靡大江南北,影响力不亚于以前的《甄嬛传》.某记者调查了大量《芈月传》的观众,发现年龄段与爱看的比例存在较好的线性相关关系,年龄在[][][][][]10,14,15,19,20,24,25,29,30,34的爱看比例分别为10%,18%,20%,30%,%t .现用这5个年龄段的中间值x 代表年龄段,如12代表[]10,14,17代表[]15,19,根据前四个数据求得x 关于爱看比例y 的线性回归方程为()ˆ 4.68%ykx =-,由此可推测t 的值为( )A.33B.35C.37D.39 二、填空题13.某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为__________14.已知一组数据12345,?,?,?,x x x x x 的平均数是2,方差是13,那么另一组数据是1234532,32,32,32,32x x x x x -----的平均数和方差分别是__________.15.总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第9列和第10列数字开始从左到右依次选取两个数字,则选出来的第5个个体的编号为__________.7816 6572 0802 6314 0702 4369 9728 01983204 9234 4935 8200 3623 4869 6938 748116.阅读下列材料,回答后面问题:在2014年12月30日13CCTV 播出的“新闻直播间”节目中,主持人说:“……加入此次亚航失联航班8501QZ 被证实失事的话,2014年航空事故死亡人数将达到1320人.尽管如此,航空安全专家还是提醒:飞机仍是相对安全的交通工具.①世界卫生组织去年公布的数据显示,每年大约有124万人死于车祸,而即使在航空事故死亡人数最多的一年,也就是1972年,其死亡数字也仅为3346人;②截至2014年9月,每百万架次中有2.1次(指飞机失事),乘坐汽车的百万人中其死亡人数在100人左右.” 对上述航空专家给出的①、②两段表述(划线部分),你认为不能够支持“飞机仍是相对安全的交通工具”的所有表述序号为__________,你的理由是__________. 三、解答题17.从某学校的800名男生中随机抽取50名测量身高,被测学生身高全部介于155cm 和195cm 之间,将测量结果按如下方式分成八组:第一组[)155,160,第二组[)160,165,,⋯第八组[]190,195,图是按上述分组方法得到的频率分布直方图的一部分,已知第一组与第八组人数相同,第六组的人数为4人1.求第七组的频率2.估计该校的800名男生的身高的中位数3.若从身高属于第六组和第八组的所有男生中任取两名男生,记他们的身高分别为,x y ,事件{}5E x y =-≤,求()P E18.某地小吃“全羊汤”2008年被中国中医学会营养膳食协会评为“中华名吃”,2010年12月被纳入市级非物质文化遗产名录,打造地方名片.当初向各地作广告推广,对销售收益产生额积极的影响.某年度在若干地区各投入4万元广告费用后,将各地该年度的销售收益绘制成频率分布直方图(如图所示).由于工作人员操作失误,横轴的数据丢失,但可以确定横轴是从0开始计数的.1.根据频率分布直方图,计算图中各小长方形的宽度;2.根据频率分布直方图,估计投入4万元广告费用之后,销售收益的平均值;(以各组区间中点值代表改组的取值)请将2的结果填入空白栏,表中的数据x 与y 之间存在线性相关关系.计算关于y 的x 回归方程,并预测年度广告约投入多少万元时,年销售收益达到千万元?(结果精确达到0.1)19.某校在髙二数学竞赛初赛后,对90分及以上的成绩进行统计,其频率分布直方图如图所示,若[130,140]分数段的参赛学生人数为2.1.求该校成绩在[90,140]分数段的参赛学生人数;2.估计90分及以上的学生成绩的众数、中位数和平均数(结果保留整数).20.某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位: t )和年利润z (单位:千元)的影响.对近8年的年宣传费i x 和年销售量()1,2,,8i y i =数据作了初步处理,得到下面的散点图及一些统计量的值.)y表中i w =,8118i i w w ==∑.1.根据散点图判断, y a bx =+与y c =+哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)2.根据1的判断结果及表中数据,建立y 关于x 的回归方程.3.已知这种产品的年利润z 与x ,y 的关系为0.2z y x =-.根据2的结果回答下列问题: ①年宣传费49x =时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据()11,u v ,()22,u v ,…, (),n n u v 其回归直线v u αβ=+的斜率和截距的最小二乘估计分别为()()()121ˆnii i ni i uu v v u u β==--=-∑∑,ˆˆv u αβ=-. 21.淡水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位: kg ),其频率分布直方图如下:1.设两种养殖方法的箱产量相互独立,记A 表示事件:旧养殖法的箱产量低于50kg ,新养殖法的箱产量不低于50kg ,估计A 的概率;: kg(精确到0.01)附: ()()()()22()n ad bc K a b c d a c b d -=++++一、选择题 1.答案:B 解析: 2.答案:A 解析: 3.答案:A解析:设这个数为x ,则平均数为257x+,众数为2, 若2x ≤,则中位数为2,此时11x =-;若24x <<,则中位数为x ,此时25227xx +=+,3x =;若4x ≥,则中位数为4,252427x+⨯=+,17x =,所有可能值为11,3,17-,故其和为113179-++=, 故选A. 4.答案:C解析:根据茎叶图中的数据,该组数据的平均数为()111132011.754x a b =++++=, ∴3a b +=; ∴()411413a b a b a b ⎛⎫+=++ ⎪⎝⎭()141554333b a a b ⎛⎫=++≥+= ⎪⎝⎭, 当且仅当2a b =,即2a =,1b =时取“=”; ∴41a b+的最小值为3,故选C. 5.答案:A解析:由题意,甲组数据为56,62,65,70x +,74,乙组数据为59,61,67,60y +,78.要使两组数据中位数相等,有6560y =+,所以5y =,又平均数相同,则566265(70)74596167657855x +++++++++=,解得3x =.故选A. 6.答案:D解析:由图可知D 错误.故选D. 7.答案:C解析:根据相关定义分析知,,A B D 正确;C 中对分类变量X 与Y 的随机变量2K 的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大, 故C 不正确,故选C .解析:由题意可得10x =,10y =, ∴24021060a y x =+=+⨯=,∴2ˆ60yx =-+,当ˆ72y =时, 有26072x -+=,解得6x =-,故选D . 9.答案:C 解析:由于回归直线方程2ˆ60yx =-+过样本点的中心(),,x y 则,解得*38=.故选C.10.答案:A 解析:由题意可得,当10a a +与30cc +相差越大, X 和Y 有关系的可能性最大,分析四组选项,A 中的a ,c 的值最符合题意,故选A. 11.答案:D 解析: 12.答案:B解析:前4个数据对应的19.5x = , 0.195y = (把百分数转化为小数),而()4.68%ˆ0.0468ykx bx =-=-,∴0.19519.6ˆ50.048b =⨯-,∴0.24ˆ01b =,∴()1.24.6%ˆ48yx =-,当3034322x +==, 1.2432 4.6835t =⨯-=. 二、填空题13.答案:25解析:由题意得抽样比例为45190020=,故应抽取的男生人数为15002520⨯=.14.答案:4,117解析:15.答案:01解析:选取方法是从随机数表第1行的第9列和第10列数字开始从左到右依次选取两个数字中小于等于20的编号依次为08,02,14,07,01则第5个个体的编号为01 16.答案:①②或①;选①,数据①虽是同类数据,但反映不出乘车出行和乘飞机出行的总人数的关系;选②,数据②两个数据不是同一类数据,这与每架次飞机的乘机人数有关;不选②,数据②两个数据虽表面不是同一类数据,但是可以做如下大致估算,考虑平均每架次飞机的乘机人数为x ,这样每百万人乘机死亡人数2.1人,要远远少于乘车每百万人中死亡人数. 解析:选①,数据①虽是同类数据,但反映不出乘车出行和乘飞机出行的总人数的关系;选②,数据②两个数据不是同一类数据,这与每架次飞机的乘机人数有关;不选②,数据②两个数据虽表面不是同一类数据,但是可以做如下大致估算,考虑平均每架次飞机的乘机人数为x ,这样每百万人乘机死亡人数2.1人,要远远少于乘车每百万人中死亡人数三、解答题17.答案:1.第六组的频率为40.0850=,所以第七组的频率为10.085(0.00820.0160.0420.06)0.06--⨯⨯++⨯+=;2.身高在第一组[)155,160的频率为0.00850.04⨯=,身高在第二组[)160,165的频率为0.01650.08⨯=,身高在第三组[165,170)的频率为0.0450.2⨯=,身高在第四组[170,175)的频率为0.0450.2⨯=,由于0.040.080.20.320.5++=<,0.040.080.20.20.520.5+++=>估计这所学校的800名男生的身高的中位数为m ,则170175m <<,由()0.040.080.21700.040.5m +++-⨯=得174.5m =,所以可估计这所学校的800名男生的身高的中位数为174.53.第六组[180,185)的人数为4人,设为,,,a b c d ,第八组[]190,195的人数为2人, 设为,A B ,则有,,,,,,,,ab ac ad bc cd aA bA cA dA ,,,,,aB bB cB dB AB 共15种情况, 因事件{}5E x y =-≤发生当且仅当随机抽取的两名男生在同一组,所以事件E 包含的基本事件为,,,,,,ab ac ad bc bd cd AB 共7种情况,故()715P E = 解析:设各小长方形的宽度为m ,由频率分布直方图各小长方形面积总和为1,可知()0.080.10.140.120.040.020.51m m +++++⋅==,故2m =2. 由1知各小组依次是[)[)[)[)[)[]0,2,2,4,4,6,6,8,8,10,10,12,其中点分别为1,3,5,7,9,11,对应的频率分别为0.16,0.20,0.28,0.24,0.08,0.04, 故可估计平均值为10.1630.250.2870.2490.08110.045⨯+⨯+⨯+⨯+⨯+⨯=3. 空白栏中填5.由题意可知1234535x ++++==, 23257 3.85y ++++== , 51122332455769ii i x y ==⨯+⨯+⨯+⨯+⨯=∑, 522222211234555i i x ==++++=∑,根据公式,可求得, 26953 3.8ˆˆ1.2, 3.8 1.230.25553b a -⨯⨯===-⨯=-⨯ 即回归直线的方程为.由题意10 1.20.2x =+,解得8.2x ≈,即年度广告投入约8.2万元时,年度销售收益可达到千万元.19.答案:1.∵[]130,140分数段的人数为2,又[]130,140分数段的频率为0.005100.05⨯=.∴[]90,140分数段的参赛学生人数为20.0540÷=. 2. [)[)[)[]100,1110]110,120,120,130,90,100130,(,140分数段的参赛学生人数依次为40100.0104,40100.02510,40100.04518,40100.015 6.2⨯⨯=⨯⨯=⨯⨯=⨯⨯= ∴909分及以上的学生成绩的众数的估计值为115分, 中位数的估计值为0.50.10.25?3401101130.0453--+=≈ (分), 平均数的估计值为954?10510115181256135211340⨯+⨯+⨯+⨯+⨯= (分). 解析:20.答案:1.由散点图可以判断,y c =+y 关于年宣传费x 的回归方程类型.2.令w =先建立y 关于w 的线性回归方程. 由于()()()81821108.868,56368 6.8100.61ˆˆˆ.6i ii i i w w y y d c y dw w w ==--====-=-⨯=-∑∑, 所以y 关于w 的线性回归方程为100.68ˆ6yw =+, 因此y 关于x的回归方程为100.ˆ6d=+3.①由2知,当49x =时,年销售量y的预报值100.65ˆ76.6y=+=, 年利润z 的预报值576.60.249ˆ66.32z=⨯-=. ②根据2的结果知,年利润z的预报值(0.2100.620.1ˆ2zx x =+-=-+.13.6 6.82==,即x 46.24=时, ˆz取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.解析:21.答案:1.记B 表示事件“旧养殖法的箱产量低于50kg ”, C 表示事件“新养殖法的箱产量不低于50kg ”.由题意知()()()()P A P BC P B P C ==.旧养殖法的箱产量低于50kg 的频率为()0.0120.0140.0240.0340.04050.62++++⨯=,故()P B 的估计值为0.62.新养殖法的箱产量不低于50kg 的频率为()0.0680.0460.0100.00850.66+++⨯=. 故()P C 的估计值为0.66.因此,事件A 的概率估计值为0.620.660.4092⨯=.2.根据箱产量的频率分布直方图得列联表()()()()()22200626634386238346662343866K ⨯⨯-⨯=++++ ()222409212922280010096104998400⨯-⨯==⨯⨯ 15.70510.828=>∴有99%以上的把握认为产箱量与养殖方法有关.3.因为新养殖法的箱产量频率分布直方图中,箱产量低于50kg 的直方图面积为()0.0040.0200.04450.340.5++⨯=<,箱产量低于55kg 的直方图面积为()0.0040.0200.0440.06850.680.5+++⨯=>, 故新养殖法箱产量的中位数的估计值为()0.50.345052.350.068kg -+≈. 解析:。
第十章⎪⎪⎪统计与统计案例第一节 统 计突破点(一) 随机抽样1.简单随机抽样(1)定义:设一个总体含有N 个个体,从中逐个不放回地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机法. 2.系统抽样在抽样时,将总体分成均衡的几个部分,然后按照事先确定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样方法叫做系统抽样(也称为机械抽样).3.分层抽样在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.本节主要包括2个知识点: 1.随机抽样; 2.用样本估计总体.4.三种抽样方法的比较1.抽签法的步骤第一步,将总体中的N个个体编号;第二步,将这N个号码写在形状、大小相同的号签上;第三步,将号签放在同一不透明的箱中,并搅拌均匀;第四步,从箱中每次抽取1个号签,连续抽取k次;第五步,将总体中与抽取的号签的编号一致的k个个体取出.2.随机法的步骤第一步,将个体编号;第二步,在随机表中任选一个开始;第三步,从选定的开始,按照一定抽样规则在随机表中选取字,取足满足要求的字就得到样本的号码.[例1] (1)以下抽样方法是简单随机抽样的是( )A.在某年明信片销售活动中,规定每100万张为一个开奖组,通过随机抽取的方式确定号码的后四位为2709的为三等奖B.某车间包装一种产品,在自动包装的传送带上,每隔30分钟抽一包产品,称其重量是否合格C.某学校分别从行政人员、教师、后勤人员中抽取2人、14人、4人了解对学校机构改革的意见D.用抽签方法从10件产品中选取3件进行质量检验(2)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机表选取5个个体,选取方法是从随机表第1行的第5列和第6列字开始由左到右依次选取两个字,则选出的第5个个体的编号为( )C.02 D.01[解析] (1)选项A、B不是简单随机抽样,因为抽取的个体间的间隔是固定的;选项C不是简单随机抽样,因为总体的个体有明显的层次;选项D是简单随机抽样.(2)由题意知前5个个体的编号为08,02,14,07,01.[答案] (1)D (2)D系统抽样的步骤(1)先将总体的N个个体编号;(2)确定分段间隔k(k∈N*),对编号进行分段.当Nn(n是样本容量)是整时,取k=N n ;(3)在第1段用简单随机抽样确定第1个个体编号l(l≤k);(4)按照一定的规则抽取样本.通常是将l加上间隔k得到第2个个体编号(l+k),再加k得到第3个个体编号(l+2k),依次进行下去,直到获取整个样本.[例2] (1)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人为( )A.11 B.12C.13 D.14(2)中央电视台为了解观众对《中国好歌曲》的意见,准备从502名现场观众中抽取10%进行座谈,现用系统抽样的方法完成这一抽样,则在进行分组时,需剔除________个个体,抽样间隔为________.[解析] (1)由系统抽样定义可知,所分组距为84042=20,每组抽取一人,因为包含整个组,所以抽取个体在区间[481,720]的目为(720-480)÷20=12.(2)把502名观众平均分成50组,由于502除以50的商是10,余是2,所以每组有10名观众,还剩2名观众,采用系统抽样的方法抽样时,应先用简单随机抽样的方法从502名观众中抽取2名观众,这2名观众不参加座谈;再将剩下的500名观众编号为1,2,3,…,500,并均匀分成50段,每段含50050=10个个体.所以需剔除2个个体,抽样间隔为10.[答案] (1)B (2)2 10 [易错提醒]用系统抽样法抽取样本,当Nn 不为整时,取k =⎣⎢⎡⎦⎥⎤N n ,即先从总体中用简单随机抽样的方法剔除(N -nk )个个体,且剔除多余的个体不影响抽样的公平性.分层抽样进行分层抽样的相关计算时,常利用以下关系式巧解: (1)样本容量n 总体的个N =该层抽取的个体该层的个体;(2)总体中某两层的个体之比=样本中这两层抽取的个体之比. [例3] (1)某校老年、中年和青年教师的人见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人为( )类别 人 老年教师 900中年教师 1 800 青年教1 600A.90 B.100C.180 D.300(2)(2016·东北三校联考)某工厂生产甲、乙、丙三种型号的产品,产品量之比为3∶5∶7,现用分层抽样的方法抽出容量为n的样本,其中甲种产品有18件,则样本容量n=( )A.54 B.90C.45 D.126(3)某学校三个兴趣小组的学生人分布如下表(每名同学只参加一个小组)(单位:人).按小组分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.[解析] (1)设该样本中的老年教师人为x,由题意及分层抽样的特点得x900=3201 600,故x=180.(2)依题意得33+5+7×n=18,解得n=90,即样本容量为90.(3)由题意知1245+15=3045+15+30+10+a+20,解得a=30.[答案] (1)C (2)B (3)30[方法技巧]分层抽样的解题策略(1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同.(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.(4)抽样比=样本容量总体容量=各层样本量各层个体量.能力练通抓应用体验的“得”与“失”1.[考点一]某工厂的质检人员对生产的100件产品,采用随机法抽取10件检查,对100件产品采用下面的编号方法①1,2,3, (100)②001,002, (100)③00,01,02, (99)④01,02,03, (100)其中正确的序号是( )A.②③④ B.③④C.②③ D.①②解析:选C 根据随机法编号可知,①④编号位不统一.2.[考点三]为了调查老师对微课堂的了解程度,某市拟采用分层抽样的方法从A,B,C三所中学抽取60名教师进行调查,已知A,B,C三所学校中分别有180,270,90名教师,则从C学校中应抽取的人为( )A.10 B.12C.18 D.24解析:选 A 根据分层抽样的特征,从C学校中应抽取的人为90180+270+90×60=10.3.[考点二]某班共有52人,现根据学生的学号,用系统抽样的方法,抽取一个容量为4的样本,已知3号、29号、42号学生在样本中,那么样本中还有一个学生的学号是( )A.10 B.11C.12 D.16解析:选D 从被抽中的3名学生的学号中可以看出学号间距为13,所以样本中还有一个学生的学号是16,故选D.4.[考点三]某市有A、B、C三所学校,共有高三文科学生1 500人,且A、B、C三所学校的高三文科学生人成等差列,在三月进行全市联考后,准备用分层抽样的方法从所有高三文科学生中抽取容量为120的样本,进行成绩分析,则应从B校学生中抽取________人.解析:设A、B、C三所学校高三文科学生人分别为x,y,z,由题知x,y,z成等差列,所以x+z=2y,又x+y+z=1 500,所以y=500,用分层抽样方法抽取B校学生人为1201 500×500=40.答案:405.[考点二]为了了解本班学生对络游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对60名学生进行编号为:01,02,03,…,60,已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为________.解析:由最小的两个编号为03,09可知,抽取时的分段间隔是6.即抽取10名同学,其编号构成首项为3,公差为6的等差列,故最大编号为3+9×6=57.答案:57突破点(二) 用样本估计总体1.频率分布直方图和茎叶图(1)作频率分布直方图的步骤①求极差(即一组据中最大值与最小值的差);②决定组距与组;③将据分组;④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分的组增加,组距减小,相应的频率折线图会越越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(3)茎叶图的优点茎叶图的优点是可以保留原始据,而且可以随时记录,这对据的记录和表示都能带方便.2.样本的字特征(1)众、中位、平均①标准差:样本据到平均的一种平均距离,一般用s表示,s=1nx1-x2+x2-x2+…+x n-x2].②方差:标准差的平方s2=1n[(x1-x)2+(x2-x)2+…+(x n-x)2],其中x i(i=1,2,3,…,n)是样本据,n是样本容量,x是样本平均.③方差与标准差相比,都是衡量样本据离散程度的统计量,但方差因为对标准差进行了平方运算,夸大了样本的偏差程度.(3)平均、方差公式的推广若据x1,x2,…,x n的平均为x,方差为s2,则据mx1+a,mx2+a,…,mx n+a的平均为m x+a,方差为m2s2.[例1] (1)(2016·山东高考)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人是( )A.56 B.60 C.120 D.140(2)某地政府调查了工薪阶层1 000人的月工资收入,并根据调查结果画出如图所示的频率分布直方图,为了了解工薪阶层对月工资收入的满意程度,要用分层抽样的方法从调查的1 000人中抽出100人做电话询访,则(30,35](百元)月工资收入段应抽出________人.[解析] (1)由频率分布直方图知200名学生每周的自习时间不少于22.5小时的频率为1-(0.02+0.10)×2.5=0.7,则这200名学生中每周的自习时间不少于22.5小时的人为200×0.7=140,故选D.(2)月工资收入落在(30,35](百元)内的频率为1-(0.02+0.04+0.05+0.05+0.01)×5=1-0.85=0.15,所以(30,35](百元)月工资收入段应抽出100×0.15=15(人).[答案] (1)D (2)15[方法技巧]1.绘制频率分布直方图时需注意的两点(1)制作好频率分布表后,可以利用各组的频率之和是否为1检验该表是否正确;(2)频率分布直方图的纵坐标是频率组距,而不是频率. 2.与频率分布直方图计算有关的两个关系式(1)频率组距×组距=频率; (2)频样本容量=频率,此关系式的变形为频频率=样本容量,样本容量×频率=频.茎叶图1(1)“叶”的位置只有一个字,而“茎”的位置的字位一般不需要统一;(2)重复出现的据要重复记录,不能遗漏,特别是“叶”的位置上的据.2.茎叶图通常用记录两位的据,可以用分析单组据,也可以用比较两组据.通过茎叶图可以确定据的中位,据大致集中在哪个茎,据是否关于该茎对称,据分布是否均匀等.[例2] 某良种培育基地正在培育一小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产据(单位:千克)如下.品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,42 1,423,423,427,430,430,434,443,445,445,451,454品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,40 0,401,401,403,406,407,410,412,415,416,422,430(1)作出据的茎叶图;(2)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.[解] (1)画出茎叶图如图所示:(2)通过观察茎叶图可以看出:①品种A的亩产平均(或均值)比品种B高;②品种A的亩产标准差(或方差)比品种B大,故品种A 的亩产稳定性较差.[方法技巧]茎叶图问题的求解策略(1)由于茎叶图完全反映了所有的原始据,解决由茎叶图给出的统计图表问题时,要充分对这个图表提供的样本据进行相关的计算或者是对某些问题作出判断.(2)茎叶图不能直接反映总体的分布情况,这就需要通过茎叶图据求出样本据的字特征,进一步估计总体情况.样本的字特征1标准差的近似.实际应用中,需先计算据的平均,分析平均水平,再计算方差(标准差),分析稳定情况.2.若给出图形,一方面可以由图形得到相应的样本据,计算平均、方差(标准差);另一方面,可以从图形直观分析样本据的分布情况,大致判断平均的范围,并利用据的波动性比较方差(标准差)的大小.考法(一) 与频率分布直方图交汇命题[例3] (2016·北京高考)某市居民用水拟实行阶梯水价,每人月用水量中不超过w立方米的部分按4元/立方米收费,超出w立方米的部分按10元/立方米收费.从该市随机调查了10 000位居民,获得了他们某月的用水量据,整得到如下频率分布直方图.(1)如果w为整,那么根据此次调查,为使80%以上居民在该月的用水价格为4元/立方米,w至少定为多少?(2)假设同组中的每个据用该组区间的右端点值代替.当w=3时,估计该市居民该月的人均水费.[解] (1)由用水量的频率分布直方图,知该市居民该月用水量在区间[0.5,1],(1,1.5],(1.5,2],(2,2.5],(2.5,3]内的频率依次为0.1,0.15,0.2,0.25,0.15.所以该月用水量不超过3立方米的居民占85%,用水量不超过2立方米的居民占45%.依题意,w至少定为3.(2)由用水量的频率分布直方图及题意,得居民该月用水费用的据分组与频率分布表如下:组号12345678分组[2,4](4,6](6,8](8,10](10,12](12,17](17,22](22,27]频率0.10.150.20.250.150.050.050.054×0.1+6×0.15+8×0.2+10×0.25+12×0.15+17×0.05+22×0.05+27×0.05=10.5(元).[方法技巧]频率分布直方图与众、中位、平均的关系(1)最高的小长方形底边中点的横坐标为众;(2)中位左边和右边的小长方形的面积和是相等的;(3)平均是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.考法(二) 与茎叶图交汇命题[例4] (1)如图所示的茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分),已知甲组据的中位为17,乙组据的平均为17.4,则x,y的值分别为( )甲组乙组9099 y61 6 6 x629A.7,8 B.7,7(2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分的平均分为91.现场作的9个分的茎叶图后有1个据模糊,无法辨认,在图中以x表示:87794010x 9 1则7个剩余分的方差为________.[解析] (1)甲组据的中位为17, 故y=7,乙组据的平均为3×10+20++6+6+x+5=17.4,解得x=7.(2)由图可知去掉的两个是87,99,所以87+90×2+91×2+94+90+x=91×7,解得x=4.s2=17[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=367.[答案] (1)D (2)36 7[易错提醒]在使用茎叶图时,一定要观察所有的样本据,弄清楚这个图中字的特点,不要漏掉了据,也不要混淆茎叶图中茎与叶的含义.考法(三) 与优决策问题交汇[例5] 甲、乙、丙、丁四人参加某运动会射击项目选拔赛,四人的平均成绩和方差如下表所示:甲乙丙丁平均环x8.38.88.88.7方差s2 3.5 3.6 2.2 5.4最佳人选是( )A.甲 B.乙 C.丙 D.丁[解析] 由题目表格中据可知,丙平均环最高,且方差最小,说明成绩好,且技术稳定,选C.[答案] C[方法技巧]利用样本的字特征解决优决策问题的依据(1)平均反映了据取值的平均水平;标准差、方差描述了一组据围绕平均波动的大小.标准差、方差越大,据的离散程度越大,越不稳定;标准差、方差越小,据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的字特征描述总体的字特征.能力练通抓应用体验的“得”与“失”1.[考点一]在样本的频率分布直方图中,共有7个小长方形,若中间一个小长方形的面积等于其他6个小长方形的面积的和的14,且样本容量为80,则中间一组的频为( )A .0.25B .0.5C .20D .16解析:选D 设中间一组的频为x ,依题意有x 80=14⎝ ⎛⎭⎪⎫1-x 80,解得x =16. 2.[考点二]在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.131415⎪⎪⎪⎪0 0 3 4 5 6 6 8 8 8 91 1 1 2 2 2 3 3 4 4 5 5 5 6 6 7 80 1 2 2 3 3 3若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人是( )A .3B .4C .5D .6解析:选B 35÷7=5,因此可将编号为1~35的35个据分成7组,每组有5个据,在区间[139,151]上共有20个据,分在20÷5=4个小组中,每组取1人,共取4人.3.[考点一]某班50位学生期中考试学成绩的频率分布直方图如图所示,其中成绩分组区间是:[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],则图中x 的值等于()A .0.12B .0.012C .0.18D .0.018 解析:选D 依题意,0.054×10+10×x +0.01×10+0.006×10×3=1,解得 x =0.018. 4.[考点三·考法二如图是某学校举行的运动会上七位评委为某体操项目打出的分的茎叶统计图,去掉一个最高分和一个最低分后,所剩据的平均和方差分别为( )79 84 4 6 4 7 9 3A .84,4.84B .84,1.6C .85,1.6D .85,4 解析:选C 依题意,所剩据的平均是80+15×(4×3+6+7)=85,所剩据的方差是15×[3×(84-85)2+(86-85)2+(87-85)2]=1.6. 5.[考点三·考法三甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):________.解析:x -甲=x -乙=9,s 2甲=15×[(9-10)2+(9-8)2+(9-9)2+(9-9)2+(9-9)2]=25, s 2乙=15×[(9-10)2+(9-10)2+(9-7)2+(9-9)2+(9-9)2]=6>s2甲,故甲更稳定.5答案:甲6.[考点三·考法一(2016·四川高考)我国是世界上严重缺水的国家,某市政府为了鼓励居民节约用水,计划调整居民生活用水收费方案,拟确定一个合的月用水量标准x(吨),一位居民的月用水量不超过x的部分按平价收费,超出x的部分按议价收费.为了了解居民用水情况,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人,并说明由;(3)若该市政府希望使85%的居民每月的用水量不超过标准x(吨),估计x的值,并说明由.解:(1)由频率分布直方图可知,月均用水量在[0,0.5)中的频率为0.08×0.5=0.04.同,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]中的频率分别为0.08,0.20,0.26,0.06,0.04,0.02.由0.04+0.08+0.5×a+0.20+0.26+0.5×a+0.06+0.04+0.02=1,解得a=0.30.(2)由(1)知100位居民每人的月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计全市30万居民中月均用水量不低于3吨的人为300 000×0.12=36 000.(3)因为前6组的频率之和为0.04+0.08+0.15+0.20+0.26+0.15=0.88>0.85,而前5组的频率之和为0.04+0.08+0.15+0.20+0.26=0.73<0.85,所以2.5≤x<3.由0.30×(x-2.5)=0.85-0.73,解得x=2.9.所以,估计月用水量标准为2.9吨时,85%的居民每月的用水量不超过标准.7.[考点三·考法二某车间20名工人年龄据如下表:(1)求这20(2)以十位为茎,个位为叶,作出这20名工人年龄的茎叶图;(3)求这20名工人年龄的方差.解:(1)由题可知,这20名工人年龄的众是30,极差是40-19=21.(2)这20名工人年龄的茎叶图如图所示:(3)这20名工人年龄的平均为x =120(19+3×28+3×29+5×30+4×31+3×32+40)=30,∴这20名工人年龄的方差为s 2=120∑20 i =1 (x i -x )2=112+6×22+7×12+5×02+10220=25220=12.6.[全国卷5年真题集中演练——明规律]1.(2016·全国丙卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A 点表示十月的平均最高气温约为15 ℃,B 点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A .各月的平均最低气温都在0 ℃以上B .七月的平均温差比一月的平均温差大C .三月和十一月的平均最高气温基本相同D .平均最高气温高于20 ℃的月份有5个解析:选D 由图形可得各月的平均最低气温都在0 ℃以上,A正确;七月的平均温差约为10 ℃,而一月的平均温差约为5 ℃,故B 正确;三月和十一月的平均最高气温都在10 ℃左右,基本相同,C 正确;故D 错误.2.(2013·新课标全国卷Ⅰ)为了解某地区的中小学生的视力情况,拟从该地区的中小学生中抽取部分学生进行调查,事先已了解到该地区小学、初中、高中三个学段学生的视力情况有较大差异,而男女生视力情况差异不大,在下面的抽样方法中,最合的抽样方法是( )A.简单随机抽样 B.按性别分层抽样C.按学段分层抽样 D.系统抽样解析:选C 由于该地区的中小学生人比较多,不能采用简单随机抽样,排除选项A;由于小学、初中、高中三个学段的学生视力差异性比较大,可采取按照学段进行分层抽样,而男女生视力情况差异性不大,不能按照性别进行分层抽样,排除B和D.故选C.3.(2014·新课标全国卷Ⅰ)从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频分布表:(2)估计这种产品质量指标值的平均及方差(同一组中的据用该组区间的中点值作代表);(3)根据以上抽样调查据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?解:(1)如图所示:(2)质量指标值的样本平均为x=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(-20)2×0.06+(-10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.4.(2014·新课标全国卷Ⅱ)某市为了考核甲、乙两部门的工作情况,随机访问了50位市民.根据这50位市民对这两部门的评分(评分越高表明市民的评价越高),绘制茎叶图如下:(1)分别估计该市的市民对甲、乙两部门评分的中位;(2)分别估计该市的市民对甲、乙两部门的评分高于90的概率;(3)根据茎叶图分析该市的市民对甲、乙两部门的评价.解:(1)由所给茎叶图知,50位市民对甲部门的评分由小到大排序,排在第25,26位的是75,75,故样本中位为75,所以该市的市民对甲部门评分的中位的估计值是75.50位市民对乙部门的评分由小到大排序,排在第25,26位的是66,68,故样本中位为66+682=67,所以该市的市民对乙部门评分的中位的估计值是67.(2)由所给茎叶图知,50位市民对甲、乙部门的评分高于90的比率分别为550=0.1,850=0.16,故该市的市民对甲、乙部门的评分高于90的概率的估计值分别为0.1,0.16.(3)由所给茎叶图知,市民对甲部门的评分的中位高于对乙部门的评分的中位,而且由茎叶图可以大致看出对甲部门的评分的标准差要小于对乙部门的评分的标准差,说明该市市民对甲部门的评价较高、评价较为一致,对乙部门的评价较低、评价差异较大.5.(2013·新课标全国卷Ⅰ)为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A药的20位患者日平均增加的睡眠时间:0.6 1.2 2.7 1.5 2.8 1.8 2.2 2.3 3.2 3.52.5 2.6 1.2 2.7 1.5 2.9 3.0 3.1 2.3 2.4服用B药的20位患者日平均增加的睡眠时间:3.2 1.7 1.9 0.8 0.9 2.4 1.2 2.6 1.3 1.41.6 0.5 1.8 0.6 2.1 1.1 2.5 1.2 2.7 0.5(1)分别计算两组据的平均,从计算结果看,哪种药的疗效更好?(2)根据两组据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?A药解:(1)设A药观测据的平均为x,B药观测据的平均为y-.由观测结果可得x-=120×(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,y-=120×(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.由以上计算结果可得x->y-,因此可看出A药的疗效更好.(2)由观测结果可绘制如下茎叶图:9 8 7 7 6 5 4 3 3 2 2. 1 4 5 6 75 2 1 03. 2从以上茎叶图可以看出,A药疗效的试验结果有710的叶集中在茎2,3上,而B药疗效的试验结果有710的叶集中在茎0,1上,由此可看出A药的疗效更好.[课时达标检测] 重点保分课时——一练小题夯双基,二练题点过高考[练基础小题——强运算能力]1.某学校为了了解某年高考学的考试成绩,在高考后对该校 1 200名考生进行抽样调查,其中有400名文科考生,600名科考生,200名艺术和体育类考生,从中抽取120名考生作为样本,记这项调查为①;从10名家长中随机抽取3名参加座谈会,记这项调查为②,则完成①,②这两项调查宜采用的抽样方法依次是( ) A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法解析:选B 在①中,文科考生、科考生、艺术和体育类考生会存在差异,采用分层抽样法较好;在②中,抽取的样本个较少,宜采用简单随机抽样法.2.某校学教研组为了解学生学习学的情况,采用分层抽样的方法从高一600人、高二780人、高三n人中,抽取35人进行问卷调查.已知高二被抽取的人为13,则n=( ) A.660 B.720 C.780 D.800解析:选B 由已知条件,抽样比为13780=160,从而35600+780+n=160,解得n=720.3.某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人为( )A.93 B.123 C.137 D.167解析:选C 初中部的女教师人为110×70%=77,高中部的女教师人为150×(1-60%)=60,该校女教师的人为77+60=137,故选C.4.为比较甲、乙两地某月14时的气温情况,随机选取该月中的5天,将这5天中14时的气温据(单位:℃)制成如图所示的茎叶图.考虑以下结论:①甲地该月14时的平均气温低于乙地该月14时的平均气温;②甲地该月14时的平均气温高于乙地该月14时的平均气温;③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差;④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号为( )A.①③ B.①④ C.②③ D.②④解析:选B ∵x甲=26+28+29+31+315=29,。
[重点保分 两级优选练]A 级一、选择题1.四名同学根据各自的样本数据研究变量x ,y 之间的相关关系,并求得回归直线方程,分别得到以下四个结论:①y 与x 负相关且y ^=2.347x -6.423; ②y 与x 负相关且y ^=-3.476x +5.648; ③y 与x 正相关且y ^=5.437x +8.493; ④y 与x 正相关且y ^=-4.326x -4.578. 其中一定不正确的结论的序号是( ) A .①② B .②③ C .③④ D .①④ 答案 D解析 由回归直线方程y ^=b ^x +a ^,知当b ^>0时,y 与x 正相关;当b ^<0时,y 与x 负相关.∴①④一定错误.故选D.2.对四组数据进行统计,获得如图所示的散点图,关于其相关系数的比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3 答案 A解析 易知题中图(1)与图(3)是正相关,图(2)与图(4)是负相关,且图(1)与图(2)中的样本点集中分布在一条直线附近,则r 2<r 4<0<r 3<r 1.故选A.3.(2018·辽宁沈阳二中一模)某考察团对全国10大城市居民人均工资水平x (千元)与居民人均消费水平y (千元)进行统计调查,y 与x 具有相关关系,回归方程为y ^=0.66x +1.562,若某城市居民人均消费水平为7.675(千元),估计该城市人均消费额占人均工资收入的百分比约为( )A .83%B .72%C .67%D .66% 答案 A解析 由7.675=0.66x +1.562,得x ≈9.262, 所以7.6759.262×100%≈83%.故选A.4.下表提供了某厂节能降耗技术改造后在生产A 产品过程中记录的产量x (吨)与相应的生产能耗y (吨)的几组对应数据:根据上表提供的数据,求出y 关于x 的线性回归方程为y ^=0.7x +0.35,那么表中t 的精确值为 ( )A .3B .3.15C .3.5D .4.5 答案 A解析 ∵x -=3+4+5+64=4.5,代入y ^=0.7x +0.35,得y ^=3.5,∴t =3.5×4-(2.5+4+4.5)=3.故选A.5.(2018·长春检测)已知变量x 与y 正相关,且由观测数据算得样本平均数x =3,y =3.5,则由该观测数据算得的线性回归方程可能是( )A.y ^=0.4x +2.3B.y ^=2x -2.4 C.y ^=-2x +9.5 D.y ^=-0.3x +4.4 答案 A解析 由变量x 与y 正相关知C 、D 均错误,又回归直线经过样本点的中心(3,3.5),代入验证得A 正确,B 错误.故选A.6.设某大学的女生体重y (单位:kg)与身高x (单位:cm)具有线性相关关系,根据一组样本数据(x i ,y i )(i =1,2,…,n ),用最小二乘法建立的回归方程为y ^=0.85x -85.71,则下列结论中不正确的是( )A .y 与x 具有正的线性相关关系B .回归直线过样本点的中心(x -,y -)C .若该大学某女生身高增加1 cm ,则其体重约增加0.85 kgD .若该大学某女生身高为170 cm ,则可断定其体重必为58.79 kg 答案 D解析 D 选项中,若该大学某女生身高为170 cm ,根据回归方程只能近似认为其体重为58.79 kg ,但不是绝对的.故D 不正确.故选D.7.(2018·湖南邵阳调研)假设有两个分类变量X 和Y 的2×2列联表如下:组为( )A .a =45,c =15B .a =40,c =20C .a =35,c =25D .a =30,c =30 答案 A解析 根据2×2列联表与独立性检验可知, 当a a +10与c c +30相差越大时,X 与Y 有关系的可能性越大, 即a 、c 相差越大,a a +10与cc +30相差越大,故选A.8.某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:由表中数据,求得线性回归方程为y =-4x +a .若在这些样本点中任取一点,则它在回归直线左下方的概率为( )A.16B.13C.12D.23 答案 B解析 由题意可知x -=4+5+6+7+8+96=132, y -=90+84+83+80+75+686=80. 又点⎝ ⎛⎭⎪⎫132,80在直线y ^=-4x +a 上,故a =106.所以回归方程为y =-4x +106.由线性规划知识可知,点(5,84),(9,68)在直线y =-4x +106的左下方.故所求事件的概率P =26=13.故选B.9.(2018·安徽皖南一模)下列说法错误的是( ) A .回归直线过样本点的中心(x -,y -)B .两个随机变量的线性相关性越强,则相关系数的绝对值就越接近1C .在回归直线方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报变量y ^平均增加0.2个单位D .对分类变量X 与Y ,随机变量K 2的观测值k 越大,则判断“X 与Y 有关系”的把握程度越小答案 D解析 回归直线过样本点的中心(x -,y -),A 正确;两个随机变量相关性越强,则相关系数的绝对值越接近1,B 正确;在线性回归方程y ^=0.2x +0.8中,当解释变量x 每增加1个单位时,预报量平均增加0.2个单位,C 正确;对分类变量X 与Y 的随机变量K 2的观测值k 来说,k 越大,“X 与Y 有关系”的把握程度越大,因此D 不正确.故选D.10.已知x 与y 之间的几组数据如下表:假设根据上表数据所得线性回归直线方程为y =b x +a .若某同学根据上表中的前两组数据(1,0)和(2,2)求得的直线方程为y =b ′x +a ′,则以下结论正确的是( )A.b ^>b ′,a ^>a ′B.b ^>b ′,a ^<a ′ C.b ^<b ′,a ^>a ′ D.b ^<b ′,a ^<a ′ 答案 C解析 x =216=72,y =136,代入公式求得b ^=58-6×72×13691-6×⎝ ⎛⎭⎪⎫722=57,a ^=y -b ^x =136-57×72=-13,而b ′=2,a ′=-2,∴b ^<b ′,a ^>a ′,故选C.二、填空题11.x 和y 的散点图如图所示,则下列说法中所有正确命题的序号为________.①x ,y 是负相关关系;②在该相关关系中,若用y =c 1ec 2x 拟合时的相关指数为R 21,用y ^=b ^x +a ^拟合时的相关指数为R 22,则R 21>R 22;③x ,y 之间不能建立线性回归方程. 答案 ①②解析 在散点图中,点散布在从左上角到右下角的区域,因此x ,y 是负相关关系,故①正确;由散点图知用y =c 1ec 2x 拟合比用y ^=b ^x +a ^拟合效果要好,则R 21>R 22,故②正确;x ,y 之间可以建立线性回归方程,但拟合效果不好,故③错误.12.(2017·赣州模拟)在一组样本数据(x 1,y 1),(x 2,y 2),…,(x 6,y 6)的散点图中,若所有样本点(x i ,y i )(i =1,2,…,6)都在曲线y =bx 2-13附近波动.经计算∑6i =1x i =11,∑6i =1y i =13,∑6i =1x 2i =21,则实数b 的值为________.答案 57解析 令t =x 2,则曲线的回归方程变为线性的回归方程,即y=bt -13,此时t =∑6i =1x 2i6=72,y =∑6i =1y i6=136,代入y =bt -13,得136=b ×72-13,解得b =57.13.某医疗研究所为了检验某种血清预防感冒的作用,把500名使用血清的人与另外500名未用血清的人一年中的感冒记录作比较,提出假设H 0:“这种血清不能起到预防感冒的作用”,利用2×2列联表计算得K 2≈3.918,经查对临界值表知P (K 2≥3.841)≈0.05.对此,四名同学作出了以下的判断:p :有95%的把握认为“这种血清能起到预防感冒的作用”; q :若某人未使用该血清,则他在一年中有95%的可能性得感冒; r :这种血清预防感冒的有效率为95%; s :这种血清预防感冒的有效率为5%.则下列结论中,正确结论的序号是________.(把你认为正确的命题的序号都填上)①p ∧(綈q );②(綈p )∧q ;③(綈p ∧綈q )∧(r ∨s ); ④(p ∨綈r )∧(綈q ∨s ). 答案 ①④解析 由题意,得K 2≈3.918,P (K 2≥3.841)≈0.05,所以,只有第一位同学的判断正确,即有95%的把握认为“这种血清能起到预防感冒的作用”.所以p 真,q 假,r 假,s 假.由真值表知①④为真命题.14.有甲、乙两个班级进行数学考试,按照大于等于85分为优秀,85分以下为非优秀统计成绩,得到如下的列联表:已知在全部105人中随机抽取1人,成绩优秀的概率为27,则下列说法正确的是________.①列联表中c 的值为30,b 的值为35; ②列联表中c 的值为15,b 的值为50;③根据列联表中的数据,若在犯错误的概率不超过0.025的前提下,能认为“成绩与班级有关系”;④根据列联表中的数据,若在犯错误的概率不超过0.025的前提下,不能认为“成绩与班级有关系”.答案 ③解析 由题意知,成绩优秀的学生数是30, 成绩非优秀的学生数是75,所以c =20,b =45, ①②错误;根据列联表中的数据,得到K2=105×(10×30-20×45)255×50×30×75≈6.1>5.024,因此在犯错误的概率不超过0.025的前提下认为“成绩与班级有关系”.故③正确,④错误.B级三、解答题15.(2018·湖南百所重点中学诊断)已知某企业近3年的前7个月的月利润(单位:百万元)如下面的折线图所示:(1)试问这3年的前7个月中哪个月的月平均利润较高?(2)通过计算判断这3年的前7个月的总利润的发展趋势;(3)试以第3年的前4个月的数据(如下表),用线性回归的拟合模式估计第3年8月份的利润.相关公式:b=a ^=y --b ^x -.解 (1)由折线图可知5月和6月的平均利润最高.(2)第1年前7个月的总利润为1+2+3+5+6+7+4=28(百万元),第2年前7个月的总利润为2+5+5+4+5+5+5=31(百万元), 第3年前7个月的总利润为4+4+6+6+7+6+8=41(百万元), 所以这3年的前7个月的总利润呈上升趋势.∴b ^=54-4×2.5×530-4×2.52=0.8,∴a ^=5-2.5×0.8=3,∴y ^=0.8x +3,当x =8时,y ^=0.8×8+3=9.4.∴估计第3年8月份的利润为9.4百万元.16.(2017·全国卷Ⅱ)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:旧养殖法新养殖法(1)设两种养殖方法的箱产量相互独立,记A表示事件“旧养殖法的箱产量低于50 kg,新养殖法的箱产量不低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关;(3)根据箱产量的频率分布直方图,求新养殖法箱产量的中位数的估计值(精确到0.01).附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ).解 (1)记B 表示事件“旧养殖法的箱产量低于50 kg ”,C 表示事件“新养殖法的箱产量不低于50 kg ”.由题意知P (A )=P (BC )=P (B )P (C ). 旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62, 故P (B )的估计值为0.62.新养殖法的箱产量不低于50 kg 的频率为 (0.068+0.046+0.010+0.008)×5=0.66, 故P (C )的估计值为0.66.因此,事件A 的概率估计值为0.62×0.66=0.4092. (2)根据箱产量的频率分布直方图得列联表K 2=100×100×96×104≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关. (3)因为新养殖法的箱产量频率分布直方图中,箱产量低于50 kg 的直方图面积为(0.004+0.020+0.044)×5=0.34<0.5, 箱产量低于55 kg 的直方图面积为(0.004+0.020+0.044+0.068)×5=0.68>0.5, 故新养殖法产量的中位数的估计值为 50+0.5-0.340.068≈52.35(kg).。
抽样方法【背一背基础知识】1. 简单随机抽样:一般地,从元素个数为N 的总体中逐个不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样.最常用的简单随机抽样的方法:抽签法和随机数法.简单随机抽样适用范围是:总体中的个体性质相似,无明显层次;总体容量较小,尤其是样本容量较小。
2.系统抽样:假设要从容量为N 的总体中抽取容量为n 的样本,第一步,先将总体的N 个个体编号;第二步,确定分隔间距k ,对编号进行分段,当Nn (n 是样本容量)是整数时,取k =N n ;当N n (n 是样本容量)不是整数时,先用简单随机抽样剔除N n -[N n ]个个体,取k =[Nn ];第三步,在第1段用简单随机抽样确定第一个个体编号l (l ≤k );第四步,按照一定的规则抽取样本,通常是将l 加上间隔k 得到第2个个体编号l k +,再加k 得到第3个个体编号2l k +,依次进行下去,直到获取整个样本.系统抽样的适用范围是:元素个数很多且均衡的总体;各个个体被抽到的机会均等。
3.分层抽样:当总体由有明显差别的几部分组成时,为了使抽取的样本更好地反映总体的情况,常采用分层抽样,将总体中各个个体按某种特征分成若干个互不交叉的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.分层抽样的应用范围是:总体由差异明显的几部分组成的情况;分层后,在每一层抽样时可采用简单随机抽样或系统抽样.【讲一讲提高技能】1必备技能:在系统抽样的过程中,要注意分段间隔,需要抽取几个个体,样本就需要分成几个组,则分段间隔即为Nn(N 为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量和总体容量的比值. 2典型例题:例1. 某校高一年级有900名学生,其中女生400名,按男女比例用分层抽样的方法,从该年级学生中抽取一个容量为45的样本,则应抽取的男生人数为_______.【答案】25【解析】由题意得抽样比例为45190020=,故应抽取的男生人数为15002520⨯=.【考点】分层抽样.【名师点睛】本题考查抽样方法,要搞清楚三种抽样方法的区别和联系,其中分层抽样是按比例抽样;系统抽样是等距离抽样,属于基础题.例2. 某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本的老年教师人数为()A.90 B.100 C.180 D.300【答案】C【考点定位】分层抽样.【名师点晴】本题主要考查的是分层抽样,属于容易题.解题时一定要清楚“320”是指抽取前的人数还是指抽取后的人数,否则容易出现错误.解本题需要掌握的知识点是分层抽样,即抽取比例=样本容量总体容量.【练一练提升能力】1.为了了解1000名学生的学习情况,采用系统抽样的方法,从中抽取容量为40的样本,则分段的间隔为()A.50B.40C.25D .20 【答案】C【解析】由题意知,分段间隔为10002540=,故选C . 2.从3001名学生中选取50名组成参观团,现采用下面的方法选取:先用简单随机抽样从 3001人中剔除1人,剩下的3000人再按系统抽样的方法进行,则每个人被选到的机会( )A .不全相等B 。
2019年高考数学二轮复习专题六第1讲统计与统计案例案文高考定位 1.抽样方法、样本的数字特征、统计图表、回归分析与独立性检验主要以选择题、填空题形式命题,难度较小;2.注重知识的交汇渗透,统计与概率,回归分析与概率是近年命题的热点,2015年,2016年和2017年在解答题中均有考查.真题感悟1.(2017·全国Ⅰ卷)为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是( )A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数解析刻画评估这种农作物亩产量稳定程度的指标是标准差.答案 B2.(2016·全国Ⅲ卷)某旅游城市为向游客介绍本地的气温情况,绘制了一年中各月平均最高气温和平均最低气温的雷达图.图中A点表示十月的平均最高气温约为15 ℃,B点表示四月的平均最低气温约为5 ℃.下面叙述不正确的是( )A.各月的平均最低气温都在0 ℃以上B.七月的平均温差比一月的平均温差大C.三月和十一月的平均最高气温基本相同D.平均最高气温高于20 ℃的月份有5个解析根据雷达图可知全年最低气温都在0 ℃以上,故A正确;一月平均最高气温是6 ℃左右,平均最低气温2 ℃左右,七月平均最高气温22 ℃左右,平均最低气温13 ℃左右,所以七月的平均温差比一月的平均温差大,B正确;三月和十一月的平均最高气温都是10 ℃,三月和十一月的平均最高气温基本相同,C正确;平均最高气温高于20 ℃的有七月和八月,D项不正确.答案 D3.(2017·山东卷)为了研究某班学生的脚长x (单位:厘米)和身高y (单位:厘米)的关系,从该班随机抽取10名学生,根据测量数据的散点图可以看出y 与x 之间有线性相关关系,设其回归直线方程为y ^=b ^x +a ^.已知∑10i =1x i =225,∑10i =1y i =1 600,b ^=4.该班某学生的脚长为24,据此估计其身高为( ) A.160 B.163 C.166D.170解析 由已知得x -=22.5,y -=160,∵回归直线方程过样本点中心(x -,y -),且b ^=4,∴160=4×22.5+a ^,解得a ^=70.∴回归直线方程为y ^=4x +70,当x =24时,y ^=166. 答案 C4.(2017·全国Ⅱ卷)海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg),其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50 kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:(3)附:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )解 (1)由频率分布直方图知,旧养殖法的箱产量低于50 kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62,则事件A 的概率估计值为0.62. (2)列联表如下:∴K 2=100×100×104×96≈15.705>6.635,∴有99%的把握认为箱产量与养殖方法有关.(3)由箱产量的频率分布直方图可知,旧养殖法的箱产量平均值(或中位数)约在45~50 kg 之间,新养殖法的箱产量平均值(或中位数)约在50~55 kg 之间,且新养殖法的箱产量分布集中程度较旧养殖法分布集中程度高,可知新养殖法的箱产量高且稳定,从而新养殖法优于旧养殖法.考 点 整 合1.抽样方法抽样方法包括简单随机抽样、系统抽样、分层抽样,三种抽样方法都是等概率抽样,体现了抽样的公平性,但又各有其特点和适用范围. 2.统计中的四个数据特征(1)众数:在样本数据中,出现次数最多的那个数据.(2)中位数:样本数据中,将数据按大小排列,位于最中间的数据.如果数据的个数为偶数,就取中间两个数据的平均数作为中位数.(3)平均数:样本数据的算术平均数,即x -=1n(x 1+x 2+…+x n ).(4)方差与标准差.s 2=1n[(x 1-x - )2+(x 2-x - )2+…+(x n -x -)2],s =1n[(x 1-x -)2+(x 2-x -)2+…+(x n -x -)2].3.直方图的两个结论 (1)小长方形的面积=组距×频率组距=频率. (2)各小长方形的面积之和等于1. 4.回归分析与独立性检验(1)回归直线y ^ =b ^ x +a ^ 经过样本点的中心点(x - ,y -),若x 取某一个值代入回归直线方程y ^ =b ^ x +a ^ 中,可求出y 的估计值. (2)独立性检验对于取值分别是{x 1,x 2}和{y 1,y 2}的分类变量X 和Y ,其样本频数列联表是:则K 2=n (ad -(a +b )(c +d )(a +c )(b +d )(其中n =a +b +c +d 为样本容量).热点一 抽样方法【例1】 (1)(2015·北京卷)某校老年、中年和青年教师的人数见下表,采用分层抽样的方法调查教师的身体状况,在抽取的样本中,青年教师有320人,则该样本中的老年教师人数为( )A.90 C.180D.300(2)(2017·长沙雅礼中学质检)在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151]上的运动员人数是________.解析 (1)设该样本中的老年教师人数为x ,由题意及分层抽样的特点得x 900=3201 600,故x =180.(2)依题意,可将编号为1~35号的35个数据分成7组,每组有5个数据.在区间[139,151]上共有20个数据,分在4个小组内,每组抽取1人,共抽取4人. 答案 (1)C (2)4探究提高 1.解决此类题目的关键是深刻理解各种抽样方法的特点和适用范围.但无论哪种抽样方法,每一个个体被抽到的概率都是相等的,都等于样本容量与总体容量的比值. 2.在系统抽样的过程中,要注意分段间隔,需要抽取n 个个体,样本就需要分成n 个组,则分段间隔即为N n(N 为样本容量),首先确定在第一组中抽取的个体的号码数,再从后面的每组中按规则抽取每个个体.【训练1】 (1)(2017·郑州模拟)为规范学校办学,某省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应是( ) A.13 B.19 C.20D.51(2)(2017·江苏卷)某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为200,400,300,100件,为检验产品的质量,现用分层抽样的方法从以上所有的产品中抽取60件进行检验,则应从丙种型号的产品中抽取________件.解析 (1)由系统抽样的原理知,抽样的间隔为52÷4=13,故抽取的样本的编号分别为7,7+13, 7+13×2,7+13×3,即7号,20号,33号,46号. ∴样本中还有一位同学的编号为20号.(2)因为样本容量n =60,样本总体N =200+400+300+100=1 000,所以抽取比例为n N =601000=350. 因此应从丙种型号的产品中抽取300×350=18(件).答案 (1)C (2)18 热点二 用样本估计总体命题角度1 数字特征与茎叶图的应用【例2-1】 (2017·北京东城质检)某班男女生各10名同学最近一周平均每天的锻炼时间(单位:分钟)用茎叶图记录如下:假设每名同学最近一周平均每天的锻炼时间是互相独立的. ①男生每天锻炼的时间差别小,女生每天锻炼的时间差别大; ②从平均值分析,男生每天锻炼的时间比女生多;③男生平均每天锻炼时间的标准差大于女生平均每天锻炼时间的标准差;④从10个男生中任选一人,平均每天的锻炼时间超过65分钟的概率比同样条件下女生锻炼时间超过65分钟的概率大.其中符合茎叶图所给数据的结论是( ) A.①②③ B.②③④ C.①②④D.①③④解析 由茎叶图知,男生每天锻炼时间差别小,女生差别大,①正确.男生平均每天锻炼时间超过65分钟的概率P 1=510=12,女生平均每天锻炼时间超过65分钟的概率P 2=410=25,P 1>P 2,因此④正确.设男生、女生两组数据的平均数分别为x -甲,x -乙,标准差分别为s 甲,s 乙. 易求x - 甲=65.2,x - 乙=61.8,知x - 甲>x -乙,②正确.又根据茎叶图,男生锻炼时间较集中,女生锻炼时间较分散, ∴s 甲<s 乙,③错误,因此符合茎叶图所给数据的结论是①②④. 答案 C命题角度2 用样本的频率分布估计总体分布【例2-2】 (2016·四川卷)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查.通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),…,[4,4.5]分成9组,制成了如图所示的频率分布直方图.(1)求直方图中a的值;(2)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数,说明理由;(3)估计居民月均用水量的中位数.解(1)由频率分布直方图可知,月均用水量在[0,0.5)内的频率为0.08×0.5=0.04.同理,在[0.5,1),[1.5,2),[2,2.5),[3,3.5),[3.5,4),[4,4.5]组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1-(0.04+0.08+0.21+0.25+0.06+0.04+0.02)=0.5×a+0.5×a,解得a=0.30.(2)由(1)知,该市100位居民中月均用水量不低于3吨的频率为0.06+0.04+0.02=0.12. 由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300 000×0.12=36 000.(3)设中位数为x吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5.又前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5.所以2≤x<2.5.由0.50×(x-2)=0.5-0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.探究提高 1.平均数与方差都是重要的数字特征,是对数据的一种简明描述,它们所反映的情况有着重要的实际意义.平均数、中位数、众数描述数据的集中趋势,方差和标准差描述数据的波动大小.2.在本例2-2中,抓住频率分布直方图各小长方形的面积之和为1,这是求解的关键;本题易混淆频率分布条形图和频率分布直方图,误把频率分布直方图纵轴的几何意义当成频率,导致样本数据的频率求错.【训练2】(2017·北京卷)某大学艺术专业400名学生参加某次测评,根据男女学生人数比例,使用分层抽样的方法从中随机抽取了100名学生,记录他们的分数,将数据分成7组:[20,30),[30,40),…[80,90],并整理得到如下频率分布直方图:(1)从总体的400名学生中随机抽取一人,估计其分数小于70的概率;(2)已知样本中分数小于40的学生有5人,试估计总体中分数在区间[40,50)内的人数; (3)已知样本中有一半男生的分数不小于70,且样本中分数不小于70的男女生人数相等.试估计总体中男生和女生人数的比例.解 (1)根据频率分布直方图可知,样本中分数不小于70的频率为(0.02+0.04)×10=0.6, 所以样本中分数小于70的频率为1-0.6=0.4.所以从总体的400名学生中随机抽取一人,其分数小于70的概率估计为0.4. (2)根据题意,样本中分数不小于50的频率为 (0.01+0.02+0.04+0.02)×10=0.9,分数在区间[40,50)内的人数为100-100×0. 9-5=5. 所以总体中分数在区间[40,50)内的人数估计为400×5100=20. (3)由题意可知,样本中分数不小于70的学生人数为 (0.02+0.04)×10×100=60,所以样本中分数不小于70的男生人数为60×12=30.所以样本中的男生人数为30×2=60,女生人数为100-60=40,男生和女生人数的比例为60∶40=3∶2.所以根据分层抽样原理,总体中男生和女生人数的比例估计为3∶2. 热点三 回归分析与独立性检验【例3】 (1)某新闻媒体为了了解观众对央视《开门大吉》节目的喜爱与性别是否有关系,随机调查了观看该节目的观众110名,得到如下的列联表:参考附表:(参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d )(2)(2016·全国Ⅲ卷)如图是我国2008年至2014年生活垃圾无害化处理量(单位:亿吨)的折线图.注:年份代码1~7分别对应年份2008~2014.①由折线图看出,可用线性回归模型拟合y 与t 的关系,请用相关系数加以说明; ②建立y 关于t 的回归方程(系数精确到0.01),预测2016年我国生活垃圾无害化处理量. 附注:回归方程y ^=a ^+b ^t 中斜率和截距的最小二乘估计公式分别为:(1)解析 分析列联表中数据,可得K 2的一个观测值k =110×(40×30-20×20)260×50×60×50≈7.822>6.635,所以有99%的把握认为“喜爱《开门大吉》节目与否和性别有关”. 答案 99%(2)解 ①由折线图中的数据和附注中参考数据得t -=4,因为y 与t 的相关系数近似为0.99,说明y 与t 的线性相关程度相当高,从而可以用线性回归模型拟合y 与t 的关系.a ^=y - -b ^t -≈1.331-0.103×4≈0.92.所以,y 关于t 的回归方程为y ^=0.92+0.10t .将2016年对应的t =9代入回归方程得:y ^=0.92+0.10×9=1.82. 所以预测2016年我国生活垃圾无害化处理量约为1.82亿吨. 探究提高 1.求回归直线方程的关键及实际应用 (1)关键:正确理解计算b ^,a ^的公式和准确地计算.(2)实际应用:在分析实际中两个变量的相关关系时,可根据样本数据作出散点图来确定两个变量之间是否具有相关关系,若具有线性相关关系,则可通过线性回归方程估计和预测变量的值.2.独立性检验的关键(1)根据2×2列联表准确计算K 2,若2×2列联表没有列出来,要先列出此表.(2)K 2的观测值k 越大,对应假设事件H 0成立(两类变量相互独立)的概率越小,H 0不成立的概率越大.【训练3】 (1)(2017·贵阳调研)某医疗研究所为了检验某种血清能起到预防感冒的作用,把500名使用血清的人与另外500名未使用血清的人一年中的感冒记录作比较,利用2×2列联表计算得K 2的观测值k ≈3.918. 附表:A.95%B.5%C.97.5%D.2.5%(2)(2017·唐山一模)某市春节期间7家超市的广告费支出x i (万元)和销售额y i (万元)数据如下:②用对数回归模型拟合y 与x 的关系,可得回归方程y ^=12ln x +22,经计算得出线性回归模型和对数模型的R 2分别约为0.75和0.97,请用R 2说明选择哪个回归模型更合适,并用此模型预测A 超市广告费支出为8万元时的销售额.(1)解析 ∵k ≈3.918>3.841,且P (K 2≥k 0=3.841)=0.05,根据独立性检验思想“这种血清能起到预防感冒的作用”出错的可能性不超过5%. 答案 B因此a ^=y - -b ^x -=42-1.7×8=28.4.所以,y 关于x 的线性回归方程是y ^=1.7x +28.4. ②∵0.75<0.97,∴对数回归模型更合适.当x =8时,y ^=12ln 8+22=36ln 2+22=36×0.7+22=47.2万元. ∴广告费支出8万元时,预测A 超市销售额为47.2万元.1.用样本估计总体是统计的基本思想.用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用.2.(1)众数、中位数及平均数都是描述一组数据集中趋势的量,平均数是最重要的量,与每个样本数据有关,这是中位数、众数所不具有的性质.(2)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度就越大.3.茎叶图、频率分布表和频率分布直方图都可直观描述样本数据的分布规律.在频率分布直方图中,可分析样本数据的分布情况,大致判断平均数的范围,并利用数据的波动性大小反映方差(标准差)的大小. 注意:频率分布直方图的纵轴刻度是频率组距,而不是频率,每个小直方图的面积才是相应区间的频率.4.回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的线性回归方程才有实际意义,否则,求出的线性回归方程毫无意义.根据回归方程进行预报,仅是一个预报值,而不是真实发生的值.一、选择题1.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( ) A.7 B.9 C.10D.15解析 抽取号码的间隔为96032=30,从而区间[451,750]包含的段数为75030-45030=10,则编号落入区间[451,750]的人数为10人,即做问卷B 的人数为10. 答案 C2.(2017·全国Ⅲ卷)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是( ) A.月接待游客量逐月增加 B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳 解析 由题图可知,2014年8月到9月的月接待游客量在减少,则A 选项错误. 答案 A3.(2017·山东卷)如图所示的茎叶图记录了甲乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为( )A.3,5B.5,5C.3,7D.5,7解析 由茎叶图知甲组数据中位数为65,所以y =5,此时乙组平均值为66.56+65+62+74+70+x 5=66,解得x =3.答案 A4.(2017·汉中模拟)已知两个随机变量x ,y 之间的相关关系如表所示:根据上述数据得到的回归方程为y =b x +a ,则大致可以判断( ) A.a ^>0,b ^>0 B.a ^>0,b ^<0 C.a ^<0,b ^>0D.a ^<0,b ^<0解析 作出散点图,画出回归直线直观判定b ^>0,a ^<0. 答案 C5.(2017·济南调研)2016年济南地铁正式开工建设,地铁时代的到来能否缓解济南的交通拥堵状况呢?某社团进行社会调查,得到的数据如下表:附:K 2=n (ad -bc )2(a +b )(a +c )(b +d )(c +d )A.有95%的把握认为“对能否缓解交通拥堵的认识与性别有关”B.有95%的把握认为“对能否缓解交通拥堵的认识与性别无关”C.有99%的把握认为“对能否缓解交通拥堵的认识与性别有关”D.有99%的把握认为“对能否缓解交通拥堵的认识与性别无关” 解析 由2×2列联表,可求K 2的观测值,k =(48+30+12+20)(20×48-12×30)2(48+30)(48+12)(12+20)(30+20)≈5.288>3.841. 由统计表P (K 2≥3.841)=0.05,∴有95%的把握认为“能否缓解交通拥堵的认识与性别有关”. 答案 A 二、填空题6.(2017·石家庄质检)为比较甲、乙两地14时的气温状况,随机选取该月中的5天,将这5天中14时的气温数据(单位:℃)制成如图所示的茎叶图.考虑以下结论: ①甲地该月14时的平均气温低于乙地该月14时的平均气温; ②甲地该月14时的平均气温高于乙地该月14时的平均气温; ③甲地该月14时的气温的标准差小于乙地该月14时的气温的标准差; ④甲地该月14时的气温的标准差大于乙地该月14时的气温的标准差.其中根据茎叶图能得到的统计结论的编号正确的是________.解析 x - 甲=26+28+29+31+315=29,x - 乙=28+29+30+31+325=30,则x - 甲<x - 乙,①正确. 由茎叶图知,乙地的气温相对比较集中,甲地的气温相对比较离散. 所以甲地该月的标准差大于乙地该月的标准差,④正确. 答案 ①④7.(2017·泉州模拟)某厂在生产甲产品的过程中,产量x (吨)与生产能耗y (吨)的对应数据如表:根据最小二乘法求得回归方程为y =0.65x +a ,当产量为80吨时,预计需要生产能耗为________吨.解析 由题意,x -=45,y -=36.25,代入y ^=0.65x +a ^,得a ^=7,∴当产量为80吨时,预计需要生产能耗为0.65×80+7=59. 答案 598.(2016·山东卷改编)某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30].根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是________.解析 设所求的人数为n ,由频率分布直方图,自习时间不少于22.5小时的频率为(0.04+0.08+0.16)×2.5=0.7,∴n =0.7×200=140. 答案 140 三、解答题9.(2017·全国Ⅲ卷)某超市计划按月订购一种酸奶,每天进货量相同,进货成本每瓶4元,售价每瓶6元,未售出的酸奶降价处理,以每瓶2元的价格当天全部处理完.根据往年销售经验,每天需求量与当天最高气温(单位:℃)有关.如果最高气温不低于25,需求量为500瓶;如果最高气温位于区间[20,25),需求量为300瓶;如果最高气温低于20,需求量为200瓶.为了确定六月份的订购计划,统计了前三年六月份各天的最高气温数据,得下面的频数分布表:(1)估计六月份这种酸奶一天的需求量不超过300瓶的概率;(2)设六月份一天销售这种酸奶的利润为Y (单位:元),当六月份这种酸奶一天的进货量为450瓶时,写出Y 的所有可能值,并估计Y 大于零的概率.解 (1)这种酸奶一天的需求量不超过300瓶,当且仅当最高气温低于25,由表中数据可知,最高气温低于25的频率为2+16+3690=0.6.所以这种酸奶一天的需求量不超过300瓶的概率的估计值为0.6. (2)当这种酸奶一天的进货量为450瓶时,若最高气温低于20,则Y=200×6+(450-200)×2-450×4=-100;若最高气温位于区间[20,25),则Y=300×6+(450-300)×2-450×4=300;若最高气温不低于25,则Y=450×(6-4)=900,所以,利润Y的所有可能值为-100,300,900.Y大于零当且仅当最高气温不低于20,由表格数据知,最高气温不低于20的频率为36+25+7+490=0.8.因此Y大于零的概率的估计值为0.8.10.(2017·赤峰二模)微信是腾讯公司推出的一种手机通讯软件,它支持发送语音短信、视频、图片和文字,一经推出便风靡全国,甚至涌现出一批在微信的朋友圈内销售商品的人(被称为微商).为了调查每天微信用户使用微信的时间,某经销化妆品的微商在一广场随机采访男性、女性用户各50名,将男性、女性使用微信的时间分成5组:(0,2],(2,4],(4,6],(6,8],(8,10]分别加以统计,得到如图所示的频率分布直方图.(1)根据女性频率分布直方图估计女性使用微信的平均时间;(2)若每天玩微信超过4小时的用户列为“微信控”,否则称其为“非微信控”,请你根据已知条件完成2×2的列联表,并判断是否有90%的把握认为“微信控”与“性别有关”?解(1)女性平均使用微信的时间为:0.16×1+0.24×3+0.28×5+0.2×7+0.12×9=4.76(小时).(2)由已知得:2(0.04+a+0.14+2×0.12)=1,解得a=0.08.由题设条件得列联表∴K2=n(ad(a+b)(c+d)(a+c)(b+d)=100(38×20-30×12)250×50×68×32≈2.941>2.706.所以有90%的把握认为“微信控”与“性别”有关.11.(2017·全国Ⅰ卷)为了监控某种零件的一条生产线的生产过程,检验员每隔30 min 从该生产线上随机抽取一个零件,并测量其尺寸(单位:cm).下面是检验员在一天内依次抽取的16个零件的尽寸:(1)求(x i ,i )(i =1,2,…,16)的相关系数r ,并回答是否可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小(若|r |<0.25,则可以认为零件的尺寸不随生产过程的进行而系统地变大或变小).(2)一天内抽检零件中,如果出现了尺寸在(x --3s ,x -+3s )之外的零件,就认为这条生产线在这一天的生产过程可能出现了异常情况,需对当天的生产过程进行检查. ①从这一天抽检的结果看,是否需对当天的生产过程进行检查?②在(x - -3s ,x -+3s )之外的数据称为离群值,试剔除离群值,估计这条生产线当天生产的零件尺寸的均值与标准差.(精确到0.01)解 (1)由样本数据得(x i ,i )(i =1,2,…,16)的相关系数由于|r |<0.25,因此可以认为这一天生产的零件尺寸不随生产过程的进行而系统地变大或变小.(2)①由于x - =9.97,s ≈0.212,由样本数据可以看出抽取的第13个零件的尺寸在(x --3s ,x -+3s )以外. 因此需对当天的生产过程进行检查.②剔除离群值,即第13个数据,剩下数据的平均数为 115(16×9.97-9.22)=10.02, 这条生产线当天生产的零件尺寸的均值的估计值为10.02.i =116x 2i ≈16×0.2122+16×9.972≈1 591.134, 剔除第13个数据,剩下数据的样本方差为 115(1 591.134-9.222-15×10.022)≈0.008, 这条生产线当天生产的零件尺寸的标准差的估计值为0.008≈0.09.。
数学2019年高考复习统计与统计案例专题训练(含答案)统计科学既是统计工作经验的理论概括,又是指导统计工作的原理、原则和方法。
以下是数学2019年高考复习统计与统计案例专题训练,请考生掌握。
一、选择题1.(2019山西省重点中学第三次四校联考)已知x、y的取值如下表所示:x 0 1 3 4 y 0.9 1.9 3.2 4.4 从散点图分析,y与x线性相关,且=0.8x+a,则a=()A.0.8B.1C.1.2D.1.5[答案] B[解析] ==2,==2.6,又因为回归直线=0.8x+a过样本中心点(2,2.6)所以2.6=0.82+a,解得a=1.2.(文)(2019豫东、豫北十所名校联考)某厂生产A、B、C三种型号的产品,产品数量之比为32∶4,现用分层抽样的方法抽取一个样本容量为180的样本,则样本中B型号的产品的数量为()A.20B.40C.60D.80[答案] B[解析] 由分层抽样的定义知,B型号产品应抽取180=40件.(理)(2019济南模拟)某全日制大学共有学生5600人,其中专科生有1300人,本科生有3000人,研究生1300人,现采用分层抽样的方法调查学生利用因特网查找学习资料的情况,抽取的样本为280人,则应在专科生,本科生与研究生这三类学生中分别抽取()A.65人,150人,65人B.30人,150人,100人C.93人,94人,93人D.80人,120人,80人[答案] A[解析] =,1300=65,3000=150,故选A.3.(文)(2019新乡、许昌、平顶山二调)在样本频率分布直方图中,共有五个小长方形,这五个小长方形的面积由小到大成等差数列{an}.已知a2=2a1,且样本容量为300,则小长方形面积最大的一组的频数为()A.100B.120C.150D. 200[答案] A[解析] 设公差为d,则a1+d=2a1,a1=d,d+2d+3d+4d+5d=1,d=,面积最大的一组的频率等于5=.小长方形面积最大的一组的频数为300=100.(理)某电视传媒公司为了了解某类体育节目的收视情况,随机抽取了100名观众进行调查,如图是根据调查结果绘制的观众日均收看该类体育节目时间的频率分布直方图,其中收看时间分组区间是:[0,10),[10,20),[20,30),[30,40),[40,50),[50,60].将日均收看该类体育节目时间不低于40分钟的观众称为体育迷,则图中x的值为()A.0.01B.0.02C.0.03D.0.04[答案] A[解析] 由题设可知(0.005+x+0.012+0.02+0.025+0.028)10=1,解得x=0.01,选A.4.(2019东北三校二模)在某次测量中得到的A样本数据如下:42,43,46,52,42,50,若B样本数据恰好是A样本数据每个都减5后所得数据,则A、B两样本的下列数字特征对应相同的是()A.平均数B.标准差C.众数D.中位数[答案] B[解析] 因为A组数据为:42,43,46,52,42,50B组数据为:37,38,41,47,37,45.可知平均数、众数、中位数都发生了变化,比原来A组数据对应量都减小了5,但标准差不发生变化,故选B.5.(2019石家庄质检)等差数列x1,x2,x3,,x9的公差为1,若以上述数据x1,x2,x3,,x9为样本,则此样本的方差为()A. B. C.60 D.30[答案] A[解析] 令等差数列为1,2,39,则样本的平均值=5,S2=[(1-5)2+(2-5)2++(9-5)2]==.6.(文)(2019郑州市第二次质检)某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到如下数据:单价x(元) 4 5 6 7 8 9 销量y(件) 90 84 83 80 75 68 由表中数据,求得线性回归方程为=-4x+a.若在这些样本点中任取一点,则它在回归直线左下方的概率为()A. B. C. D.[答案] B[解析] ==,==80,回归直线过点(,80),a=106,=-4x+106,点(5,84),(9,68)在回归直线左下方,故所求概率P==.(理)(2019河北衡水中学二调)关于统计数据的分析,有以下几个结论,其中正确的个数为()利用残差进行回归分析时,若残差点比较均匀地落在宽度较窄的水平带状区域内,则说明线性回归模型的拟合精度较高;将一组数据中的每个数据都减去同一个数后,期望与方差均没有变化;调查剧院中观众观后感时,从50排(每排人数相同)中任意抽取一排的人进行调查是分层抽样法;已知随机变量X服从正态分布N(3,1),且P(24)=0.682 6,则P(X4)等于0.158 7某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人.为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本.若样本中的青年职工为7人,则样本容量为15人.A.2B.3C.4D.5[答案] A[解析] 正确,错误,设样本容量为n,则=,n=30,故错.二、填空题7.(2019吉林九校联合体二模)将某班的60名学生编号为:01,02,,60,采用系统抽样方法抽取一个容量为5的样本,且随机抽得的一个号码为04,则剩下的四个号码依次是________.[答案] 16,28,40,52[解析] 依据系统抽样方法的定义得知,将这60名学生依次按编号每12人作为一组,即01~12、13~24、、49~60,当第一组抽得的号码是04时,剩下的四个号码依次是16,28,40,52(即其余每一小组所抽出来的号码都是相应的组中的第四个号码).8.(2019龙岩模拟)10名工人某天生产同一零件,生产的件数分别是10,12,14,14,14,15,15,16,16,17,设这10个数的中位数为a,众数为b,则a-b=________.[答案] 0.5[解析] 从数据中可以看出,众数b=14,且中位数a==14.5,a-b=14.5-14=0.5.9.(2019烟台质检)为了解某校高三学生身体状况,用分层抽样的方法抽取部分男生和女生的体重,将男生体重数据整理后,画出了频率分布直方图,已知图中从左到右前三个小组频率之比为123,第二小组频数为12,若全校男、女生比例为32,则全校抽取学生数为________.[答案] 80[解析] 第四小组和第五小组的频率之和是5(0.0125+0.0375)=0.25,故前三个小组的频率之和是0.75,则第二小组的频率是0.25,则抽取的男生人数是120.25=48人,抽取的女生人数是48=32人,全校共抽取80人.三、解答题10.(文)(2019东北三省三校二模)某个团购网站为了更好地满足消费者需求,对在其网站发布的团购产品展开了用户调查,每个用户在使用了团购产品后可以对该产品进行打分,最高分是10分.上个月该网站共卖出了100份团购产品,所有用户打分的平均分作为该产品的参考分值,将这些产品按照得分分成以下几组:第一组[0,2),第二组[2,4),第三组[4,6),第四组[6,8),第五组[8,10],得到的频率分布直方图如图所示.(1)分别求第三,四,五组的频率;(2)该网站在得分较高的第三,四,五组中用分层抽样的方法抽取了6个产品作为下个月团购的特惠产品,某人决定在这6个产品中随机抽取2个购买,求他抽到的两个产品均来自第三组的概率.[解析] (1)第三组的频率是0.1502=0.3;第四组的频率是0.1002=0.2;第五组的频率是0.0502=0.1(2)设抽到的两个产品均来自第三组为事件A,由题意可知,从第三、四、五组中分别抽取3个,2个,1个.不妨设第三组抽到的是A1,A2,A3;第四组抽到的是B1,B2;第五组抽到的是C1,所含基本事件总数为:{A1,A2},{A1,A3},{A2,A3},{A1,B1},{A1,B2},{A1,C1},{A2,B1},{A2,B2},{A2,C1},{A3,B1},{A3,B2},{A3,C1},{B1,B2},{B1,C1},{B2,C1}所以P(A)==.(理)甲、乙两位学生参加数学竞赛培训,现分别从他们在培训期间参加的若干次预赛成绩中随机抽取8次,记录如下:甲 82 81 79 78 95 88 93 84 乙 92 95 80 75 83 80 90 85(1)用茎叶图表示这两组数据;(2)现要从中选派一人参加数学竞赛,从统计学的角度考虑,你认为选派哪位学生参加合适?请说明理由;(3)若将频率视为概率,对甲同学在今后的3次数学竞赛成绩进行预测,记这3次成绩中高于80分的次数为,求的分布列及数学期望E().[解析] (1)作出茎叶图如下:(2)派甲参赛比较合适,理由如下:甲=(702+804+902+8+9+1+2+4+8+3+5)=85乙=(701+804+903+5+0+0+3+5+0+2+5)=85.S=[(78-85)2+(79-85)2+(81-85)2+(82-85)2+(84-85)2+(88 -85)2+(93-85)2+(95-85)2]=35.5S=[(75-85)2+(80-85)2+(80-85)2+(83-85)2+(85-85)2+(90 -85)2+(92-85)2+(95-85)2]=41甲=乙,SP1,派乙参赛比较合适.(3)记甲同学在一次数学竞赛中成绩高于80分为事件A,则P(A)==,随机变量的分布列为0 1 2 3 P E()=0+1+2+3=.(或E()=np=3=)数学2019年高考复习统计与统计案例专题训练及答案解析的全部内容就是这些,查字典数学网希望考生可以取得优异的成绩。
(十九)统计、统计案例考试时间:45分钟姓名:__________班级:__________考号:__________一、选择题(本大题共12小题,每小题4分,共48分。
在每小题给出的四个选项中,只有一个选项是符合题目要求的) 1.某学校组织学生参加英语测试,成绩的频率分布直方图如图,数据的分组一次为,[20,40),[40,60), [60,80),[80,100]若低于60分的人数是15人,则该班的学生人数是( ) (A )45 (B )50 (C )55 (D )602.在样本的频率分布直方图中,共有11个小长方形,若中间一个小长方形的面积等于其它10个小长方形的面积和的14,且样本容量为160,则中间一组的频数为( )(A )32 (B )0.2 (C )40 (D )0.253.有五组变量:①汽车的重量和汽车每消耗1升汽油所行驶的平均路程;②平均日学习时间和平均学习成绩;③某人每日吸烟量和其身体健康情况;④正方形的边长和面积;⑤汽车的重量和百公里耗油量.其中两个变量成正相关的是 ( )A.①③B.②④C.②⑤D.④⑤4.(2015安徽高考真题)若样本数据1x ,2x ,⋅⋅⋅,10x 的标准差为8,则数据121x -,221x -,⋅⋅⋅,1021x -的标准差为( )(A )8 (B )15 (C )16 (D )32 5.根据如下样本数据x 3 4 56 78y4.02.55.0-0.50.2-0.3-得到的回归方程为a bx y+=ˆ,则( ) A.0,0>>b a B.0,0<>b a C.0,0><b a D.0.0<<b a6.(2015湖北高考真题)我国古代数学名著《九章算术》有“米谷粒分”题:粮仓开仓收粮,有人送来米1534石,验得米内夹谷,抽样取米一把,数得254粒内夹谷28粒,则这批米内夹谷约为( ) A .134石 B .169石 C .338石 D .1365石7.根据下面给出的2004年至2013年我国二氧化硫排放量(单位:万吨)柱形图。
以下结论不正确的是( )(A )逐年比较,2008年减少二氧化硫排放量的效果最显著 (B )2007年我国治理二氧化硫排放显现(C )2006年以来我国二氧化硫年排放量呈减少趋势(D )2006年以来我国二氧化硫年排放量与年份正相关8.设样本数据1210,,,x x x L 的均值和方差分别为1和4,若i i y x a =+(a 为非零常数, 1,2,,10i =L ),则12,10,y y y L 的均值和方差分别为( )(A )1+,4a (B )1,4a a ++ (C )1,4 (D )1,4+a9.在回归分析中,代表了数据点和它在回归直线上相应位置的差异的是( )A.总偏差平方和B.残差平方和C.回归平方和D.相关指数2R 10.在吸烟与患肺病这两个分类变量的计算中,下列说法正确的是( )A.若K 2的观测值为k=6.635,我们有99%的把握认为吸烟与患肺病有关系,那么在100个吸烟的人中必有99人患有肺病;B.从独立性检验可知有99%的把握认为吸烟与患肺病有关系时,我们说某人吸烟,那么他有99%的可能患有肺病;C.若从统计量中求出有95% 的把握认为吸烟与患肺病有关系,是指有5% 的可能性使得推判出现错误;D.以上三种说法都不正确.11.某人研究中学生的性别与成绩、视力、智商、阅读量这4个变量之间的关系,随机抽查52名中学生,得到统计数据如表1至表4,则与性别有关联的可能性最大的变量是( )表1 表2成绩性别不及格 及格总计视力 性别 好 差 总计 男 6 14 20 男 4 16 20 女10 22 32 女 12 20 32 总计163652总计163652表3表4 智商性别偏高 正常 总计阅读量性别好 差 总计 男 8 12 20男14 6 20 女 8 24 32 女 2 30 32 总计163652总计163652A.成绩B.视力C.智商D.阅读量2004年 2005年 2006年 2007年 2008年 2009年 2010年 2011年 2012年 2013年19002000 2100 2200 23002400 2500 2600 270012.下列四个命题:①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越小;②残差平方和越小的模型,拟合的效果越好;③用相关指数2R 来刻画回归效果,2R 越小,说明模型的拟合效果越好;④随机误差e 是衡量预报精确度的一个量,它满足()0.E e =则正确命题的序号是( ) A.①③ B.②④ C.①④ D.②③ 二、填空题(本大题共6小题,每小题4分,共24分) 13.某学校共有2000名学生,各年级男.女生人数如下表:一年级 二年级 三年级男生 369 370y女生381xz已知从全校学生中随机抽取1名学生,抽到二年级女生的概率是0.19,现拟采用分层抽样的方法从全校学生中抽取80名学生,则三年级应抽取的学生人数为 人。
14.某校为了解高三同学寒假期间学习情况,抽查了100名同学,统计他们每天平均学习时间,绘成频率分布直方图(如图)。
则这100名同学中学习时间在6—8小时内的人数为 . 15.抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:运动员 第1次 第2次 第3次 第4次 第5次 甲 87 91 90 89 93 乙8990918892则成绩较为稳定(方差较小)的那位运动员成绩的方差为 。
16.已知总体的各个体的值由小到大依次为2,3,3,7,,a b ,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则,a b 的取值分别是 .17.某次测量发现一组数据(,)i i x y 具有较强的相关性,并计算得1y x =+$,其中数据0(1,)y 因书写不清,只记得0y 是[]0,3任意一个值,则该数据对应的残差的绝对值不大于1的概率为___.(残差=真实值-预测值) 18.在某项才艺竞赛中,有9位评委,主办单位规定计算参赛者比赛成绩的规则如下:剔除评委中的一个最高分和一个最低分后,再计算其他7位评委的平均分作为此参赛者的比赛成绩. 现有一位参赛者所获9位评委一个最高分为86分.一个最低分为45分,若未剔除最高分与最低分时,9位评委的平均分为76分,则这位参赛者的比赛成绩为分.三、解答题(本大题共2小题,共28分)19.(2015新课标1高考真题)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t )和年利润z (单位:千元)的影响,对近8年的年宣传费x 1和年销售量y 1(i=1,2,···,8)数据作了初步处理,得到下面的散点图及一些统计量的值。
x ry u r w u r21()nii x x =-∑21()nii w w =-∑1()()niii x x y y =--∑1()()niii w w y y =--∑46.656.3 6.8289.8 1.6 1469 108.8表中w 1 =x 1, ,w u r =181nii w=∑(Ⅰ)根据散点图判断,y=a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(Ⅱ)根据(Ⅰ)的判断结果及表中数据,建立y 关于x 的回归方程;(Ⅲ)已知这种产品的年利率z 与x 、y 的关系为z=0.2y-x.根据(Ⅱ)的结果回答下列问题: (i )年宣传费x=49时,年销售量及年利润的预报值是多少?(ii )年宣传费x 为何值时,年利率的预报值最大?附:对于一组数据11(,)u v ,22(,)u v ,……,(,)n n u v ,其回归线v u αβ=+的斜率和截距的最小二乘估计分别为:µ121()()=()niii nii u u v v u u β==---∑∑,µµ=v u αβ- 20.“开门大吉”是某电视台推出的游戏益智节目.选手面对1-4号4扇大门,依次按响门上的门铃,门铃会播放一段音乐(将一首经典流行歌曲以单音色旋律的方式演绎),选手需正确回答出这首歌的名字,方可获得该扇门对应的家庭梦想基金.正确回答每一扇门后,选手可自由选择带着奖金离开比赛,还可继续挑战后面的门以获得更多奖金.(奖金金额累加)但是一旦回答错误,奖金将清零,选手也会离开比赛.在一次场外调查中,发现参加比赛的选手多数分为两个年龄段:20~30;30~40(单位:岁),其猜对歌曲名称与否人数如图所示.每扇门对应的梦想基金:(单位:元)(Ⅰ)写出22⨯列联表;判断是否有90%的把握认为猜对歌曲名称与否与年龄有关? 说明你的理由.(下面的临界值表供参考) P (K 2≥k)0.10 0.05 0.025 0.010 0.005 0.001 k2.7063.8415.0246.6357.87910.828(Ⅱ)若某选手能正确回答第一、二、三、四扇门的概率分别为4321,,,5433,正确回答一个问题后,选择继续回正确 错误答下一个问题的概率是12,且各个问题回答正确与否互不影响.设该选手所获梦想基金总数为ξ,求ξ的分布列及数学期望.(参考公式22()()()()()n ad bcKa b c d a c b d-=++++其中n a b c d=+++)衡水万卷作业(十九)答案解析一、选择题 1.【答案】B【解析】∵成绩低于60分有第一、二组数据,在频率分布直方图中,对应矩形的高分别为0.005,0.01, 每组数据的组距为20则成绩低于60分的频率P=(0.005+0.010)×20=0.3, 又∵低于60分的人数是15人, 则该班的学生人数是 15/0.3 =50. 故选B . 2.【答案】A 3.【答案】C4.【答案】C 【命题立意】本题考查统计方差、标准差的计算,难度中等.【解题思路】()()221448D x D x -==⨯,所以标准差是16,故选C .5.【答案】B6.【答案】B【解析】试题分析:依题意,这批米内夹谷约为169153425428=⨯石,选B.考点:用样本估计总体. 7.【答案】D【解析】由柱形图得,从2006年以来,我国二氧化硫排放量呈下降趋势,故年排放量与年份负相关. 8.【答案】A【解析】由题意可知x 1+x 2+x 3+…+x 1010=1,故=(x 1+x 2+x 3+…+x 10)+10a10=1+a .数据x 1,x 2,…,x 10同时增加一个定值,方差不变.故选A.9.【答案】B 【解析】对定义的考查. 10.【答案】C 11.【答案】D 12.【答案】B 二、填空题 13.20 14.3015.216.10.5,10.5【解析】∵总体的个数是10,且中位数是10.510.52a b+=∴,即21a b +=.∴总体的平均数是10. 要使总体的方差最小,只要22(10)(10)a b -+-最小,即22201(10)(10)2()22a b a b +--+-=≥.当且仅当a=b 时取“=”, 10.5a b ==∴ 17.2318.79 三、解答题19.解:(1)由散点图可以判断,y c =+适宜作为年销量y 关于年宣传费x 的回归方程类型(2)令w =,先建立y 关于w 的线性回归方程,由于81821()()108.8681.6()iii ii w w y y bw w ==--===-∑∑$,$56368 6.8100.6cy dw =-=-⨯=$ 所以y 关于w 的线性回归方程为$100.668y w =+,因此y 关于x 的回归方程为$100.6y =+(3)(i )由(2)知,当x=49时,年销售量y 的预报值$100.6576.6y =+= 年利润z 的预报值576.60.24966.32z=⨯-=$ (ii )根据(2)的结果知,年利润z 的预报值0.2(100.620.12zx x =+-=-+$=13.62=6.8,即x=46.24时,z$取得最大值 故年宣传费为46.24千元时,年利润的预报值最大 20.解:(Ⅰ)根据所给的二维条形图得到列联表,根据列联表所给的数据代入观测值的公式得到k 2=2120(10701030)201004080⨯⨯-⨯⨯⨯⨯=3∵3 2.706>∴有10.10-=90%的把握认为猜对歌曲名称与否与年龄有关. (Ⅱ)ξ的所有能取值分别为:0,1000,3000,6000,11000 则412(1000)525P ξ==⨯= 41313(3000)524220P ξ==⨯⨯⨯=4131211(6000)52423220P ξ==⨯⨯⨯⨯⨯=41312111(11000)524232360P ξ==⨯⨯⨯⨯⨯⨯=231123(0)1520206060Pξ==----=ξ的分布列为ξ0 1000 3000 6000 11000P 236025320120160ξ数学期望232311()0100030006000110001333.33 605202060Eξ=⨯+⨯+⨯+⨯+⨯=。