第58讲 统计初步(原卷版)2021届新课改地区高三数学一轮专题复习
- 格式:docx
- 大小:363.33 KB
- 文档页数:10
2018版高考数学一轮复习第十章统计与统计案例课时跟踪检测58 理新人教A版编辑整理:尊敬的读者朋友们:这里是精品文档编辑中心,本文档内容是由我和我的同事精心编辑整理后发布的,发布之前我们对文中内容进行仔细校对,但是难免会有疏漏的地方,但是任然希望(2018版高考数学一轮复习第十章统计与统计案例课时跟踪检测58 理新人教A版)的内容能够给您的工作和学习带来便利。
同时也真诚的希望收到您的建议和反馈,这将是我们进步的源泉,前进的动力。
本文可编辑可修改,如果觉得对您有帮助请收藏以便随时查阅,最后祝您生活愉快业绩进步,以下为2018版高考数学一轮复习第十章统计与统计案例课时跟踪检测58 理新人教A版的全部内容。
课时跟踪检测(五十八)[高考基础题型得分练]1.某中学初中部共有110名教师,高中部共有150名教师,其性别比例如图所示,则该校女教师的人数为()A.93 B.123C.137 D.167答案:C解析:初中部的女教师人数为110×70%=77,高中部的女教师人数为150×(1-60%)=60,该校女教师的人数为77+60=137,故选C。
2.如图是一容量为100的样本的质量的频率分布直方图,样本质量均在[5,20]内,其分组为[5,10),[10,15),[15,20],则样本质量落在[15,20]内的频数为()A.10 B.20C.30 D.40答案:B解析:由题意,得组距为5,故样本质量在[5,10),[10,15)内的频率分别为0。
3和0.5,所以样本质量在[15,20]内的频率为1-0。
3-0.5=0。
2,频数为100×0。
2=20,故选B.3.[2017·河北邢台摸底]样本中共有五个个体,其值分别为0,1,2,3,m。
若该样本的平均值为1,则其方差为()A。
错误! B.错误!C. 2 D.2答案:D解析:依题意,得m=5×1-(0+1+2+3)=-1,样本方差s2=错误!×(12+02+12+22+22)=2,即所求的样本方差为2。
第十章算法、统计与概率第2课时统计初步(1)错误!考情分析考点新知统计部分重点考查数据收集、处理的基本能力.抽样方法在高考中多为基础题,常以填空题的形式出现,以实际问题为背景,综合考查学生学习基础知识、解决实际问题的能力,考查热点为分层抽样、系统抽样.1理解随机抽样的必要性和重要性.2会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.1.(原创)为了抽查某城市汽车尾气排放执行标准情况,在该城市的主干道上采取抽取车牌末位数字为5的汽车检查,这种抽样方法称为________.答案:系统抽样解析:由于这种抽样方法采用抽取车牌末位数字为5的汽车检查,可以看成是将所有的汽车车牌号分段为若干段(一个车牌末位数字从0到9为一段),每一段抽取一个个体,因此它符合系统抽样的特征,故答案为系统抽样.2.(必修3P47练习1改编)为了解某校一次知识竞赛的1252名学生的成绩,决定采用系统抽样的方法抽取一个容量为50的样本,那么总体中随机剔除个体的数目是____________.答案:2解析:1252除以50的余数就是总体中需要随机剔除个体的数目.3.(必修3P49练习3改编)某中学高中一年级有400人,高中二年级有320人,高中三年级有280人,现从中抽取一个容量为200人的样本,则高中二年级被抽取的人数为________.答案:64解析:由题意,应采用分层抽样,则高中二年级被抽取的人数为320×错误!=64.4.(必修3P52习题2改编)某单位有200名职工,现要从中抽取40名职工作样本,用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,196~200号).若第5组抽出的号码为23,则第8组抽出的号码应是________.答案:38解析:由题意易见系统抽样的间隔为5,设第一段中抽取的起始的个体编号为l,由第5组抽出的号码为23得l+4×5=23,所以l=3,故第8组抽出的号码是3+7×5=38.5.(必修3P50例3改编)某城区有农民、工人、知识分子家庭共计2000家,其中农民家庭1800户,工人家庭100户.现要从中抽取容量为40的样本调查家庭收入情况,则在整个抽样过程中,可以用到下列抽样方法的是________.(填序号)1简单随机抽样;2系统抽样;3分层抽样.答案:123解析:由于各家庭有明显差异,所以首先应用分层抽样的方法分别从农民、工人、知识分子这三类家庭中抽出若干户,即36户、2户、2户.又由于农民家庭户数较多,那么在农民家庭这一层宜采用系统抽样;而工人、知识分子家庭户数较少,宜采用简单随机抽样法.故整个抽样过程要用到123三种方法.1.简单随机抽样(1)定义从个体数为N的总体中逐个不放回地取出n个个体作为样本(n<N),如果每个个体都有相同的机会被取到,那么这样的抽样方法称为简单随机抽样.(2)分类简单随机抽样错误!2.系统抽样的步骤假设要从容量为N的总体中抽取容量为n的样本,系统抽样的步骤为:(1)采用随机的方式将总体中的N个个体编号;(2)将编号按间隔k分段,当错误!是整数时,k=错误!;当错误!不是整数时,从总体中剔除若干个个体,使剩下的总体中个体的个数N′能被n整除,这时k=错误!,并将剩下的总体重新编号;(3)在第一段中用简单随机抽样确定起始的个体编号l;(4)按照一定的规则抽取样本,通常将编号为l,l+k,l+2k,…,l+(n—1)k的个体抽出.3.分层抽样当总体由差异明显的几个部分组成时,为了使样本更客观地反映总体情况,我们常常将总体中的个体按不同的特点分成层次比较分明的几部分,然后按各部分在总体中所占的比例实施抽样,这种抽样方法叫分层抽样.[备课札记]题型1简单随机抽样例1总体编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为________.7816 65720802631407024369 9728 01983204923449358200 362348696938 7481答案:01解析:依题意,第一次得到的两个数字为65,由于65>20,将它去掉;第二次得到的两个数字为72,由于72>20,将它去掉;第三次得到的两个数字为08,由于08<20,说明号码08在总体内,将它取出;继续向右读,依次可以取出02,14,07,02;但由于02在前面已经选出,故需要继续选一个.再选一个就是01.故选出来的第5个个体是01.错误!现要从20名学生中抽取5名进行问卷调查,请按正确的顺序表示抽取样本的过程:________(填序号).1编号:将20名学生按1到20进行编号;2装箱:将号签放在同一箱中,并搅拌均匀;3抽签:从箱中依次抽出5个号签;4制签:将1到20这20个号码写在形状、大小完全相同的号签上;5取样:将与号签号码相同的5个学生取出.答案:14235解析:由题意易知,本题的抽样方法是抽签法,根据抽样步骤知,正确的顺序为14235.题型2系统抽样例2下列抽样中是系统抽样的有__________.(填序号)1从标有1~15的15个球中,任取3个作为样本,按从小号到大号排序,随机选起点i0,以后i0+5,i0+10(超过15则从1再数起)号入样;2在用传送带将工厂生产的产品送入包装车间前,检验人员从传送带上每隔五分钟抽一件产品进行检验;3搞某一市场调查,规定在商场门口随机抽一个人进行询问,直到调查到事先规定的调查人数为止;4电影院调查观众的某一指标,通知每排(每排人数相等)座位号为14的观众留下来座谈.答案:124解析:系统抽样实际上是一种等距抽样,只要按照一定的规则(事先确定即可以).因此在本题中,只有3不是系统抽样,因为事先不知道总体,不能保证每个个体按事先规定的概率入样.错误!将参加夏令营的600名学生编号为:001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003,这600名学生分住在三个营区.从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区.三个营区被抽中的人数依次为________.答案:25,17,8解析:根据系统抽样的特点可知抽取的号码间隔为错误!=12,故抽取的号码构成以3为首项,公差为12的等差数列.在第Ⅰ营区001~300号恰好有25组,故抽取25人,在第Ⅱ营区301~495号有195人,共有16组多3人,因为抽取的第一个数是3,所以Ⅱ营区共抽取17人,剩余50—25—17=8人需从Ⅲ营区抽取.题型3分层抽样例3某高级中学共有学生3000名,各年级男、女生人数如下表:高一年级高二年级高三年级女生523x y男生487490z已知在全校学生中随机抽取1名,抽到高二年级女生的概率是0.17.若现需对各年级用分层抽样的方法在全校抽取300名学生,则应在高三年级抽取的学生人数为________.答案:99解析:由题设可知错误!=0.17,∴x=510.∴ 高三年级人数为y+z=3000—(523+487+490+510)=990,现用分层抽样的方法在全校抽取300名学生,应在高三年级抽取的人数为错误!×990=99.错误!(2013·石家庄检测)某单位200名职工的年龄分布情况如图,现要从中抽取40名职工作样本.用系统抽样法,将全体职工随机按1~200编号,并按编号顺序平均分为40组(1~5号,6~10号,…,196~200号).若第5组抽出的号码为22,则第8组抽出的号码应是________.若用分层抽样方法,则40岁以下年龄段应抽取________人.答案:37 20解析:由系统抽样知识可知,将总体分成均等的若干部分指的是将总体分段,且分段的间隔相等.在第1段内采用简单随机抽样的方法确定一个起始编号,在此编号的基础上加上分段间隔的整数倍即为抽样编号.由题意,第5组抽出的号码为22,因为2+(5—1)×5=22,则第1组抽出的号码应该为2,第8组抽出的号码应该为2+(8—1)×5=37.由分层抽样知识可知,40岁以下年龄段的职工占50%,按比例应抽取40×50%=20(人).1.某学校高一、高二、高三年级的学生人数之比为3∶3∶4,现用分层抽样的方法从该校高中三个年级的学生中抽取容量为50的样本,则应从高二年级抽取________名学生.答案:15解析:分层抽样又称分类抽样或类型抽样.将总体划分为若干个同质层,再在各层内随机抽样或机械抽样,分层抽样的特点是将科学分组法与抽样法结合在一起,分组减小了各抽样层变异性的影响,抽样保证了所抽取的样本具有足够的代表性.因此,由50×错误!=15知应从高二年级抽取15名学生.2.(2013·连云港调研)某单位有职工52人,现将所有职工按1、2、3、…、52随机编号,若采用系统抽样的方法抽取一个容量为4的样本,已知6号、32号、45号职工在样本中,则样本中还有一个职工的编号是________.答案:19解析:按系统抽样方法,分成4段的间隔为错误!=13,显然在第一段中抽取的起始个体编号为6,第二段应将编号6+13=19的个体抽出.这就是所要求的.3.(2013·湖南(文)改)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n=________.答案:13解析:(解法1)由分层抽样得错误!=错误!,解得n=13.(解法2)从甲乙丙三个车间依次抽取a,b,c个样本,则120∶80∶60=a∶b∶3a=6,b=4,所以n=a+b+c=13.4.(2013·潍坊模拟)某高中在校学生有2000人.为了响应“光体育运动”号召,学校开展了跑步和登山比赛活动.每人都参与而且只参与其中一项比赛,各年级参与比赛的人数情况如下表:高一年级高二年级高三年级跑步a b c登山x y z其中a∶b∶c=2∶3∶5,全校参与登山的人数占总人数的错误!.为了了解学生对本次活动的满意程度,从中抽取一个200人的样本进行调查,则从高二年级参与跑步的学生中应抽取________.答案:36人解析:根据题意可知样本中参与跑步的人数为200×错误!=120,所以从高二年级参与跑步的学生中应抽取的人数为120×错误!=36.1.(2013·金湖中学检测)某工厂生产A、B、C三种不同型号的产品,产品数量之比为3∶4∶7,现用分层抽样的方法抽取容量为n的样本,样本中A型号产品有15件,那么样本容量n为________.答案:70解析:由题意设A、B、C三种产品的数量分别为3k、4k、7k,则错误!=错误!,解得n=70.2.某中学开学后从高一年级的学生中随机抽取80名学生进行家庭情况调查,经过一段时间后,再次从这个年级随机抽取100名学生进行学情调查,发现有20名学生上次被抽到过,估计这个学校高一年级的学生人数为________.答案:400解析:根据抽样的等可能性,设高一年级共有x人,则错误!=错误!,∴x=400.3.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2, (960)分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A,编号落入区间[451,750]的人做问卷B,其余的人做问卷C.则抽到的人中,做问卷B的人数为________.答案:10解析:系统抽样也称等距抽样,分段间隔为错误!=30,由于第一组抽到的号码为9,所以后面各组抽到的号码成公差为30的等差数列,即第k组抽到的号码为9+30(k—1)=30k—21,做问卷B 的编号应满足451≤30k—21≤750,解得15错误!≤k≤25错误!,由于k∈N,所以k=16,17,…,25,这10组中每组抽一个个体,共抽到10个,故做问卷B的人数为10.4.下面给出某村委调查本村各户收入情况所作的抽样,阅读并回答问题:1本村人口:1200人;户数300户,每户平均人口数4人2应抽户数:303抽样间隔:错误!=404确定随机数字:取一张人民币,后两位数为125确定第一样本户:编号为12的户为第一样本户⑥确定第二样本户:12+40=52,52号为第二样本户⑦……(1)该村委采用了何种抽样方法?(2)抽样过程存在哪些问题,试改之;(3)何处用的是简单随机抽样?解:(1)系统抽样.(2)本题是对某村各户进行抽样,而不是对某村人口抽样.抽样间隔为错误!=10,其他步骤相应改为确定随机数字:取一张人民币,末位数为2(假设).确定第一样本户:编号为02的住户为第一样本户;确定第二样本户:2+10=12,12号为第二样本户;……(3)确定随机数字:取一张人民币,取其末位为2,这是简单随机抽样.1.正确把握三种抽样方法的适用范围及特点,能根据具体情况正确选择抽样方法:当总体中的个体个数较少时,通常采用简单随机抽样,一般可用从总体中逐个抽取的;当总体中的个体个数较多且均衡时,通常采用系统抽样,将总体平均分成几部分,按一定的规则分别在各部分中抽取;当总体是由差异明显的几部分组成时,则采用分层抽样,将总体按差异分成几层,按分层个体数之比抽取.2.实施简单随机抽样,主要有两种方法:抽签法和随机数表法.3.系统抽样也叫等距抽样,如果总体容量N能被样本容量n整除,则抽样间隔为k=错误!,否则需随机地从总体中剔除余数,然后重新分段进行系统抽样.4.分层抽样的关键是按“比例”,每层抽取的个体可以不一样多,按各层个体数占总体的个体数的比确定各层应抽取的样本容量,若按比例计算所得的个数不是整数,可作适当的近似处理.5.注意三种抽样方法的比较.无论采用何种抽样方法,必须保证在整个抽样过程中每个个体被抽到的机会相等.错误![备课札记]。
第十章算法、统计与概率第3课时统计初步(2)错误!考情分析考点新知用样本的频率分布、特征数来估计总体的分布,在高考中常以填空题的形式出现,以实际问题为背景,综合考查学生对基础知识的掌握程度以及一定的读图能力.热点问题是频率分布直方图和用样本的数字特征估计总体的数字特征.1了解分布的意义和作用,会列频率分布表,会画频率分布直方图、频率折线图、茎叶图,理解它们各自的特点.2理解样本平均数的意义和作用,会计算样本平均数、方差和标准差.3会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.4会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题. 1.(必修3P55练习2改编)一个容量为20的样本数据,分组后,组别与频数如下:组别[10,20)[20,30)[30,40)[40,50)[50,60)[60,70]频数234542则样本在(20,50]上的频率为________.答案:0.6解析:本题考查样本的频率运算.据表知样本分布在(20,50]的频数3+4+5=12,故其频率为错误!=0.6.2.(必修3P61练习2改编)某篮球运动员在7天中进行投篮训练的时间(单位:min)用茎叶图表示(如图),图中左列表示训练时间的十位数,右列表示训练时间的个位数,则该运动员这7天的平均训练时间为________min.答案:72解析:由茎叶图知平均训练时间为错误!=错误!×(64+65+67+72+75+80+81)=72.3.(必修3P68练习4改编)下表是一个容量为20的样本数据分组后的频数分布,若利用组中值计算本组数据的平均值错误!,则错误!=________.答案:16.5解析:错误!=错误!(12×4+15×6+18×6+21×4)=错误!×330=16.5.4.(必修3P71练习1改编)某射击选手连续射击5枪命中的环数分别为:9.7,9.9,10.1,10.2,10.1,则这组数据的方差为________.答案:0.032解析:数据9.7,9.9,10.1,10.2,10.1的平均数=错误!=10,方差=错误!(0.09+0.01+0.01+0.04+0.01)=0.032.故答案为0.032.5.小波一星期的总开支分布图如图1所示,一星期的食品开支如图2所示,则小波一星期的鸡蛋开支占总开支的百分比为________.答案:3%解析:由图2可知,鸡蛋占食品开支的比例为错误!=10%,结合图1可知小波在一个星期的鸡蛋开支占总开支的比例为30%×10%=3%.1.绘制频率分布表的步骤(1)求全距,决定组距和组数,组距=错误!.(2)分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间.(3)登记频数,计算频率,列出频率分布表.2.作频率分布直方图的方法(1)先制作频率分布表,然后作直角坐标系;(2)把横轴分成若干段,每一线段对应一个组的组距,然后以此线段为底作一矩形,它的高等于该组的错误!,这样得出一系列的矩形.(3)每个矩形的面积恰好是该组的频率,这些矩形就构成了频率分布直方图.3.茎叶图茎相同者共用一个茎(如两位数中的十位数),茎按从小到大的顺序从上向下列出,共茎的叶(如两位数中的个位数),一般按从小到大(或从大到小)的顺序同行列出.这样将样本数据有条理地列出来的图形叫做茎叶图.其优点是要样本数据较少时,茎叶图可以保留样本数据的所有信息,直观反映出数据的水平状况、稳定程度,且便于记录和表示;缺点是对差异不大的两组数据不易分析,且样本数据很多时效果不好.4.平均数、标准差和方差设一组样本数据x1,x2,…,x n,其平均数为x —,则x —=错误!,称s2=错误!错误!)2为这个样本的方差,称其算术平方根s=错误!为这个样本的标准差.[备课札记]题型1频率分布直方图及其应用例1(2013·南京二模)根据初我国发布的《环境空气质量指数AQI技术规定(试行)》,AQI 共分为六级:(0,50]为优,(50,100]为良,(100,150]为轻度污染,(150,200]为中度污染,(200,300]为重度污染,300以上为严重污染.12月1日出版的《A市早报》对A市11月份中30天的AQI进行了统计,频率分布直方图如图所示.根据频率分布直方图,可以看出A市该月环境空气质量优、良的总天数为________.答案:12解析:空气质量优、良的AQI指数小于等于100,由频率分布直方图知,其频率为(0.002+0.006)×50=0.4,所以该市11月份中30天的空气质量优、良的总天数为0.4×30=12.错误!(2013·常州高级中学模拟)根据国家质量监督检验检疫局发布的《车辆驾驶人员血液、呼气酒精含量阈值与检验》(GB19522—2004)中规定车辆驾驶人员血液酒精含量:“饮酒驾车非醉酒驾车”的临界值为20 mg/100 mL;“醉酒驾车”的临界值为80 mg/100 mL.某地区交通执法部门统计了5月份的执法记录数据:血液酒精含量(单位:mg/100 mL)0~2020~440~6060~8080~100根据此数据,可估计该地区5月份“饮酒驾车非醉酒驾车”发生的频率为________.答案:0.09解析:由统计表可知,“饮酒驾车非醉酒驾车”发生的频数为11+5+2=18,所以“饮酒驾车非醉酒驾车”发生的频率为错误!=0.09.题型2样本的数字特征例2(2013·江苏)抽样统计甲、乙两位射击运动员的5次训练成绩(单位:环),结果如下:则成绩较为稳定(方差较小)的那位运动员成绩的方差为________.答案:2解析:易得乙较为稳定,乙的平均值为:错误!=错误!=90.方差为:S2=[(89—90)2+(90—90)2+(91—90)2+(88—90)2+(92—90)2]/5=2.错误!已知2x1+1,2x2+1,2x3+1,…,2x n+1的方差是3,则x1,x2,x3,…,x n的标准差为________.答案:错误!解析:设x1,x2,x3,…,x n的标准差为s,则x1,x2,x3,…,x n的方差是s2,所以2x1+1,2x2+1,2x3+1,…,2x n+1的方差是4s2,由题意,4s2=3,所以s=错误!.题型3统计知识的综合应用例3(2013·辽宁)为了考察某校各班参加课外书法小组的人数,从全校随机抽取5个班级,把每个班级参加该小组的人数作为样本数据,已知样本平均数为7,样本方差为4,且样本数据互不相同,则样本数据中的最大值为________.答案:10解析:由已知可设5个班级参加的人数分别为x1,x2,x3,x4,x5,又s2=4,错误!=7,所以[(x—7)2+(x2—7)2+(x3—7)2+(x4—7)2+(x5—7)2]/5=4,所以(x1—7)2+(x21—7)2+(x3—7)2+(x4—7)2+(x5—7)2=20,即五个完全平方数之和为20,要使其中一个达到最大,这五个数必须是关于0对称分布的,而9+1+0+1+9=20,也就是(—3)2+(—1)2+02+12+32=20,所以五个班级参加的人数分别为4,6,7,8,10,最大数字为10.错误!(2013·启东中学训练)在样本的频率分布直方图中,共有9个小长方形,若第一个长方形的面积为0.02,前五个与后五个长方形的面积分别成等差数列且公差是互为相反数,若样本容量为1600,则中间一组(即第五组)的频数为_______.答案:360解析:设前五个长方形的面积成等差数列的公差为d,则9个小长方形的面积分别为0.02,0.02+d,0.02+2d,0.02+3d,0.02+4d,0.02+3d,0.02+2d,0.02+d,0.02,而小长方形的面积就是该组数据的频率,从而有9个小长方形的面积和为1,可得2(4×0.02+错误!d)+0.02+4d=1,解得d=错误!.所以第5组的频率为0.02+4×错误!=错误!,故第5组的频数为1600×错误!=360.1.(2013·盐城三模)下图是7位评委给某作品打出的分数的茎叶图,那么这组数据的方差是________.889990112答案:错误!解析:将茎叶图中的每个数据减去90,得7个数据为—2,—1,—1,0,1,1,2,易得平均数错误!=—2—1—1+0+1+1+2=0,所以它们的方差为s2=错误![(—2)2+(—1)2+(—1)2+02+12+12+22]=错误!.这也是原数据的方差.2.某市高三数学抽样考试中,对90分及其以上的成绩情况进行统计,其频率分布直方图如右下图所示,若(130,140]分数段的人数为90人,则(90,100]分数段的人数为________.答案:810解析:根据直方图,组距为10,在(130,140]内的错误!=0.005,所以频率为0.05,因为此区间上的频数为90,所以这次抽考的总人数为1800人.因为(90,100]内的错误!=0.045,所以频率为0.45,设该区间的人数为x,则由错误!=0.45,得x=810,即(90,100]分数段的人数为810.3.某班有48名学生,在一次考试中统计出平均分数为70,方差为75,后来发现有2名同学的成绩有误,甲实得80分却记为50分,乙实得70分却记为100分,更正后平均分和方差分别是________.答案:70,50解析:易得错误!没有改变,错误!=70,而s2=错误!·[(x错误!+x错误!+…+502+1002+…+x错误!)—48错误!2]=75,s′2=错误![(x错误!+x错误!+…+802+702+…+x错误!)—48错误!2]=错误![(75×48+48错误!2—12500+11300)—48错误!2]=75—错误!=75—25=50.4.某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是:[50,60),[60,70),[70,80),[80,90),[90,100].(1)求图中a的值;(2)根据频率分布直方图,估计这100名学生语文成绩的平均分;(3)若这100名学生语文成绩某些分数段的人数(x)与数学成绩相应分数段的人数(y)之比如下表所示,求数学成绩在[50,90)之外的人数.分数段[50,60)[60,70)[70,80)[80,90)x∶y1∶12∶13∶44∶5解:(1)依题意,得10×(2a+0.02+0.03+0.04)=1,解得a=0.005.(2)这100名学生语文成绩的平均分为55×0.05+65×0.4+75×0.3+85×0.2+95×0.05=73分.(3)数学成绩在[50,60)的人数为100×0.05=5,数学成绩在[60,70)的人数为100×0.4×错误!=20,数学成绩在[70,80)的人数为100×0.3×错误!=40,数学成绩在[80,90)的人数为100×0.2×错误!=25,所以数学成绩在[50,90)之外的人数为100—5—20—40—25=10.1.(2013·淮安一模)已知某同学五次数学成绩分别是:121,127,123,a,125,若其平均成绩是124,则这组数据的方差是________.答案:4解析:由题意,错误!(121+127+123+a+125)=124,解得a=124,故方差为s2=错误![(—3)2+32+(—1)2+02+12]=4.2.(2013·上海文)某学校高一年级男生人数占该年级学生人数的40%.在一次考试中,男、女生平均分数分别为75、80,则这次考试该年级学生平均分数为________.答案:78解析:平均成绩=错误!·75+错误!·80=78.3.(2013·山东文)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场做的9个分数的茎叶图后来有一个数据模糊,无法辨认,在图中以x表示:则7个剩余分数的方差为________.答案:错误!解析:由题意,0≤x≤9,故去掉的一个最低分为87,最高分为99,则有错误!(87+94+90+91+90+90+x+91)=91,解得x=4.所以剩余7个数的方差s2=错误![(87—91)2+2(90—91)2+2(91—91)2+2(94—91)2]=错误!.4.(2013·新课标全国卷Ⅰ)为了比较两种治疗失眠症的药(分别称为A药,B药)的疗效,随机地选取20位患者服用A药,20位患者服用B药,这40位患者在服用一段时间后,记录他们日平均增加的睡眠时间(单位:h).试验的观测结果如下:服用A药的20位患者日平均增加的睡眠时间:服用B药的20位患者日平均增加的睡眠时间:(1)分别计算两组数据的平均数,从计算结果看,哪种药的疗效更好?(2)根据两组数据完成下面茎叶图,从茎叶图看,哪种药的疗效更好?解:(1)设A药观测数据的平均数为x,B药观测数据的平均数为y.由观测结果可得错误!=错误!(0.6+1.2+1.2+1.5+1.5+1.8+2.2+2.3+2.3+2.4+2.5+2.6+2.7+2.7+2.8+2.9+3.0+3.1+3.2+3.5)=2.3,错误!=错误!(0.5+0.5+0.6+0.8+0.9+1.1+1.2+1.2+1.3+1.4+1.6+1.7+1.8+1.9+2.1+2.4+2.5+2.6+2.7+3.2)=1.6.由以上计算结果可得x>y, 因此可看出A药的疗效更好.(2)由观测结果可绘制如下茎叶图:从以上茎叶图可以看出,A药疗效的试验结果有错误!的叶集中在茎2、3上,而B药疗效的试验结果有错误!的叶集中在茎0、1上,由此可看出A药的疗效更好.1.总体分布反映的是总体在各个范围内取值的比例情况,而这种分布一般是不清晰的,所以用样本的分布估计总体分布,解频率分布表问题的关键是正确理解频率分布表,注意区分频数、频率的意义.2.对于每个个体所取不同数值较少的个体,常用条形图表示其样本分布,而对于每个个体所取不同数值较多或无限的总体,常用频率分布直方图表示其样本分布.解频率分布直方图问题,识图掌握信息是解决问题的关键,特别要注意纵、横坐标代表的意义及单位.3.描述数据的数字特征的有平均数、众数、中位数、方差等,其中平均数、众数、中位数描述其集中趋势,方差反映各个数据与其平均数的离散程度.解题时重在理解概念、公式并正确进行计算.错误![备课札记]。
2021高考数学一轮复习统计知识点知识点总结一般来说,统计包括三个含义:统计工作、统计资料和统计科学。
下面是整理的统计知识点,请考生认真学习。
(1)随机抽样①能从现实生活或其他学科中提出具有一定价值的统计问题。
②结合具体的实际问题情境,理解随机抽样的必要性和重要性。
③在参与解决统计问题的过程中,学会用简单随机抽样方法从总体中抽取样本;通过对实例的分析,了解分层抽样和系统抽样方法。
④能通过试验、查阅资料、设计调查问卷等方法收集数据。
(2)用样本估计总体①通过实例体会分布的意义和作用,在表示样本数据的过程中,学会列频率分布表、画频率分布直方图、频率折线图、茎叶图(参见例1),体会他们各自的特点。
②通过实例理解样本数据标准差的意义和作用,学会计算数据标准差。
③能根据实际问题的需求合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释。
④在解决统计问题的过程中,进一步体会用样本估计总体的思想,会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征;初步体会样本频率分布和数字特征的随机性。
⑤会用随机抽样的基本方法和样本估计总体的思想,解决一些简单的实际问题;能通过对数据的分析为合理的决策提供一些依据,认识统计的作用,体会统计思维与确定性思维的差异。
⑥形成对数据处理过程进行初步评价的意识。
(3)变量的相关性①通过收集现实问题中两个有关联变量的数据作出散点图,并利用散点图直观认识变量间的相关关系。
②经历用不同估算方法描述两个变量线性相关的过程。
知道最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程。
统计知识点的全部内容就为考生分享到这里,希望考生可以随时有进步。
第十二章统计1.随机抽样(1)理解随机抽样的必要性和重要性.(2)会用简单随机抽样方法从总体中抽取样本;了解分层抽样和系统抽样方法.2.用样本估计总体(1)了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.(2)理解样本数据标准差的意义和作用,会计算数据标准差.(3)能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释.(4)会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想.(5)会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.3.变量的相关性(1)会做两个有关联变量的数据的散点图,并利用散点图认识变量间的相关关系.(2)了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).4.了解回归分析的思想、方法及其简单应用.5.了解独立性检验的思想、方法及其初步应用.§12.1随机抽样1.简单随机抽样 (1)简单随机抽样:一般地,设一个总体含有N 个个体,从中逐个________地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会________,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样方法有两种:________法和________法.抽签法(抓阄法):一般地,抽签法就是把总体中的N 个个体________,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取______个号签,连续抽取________次,就得到一个容量为n 的样本.随机数法:随机数法就是利用______________、随机数骰子或计算机产生的随机数进行抽样.简单随机抽样有操作简便易行的优点,在总体个数不多的情况下是行之有效的.2.系统抽样(1)一般地,假设要从容量为N 的总体中抽取容量为n 的样本,我们可以按下列步骤进行系统抽样:①先将总体的N 个个体________.有时可直接利用个体自身所带的号码,如学号、准考证号、门牌号等;②确定分段间隔k ,对编号进行分段.当Nn(n 是样本容量)是整数时,取k =N n ,如果遇到Nn 不是整数的情况,可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除; ③在第1段用______________抽样方法确定第一个个体编号l (l ≤k ); ④按照一定的规则抽取样本.通常是将l 加上________得到第2个个体编号________,再________得到第3个个体编号________,依次进行下去,直到获取整个样本.(2)当总体中元素个数较少时,常采用____________,当总体中元素个数较多时,常采用______________.3.分层抽样(1)分层抽样的概念:一般地,在抽样时,将总体分成________的层,然后按照一定的________,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.(2)当总体是由__________的几个部分组成时,往往选用分层抽样的方法.(3)分层抽样时,每个个体被抽到的机会是________的.自查自纠:1.(1)不放回 都相等(2)抽签 随机数 编号 1 n 随机数表 2.(1)①编号 ③简单随机④间隔k (l +k ) 加k (l +2k ) (2)简单随机抽样 系统抽样 3.(1)互不交叉 比例 (2)差异明显 (3)均等某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①.在丙地区中有20个特大型销售点,要从中抽取7个,调查其销售收入和售后服务情况,记这项调查为②.则完成①,②这两项调查宜采用的抽样方法依次是( ) A.分层抽样法,系统抽样法B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法D.简单随机抽样法,分层抽样法 解:依据题意,第①项调查宜采用分层抽样法,第②项调查宜采用简单随机抽样法.故选B.§12.2用样本估计总体1.用样本的频率分布估计总体分布(1)通常我们对总体作出的估计一般分成两种:一种是用样本的__________估计总体的__________;另一种是用样本的________估计总体的__________.(2)在频率分布直方图中,纵轴表示________,数据落在各小组内的频率用________________表示.各小长方形的面积总和等于________.(3)连接频率分布直方图中各小长方形上端的中点,就得到频率分布________.随着样本容量的增加,作图时所分的________增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称之为______________,它能够更加精细地反映出____________________________________.(4)当样本数据较少时,用茎叶图表示数据的效果较好,它不但可以____________________,而且可以______________,给数据的记录和表示都带来方便.2.用样本的数字特征估计总体的数字特征(1)众数,中位数,平均数众数:在一组数据中,出现次数________的数据叫做这组数据的众数.中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或者最中间两个数据的________)叫做这组数据的中位数.平均数:样本数据的算术平均数,即x=______________.在频率分布直方图中,中位数左边和右边的直方图的面积应该________.(2)样本方差,样本标准差标准差s=1n[(x1-x)2+(x2-x)2+…+(x n-x)2],其中x n是__________________,n是________,x是________.标准差是反映总体__________的特征数,________是样本标准差的平方.通常用样本方差估计总体方差,当样本容量接近总体容量时,样本方差很接近总体方差.自查自纠:1.(1)频率分布分布数字特征数字特征(2)频率组距各小长方形的面积 1(3)折线图组数总体密度曲线总体在各个范围内取值的百分比(4)保留所有信息随时记录2.(1)最多平均数1n(x1+x2+…+x n)相等(2)样本数据的第n项样本容量平均数波动大小样本方差在频率分布直方图中,各个长方形的面积表示()A.落在相应各组的数据的频数B.相应各组数据的频率C.该样本所分成的组数D.该样本的样本容量解:在频率分布直方图中,小长方形面积=组距×频率组距=频率,所以每个小长方形的面积是相应各组数据的频率.故选B.§12.3 变量间的相关关系与线性回归方程1.变量间的相关关系常见的两变量之间的关系有两类:一类是确定性的函数关系,另一类是________;与函数关系不同,相关关系是一种________关系,带有随机性.2.两个变量的线性相关(1)如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这两个变量之间具有____________,这条直线叫________.(2)从散点图上看,如果点分布在从左下角到右上角的区域内,那么两个变量的这种相关关系称为________;如果点分布在从左上角到右下角的区域内,那么两个变量的这种相关关系称为________.※(3)相关系数r =∑∑∑===----n i nj jini iiy yx x y yx x 11221)()())((,当r >0时,表示两个变量正相关;当r <0时,表示两个变量负相关.r 的绝对值越接近 ,表示两个变量的线性相关性越强;r 的绝对值越接近 ,表示两个变量的线性相关性越弱.通常当r 的绝对值大于0.75时,认为两个变量具有很强的线性相关关系.3.回归直线方程(1)通过求Q =∑=--ni i ix y12)(βα的最小值而得出回归直线的方法,即使得样本数据的点到回归直线的距离的平方和最小的方法叫做 .该式取最小值时的α,β的值即分别为aˆ,b ˆ. (2)两个具有线性相关关系的变量的一组数据:(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程为a xb yˆˆˆ+=,则 ⎪⎪⎪⎩⎪⎪⎪⎨⎧-=--=---=∑∑∑∑====.x b y ax n x y x n y x x x y y x x b n i i n i i i ni i n i i i ˆˆ,)())((ˆ1221121自查自纠:1.相关关系 非确定性2.(1)线性相关关系 回归直线 (2)正相关 负相关 (3)1 03.最小二乘法在下列量与量的关系中,是相关关系的是( )①正方体的体积与棱长间的关系;②一块农田的水稻产量与施肥量的关系; ③人的身高与年龄的关系; ④家庭的支出与收入的关系. A .①②③ B .①③④ C .①②④ D .②③④解:①是函数关系,②③④皆为相关关系.故选D.观察下列各图形:其中两个变量x,y具有很强相关关系的图是()A.①②B.①④C.③④D.②③解:相关关系有两种情况:所有点看上去都在一条直线附近波动,是线性相关;若所有点看上去都在某条曲线(不是一条直线)附近波动,是非线性相关.①的相关性较弱,②中两变量几乎没有什么关系.而③④相关性很强.故选C.(2014·重庆)已知变量x与y正相关,且由观测数据算得样本平均数x=3,y=3.5,则由该观测数据算得的线性回归方程可能是()A.yˆ=0.4x+2.3 B.yˆ=2x-2.4C.yˆ=-2x+9.5 D.yˆ=-0.3x+4.4解:x与y正相关,排除C,D;B中方程不过样本点的中心(x,y),故选A.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归直线ax byˆˆˆ+=,可以估计和预测变量的取值和变化趋势.其中正确命题的序号是________.解:易知①②③均正确,故填①②③.某产品的广告费用x与销售额y的统计数据如下表:广告费用x(万元)423 5销售额y(万元)49263954根据上表可得回归方程y^=b^x+a^中的b^为9.4,据此模型预报广告费用为6万元时销售额为_________万元.解:由统计数据计算得x=3.5,y=42,代入y=9.4x+a^,得a^=9.1.∴当x=6时,y^=9.4×6+9.1=65.5(万元).故填65.5.类型一相关关系的判断下列变量之间的关系不是..相关关系的是()A.已知二次函数y=ax2+bx+c,其中a,c是已知常数,取b为自变量,因变量是这个函数的判别式Δ=b2-4acB.光照时间和果树亩产量C.降雪量和交通事故发生率D.每亩施用肥料量和粮食亩产量解:由函数关系和相关关系的定义可知,A中Δ=b2-4ac,因为a,c是已知常数,b为自变量,所以给定一个b的值,就有唯一确定的Δ与之对应,所以Δ与b之间是一种确定的关系,是函数关系.B,C,D中两个变量之间的关系都是相关关系.故选A.点拨:要注意函数关系与相关关系的区别:函数关系是确定性关系,而相关关系是随机的、不确定的.下列说法中正确的是()A.任何两个变量之间都有相关关系B.球的体积与该球的半径具有相关关系C.农作物的产量与施化肥量之间是一种确定性的关系D.某商品的生产量与该商品的销售价格之间是一种非确定性的关系解:A概念错误,B是函数关系,C中“确定性”说法错误.故选D.类型二 线性回归方程的有关概念为了考查两个变量x 和y 之间的线性关系,甲、乙两位同学各自独立做了10次和15次试验,并且利用线性回归方法,求得回归直线分别为l 1,l 2,已知两人得到的试验数据中,变量x 的平均值都等于s ,变量y 的平均值都等于t ,那么下列说法正确的是( )A .直线l 1和l 2一定有公共点(s ,t )B .直线l 1和l 2相交,但交点不一定是(s ,t )C .必有直线l 1∥l 2D .直线l 1和l 2必定重合解:线性回归直线方程为yˆ=a ˆ+b ˆx ,而a ˆ=y -bˆx ,即a ˆ=t -b ˆs .t =a ˆ+b ˆs .∴(s ,t )在回归直线上,即直线l 1和l 2必有公共点(s ,t ).故选A .点拨:回归方程一定通过样本点的中心(x ,y );中心相同的样本点的回归方程不一定相同.由一组样本数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )得到回归直线方程a x b yˆˆˆ+=,那么下面说法错误..的是( ) A .直线a x b yˆˆˆ+=必经过点(x ,y ) B .直线a x b yˆˆˆ+=至少经过点(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的一个点C .直线a x b yˆˆˆ+=的斜率b ˆ=∑∑==--ni ini ii xn xy x n yx 1221D .直线a x b y ˆˆˆ+=和各点(x 1,y 1),(x 2,y 2),…,(x n ,y n )的偏差∑=+-ni iia xb y12)]ˆˆ([是该坐标平面上所有直线与这些点的偏差中最小的解:回归直线方程a x b yˆˆˆ+=经过样本点的中心(x ,y ),可能不经过(x 1,y 1),(x 2,y 2),…,(x n ,y n )中的任何一点,这些点都分布在这条直线附近.故选B .类型三 散点图(1)对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图1;对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图2.由这两个散点图可以判断( )图1图2A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关解:由这两个散点图可以判断,变量x 与y 负相关,u 与v 正相关,故选C.点拨:点分布在从左下角到右上角的区域时,两个变量的相关关系为正相关;点分布在从左上角到右下角的区域时,两个变量的相关关系为负相关.(2)下面是一块田的水稻产量与施化肥量的一组观测数据(单位:kg):施化肥量15 20 25 30 35 40 45 水稻产量 320 330 360 410 460 470 480(Ⅰ)将上述数据制成散点图;(Ⅱ)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解:(Ⅰ)散点图如下:(Ⅱ)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大.图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长,不会一直随化肥施用量的增加而增长.点拨:任何一组数据(二元数据)都可以作出散点图,散点图可以直观地观察两个变量间的关系.(1)从左至右,观察下列三个散点图,变量x 与y 的关系依次为________(正相关记作①;负相关记作②;不相关记作③).解:散点图在左上角至右下角区域则负相关,反之,则正相关,散乱则不相关.故填①③②.(2)科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计:年平均气温12.51 12.84 12.84 13.69 13.33 12.74 13.05年降雨量748 542 507 813 574 701 432(Ⅰ)试画出散点图;(Ⅱ)判断两个变量是否具有线性相关关系.解:(Ⅰ)作出散点图如图所示.(Ⅱ)由散点图可知,各点并不在一条直线附近,所以两个变量不具有线性相关关系.类型四求回归方程及用回归方程进行估计下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y(吨标准煤)的几组对照数据:x 3 4 5 6y 2.5 3 4 4.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程;(3)已知该厂技术改造前100吨甲产品能耗为90吨标准煤,试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤?(参考值3×2.5+4×3+5×4+6×4.5=66.5)解:(1)散点图如下:(2)由系数公式可知,x=4.5,y=3.5,bˆ=66.5-4×4.5×3.586-4×4.52=0.7,aˆ=3.5-0.7×4.5=0.35,所以线性回归方程为yˆ=0.7x+0.35.(3)x=100时,yˆ=0.7x+0.35=70.35,所以预测生产100吨甲产品的生产能耗比技术改造前降低19.65吨标准煤.点拨:牢记求线性回归方程的步骤:(1)列表;(2)计算x,y,∑=niiiyx1,∑=niix12;(3)代入公式求bˆ,再利用x byaˆˆ-=求aˆ,(4)写出回归方程.(2014·全国Ⅱ)某地区2007年至2013年农村居民家庭人均收入y(单位:千元)的数据如下表:年份2007 2008 2009 2010 2011 2012 2013 年份代号t1 2 3 4 5 6 7 人均纯收入y2.93.3 3.64.4 4.85.2 5.9(1)求y关于t的线性回归方程;(2)利用(1)中的回归方程,分析2007年至2013年该地区农村居民人均收入的变化情况,并预测该地区2015年农村居民人均纯收入.附:回归直线的斜率和截距的最小二乘估计公式分别为:bˆ=∑∑==---niiniiittyytt121)())((,aˆ=y-t bˆ.解:(1)t=17(1+2+3+4+5+6+7)=4,y=2.9+3.3+3.6+4.4+4.8+5.2+5.97=4.3,bˆ=∑∑==---71271)4()3.4)(4(iiiiityt=0.5,aˆ=y-bˆt=4.3-0.5×4=2.3,所求线性回归方程为yˆ=0.5t+2.3.(2)由(1)知,bˆ=0.5>0,故2007年至2013年该地区农村居民家庭人均纯收入逐年增加,平均每年增加0.5千元.将2015年的年份代号t =9代入(1)中的回归方程,得yˆ=0.5×9+2.3=6.8,故预测该地区2015年农村居民家庭人均纯收入为6.8千元.1.在研究两个变量之间是否存在某种关系时,必须从散点图入手.对于散点图,可以做出如下判断:(1)如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.(2)如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系.(3)如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系.2.分析两个变量相关关系的常用方法: (1)利用散点图进行判断; (2)利用相关系数r 进行判断. 3.在复习本节内容时应注意:(1)回归分析是对具有相关关系的两个变量进行统计分析的方法,只有在散点图大致呈线性时,求出的回归直线方程才有实际意义,否则无意义.(2)根据回归方程进行的估计仅是一个预测值,而不是真实发生的值.(3)用最小二乘法求回归方程,关键在于正确求出系数aˆ,b ˆ,由于a ˆ,b ˆ的计算量较大,计算时应仔细小心.1.两个变量成负相关关系时,散点图的特征是( )A .点分布在从左下角到右上角的区域B .散点图在某方形区域内C .散点图在某圆形区域内D .点分布在从左上角到右下角的区域解:正确的只有D 选项.故选D.2.已知变量x ,y 具有线性相关关系,其散点图如图所示,则其回归直线方程可能是( ) A .12ˆ--=x y B .12ˆ+-=x yC .1ˆ-=x yD .12ˆ+=x y解:由图知回归直线的斜率是正数,纵截距是负数,故选C .3.对于给定的两个变量的统计数据,下列说法正确的是( )A .都可以分析出两个变量的关系B .都可以用一条直线通过近似表示两者关系来估计总体的均值C .都可以作出散点图D .都可以用确定的表达式表示两者的关系 解:任两个变量均可作出散点图,从散点图上看有相关关系的才具有分析的价值,无相关关系的则作不出什么结论.故选C.4.对四组数据进行统计,获得以下散点图,关于其相关系数比较,正确的是( )A .r 2<r 4<0<r 3<r 1B .r 4<r 2<0<r 1<r 3C .r 4<r 2<0<r 3<r 1D .r 2<r 4<0<r 1<r 3解:由相关系数定义及散点图所表达含义可知r 2<r 4<0<r 3<r 1,故选A. 5.(2014·湖北)根据如下样本数据: x 3 4 5 6 7 8 y 4.0 2.5 -0.5 0.5 -2.0 -3.0得到的回归方程为a x b y ˆˆˆ+=,则( ) A.a ˆ>0,b ˆ<0 B.a ˆ>0,b ˆ>0 C.aˆ<0,b ˆ<0 D.a ˆ<0,b ˆ>0 解:x =5.5,y =0.25,b ˆ=∑∑==--61226166i i i i i x x yx y x =-1914<0,a ˆ=y -b ˆx =0.25-⎝⎛⎭⎫-1914×5.5=547>0(作样本数据的散点图,也易选A).故选A. 6.变量X 与Y 相对应的一组数据为(10,1),(11.3,2),(11.8,3),(12.5,4),(13,5);变量U 与V 相对应的一组数据为(10,5),(11.3,4),(11.8,3),(12.5,2),(13,1).r 1表示变量Y 与X 之间的线性相关系数,r 2表示变量V 与U 之间的线性相关系数,则( )A .r 2<r 1<0B .0<r 2<r 1C .r 2<0<r 1D .r 2=r 1解:对于变量Y 与X 而言,Y 随X 的增大而增大,故Y 与X 正相关;对于变量V 与U 而言,V 随U 的增大而减小,故V 与U 负相关,故r 2<0<r 1.故选C.7.某市物价部门对本市的5家商场的某商品的一天销售量及其价格进行调查,得到售价x (元)和销售量y (件)之间的一组数据如下表:价格x 9 9.5 10 10.5 11 销售量y 11 10 8 6 5 由散点图可知,销售量y 与价格x 之间有较好的线性相关关系,其线性回归直线方程是:yˆ=-3.2x +a ,则a =______.解:价格的平均数x =9+9.5+10+10.5+115=10,销售量的平均数y =11+10+8+6+55=8,由yˆ=-3.2x +a 知b =-3.2,所以a =y -b x =8+3.2×10=40.故填40.8.某数学老师身高176cm ,他爷爷、父亲和儿子的身高分别是173cm 、170cm 和182cm.因儿子的身高与父亲的身高有关,该老师用线性回归分析的方法预测他孙子的身高为________cm.解:根据题中所提供的信息,可知父亲与儿子的身高的对应数据可列表如下:父亲的身高(x) 173 170 176 儿子的身高(y) 170 176 182x =173,y =176,∴bˆ=∑∑==---31231)())((i ii iix x y y x x=3×6(-3)2+32=1,a ˆ=y -b ˆx =176-173=3. ∴回归直线方程为yˆ=x +3,从而可预测他孙子的身高为182+3=185(cm).故填185.9.假设关于某种设备的使用年限x (年)与所支出的维修费用y (万元)有如下统计资料:x 2 3 4 5 6 y 2.2 3.8 5.5 6.5 7.0 已知∑=512i i x =90,∑=51i i i y x =112.3.(1)求x ,y ;(2)如果x 与y 具有线性相关关系,求出线性回归方程;(3)估计使用年限为10年时,维修费用约是多少?解:(1)x =2+3+4+5+65=4,y =2.2+3.8+5.5+6.5+7.05=5. (2) bˆ=∑∑==--51225155i i i i i x xyx y x =112.3-5×4×590-5×42=1.23,aˆ=y -b ˆx =5-1.23×4=0.08. 所以线性回归方程为yˆ=1.23x +0.08. (3)当x =10时,y ˆ=1.23×10+0.08=12.38(万元),即估计使用年限为10年时,维修费用约为12.38万元.10.下表给出了某校10名学生的身高(单位:cm)与体重(单位:kg):身高/cm 151 152 153 154 156 157 158 160 162 163 体重/kg40 41 41 41.5 42 42.5 43 44 45 46 试画出散点图,并观察它们是否有相关关系. 解:散点图如图所示:这10名学生的体重和身高具有相关关系. 11.某公司利润y 与销售总额x (单位:千万元)之间有如下对应数据:x 10 15 17 20 25 28 32 y 1 1.3 1.8 2 2.6 2.7 3.3 (1)画出散点图; (2)求回归直线方程;(3)估计销售总额为24千万元时的利润.参考数据:∑==7123447i i x ,∑==713.346i ii yx解:(1)散点图如图所示:(2)x =17(10+15+17+20+25+28+32)=21,y =17(1+1.3+1.8+2+2.6+2.7+3.3)=2.1,bˆ=∑∑==--71227177i i i i i x xyx y x =346.3-7×21×2.13447-7×212≈0.104,aˆ=y-bˆx=2.1-0.104×21=-0.084,∴yˆ=0.104x-0.084.(3)把x=24(千万元)代入方程得yˆ=2.412(千万元).∴销售总额为24千万元时,估计利润为2.412千万元.某兴趣小组欲研究昼夜温差大小与患感冒人数多少之间的关系,他们分别到气象局与某医院抄录了1至6月份每月10号的昼夜温差情况与因患感冒而就诊的人数,得到如下资料:日期1月10号2月10号3月10号4月10号5月10号6月10号昼夜温差x(℃)10 11 13 12 8 6就诊人数y(个)22 25 29 26 16 12该兴趣小组确定的研究方案是:先从这六组数据中选取2组,用剩下的4组数据求线性回归方程,再用被选取的2组数据进行实验.(1)求选取的2组数据恰好是相邻两个月的概率;(2)若选取的是1月与6月的两组数据,请根据2至5月份的数据,求出y关于x的线性回归方程;(3)若由线性回归方程得到的估计数据与所选出的检验数据的误差均不超过2人,则认为得到的线性回归方程是理想的,试问该小组所得线性回归方程是否理想?解:(1)设“抽到相邻两个月的数据”为事件A,因为从6组数据中选取2组数据共有C26=15种情况,每种情况都是等可能出现的,其中抽到相邻两个数据的情况有5种,所以P(A)=515=13.(2)由数据求得x=11,y=24.由公式求得bˆ=187.再由aˆ=y-bˆx,求得aˆ=-307.所以y关于x的线性回归方程为yˆ=187x-307.(3)当x=10时,yˆ=1507,⎪⎪⎪⎪1507-22=47<2;当x=6时,yˆ=787,⎪⎪⎪⎪787-12=67<2.所以,该小组所得的线性回归方程是理想的.§12.4 统计案例1.回归分析(1)回归分析是对具有相关关系的两个变量进行统计分析的一种常用方法.(2)线性回归模型用y =bx +a +e 表示,其中a 和b 为模型的未知参数,e 称为____________.满足E (e )=__________,D (e )=σ2,σ2越小,精度越________.(3)在具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n )中,回归方程的斜率和截距的最小二乘估计公式分别为:⎪⎪⎪⎩⎪⎪⎪⎨⎧-=---=∑∑==.ˆˆˆ)())((ˆ121xb y ax x y y x x b ni i n i i i 其中x =1n∑=ni i x 1,y =1n ∑=ni i y 1, 称为样本点的中心.(4)残差:i e ˆ= 称为相应于点(i x ,i y )的残差,残差平方和为 . (5)相关指数R 2=.R 2越大,说明残差平方和 ,即模型的拟合效果 ;R 2越小,残差平方和 ,即模型的拟合效果 .在线性回归模型中,R 2表示解释变量对于预报变量变化的 ,R 2越接近于1,表示回归的效果 .2. 独立性检验(1)变量的不同“值”表示个体所属的不同类别,像这样的变量称为___________.(2)像下表所示列出两个分类变量的频数表,称为___________.假设有两个分类变量X 和Y ,它们的可能取值分别为{x 1,x 2}和{y 1,y 2 },其样本频数列联表(称为2×2列联表)为y 1 y 2 总计 x 1 a b a+b x 2 c d c+d 总计 a+c b+d a+b+c+d 构造一个随机变量K 2=___________, 其中n =a+b+c+d 为样本容量.如果K 2的观测值k ≥k 0,就认为“两个分类变量之间有关系”;否则就认为“两个分类变量之间没有关系”.我们称这样的k 0为一个判断规则的临界值.按照上述规则,把“两个分类变量之间没有关系”错误地判断为“两个分类变量之间有关系”的概率不超过P (K 2≥k 0).上面这种利用随机变量K 2来判断“两个分类变量有关系”的方法称为___________.【自查自纠】1. (2) 随机误差 0 高 (3)(x ,y )(4)i i yy ˆ- ∑=-ni i iyy12)ˆ( (5)1-∑∑==--n i ini i iy yyy1212)()ˆ( 越小 越好 越大 越差 贡献率 越好2.(1)分类变量 (2)列联表n (ad -bc )2(a +b )(c +d )(a +c )(b +d )独立性检验r 是相关系数,则下列叙述中正确的个数为( )①r ∈[-1,-0.75]时,两变量负相关很强; ②r ∈[0.75,1]时,两变量正相关很强;③r ∈(-0.75,-0.3]或[0.3,0.75)时,两变量相关性一般;④r =0.1时,两变量相关性很弱. A .1 B .2 C .3 D .4解:|r|越大,两变量相关性越强.故选D. 在回归分析中,代表了数据点和它在回归直线上相应位置差异的是( )A .总偏差平方和B .残差平方和C .回归平方和D .相关指数R 2解:残差平方和描述了数据点和它在回归直线上相应位置的差异,故选B.利用独立性检验来考察两个分类变量X 和Y 是否有关系时,通过查阅下表来确定“X 与Y 有P(K 2≥k 0)0.50 0.40 0.25 0.15 0.10 0.05 0.025 0.010 0.005 0.001k00.455 0.708 1.323 2.072 2.706 3.841 5.024 6.635 7.879 10.82 8如果K2≥5.024,那么有把握认为“X与Y有关系”的百分数为()A.25% B.75% C.2.5% D.97.5%解:∵K2≥5.024,而在观测值表中对应于5.024的是0.025,∴有1-0.025=97.5%的把握认为“X 和Y有关系”.故选D.在回归分析中,相关指数R2的值越大,说明残差平方和________.解:R2越大,残差平方和越小,故填越小.下面是一个2×2列联表y1y2总计x1 a 21 73x212 25 37总计 b 46则表中a,b处的值分别为________.解:∵a+21=73,∴a=52.又∵a+12=b,∴b=64.故填52,64.类型一回归分析的相关概念(1)两个变量y与x的回归模型中,分别选择了4个不同模型,它们的相关指数R2如下,其中拟合效果最好的模型是()A.模型1的相关指数R2为0.98B.模型2的相关指数R2为0.80C.模型3的相关指数R2为0.50D.模型4的相关指数R2为0.25解:相关指数越大,模型拟合效果越好.故选A.(2)下列四个命题:①残差平方和越小的模型,拟合的效果越好;②用相关指数R2来刻画回归效果,R2越小,说明模型拟合的效果越好;③散点图中所有点都在回归直线附近;④随机误差e满足E(e)=0,其方差D(e)的大小可用来衡量预报精确度.其中正确命题的个数是()A.1 B.2 C.3 D.4解:②中R2越大,拟合效果越好;③中回归直线同样可以远远偏离变异点;①④正确.注意④,e 是随机变量,其方差衡量预报精度.故选B.点拨:回归模型的诊断主要是看残差图上、下是否大致均匀分布.另外相关指数R2也决定着模型拟合的优劣,R2越大,模型拟合效果越好.而随机误差e 满足E(e)=0,D(e)=σ2,σ2越小,线性回归模型预报真实值的精度越高.(1)如图的5个数据,去掉D(3,10)后,下列说法错误..的是()A.相关系数r变大B.残差平方和变大C.相关指数R2变大D.解释变量x与预报变量y的相关性变强解:观察可知,去掉D(3,10)后,拟合效果更好.因此相关系数变大,残差平方和变小,相关指数变大,解释变量与预报变量的相关性变强.故选B.(2)给出下列结论:①回归分析中,可用相关指数R2判断模型的拟合效果,R2越大,模型的拟合效果越好;②回归分析中,可用残差平方和判断模型的拟合效果,残差平方和越大,模型的拟合效果越好;③回归分析中,可用相关系数r的值判断模型的拟合效果,r越大,模型的拟合效果越好;④回归分析中,可用残差图判断模型的拟合效果,残差点比较均匀地落在水平的带状区域中,说明这样的模型比较合适,带状区域的宽度越窄,说明模型的拟合精度越高.以上结论中,正确的个数为()A.1 B.2 C.3 D.4解:②的判断正好相反;③应改为|r|越大,模型拟合效果越好,①④正确.故选B.类型二回归分析(1)已知某商品的价格x(元)与需求量y(件)之间的关系有如下一组数据:x14 16 18 20 22y12 10 7 5 3(Ⅰ)画出y关于x的散点图;(Ⅱ)用最小二乘法求出回归直线方程;(Ⅲ)计算R2的值,并说明回归模型拟合程度的好坏.解:(Ⅰ)散点图如图所示.。
专题10.1统计与统计案例练基础1.对变量x ,y 有观测数据(x i ,y i )(i =1,2,…,10),得散点图如图①,对变量u ,v 有观测数据(u i ,v i )(i =1,2,…,10),得散点图如图②.由这两个散点图可以判断()A .变量x 与y 正相关,u 与v 正相关B .变量x 与y 正相关,u 与v 负相关C .变量x 与y 负相关,u 与v 正相关D .变量x 与y 负相关,u 与v 负相关【答案】C【解析】由散点图可得两组数据均线性相关,且图①的线性回归方程斜率为负,图②的线性回归方程斜率为正,则由散点图可判断变量x 与y 负相关,u 与v 正相关.2.(2021·四川·成都七中高三期中(文))奥运会跳水比赛中共有7名评委给出某选手原始评分,在评定该选手的成绩时,去掉其中一个最高分和一个最低分,得到5个有效评分,则与7个原始评分(不全相同)相比,一定会变小的数字特征是()A .众数B .方差C .中位数D .平均数【答案】B 【分析】根据题意,由数据的中位数、平均数、方差、众数的定义,分析可得答案.【详解】对于A :众数可能不变,如8,7,7,7,4,4,1,故A 错误;对于B :方差体现数据的偏离程度,因为数据不完全相同,当去掉一个最高分、一个最低分,一定使得数据偏离程度变小,即方差变小,故B 正确;对于C :7个数据从小到大排列,第4个数为中位数,当首、末两端的数字去掉,中间的数字依然不变,故5个有效评分与7个原始评分相比,不变的中位数,故C 错误;对于C :平均数可能变大、变小或不变,故D 错误;故选:B3.(2020·安徽·高三学业考试)已知某学校高二年级的一班和二班分别有m 人和n 人()m n ≠.某次学校考试中,两班学生的平均分分别为a 和()b a b ≠,则这两个班学生的数学平均分为()A .2a b +B .ma nb +C .ma nb m n++D .a b m n++【答案】C 【分析】利用平均数公式可求得结果.【详解】这两个班学生的数学总分为ma nb +,故这两个班学生的数学平均分为ma nbm n++.故选:C.4.(2021·天津·南开中学高三月考)某校有200位教职员工,他们每周用于锻炼所用时间的频率分布直方图如图所示,据图估计,每周锻炼时间在[8,12]小时内的人数为()A .18B .46C .54D .92【答案】D 【分析】由频率分布直方图求出每周锻炼时间在[8,12]小时内的频率,由此能求出每周锻炼时间在[8,12]小时内的人数.【详解】由频率分布直方图得:每周锻炼时间在[10,12]小时内的频率为:1﹣(0.03+0.06+0.18+0.14)×2=0.18,∴每周锻炼时间在[8,12]小时内的频率为:0.1420.180.46⨯+=∴每周锻炼时间在[8,12]小时内的人数为:200×0.46=92.故选:D .5.(2017·全国高考真题(理))某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了2014年1月至2016年12月期间月接待游客量(单位:万人)的数据,绘制了如图所示的折线图.根据该折线图,下列结论错误的是()A .月接待游客量逐月增加B .年接待游客量逐年增加C .各年的月接待游客量高峰期大致在7,8月D .各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳【答案】A 【解析】对于选项A ,由图易知月接待游客量每年7,8月份明显高于12月份,故A 错;对于选项B ,观察折线图的变化趋势可知年接待游客量逐年增加,故B 正确;对于选项C ,D ,由图可知显然正确.故选A.6.(2017课标1,文2)为评估一种农作物的种植效果,选了n 块地作试验田.这n 块地的亩产量(单位:kg )分别为x 1,x 2,…,x n ,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A .x 1,x 2,…,x n 的平均数B .x 1,x 2,…,x n 的标准差C .x 1,x 2,…,x n 的最大值D .x 1,x 2,…,x n 的中位数【答案】B 【解析】刻画评估这种农作物亩产量稳定程度的指标是标准差,故选B7.(2019·全国高考真题(文))某学校为了解1000名新生的身体素质,将这些学生编号为1,2,…,1000,从这些新生中用系统抽样方法等距抽取100名学生进行体质测验,若46号学生被抽到,则下面4名学生中被抽到的是A .8号学生B .200号学生C .616号学生D .815号学生【答案】C 【解析】由已知将1000名学生分成100个组,每组10名学生,用系统抽样,46号学生被抽到,所以第一组抽到6号,且每组抽到的学生号构成等差数列{}n a ,公差10d =,所以610n a n =+()n *∈N ,若8610n =+,则15n =,不合题意;若200610n =+,则19.4n =,不合题意;若616610n =+,则61n =,符合题意;若815610n =+,则80.9n =,不合题意.故选C .8.(2021·吉林·桦甸市第四中学高三月考(理))在“双11”促销活动中,某网店在11月11日9时到14时的销售额进行统计,其频率分布直方图如图所示,已知12时到14时的销售额为42万元,则9时到11时的销售额为()A .9万元B .18万元C .24万元D .30万元【答案】D 【分析】根据频率分布直方图,利用频率比与销售额的比相等,即可求出对应的值.【详解】解:根据频率分布直方图知,12时到14时的频率为0.35,9时到11时的频率为10.40.250.100.25---=,所以9时到11时的销售额为:0.2542300.35⨯=(万元).故选:D9.(2021·内蒙古赤峰·高三月考(文))汽车的“燃油效率”是指汽车每消耗1L 汽油行驶的里程,如图描述了甲、乙、丙三辆汽车在不同速度下的燃油效率情况.下列叙述中正确的是()A .消耗1L 汽油,乙车最多可行驶5kmB .甲车以80km/h 的速度行驶1h 消耗8L 汽油C .以相同速度行驶相同路程,三辆车中,甲车消耗汽油最多D .若机动车最高限速80km/h ,在相同条件下,乙,丙两辆车节油情况无法比较.【答案】B 【分析】结合图象逐项分析即得.【详解】由题可知,当乙车速度大于40km/h 时,乙车每消耗1升汽油,行驶里程都超过5km ,A 错误;甲车以80km/h 的速度行驶时,燃油效率为10km/L,则行驶1h 消耗8L 汽油,B 正确;以相同速度行驶相同路程,燃油效率越高耗油越少,故三辆车中甲车消耗汽油最少,C 错误;在机动车最高限速80km/h 在相同条件下,丙车比乙车燃油效率更高,所以更节油,D 错误.故选:B10.(2020·新疆·克拉玛依市教育研究所三模(理))已知某种商品的广告费支出x (单位:万元)与销售额y (单位:万元)之间有如下对应数据:x24568y3040506070根据上表可得回归方程为^^y bx a =+,计算得^7b =,则当投入10万元广告费时,销售额的预报值为()A .75万元B .85万元C .95万元D .105万元【答案】B 【分析】根据表中数据求出x 和y ,从而求得样本中心(,)x y ,代入回归方程ˆ7ˆyx a =+后求得ˆa ,再令10x =时,即可求出销售额的预报值.【详解】解:由题意得1(24568)55x =++++=,1(3040506070)505y =++++=,∴样本中心为(5,50),∵回归直线ˆ7ˆyx a =+过样本中心(5,50),∴ˆ5075a=⨯+,解得:ˆ15a =,∴回归直线方程为ˆ715yx =+,当10x =时,710158ˆ5y=⨯+=,故当投入10万元广告费时,销售额的预报值为85万元.故选:B .练提升1.(2021·河南·高三月考(理))某校为了解学生体能素质,随机抽取了50名学生,进行体能测试.并将这50名学生成绩整理得如下频率分布直方图.根据此频率分布直方图.下列结论中不正确的是()A .这50名学生中成绩在[]80,100内的人数占比为20%B .这50名学生中成绩在[)60,80内的人数有26人C .这50名学生成绩的中位数为70D .这50名学生的平均成绩68.2x =(同一组中的数据用该组区间的中点值做代表)【答案】C 【分析】利用频率分布直方图求解判断.【详解】根据此频率分布直方图,成绩在[]80,100内的频率为0.0080.0121020(.)0+⨯=,所以A 正确;这50名学生中成绩在[)60,80内的人数为()0.0320.020105026,+⨯⨯=所以B 正确;根据此频率分布直方图,0.0080.02100.280.5()+⨯=<,0.0080.020.032100.()60.5++⨯=>,可得这50名学生成绩的中位数()60,70∈,所以C 错误﹔根据频率分布直方图的平均数的计算公式,可得:450.08550.2650.32750.2850.12950.0868.2,x =⨯+⨯+⨯⨯+⨯+⨯=+所以D 正确.故选:C.2.(2021·云南大理·模拟预测(理))在发生某公共卫生事件期间,有专业机构认为该事件在一段事件内没有发生大规模群体感染的标志是“连续10日,每天新增疑似病例不超过7人”.过去10日,甲、乙、丙、丁四地新增疑似病例数据信息如下:甲地:总体平均数为3,中位数为4;乙地:总体平均数为1,总体方差大于0;丙地:中位数为2,众数为3;丁地:总体平均数为2,总体方差为3.则甲、乙、丙、丁四地中,一定没有发生大规模群体感染的是()A .甲地B .乙地C .丙地D .丁地【答案】D 【分析】通过反例可知甲乙丙三地均不符合没有发生大规模群体感染的标志;假设丁地某天数据为8,结合平均数可知方差必大于3,由此知丁地没有发生大规模群体感染.【详解】对于甲地,若连续10日的数据为0,0,0,0,4,4,4,4,4,10,则满足平均数为3,中位数为4,但不符合没有发生大规模群体感染的标志,A 错误;对于乙地,若连续10日的数据为0,0,0,0,0,0,0,0,0,10,则满足平均数为1,方差大于0,但不符合没有发生大规模群体感染的标志,B 错误;对于丙地,若连续10日的数据为0,0,1,1,2,2,3,3,3,10,则满足中位数为2,众数为3,但不符合没有发生大规模群体感染的标志,C 错误;对于丁地,若总体平均数为2,假设有一天数据为8人,则方差()22182 4.538s >⨯-=>,不可能总体方差为3,则不可能有一天数据超过7人,符合没有发生大规模群体感染的标志,D 正确.故选:D.3.(2021·广东茂名·高三月考)某市居民月均用水量的频率分布直方图如图所示:其众数1X ,中位数2X ,平均数X 的估计值分为,则下列结论正确的是()A .21X X X >>B .21X X X >>C .12X X X >>D .21X X X>>【答案】A 【分析】根据频率直方图计算众数1X ,中位数2X ,平均数X 的估计值,再比较它们的大小即可.【详解】由直方图知,众数19.2 5.27.22X +==,中位数2X 在(5.2,9.2)上,则20.0540.1( 5.2)0.5X ⨯+⨯-=,解得28.2X =,平均数0.2 3.20.47.20.1211.20.08(15.223.2)0.06(19.227.2)X =⨯+⨯+⨯+⨯++⨯+10.72=.∴21X X X >>.故选:A .4.(2021·云南·曲靖一中高三月考(文))有20名学生参加数学夏令营活动,分A ,B 两组进行,每组10人夏令营结束时对两组学生进行了一次考核,考核成绩的茎叶图如图所示.则下列说法错误的是()A .A 组学生考核成绩的众数是78B .A ,B 两个组学生平均成绩一样C .B 组考核成绩的中位数是79D .A 组学生成绩更稳定【答案】C 【分析】利用茎叶图逐项求解判断.【详解】A.A 组学生考核成绩的众数是78,故正确;B.因为()1647275787879868591928010A x =+++++++++=,()1626770787984858793958010B x =+++++++++=,故正确;C.B 组考核成绩的中位数是798481.52+=,故错误;D.()()()()()222221[6480728075807880788010A D =-+-+-+-+-,()()()()()2222279808680858091809280]56+-+-+-+-+-=,()()()()()222221[6280678070807880798010B D =-+-+-+-+-,()()()()()2222284808580878093809580]92.2+-+-+-+-+-=,故正确.故选:C5.(2021·辽宁丹东·高三期中)高三(1)班男女同学人数之比为3:2,班级所有同学进行踢毽球(毽子)比赛,比赛规则是:每个同学用脚踢起毽球,落地前用脚接住并踢起,脚接不到毽球比赛结束.记录每个同学用脚踢起毽球开始到毽球落地,脚踢到毽球的次数,已知男同学用脚踢到毽球次数的平均数为17,方差为11,女同学用脚踢到毽球次数的平均数为12,方差为16,那么全班同学用脚踢到毽球次数的平均数和方差分别为()A .14.5,13.5B .15,13C .13.5,19D .15,19【答案】D 【分析】设男同学为3a 人,女同学为2a 人,根据平均数公式及方差公式计算可得;【详解】解:设男同学为3a 人,女同学为2a 人,则全班的平均数为1731221532a aa a⨯+⨯=+,设男同学为1x ,2x ,L ,3a x ,女同学为1y ,2y ,L ,2a y ,则12331751a x x x a a +++=⨯= ,12221224a y y y a a +++=⨯= ,所以男同学的方差()()()222123171717113a x x x a-+-++-= ①,女同学的方差()()()222122121212162a y y y a-+-++-= ②;由①可得()22221231233331734a a a x x x a x x x =++++⨯-+++ ,即222123900a x x x a +++= ,由②可得()22221221223224212a a a y y y a y y y a =++++-++++⨯ ,即222122320a y y y a +++= ,所以全班同学的方差为()()()()()()2222221231221515151515155a a x x x y y y a-+-++-+-+-++- 即()()2222222212312312212230315302155a a a a x x x x x x a y y y y y y a a +++-++++⨯++++-++++⨯ 2290030513153203024215195a a a a a a a-⨯+⨯+-⨯+⨯==故选:D6.(2021·广东福田·高三月考)为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入调查数据整理得到如下频率分布直方图(如图):根据此频率分布直方图,下面结论中正确的是()A .该地农户家庭年收入低于4.5万元的农户比率估计为6%B .该地农户家庭年收入的中位数约为7.5万元C .估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间D .估计该地农户家庭年收入的平均值不超过6.5万元【答案】ABC 【分析】根据频率分布直方图求出该地农户家庭年收入低于4.5万元的农户得频率即可判断A ;根据频率分布直方图求出中位数即可判断B ;根据频率分布直方图求出家庭年收入介于4.5万元至8.5万元之间频率解判断C ;根据频率分布直方图求出平均数即可判断D.【详解】解:对于A ,该地农户家庭年收入低于4.5万元的农户得频率为0.020.040.066%+==,所以比率估计为6%,故A 正确;对于B ,因为0.020.040.100.140.200.5++++=,所以该地农户家庭年收入的中位数约为7.5万元,故B 正确;对于C ,家庭年收入介于4.5万元至8.5万元之间频率为0.100.140.200.200.640.5+++=>,所以估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间,故C 正确;对于D ,该地农户家庭年收入的平均值为30.0240.0450.160.1470.280.290.1⨯+⨯+⨯+⨯+⨯+⨯+⨯100.1110.04120.02130.02140.027.68 6.5+⨯+⨯+⨯+⨯+⨯=>,所以估计该地农户家庭年收入的平均值超过6.5万元,故D 错误.故选:ABC.7.(2021·西藏·拉萨那曲第二高级中学高三月考(文))某中学随机抽查了50名同学的每天课外阅读时间,得到如下统计表:时长(分)(]0,10(]10,20(]20,30(]30,40(]40,50人数41014184(1)求这50名同学的平均阅读时长(用区间中点值代表每个人的阅读时长);(2)在阅读时长位于(]40,50的4人中任选2人,求甲同学被选中的概率;(3)进一步调查发现,语文成绩和每天的课外阅读时间有很大关系,每天的课外阅读时间多于半小时称为“阅读迷”,语文成绩达到120分视为优秀,根据每天的课外阅读时间和语文成绩是否优秀,制成一个22⨯列联表:阅读迷非阅读迷合计语文成绩优秀20323语文成绩不优秀22527合计222850根据表中数据,判断是否有99%的把握认为语文成绩是否优秀与课外阅读时间有关.参考公式:()()()()()22n ad bcKa b c d a c b d-=++++,其中n a b c d=+++.参考数据:()2P K k≥0.400.250.100.010 0k0.708 1.323 2.706 6.635【答案】(1)26.6小时;(2)12;(3)有,理由见解析.【分析】(1)将每组的中点值乘以对应组的人数相乘,将所求结果相加后除以50可得这50名同学的平均阅读时长;(2)设这4名学生分别为甲、乙、丙、丁,列举出所有的基本事件,并确定所求事件所包含的基本事件,利用古典概型的概率公式可求得结果;(3)计算出2K的观测值,结合临界值表可得出结论.【详解】(1)设这50名同学的平均阅读时长为x小时,则5415102514351845426.650x⨯+⨯+⨯+⨯+⨯==,故这50名同学的平均阅读时长为26.6小时;(2)设这4名学生分别为甲、乙、丙、丁,从这4名学生任取2名学生,所有的基本事件有:(甲,乙)、(甲、丙)、(甲、丁)、(乙、丙)、(乙,丁)、(丙、丁),共6个,其中,事件“甲同学被选中”所包含的基本事件有:(甲,乙)、(甲、丙)、(甲、丁),因此,所求概率为3162P ==;(3)()225020252331.897 6.63522282327K ⨯⨯-⨯=≈>⨯⨯⨯,因此,有99%的把握认为语文成绩是否优秀与课外阅读时间有关.8.(2021·西藏·拉萨那曲第二高级中学高三月考(文))某中学随机抽查了50名同学的每天课外阅读时间,得到如下统计表:时长(分)(]0,10(]10,20(]20,30(]30,40(]40,50人数41014184(1)求这50名同学的平均阅读时长(用区间中点值代表每个人的阅读时长);(2)在阅读时长位于(]40,50的4人中任选2人,求甲同学被选中的概率;(3)进一步调查发现,语文成绩和每天的课外阅读时间有很大关系,每天的课外阅读时间多于半小时称为“阅读迷”,语文成绩达到120分视为优秀,根据每天的课外阅读时间和语文成绩是否优秀,制成一个22⨯列联表:阅读迷非阅读迷合计语文成绩优秀20323语文成绩不优秀22527合计222850根据表中数据,判断是否有99%的把握认为语文成绩是否优秀与课外阅读时间有关.参考公式:()()()()()22n ad bc K a b c d a c b d -=++++,其中n a b c d =+++.参考数据:()20P K k ≥0.400.250.100.0100k 0.7081.3232.7066.635【答案】(1)26.6小时;(2)12;(3)有,理由见解析.【分析】(1)将每组的中点值乘以对应组的人数相乘,将所求结果相加后除以50可得这50名同学的平均阅读时长;(2)设这4名学生分别为甲、乙、丙、丁,列举出所有的基本事件,并确定所求事件所包含的基本事件,利用古典概型的概率公式可求得结果;(3)计算出2K的观测值,结合临界值表可得出结论.【详解】(1)设这50名同学的平均阅读时长为x小时,则5415102514351845426.650x⨯+⨯+⨯+⨯+⨯==,故这50名同学的平均阅读时长为26.6小时;(2)设这4名学生分别为甲、乙、丙、丁,从这4名学生任取2名学生,所有的基本事件有:(甲,乙)、(甲、丙)、(甲、丁)、(乙、丙)、(乙,丁)、(丙、丁),共6个,其中,事件“甲同学被选中”所包含的基本事件有:(甲,乙)、(甲、丙)、(甲、丁),因此,所求概率为3162 P==;(3)()225020252331.897 6.63522282327K⨯⨯-⨯=≈>⨯⨯⨯,因此,有99%的把握认为语文成绩是否优秀与课外阅读时间有关.9.(2021·新疆·克拉玛依市教育研究所模拟预测(文))推进垃圾分类处理,是落实绿色发展理念的必然选择.为加强社区居民的垃圾分类意识,某社区在健身广场举办了“垃圾分类,从我做起”生活垃圾分类大型宣传活动,号召社区居民用实际行动为建设绿色家园贡献一份力量,为此需要征集一部分垃圾分类志愿者.(1)为调查社区居民喜欢担任垃圾分类志愿者是否与性别有关,现随机选取了一部分社区居民进行调查,其中被调查的男性居民30人,女性居民20人,男性居民中不喜欢担任垃圾分类志愿者占男性居民的23,女性居民中不喜欢担任垃圾分类志愿者占女性居民的14,判断能否在犯错误概率不超过0.5%的前提下,认为居民喜欢担任垃圾分类志愿者与性别有关?附:()()()()()22n ad bcka b c d a c b d-=++++,n a b c d=+++.()2P K k≥0.1000.0500.0100.0050.001 0k 2.706 3.841 6.6357.87910.828(2)某垃圾站的日垃圾分拣量y (千克)与垃圾分类志愿者人数x (人)满足回归直线方程y bx a =+$$$,数据统计如表:志愿者人数x (人)23456日垃圾分拣量y (千克)24294146t已知511405i i y y ===∑,52190i i x ==∑,51889i i i x y ==∑,根据所给数据求t ,预测志愿者人数为10人时,该垃圾站的日垃圾分拣量.附:1221ni ii nii x y nxybxnx==-=-∑∑ ,a y bx =-$$.【答案】(1)能(2)60t =,93.4千克【分析】(1)根据题意,列出2×2列联表,再根据2K 公式计算,对照临界表中的数据,比较即可得到答案;(2)由表中数据和题中所给数据,可求出t 的值,再根据参考公式求得线性回归系数 a和b ,可得回归直线方程为 8.9 4.4y x =+,再将10x =代入,即可求出结果.(1)解:根据题意,列出的2×2列联表如下:喜欢担任垃圾分类志愿者不喜欢担任垃圾分类志愿者合计男性居民102030女性居民15520合计252550()22501052015258.3337.879252520303K ⨯⨯-⨯==≈>⨯⨯⨯,所以,能在犯错误概率不超过0.5%的前提下,认为居民喜欢担任垃圾分类志愿者与性别有关.(2)解:由表中数据可知,()12345645x =⨯++++=,511405i i y y ===∑,∴60t =,∴122218895440898.9905410ni ii ni i x y nxybx nx==--⨯⨯====-⨯-∑∑ , 408.94 4.4a y bx =-=-⨯= ,∴回归直线方程为 8.9 4.4y x =+.当10x =时, 8.910 4.493.4y =⨯+=.所以当志愿者为10人时,垃圾分拣量大约为93.4千克.10.(2016高考四川文科)我国是世界上严重缺水的国家,某市为了制定合理的节水方案,对居民用水情况进行了调查,通过抽样,获得了某年100位居民每人的月均用水量(单位:吨),将数据按照[0,0.5),[0.5,1),……[4,4.5]分成9组,制成了如图所示的频率分布直方图.(I)求直方图中的a 值;(II)设该市有30万居民,估计全市居民中月均用水量不低于3吨的人数.说明理由;(Ⅲ)估计居民月均用水量的中位数.【答案】(Ⅰ)0.30a =;(Ⅱ)36000;(Ⅲ)2.04.【解析】(Ⅰ)由频率分布直方图,可知:月用水量在[0,0.5]的频率为0.08×0.5=0.04.同理,在[0.5,1),(1.5,2],[2,2.5),[3,3.5),[3.5,4),[4,4.5)等组的频率分别为0.08,0.21,0.25,0.06,0.04,0.02.由1–(0.04+0.08+0.21+.025+0.06+0.04+0.02)=0.5×a +0.5×a ,解得a =0.30.(Ⅱ)由(Ⅰ),100位居民月均水量不低于3吨的频率为0.06+0.04+0.02=0.12.由以上样本的频率分布,可以估计30万居民中月均用水量不低于3吨的人数为300000×0.13=36000.(Ⅲ)设中位数为x 吨.因为前5组的频率之和为0.04+0.08+0.15+0.21+0.25=0.73>0.5,而前4组的频率之和为0.04+0.08+0.15+0.21=0.48<0.5所以2≤x<2.5.由0.50×(x–2)=0.5–0.48,解得x=2.04.故可估计居民月均用水量的中位数为2.04吨.练真题1.(2021·全国高考真题(文))为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是()A.该地农户家庭年收入低于4.5万元的农户比率估计为6%B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%C.估计该地农户家庭年收入的平均值不超过6.5万元D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间【答案】C【解析】根据直方图的意义直接计算相应范围内的频率,即可判定ABD,以各组的中间值作为代表乘以相应的频率,然后求和即得到样本的平均数的估计值,也就是总体平均值的估计值,计算后即可判定C.【详解】因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.+==,故A正该地农户家庭年收入低于4.5万元的农户的比率估计值为0.020.040.066%确;该地农户家庭年收入不低于10.5万元的农户比率估计值为0.040.0230.1010%+⨯==,故B 正确;该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为0.100.140.2020.6464%50%++⨯==>,故D 正确;该地农户家庭年收入的平均值的估计值为30.0240.0450.1060.1470.2080.2090.10100.10110.04120.02130.02140.027.68⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯+⨯=(万元),超过6.5万元,故C 错误.综上,给出结论中不正确的是C.故选:C.2.(2020·全国高考真题(理))在一组样本数据中,1,2,3,4出现的频率分别为1234,,,p p p p ,且411i i p ==∑,则下面四种情形中,对应样本的标准差最大的一组是()A .14230.1,0.4p p p p ====B .14230.4,0.1p p p p ====C .14230.2,0.3p p p p ====D .14230.3,0.2p p p p ====【答案】B 【解析】对于A 选项,该组数据的平均数为()()140.1230.4 2.5A x =+⨯++⨯=,方差为()()()()222221 2.50.12 2.50.43 2.50.44 2.50.10.65A s =-⨯+-⨯+-⨯+-⨯=;对于B 选项,该组数据的平均数为()()140.4230.1 2.5B x =+⨯++⨯=,方差为()()()()222221 2.50.42 2.50.13 2.50.14 2.50.4 1.85B s =-⨯+-⨯+-⨯+-⨯=;对于C 选项,该组数据的平均数为()()140.2230.3 2.5C x =+⨯++⨯=,方差为()()()()222221 2.50.22 2.50.33 2.50.34 2.50.2 1.05C s =-⨯+-⨯+-⨯+-⨯=;对于D 选项,该组数据的平均数为()()140.3230.2 2.5D x =+⨯++⨯=,方差为()()()()222221 2.50.32 2.50.23 2.50.24 2.50.3 1.45D s =-⨯+-⨯+-⨯+-⨯=.因此,B 选项这一组的标准差最大.故选:B.3.(2019·全国高考真题(文))某商场为提高服务质量,随机调查了50名男顾客和50名女顾客,每位顾客对该商场的服务给出满意或不满意的评价,得到下面列联表:满意不满意男顾客4010女顾客3020(1)分别估计男、女顾客对该商场服务满意的概率;(2)能否有95%的把握认为男、女顾客对该商场服务的评价有差异?附:22()()()()()n ad bcKa b c d a c b d-=++++.P(K2≥k)0.0500.0100.001 k 3.841 6.63510.828【答案】(1)43, 55;(2)能有95%的把握认为男、女顾客对该商场服务的评价有差异.【解析】(1)由题中表格可知,50名男顾客对商场服务满意的有40人,所以男顾客对商场服务满意率估计为1404 505P==, 50名女顾客对商场满意的有30人,所以女顾客对商场服务满意率估计为2303 505P==,(2)由列联表可知22100(40203010)100 4.762 3.841 7030505021K⨯-⨯==≈>⨯⨯⨯,所以能有95%的把握认为男、女顾客对该商场服务的评价有差异.4.(2021·全国高考真题(理))某厂研制了一种生产高精产品的设备,为检验新设备生产产品的某项指标有无提高,用一台旧设备和一台新设备各生产了10件产品,得到各件产品该项指标数据如下:旧设备9.810.310.010.29.99.810.010.110.29.7新设备10.110.410.110.010.110.310.610.510.410.5旧设备和新设备生产产品的该项指标的样本平均数分别记为x和y,样本方差分别记为21s 和22s.(1)求x,y,21s,22s;(2)判断新设备生产产品的该项指标的均值较旧设备是否有显著提高(如果y x -≥不认为有显著提高).【答案】(1)221210,10.3,0.036,0.04x y s s ====;(2)新设备生产产品的该项指标的均值较旧设备有显著提高.【解析】(1)根据平均数和方差的计算方法,计算出平均数和方差.(2)根据题目所给判断依据,结合(1)的结论进行判断.【详解】(1)9.810.31010.29.99.81010.110.29.71010x +++++++++==,10.110.410.11010.110.310.610.510.410.510.310y +++++++++==,22222222210.20.300.20.10.200.10.20.30.03610s +++++++++==,222222222220.20.10.20.30.200.30.20.10.20.0410s +++++++++==.(2)依题意,0.320.15y x -==⨯=,=y x -≥,所以新设备生产产品的该项指标的均值较旧设备有显著提高.5.(2017·全国高考真题(文))海水养殖场进行某水产品的新、旧网箱养殖方法的产量对比,收获时各随机抽取了100个网箱,测量各箱水产品的产量(单位:kg ),其频率分布直方图如下:(1)记A 表示事件“旧养殖法的箱产量低于50kg”,估计A 的概率;(2)填写下面列联表,并根据列联表判断是否有99%的把握认为箱产量与养殖方法有关:箱产量<50kg箱产量≥50kg旧养殖法新养殖法(3)根据箱产量的频率分布直方图,对两种养殖方法的优劣进行较.附:P (K 2≥k )0.0500.0100.001k3.8416.63510.82822()()()()()n ad bc K a b c d a c b d -=++++【答案】(1)0.62(2)有99%的把握(3)新养殖法优于旧养殖法【解析】(1)旧养殖法的箱产量低于50kg 的频率为(0.012+0.014+0.024+0.034+0.040)×5=0.62.因此,事件A 的概率估计值为0.62.(2)根据箱产量的频率分布直方图得列联表箱产量<50kg箱产量≥50kg 旧养殖法6238新养殖法3466K 2的观测值k =()22006266343810010096104⨯⨯-⨯⨯⨯⨯≈15.705.由于15.705>6.635,故有99%的把握认为箱产量与养殖方法有关.(3)由频率分布直方图可得:旧养殖法100个网箱产量的平均数x 1=(27.5×0.012+32.5×0.014+37.5×0.024+42.5×0.034+47.5×0.040+52.5×0.032+57.5×0.032+62.5×0.012+67.5×0.012)×5=5×9.42=47.1;新养殖法100个网箱产量的平均数x 2=(37.5×0.004+42.5×0.020+47.5×0.044+52.5×0.054+57.5×0.046+62.5×0.010+67.5×0.008)×5=5×10.47=52.35;比较可得:x 1x <2,故新养殖法更加优于旧养殖法.6.(2018·全国高考真题(文))下图是某地区2000年至2016年环境基础设施投资额y (单位:亿元)的折线图.为了预测该地区2018年的环境基础设施投资额,建立了y 与时间变量t 的两个线性回归模型.根据2000年至2016年的数据(时间变量t 的值依次为1,2,,17 )建立模型①:ˆ30.413.5yt =-+;根据2010年至2016年的数据(时间变量t 的值依次为1,2,,7 )建立模型②:ˆ9917.5yt =+.(1)分别利用这两个模型,求该地区2018年的环境基础设施投资额的预测值;(2)你认为用哪个模型得到的预测值更可靠?并说明理由.【答案】(1)利用模型①预测值为226.1,利用模型②预测值为256.5,(2)利用模型②得到的预测值更可靠.【解析】(1)利用模型①,该地区2018年的环境基础设施投资额的预测值为ˆy =–30.4+13.5×19=226.1(亿元).利用模型②,该地区2018年的环境基础设施投资额的预测值为ˆy =99+17.5×9=256.5(亿元).(2)利用模型②得到的预测值更可靠.理由如下:(i )从折线图可以看出,2000年至2016年的数据对应的点没有随机散布在直线y =–30.4+13.5t 上下,这说明利用2000年至2016年的数据建立的线性模型①不能很好地描述环境基础设施投资额的变化趋势.2010年相对2009年的环境基础设施投资额有明显增加,2010年至2016年的数据对应的点位于一条直线的附近,这说明从2010年开始环境基础设施投资额的变化规律呈线性增长趋势,利用2010年至2016年的数据建立的线性模型。
课时作业58 用样本估计总体一、选择题1.容量为20的样本数据,分组后的频数如下表:分组[10,20)[20,30)[30,40)[40,50)[50,60)[60,70) 频数23454 2A.0.35 B.0.45C.0.55 D.0.65解析:求得该频数为2+3+4=9,样本容量是20,所以频率为920=0.45.2.已知某班级部分同学一次测验的成绩统计如图,则其中位数和众数分别为(B)A.95,94 B.92,86C.99,86 D.95,91解析:由茎叶图可知,此组数据由小到大排列依次为76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共17个,故92为中位数,出现次数最多的为众数,故众数为86,故选B.3.在某中学举行的环保知识竞赛中,将三个年级参赛学生的成绩进行整理后分为5组,绘制如图所示的频率分布直方图,图中从左到右依次为第一、第二、第三、第四、第五小组,已知第二小组的频数是40,则成绩在80~100分的学生人数是(A)A.15 B.18C.20 D.25解析:根据频率分布直方图,得第二小组的频率是0.04×10=0.4,∵频数是40,∴样本容量是400.4=100,又成绩在80~100分的频率是(0.01+0.005)×10=0.15,∴成绩在80~100分的学生人数是100×0.15=15.故选A.4.某学校对100间学生公寓的卫生情况进行综合评比,依考核分数分为A,B,C,D 四个等级,其中分数在[60,70)为D等级;分数在[70,80)为C等级;分数在[80,90)为B等级;分数在[90,100]为A等级,考核评估后,得其频率分布折线图如图所示,估计这100间学生公寓评估得分的平均数是(C)A.80.25 B.80.45C.80.5 D.80.65解析:所求平均分为(65×0.015+75×0.040+85×0.020+95×0.025)×10=80.5.故选C.5.下表是某电器销售公司2018年度各类电器营业收入占比和净利润占比统计表:空调类冰箱类小家电类其他类营业收入占比90.10% 4.98% 3.82% 1.10%净利润占比95.80%-0.48% 3.82%0.86%A.该公司2018年度冰箱类电器营销亏损B.该公司2018年度小家电类电器营业收入和净利润相同C.该公司2018年度净利润主要由空调类电器销售提供D.剔除冰箱类电器销售数据后,该公司2018年度空调类电器销售净利润占比将会降低解析:对于选项A,由统计表知,冰箱类净利润占比为-0.48%,所以冰箱类电器营销亏损,所以选项A正确;对于选项B,由统计表知,小家电类电器营业收入占比和净利润占比均为3.82%,但在总的营业收入和总的净利润未知的情况下,无法得到营业收入和净利润相同,所以选项B不正确;对于选项C,由统计表知,空调类的净利润占比为95.80%,所以该电器销售公司的净利润主要由空调类电器销售提供,所以选项C正确;对于选项D,剔除冰箱类销售数据后,总的净利润增加了,而空调类销售总利润没有变,所以空调类电器销售净利润占比将会降低,选项D正确.综上可知,选B.6.“科技引领,布局未来”,科技研发是企业发展的驱动力量.2007年至2018年,某企业连续12年累计研发投入达4 100亿元.我们将研发投入与经营收入的比值记为研发投入占营收比.这12年间的研发投入(单位:十亿元)用如图所示的条形图表示,研发投入占营收比用图中的折线图表示,根据折线图和条形图,下列结论错误的是(D)A.2012年至2013年研发投入占营收比增量相比2017年至2018年增量大B.2013年至2014年研发投入增量相比2015年至2016年增量小C.该企业连续12年研发投入逐年增加D.该企业连续12年来研发投入占营收比逐年增加解析:对于A,2012年至2013年研发投入占营收比增量为13.5%-11.5%=2%,2017年至2018年研发投入占营收比增量为14.9%-14.6%=0.3%,正确;对于B,2013年至2014年研发投入增量为32-30=2(十亿元),2015年至2016年研发投入增量为60-41=19(十亿元),正确;对于C,由图易知该企业连续12年研发投入逐年增加,正确;对于D,由图知2008年至2009年研发投入占营收比是减少的,错误,故选D.7.已知a1,a2,a3,a4,a5成等差数列,且公差是5,则这组数据的标准差为(B) A.50 B.5 2C.100 D.10解析:∵a1,a2,a3,a4,a5成等差数列,且公差是5,∴设这5个数依次为a ,a +5,a +10,a +15,a +20,则这5个数的平均数为[a +(a +5)+(a +10)+(a +15)+(a +20)]÷5=a +10, ∴这组数据的标准差为15×[(-10)2+(-5)2+52+102]=5 2.故选B. 8.(多选题)某赛季甲乙两名篮球运动员各6场比赛得分情况如下表:场次 1 2 3 4 5 6 甲得分 31 16 24 34 18 9 乙得分232132113510A .甲运动员得分的极差小于乙运动员得分的极差B .甲运动员得分的中位数小于乙运动员得分的中位数C .甲运动员得分的平均值大于乙运动员得分的平均值D .甲运动员的成绩比乙运动员的成绩稳定解析:由题意甲的极差为34-9=25,中位数是21,均值为22,方差为s 2=75,同样乙的极差为35-10=25,中位数是22,均值为22,方差为s 2乙=8913.比较知BD 都正确,故答案为BD.9.(多选题)在某次高中学科知识竞赛中,对4 000名考生的参赛成绩进行统计,可得到如图所示的频率分布直方图,其中分组的区间为[40,50),[50,60),[60,70),[70,80),[80,90),[90,100],60分以下视为不及格,若同一组中数据用该组区间中间值作代表值,则下列说法中正确的是( ABC )A .成绩在[70,80)的考生人数最多B .不及格的考生人数为1 000C .考生竞赛成绩的平均分约为70.5分D .考生竞赛成绩的中位数为75分解析:由频率分布直方图可得,成绩在[70,80)的频率最高,因此考生人数最多,故A 正确;成绩在[40,60)的频率为0.01×10+0.015×10=0.25,因此,不及格的人数为4 000×0.25=1 000,故B 正确;考生竞赛成绩的平均分约为45×0.1+55×0.15+65×0.2+75×0.3+85×0.15+95×0.1=70.5,故C 正确;因为成绩在[40,70)的频率为0.45,在[70,80)的频率为0.3,所以中位数为70+10×0.050.3≈71.67,故D 错误.故选ABC.10.(多选题)乐乐家共有七人,已知今年这七人年龄的众数为35,平均数为44,中位数为55,标准差为19,则5年后,下列说法中正确的是( ABC )A .这七人岁数的众数变为40B .这七人岁数的平均数变为49C .这七人岁数的中位数变为60D .这七人岁数的标准差变为24解析:根据众数、平均数、中位数的概念得5年后,每人的年龄相应增加5,而标准差不变,所以这七人年龄的众数变为40;平均数变为49;中位数变为60;标准差不变,为19.故选ABC.二、填空题11.(2019·江苏卷)已知一组数据6,7,8,8,9,10,则该组数据的方差是53.解析:数据6,7,8,8,9,10的平均数是6+7+8+8+9+106=8,则方差是4+1+0+0+1+46=53. 12.(多填题)对某市“四城同创”活动中800名志愿者的年龄抽样调查统计后得到频率分布直方图(如图),但是年龄组为[25,30)的数据不慎丢失,则依据此图可得:(1)[25,30)年龄组对应小矩形的高度为0.04;(2)据此估计该市“四城同创”活动中志愿者年龄在[25,35)的人数为440.解析:设[25,30)年龄组对应小矩形的高度为h ,则5×(0.01+h +0.07+0.06+0.02)=1,解得h =0.04.则志愿者年龄在[25,35)年龄组的频率为5×(0.04+0.07)=0.55,故志愿者年龄在[25,35)年龄组的人数约为0.55×800=440.13.设样本数据x 1,x 2,…,x 2 017的方差是4,若y i =2x i -1(i =1,2,…,2 017),则y 1,y 2,…,y 2 017的方差为16.解析:设样本数据的平均数为x ,则y i =2x i -1的平均数为2x -1,则y 1,y 2,…,y 2 017的方差为12 017[(2x 1-1-2x +1)2+(2x 2-1-2x +1)2+…+(2x 2 017-1-2x +1)2]=4×12 017[(x 1-x )2+(x 2-x )2+…+(x 2 017-x )2]=4×4=16. 三、解答题14.某篮球运动员的投篮命中率为50%,他想提高自己的投篮水平,制定了一个夏季训练计划,为了了解训练效果,执行训练前,他统计了10场比赛的得分,计算出得分的中位数为15,平均得分为15,得分的方差为46.3.执行训练后统计了10场比赛的得分,茎叶图如图所示:(1)请计算该篮球运动员执行训练后统计的10场比赛得分的中位数、平均得分与方差. (2)如果仅从执行训练前后统计的各10场比赛得分数据分析,你认为训练计划对该运动员的投篮水平的提高是否有帮助?为什么?解:(1)训练后得分的中位数为14+152=14.5;平均得分为8+9+12+14+14+15+16+18+21+2310=15;方差为110[(8-15)2+(9-15)2+(12-15)2+(14-15)2+(14-15)2+(15-15)2+(16-15)2+(18-15)2+(21-15)2+(23-15)2]=20.6.(2)尽管中位数训练后比训练前稍小,但平均得分一样,训练后方差20.6小于训练前方差46.3,说明训练后得分稳定性提高了(阐述观点合理即可),这是投篮水平提高的表现.故此训练计划对该篮球运动员的投篮水平的提高有帮助.15.下面规定一个学生数学成绩优秀的标志为连续5次数学考试成绩(满分150分)均不低于120分.现有甲、乙、丙三位学生连续5次数学考试成绩的记录数据(记录数据都是正整数)情况:①甲学生:5个数据的中位数为127,众数为120; ②乙学生:5个数据的中位数为125,总体均值为127;③丙学生:5个数据中有一个数据是135,总体均值为128,总体方差为19.8. 则可以断定数学成绩优秀的学生为( A ) A .甲、丙 B .乙、丙 C .甲、乙D .甲、乙、丙解析:因为甲学生的5个数据的中位数为127,所以5个数据中有2个数据大于127,又5个数据的众数是120,所以至少有2个数据为120,所以甲学生的5个数据均不小于120,所以甲学生数学成绩优秀;丙学生的5个数据中的一个数据为135,设另外4个数据分别是a,b,c,d,因为5个数据的总体均值为128,总体方差为19.8,所以(a-128)2+(b-128)2+(c-128)2+(d-128)2+(135-128)25=19.8,所以(a-128)2+(b-128)2+(c-128)2+(d-128)2=50①,假设a,b,c,d中存在小于120的数据,不妨设a<120,则(a-128)2>64,显然①式不成立,所以假设错误,即a,b,c,d均不小于120,所以丙学生的5个数据均不小于120,所以丙学生数学成绩优秀.故选A.16.十九大提出:坚决打赢脱贫攻坚战,做到精准扶贫.我省某帮扶单位为帮助定点扶贫村真正脱贫,坚持扶贫同扶智相结合,帮助贫困村种植脐橙,并利用互联网电商进行销售,为了更好销售,现从该村的脐橙树上随机摘下100个脐橙进行测重,其质量分布在区间[200,500](单位:克),根据统计质量的数据作出频率分布直方图如图所示:(1)按分层抽样的方法从质量落在[350,400),[400,450)的脐橙中随机抽取5个,再从这5个脐橙中随机抽2个,求这2个脐橙质量至少有一个不小于400克的概率;(2)以各组数据的中间数值代表这组数据的平均水平,以频率代表概率,已知该村的脐橙种植地上大约还有100 000个脐橙待出售,某电商提出两种收购方案:A.所有脐橙均以7元/千克收购;B.低于350克的脐橙以2元/个收购,其余的以3元/个收购.请你通过计算为该村选择收益较好的方案.(参考数据:225×0.05+275×0.16+325×0.24+375×0.3+425×0.2+475×0.05=354.5)解:(1)由题意得脐橙质量在[350,400)和[400,450)的比为32,∴应分别在质量为[350,400)和[400,450)的脐橙中各抽取3个和2个.记抽取质量在[350,400)的脐橙为A1,A2,A3,质量在[400,450)的脐橙为B1,B2.则从这5个脐橙中随机抽取2个的情况共有以下10种:A1A2,A1A3,A2A3,A1B1,A2B1,A3B1,A1B2,A2B2,A3B2,B1B2,其中质量至少有一个不小于400克的情况有7种,故所求概率为710.(2)方案B好,理由如下:由频率分布直方图可知,脐橙质量在[200,250)的频率为50×0.001=0.05,同理,质量在[250,300),[300,350),[350,400),[400,450),[450,500]的频率依次为0.16,0.24,0.3,0.2,0.05,若按方案B收购:∵脐橙质量低于350克的个数为(0.05+0.16+0.24)×100 000=45 000,脐橙质量不低于350克的个数为55 000,∴收益为45 000×2+55 000×3=255 000(元),若按方案A收购:根据题意各段脐橙个数依次为5 000,16 000,24 000,30 000,20 000,5 000.于是总收益为(225×5 000+275×16 000+325×24 000+375×30 000+425×20 000+475×5 000)÷1 000×7=248 150(元),∴方案B的收益比方案A的收益高,故应该选择方案B.。
高考数学一轮复习统计学专题练习(附答案)普通来说,统计包括三个含义:统计任务、统计资料和统计迷信。
以下是查字典数学网整理的统计学专题练习,请考生细心练习。
【典例1】 (1)(2021湖南高考改编)对一个容量为N的总体抽取容量为n的样本,中选取复杂随机抽样、系统抽样和分层抽样三种不同方法抽取样本时,总体中每个集体被抽中的概率区分为p1,p2,p3,那么p1,p2,p3的大小关系为________.(2)(2021湖北高考)甲、乙两套设备消费的同类型产品共4 800件,采用分层抽样的方法从中抽取一个容量为80的样本停止质量检测.假定样本中有50件产品由甲设备消费,那么乙设备消费的产品总数为________件.[解析] (1)不论用什么抽样方法,每一个集体被抽到的时机都相等,p1=p2=p3.(2)设乙设备消费的产品总数为x件,那么甲设备消费的产品总数为(4 800-x)件.由分层抽样特点,结合题意可得=,解得x=1 800.[答案] (1)p1=p2=p3 (2)1 800,【规律方法】1.停止分层抽样时应留意以下几点:分层抽样中分多少层,如何分层要视详细状况而定,总的原那么是:层内样本的差异要求,两层之间的样本差异要大,且互不堆叠;为了保证每个集体等能够入样,一切层中每个集体被抽到的能够性相反;在每层抽样时,应采用复杂随机抽样或系统抽样的方法停止抽样;抽样比==.2.普通地,系统抽样是等距离抽样,假定第一组抽取号码a,然后以d为间距依次等距离抽取前面的编号,抽出的一切号码为a+dk(k=0,1,2,,n-1),其中n是组数.【变式训练1】 (1)(2021天津高考)某大学为了解在校本科生对参与某项社会实际活动的意向,拟采用分层抽样的方法,从该校四个年级的本科生中抽取一个容量为300的样本停止调查,该校一年级、二年级、三年级、四年级的本科生人数之比为45∶5∶6,那么应从一年级本科生中抽取________名先生.(2)(2021江西高考改编)总体由编号为01,02,,19,20的20个集体组成,应用下面的随机数表选取5个集体,选取方法是从随机数表第1行的第5列和第6列数字末尾由左到右依次选取两个数字,那么选出来的第5个集体的编号为________.7816 6572 0802 6314 0702 4369 9728 0198 3204 9234 4935 8200 3623 4869 6938 7481 [解析] (1)依据题意,应从一年级本科生中抽取的人数为300=60.(2)由随机数表法的随机抽样的进程可知选出的5个集体是08,02,14,07,01,所以第5个集体的编号是01.[答案] (1)60 (2)01考向2 统计图表【典例2】 (1)(2021江苏高考改编)设抽测的树木的底部周长均在区间[80,130]上,其频率散布直方图如图93所示,那么在抽测的60株树木中,有________株树木的底部周长小于100 cm.(2)(2021重庆高考)如图94是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,那么数据落在区间[22,30)内的频率为________.图94[解析] (1)由题意在抽测的60株树木中,底部周长小于100 cm的株数为(0.015+0.025)1060=24.频率散布直方图中的纵坐标为,此处经常误以为纵坐标是频率.(2)由落在[22,30)内的数据有4个,且共有10个数据,故频率为=0.4.[答案] (1)24 (2)0.4,【规律方法】1.处置频率散布直方图的效果,关键在于找出图中数据之间的联络.这些数据中,比拟清楚的有组距、,直接的有频率、小长方形的面积,合理运用这些数据,再结合两个等量关系:小长方形面积=组距=频率,小长方形面积之和等于1,即频率之和等于1.2.明白茎叶图的数据对处置样本的数据特征显得尤为重要,而方差可以权衡样本数据的动摇性.茎叶图描写数据的优点:(1)一切数据信息都可用在茎叶图中看到;(2)茎叶图便于记载和表示,且可以展现数据的散布状况.【变式训练2】 (1)(2021山东高考改编)为了研讨某药品的疗效,选取假定干名志愿者停止临床实验,一切志愿者的舒张压数据(单位:kPa)的分组区间为[12,13),[13,14),[14,15),[15,16),[16,17],将其按从左到右的顺序区分编号为第一组,第二组,,第五组,如图95是依据实验数据制成的频率散布直方图.第一组与第二组共有20人,第三组中没有疗效的有6人,那么第三组中有疗效的人数为________.(2021重庆高考改编)左面茎叶图记载了甲、乙两组各五名先生在一次英语听力测试中的效果(单位:分).甲组数据的中位数为15,乙组数据的平均数为16.8,那么x+y=________. [解析] (1)依据频率散布直方图及频率公式求解.志愿者的总人数为=50,所以第三组人数为500.36=18,有疗效的人数为18-6=12.(2)由于甲组数据的中位数为15=10+x,x=5.又乙组数据的平均数为=16.8,y=8.故x+y=5+8=13.[答案] (1)12 (2)13考向3 样本的数字特征(高频考点) 命题视角求样本的数字特征是统计中常考的内容,主要命题角度有:(1)求众数、中位数;(2)求平均数、方差;(3)由样本的数字特征估量概率.统计学专题练习及答案就为考生分享到这里,查字典数学网预祝考生可以取得更好的效果。
第58讲:统计初步一、课程标准1、了解抽样方法2、频率分布直方图的应用3、用样本的数字特征估计总体的数字特征二、基础知识回顾一、抽样方法1. 简单随机抽样(1)定义:设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样.(2)最常用的简单随机抽样的方法:抽签法和随机数表法.2. 分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法叫做分层抽样.(2)分层抽样的应用范围:当总体是由差异明显的几个部分组成时,往往选用分层抽样.3. 两种抽样方法的区别与联系:1. 总体分布(1)频率分布表:当总体很大或不便于获得时,可以用样本的频率分布估计总体的频率分布,我们把反映总体频率分布的表格称为频率分布表.(2)频率分布直方图:利用直方图反映样本的频率分布规律,这样的直方图称为频率分布直方图.(3)频率分布折线图:如果将频率分布直方图中,各相邻的矩形的上底边的中点顺次连结起来,就得到一条折线,我们称这条折线为本组数据的频率分布折线图.频率分布折线图的优点是它反映了数据的变化趋势.4. 总体特征数的估计(1)中位数:在频率分布直方图中,中位数左边和右边的直方图面积应该相等,由此可以估计中位数的值.(2)众数:在频率分布直方图中,众数是最高的矩形的中点的横坐标.(3)平均数及其估计:平均数是直方图的“重心”,等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和.平均数x =1n _(x 1+x 2+…+x n ).(4)方差与标准差 标准差s =1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2].、方差s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]. 5、频率分布直方图中的常见结论(1)众数的估计值为最高矩形的中点对应的横坐标.(2)平均数的估计值等于频率分布直方图中每个小矩形的面积乘以小矩形底边中点的横坐标之和. (3)中位数的估计值的左边和右边的小矩形的面积和是相等的. 平均数、方差的公式推广(1)若数据x 1,x 2,…,x n 的平均数为x ,则mx 1+a ,mx 2+a ,mx 3+a ,…,mx n +a 的平均数是m x +a . (2)若数据x 1,x 2,…,x n 的方差为s 2,则数据ax 1+b ,ax 2+b ,…,ax n +b 的方差为a 2s 2.三、自主热身、归纳总结1、某公司有员工500人,其中不到35岁的有125人,35~49岁的有280人,50岁以上的有95人,为了调查员工的身体健康状况,从中抽取100名员工,则应在这三个年龄段分别抽取人数为( )A. 33,34,33B. 25,56,19C. 20,40,30D. 30,50,202、一个容量为32的样本,已知某组样本的频率为0.25,则该组样本的频数为( )A. 4B. 8C. 12D. 163、已知某地区中小学生人数和近视情况分别如图①和图②所示.为了解该地区中小学生的近视形成原因,用分层随机抽样的方法抽取2%的学生进行调查,则样本量和抽取的高中生近视人数分别为( )A .200,20B .100,20C .200,10D.100,104、(多选)(2019·济南市模拟考试)随着我国经济实力的不断提升,居民收入也在不断增加.某家庭2018年全年的收入与2014年全年的收入相比增加了一倍,实现翻番.同时该家庭的消费结构随之也发生了变化,现统计了该家庭这两年不同品类的消费额占全年总收入的比例,得到了如下折线图:则下列结论中错误的是()A.该家庭2018年食品的消费额是2014年食品的消费额的一半B.该家庭2018年教育医疗的消费额与2014年教育医疗的消费额相当C.该家庭2018年休闲旅游的消费额是2014年休闲旅游的消费额的五倍D.该家庭2018年生活用品的消费额是2014年生活用品的消费额的两倍8,10内的频数为____.5、有一个容量为200的样本,其频率分布直方图如图所示,据图知,样本数据在[)第5题图6、甲、乙、丙、丁四人参加奥运会射击项目选拔赛,四人的平均成绩和方差如下表所示,从这四个人中选择一人参加奥运会射击项目比赛,最佳人选是____.四、例题选讲考点一抽样方法例1要考察某种品牌的850颗种子的发芽率,从中抽取50颗种子进行实验,利用随机数表法抽取种子,先将850颗种子按001,002,…,850进行编号,如果从随机数表第3行第6列的数开始向右读,请依次写出最先检验的4颗种子的编号:.注:下面抽取了随机数表第1行至第5行.03 47 43 73 8636 96 47 36 6146 98 63 71 6233 26 16 80 4560 11 14 10 9597 74 24 67 6242 81 14 57 2042 53 32 37 3227 07 36 07 5124 51 79 89 7316 76 62 27 6656 50 26 71 0732 90 79 78 5313 55 38 58 5988 97 54 14 1012 56 85 99 2696 96 68 27 3105 03 72 93 1557 12 10 14 2188 26 49 81 7655 59 56 35 6438 54 82 46 2231 62 43 09 9006 18 44 32 5323 83 01 30 30变式1、下列抽取样本的方式属于简单随机抽样的个数为()①从无限多个个体中抽取100个个体作为样本;②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里;③从20件玩具中一次性抽取3件进行质量检验;④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.A. 0B. 1C. 2D. 3变式2、(1)总体由编号为01,02,…,19,20的20个个体组成.利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为________.(2)①从无限多个个体中抽取100个个体作为样本.②盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.③从20件玩具中一次性抽取3件进行质量检验.④某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.变式3、(1)(2019·河南名校联考)《九章算术》第三章“衰分”中有如下问题:“今有甲持钱五百六十,乙持钱三百五十,丙持钱一百八十,凡三人俱出关,关税百钱,欲以钱数多少衰出之,问各几何?”其意为:“今有甲带了560钱,乙带了350钱,丙带了180钱,三人一起出关,共需要交关税100钱,依照钱的多少按比例出钱”,则丙应出________钱(所得结果四舍五入,保留整数).(2)某学校三个兴趣小组的学生人数分布如下表(每名同学只参加一个小组)(单位:人).学校要对这三个小组的活动效果进行抽样调查,按小组分层抽样的方法,从参加这三个兴趣小组的学生中抽取30人,结果篮球组被抽出12人,则a的值为________.方法总结:简单随机抽样的两种方法(1)抽签法,抽签法的步骤是:①将总体中的N个个体编号;②将这N个号码写在形状、大小相同的号签上;③将号签放在同一箱中,并搅拌均匀;④从箱中每次抽取1个号签,连续抽取k次;⑤将总体中与抽到的号签的编号一致的k个个体取出.(2)随机数表法,随机数表法的步骤是:①将总体的个体编号(每个号码的位数一致);②在随机数表中任选一个数作为开始;③从选定的数开始按一定的方向读下去,若得到的号码在编号中,则取出;若得到的号码不在编号中或前面已经取出,则跳过,如此继续下去,直到取满为止;④根据选定的号码抽取样本.考点二总体分布的估计例2、(2019·南昌市第一次模拟测试)市面上有某品牌A型和B型两种节能灯,假定A型节能灯使用寿命都超过5 000小时.经销商对B型节能灯使用寿命进行了调查统计,得到如下频率分布直方图:某商家因原店面需重新装修,需租赁一家新店面进行周转,合约期一年.新店面只需安装该品牌节能灯5支(同种型号)即可正常营业.经了解,A型20瓦和B型55瓦的两种节能灯照明效果相当,都适合安装.已知A型和B型节能灯每支的价格分别为120元、25元,当地商业电价为0.75元/千瓦时.假定该店面一年周转期的照明时间为3 600小时,若正常营业期间灯坏了立即购买同型灯管更换.(用频率估计概率)(1)根据频率分布直方图估算B型节能灯的平均使用寿命;(2)根据统计知识知,若一支灯管一年内需要更换的概率为p,那么n支灯管估计需要更换np支,若该商家新店面全部安装了B型节能灯,试估计一年内需更换的数量;(3)若只考虑灯的成本和消耗电费,你认为该商家应选择哪种型号的节能灯,请说明理由.变式1、某网络营销部门随机抽查了某市200名网友在2019年11月11日的网购金额,所得数据如下表:已知网购金额不超过3千元与超过3千元的人数比恰为3∶2.(1)试确定x,y,p,q的值,并补全频率分布直方图(如图);(2)该营销部门为了了解该市网友的购物体验,从这200名网友中,用分层抽样的方法从网购金额在(1,2]和(4,5]的两个群体中确定5人进行问卷调查,若需从这5人中随机选取2人继续访谈,则此2人来自不同群体的概率是多少?变式2、某高校调查了200名学生每周的自习时间(单位:小时),制成了如图所示的频率分布直方图,其中自习时间的范围是[17.5,30],样本数据分组为[17.5,20),[20,22.5),[22.5,25),[25,27.5),[27.5,30).根据直方图,这200名学生中每周的自习时间不少于22.5小时的人数是()A. 56B. 60C. 120D. 140变式3、某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了40个用户,根据用户对产品的满意度评分,得到A地区用户满意度评分的频率分布直方图和B地区用户满意度评分的频数分布表.A地区用户满意度评分的频率分布直方图图①B地区用户满意度评分的频数分布表(1)及分散程度(不要求计算出具体值,给出结论即可).B地区用户满意度评分的频率分布直方图图②(2)根据用户满意度评分,将用户的满意度分为三个等级:方法总结:本题主要考查频率分布直方图,是一道基础题目.图表题作为一道应用题,主要考查考生的视图、用图能力,以及应用数学解决实际问题的能力.频率分布直方图的两个要点:(1)各个小矩形的面积之和等于1,各个小矩形的面积为各组的频率,小矩形的高为频率组距.(2)频数样本容量=频率,频数频率=样本容量,样本容量×频率=频数.五、优化提升与真题演练1、(2020年高考天津)从一批零件中抽取80个,测量其直径(单位:mm ),将所得数据分为9组:[5.31,5.33),[5.33,5.35),,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( )A .10B .18C .20D .362、(2019年高考全国Ⅲ卷理数)《西游记》《三国演义》《水浒传》和《红楼梦》是中国古典文学瑰宝,并称为中国古典小说四大名著.某中学为了解本校学生阅读四大名著的情况,随机调查了100位学生,其中阅读过《西游记》或《红楼梦》的学生共有90位,阅读过《红楼梦》的学生共有80位,阅读过《西游记》且阅读过《红楼梦》的学生共有60位,则该校阅读过《西游记》的学生人数与该校学生总数比值的估计值为( ) A .0.5 B .0.6 C .0.7D .0.83、(2019年高考全国Ⅱ卷理数)演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是( ) A .中位数 B .平均数 C .方差D .极差4、(2020年高考江苏)已知一组数据4,2,3,5,6a a 的平均数为4,则a 的值是 .5、(2019年高考江苏卷)已知一组数据6,7,8,8,9,10,则该组数据的方差是______________.6、(2019年高考全国Ⅱ卷理数)我国高铁发展迅速,技术先进.经统计,在经停某站的高铁列车中,有10个车次的正点率为0.97,有20个车次的正点率为0.98,有10个车次的正点率为0.99,则经停该站高铁列车所有车次的平均正点率的估计值为______________.7、(2019年高考全国Ⅲ卷理数)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A,B两组,每组100只,其中A组小鼠给服甲离子溶液,B组小鼠给服乙离子溶液,每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).。