统计典型例题
- 格式:doc
- 大小:235.50 KB
- 文档页数:10
统计学分组式标准差例题及答案1.一家电子公司研发了10种产品,现在想要评估这些产品的销售情况。
以下是每种产品的销售额(单位:万元):10,15,20,13,18,12,17,16,14,19计算这些产品销售额的标准差。
答案:首先计算平均值:(10+15+20+13+18+12+17+16+14+19)/10=15.4然后逐个计算每个销售额与平均值的差的平方,并求和:(10-15.4)²+(15-15.4)²+(20-15.4)²+(13-15.4)²+(18-15.4)²+(12-15.4)²+(17-15.4)²+(16-15.4)²+(14-15.4)²+(19-15.4)²=77.8最后将求和结果除以n(样本数量),再开根号即可得到标准差。
在本例中,n=10。
√(77.8/10)≈2.792.在一次测试中,50名学生的数学成绩如下(满分100分):78,81,85,90,68,73,76,92,88,84,79,89,80,83,87,71,93,75,82,89, 77,91,86,74,72,84,81,79,69,88,94,72,75,87,91,80,83,77,89,82,93,7 8,86,68,75,73,80,88,90,76,82计算学生的数学成绩的标准差。
答案:首先计算平均值:(78+81+85+90+68+73+76+92+88+84+79+89+80+83+87+71+93+75+82+89+77+91+86+74+72+84+81+79+69+88+94+72+75+87+91+80+83+77+89+82+93+78+8 6+68+75+73+80+88+90+76+82)/50≈81.7然后逐个计算每个数学成绩与平均值的差的平方,并求和:(78-81.7)²+(81-81.7)²+(85-81.7)²+(90-81.7)²+(68-81.7)²+(73-81.7)²+(76-81.7)²+(92-81.7)²+(88-81.7)²+(84-81.7)²+(79-81.7)²+(89-81.7)²+(80-81.7)²+(83-81.7)²+(87-81.7)²+(71-81.7)²+(93-81.7)²+(75-81.7)²+(82-81.7)²+(89-81.7)²+(77-81.7)²+(91-81.7)²+(86-81.7)²+(74-81.7)²+(72-81.7)²+(84-81.7)²+(81-81.7)²+(79-81.7)²+(69-81.7)²+(88-81.7)²+(94-81.7)²+(72-81.7)²+(75-81.7)²+(87-81.7)²+(91-81.7)²+(80-81.7)²+(83-81.7)²+(77-81.7)²+(89-81.7)²+(82-81.7)²+(93-81.7)²+(78-81.7)²+(86-81.7)²+(68-81.7)²+(75-81.7)²+(73-81.7)²+(80-81.7)²+(88-81.7)²+(90-81.7)²+(76-81.7)²+(82-81.7)²≈709.62最后将求和结果除以n(样本数量),再开根号即可得到标准差。
第9章统计(典型例题)一、单选题1.某校举行校园歌手大赛,6位评委对某选手的评分分别为9.2,9.5,8.8,9.9,8.9,9.5,设该选手得分的平均数为x ,中位数为y ,众数为z ,则( ) A .x y z <<B .x y z <=C .y x z <<D .x z y <<2.为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是( ) A .该地农户家庭年收入低于4.5万元的农户比率估计为6% B .该地农户家庭年收入不低于10.5万元的农户比率估计为10% C .估计该地农户家庭年收入的平均值不超过6.5万元D .估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间3. 2021年3月12日是全国第43个植树节,为提高大家爱劳动的意识,某中学组织开展植树活动,并收集了高三年级1~11班植树量的数据(单位:棵),绘制了下面的折线图.根据折线图,下列结论不正确的是( )A .各班植树的棵数不是逐班增加的B .4班植树的棵数低于11个班的平均值C .各班植树棵数的中位数为6班对应的植树棵数D .1至5班植树的棵数相对于6至11班,波动更小,变化比较平稳4.现要完成下列3项抽样调查:①从10盒饼干中抽取4盒进行食品卫生检查.②某中学共有360名教职工,其中一般教师280名,行政人员55名,后勤人员25名,为了了解教职工对学校在校务公开方面的意见,拟抽取一个容量为72的样本.较为合理的抽样方法是( ) A .①简单随机抽样,②分层抽样B .①简单随机抽样,②简单随机抽样C .①分层抽样②分层抽样D .①分层抽样,②简单随机抽样5.已知一组数据1x 、2x 、3x 、......、n x ,这n 个数据的平均数为2,方差为3,则数据123x +、223x +、323x +、......、23n x +的平均数、方差分别是( )A .7,12B .7,6C .2,12D .5,66.以下数据为参加数学竞赛决赛的15人的成绩:(单位:分)78、70、72、86、88、79、80、81、94、84、56、98、83、90、91,则这15人成绩的第80百分位数是A .90B .91.5C .91D .90.57.采用简单随机抽样的方法,从含有6个个体的总体中抽取1个容量为2的样本,则某个个体被抽到的概率为( ) A .12B .13C .15D .168.某公司生产甲、乙、丙三种型号的吊车,产量分别为120台,600台和200台,为检验该公司的产品质量,现用分层抽样的方法抽取46台进行检验,则抽到乙种型号的吊车有( ) A .6台B .10台C .20台D .30台9.某工厂的质检人员对生产的100件产品,采用随机数表法抽取10件.检查这100件产品采用下面的编号方法:①01,02,03,…,100;②001,002,003,…,100;③00,01,02…,99.其中正确的序号是( ) A .①②B .①③C .②③D .③10.下图所示的茎叶图记录了甲、乙两组各5名工人某日的产量数据(单位:件)若这两组数据的中位数相等,且平均值也相等,则x 和y 的值分别为A .5,5B .3,5C .3,7D .5,711.一个学校高一、高二、高三的学生人数之比为2:3:5,若用比例分配的分层抽样的方法抽取容量为200的样本,则应从高三学生中抽取的人数为: A .100B .80C .60D .4012.某公司在甲、乙、丙、丁四个地区分别有150,120,180,150个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取一个容量为100的样本.记这项调查为①;在丙地区有20个大型销售点,要从中抽取7个调查其销售收入和售后服务等情况,记这项调查为②,则完成①,②这两项调查宜采用的抽样方法依次是( ) A .分层抽样法,分层抽样法 B .分层抽样法,简单随机抽样法 C .简单随机抽样法,分层抽样法D .简单随机抽样法,简单随机抽样法13.若样本121,1,,1n x x x +++的平均数为10,其方差为2,则对于样本1222,22,,22n x x x +++的下列结论正确的是A .平均数为20,方差为8B .平均数为20,方差为10C .平均数为21,方差为8D .平均数为21,方差为10二、多选题14.某城市为促进家庭节约用电,计划制定阶梯电价,阶梯电价按年月均用电量从低到高分为一、二、三、四档,属于第一档电价的家庭约占10%,属于第二档电价的家庭约占40%.属于第三档电价的家庭约占30%,属于第四档电价的家庭约占20%.为确定各档之间的界限,从该市的家庭中抽查了部分家庭,调查了他们上一年度的年月均用电量(单位:千瓦时),由调查结果得下面的直方图.由此直方图可以做出的合理判断是( )A .年月均用电量不超过80千瓦时的家庭属于第一档B .年均用电量低于200千瓦时,且超过80千瓦时的家庭属于第二档C .年月均用电量超过240千瓦时的家庭属于第四档D .该市家庭的年月均用电量的平均数大于年月均用电量的中位数15.某地区一周的最低气温随时间变化的图象如图所示,根据图中的信息,下列有关该地区这一周最低气温的判断,正确的有( )A.众数为0℃B.相邻两天最低气温之差最大为3℃C.前六天一直保持上升趋势D.最大值与最小值的差为7℃16.(多选题)某地区公共部门为了调查本地区中学生的吸烟情况,对随机抽出的编号为1~1000的1000名学生进行了调查.调查中使用了两个问题,问题1:您的编号是否为奇数?问题2:您是否吸烟?被调查者随机从设计好的随机装置(内有除颜色外完全相同的白球100个,红球100个)中摸出一个小球:若摸出白球则回答问题1,若摸出红球则回答问题2,共有270人回答“是”,则下述正确的是()A.估计被调查者中约有520人吸烟B.估计约有20人对问题2的回答为“是”C.估计该地区约有4%的中学生吸烟D.估计该地区约有2%的中学生吸烟17.(多选题)下面是甲、乙两位同学高三上学期的5次联考的数学成绩,现只知其从第1次到第5次分数所在区间段分布的条形图(从左至右依次为第1至第5次),则从图中可以读出一定正确的信息是()A .甲同学的成绩的平均数大于乙同学的成绩的平均数B .甲同学的成绩的中位数在115到120之间C .甲同学的成绩的极差小于乙同学的成绩的极差D .甲同学的成绩的中位数小于乙同学的成绩的中位数三、填空题18.一组数据共有7个整数,m ,2,2,2,10,5,4,且210m <<,若这组数据的平均数、中位数、众数中最大与最小数之和是该三数中间数字的两倍,则第三四分位数是______.19.某年级举行健美操比赛,10位评委对某班级代表队的评分如下:83、77、78、85、77、85、84、79、80、80,则评分的第60百分位数是___________.20.已知一组数据1,3,2,,4m ,且这组数据的平均数为3,则m 的值为__________.21.如图是甲、乙两人在10天中每天加工零件个数的茎叶图,若这10天甲加工零件个数的中位数为a ,乙加工零件个数的平均数为b ,则a b +=______.22.已知一组数据:15,17,14,10,15,17,17,16,14,12,则该组数据的众数是______. 23.下列叙述中正确是________________.(填写所有正确命题的序号) ①随机从某校高一600名男生中抽取60名学生调查身高,该调查中样本量是60 ②数据2,3,3,5,9,9的中位数为3和5,众数为3和9 ③数据9,10,11,11,16,20,22,23的75%分位数为21④若将一组数据中的每个数都加上2,则平均数和方差都没有发生变化四、解答题24.某市扶贫办为了打好精准脱贫攻坚战,在所辖区的100万户家庭中随机抽取200户家庭,对其2020年的家庭人均纯收入状况进行了调查,经统计,样本数据全部介于45至70(单位∶百元)之间.现将数据分成5组,并得到如图所示的频率分布直方图.(1)求这组样本数据的均值和中位数(2)若家庭的年人均纯收入低于5000元的家庭为“贫困户”, 用样本的频率分布估计总体分布,估计该区100万户家庭中 “贫困户”的数量为多少.25. 2021年4月23日是第26个“世界读书日”,某校为了了解本校高一学生每周课外阅读情况,以便有针对性提供阅读建议,学校随机抽查了高一年级的100名同学,依据获得的数据将时间按[)0,1,[)1,2,[)2,3,[)3,4,[)4,5,[]5,6分组,得到如下的频率分布直方图.(1)若采用分层抽样的方法在[)0,2内抽取14人座谈,求[)0,1与[)1,2内分别抽取的人数;(2)估计该校高一年级每周课外阅读时间的平均数(同一组中的数据用该组区间的中点值作代表).26.为了调查居家隔离“抗疫”时期居民的消费情况,某校统计小组分别在A 、B 两个小区抽取了各20户家庭2月20日的购物登记数据,他们对A 小区当日的消费额按[)0,50,[)50,100,[)100,150,[)150,200,[)200,250,[)250,300,[)300,350分组,做出频率分布直方图,对B 小区只做了数据记录,统计如下(单位:元):(1)分别计算两个小区这20户家庭当日消费额在[)250,300的频率,并补全A 小区的频率分布直方图; (2)根据统计小组对A 、B 两个小区做出的频率分布直方图与数据记录,分别求出A 、B 两个小区当日的消费额的中位数.27.某校高一举行了一次数学竞赛,为了了解本次竞赛学生的成绩情况,从中抽取了部分学生的分数(得分取正整数,满分为100)作为样本(样本容量n )进行统计,按照[)50,60、[)60,70、[)70,80、[)80,90、[]90,100的分组作出频率分布直方图,已知得分在[)50,60、[]90,100的频数分别为8、2.(1)求样本容量n 和频率分布直方图中的x 、y 的值; (2)估计本次竞赛学生成绩的众数、中位数、平均数.28.某高校在2016年的自主招生考试成绩中随机抽取了100名学生的笔试成绩,按成绩分组,得到的频率分布如下表所示. 组号 分组 频数 频率 第1组 [)160,165 5 0.050 第2组 [)165,170 ① 0.350 第3组 [)170,175 30 ② 第4组 [)175,18020 0.200 第5组 []180,18510 0.100 合计1001.00(2)为了能选拔最优秀的学生,高校决定在笔试成绩高的第3、4、5组中用分层抽样法抽取6名学生进入第二轮面试,问第3、4、5组每组各抽取多少名学生进入第二轮面试?29.某高校从参加今年自主招生考试的学生中随机抽取容量为50的学生成绩样本,得频率分布表如下:组号分组频率频数230,23580.16第一组[)235,240①0.24第二组[)240,24515②第三组[)245,250100.20第四组[)250,25550.10第五组[]合计50 1.00(2)估计成绩不低于240分的学生约占多少;(3)为了选拔出更优秀的学生,高校决定在第三、四、五组中用分层抽样法抽取6名学生进行第二轮考核,分别求第三、四、五各组参加考核的人数.30.某公司餐厅为了完善餐厅管理,提高餐厅服务质量,随机调查了50名就餐的公司职员,根据这50名职员对餐厅服务质量的评分,绘制出了如图所示的频率分布直方图,其中样本数据分组为[40,50),[50,60),....,[90,100.)(1)求频率分布直方图中a的值;(2)若采用分层抽样的方式从评分在[40,60),[60,80),[80,100]的公司职员中抽取10人,则评分在[60,80)内的职员应抽取多少人?(3)该公司规定:如果职员对公司餐厅服务质量的评分低于75分,将对公司餐厅进行内部整顿、用每组数据的中点值代替该组数据,试估计该公司职员对餐厅服务质量评分的平均分,并据此回答餐厅是否需要进行内部整顿.。
高中数学涉及的统计学知识典型例题分析一、基础知识:(一)随机抽样:1、抽签法:把总体中的N 个个体编号,把号码写在号签上,将号签放在一个容器中搅拌均匀后,每次从中抽取一个号签,连续抽取n 次,就得到容量为n 的样本2、系统抽样:也称为等间隔抽样,大致分为以下几个步骤:(1)先将总体的N 个个体编号(2)确定分段间隔k ,设样本容量为n ,若N n 为整数,则N k n= (3)在第一段中用简单随机抽样确定第一个个体编号l ,则后面每段所确定的个体编号与前一段确定的个体编号差距为k ,例如:第2段所确定的个体编号为l k +,第m 段所确定的个体编号为()1l m k +−,直至完成样本注:(1)若N n不是整数,则先用简单随机抽样剔除若干个个体,使得剩下的个体数能被n 整除,再进行系统抽样。
例如501名学生所抽取的样本容量为10,则先随机抽去1个,剩下的500个个体参加系统抽样(2)利用系统抽样所抽出的个体编号排成等差数列,其公差为k3、分层抽样:也称为按比例抽样,是指在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本。
分层抽样后样本中各层的比例与总体中各个层次的比例相等,这条结论会经常用到(二)频率分布直方图:1、频数与频率(1)频数:指一组数据中个别数据重复出现的次数或一组数据在某个确定的范围内出现的数据的个数.(2)频率:是频数与数据组中所含数据的个数的比,即频率=频数/总数(3)各试验结果的频率之和等于12、频率分布直方图:若要统计每个小组数据在样本容量所占比例大小,则可通过频率分布表(表格形式)和频率分布直方图(图像形式)直观的列出(1)极差:一组数据中最大值与最小值的差(2)组距:将一组数据平均分成若干组(通常5-12组),则组内数据的极差称为组距,所以有组距=极差/组数(3)统计每组的频数,计算出每组的频率,便可根据频率作出频率分布直方图(4)在频率分布直方图中:横轴按组距分段,纵轴为“频率/组距”(5)频率分布直方图的特点:②因为各试验结果的频率之和等于1,所以可得在频率分布直方图中,各个矩形的面积和为1 (三)茎叶图:通常可用于统计和比较两组数据,其中茎是指中间的一列数,通常体现数据中除了末位数前面的其他数位,叶通常代表每个数据的末位数。
一、判断题1.社会经济统计的研究对象是社会经济现象总体的各个方面。
( x)2.统计调查过程中采用的大量观察法,是指必须对研究对象的所有单位进行调查。
( x)3.总体的同质性是指总体中的各个单位在所有标志上都相同。
(x)4.某一职工的文化程度在标志的分类上属于品质标志,职工的平均工资在指标的分类上属于质量指标。
(v)5.总体单位是标志的承担者,标志是依附于总体单位的。
(v)6.全面调查和非全面调查是根据调查结果所得到的资料是否全面来划分的。
(x)7.对我国主要粮食作物产区进行调查,以掌握全国主要粮食作物生长的基本情况,这种调查是重点调查。
(v)8.在对现象进行分析的基础上,有意识地选择若干具有代表性的单位进行调查,这种调查属于重点调查。
(x)9.统计分组的关键问题是确定组距和组数。
(x)10.分配数列的实质是把总体单位总量按照总体所分的组进行分配。
(v)11.某企业职工按文化程度分组形成的分配数列是一个单项式分配数列。
(x)12.连续型变量和离散型变量在进行组距式分组时,均可采用相邻组组限重叠的方法确定组限。
(v)13.分组以后,各组的频数越大,则组的标志值对于全体标志水平所起的作用也越大;而各组的频率越大,则组的标志值对全体标志水平所起的作用越小。
(x)14.同一个总体,时期指标值的大小与时期长短成正比,时点指标值的大小与时点间隔成反比。
(v)15.某企业生产某种产品的单位成本,计划在上年的基础上降低2%,实际降低了3%,则该企业差一个百分点,没有完成计划任务。
(x)16.某年甲、乙两地社会商品零售额之比为1:3,这是一个比例相对指标。
(x)17.全国粮食总产量与全国人口数对比计算的人均粮食产量是平均指标。
(x)18.根据分组资料计算算术平均数,当各组单位数出现的次数均相等时,按加权算术平均数计算的结果与按简单算术平均数计算的结果相同。
(v)19.权数对算术平均数的影响作用只表现为各组出现次数的多少,与各组次数占总次数的比重无关。
统计案例分析及典型例题§11.1 抽样方法1.为了了解所加工的一批零件的长度,抽取其中200个零件并测量了其长度,在这个问题中,总体的一个样本是 . 答案 200个零件的长度2.某城区有农民、工人、知识分子家庭共计2 004户,其中农民家庭1 600户,工人家庭303户,现要从中抽取容量为40的样本,则在整个抽样过程中,可以用到下列抽样方法:①简单随机抽样,②系统抽样,③分层抽样中的 . 答案 ①②③3.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为 . 答案 3,9,184.某工厂生产A 、B 、C 三种不同型号的产品,其相应产品数量之比为2∶3∶5,现用分层抽样方法抽出一个容量为n 的样本,样本中A 型号产品有16件,那么此样本的容量n= . 答案 80例1 某大学为了支援我国西部教育事业,决定从2007应届毕业生报名的18名志愿者中,选取6人组成志愿小组.请用抽签法和随机数表法设计抽样方案. 解 抽签法:第一步:将18名志愿者编号,编号为1,2,3, (18)第二步:将18个号码分别写在18张外形完全相同的纸条上,并揉成团,制成号签; 第三步:将18个号签放入一个不透明的盒子里,充分搅匀; 第四步:从盒子中逐个抽取6个号签,并记录上面的编号;基础自测第五步:所得号码对应的志愿者,就是志愿小组的成员. 随机数表法:第一步:将18名志愿者编号,编号为01,02,03, (18)第二步:在随机数表中任选一数作为开始,按任意方向读数,比如第8行第29列的数7开始,向右读;第三步:从数7开始,向右读,每次取两位,凡不在01—18中的数,或已读过的数,都跳过去不作记录,依次可得到12,07,15,13,02,09.第四步:找出以上号码对应的志愿者,就是志愿小组的成员.例2 某工厂有1 003名工人,从中抽取10人参加体检,试用系统抽样进行具体实施. 解 (1)将每个人随机编一个号由0001至1003. (2)利用随机数法找到3个号将这3名工人剔除. (3)将剩余的1 000名工人重新随机编号由0001至1000. (4)分段,取间隔k=100001=100将总体均分为10段,每段含100个工人.(5)从第一段即为0001号到0100号中随机抽取一个号l.(6)按编号将l ,100+l ,200+l,…,900+l 共10个号码选出,这10个号码所对应的工人组成样本. 例3 (14分)某一个地区共有5个乡镇,人口3万人,其中人口比例为3∶2∶5∶2∶3,从3万人中抽取一个300人的样本,分析某种疾病的发病率,已知这种疾病与不同的地理位置及水土有关,问应采取什么样的方法?并写出具体过程.解 应采取分层抽样的方法.3分过程如下:(1)将3万人分为五层,其中一个乡镇为一层.5分(2)按照样本容量的比例随机抽取各乡镇应抽取的样本. 300×153=60(人);300×152=40(人); 300×155=100(人);300×152=40(人); 300×153=60(人),10分因此各乡镇抽取人数分别为60人,40人,100人,40人,60人.12分(3)将300人组到一起即得到一个样本.14分练习:一、填空题1.(安庆模拟)某校高中生共有900人,其中高一年级300人,高二年级200人,高三年级400人,现分层抽取容量为45的样本,那么高一、高二、高三年级抽取的人数分别为 .答案15,10,202.某牛奶生产线上每隔30分钟抽取一袋进行检验,则该抽样方法为①;从某中学的30名数学爱好者中抽取3人了解学习负担情况,则该抽样方法为②.那么①,②分别为 .答案系统抽样,简单随机抽样3.下列抽样实验中,最适宜用系统抽样的是(填序号).①某市的4个区共有2 000名学生,且4个区的学生人数之比为3∶2∶8∶2,从中抽取200人入样②某厂生产的2 000个电子元件中随机抽取5个入样③从某厂生产的2 000个电子元件中随机抽取200个入样④从某厂生产的20个电子元件中随机抽取5个入样答案③4.(2013·重庆文)某校高三年级有男生500人,女生400人,为了解该年级学生的健康情况,从男生中任意抽取25人,从女生中任意抽取20人进行调查,这种抽样方法是 .答案分层抽样法5.某中学有高一学生400人,高二学生300人,高三学生200人,学校团委欲用分层抽样的方法抽取18名学生进行问卷调查,则下列判断不正确的是(填序号).①高一学生被抽到的概率最大②高三学生被抽到的概率最大③高三学生被抽到的概率最小④每名学生被抽到的概率相等答案①②③6.某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测,若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是 .答案 67.(天津文,11)一个单位共有职工200人,其中不超过45岁的有120人,超过45岁的有80人.为了调查职工的健康状况,用分层抽样的方法从全体职工中抽取一个容量为25的样本,应抽取超过45岁的职工 人. 答案 108.将参加数学竞赛的1 000名学生编号如下0001,0002,0003,…,1000,打算从中抽取一个容量为50的样本,按系统抽样的方法分成50个部分,如果第一部分编号为0001,0002,…,0020,从第一部分随机抽取一个号码为0015,则第40个号码为 . 答案 07959.某政府机关有在编人员100人,其中副处级以上干部10人,一般干部70人,工人20人,上级机关为了了解政府机构改革意见,要从中抽取一个容量为20的样本,试确定用何种方法抽取,如何抽取? 解 用分层抽样抽取. (1)∵20∶100=1∶5, ∴510=2,570=14,520=4∴从副处级以上干部中抽取2人,一般干部中抽取14人,从工人中抽取4人.(2)因副处级以上干部与工人人数较少,可用抽签法从中分别抽取2人和4人;对一般干部可用随机数表法抽取14人.(3)将2人、4人、14人编号汇合在一起就得到了容量为20的样本.10.某单位有工程师6人,技术员12人,技工18人,要从这些人中抽取一个容量为n 的样本.如果采用系统抽样法和分层抽样法抽取,不用剔除个体;如果样本容量增加一个,则在采用系统抽样时,需要在总体中先剔除1个个体,求样本容量n.解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为n36,分层抽样的比例是36n ,抽取工程师36n ×6=6n (人),抽取技术人员36n ×12=3n (人),抽取技工36n×18=2n (人).所以n 应是6的倍数,36的约数即n=6,12,18,36.当样本容量为(n+1)时,在总体中剔除1人后还剩35人,系统抽样的间隔为135+n ,因为135+n 必须是整数,所以n 只能取6,即样本容量为6.总体分布的估计与总体特征数的估计1.一个容量为20的样本,已知某组的频率为0.25,则该组的频数为 . 答案 52.(2008·山东理)右图是根据《山东统计年鉴2007》中的资料作成的1997年至2006年我省城镇居民百户家庭人口数的茎叶图.图中左边的数字从左到右分别表示城镇居民百户家庭人口数的百位数字和十位数字,右边的数字表示城镇居民百户家庭人口数的个位数字.从图中可以得到1997年至2006年我省城镇居民百户家庭人口数的平均数为 . 答案 303.63.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m,该组在频率分布直方图的高为h ,则|a-b|= . 答案 hm4.(2008·山东文,9)从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为 .答案 51025.为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁~18岁的男生体重(kg ),得到频率分布直方图如下:根据上图可得这100名学生中体重在[56.5,64.5)的学生人数是 . 答案 40基础自测典型例题:例1 在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交 作品的件数按5天一组分组统计,绘制了频率分布直方图(如图所示),已知从左到右各长方形高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题: (1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数量最多?有多少件?(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率高? 解 (1)第三组的频率为1464324+++++=51又因为第三组的频数为12,∴参评作品数为5112=60.(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×1464326+++++=18(件).(3)第四组的获奖率是1810=95,第六组上交的作品数量为60×1464321+++++=3(件),∴第六组的获奖率为32=96,显然第六组的获奖率高.例4(14分)某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别 记录抽查数据如下: 甲:102, 101, 99, 98, 103, 98,99;乙:110, 115, 90,85,75,115, 110.(1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;(3)将两组数据比较,说明哪个车间产品较稳定. 解 (1)因为间隔时间相同,故是系统抽样. 2分(2)茎叶图如下:5分(3)甲车间: 平均值:1x =71(102+101+99+98+103+98+99)=100,7分方差:s 12=71[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6.9分乙车间:平均值:2x =71(110+115+90+85+75+115+110)=100,11分方差:s 22=71[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4.13分∵1x =2x ,s 12<s 22,∴甲车间产品稳定.14分练习:1.为了了解小学生的体能情况,抽取了某小学同年级部分学生进行跳绳测试,将所得数据整理后,画出频率分布直方图如图所示,已知图中从左到右前三个小组的频率分别是0.1,0.3,0.4,第一小组的频数为5.(1)求第四小组的频率;(2)参加这次测试的学生人数是多少?(3)在这次测试中,学生跳绳次数的中位数落在第几小组内? 解 (1)第四小组的频率=1-(0.1+0.3+0.4)=0.2. (2)设参加这次测试的学生人数是n, 则有n=第一小组频率第一小组频数=5÷0.1=50(人).(3)因为0.1×50=5,0.3×50=15,0.4×50=20,0.2×50=10,即第一、第二、第三、第四小组的频数分别为5、15、20、10,所以学生跳绳次数的中位数落在第三小组内. 练习:一、填空题1.下列关于频率分布直方图的说法中不正确的是 . ①直方图的高表示取某数的频率②直方图的高表示该组上的个体在样本中出现的频率 ③直方图的高表示该组上的个体数与组距的比值④直方图的高表示该组上的个体在样本中出现的频率与组距的比值 答案 ①②③2.甲、乙两名新兵在同样条件下进行射击练习,每人打5发子弹,命中环数如下:甲:6,8,9,9,8;乙:10,7,7,7,9.则这两人的射击成绩 比 稳定. 答案 甲 乙4.某班50名学生在一次百米测试中,成绩全部介于13秒与19秒之间,将测试结果分成六组:右图是得到的频率分布直方图.设成绩小于17秒的学生人数占全班总人数的百分比为x,成绩大于等于15秒且小于17秒的学生人数为y ,则从频率分布直方图中可分析出x 和y 分别为 . 答案 0.9, 356.甲、乙两名同学在5次体育测试中的成绩统计的茎叶图如图所示,若甲、乙两人的平均成绩分别是x 甲、x 乙,则x 甲 x 乙, 比 稳定. 答案 < 乙 甲7.(上海,9)已知总体的各个体的值由小到大依次为2,3,3,7,a ,b ,12,13.7,18.3,20,且总体的中位数为10.5.若要使该总体的方差最小,则a 、b 的取值分别是 . 答案 10.5、10.5二、解答题10.为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图所示),图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? (3)在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由. 解 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小, 因此第二小组的频率为:391517424+++++=0.08.又因为频率=样本容量第二小组频数, 所以样本容量=第二小组频率第二小组频数=08.012=150. (2)由图可估计该学校高一学生的达标率约为39151742391517++++++++×100%=88%.(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.线性回归方程1.下列关系中,是相关关系的为 (填序号). ①学生的学习态度与学习成绩之间的关系;基础自测②教师的执教水平与学生的学习成绩之间的关系;③学生的身高与学生的学习成绩之间的关系;④家庭的经济条件与学生的学习成绩之间的关系.答案①②2.为了考察两个变量x、y之间的线性相关关系,甲、乙两同学各自独立地做10次和15次试验,并利用最小二乘法求得回归直线分别为l1和l2.已知在两人的试验中发现变量x的观测数据的平均值恰好相等,都为s,变量y的观测数据的平均值也恰好相等,都为t,那么下列说法中正确的是(填序号).①直线l1,l2有交点(s,t)②直线l1,l2相交,但是交点未必是(s,t)③直线l1,l2由于斜率相等,所以必定平行④直线l1,l2必定重合答案①3.下列有关线性回归的说法,正确的是(填序号).①相关关系的两个变量不一定是因果关系②散点图能直观地反映数据的相关程度③回归直线最能代表线性相关的两个变量之间的关系④任一组数据都有回归直线方程答案①②③4.下列命题:①线性回归方法就是由样本点去寻找一条贴近这些样本点的直线的数学方法;②利用样本点的散点图可以直观判断两个变量的关系是否可以用线性关系表示;③通过回归直线yˆ=bˆx+aˆ及回归系数bˆ,可以估计和预测变量的取值和变化趋势. 其中正确命题的序号是 .答案①②③5.已知回归方程为yˆ=0.50x-0.81,则x=25时,yˆ的估计值为 .答案11.69例1下面是水稻产量与施化肥量的一组观测数据:施化肥量15 20 25 30 35 40 45水稻产量320 330 360 410 460 470 480(1)将上述数据制成散点图;(2)你能从散点图中发现施化肥量与水稻产量近似成什么关系吗?水稻产量会一直随施化肥量的增加而增长吗?解(1)散点图如下:(2)从图中可以发现施化肥量与水稻产量具有线性相关关系,当施化肥量由小到大变化时,水稻产量由小变大,图中的数据点大致分布在一条直线的附近,因此施化肥量和水稻产量近似成线性相关关系,但水稻产量只是在一定范围内随着化肥施用量的增加而增长.例2(14分)随着我国经济的快速发展,城乡居民的生活水平不断提高,为研究某市家庭平均收入与月平均生活支出的关系,该市统计部门随机调查了10个家庭,得数据如下:(1)判断家庭平均收入与月平均生活支出是否相关?(2)若二者线性相关,求回归直线方程.解(1)作出散点图:5分观察发现各个数据对应的点都在一条直线附近,所以二者呈线性相关关系. 7分(2)x =101 (0.8+1.1+1.3+1.5+1.5+1.8+2.0+2.2+2.4+2.8)=1.74,y=101(0.7+1.0+1.2+1.0+1.3+1.5+1.3+1.7+2.0+2.5)=1.42,9分bˆ=∑∑==-∙-ni ini i i x n xyx n y x 1221≈0.813 6,aˆ=1.42-1.74×0.813 6≈0.004 3,13分 ∴回归方程yˆ=0.813 6x+0.004 3.14分例3 下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x(吨)与相应的生产能耗y (吨)标准煤的几组对照数据.(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程yˆ=b ˆx+a ˆ; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤? (参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 解 (1)散点图如下图:(2)x =46543+++=4.5,y =45.4435.2+++=3.5∑=41i ii yx =3×2.5+4×3+4×5+6×4.5=66.5.∑=412i ix=32+42+52+62=86∴bˆ=24124144x x yx yx i i i ii -∙-∑∑===25.44865.45.345.66⨯-⨯⨯-=0.7aˆ =y -bˆx =3.5-0.7×4.5=0.35. ∴所求的线性回归方程为yˆ=0.7x+0.35. (3)现在生产100吨甲产品用煤 y=0.7×100+0.35=70.35,∴降低90-70.35=19.65(吨)标准煤.1.科研人员为了全面掌握棉花新品种的生产情况,查看了气象局对该地区年降雨量与年平均气温的统计数据(单位分别是mm,℃),并作了统计.(1)试画出散点图;(2)判断两个变量是否具有相关关系. 解 (1)作出散点图如图所示,(2)由散点图可知,各点并不在一条直线附近,所以两个变量是非线性相关关系.2.在研究硝酸钠的可溶性程度时,对于不同的温度观测它在水中的溶解度,得观测结果如下:由资料看y 与x 呈线性相关,试求回归方程. 解 x =30,y =50.1283.1120.850.767.66++++=93.6.bˆ=25125155x xyx yx i ii ii -∙-∑∑==≈0.880 9.aˆ=y -bˆx =93.6-0.880 9×30=67.173. ∴回归方程为yˆ=0.880 9x+67.173.3.某企业上半年产品产量与单位成本资料如下:(1)求出线性回归方程;(2)指出产量每增加1 000件时,单位成本平均变动多少? (3)假定产量为6 000件时,单位成本为多少元? 解 (1)n=6,∑=61i i x =21,∑=61i i y =426,x =3.5,y =71,∑=612i i x =79,∑=61i i i y x =1 481,bˆ=26126166x xyx yx i ii ii -∙-∑∑===25.3679715.364811⨯-⨯⨯-=-1.82.aˆ=y-bˆx=71+1.82×3.5=77.37.回归方程为yˆ=aˆ+bˆx=77.37-1.82x.(2)因为单位成本平均变动bˆ=-1.82<0,且产量x的计量单位是千件,所以根据回归系数b的意义有: 产量每增加一个单位即1 000件时,单位成本平均减少1.82元.(3)当产量为6 000件时,即x=6,代入回归方程:yˆ=77.37-1.82×6=66.45(元)当产量为6 000件时,单位成本为66.45元.一、填空题1.观察下列散点图,则①正相关;②负相关;③不相关.它们的排列顺序与图形对应顺序是 .答案a,c,b2.回归方程yˆ=1.5x-15,则下列说法正确的有个.①y=1.5x-15②15是回归系数a③1.5是回归系数a④x=10时,y=0答案 13.(2009.湛江模拟)某地区调查了2~9岁儿童的身高,由此建立的身高y(cm)与年龄x(岁)的回归模型为yˆ=8.25x+60.13,下列叙述正确的是 .①该地区一个10岁儿童的身高为142.63 cm②该地区2~9岁的儿童每年身高约增加8.25 cm③该地区9岁儿童的平均身高是134.38 cm④利用这个模型可以准确地预算该地区每个2~9岁儿童的身高答案 ②4.三点(3,10),(7,20),(11,24)的回归方程是 .答案 yˆ=1.75x+5.75 5.某人对一地区人均工资x(千元)与该地区人均消费y(千元)进行统计调查,y 与x 有相关关系,得到回归直线方程yˆ=0.66x+1.562.若该地区的人均消费水平为7.675千元,估计该地区的人均消费额占人均工资收入的百分比约为 . 答案 83%6.某化工厂为预测产品的回收率y,需要研究它和原料有效成分含量x 之间的相关关系,现取8对观测值,计算,得∑=81i i x =52, ∑=81i i y =228, ∑=812i i x =478, ∑=81i i i y x =1 849,则其线性回归方程为 .答案 yˆ=11.47+2.62x 7.有下列关系:①人的年龄与他(她)拥有的财富之间的关系;②曲线上的点与该点的坐标之间的关系;③苹果的产量与气候之间的关系;④森林中的同一种树木,其断面直径与高度之间的关系.其中,具有相关关系的是 . 答案 ①③④8.已知关于某设备的使用年限x 与所支出的维修费用y(万元),有如下统计资料:若y 对x 呈线性相关关系,则回归直线方程yˆ=b ˆx+a ˆ表示的直线一定过定点 . 答案 (4,5) 二、解答题9.期中考试结束后,记录了5名同学的数学和物理成绩,如下表:(1)数学成绩和物理成绩具有相关关系吗?(2)请你画出两科成绩的散点图,结合散点图,认识(1)的结论的特点. 解 (1)数学成绩和物理成绩具有相关关系.(2)以x 轴表示数学成绩,y 轴表示物理成绩,可得相应的散点图如下:由散点图可以看出,物理成绩和数学成绩对应的点不分散,大致分布在一条直线附近. 10.以下是某地搜集到的新房屋的销售价格y 和房屋的面积x 的数据:(1)画出数据对应的散点图;(2)求线性回归方程,并在散点图中加上回归直线. 解 (1)数据对应的散点图如图所示:(2)x =109,y =23.2,∑=512i i x =60 975,∑=51i iiy x=12 952,bˆ=25125155x xyx yx i ii ii -∙-∑∑==≈0.196 2aˆ=y -bˆx ≈1.814 2 ∴所求回归直线方程为yˆ=0.196 2x+1.814 2.11.某公司利润y 与销售总额x(单位:千万元)之间有如下对应数据:(1)画出散点图; (2)求回归直线方程;(3)估计销售总额为24千万元时的利润. 解 (1)散点图如图所示:(2)x =71(10+15+17+20+25+28+32)=21,y=71(1+1.3+1.8+2+2.6+2.7+3.3)=2.1,∑=712i ix=102+152+172+202+252+282+322=3 447,∑=71i iiy x=10×1+15×1.3+17×1.8+20×2+25×2.6+28×2.7+32×3.3=346.3,bˆ=27127177x x yx yx i i i ii -∙-∑∑===221744731.22173.346⨯-⨯⨯-≈0.104, aˆ=y -bˆx =2.1-0.104×21=-0.084, ∴yˆ=0.104x-0.084. (3)把x=24(千万元)代入方程得,yˆ=2.412(千万元).∴估计销售总额为24千万元时,利润为2.412千万元.12.某种产品的广告费支出x 与销售额y(单位:百万元)之间有如下对应数据:(1)画出散点图;(2)求回归直线方程;(3)试预测广告费支出为10百万元时,销售额多大? 解 (1)根据表中所列数据可得散点图如下:(2)列出下表,并用科学计算器进行有关计算:因此,x =525=5,y =5250 =50,∑=512i i x =145, ∑=512i i y =13 500, ∑=51i i i y x =1 380.于是可得:bˆ=25125155x xyx yx i ii ii -∙-∑∑===55514550553801⨯⨯-⨯⨯-=6.5;aˆ=y -bˆx =50-6.5×5=17.5. 因此,所求回归直线方程为:yˆ=6.5x+17.5. (3)根据上面求得的回归直线方程,当广告费支出为10百万元时,yˆ=6.5×10+17.5=82.5(百万元),即这种产品的销售收入大约为82.5百万元.§11.4 统计案例1.对有线性相关关系的两个变量建立的回归直线方程y ˆ=a ˆ+b ˆx 中,回归系数bˆ与0的大小关系为 .(填序号) ①大于或小于 ②大于 ③小于 ④不小于答案 ①2.如果有90%的把握说事件A 和B 有关系,那么具体计算出的数据 2 2.706.(用“>”,“<”,“=”填空) 答案 >3.对两个变量y 与x 进行回归分析,分别选择不同的模型,它们的相关系数r 如下,其中拟合效果最好的模型是 .①模型Ⅰ的相关系数r 为0.98 ②模型Ⅱ的相关系数r 为0.80 ③模型Ⅲ的相关系数r 为0.50 ④模型Ⅳ的相关系数r 为0.25 答案 ①4.下列说法中正确的有:①若r >0,则x 增大时,y 也相应增大;②若r <0,则x 增大时,y 也相应增大;③若r=1或r=-1,则x 与y 的关系完全对应(有函数关系),在散点图上各个点均在一条直线上 . 答案 ①③基础自测例1 (14分)调查339名50岁以上人的吸烟习惯与患慢性气管炎的情况,获数据如下:试问:(1)吸烟习惯与患慢性气管炎是否有关? (2)用假设检验的思想给予证明. (1)解 根据列联表的数据,得到χ2=))()()(()(2c d b d c a b a bc ad n ++++-2分 =13428356205)1316212143(3392⨯⨯⨯⨯-⨯⨯=7.469>6.6356分 所以有99%的把握认为“吸烟与患慢性气管炎有关”.9分(2)证明 假设“吸烟与患慢性气管炎之间没有关系”,由于事件A={χ2≥6.635}≈0.01,即A 为小概率事件,而小概率事件发生了,进而得假设错误,这种推断出错的可能性约有1%.14分例2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有 缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:(1)对变量y 与x 进行相关性检验;(2)如果y 与x 有线性相关关系,求回归直线方程;(3)若实际生产中,允许每小时的产品中有缺点的零件最多为10个,那么,机器的运转速度应控制在什么范围内?解 (1)x =12.5,y =8.25,∑=41i iiy x=438,4x y =412.5,∑=412i i x =660,∑=412i i y =291,所以r=)4)(4(42412241241y yx xyx yx i ii ii ii --∙-∑∑∑====)25.272291()625660(5.412438-⨯--=25.6565.25≈62.2550.25≈0.995 4.因为r >r 0.05,所以y 与x 有很强的线性相关关系.(2)yˆ=0.728 6x-0.857 1. (3)要使yˆ≤10⇒0.728 6x-0.857 1≤10, 所以x ≤14.901 3.所以机器的转速应控制在14.901 3转/秒以下.例3 下表是某年美国旧轿车价格的调查资料,今以x 表示轿车的使用年数,y 表示相应的年均价格,求y 关于x 的回归 方程.解 作出散点图如图所示.可以发现,各点并不是基本处于一条直线附近,因此,y 与x 之间应是非线性相关关系.与已学函数图象比较,用y ˆ=e a x b ˆˆ来刻画题中模型更为合理,令zˆ=ln y ˆ,则z ˆ=b ˆx+a ˆ,题中数据变成如下表所示:相应的散点图如图所示,从图中可以看出,变换的样本点分布在一条直线附近,因此可以用线性回归方程拟合.由表中数据可得r ≈-0.996.|r|>r 0.05.认为x 与z之间具有线性相关关系,由表中数据得bˆ≈-0.298,a ˆ≈8.165,所以z ˆ=-0.298x+8.165,最后回代z ˆ=ln y ˆ,即y ˆ=e -0.298x+8.165为所求.1.某班主任对全班50名学生学习积极性和对待班级工作的态度进行了调查,统计数据如下表所示:(1)如果随机抽查这个班的一名学生,那么抽到积极参加班级工作的学生的概率是多少?抽到不太主动参加班级工作且学习积极性一般的学生的概率是多少?(2)试运用独立性检验的思想方法分析:学生的学习积极性与对待班级工作的态度是否有关系?说明理由.解 (1)随机抽查这个班的一名学生,有50种不同的抽查方法,由于积极参加班级工作的学生有18+6=24人,所以有24种不同的抽法,因此由古典概型的计算公式可得抽到积极参加班级工作的学生的概率是P 1=5024=2512,又因为不太主动 参加班级工作且学习积极性一般的学生有19人,所以抽到不太主动参加班级工作且学习积极性一般的学生的概率是P 2=5019.(2)由2χ统计量的计算公式得2χ=25252624)761918(502⨯⨯⨯⨯-⨯⨯≈11.538,由于11.538>10.828,所以可以有99.9%的把握认为“学生的学习积极性与对待班级工作的态度有关系”.2.某个体服装店经营某种服装,一周内获纯利y (元)与该周每天销售这种服装的件数x 之间的一组数据如下:已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,此时r 0.05=0.754.(1)求x ,y ;(2)判断一周内获纯利润y 与该周每天销售件数x 之间是否线性相关,如果线性相关,求出回归直线方程.解 (1)x =71(3+4+5+6+7+8+9)=6,y=71 (66+69+73+81+89+90+91)≈79.86.(2)根据已知∑=712i i x =280, ∑=712i i y =45 309, ∑=71i i i y x =3 487,得相关系数 r=)86.79730945)(67280(86.7967487322⨯-⨯-⨯⨯-≈0.973.由于0.973>0.754,所以纯利润y与每天销售件数x 之间具有显著线性相关关系. 利用已知数据可求得回归直线方程为yˆ=4.746x+51.386.3.某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数x1之间是否具有线性相关关系,如有,求出y 对x 的回归方程.解 首先作变量置换,令u=x1,题目所给数据变成如下表所示的10对数据:然后作相关性检验.经计算得r ≈0.999 8>0.75,从而认为u 与y 之间具有线性相关关系.由公式得aˆ≈1.125,b ˆ≈8.973, 所以yˆ=1.125+8.973u, 最后回代u=x1,可得y ˆ=1.125+x973.8,这就是题目要求的y 对x 的回归曲线方程.回归曲线的图形如图所示,它是经过平移的反比例函数图象的一个分支.一、填空题1.对于独立性检验,下列说法中正确的是 . ①2χ的值越大,说明两事件相关程度越大 ②2χ的值越小,说明两事件相关程度越小 ③2χ≤2.706时,有90%的把握说事件A 与B 无关 ④2χ>6.635时,有99%的把握说事件A 与B 有关 答案 ①②④2.工人月工资y (元)依劳动生产率x(千元)变化的回归方程为y ˆ=50+80x ,下列判断正确的是 .①劳动生产率为1 000元时,工资为130元。
统计典型例题2.1.1简单随机抽样例题:某学校有学生1200人,为了调查教师授课情况,打算抽取一个容量为50的样本,问此样本若采用简单随机抽样将如何获取?点拨:简单随机抽样有两种:抽签法和随机数法。
尽管此题的总体中的个体数不算少,但依题意其操作却是等可能的。
解析:(方法一)首先,把学生编号0001,0002,…..1200.如果抽签法,则做1200个形状、大小相同的号签,然后将这些号签放在同一个箱子里,进行搅拌均匀。
抽签时,每次从中抽出1个号签,连续抽取50次,就得到一个容量为50的样本。
(方法二)首先把学生编号0001,0002,…..1200.如果用随机数法,使用各个5位数的前四位,任意取,如9038,1212,6404,5940,1321…所取得大于1200的为无效号吗,小于等于1200的为有效号码。
一直取够50人为止。
2.1.2系统抽样例题:某工厂有1003名工人,从中抽取10人参加体检,试用系统抽样进行具体检验。
点拨:由于总体容量不能被样本容量整除,需要先剔除3名工人,使得总体容量能被样本容量整除,取K=1000/10=100,然后再利用系统抽样的方法进行。
解析:(1)利用随机数法剔除3名工人(2)将剩余的1000名工人编号0001---1000(3)分段,取间隔K=1000/10=100,将总体均分为10组,每组含100个工人(4)从第一组即编号为0001---0100中随机抽取一个号L(5)按编号将L,100+L,200+L,…900+L共10个号选出。
这10个号所对应的工人组成样本。
能力提升:一般的,从N个编号中抽取 n个号码入样,若采用系统抽样,分段间隔为:A.当N/n为整数时,间隔为K=N/nB.当N/n不是整数时,从N中随机剔除m个个体,使得(N- m)/n 是个整数,间隔为K=(N- m)/nC.综上所述,抽样的间隔为K=[N/n]2.1.3分层抽样例题:一个单位有职工160人,其中有业务员112人,管理人员16人,后勤服务人员32人,为了解职工的工作效率,要从中抽取容量为20的样本,用分层抽样的方法进行抽样,写出过程。
典型例题分析例1.分别从方差为20和35的正态总抽取容量为8和10的两个样本,求第一个样本方差是第二个样本方差两倍的概率的范围。
解 以21S 和22S 分别表示两个(修正)样本方差。
由222212σσy x S S F =知统计量2221222175.13520S S S S F ==服从F 分布,自由度为(7,9)。
1) 事件{}22212S S =的概率 {}{}05.320352352022222122212221===⎭⎬⎫⎩⎨⎧⨯==⎭⎬⎫⎩⎨⎧===F P S S P S S P S S P因为F 是连续型随机变量,而任何连续型随机变量取任一给定值的概率都等于0。
2) 现在我们求事件{}二样本方差两倍第一样本方差不小于第=A 的概率:{}{}5.322221≥=≥=F P S S P p 。
由附表可见,自由度9,721==f f 的F 分布水平α上侧分位数),(21f f F α有如下数值:)9,7(20.45.329.3)9,7(025.005.0F F =<<=。
由此可见,事件A 的概率p 介于0.025与0.05之间;05.0025.0<<p 。
例2.设n X X X ,,, 21是取自正态总体),(2σμN 的一个样本,2s 为样本方差,求满足不等式95.05.122≥⎭⎬⎫⎩⎨⎧≤σS P 的最小n 值。
解 由随机变量2χ分布知,随机变量σ/12S n )(-服从2χ分布,自由度1-=n v ,于是,有{}{}95.0)1(5.1)1(5.1)1(2,05.02222=≤≥-≤=⎭⎬⎫⎩⎨⎧-≤-=v v v P n P n S n P χχχσ 其中2v χ表示自由度1-=n v 的2χ分布随机变量,2,05.0v χ是自由度为1-=n v 的水平05.0=α的2χ分布上侧分位数(见附表)。
我们欲求满足2,05.015.1v n χ≥-)(的最小1+=v n 值,由附表可见226,05.0885.3839)127(5.1χ=>=-, 22505.0652.375.401265.1,)(χ=<=-。
统计学例题及答案(总12页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--第一章导论一、填空题1.经济统计学的特点可概括为__广泛性__、数量性和总体性。
2.经济统计的职能有_提供信息、咨询服_和监督检查三个方面。
3.总体是客观存在的,在同质量基础上结合起来的许多个别单位总体。
按总体单位是否可以计数,总体分为有限总体和无限总体。
4.标志是总体单位所具有的_属性和特征,按表现是否相同分为_不变标_和可变标志两种。
5.统计指标由指标名称和指标数量两部分构成。
6.变量根据其取值是否连续分为连续变量和离散变量。
7.统计总体具有五个基本特点,即客观性、大量性、同质性、变异性和相对性。
8.按说明现象的性质不同,标志可以分为品质标志和数量标志两种。
9.统计指标按反映的数量特征不同,可分为数量指标和质量指标。
10.一个完整的统计工作过程可以划分为统计设计、统计调查、统计整理和统计分析_四个阶段。
二、单项选择题1.统计一词的三种涵义是( A )A.统计活动、统计资料、统计学B.统计调查、统计整理、统计分析C.统计设计、统计分组、统计预测D.统计方法、统计分析、统计预测2. 统计一词有三种涵义,其中( A )是基础。
A.统计活动 B.统计学 C.统计方法 D.统计资料3.统计工作的成果是( C )A.统计学 B.统计工作 C.统计资料 D.统计分析和预测4.( C )是统计的基础职能。
A.管理功能B.咨询功能C.信息功能D.监督功能5.一个统计总体( B )。
A.只能有一个标志B.只能有一个指标C.可以有多个标志D.可以有多个指标6. 属于连续变量的是( D )。
A.职工人数B.机器台数C.企业数D.利润额7. 下列各项中属于时点指标的是( D )。
A.产品产量B.商品销售额C.人口出生数D.职工人数8.下列各项中属于价值指标的是( A )。
A.工资总额B.职工人数C.森林面积D.失业率9.在相邻两位整数之间可插入无限小数的变量是( D )。
【例1】2009年中央卷在2008年8月8日致24日奥运会器件,北京市的空气质量不仅天天达标,而且有10天达到一级,全面兑现了对奥运会空气质量的承诺。
下图是2008年1-8月北京市大气质量检测情况,图中一、二、三、四级是空气质量等级,一级空气质量最好,一级和二级都是质量达标天气。
2008年北京市的空气质量控制目标是全年达标天数累计达256天。
2008年1-8月北京市天气质量检测情况121、1-8月空气合格天数超过20天的月份有多少个()A.4B.5C.6D.7【苏索朱建国解析】122、1-8月间,月平均空气质量合格天数约为多少天()A.22B.24C.26D.28【苏索朱建国解析】123、若将空气质量达标任务平均分配到各月,截至8月末,全年256天空气质量达标的计划完成情况是()A.完成进度较慢B.完成进度正常C.完成进度提前D.无法判断【苏索朱建国解析】124、第二季度与第一季度相比,空气达标天数的比重()A.上升了3.3%B.下降了3.3%C.上升了12%D.下降了12%【苏索朱建国解析】125、下列关于2008年1-8月间北京空气质量的描述,不正确的是()A.3-5月的空气质量较差B.各月份空气质量相差不大C.8月是空气质量最好的一个月D.有一个月的空气质量达标天数少于15天【苏索朱建国解析】【例2】2008年江苏B卷2006年全国各省(区、市)地下水水质变化趋势151.由上图可看出,2006年水质没有变化的省(区、市)有A.2个B.5个C.4个D.6个【苏索朱建国解析】152.上图中,2006年水质恶化的监测点多于水质好转的监测点的省(区、市)有A.18个B.19个C.12个D.15个【苏索朱建国解析】153.下列省(区、市)中水质恶化率与好转率之比约为30%的是A.山西B.广东C.云南D.重庆【苏索朱建国解析】154.下列说法中正确的是A.2006年各直辖市的水质均保持良好B.2006年水质恶化率最高的省(区、市),其水质好转率相应最低C.总体上2006年全国水质全面好转趋势明显D.以上说法都不对【苏索朱建国解析155.2006年水质好转率高于30% 的省(区、市)份数与水质恶化率低于30%的省(区、市)份数之比为A.4∶11 B.2∶13 C.4∶9 D.2∶5【苏索朱建国解析】【例3】2007年中央1998年世界啤酒消费量 2004年世界啤酒消费量单位:十亿升136.从1998 年到2004 年,美洲地区啤酒销售量占世界啤酒消费总量的比重:A.下降了3 个百分点心.B.下降量2个百分点C.下降了1 个百分点D.上升了l 个百分点【苏索朱建国解析】137.1998 年至2004 年啤酒消费量增长最快的两个地区,其啤酒销售量2004 年占世界啤酒消费量的比重约是:A.20.8%B.35.0 %C. 42.0 % D . 62.4 %【苏索朱建国解析】138.与亚洲相比,整个欧洲的啤酒消费量:A.绝对量多于亚洲,2004年相对于1998 年的增长快于亚洲B.绝对量多于亚洲,2004年相对于1998 年的增长慢于亚洲C.绝对量少于亚洲,2004年相对于1998 年的增长快于亚洲D.绝对量少于亚洲,2004年相对于1998 年的增长慢于亚洲【苏索朱建国解析】139.关于啤酒销售量,下列说法错误的是A.六年来世界啤酒消费总量的增长超过了10%B.北美洲和西欧啤酒销售量的差距在六年间缩小了C.亚洲的啤酒消费量始终占到了世界啤酒消费量的四分之一D.无论是啤酒消费绝对量还是占世界啤酒消费总量的比重,北美都有所增长。
统计高考真题大题解析答案高考是每年千万考生都期盼和紧张的时刻,而统计学科也是其中一门相对较难的科目之一。
无论是对于广大考生还是对于家长和老师们来说,了解和掌握高考统计真题的解析答案,对于备考也是非常重要的。
本文将为大家解析一些高考统计学科的典型题目,帮助大家更好地理解和应对这门科目。
第一题:某校700位高三学生体重信息的频率分布如下图所示。
学校要求体重指数在18.5至23.9之间的学生视为健康范围内,请计算该校健康体重范围内的学生人数。
此题是一个统计数据的频率分布问题,可以通过绘制频率分布直方图来进行解答。
将体重范围分成若干个组,并计算每个组的频率,然后求出健康体重范围内的频率之和即可得到答案。
第二题:某城市男性和女性的身高数据如下表所示,请计算男性和女性身高的平均值和标准差,并判断两者之间的差异是否具有统计学意义。
此题是一个比较两组数据差异的问题,需要计算平均值和标准差,并进行假设检验来判断差异是否显著。
对于两组数据,分别计算其平均值和标准差,然后应用t检验或方差分析等方法来判断差异是否具有统计学意义。
如果计算得到的显著性水平小于设定的显著性水平(通常为0.05),则可以认为差异具有统计学意义。
第三题:某厂生产的汽车零部件自然寿命数据如下图所示,请根据数据判断该厂生产的零部件的寿命服从正态分布还是指数分布。
此题是一个判断数据分布的问题,需要根据给定的数据来确定数据的分布类型。
对于给定的数据,可以绘制直方图或者QQ图,通过观察数据的分布形态来判断其是否符合正态分布或指数分布。
如果数据的直方图呈现正态分布的形态或者QQ图上的数据点接近于一条直线,则可以判断该数据符合正态分布。
反之,如果数据的直方图呈现指数分布的形态,则可以判断该数据符合指数分布。
通过以上三个例题的解析,我们可以看到高考统计学科的试题常常涉及到数据的处理和分析,需要掌握一定的计算方法和统计原理。
在备考过程中,除了熟悉考纲和掌握基本概念外,还需要多做真题并进行解析,尤其是那些典型的大题。
统计学试题题目一某班级中有40名男生和30名女生。
下列问题请你用统计学的方法回答:1.男生和女生的比例是多少?2.男生和女生的总数之和是多少?解答:1.男生和女生的比例可以通过计算男生数和女生数的比值来得到。
男生数为40,女生数为30,所以男生和女生的比例为40:30,可以简化为4:3。
2.男生和女生的总数之和可以通过将男生数和女生数相加来得到。
男生数为40,女生数为30,所以男生和女生的总数之和为40+30=70。
题目二某学校的学生进行了一项语文考试,考试成绩如下表所示:学生姓名成绩张三80李四85王五90赵六75小明95请你回答以下问题:1.这些学生的平均成绩是多少?2.这些学生中成绩最高和成绩最低的学生分别是谁?3.这些学生中有多少人的成绩高于90分?解答:1.这些学生的平均成绩可以通过将所有学生的成绩相加,然后除以学生人数来计算。
在这个例子中,学生人数为5,成绩之和为80+85+90+75+95=425,所以平均成绩为425/5=85。
2.这些学生中成绩最高的学生是小明,成绩为95。
成绩最低的学生是赵六,成绩为75。
3.这些学生中有1人的成绩高于90分,即小明。
题目三某公司的销售数据如下表所示:月份销售额(万元)1月502月603月704月805月90请回答以下问题:1.这个公司在这5个月中的总销售额是多少?2.这个公司在这5个月中平均每个月的销售额是多少?3.这个公司销售额最高和销售额最低的月份分别是哪个月份?解答:1.这个公司在这5个月中的总销售额可以通过将每个月的销售额相加来计算。
在这个例子中,总销售额为50+60+70+80+90=350万元。
2.这个公司在这5个月中平均每个月的销售额可以通过将总销售额除以月份数来计算。
在这个例子中,总销售额为350万元,月份数为5,所以平均每个月的销售额为350/5=70万元。
3.这个公司销售额最高的月份是5月,销售额为90万元。
销售额最低的月份是1月,销售额为50万元。
《统计量的选择与应用》典型例题全解♦典型例题全解一、知能综合题例1 •求下面一组数据的平均数、中位数、众数。
10, 20, 80, 40, 30, 90, 50, 40, 50, 40。
分析:根据数据的不同,选择运用需要的公式(如算术平均数或加权平均数、找基准求平均数等)去求平均数,求中位数时,一定要将数据按顺序(从大到小或从小到大)进行排列后再计算。
而众数,只需找出次数出现最多的数据。
- 1解:x =—(10x1 + 20x1+80x1 + 40x3+30x1+90x1+50x2) = 45将这一组数据按从小到大的顺序排列后为:10, 20, 30, 40, 40, 40, 50, 50, 80, 90。
第5个数与第6个数的平均数为^1^=40,即中位数为40。
在这组数据中,出现次数最多的是40,所以众数是40。
平均数为45,中位数为40,众数为40。
方法总结:平均数、中位数、众数从不同的侧面反映了一组数据的特征。
平均数能充分利用数据信息,所有数据都参加运算,但很容易受极端值的影响;中位数计算简单,只与数据的位置有关,但不能充分利用和反映所有的数据信息;众数计算简单,只与数据重复的次数有关,但不能充分利用和反映所有的数据信息,且可能不唯一,当各数据的重复次数大致相等时,众数往往没有特别的意义。
例2、某公司销售部有营销人员15人,销售部为了制定某种商品的月销售额,统计了者15人某月的销售量如下:(1) 求者15人营销人员该月销售量的平均数、中位数和众数;(2) 假设销售部负责人把每位营销人员的月销售量定320件,你认为是否合理,为什么?如果不合理•请你制定一个较合理的销售定额,并说明理由。
分析:(1)题利用有关定义容易求解;(2)销售部负责人所确定的“月销售 量"应该是大多数营销人员经过努力能够完成的生产零件个数。
“月销售量”太低, 不利于提高效率;“月销售量”太高,不利于提高积极性,因此可以从平均数、中 位数、众数这几个统计量中去考虑如何确定定额。
统计学置信区间经典例题1.一家公司对某种产品进行了测试,测试了30个样本,发现平均值为12,标准差为2。
现在希望估计这种产品的总体平均值,且置信水平为95%。
求置信区间。
解答:这是一个样本均值的置信区间问题,由于样本量大于30,可以使用正态分布进行计算。
根据公式,置信水平为95%时,置信区间为:12 - 1.96 * (2 / sqrt(30)) < μ < 12 + 1.96 * (2 / sqrt(30))计算得到,置信区间为11.2 ~ 12.8。
2. 某医院对一种新药进行了临床试验,试验了100个病人,其中60个病人服用了新药,40个病人服用了安慰剂。
试验结果显示,服用新药的病人中有45个病人痊愈了,服用安慰剂的病人中有20个病人痊愈了。
现在希望估计新药的治愈率与安慰剂的治愈率之间的差异,且置信水平为95%。
求置信区间。
解答:这是一个比例差的置信区间问题,由于样本量大于30,可以使用正态分布进行计算。
根据公式,置信水平为95%时,置信区间为:(p1 - p2) - 1.96 * sqrt(p1 * (1 - p1) / n1 + p2 * (1 - p2) / n2) < μ < (p1 - p2) + 1.96 * sqrt(p1 * (1 - p1) / n1 + p2 * (1 - p2) / n2)其中,p1为服用新药的病人中痊愈的比例,p2为服用安慰剂的病人中痊愈的比例,n1为服用新药的病人数量,n2为服用安慰剂的病人数量。
带入数据,计算得到,置信区间为0.113 ~ 0.387。
3. 某班级的学生参加了语文考试,考试成绩的平均分为80分,标准差为10分。
现在希望估计这个班级的总体成绩中位数与平均数之间的差异,且置信水平为90%。
求置信区间。
解答:这个问题需要通过计算得到一个置信区间,因为中位数不满足正态分布,所以不能使用正态分布进行计算。
根据中心极限定理,当样本量大于30时,样本的中位数可以近似看作正态分布。
2023年统计师之初级统计工作实务典型例题1、非营利性服务部门总产出的基本计算方法是( )A.按营业(或业务)总收入计算B.按销售价值减去购进价值计算C.按服务收入减去相关支出和费用提取计算D.按各种经常性费用支出加固定资产折旧计算正确答案:D2、能源生产总量年平均增长速度除以国民经济年平均增长速度得到的指标是( )。
A.能源消费弹性系数B.能源生产弹性系数C.能源弹性系数D.能源增长系数正确答案:B3、某城镇2008年相关资料如下:年末常住人口3万人(年初常住人口2.9万人),其中男性人口1.55万人;当年出生人口200人,死亡人口50人;居民家庭户均总收入15万元,个人交纳的所得税及社会保障支出分别为3000元和2000元;家庭消费支出9万元,其中食品类支出3.5万元,居住类支出3.0万元。
A.72.2%B.38.9%C.33.3%D.43.3%正确答案:B4、某地区有一个空调生产企业,由一个公司总部和三个车间组成。
2008年该公司共生产空调5万台,其中售出4万台,每台平均出厂价为1500元。
全年制造成本及各项费用3000万元,其中职工工资500万元,原材料、能源、广告费等物质和非物质消耗2000万元,应交增值税500万元。
该地区统计部门在2008年度工业统计时将计算该企业的相关指标。
根据上述资料,计算并回答以下问题,在备选答项中选取正确答案。
A.6000B.7500C.8000D.8500正确答案:C5、从众多的调查研究对象中,有意识地选择若干具有代表性的单位进行深入、周密、系统地调查研究,这种调查方法是( )。
A.普查B.抽样调查C.重点调查D.典型调查正确答案:D6、通过收入法计算农林牧渔业增加值的是()。
A.固定资产折旧+劳动者报酬+生产税净额(生产税-生产补贴)+营业盈余B.固定资产折旧+劳动者报酬+生产税+营业盈余C.固定资产折旧+劳动者报酬-生产补贴+营业盈余D.固定资产折旧+劳动者报酬+生产税净额正确答案:A7、常住人口和现有人口数之间的关系是前者( )后者。
(名师选题)部编版高中数学必修二第九章统计典型例题单选题1、某棉纺厂为了了解一批棉花的质量,从中随机抽取了100根棉花纤维的长度(棉花纤维的长度是棉花质量的重要指标),所得数据都在区间[5,40]中,其频率直方图如图所示,估计棉花纤维的长度的样本数据的80百分位数是()A.29 mmB.29.5 mmC.30 mmD.30.5 mm答案:A分析:先求得棉花纤维的长度在30 mm以下的比例为85%,在25 mm以下的比例为85%-25%=60%,从而可得80百分位数一定位于[25,30)内,进而可求出答案棉花纤维的长度在30 mm以下的比例为(0.01+0.01+0.04+0.06+0.05)×5=0.85=85%,在25 mm以下的比例为85%-25%=60%,因此,80百分位数一定位于[25,30)内,=29,由25+5×0.80−0.600.85−0.60可以估计棉花纤维的长度的样本数据的80百分位数是29 mm.故选:A2、某学校在校学生有2000人,为了增强学生的体质,学校举行了跑步和登山比赛,每人都参加且只参加其中一项比赛,高一、高二、高三年级参加跑步的人数分别为a,b,c,且a:b:c=2:5:3,全校参加登山的人数占总人数的14.为了了解学生对本次比赛的满意程度,按分层抽样的方法从中抽取一个容量为200的样本进行调查,则应从高三年级参加跑步的学生中抽取()A.15人B.30人C.40人D.45人答案:D分析:由题知全校参加跑步的人数为2000×34=1500,再根据分层抽样的方法求解即可得答案.解:由题意,可知全校参加跑步的人数为2000×34=1500,所以a+b+c=1500.因为a:b:c=2:5:3,所以c=1500×32+5+3=450.因为按分层抽样的方法从中抽取一个容量为200的样本,所以应从高三年级参加跑步的学生中抽取的人数为450×2002000=45.故选:D3、演讲比赛共有9位评委分别给出某选手的原始评分,评定该选手的成绩时,从9个原始评分中去掉1个最高分、1个最低分,得到7个有效评分.7个有效评分与9个原始评分相比,不变的数字特征是A.中位数B.平均数C.方差D.极差答案:A分析:可不用动笔,直接得到答案,亦可采用特殊数据,特值法筛选答案.设9位评委评分按从小到大排列为x1≤x2≤x3≤x4⋯≤x8≤x9.则①原始中位数为x5,去掉最低分x1,最高分x9,后剩余x2≤x3≤x4⋯≤x8,中位数仍为x5,∴A正确.②原始平均数x=19(x1+x2+x3+x4⋯+x8+x9),后来平均数x′=17(x2+x3+x4⋯+x8)平均数受极端值影响较大,∴x与x′不一定相同,B不正确③S2=19[(x1−x̅)2+(x1−x̅)2+⋯+(x9−x̅)2]s′2=17[(x2−x′)2+(x3−x′)2+⋯+(x8−x′)2]由②易知,C不正确.④原极差=x9−x1,后来极差=x8−x2可能相等可能变小,D不正确.小提示:本题旨在考查学生对中位数、平均数、方差、极差本质的理解.4、为保障食品安全,某监管部门对辖区内一家食品企业进行检查,现从其生产的某种产品中随机抽取100件作为样本,并以产品的一项关键质量指标值为检测依据,整理得到如下的样本频率分布直方图.若质量指标值在[25,35)内的产品为一等品,则该企业生产的产品为一等品的概率约为()A.0.38B.0.61C.0.122D.0.75答案:B分析:利用频率=频率组距×组距,即可得解.根据频率分布直方图可知,质量指标值在[25,35)内的概率P=(0.080+0.042)×5=0.122×5=0.61故选:B5、现用分层抽样的方法从三个兴趣小组中抽取若干人进行集训,抽取情况如下表:答案:B解析:根据每小组抽取人数与小组人数比值相等,计算即可得结果.因为乒乓球抽取人数与小组人数比值为2200=1100;所以足球小组抽取人数为x=100×1100=1;篮球小组抽取人数为y=300×1=3,故x+y=1+3=4100故选:B.6、2020年5月我国抗击新冠肺炎疫情工作取得阶段性胜利,各地有序推进复工复产,下面是某地连续11天复工复产指数折线图,下列说法正确的是()A.这11天复工指数和复产指数均逐日增加B.这11天期间,复产指数的极差大于复工指数的极差C.第3天至第11天复工复产指数均超过80%D.第9天至第11天复工指数的增量大于复产指数的增量答案:C分析:根据折线图对选项一一分析即可.对于A,这11天复工指数和复产指数均有升有降,故A错误;对于B,这11天期间,复产指数的极差为11月与1月的差值,复工指数的极差为10月与2月的差值,易知复产指数的极差小于复工指数的极差,故B错误;对于C,第3天至第11天复工复产指数均超过80%,故C正确;对于D,第9天至第11天复工指数的增量小于复产指数的增量,故D错误;故选:C7、甲、乙两组数据的频率分布直方图如图所示,两组数据采用相同的分组方法,用x̅1和x̅2分别表示甲、乙的平均数,s12,s22分别表示甲、乙的方差,则()A.x̅1=x̅2,s12<s22B.x̅1=x̅2,s12>s22C.x̅1<x̅2,s12=s22D.x̅1>x̅2,s12=s22答案:B分析:由平均数和方差的定义和性质判断即可得出结果.平均数是每个矩形的底边中点的横坐标乘以本组频率(对应矩形面积)再相加,因为两组数据采取相同分组且面积相同,故x̅1=x̅2,由图观察可知,甲的数据更分散,所以甲方差大,即s12>s22,故选:B.8、为了解某地农村经济情况,对该地农户家庭年收入进行抽样调查,将农户家庭年收入的调查数据整理得到如下频率分布直方图:根据此频率分布直方图,下面结论中不正确的是()A.该地农户家庭年收入低于4.5万元的农户比率估计为6%B.该地农户家庭年收入不低于10.5万元的农户比率估计为10%C.估计该地农户家庭年收入的平均值不超过6.5万元D.估计该地有一半以上的农户,其家庭年收入介于4.5万元至8.5万元之间答案:C分析:根据直方图的意义直接计算相应范围内的频率,即可判定ABD,以各组的中间值作为代表乘以相应的频率,然后求和即得到样本的平均数的估计值,也就是总体平均值的估计值,计算后即可判定C.因为频率直方图中的组距为1,所以各组的直方图的高度等于频率.样本频率直方图中的频率即可作为总体的相应比率的估计值.该地农户家庭年收入低于4.5万元的农户的比率估计值为0.02+0.04=0.06=6%,故A正确;该地农户家庭年收入不低于10.5万元的农户比率估计值为0.04+0.02×3=0.10=10%,故B正确;该地农户家庭年收入介于4.5万元至8.5万元之间的比例估计值为0.10+0.14+0.20×2=0.64=64%> 50%,故D正确;该地农户家庭年收入的平均值的估计值为3×0.02+4×0.04+5×0.10+6×0.14+7×0.20+8×0.20+9×0.10+10×0.10+11×0.04+12×0.02+13×0.02+14×0.02=7.68(万元),超过6.5万元,故C错误.综上,给出结论中不正确的是C.故选:C.小提示:本题考查利用样本频率直方图估计总体频率和平均值,属基础题,样本的频率可作为总体的频率的估计值,样本的平均值的估计值是各组的中间值乘以其相应频率然后求和所得值,可以作为总体的平均值的×组距.估计值.注意各组的频率等于频率组距多选题9、PM2.5是衡量空气质量的重要指标,下图是某地7月1日到10日的PM2.5日均值(单位:ug/m3)的折线图,则下列关于这10天中PM2.5日均值的说法正确的是A.众数为30B.中位数是31C.平均数小于中位数D.后4天的方差小于前4天的方差答案:AD分析:根据折线图,由众数,中位数,平均数,方差等概念及公式,逐项判断,即可得出结果.众数即是出现次数最多的数字,由折线图可得,众数为30,即A正确;中位数即是处在中间位置的数字,将折线图中数字由小到大依次排序,得到:17,25,30,30,31,32,34,38,42,126;处在中间位置的数字是:31,32,因此中位数为31.5,即B错;由折线图可得,平均数为:17+25+30+30+31+32+34+38+42+12610=40.5>31.5,故C错;前4天的平均数为:38+25+17+304=27.5,后4天的平均数为42+31+32+304=33.75前4天方差为:s12=(38−27.5)2+(25−27.5)2+(17−27.5)2+(30−27.5)24=58.25,后4天方差为:s22=(42−33.75)2+(31−33.75)2+(32−33.75)2+(30−33.75)24=23.1875,所以后4天的方差小于前4天的方差,故D正确.故选:AD.小提示:本题主要考查由折线图计算众数、中位数、平均数、方差等,属于基础题型.10、有一组互不相等....的数组成的样本数据x1、x2、⋯、x9,其平均数为a(a≠x i,i=1、2、⋯、9),若插入一个数a,得到一组新的数据,则()A.两组样本数据的平均数相同B.两组样本数据的中位数相同C.两组样本数据的方差相同D.两组样本数据的极差相同答案:AD分析:利用平均数公式可判断A选项;利用中位数的定义可判断B选项;利用方差公式可判断C选项;利用极差的定义可判断D选项.由已知可得x1+x2+⋯+x9=9a.(9a+a)=a,与原数据的平均数相等,A对;对于A选项,新数据的平均数为110对于B选项,不妨设x1<x2<⋯<x9,则原数据的中位数为x5,(max{a,x4}+x5)<x5,若a<x5,则中位数为12(x5+min{a,x6})>x5,B错;若a>x5,则中位数为12[(x1−a)2+(x2−a)2+⋯(x9−a)2+(a−a)2]对于C选项,新数据的方差为s′2=110[(x1−a)2+(x2−a)2+⋯(x9−a)2]=s2,C错;<19对于D选项,不妨设x1<x2<⋯<x9,则x1<a<x9,故新数据的极差仍为x9−x1,D对.故选:AD.11、在某次测量中得到的A样本数据如下:52,54,54,56,56,56,55,55,55,55.若B样本数据恰好是A样本数据都加6后所得数据,则A,B两样本的下列数字特征对应相同的是()A.方差B.平均数C.中位数D.标准差答案:AD分析:设样本A的数据为X,样本B的数据为Y,可得Y=X+6,结合中位数、平均数和方差间的关系,即可求解.由题意,设样本A的数据为X,样本B的数据为Y,可得Y=X+6,设样本A的平均数为X,方差为S X2,中位数为X中,可得样本B的平均数为Y=X+6,方差S Y2=S X2,中位数Y中=X中+6,标准差S Y=S X.故选:AD.填空题12、某同学5次上学途中所花的时间(单位:分钟)分别为x,y,8,10,12.已知这组数据的平均数为10,标准差为√2,则x−y的值为____________.答案:±2分析:根据平均数和方差的计算方法可列出关于x和y的方程组,解之即可.平均数为15×(x+y+10+12+8)=10,即x+y=20①,方差为15×[(x−10)2+(y−10)2+(10−10)2+(12−10)2+(8−10)2]=2,即(x−10)2+(y−10)2=2②,由①②解得x=9,y=11或x=11,y=9,所以当x=9,y=11时,x−y=−2;当x=11,y=9,x−y=2所以答案是:±2.13、北京2022年冬奥会吉祥物“冰墩墩”和冬残奥会吉祥物“雪容融”一亮相,好评不断,这是中国文化与奥林匹克精神的一次完美结合.现工厂决定从20只相同的“冰墩墩”,15只相同的“雪容融”和10个相同的北京2022年冬奥会会徽中,采用分层随机抽样的方法,抽取一个容量为n的样本进行质量检测,若“冰墩墩”抽取了4只,则n=______.答案:9分析:根据成分层抽样的比例可得答案.20 :15:10=4:3:2,由于“冰墩墩”抽取了4只,所以“雪容融”抽取了3只,北京2022年冬奥会会徽抽取了2个,所以n=4+3+2=9.所以答案是:9.。
统计典型例题2.1.1简单随机抽样例题:某学校有学生1200人,为了调查教师授课情况,打算抽取一个容量为50的样本,问此样本若采用简单随机抽样将如何获取?点拨:简单随机抽样有两种:抽签法和随机数法。
尽管此题的总体中的个体数不算少,但依题意其操作却是等可能的。
解析:(方法一)首先,把学生编号0001,0002,…..1200.如果抽签法,则做1200个形状、大小相同的号签,然后将这些号签放在同一个箱子里,进行搅拌均匀。
抽签时,每次从中抽出1个号签,连续抽取50次,就得到一个容量为50的样本。
(方法二)首先把学生编号0001,0002,…..1200.如果用随机数法,使用各个5位数的前四位,任意取,如9038,1212,6404,5940,1321…所取得大于1200的为无效号吗,小于等于1200的为有效号码。
一直取够50人为止。
2.1.2系统抽样例题:某工厂有1003名工人,从中抽取10人参加体检,试用系统抽样进行具体检验。
点拨:由于总体容量不能被样本容量整除,需要先剔除3名工人,使得总体容量能被样本容量整除,取K=1000/10=100,然后再利用系统抽样的方法进行。
解析:(1)利用随机数法剔除3名工人(2)将剩余的1000名工人编号0001---1000(3)分段,取间隔K=1000/10=100,将总体均分为10组,每组含100个工人(4)从第一组即编号为0001---0100中随机抽取一个号L(5)按编号将L,100+L,200+L,…900+L共10个号选出。
这10个号所对应的工人组成样本。
能力提升:一般的,从N个编号中抽取 n个号码入样,若采用系统抽样,分段间隔为:A.当N/n为整数时,间隔为K=N/nB.当N/n不是整数时,从N中随机剔除m个个体,使得(N- m)/n 是个整数,间隔为K=(N- m)/nC.综上所述,抽样的间隔为K=[N/n]2.1.3分层抽样例题:一个单位有职工160人,其中有业务员112人,管理人员16人,后勤服务人员32人,为了解职工的工作效率,要从中抽取容量为20的样本,用分层抽样的方法进行抽样,写出过程。
点拨:分层抽样中各层抽取的个体数依据各层个体数之比来分配,确定各层抽取的个体数之后,可采用简单随机抽样或者系统随机抽样在各层中抽取个体。
解析:首先,三部分所含个体数之比为112:16:32=7:1:2,设三部分各抽个体数为7X,X,2X,则由7X+X+2X=20得X=2。
故业务人员、管理人员、后勤服务人员抽取的个数分别为:14,2和4.然后,对三部分人员分别按照系统抽样或者随机抽样的办法选出相应的人,这样就得到了一个容量为20的样本。
拓展提升:解决此类问题的关键在于对概念的正确理解以及在每一次抽样的步骤中所采用的抽样方法,应注意语言叙述的完整性。
2.2.1用样本的频率分布估计总体分布例题1:有一容量为50的样本,数据的分组及各组的频率数如下:[)[)[)[)10154303591520535408,;,;,;,;[)[)[)20251040453253011,;,;,. (1) 列出样本的频率分布表; (2) 画出频率分布直方图.(3) 估计总体数据出现在[10,25)的概率 数据段 [)1015,[)1520, [)2025, [)2530, [)3035, [)3540, [)4045, 总计 频数 4 5 10 11 9 8 3 50 频率 0.080.100.200.220.180.160.061.00(2)频率分布直方图:(3)由频率分布直方表可以看出,数据出现在[10,25)的频率是0.38,所以我们估计总体出现在这段范围的概率为0.38能力提升:总体分布反映了总体在各个范围内取值的概率,利用样本的频率分布,可以近似地估计总体分布,利用样本在某一范围的频率,可以近似地估计总体在这一范围的概率。
对每一组样本取其一代表值,一般去其中值,近似的看成离散型变量,可以近似的估计出其总体的均值。
例题2:. 某赛季甲、乙两个篮球运动员每场比赛的得分情况如下:甲:11,15,24,26,31,31,36,36,37,39,44,49,50乙:7,13,14,16,23,26,27,33,38,39,51(1)请你用茎叶图表示上面的数据;(2)将这两组数据进行比较分析,得到什么结论?解析:(1)用茎叶图表示如下:(2)从茎叶图中可看到甲运动员每场比赛的得分情况大致对称,中位数为36;乙运动员每场比赛的得分情况除一个特殊得分外,也大致对称,中位数为26.因此甲运动员的得分发挥比较稳定,总体得分高于乙运动员.2.2.2用样本的数字特征估计总体数字特征例1:甲、乙两种冬小麦试验品连续5年的平均单位面积产量见表(1) 求两种小麦的平均年产量(2) 试根据这组数据估计哪一种小麦品种产量较稳定答案:(1)10,10(2)20.02s =甲,20.244s =乙22s s <乙甲∴即甲稳定.点拨:方差(标准差)体现了一组数据的波动大小。
方差越大,样本数据的波动就越大,稳定性就越差。
本题中,比较产量的稳定性就是在比较波动的大小。
【举一反三】某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30分钟抽取一包产品,称其重量,分别记录抽查数据如下: 甲:102,101,99,98,103,98,99; 乙:110,115,90,85,75,115,110. (1) 这种抽样方法是哪一种? (2) 估计甲、乙两个车间产品的平均数与方差,并说明哪个车间产品较稳定? 解:(1)这种抽样方法是系统抽样; (2)甲车间的平均数为11(10210199981039899)1007x =++++++=, 甲车间的方差22222211[(102100)(101100)(99100)(98100)(103100)7s =-+-+-+-+-22(98100)(99100)] 3.43+-+-≈乙车间的平均数为21(110115908575115110)1007x =++++++=, 乙车间的方差为22222221[(110100)(115100)(90100)(85100)(75100)7s =-+-+-+-+-22(115100)(110100)]228.57+-+-≈12x x =∵,2212s s <,所以甲车间产品较稳定.2.3变量间的相关关系例1:下列关系中,带有相关关系的是(BD )A.正方形的变长与面积之间的关系B.水稻产量与施肥之间的关系C.人的身高与年龄之间的关系D.降雪量与交通事故之间的关系解析:两变量之间的相互关系有两种:函数关系和带有随机性的相关关系。
A为函数关系B为不严格的函数关系,因而是相关关系C 人的身高与年龄不是函数关系,也不是相关关系,因为人的年龄到了一定时期身高就不会发生明显变化了,因而它们不具有相关关系。
D降雪量与交通事故的发生之间具有相关关系点拨:变量间存在两种关系:函数关系和相关关系,前者是确定的,后者是不确定的,数学中只有统计部分研究不确定关系。
例2:假设关于某种设备的使用年限x和所支出的维修费用y(万元)有如下统计资料:若y对x呈线性关系,求(1)线性回归方程(2)估计是用年限为10年时维修费用是多少?点拨:知道y 与x 是线性相关关系,无需再进行相关性检验,直接利用公式求回归系数。
否则应先进行检验。
如果两个变量不是相关关系,即使求取回归方程也毫无意义,因为用这个方程估测是不准的。
解析:(1)x =4,y =5,521ii x=∑=90,51i i i x y =∑=112.3于是2112.35451.239054b -⨯⨯==-⨯ a=y bx -=5-1.234⨯=0.08 回归方程为y=1.23x+0.08(2)当x=10年时,代入方程得维修费大约是12.38万元例下表是某小卖部6天卖出热茶的杯数与当天气温的对比表:((2)你能从散点图中发现温度与饮料杯数近似成什么关系吗? (3)如果近似成线性关系的话,请求出回归直线方程来近似地表示这种线性关系.(4)如果某天的气温是-5℃时,预测这天小卖部卖出热茶的杯数.解析:(1)煤气消耗量(百万立方米)y x =6.0573+ 0.0811r =0.99613025201510500123 4 52煤气使用户数(万户)(2)相关关系(3)yˆ=0.08+6.06x ; (4)x 0=4.5+0.5=5,代入得yˆ=30.38, 所以煤气量约达3038万立方米.点拨:在尚未断定两个变量是否具有相关性情况下,应该先进行相关检验,在确认具有相关关系后,再求其回归方程并用方程估计。
选修2-3 3.1回归分析的基本思想及其初步应用例题1:某种书每册的成本费y (元)与印刷册数x (千册)有关,经统计得到数据如下:检验每册书的成本费y 与印刷册数的倒数x之间是否具有线性相关关系,如有,求出y 对x 的回归方程。
解析:首先设变量1u x=,题目所给的数据变成如下表所示的数据由公式得ˆˆ 1.125,8.973ab ==ˆ 1.1258.973yx =+ 最后回代1u x =,可得8.973ˆ 1.125y x=+点拨:进行相关检验,有时也用作散点图,并观察所给的数据列成的点是否在一条直线附近,这样既直观又方便。
但由于存在误差,有时又很难说这些点是否分布在一条直线附近,这时必须用样本相关系数对其进行相关性检验。
例题2:为了研究某种细菌随时间x 变化,繁殖的个数,收集数据如下:(1) 用天数作解释变量,繁殖个数作预报变量,作出这些数据的散点图 (2) 描述解释变量与预报变量之间的关系(3) 计算残差、相关指数R 2.解析:(1)略(2)由散点图看出样本点分布在一条指数函数y=2C x1eC 的周围,于是令Z=lny,则由计数器算得ˆZ=0.69X 1.112+ 则有0.69x 1.112ˆy=e +n2i i=1ˆe∑=n2ii i=1ˆ(y y)-∑=3.1643n2i i i=1ˆ(yy )-∑=n22ii=1y ny -∑=25553.3 R 2=1-3.164325553.3=0.9999即解释变量天数对预报变量繁殖细菌得个数解释了99.99%.点拨:非线性回归问题有时候并不给出经验公式。
这时我们可以画出散点图,把他与学过的各种函数比如幂指对函数图象做比较,挑选一种跟这些散点拟合得最好的函数,然后采用适当的置换,把问题化为线性回归分析问题。
3.2独立性检验的基本思想及其初步应用例题1: 利用独立性检验来考虑两个分类变量X 和Y 是否有关系时,通过查阅上表来确定断“X 和Y 有关系”的可信度。
如果k>5.024,那么就有把握认为“X 和Y 有关系”的百分比为( D ) A.25% B.75% C.2.5% D.97.5%例题2: 在研究色盲与性别的关系调查中,调查了男性480人,其中有38人患色盲,调查的520个女性中6人患色盲, (1)根据以上的数据建立一个2×2的列联表;(2)若认为“性别与患色盲有关系”,则出错的概率会是多少 解析:(1)(2)假设H :“性别与患色盲没有关系” 先算出K 的观测值:21000(385144426)27.1448052044956k ⨯⨯-⨯=⨯⨯⨯= 则有2(10.808)0.001P K ≥= 即是H 成立的概率不超过0.001, 若认为“性别与患色盲有关系”,则出错的概率为0.001。