2017高考数学理一轮总复习教学案: 第13章 统计案例
- 格式:doc
- 大小:204.50 KB
- 文档页数:8
高中数学统计单元教案教学目标:1. 了解统计学的基本概念和方法。
2. 掌握数据的收集、整理和分析方法。
3. 能够应用统计学知识解决实际问题。
教学重点和难点:重点:数据的收集和整理方法;频数分布和频率分布的表示方法;统计图表的绘制。
难点:统计方法在实际问题中的应用。
教学内容:1. 统计学的基本概念及分类。
2. 数据的收集、整理和分析方法。
3. 频数分布和频率分布。
4. 统计图表的绘制。
5. 统计学在实际问题中的应用。
教学过程:一、导入为学生展示一组数据,并引导学生分析数据的规律性和特点,引出统计学的重要性。
二、教学内容讲解1. 简要介绍统计学的基本概念和分类。
2. 详细讲解数据的收集、整理和分析方法,包括数据的分类、整理和处理。
3. 讲解频数分布和频率分布的表示方法,引导学生计算频数和频率。
4. 演示统计图表的绘制方法,包括直方图、饼图和折线图等。
5. 分析统计学在实际问题中的应用,如调查、统计学习等。
三、练习与讨论1. 给学生布置一些练习题,让学生熟练掌握数据处理和统计图表绘制方法。
2. 进行小组讨论,让学生分享统计学在实际问题中的应用案例。
四、总结与反思总结本节课学习的内容,引导学生思考统计学在现实生活中的重要性和应用价值。
五、作业布置布置作业,巩固和拓展学生的学习内容,如完成一些实际调查或统计问题。
六、拓展延伸引导学生对统计学进行拓展学习,了解更多统计学知识和方法,如相关性分析、假设检验等。
教学资源:1. 教科书和教学辅助资料。
2. 实际数据和统计软件。
3. 课堂展示资料,如图表、案例等。
教学评价:1. 可以设置课堂小测验或作业考核学生对基本概念和方法的掌握情况。
2. 观察学生在课堂练习和讨论中的表现,评价学生对统计学知识的理解和运用能力。
教学反馈:及时对学生的学习情况进行反馈,鼓励学生积极参与课堂讨论和实践活动,帮助学生提升统计学习效果。
第十一讲 复习统计一、本讲进度《统计》复习 二、本讲主要内容1、本章内容是初中《统计初步》与高中《概率》内容的深入和扩展,对数理统计中要研究的两个基本问题;如何从总体中抽取样本以及如何通过对所抽取的样本进行计算和分析,从而对总体的相应情况作出推断,作了初步的介绍。
几个基本名词:在统计中,考察对象的全体称为总体,总体中的每一个对象称为个体。
若记总体中N 个个体取值分别为x 1,x 2,…,x N ,则称)x x x (N1N 21+++=μ 为总体平均数(μ为N 个个体的算术平均数)若记])x ()x ()x [(N12N 22212μ-+μ-+μ-=σ ,则称σ2为总体方差,σ称为总体标准差。
初中《统计初步》的主要内容⎪⎪⎪⎪⎪⎪⎩⎪⎪⎪⎪⎪⎪⎨⎧⎩⎨⎧⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧→⎪⎪⎪⎩⎪⎪⎪⎨⎧⎩⎨⎧⎪⎩⎪⎨⎧平均数样本平均数去估计总体样本容量等样本个体总体样本去估计总体频率分布从整体分布上描述标准差方差描述其被动大小中位数众数平均数描述集中趋势从特征数上描述描述一组数据的方法,,, 2、抽样方法的分类:按照抽取样本时总体中的每个个体被抽取的概率是否相等⎩⎨⎧不等概率抽样等概率抽样本章只研究等概率抽样 等概率抽样⎩⎨⎧不放回抽样放回抽样常用的三种抽样方法的比较:3、用样本的频率分布估计总体分布,分两种情况:(1)当总体中的个数体取不同数值很少时,其频率分布表由所取样本的不同数值及其相应的频率来表示,其几何表示就是相应的条形图。
例如射击的环数,掷单粒骰子时出现的点数等;(2)当总体中的个体取不同值较多甚至无限时,此时需要对样本数据进行整理,其频率分布表列出的是在各个不同区间内取值的频率,相应的直方图是用图形面积的大小来表示在各个区间内取值的频率。
画第二种情况频率分布图的步骤是: ①计算最大值与最小值的差; ②决定组距与组数;③决定分点,通常使分点比数据多一位小数,并且把第一小组的起点稍微减小一点; ④列出频率分布表; ⑤画出频率分布直方图频率分布将随着样本容量的增大而更加接近总体分布,当样本容量无限增大且分组的组距无限缩小时,频率分布直方图就会演变成一条光滑曲线——反映总体分布的概率密度曲线。
芯衣州星海市涌泉学校§1统计〔二〕【复习目的】通过统计案例,会用样本频率分布估计总体分布;理解频率分布表和频率分布直方图的绘制;掌握用样本的平均数去估计总体期望值;理解方差和标准差的意义,会求样本方差和标准差。
【课前预习】在统计中,为了考察一个总体的情况,通常是从总体中抽取一个样本,用样本的有关情况去估计总体的相应情况。
这种估计大体分为两类,一类是,一类是。
总体平均数(又称为总体期望值)描绘了一个总体的平均程度。
对很多总体来说,它的平均数不易求得,常用容易求得的样本平均数:x=对它进展估计。
方差和标准差计算公式:样本方差:2s=;样本标准差:s=。
方差和标准差的意义:描绘一个样本和总体的的特征数。
标准差大说明波动大。
在频率分布直方图中,各个长方形的面积表示〔〕A.落在相应各组的数据的频数B.相应各组的频率C.该样本所分成的组数D.该样本的样本容量一个容量为40的样本,把它分成六组:第一组到第四组的频数分别是:5,6,7,10,第五组的频率是0.2,那么第六组的频数是,频率为。
假设M个数的平均数是X,N个数的平均数是Y,那么这M+N个数的平均数是〔〕A.2X Y+B.X YM N++C.MX NYM N++D.MX NYX Y++下面哪有个数不为总体特征数的是〔〕A.总体平均数B.总体方差C.总体标准差D.总体样本【典型例题】例1某人有资金10万元,准备用于投资经营甲,乙两种商品,根据统计资料:经营甲经营乙问:应该选择经营哪种商品?例2甲、乙两学生连续五次数学测验成绩如下,甲:80、75、80、90、70;乙:70、70、75、80、65。
问哪一位同学的数学成绩比较稳定?【稳固练习】假设样本a1,a2,a3的方差是2,那么样本2a1+3,2a2+3,2a3+3的方差是。
甲、乙两种棉花,各抽取50根棉花纤维检验长度,样本方差分别是s甲=2,s乙=0.93,这两种棉花质量较好的是。
某校要从两名短跑运发动中选拔一名代表去运动会参赛,为此对甲、乙两名运发动进展了6次短跑成绩测验,结果说明两运发动平均成绩一样,但甲成绩的方差为0.008,乙成绩的方差为0.027,由此可以估计______的成绩比______的成绩稳定,应选派______运发动去参加运动会为佳.样本:1086101381012117 8911912910111212那么频率为0.3的范围是〔〕A.5.5~7.5B.7.5~9.5C.9.5~11.5D.11.5~13.5有甲、乙两种水稻,测得每种水稻各10穴的分蘖数后,计算出样本方差分别为s2=11、s2=,由此可以估计〔〕A.甲种水稻比乙种水稻分蘖整齐B.乙种水稻比甲种水稻分蘖整齐C.甲、乙两种水稻分蘖整齐程度一样D.甲、乙两种水稻分蘖整齐程度不能比较27.为了理解某地区高三学生的身体发育情况,抽查了地区内100名年龄为1岁~18岁的男生的体重情况,频率直方图如右图。
§11.1随机抽样1. 简单随机抽样(1)定义:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. (2)最常用的简单随机抽样的方法:抽签法和随机数表法. 2. 系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本. (1)先将总体的N 个个体编号;(2)确定分段间隔k ,对编号进行分段,当N n (n 是样本容量)是整数时,取k =Nn ;当Nn 不是整数时,可随机地从总体中剔除余数,再确定分段间隔; (3)在第1段用简单随机抽样确定第一个个体编号s (s ≤k );(4)按照一定的规则抽取样本,通常是将s 加上间隔k 得到第2个个体编号(s +k ),再加k 得到第3个个体编号(s +2k ),依次进行下去,直到获取整个样本. 3. 分层抽样(1)分层抽样的定义:在抽样时,将总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.(2)当总体由有明显差异的几部分组成时,往往选用分层抽样.1. 判断下面结论是否正确(请在括号中打“√”或“×”)(1)简单随机抽样是一种不放回抽样.( √ ) (2)简单随机抽样每个个体被抽到的机会不一样,与先后有关. ( × ) (3)系统抽样在起始部分抽样时采用简单随机抽样.( √ )(4)要从1 002个学生中用系统抽样的方法选取一个容量为20的样本,需要剔除2个学生,这样对被剔除者不公平.( × ) (5)分层抽样中,每个个体被抽到的可能性与层数及分层有关.( × )2. 在某班的50名学生中,依次抽取学号为5、10、15、20、25、30、35、40、45、50的10名学生进行作业检查,这种抽样方法是( )A .随机抽样B .分层抽样C .系统抽样D .以上都不是答案 C3. 将参加英语口语测试的1 000名学生编号为000,001,002,…,999,从中抽取一个容量为50的样本,按系统抽样的方法分为50组,如果第一组编号为000,001,002,…,019,且第一组随机抽取的编号为015,则抽取的第35个编号为( )A .700B .669C .695D .676 答案 C解析 由题意可知,第一组随机抽取的编号l =15,分段间隔数k =N n =1 00050=20,则抽取的第35个编号为a 35=15+(35-1)×20=695.4. 大、中、小三个盒子中分别装有同一种产品120个、60个、20个,现在需从这三个盒子中抽取一个样本容量为25的样本,较为恰当的抽样方法为________________. 答案 简单随机抽样解析因为三个盒子中装的是同一种产品,且按比例抽取每盒中抽取的不是整数,所以将三盒中产品放在一起搅匀按简单随机抽样法(抽签法)较为适合.5.一支田径队有男运动员48人,女运动员36人.若用分层抽样的方法从该队的全体运动员中抽取一个容量为21的样本,则抽取男运动员的人数为________.答案12解析样本的抽取比例为2148+36=14,所以应抽取男运动员48×14=12(人).题型一简单随机抽样例1下列抽取样本的方式是否属于简单随机抽样?(1)从无限多个个体中抽取100个个体作为样本.(2)盒子里共有80个零件,从中选出5个零件进行质量检验.在抽样操作时,从中任意拿出一个零件进行质量检验后再把它放回盒子里.(3)从20件玩具中一次性抽取3件进行质量检验.(4)某班有56名同学,指定个子最高的5名同学参加学校组织的篮球赛.思维启迪判断一个抽样是否为简单随机抽样,要判断是否符合简单随机抽样的特征.解(1)不是简单随机抽样.因为被抽取的样本总体的个体数是无限的,而不是有限的.(2)不是简单随机抽样.因为它是放回抽样.(3)不是简单随机抽样.因为这是“一次性”抽取,而不是“逐个”抽取.(4)不是简单随机抽样.因为不是等可能抽样.思维升华(1)简单随机抽样需满足:①被抽取的样本总体的个体数有限;②逐个抽取;③是不放回抽取;④是等可能抽取.(2)简单随机抽样常有抽签法(适用总体中个体数较少的情况)、随机数表法(适用于个体数较多的情况).(2013·江西)总体由编号为01,02,…,19,20的20个个体组成,利用下面的随机数表选取5个个体,选取方法是从随机数表第1行的第5列和第6列数字开始由左到右依次选取两个数字,则选出来的第5个个体的编号为()A.08答案 D解析从第1行第5列、第6列组成的数65开始由左到右依次选出的数为08,02,14,07,01,所以第5个个体编号为01.题型二系统抽样例2将参加夏令营的600名学生编号为001,002,…,600.采用系统抽样方法抽取一个容量为50的样本,且随机抽得的号码为003.这600名学生分住在三个营区,从001到300在第Ⅰ营区,从301到495在第Ⅱ营区,从496到600在第Ⅲ营区,三个营区被抽中的人数依次为()A.26,16,8 B.25,17,8C.25,16,9 D.24,17,9思维启迪系统抽样又称“等距抽样”.可以根据“等距”确定各营区被抽中的人数.答案 B解析由题意及系统抽样的定义可知,将这600名学生按编号依次分成50组,每一组各有12名学生,第k(k∈N+)组抽中的号码是3+12(k-1).令3+12(k-1)≤300得k≤103,因此第Ⅰ营区被抽中的人数是25;4令300<3+12(k-1)≤495得1034<k≤42,因此第Ⅱ营区被抽中的人数是42-25=17.结合各选项知,选B.思维升华(1)系统抽样的特点——机械抽样,又称等距抽样,所以依次抽取的样本对应的号码就是一个等差数列,首项就是第1组所抽取的样本号码,公差为间隔数,根据等差数列的通项公式就可以确定每一组内所要抽取的样本号码.(2)系统抽样时,如果总体中的个体数不能被样本容量整除时,可以先用简单随机抽样从总体中剔除几个个体,然后再按系统抽样进行.(2013·陕西)某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14 答案 B解析 由84042=20,即每20人抽取1人,所以抽取编号落入区间[481,720]的人数为720-48020=24020=12(人). 题型三 分层抽样例3(2013·湖南)某工厂甲、乙、丙三个车间生产了同一种产品,数量分别为120件,80件,60件.为了解它们的产品质量是否存在显著差异,用分层抽样方法抽取了一个容量为n的样本进行调查,其中从丙车间的产品中抽取了3件,则n等于()A.9 B.10 C.12 D.13思维启迪分层抽样,抽样比是一个定值.答案 D解析∵360=n120+80+60,∴n=13.思维升华在分层抽样的过程中,为了保证每个个体被抽到的可能性是相同的,这就要求各层所抽取的个体数与该层所包含的个体数之比等于样本容量与总体的个体数之比,即n i∶N i=n∶N.某校共有学生2 000名,各年级男、女生人数如下表.已知在全校学生中随机抽取1名,抽到二年级女生的概率是0.19.现用分层抽样的方法在全校抽取64名学生,则应在三年级抽取的学生人数为()一年级二年级三年级女生373x y男生377370zA.24 B.18 C.答案 C解析依题意我们知道二年级的女生有380人,那么三年级的学生人数应该是2 000-373-377-380-370=500,即总体中各个年级的人数比为3∶3∶2,故在分层抽样中应在三=16.年级抽取的学生人数为64×28五审图表找规律典例:(12分)某单位有2 000名职工,老年、中年、青年分布在管理、技术开发、营销、生产各部门中,如下表所示:人数管理技术开发营销生产共计老年40404080200中年80120160240600青年40160280720 1 200小计160320480 1 040 2 000(1)(2)若要开一个25人的讨论单位发展与薪金调整方面的座谈会,则应怎样抽选出席人?(3)若要抽20人调查对广州亚运会举办情况的了解,则应怎样抽样?抽取40人调查身体状况↓(观察图表中的人数分类统计情况) 样本人群应受年龄影响↓(表中老、中、青分类清楚,人数确定) 要以老、中、青分层,用分层抽样 ↓要开一个25人的座谈会 ↓(讨论单位发展与薪金调整)样本人群应受管理、技术开发、营销、生产方面的影响 ↓(表中管理、技术开发、营销、生产分类清楚,人数确定) 要以管理、技术开发、营销、生产人员分层,用分层抽样 ↓要抽20人调查对广州亚运会举办情况的了解↓可认为亚运会是大众体育盛会,一个单位人员对情况了解相当 将单位人员看作一个整体↓(从表中数据看总人数为2 000人) 人员较多,可采用系统抽样 规范解答解 (1)按老年、中年、青年分层,用分层抽样法抽取, [1分] 抽取比例为402 000=150.[2分] 故老年人,中年人,青年人各抽取4人,12人,24人.[4分](2)按管理、技术开发、营销、生产分层,用分层抽样法抽取, [5分]抽取比例为252 000=180,[6分]故管理,技术开发,营销,生产各抽取2人,4人,6人,13人. [8分](3)用系统抽样,对全部2 000人随机编号,号码从0001~2000,每100号分为一组,从第一组中用随机抽样抽取一个号码,然后将这个号码分别加100,200,…,1 900,共20人组成一个样本.[12分]温馨提醒 (1)本题审题的关键有两点,一是对图表中的人员分类情况和数据要审视清楚;二是对样本的功能要审视准确.(2)本题易错点是,对于第(2)问,由于对样本功能审视不准确,按老、中、青三层分层抽样.方法与技巧三种抽样方法的比较进行分层抽样时应注意几点:(1)分层抽样中分多少层、如何分层要视具体情况而定,总的原则是层内样本的差异要小,两层之间的样本差异要大,且互不重叠;(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同;(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.A组专项基础训练(时间:30分钟)一、选择题1.(2012·四川)交通管理部门为了解机动车驾驶员(简称驾驶员)对某新法规的知晓情况,对甲、乙、丙、丁四个社区做分层抽样调查.假设四个社区驾驶员的总人数为N,其中甲社区有驾驶员96人.若在甲、乙、丙、丁四个社区抽取驾驶员的人数分别为12,21,25,43,则这四个社区驾驶员的总人数N为()A.101 B.808 C.1 212 D.2 012答案 B解析由题意知抽样比为1296,而四个社区一共抽取的驾驶员人数为12+21+25+43=101,故有1296=101N,解得N=808.2. 某校选修乒乓球课程的学生中,高一年级有30名,高二年级有40名.现用分层抽样的方法在这70名学生中抽取一个样本,已知在高一年级的学生中抽取了6名,则在高二年级的学生中应抽取的人数为( )A .6B .8C .10D .12 答案 B解析 设样本容量为N ,则N ×3070=6,∴N =14,∴高二年级所抽人数为14×4070=8. 3. 某单位有职工750人,其中青年职工350人,中年职工250人,老年职工150人,为了了解该单位职工的健康情况,用分层抽样的方法从中抽取样本,若样本中的青年职工为7人,则样本容量为( )A .7B .15C .25D .35 答案 B解析 由题意知青年职工人数∶中年职工人数∶老年职工人数=350∶250∶150=7∶5∶3.由样本中青年职工为7人得样本容量为15.4. 为规范学校办学,省教育厅督察组对某所高中进行了抽样调查.抽到的班级一共有52名学生,现将该班学生随机编号,用系统抽样的方法抽取一个容量为4的样本,已知7号、33号、46号同学在样本中,那么样本中还有一位同学的编号应为 ( )A .13B .19C .20D .51 答案 C解析 抽样间隔为46-33=13, 故另一位同学的编号为7+13=20,选C.5. 某学校高一、高二、高三三个年级共有学生3 500人,其中高三学生是高一学生的两倍,高二学生比高一学生多300人,现在按1100的抽样比例用分层抽样的方法抽取样本,则高一学生应抽取的人数为( ) A .8 B .11 C .16 D .10 答案 A解析 设高一学生有x 人,则高三学生有2x 人,高二学生有(x +300)人,学校共有4x +300=3 500(人),解得x =800(人),由此可得按1100的抽样比例用分层抽样的方法抽取样本,高一学生应抽取的人数为1100×800=8(人),故应选A.二、填空题6. (2012·天津)某地区有小学150所,中学75所,大学25所.现采用分层抽样的方法从这些学校中抽取30所学校对学生进行视力调查,应从小学中抽取________所学校,中学中抽取________所学校. 答案 18 9解析 150×30150+75+25=150×30250=18,75×30250=9.7. 将某班的60名学生编号为01,02,…,60,采用系统抽样方法抽取一个容量为5的样本,且随机抽得的一个号码为04,则剩下的四个号码依次是________. 答案 16,28,40,528. (2012·福建)一支田径队有男女运动员98人,其中男运动员有56人,按男女比例用分层抽样的方法,从全体运动员中抽出一个容量为28的样本,那么应抽取女运动员人数是________. 答案 12解析 依题意,女运动员有98-56=42(人). 设应抽取女运动员x 人,根据分层抽样特点, 得x 42=2898,解得x =12. 9. 课题组进行城市空气质量调查,按地域把24个城市分成甲、乙、丙三组,对应的城市数分别为4,12,8,若用分层抽样抽取6个城市,则丙组中应抽取的城市数为________. 答案 2解析 由已知得抽样比为624=14,∴丙组中应抽取的城市数为8×14=2.10.用系统抽样法要从160名学生中抽取容量为20的样本,将160名学生从1~160编号,按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组抽出的号码为123,则第2组中应抽出个体的号码是______________. 答案 11解析 由题意可知,系统抽样的组数为20,间隔为8,设第1组抽出的号码为x ,则由系统抽样的法则可知,第n 组抽出个体的号码应该为x +(n -1)×8,所以第16组应抽出的号码为x +(16-1)×8=123,解得x =3,所以第2组中应抽出个体的号码为3+(2-1)×8=11.B 组 专项能力提升 (时间:30分钟)1. 某初级中学有学生270人,其中一年级108人,二、三年级各81人,现要利用抽样方法抽取10人参加某项调查,考虑选用简单随机抽样、分层抽样和系统抽样三种方案,使用简单随机抽样和分层抽样时,将学生按一、二、三年级依次统一编号为1,2,…,270,使用系统抽样时,将学生统一随机编号为1,2,…,270,并将整个编号依次分为10段,如果抽得号码有下列四种情况: ①7,34,61,88,115,142,169,196,223,250 ②5,9,100,107,111,121,180,195,200,265 ③11,38,65,92,119,146,173,200,227,254 ④30,57,84,111,138,165,192,219,246,270 关于上述样本的下列结论中,正确的是( )A .②、③都不能为系统抽样B .②、④都不能为分层抽样C .①、④都可能为系统抽样D .①、③都可能为分层抽样答案 D解析 因为③为系统抽样,所以选项A 不对;因为②为分层抽样,所以选项B 不对;因为④不为系统抽样,所以选项C 不对,故选D.2. (2012·山东)采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9.抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( )A .7B .9C .10D .15 答案 C解析 由系统抽样的特点知:抽取号码的间隔为96032=30,抽取的号码依次为9,39,69,…,939.落入区间[451,750]的有459,489,…,729,这些数构成首项为459,公差为30的等差数列,设有n 项,显然有729=459+(n -1)×30,解得n =10.所以做问卷B 的有10人. 3. 为了解1 200名学生对学校某项教改实验的意见,打算从中抽取一个容量为30的样本,考虑采取系统抽样,则分段的间隔k 为________. 答案 404. 200名职工年龄分布如图所示,从中随机抽取40名职工作样本,采用系统抽样方法,按1~200编号分为40组,分别为1~5,6~10,…,196~200,第5组抽取号码为22,第8组抽取号码 为______.若采用分层抽样,40岁以下年龄段应抽取______人. 答案 37 20解析 将1~200编号分为40组,则每组的间隔为5,其中第5组抽取号码为22,则第8组抽取的号码应为22+3×5=37;由已知条件200名职工中40岁以下的职工人数为200×50%=100,设在40岁以下年龄段中应抽取x 人, 则40200=x100,解得x =20. 5. 一个总体中有90个个体,随机编号0,1,2,…,89,依从小到大的编号顺序平均分成9个小组,组号依次为1,2,3,…,9.现用系统抽样方法抽取一个容量为9的样本,规定如果在第1组随机抽取的号码为m ,那么在第k 组中抽取的号码个位数字与m +k 的个位数字相同,若m =8,则在第8组中抽取的号码是________. 答案 76解析 由题意知:m =8,k =8,则m +k =16,也就是第8组抽取的号码个位数字为6,十位数字为8-1=7,故抽取的号码为76.6. 某公路设计院有工程师6人,技术员12人,技工18人,要从这些人中抽取n 个人参加市里召开的科学技术大会.如果采用系统抽样和分层抽样的方法抽取,不用剔除个体,如果参会人数增加1个,则在采用系统抽样时,需要在总体中先剔除1个个体,求n . 解 总体容量为6+12+18=36.当样本容量是n 时,由题意知,系统抽样的间隔为36n ,分层抽样的比例是n36,抽取的工程师人数为n 36×6=n 6,技术员人数为n 36×12=n 3,技工人数为n 36×18=n2,所以n 应是6的倍数,36的约数,即n =6,12,18.当样本容量为(n +1)时,总体容量是35人,系统抽样的间隔为35n +1,因为35n +1必须是整数,所以n 只能取6.即样本容量n =6.。
[考纲传真] 1.了解分布的意义与作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点.2.理解样本数据标准差的意义和作用,会计算数据标准差.3.能从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.4.会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征.理解用样本估计总体的思想,会用样本估计总体的思想解决一些简单的实际问题.1.常用统计图表(1)频率分布表的画法:第一步:求极差,决定组数和组距,组距=错误!;第二步:分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;第三步:登记频数,计算频率,列出频率分布表.(2)频率分布直方图:反映样本频率分布的直方图.横轴表示样本数据,纵轴表示错误!,每个小矩形的面积表示样本落在该组内的频率.(3)频率分布折线图和总体密度曲线1频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.2总体密度曲线:随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.(4)茎叶图的画法:第一步:将每个数据分为茎(高位)和叶(低位)两部分;第二步:将各个数据的茎按大小次序排成一列;第三步:将各个数据的叶依次写在其茎的右(左)侧.2.样本的数字特征(1)众数:一组数据中出现次数最多的那个数据,叫做这组数据的众数.(2)中位数:把n个数据按大小顺序排列,处于最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.(3)平均数:把错误!=错误!称为x1,x2,…,x n这n个数的平均数.(4)标准差与方差:设一组数据x1,x2,x3,…,x n的平均数为错误!,则这组数据的标准差和方差分别是s=错误!;s2=错误![(x1—错误!)2+(x2—错误!)2+…+(x n—错误!)2].错误!1.频率分布直方图中各小矩形的面积之和为1.2.频率分布直方图与众数、中位数与平均数的关系(1)最高的小长方形底边中点的横坐标即是众数.(2)中位数左边和右边的小长方形的面积和是相等的.(3)平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.3.若数据x1,x2,…,x n的平均数为错误!,方差为s2,则数据mx1+a,mx2+a,mx3+a,…,mx n+a的平均数是m错误!+a,方差为m2s2.[基础自测]1.(思考辨析)判断下列结论的正误.(正确的打“√”,错误的打“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.(2)一组数据的方差越大,说明这组数据越集中. ()(3)频率分布直方图中,小矩形的面积越大,表示样本数据落在该区间的频率越高.(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.()[答案] (1)√(2)×(3)√(4)×2.为评估一种农作物的种植效果,选了n块地作试验田.这n块地的亩产量(单位:kg)分别为x1,x2,…,x n,下面给出的指标中可以用来评估这种农作物亩产量稳定程度的是()A.x1,x2,…,x n的平均数B.x1,x2,…,x n的标准差C.x1,x2,…,x n的最大值D.x1,x2,…,x n的中位数B[标准差反映样本数据的离散波动大小,故选B.]3.数据1,3,4,8的平均数与方差分别是()A.2,2.5B.2,10.5C.4,2D.4,6.5D[平均数为错误!=4,方差为错误!=6.5.]4.某学生在一门功课的22次考试中,所得分数茎叶图如图所示,则此学生该门功课考试分数的极差与中位数之和为()A.117 B.118C.118.5D.119.5B[22次考试中,所得分数最高的为98,最低的为56,所以极差为98—56=42,将分数从小到大排列,中间两数为76,76,所以中位数为76,所以此学生该门功课考试分数的极差与中位数之和为42+76=118.]5.(教材改编)某校为了了解教科研工作开展状况与教师年龄之间的关系,将该校不小于35岁的80名教师按年龄分组,分组区间为[35,40),[40,45),[45,50),[50,55),[55,60],由此得到频率分布直方图如图,则这80名教师中年龄小于45岁的有________人.48 [由频率分布直方图可知45岁以下的教师的频率为5×(0.040+0.080)=0.6,所以共有80×0.6=48(人). ]样本的数字特征的计算与应用1.在某次测量中,得到的A样本数据为81,82,82,84,84,85,86,86,86,若B样本数据恰好是A样本数据分别加2后所得的数据,则A,B两个样本的下列数字特征对应相同的是()A.众数B.平均数C.标准差D.中位数C[由题意可得A,B两组数据的众数分别是86和88,排除A;B组数据的平均数比A组数据的平均数大2,排除B;B组数据的中位数比A组数据的中位数大2,排除D;A,B两组数据的标准差相同,C正确,故选C.]2.甲、乙两人在一次射击比赛中各射靶5次,两人成绩的条形统计图如图所示,则()甲乙A.甲的成绩的平均数小于乙的成绩的平均数B.甲的成绩的中位数等于乙的成绩的中位数C.甲的成绩的方差小于乙的成绩的方差D.甲的成绩的极差小于乙的成绩的极差C[根据条形统计图可知甲的中靶情况为4环、5环、6环、7环、8环;乙的中靶情况为5环、5环、5环、6环、9环.错误!甲=错误!(4+5+6+7+8)=6,错误!乙=错误!(5×3+6+9)=6,甲的成绩的方差为错误!=2,乙的成绩的方差为错误!=2.4;甲的成绩的极差为4环,乙的成绩的极差为4环;甲的成绩的中位数为6环,乙的成绩的中位数为5环,综上可知C正确,故选C.]3.某人5次上班途中所花的时间(单位:分钟)分别为x,y,10,11,9.已知这组数据的平均数为10,方差为2,则|x—y|的值为()A.1B.2C.3D.4D[由题意可知错误!∴错误!∴(x+y)2=x2+y2+2xy,即208+2xy=400,∴xy=96.∴(x—y)2=x2+y2—2xy=16,∴|x—y|=4,故选D.][规律方法] 众数、中位数、平均数、方差的意义及常用结论(1)平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述波动大小.(2)方差的简化计算公式:s2=错误![(x错误!+x错误!+…+x错误!)—n错误!2],或写成s2=错误!(x错误!+x错误!+…+x错误!)—错误!2,即方差等于原数据平方的平均数减去平均数的平方.【例1】某良种培育基地正在培育一小麦新品种A,将其与原有的一个优良品种B进行对照试验,两种小麦各种植了25亩,所得亩产量的数据(单位:千克)如下:品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445,445,451,454.品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415,416,422,430(1)作出品种A与B亩产量数据的茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,写出统计结论.[解] (1)画出茎叶图如图所示.(2)由于每个品种的数据都只有25个,样本容量不大,画茎叶图很方便;此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息损失,而且可以随时记录新的数据.(3)通过观察茎叶图可以看出:1品种A的亩产量的平均数(或均值)比品种B高;2品种A的亩产量的标准差(或方差)比品种B大,故品种A的亩产量的稳定性较差.[规律方法] 茎叶图中的两个关注点(1)重复出现的数据要重复记录,不能遗漏.(2)给定两组数据的茎叶图,估计数字特征,茎上的数字由小到大排列,一般“重心”下移者平均数较大,数据集中者方差较小.易错警示:茎叶图中数字大小排列不一定从小到大排列,一定要看清楚.气质量状况的指数,空气质量按照AQI大小分为六级,0~50为优;51~100为良;101~150为轻度污染;151~200为中度污染;201~300为重度污染;大于300为严重污染.从某地一环保人士某年的AQI记录数据中,随机抽取10个,用茎叶图记录如图.根据该统计数据,估计此地该年AQI大于100的天数约为________.(该年为365天)(2)如图所示的茎叶图是甲、乙两位选手在某次比赛中的比赛得分,则下列说法正确的是()A.甲的平均数大于乙的平均数B.甲的中位数大于乙的中位数C.甲的方差大于乙的方差D.甲的平均数等于乙的中位数(1)146 (2)C[(1)该样本中AQI大于100的频数是4,频率为错误!,由此估计该地全年AQI大于100的频率为错误!,估计此地该年AQI大于100的天数约为365×错误!=146.(2)由茎叶图可知,错误!甲=错误!×(59+45+32+38+24+26+11+12+14)=29,错误!乙=错误!×(51+43+30+34+20+25+27+28+12)=30,s错误!=错误!×(302+162+32+92+52+32+182+172+152)≈235.3,s错误!=错误!×(212+132+02+42+102+52+32+22+182)≈120.9,甲的中位数为26,乙的中位数为28.所以甲的方差大于乙的方差.故选C.]频率分布直方图【例2】某城市100户居民的月平均用电量(单位:千瓦时),以[160,180),[180,200),[200,220),[220,240),[240,260),[260,280),[280,300]分组的频率分布直方图如图.(1)求直方图中x的值.(2)求月平均用电量的众数和中位数.(3)在月平均用电量为[220,240),[240,260),[260,280),[280,300]的四组用户中,用分层抽样的方法抽取11户居民,则月平均用电量在[220,240]的用户中应抽取多少户?[解] (1)(0.002+0.009 5+0.011+0.0125+x+0.005+0.0025)×20=1,解得x=0.007 5.即直方图中x的值为0.007 5.(2)月平均用电量的众数是错误!=230.∵(0.002+0.009 5+0.011)×20=0.45<0.5,(0.002+0.009 5+0.011+0.0125)×20=0.7>0.5,∴月平均用电量的中位数在[220,240)内.设中位数为a,则0.45+0.0125×(a—220)=0.5,解得a=224,即中位数为224.(3)月平均用电量在[220,240]的用户有0.0125×20×100=25(户).同理可得月平均用电量在[240,260)的用户有15户,月平均用电量在[260,280)的用户有10户,月平均用电量在[280,300]的用户有5户,故抽取比例为错误!=错误!.∴月平均用电量在[220,240)的用户中应抽取25×错误!=5(户).[规律方法] 频率、频数、样本容量的计算方法(1)错误!×组距=频率.(2)错误!=频率,错误!=样本容量,样本容量×频率=频数.从某企业生产的某种产品中抽取100件,测量这些产品的一项质量指标值,由测量结果得如下频数分布表:质量指标值分组[75,85)[85,95)[95,105)[105,115)[115,125]频数62638228(2)估计这种产品质量指标值的平均数及方差(同一组中的数据用该组区间的中点值作代表);(3)根据以上抽样调查数据,能否认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定?[解] (1)如图所示:(2)质量指标值的样本平均数为错误!=80×0.06+90×0.26+100×0.38+110×0.22+120×0.08=100.质量指标值的样本方差为s2=(—20)2×0.06+(—10)2×0.26+0×0.38+102×0.22+202×0.08=104.所以这种产品质量指标值的平均数的估计值为100,方差的估计值为104.(3)质量指标值不低于95的产品所占比例的估计值为0.38+0.22+0.08=0.68.由于该估计值小于0.8,故不能认为该企业生产的这种产品符合“质量指标值不低于95的产品至少要占全部产品的80%”的规定.1.(2017·全国卷Ⅲ)某城市为了解游客人数的变化规律,提高旅游服务质量,收集并整理了1月至12月期间月接待游客量(单位:万人)的数据,绘制了下面的折线图.根据该折线图,下列结论错误的是()A.月接待游客量逐月增加B.年接待游客量逐年增加C.各年的月接待游客量高峰期大致在7,8月D.各年1月至6月的月接待游客量相对于7月至12月,波动性更小,变化比较平稳A[对于选项A,由图易知月接待游客量每年7,8月份明显高于12月份,故A错;对于选项B,观察折线图的变化趋势可知年接待游客量逐年增加,故B正确;对于选项C,D,由图可知显然正确.故选A.2.(2018·全国卷Ⅰ)某地区经过一年的新农村建设,农村的经济收入增加了一倍,实现翻番.为更好地了解该地区农村的经济收入变化情况,统计了该地区新农村建设前后农村的经济收入构成比例,得到如下饼图:则下面结论中不正确的是()A.新农村建设后,种植收入减少B.新农村建设后,其他收入增加了一倍以上C.新农村建设后,养殖收入增加了一倍D.新农村建设后,养殖收入与第三产业收入的总和超过了经济收入的一半A[设新农村建设前经济收入的总量为x,则新农村建设后经济收入的总量为2x.建设前种植收入为0.6x,建设后种植收入为0.74x,故A不正确;建设前其他收入为0.04x,建设后其他收入为0.1x,故B正确;建设前养殖收入为0.3x,建设后养殖收入为0.6x,故C正确;建设后养殖收入与第三产业收入的总和占建设后经济收入总量的58%,故D正确.]。
高三数学一轮精品复习学案:第十章统计、统计案例【知识特点】1.统计中所学的内容是数理统计中最基本的问题,通过这些内容主要来介绍相关的统计思想和方法,了解一些有关统计学的基本知识,并能够应用几个基本概念、基本公式来处理实际生活中的一些基本问题。
2.统计案例为新课标中新增内容,主要是通过案例体会运用统计方法解决实际问题的思想和方法。
增加了统计和统计案例后,使得高中数学的整个体系更加完善了,有利于开阔数学视野,丰富数学思想和方法。
【重点关注】1.从对新课标高考试题的分析可以发现,主要考查抽样方法、各种统计图表、样本数字特征等。
对这部分的考查主要以选择题和填空题的形式出现。
2.统计案例中的独立性检验和回归分析也会逐步在高考题中出现,难度不会太大,多数情况下是考查两种统计分析方法的简单知识,以选择题和填空题为主。
【地位与作用】《全国新课程标准高考数学考试大纲》中对考生能力要求明确界定为空间想象能力、抽象概括能力、推理论证能力、运算求解能力、数据处理能力以及应用意识和创新意识等六个方面,其中数据处理能力是首次提出的一个能力要求,这定义为:会收集数据、整理数据、分析数据,能从大量数据中抽取对研究问题有用的信息,并作出判断。
数据处理能力主要依据统计(高考考试大纲对知识点要求如下表所示)或统计案例中的方法对数据进行整理、分析,并解决给定的实际问题,对统计的要求已提升到能力的高度。
统计的思想方法广泛应用于自然科学和社会科学的研究中,统计的语言不仅是数学的语言,也是各学科经常引用的大众语言,统计知识是作为一个新时期公民所比备的知识。
统计学就是应用科学的方法收集、整理、分析、描述所要研究的数据资料,然后根据所得到的结果,进行推断或决策的一门实用性很强的科学。
统计这部分内容,在高中数学新课程中,主要分布在必修3第二章(约16课时)与选修2—3第三章(约9课时)。
相对于高中学生的认知水平和生活经历还相对不是很高,所以它只能属于非重点内容,所出的相关题目一般来说都相对比较简单。
统计一.抽样方法:1.简单随机抽样的概念:一般地,设一个总体含有N个个体,从中逐个不放回地抽取n个个体作为样本(n≤N),如果每次抽取时总体内的各个个体被抽到的机会都相等,就把这种抽样方法叫做简单随机抽样。
2.简单随机抽样实施的方法:抽签法;随机数表法。
3.系统抽样的定义:一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样。
4.分层抽样:当已知总体由差异明显的几部分组成时,为了使样本更客观地反映总体的情况,常将总体按不同的特点分成层次比较分明的几部分,然后按各部分在总体中所占的比进行抽样,这种抽样叫做分层抽样,其中所分成的各部分叫“层”.5二.总体分布的估计:1.频率分布表含义:当总体很大或不便于获得时,可以用样本的频率分布估计总体的频率分布。
把反映总体频率分布的表格称为频率分布表。
2.列频率分布表的步骤:(1)求全距,决定组数和组距,组距=全距÷组数;(2)分组,通常对组内数值所在区间取左闭右开区间,最后一组取闭区间;(3)登记频数,计算频率,列出频率分布表。
3.频率分布直方图的含义:利用直方图反映样本的频率分布规律,这样的直方图称为频率分布直方图,简称频率直方图。
4. 频率分布直方图的特点:①纵轴表示频率÷组距;②矩形的面积表示频率,各矩形的面积和为1.5.获得样本的频率分布的一般步骤:(1)计算最大值与最大值(极差);(2)确定组距与组数;(3)决定分点;(4)列出频率分布表;(5)画出频率分布直方图。
6.频率分布折线图的含义:将频率分布直方图中各相邻的矩形的上底边的中点顺次连结起来,就得到一条折线,称这条折线为频率折线图。
7.制作茎叶图的方法:将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共有一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小(或从小到大)的顺序同行列出,相同的数重复写出来。
《概率与统计》复习课通过对《概率》的复习让学生进一步认识到概率是研究和揭示统计规律的数学工具,对决策的制定有重要的作用。
是我们认识世界、征服世界的工具。
同时让学生深刻体会概率中必然与偶然对立统一的辩证思想。
已成为近几年高考的一大亮点和热点.它与其他知识融合、渗透,情境新颖。
与湖北卷相比,全国卷重视数据处理能力得到了很好地体现。
一.2016年考试大纲全国卷1与湖北卷相比较:二.近四年全国卷1中本专题的考试特点与命题规律:(1)题型与分值均不变从近四年全国卷1看:无论文理题型都稳定为一大一小两道题,分值17分,占比约11%。
(2)考查内容不变这四年中仅有2013年的理数卷是小题考查统计(抽样方法),大题考查概率(条件概率)。
其余五卷均与之相反,都是小题考查概率,大题考查统计知识。
(3) 密切联系教材,重视对基础知识和基本技能考查试题通常是通过对常见题型进行改编,通过对基础知识的整合、变式和拓展,从而加工为立意高、情境新、设问巧的实际问题.(4)重点考察本单元知识在实际生活中的应用文科小题一般主要考查古典概型,难度较小。
解答题以对统计的考查为主,几乎所有的统计考点都有所涉及,应用性和开放性都越来越强,对学生的能力要求越来越高。
(5)试题的文字、数据和图形的信息量大由此预计这些特点2017年依然会延续下去。
三.专题知识体系构建的方法与总体构思(复习计划)1.指导思想以基础知识为明线,数学思想作暗线,突出主线(解题方法,思维能力)2.课时安排本单元包括6讲和1个120分钟标准单元能力检测卷,每讲连课时训练一起2课时,试卷2课时,共需14课时完成.3.单元知识体系四.重点知识强化策略包括常见题型和解题方法,难点突破策略。
教学重点1.基本概念和基本公式。
如等可能性事件的概率、互斥事件的概率、对立事件的概率、相互独立事件的概率、独立重复试验。
2.常见题型的解题方法。
如抽样方法,频率分布表和频率分布直方图,离散型随机变量分布列和数学期望、方差。
人教版高中数学《统计》第一章教案【教学目标】1. 了解统计学的基本概念和作用,理解统计数据的收集、整理和分析过程。
2. 掌握频数、频率的概念,学会使用图表来表示数据分布。
3. 学会计算众数、中位数、平均数等统计量,理解它们在数据分析中的作用。
【教学内容】1. 统计学的基本概念和作用2. 数据的收集和整理3. 频数和频率的概念4. 条形图、折线图和饼图的绘制5. 众数、中位数、平均数的计算和应用【教学步骤】一、导入(5分钟)1. 引入统计学的基本概念和作用,让学生了解统计学在实际生活中的应用。
2. 举例说明数据的收集和整理过程,引导学生思考如何有效地表示和分析数据。
二、新课导入(15分钟)1. 讲解频数和频率的概念,让学生理解它们在数据分析中的重要性。
2. 介绍条形图、折线图和饼图的绘制方法,让学生学会用图表来表示数据分布。
三、案例分析(15分钟)1. 以具体案例为例,让学生实践计算众数、中位数、平均数等统计量。
2. 引导学生分析统计量在数据分析中的作用,加深对统计概念的理解。
四、课堂练习(15分钟)1. 布置练习题,让学生巩固所学内容。
2. 引导学生通过练习题,学会运用统计方法解决实际问题。
五、总结与拓展(5分钟)1. 对本节课的内容进行总结,让学生掌握统计学的基本概念和方法。
2. 布置课后作业,让学生进一步巩固所学知识。
【教学评价】1. 课后收集学生的练习作业,评估学生对统计学基本概念和方法的掌握程度。
2. 在下一节课开始时,让学生分享自己的课后作业成果,互相学习和交流。
人教版高中数学《统计》第二章教案【教学目标】1. 了解概率的基本概念和计算方法,理解随机事件和必然事件的关系。
2. 学会使用树状图和列表法来计算事件的概率。
3. 掌握条件概率和独立事件的定义,学会计算条件概率和独立事件的概率。
【教学内容】1. 概率的基本概念和计算方法2. 随机事件和必然事件的关系3. 树状图和列表法计算事件概率4. 条件概率和独立事件的定义及计算方法【教学步骤】一、导入(5分钟)1. 引入概率的基本概念,让学生了解概率在数学和实际生活中的应用。
舒城中学高三数学专题复习教与学一体化学案课题:统计与统计案例一、有的放矢、复习轻松1.理解用样本估计总体的思想,并会用样本的数字特征对总体进行估计;理解样本平均数和标准差的意义和作用,并会计算数据平均数和标准差。
2.理解独立性检验的基本思想、方法和初步应用。
3.会用简单随机抽样的方法从总体中抽取样本和了解分层抽样方法和系统抽样方法,并了解随机抽样的等可能性。
4.会作“一表三图”,并能利用“一表三图”分析样本的数字特征。
5.了解最小二乘法的思想和利用已知系数公式建立线性回归方程;了解回归分析的基本思想、方法及其简单应用。
二、知识结构,了然于胸三、复习定位,对症下药 1.重点(1)简单随机抽样的基本方法以及操作步骤。
(2)用茎叶图和频率分布直方图分析样本的基本数字特征。
(3)会根据茎叶图计算样本的基本数字特征;会用频率分布直方图估算样本的基本数字特征.2.难点(1)会用茎叶图和频率分布直方图分析样本的基本数字特征。
(2)体会用样本估计总体的思想;会用样本的基本数字特征估计总体的基本数字特征。
四、例题解析,理解深入【例题1】 某省打算对本省现行的高考方案做出优化改革,使之更好的考查考生的能力和素质,为增强改革的有效性,计划向5000名高三学生、3000名高校学生和4000名高中教师发放相关问卷,拟收回1200份做数据分析,请选择恰当的抽样方法收取这1200份问卷。
【解析】 本题适合采用分层抽样方法: 第一步:确定抽样比:1014000300050001200=++==N n k 第二步:确定每一层的子样本容量:4001014000,3001013000,5001015000321=⨯==⨯==⨯=n n n 第三步:在每一层按简单随机抽样的方法或系统抽样方法抽取相应样本。
采集数据处理数据实际应用【例题2】 为了综合分析我市高三理科数学的教学质量,某研究机构从参加“皖西五校联考(理)”的学生中利用电脑随机选择了20名学生成绩作分析,成绩茎叶图如下: 8 6 9 6 8 10 7 9 9 11 0 2 6 7 8 8 8 12 2 4 8 8 13 3 7 14 5(Ⅰ)请由图中给出的数据,求样本的众数、中位数、平均值和方差。
富县高级中学集体备课教案年级:高二科目:数学授课人:课题§1 回归分析第课时三维目标1.通过实例引入线性回归模型,感受产生随机误差的原因;2.通过对回归模型的合理性等问题的研究,渗透线性回归分析的思想和方法;3.能求出简单实际问题的线性回归方程。
重点线性回归模型的建立和线性回归系数的最佳估计值的探求方法中心发言人难点线性回归模型的建立和线性回归系数的最佳估计值的探求方法教具课型常规课课时安排---课时教法学法个人主页教学过程(一)、问题情境1、情境:对一作直线运动的质点的运动过程观测了8次,得到如下表所示的数据,试估计当x=9时的位置y的值.时刻x/s 1 2 3 4 5 6 7 8位置观测值y/cm 5.54 7.52 10.02 11.73 15.69 16.12 16.98 21.06 先作散点图,从散点图中可以看出,样本点呈直线趋势,时间x与位置观测值y之间有着较好的线性关系.因此可以用线性回归方程来刻画它们之间的关系.根据线性回归的系数公式,1221()ni iiniix y nx ybx n xa y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑可以得到线性回归方为 3.5361 2.1214y x=+,所以当9x=时,由线性回归方程可以估计其位置值为22.6287y=2、问题:在时刻9x =时,质点的运动位置一定是22.6287cm 吗?(二)、学生活动思考,讨论:这些点并不都在同一条直线上,上述直线并不能精确地反映x 与y 之间的关系,y 的值不能由x 完全确定,它们之间是统计相关关系,y 的实际值与估计值之间存在着误差。
(三)、新课探析1、线性回归模型的定义:我们将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型.2、线性回归系数:a,b 的计算公式为 1122211()()()()n ni i i i i i n n i i i i x x y y x y nx y b x x x n x a y bx====⎧---⎪⎪==⎪⎨--⎪⎪=-⎪⎩∑∑∑∑ ,其中11n i i x x n ==∑,11ni i y y n ==∑由此得到的直线 y a bx =+ 就称为这n 对数据的回归直线,此直线方程即为线性回归方程.其中 a ,b 分别为a ,b 的估计值, a 称为回归截距,b 称为回归系数, y 称为回归值.3、线性回归方程 y a bx =+ 中 a ,b 的意义是:以 a 为基数,x 每增加1个单位,y 相应地平均增加b 个单位。
§11.2用样本估计总体1.作频率分布直方图的步骤:(1)计算极差(即一组数据中最大值与最小值的差).(2)决定组数与组距.(3)决定分点.(4)列频率分布表.(5)绘制频率分布直方图.2.频率分布折线图和总体密度曲线(1)频率分布折线图:把频率分布直方图中各个长方形上边的中点用线段连接起来,就得到频率分布折线图.(2)设想如果样本容量不断增大,分组的组距不断缩小,则频率分布直方图实际上越来越接近于总体的分布,它可以用一条光滑曲线y =f (x )来描绘,这条光滑曲线就叫做总体密度曲线. 3. 茎叶图的优点用茎叶图表示数据有两个突出的优点:一是从统计图上没有原始信息的损失,所有的数据信息都可以从茎叶图中得到; 二是茎叶图可以在比赛时随时记录,方便记录与表示. 4. 样本的数字特征(1)众数、中位数、平均数众数:在一组数据中,出现次数最多的数据叫做这组数据的众数.中位数:将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数.平均数:样本数据的算术平均数,即x =1n (x 1+x 2+…+x n ).在频率分布直方图中,中位数左边和右边的直方图的面积应该相等. (2)样本方差、标准差设样本的元素为x 1,x 2,…,x n ,样本的平均数为x , ①样本方差:s 2=(x 1-x )2+(x 2-x )2+…+(x n -x )2n ,②样本标准差: s =(x 1-x )2+(x 2-x )2+…+(x n -x )2n.1. 判断下面结论是否正确(请在括号中打“√”或“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势. ( √ )(2)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论. ( × ) (3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( √ )(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( × )2. 某老师从星期一到星期五收到的信件数分别为10,6,8,5,6,则该组数据的方差s 2=________.答案 3.2解析 x =10+6+8+5+65=7,∴s 2=15[(10-7)2+(6-7)2+(8-7)2+(5-7)2+(6-7)2]=165=3.2.3. 一个容量为20的样本,数据的分组及各组的频数如下:[10,20),2;[20,30),3;[30,40),x ;[40,50),5;[50,60),4;[60,70),2;则x =________;根据样本的频率分布估计,数据落在[10,50)的概率约为________. 答案 4 0.7解析 x =20-(2+3+5+4+2)=4, P =2+3+4+520=0.7或P =1-4+220=0.7.4. (2012·湖南)如图所示是某学校一名篮球运动员在五场比赛中所得分数的茎叶图,则该运动员在这五场比赛中得分的方差为________.(注:方差s 2=1n [(x 1-x )2+(x 2-x )2+…+(x n -x )2],其中x 为x 1,x 2,…,x n 的平均数)答案 6.8解析 依题意知,运动员在5次比赛中的分数依次为8,9,10,13,15,其平均数为8+9+10+13+155=11.由方差公式得s 2=15[(8-11)2+(9-11)2+(10-11)2+(13-11)2+(15-11)2]=15(9+4+1+4+16)=6.8.5. 某中学为了解学生数学课程的学习情况,在3 000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如图).根据频率分布直方图推测,这3 000名学生在该次数学考试中成绩小于60分的学生数是________.答案600解析由直方图易得数学考试中成绩小于60分的频率为(0.002+0.006+0.012)×10=0.2,所以所求分数小于60分的学生数为3 000×0.2=600.题型一频率分布直方图的绘制与应用例1某校从参加高一年级期中考试的学生中随机抽出60名学生,将其物理成绩(均为整数)分成六段[40,50),[50,60),…,[90,100]后得到如图所示的频率分布直方图,观察图形的信息,回答下列问题:(1)求分数在[70,80)内的频率,并补全这个频率分布直方图;(2)统计方法中,同一组数据常用该组区间的中点值作为代表,据此估计本次考试中的平均分.思维启迪利用各小长方形的面积和等于1求分数在[70,80)内的频率,再补齐频率分布直方图.解(1)设分数在[70,80)内的频率为x,根据频率分布直方图,有(0.010+0.015×2+0.025+0.005)×10+x=1,可得x=0.3,所以频率分布直方图如图所示.(2)平均分:45×0.1+55×0.15+65×0.15+75×0.3+85×0.25+95×0.05=71(分).思维升华频率分布直方图直观形象地表示了样本的频率分布,从这个直方图上可以求出样本数据在各个组的频率分布.根据频率分布直方图估计样本(或者总体)的平均值时,一般是采取组中值乘以各组的频率的方法.(2013·陕西)对一批产品的长度(单位:mm)进行抽样检测,下图为检测结果的频率分布直方图.根据标准,产品长度在区间[20,25)上的为一等品,在区间[15,20)和区间[25,30)上的为二等品,在区间[10,15)和[30,35)上的为三等品.用频率估计概率,现从该批产品中随机抽取一件,则其为二等品的概率为()A.0.09 B.0.20 C.0.25 D.0.45答案 D解析设区间[25,30)对应矩形的另一边长为x,则所有矩形面积之和为1,即(0.02+0.04+0.06+0.03+x)×5=1,解得x=0.05.产品为二等品的概率为0.04×5+0.05×5=0.45. 题型二茎叶图的应用例2如图是某青年歌手大奖赛上七位评委为甲、乙两名选手打出的分数的茎叶图(其中m为数字0~9中的一个),去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为a1、a2,则一定有()A.a1>a2B.a2>a1C.a1=a2D.a1,a2的大小与m的值有关思维启迪去掉的最低分和最高分就是第一行和第三行的数据,剩下的数我们只要计算其叶上数字之和,即可对问题作出结论.答案 B解析去掉一个最高分和一个最低分后,甲选手叶上的数字之和是20,乙选手叶上的数字之和是25,故a2>a1.故选B.思维升华由于茎叶图完全反映了所有的原始数据,解决由茎叶图给出的统计图表试题时,就要充分使用这个图表提供的数据进行相关的计算或者是对某些问题作出判断,这类试题往往伴随着对数据组的平均值或者是方差的计算等.(2013·山东)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91.现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:则7个剩余分数的方差为( )A.1169B.367 C .36 D.677 答案 B 解析 由题意知87+94+90+91+90+90+x +917=91,解得x =4.所以s 2=17[(87-91)2+(94-91)2+(90-91)2+(91-91)2+(90-91)2+(94-91)2+(91-91)2] =17(16+9+1+0+1+9+0)=367. 题型三 用样本的数字特征估计总体的数字特征例3甲、乙二人参加某体育项目训练,近期的五次测试成绩得分情况如图.(1)分别求出两人得分的平均数与方差;(2)根据图和上面算得的结果,对两人的训练成绩作出评价.思维启迪(1)先通过图象统计出甲、乙二人的成绩;(2)利用公式求出平均数、方差,再分析两人的成绩,作出评价.解(1)由题图象可得甲、乙两人五次测试的成绩分别为甲:10分,13分,12分,14分,16分;乙:13分,14分,12分,12分,14分.x甲=10+13+12+14+165=13,x乙=13+14+12+12+145=13,s2甲=15[(10-13)2+(13-13)2+(12-13)2+(14-13)2+(16-13)2]=4,s2乙=15[(13-13)2+(14-13)2+(12-13)2+(12-13)2+(14-13)2]=0.8.(2)由s2甲>s2乙可知乙的成绩较稳定.从折线图看,甲的成绩基本呈上升状态,而乙的成绩上下波动,可知甲的成绩在不断提高,而乙的成绩则无明显提高.思维升华平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数、中位数、众数描述其集中趋势,方差和标准差描述其波动大小.(1)(2012·山东)在某次测量中得到的A 样本数据如下:82,84,84,86,86,86,88,88,88,88.若B样本数据恰好是A样本数据每个都加2后所得数据,则A,B两样本的下列数字特征对应相同的是()A.众数B.平均数C.中位数D.标准差(2)甲、乙两名射击运动员参加某大型运动会的预选赛,他们分别射击了5次,成绩如下表(单位:环):甲108999乙1010799如果甲、乙两人中只有.答案(1)D(2)甲解析(1)对样本中每个数据都加上一个非零常数时不改变样本的方差和标准差,众数、中位数、平均数都发生改变.(2)x甲=x乙=9环,s2甲=15[(10-9)2+(8-9)2+(9-9)2+(9-9)2+(9-9)2]=25,s2乙=15[(10-9)2+(10-9)2+(7-9)2+(9-9)2+(9-9)2]=65>s2甲,故甲更稳定,故填甲.高考中频率分布直方图的应用典例:(5分)为了研究大学生就业后的收入问题,一个研究机构调查了在2009年已经就业且工作满两年的10 000人,并根据所得数据画了样本的频率分布直方图(如图所示).为了分析其收入与学历、职业、性别等方面的关系,要从这10 000人中再用分层抽样方法抽出200人作进一步调查,其中月收入低于1 500元的称为低收入者,高于3 000元的称为高收入者,则应在低收入者和高收入者中分别抽取的人数是()A.1 000,2 000 B.40,80C.20,40 D.10,20思维启迪根据频率分布直方图的意义,分别计算出低收入者和高收入者的频率即可,为方便直接计算,这个频率分布直方图也可以看作是200个样本的频率分布直方图.解析低收入者的频率是0.000 2×500=0.1,故从低收入者中抽取200×0.1=20人;高收入者的频率是(0.000 3+0.000 1)×500=0.2,故从高收入者中抽取200×0.2=40人.故选C.答案 C温馨提醒本题的难点是对频率分布直方图意义的理解以及利用这个图提供的数据对所提问题的计算,频率分布直方图中纵轴上的数据是频率除以组距,组距越大该数据越小,在解答这类问题时要特别注意.方法与技巧1.用样本频率分布来估计总体分布的重点是频率分布表和频率分布直方图的绘制及用样本频率分布估计总体分布;难点是频率分布表和频率分布直方图的理解及应用.在计数和计算时一定要准确,在绘制小矩形时,宽窄要一致.通过频率分布表和频率分布直方图可以对总体作出估计.2.茎叶图、频率分布表和频率分布直方图都是用来描述样本数据的分布情况的.茎叶图由所有样本数据构成,没有损失任何样本信息,可以随时记录;而频率分布表和频率分布直方图则损失了样本的一些信息,必须在完成抽样后才能制作.3.若取值x1,x2,…,x n的频率分别为p1,p2,…,p n,则其平均值为x1p1+x2p2+…+x n p n;若x1,x2,…,x n的平均数为x,方差为s2,则ax1+b,ax2+b,…,ax n+b的平均数为a x+b,方差为a2s2.失误与防范频率分布直方图的纵坐标为频率/组距,每一个小长方形的面积表示样本个体落在该区间内的频率;条形图的纵坐标为频数或频率,把直方图视为条形图是常见的错误.A组专项基础训练(时间:40分钟)一、选择题1.(2013·重庆)下图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的概率为()A.0.2 B.0.4C.0.5 D.0.6答案 B解析10个数据落在区间[22,30)内的数据有22,22,27,29共4个,因此,所求的频率为410=0.4.故选B.2.(2013·辽宁)某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是()A.45 B.50 C.55 D.60答案 B解析由频率分布直方图,知低于60分的频率为(0.01+0.005)×20=0.3.∴该班学生人数n=150.3=50.3.(2012·陕西)对某商店一个月内每天的顾客人数进行了统计,得到样本的茎叶图(如图所示),则该样本的中位数、众数、极差分别是()A.46,45,56 B.46,45,53C.47,45,56 D.45,47,53答案 A解析由题意知各数为12,15,20,22,23,23,31,32,34,34,38,39,45,45,45,47,47,48,48,49,50,50,51,51,54,57,59,61,67,68,中位数是46,众数是45,最大数为68,最小数为12,极差为68-12=56.4.为了普及环保知识,增强环保意识,某大学随机抽取30名学生参加环保知识测试,得分(十分制)如图所示,假设得分值的中位数为m e,众数为m o,平均值为x,则()A .m e =m o =x .m e =m o <x C .m e <m o <x .m o <m e <x答案 D解析 30个数中第15个数是5,第16个数是6,所以中位数m e =5+62=5.5,众数m o =5,平均值x =3×2+4×3+5×10+6×6+7×3+8×2+9×2+10×230=17930.5. 若一个样本容量为8的样本的平均数为5,方差为2.现样本中又加入一个新数据5,此时样本容量为9,平均数为x ,方差为s 2,则( )A.x =5,s 2<2B.x =5,s 2>2C.x >5,s 2<2D.x >5,s 2>2答案 A解析 考查样本数据的平均数及方差. ∵18(x 1+x 2+…+x 8)=5, ∴19(x 1+x 2+…+x 8+5)=5, ∴x =5,由方差定义及意义可知加入新数据5后,样本数据取值的稳定性比原来强, ∴s 2<2,故选A. 二、填空题6. (2013·湖北)某学员在一次射击测试中射靶10次,命中环数如下:7,8,7,9,5,4,9,10,7,4. 则:(1)平均命中环数为________;(2)命中环数的标准差为________.答案(1)7(2)2解析(1)x=110(7+8+7+9+5+4+9+10+7+4)=7010=7.(2)s2=110[(7-7)2+(8-7)2+(7-7)2+(9-7)2+(5-7)2+(4-7)2+(9-7)2+(10-7)2+(7-7)2+(4-7)2]=4,∴命中环数的标准差为2.7.(2012·山东)如图是根据部分城市某年6月份的平均气温(单位:℃)数据得到的样本频率分布直方图,其中平均气温的范围是[20.5,26.5],样本数据的分组为[20.5,21.5),[21.5,22.5),[22.5,23.5),[23.5,24.5),[24.5,25.5),[25.5,26.5].已知样本中平均气温低于22.5 ℃的城市个数为11,则样本中平均气温不低于25.5 ℃的城市个数为________.答案9解析结合直方图和样本数据的特点求解.最左边两个矩形面积之和为0.10×1+0.12×1=0.22,总城市数为11÷0.22=50,最右边矩形面积为0.18×1=0.18,50×0.18=9.8.将容量为n的样本中的数据分成6组,绘制频率分布直方图,若第一组至第六组数据的频率之比为2∶3∶4∶6∶4∶1,且前三组数据的频数之和等于27,则n=________.答案60解析∵第一组至第六组数据的频率之比为2∶3∶4∶6∶4∶1,∴前三组频数和为2+3+420·n =27,故n =60.三、解答题9. (2012·安徽)若某产品的直径长与标准值的差的绝对值不超过1 mm 时,则视为合格品,否则视为不合格品.在近期一次产品抽样检查中,从某厂生产的此种产品中,随机抽取5 000件进行检测,结果发现有50件不合格品.计算这50件不合格品的直径长与标准值的差(单位:mm),将所得数据分组,得到如下频率分布表:(1)(2)估计该厂生产的此种产品中,不合格品的直径长与标准值的差落在区间(1,3]内的概率; (3)现对该厂这种产品的某个批次进行检查,结果发现有20件不合格品.据此估算这批产品中的合格品的件数. 解 (1)如下表所示频率分布表.(2)由频率分布表知,该厂生产的此种产品中,不合格品的直径长与标准值的差落在区间(1,3]内的概率约为0.50+0.20=0.70.(3)设这批产品中的合格品数为x 件,依题意505 000=20x +20,解得x =5 000×2050-20=1 980.所以该批产品的合格品件数大约是1 980件.10.(2012·广东)某校100名学生期中考试语文成绩的频率分布直方图如图所示,其中成绩分组区间是[50,60),[60,70),[70,80),[80,90),[90,100].(1)求图中a 的值;(2)根据频率分布直方图,估计这100名学生语文成绩的平均分;(3)若这100名学生语文成绩某些分数段的人数(x )与数学成绩相应分数段的人数(y )之比如下表所示,求数学成绩在[50,90)之外的人数.解 (1)由频率分布直方图知(2a +0.02+0.03+0.04)×10=1,解得a =0.005.(2)由频率分布直方图知这100名学生语文成绩的平均分为55×0.005×10+65×0.04×10+75×0.03×10+85×0.02×10+95×0.005×10=73(分).(3)由频率分布直方图知语文成绩在[50,60),[60,70),[70,80),[80,90)各分数段的人数依次为0.005×10×100=5,0.04×10×100=40,0.03×10×100=30,0.02×10×100=20. 由题中给出的比例关系知数学成绩在上述各分数段的人数依次为5,40×12=20,30×43=40,20×54=25.故数学成绩在[50,90)之外的人数为100-(5+20+40+25)=10.B 组 专项能力提升 (时间:30分钟)1. (2013·四川)某学校随机抽取20个班,调查各班中有网上购物经历的人数,所得数据的茎叶图如图所示,以组距为5将数据分组成[0,5),[5,10),…,[30,35),[35,40]时,所作的频率分布直方图是()答案 A解析由于频率分布直方图的组距为5,排除C、D,又[0,5),[5,10)两组各一人,排除B,应选A.2.为了了解某校高三学生的视力情况,随机地抽查了该校100名高三学生的视力情况,得到频率分布直方图,如图所示.由于不慎将部分数据丢失,但知道前4组的频数成等比数列,后6组的频数成等差数列,设最大频率为a,视力在4.6到5.0之间的学生数为b,则a,b的值分别为()A.0.27,78 B.0.27,83C.2.7,78 D.2.7,83答案 A解析由题意,知4.5到4.6之间的频率为0.09,4.6到4.7之间的频率为0.27,后6组的频数成等差数列,设公差为d,则有6×0.27+15d=1-0.01-0.03-0.09,解得d=-0.05,从而求得b=78.3.某班有48名学生,在一次考试中统计出平均分为70分,方差为75,后来发现有2名同学的分数登错了,甲实得80分,却记了50分,乙实得70分,却记了100分,更正后平均分和方差分别是()A.70,75 B.70,50C.75,1.04 D.62,2.35答案 B解析因甲少记了30分,乙多记了30分,故平均分不变,设更正后的方差为s2,则由题意可得:s2=12+(x2-70)2+…+(80-70)2+(70-70)2+…+(x48-70)2],48[(x1-70)而更正前有75=12+(x2-70)2+…+(50-70)2+(100-70)2+…+(x48-70)2],48[(x1-70)化简整理得s2=50.4.在样本的频率分布直方图中,共有4个小长方形,这4个小长方形的面积由小到大构成等比数列{a n},已知a2=2a1,且样本容量为300,则小长方形面积最大的一组的频数为________.答案160解析 ∵小长方形的面积由小到大构成等比数列{a n },且a 2=2a 1, ∴样本的频率构成一个等比数列,且公比为2, ∴a 1+2a 1+4a 1+8a 1=15a 1=300,∴a 1=20, ∴小长方形面积最大的一组的频数为8a 1=160.5. 从某小学随机抽取100名学生,将他们的身高(单位:厘米)数据绘制成频率分布直方图(如图).由图中数据可知a =____________.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.答案 0.030 3解析 ∵小矩形的面积等于频率,∴除[120,130)外的频率和为0.700,∴a =1-0.70010=0.030.由题意知,身高在[120,130),[130,140),[140,150]内的学生分别为30人,20人,10人,∴由分层抽样可知抽样比为1860=310,∴在[140,150]中选取的学生应为3人.6. 某高校在2013年的自主招生考试成绩中随机抽取100名学生的笔试成绩,按成绩分组,得到的频率分布表如下表所示.(1)(2)为了能选拔出最优秀的学生,高校决定在笔试成绩高的第3、4、5组中用分层抽样的方法抽取6名学生进入第二轮面试,则第3、4、5组每组各抽取多少名学生进入第二轮面试?(3)在(2)的前提下,学校决定在6名学生中随机抽取2名学生接受A考官进行面试,求:第4组至少有一名学生被考官A面试的概率.解(1)由题意可知,第2组的频数为0.35×100=35,=0.300,第3组的频率为30100频率分布直方图如图所示:(2)因为第3、4、5组共有60名学生,所以利用分层抽样在60名学生中抽取6名学生,每组分别为第3组:3060×6=3人,第4组:2060×6=2人,第5组:1060×6=1人.所以第3、4、5组分别抽取3人、2人、1人. (3)设第3组的3位同学为A 1,A 2,A 3, 第4组的2位同学为B 1,B 2, 第5组的1位同学为C 1,则从六位同学中抽两位同学有15种可能如下:(A 1,A 2),(A 1,A 3),(A 1,B 1),(A 1,B 2),(A 1,C 1),(A 2,A 3),(A 2,B 1),(A 2,B 2),(A 2,C 1),(A 3,B 1),(A 3,B 2),(A 3,C 1),(B 1,B 2),(B 1,C 1),(B 2,C 1).其中第4组的2位同学至少有一位同学入选的有(A 1,B 1),(A 1,B 2),(A 2,B 1),(A 2,B 2),(A 3,B 1),(A 3,B 2),(B 1,B 2),(B 1,C 1),(B 2,C 1)9种可能, 所以第4组的2位同学至少有一位同学入选的概率为915=35.。
学案59 统计案例导学目标: 1.了解回归分析的基本思想、方法及其简单应用.2.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用.自主梳理 1.回归分析 (1)回归直线一组具有线性相关关系的数据(x 1,y 1),(x 2,y 2),…,(x n ,y n ),其回归方程的截距和斜率的最小二乘估计分别为a ^=__________________________,b ^=______________________________________, 其中x =____________________,y =_____________________________________, ________________称为样本点的中心. (2)相关系数r①r=∑ni =1i-xi-y∑n i =1i-x 2∑n i =1i-y2;②当r>0时,表明两个变量________; 当r<0时,表明两个变量________.r 的绝对值越接近于1,表明两个变量的线性__________;r 的绝对值越接近于0时,表明两个变量之间________________________________.通常,当r 的绝对值大于________时认为两个变量有很强的线性相关关系.2.独立性检验(1)列联表:列出的两个分类变量的________,称为列联表.(2)2×2列联表:假设有两个分类变量X 和Y ,它们的取值分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表(称为2×2列联表)为2×2列联表构造一个随机变量n =__________为样本容量.(3)独立性检验利用随机变量________来判断“两个分类变量________”的方法称为独立性检验. 自我检测1.对有线性相关关系的两个变量建立的回归直线方程y ^=a ^+b ^x 中,回归系数b ^( )A .可以小于0B .小于0C .能等于0D .只能等于0 2.(2011·天津模拟)下面是2×2列联表:则表中a,b的值分别为( )A.94,72 B.52,50C.52,74 D.74,523.如果有95%的把握说事件A和B有关系,那么具体计算出的数据( )A.K2>3.841 B.K2<3.841C.K2>6.635 D.K2<6.6354.(2011·绍兴月考)某高校“统计初步”课程的教师随机调查了选该课的一些学生情则可判断约有探究点一独立性检验例 1 (2011·湛江模拟)利用统计变量K2的观测值来判断两个分类变量之间的关系的可信程度.变式迁移1 对196个接受心脏搭桥手术的病人和196个接受血管清障手术的病人进行了3探究点二线性回归分析例2 一个车间为了规定工时定额,需要确定加工零件所花费的时间,为此进行了10(1)y(2)如果y与x具有线性相关关系,求回归直线方程;(3)根据求出的回归直线方程,预测加工200个零件所用的时间为多少?变式迁移2 一台机器使用时间较长,但还可以使用.它按不同的转速生产出来的某机械零件有一些会有缺点,每小时生产有缺点零件的多少,随机器运转的速度而变化,下表为抽样试验结果:(1)对变量y与(2)如果y与x有线性相关关系,求回归直线方程.探究点三综合应用例3 (2010·辽宁)为了比较注射A,B两种药物后产生的皮肤疱疹的面积,选200只家兔做试验,将这200只家兔随机地分成两组,每组100只,其中一组注射药物A,另一组注射药物B.表1和表2分别是注射药物A和药物B后的试验结果.(疱疹面积单位:mm2) 表1表2注射药物B后的疱疹面积有差异”.表3:.附:K2=变式迁移3 某市对该市一重点中学2010年高考上线情况进行统计,随机抽查244名1.回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过回归方程的适用范围,否则没有实用价值.2.利用图形来判断两个变量之间是否有关系,可以画出二维条形图,但从图形上只可以粗略地估计两个分类变量的关系,还要结合所求的数值来进行比较.作图应注意单位统一、图形准确,但它不能给出我们两个分类变量有关或无关的精确的可信程度,若要作出精确的判断,可以作独立性检验的有关计算.(满分:75分)一、选择题(每小题5分,共25分)1.对于独立性检验,下列说法中错误的是( )A.K2的值越大,说明两事件相关程度越大B.K2的值越小,说明两事件相关程度越小C.K2≤3.841时,有95%的把握说事件A与B无关D.K2>6.635时,有99%的把握说事件A与B有关2.下列说法中正确的有:①若r>0,则x增大时,y也相应增大;②若r<0,则x增大时,y也相应增大;③若r=1或r=-1,则x与y的关系完全对应(有函数关系),在散点图上各个点均在一条直线上( )A .①②B .②③C .①③D .①②③3.(2011·天津汉沽一中月考)甲、乙、丙、丁四位同学各自对A 、B 两变量的线性相关如下表:) A .甲 B .乙 C .丙 D .丁 4.下列命题中正确的个数为( )①线性相关系数r 越大,两个变量的线性相关性越强;反之,线性相关性越弱; ②残差平方和越小的模型,模型拟合的效果越好;③用相关指数R 2来刻画回归效果,R 2越小,说明模型的拟合效果越好. A .1 B .2 C .3 D .05.(2010·济南模拟)有两个分类变量x ,y ,它们的值域分别为{x 1,x 2}和{y 1,y 2},其样本频数列联表如下:则两个分类变量x 和y A .95% B .97.5% C .99% D .99.5% 二、填空题(每小题4分,共12分)6.为了判断高中三年级学生是否选修文科与性别有关系,现随机抽取50名学生,得到如下2×2列联表:已知P(K 2≥3.841)≈0.05,根据表中数据,得到K 2=-223×27×20×30≈4.844.则认为选修文科与性别有关系出错的可能性为______. 7.(2011·银川模拟)下列说法:①将一组数据中的每个数据都加上或减去同一个常数后,方差恒不变;②设有一个回归方程y ^=3-5x ,变量x 增加一个单位时,y 平均增加5个单位;③线性回归方程y ^=b ^x +a ^必过点(x ,y );④曲线上的点与该点的坐标之间具有相关关系;⑤在一个2×2列联表中,由计算得K 2=13.079,则其两个变量间有关系的可能性是90%. 其中错误..的命题是________. 8.若两个分类变量x 和y则x 与y 三、解答题(共38分)9.(12分)在一次飞机航程中调查男女乘客的晕机情况,其2×2列联表如下,试判断晕机与性别是否有关?10.(12分)(2011·武汉模拟)为了考察某种药物预防疾病的效果,进行动物实验,得到如下的列联表11.(14分)(2010·全国)为调查某地区老年人是否需要志愿者提供帮助,用简单随机(1)(2)能否有99%的把握认为该地区的老年人是否需要志愿者提供帮助与性别有关?(3)根据(2)的结论,能否提出更好的调查方法来估计该地区的老年人中,需要志愿者提供帮助的老年人的比例?说明理由.附:K2=-2++++学案59 统计案例自主梳理1.(1)y -b ^x∑ni =1i-xi-y∑ni =1i-x21n ∑n i =1x i 1n ∑ni =1y i (x ,y ) (2)②正相关 负相关 相关性越强 几乎不存在线性相关关系 0.75 2.(1)频数表(2)-2++++ a +b +c +d (3)K 2有关系自我检测1.A [b ^=0时,得r =0,这时不具有线性相关关系,但b ^能大于0,也能小于0.] 2.C [∵a+21=73,∴a=52.又a +22=b , ∴b=74.]3.A [比较K 2的值和临界值的大小,有95%的把握则K 2>3.841,K 2>6.635约有99%的把握.]4.99.5%解析 因为K 2=-240×60×46×54≈9.689>7.879,所以有99.5%的把握认为“主修统计专业与性别之间有关系”. 课堂活动区例1 解题导引 利用已知条件来判断两个分类变量是否具有关系,可以先假设两个变量之间有关系,再计算K 2的值,K 2的值越大说明两个变量间有关系的可能性越大,再参考临界值,从而判断两个变量有关系的可信程度.解 由列联表知:a =26,b =184,c =50,d =200. ∴a+b =210,c +d =250,a +c =76, b +d =384,n =a +b +c +d =460.∴K 2=-2++++=-2210×250×76×384≈4.804.∵K 2≈4.804>3.841.∴有95%的把握认为种子灭菌与否与小麦发生黑穗病是有关系的. 变式迁移1 解 假设做过心脏搭桥手术与又发作心脏病没有关系. 由于a =39,b =157,c =29,d =167,a +b =196, c +d =196,a +c =68,b +d =324,n =392,由公式可得K 2的观测值为k =-2++++=-2196×196×68×324≈1.78,因为k≈1.78<2.706,所以我们没有理由说心脏搭桥手术与又发作心脏病有关系. 例2 解题导引 这是一个回归分析问题,应先进行线性相关检验或作散点图来判断x 与y 是否线性相关,如果线性相关,才可以求解后面的问题,否则就使得求回归直线方程没有意义,要作相关性检验,应先利用r =∑ni =1x i y i -n x y∑n i =12i-n x2∑ni =1y 2i-n y2求出样本相关系数r.利用当r>0时,两个变量正相关,当r<0时,两个变量负相关.r 的绝对值越接近于1,表明两个变量的线性相关性越强,r 的绝对值越接近于0,表明两个变量之间几乎不存在线性相关关系,通常当|r|大于0.75时,认为两个变量有很强的线性相关关系,因而求回归直线方程才有意义.x =55,y =91.7,∑10i =1x 2i=38 500,∑10i =1y 2i=87 777,∑10i =1x i y i =55 950, 因此r =∑10i =1x i y i -10x y∑10i =1x 2i-10x 2∑10i =1y2i -10y2=55 950-10×55×91.7-10×552-10×91.72 ≈0.999 8,由于r =0.999 8>0.75,因此x 与y 之间有很强的线性相关关系.(2)设所求的回归直线方程为y ^=b ^x +a ^则有b ^=∑10i =1x i y i -10x y∑10i =1x 2i -10x 2=55 950-10×55×91.738 500-10×552≈0.668. a ^=y -b ^x =91.7-0.668×55=54.96.因此,所求的回归直线方程为y ^=0.668x +54.96. (3)当x =200时,y 的估计值为y ^=0.668×200+54.96=188.56≈189,因此,加工200个零件所用的工时约为189分. 变式迁移2 解 (1)x =12.5,y =8.25,∑4i =1x i y i =438,4x y =412.5,∑4i =1x 2i=660,∑4i =1y 2i =291, 所以r =∑4i =1x i y i -4x y⎝⎛⎭⎫∑4i =1x 2i-4x 2⎝⎛⎭⎫∑4i =1y 2i-4y 2=438-412.5--=25.5656.25≈25.5025.62≈0.995 3. 因为r>0.75,所以y 与x 有很强的线性相关关系.(2)由(1)知:b ^=∑ni =1x i y i -n x y∑n i =1x 2i-n x2=438-412.5660-4×12.52≈0.7286,a ^ =y -b ^x =-0.8575. ∴回归直线方程为y ^=0.728 6x -0.857 5.例3 解题导引 分类变量的独立性检验是建立在2×2列联表基础之上的,因而根据题目提示的分类标准设计2×2列联表是独立性检验的关键所在.解K 2=100×100×105×95≈24.56.由于K 2>10.828,所以有99.9%的把握认为“注射药物A 后的疱疹面积与注射药物B 后的疱疹面积有差异”.变式迁移3 解 对于上述四个科目,分别构造四个随机变量K 21,K 22,K 23,K 24. 由表中数据可以得到语文:k 1=-2201×43×204×40≈7.294>6.635,数学:k 2=-2201×43×201×43≈30.008>10.828,英语:k 3=-2201×43×200×44≈24.155>10.828, 综合科目:k 4=-2201×43×201×43≈17.264>10.828,所以,有99%的把握认为语文上线与总分上线有关系,有99.9%的把握认为数学、英语、综合科目上线与总分上线有关系,数学上线与总分上线关系最大.课后练习区1.C [在独立性检验中,随机变量K 2的取值大小可说明两个变量关系的程度.一般地随机变量K 2的值越大,两变量的相关程度越大,反之就越小.K 2>6.635说明有99%的把握认为二者有关系.]2.C [若r>0,表示两个相关变量正相关,x 增大时,y 也相应增大,故①正确.r<0,表示两个变量负相关,x 增大时,y 相应减小,故②错误.|r|越接近1,表示两个变量相关性越高,|r|=1表示两个变量有确定的关系(即函数关系),故③正确.]3.D [因为r>0且丁最接近1,残差平方和最小,所以丁相关性最高.] 4.A [①r 有正负,应为|r|越大,相关性越强; ②正确; ③R 2越大,拟合效果越好.]5.C [由公式得K 2=-2246×54×150×150≈7.317,因为7.317>6.635,所以我们有99%的把握认为两个分类变量x 与y 有关系.]6.5%解析∵K2≈4.844,这表明小概率事件发生.根据假设检验的基本原理,应该断定“是否选修文科与性别之间有关系”成立,并且这种判断出错的可能性约为5%.7.②④⑤解析根据方差的计算公式,可知①正确;由线性回归方程的定义及最小二乘法的思想,知③正确,②④⑤不正确.8.0.999解析K2=+15+40+-2++++≈18.822,查表知P(K2≥10.828)≈0.001,∴x与y之间有关系的概率约为1-0.001=0.999.9.解K2=-220×90×30×80≈6.366>5.024,(5分)故有97.5%的把握认为“晕机与性别有关”.(12分)10.解a=10,b=45,c=20,d=30,a+b=55,c+d=50,a+c=30,b+d=75,n=105,(2分)K2=-2++++(4分)=-255×50×75×30≈6.11,(8分)因为K2=6.11>5.024,从而有97.5%的把握认为药物有效.(12分)11.解(1)调查的500位老年人中有70位需要志愿者提供帮助,因此该地区老年人中,需要志愿者提供帮助的老年人的比例的估计值为70500×100%=14%.(4分)(2)K2=-2200×300×70×430≈9.967.由于9.967>6.635,所以有99%的把握认为该地区的老年人是否需要帮助与性别有关.(10分)(3)由(2)的结论知,该地区老年人是否需要帮助与性别有关,并且从样本数据能看出该地区男性老年人与女性老年人中需要帮助的比例有明显差异,因此在调查时,先确定该地区老年人中男、女的比例,再把老年人分成男、女两层并采用分层抽样方法,比采用简单随机抽样方法更好.(14分)。
第十章 统计、统计案例10.3统计案例【高考目标定位】一、考纲点击1.了解独立性检验(只要求2×2列联表)的基本思想、方法及其简单应用;2.了解回归分析的基本思想、方法及其简单应用.二、热点提示1.本部分主要内容是变量的相关性及其几种常见的统计方法.在高考中主要是以考查独立性检验、回归分析为主,并借助解决一些简单的实际问题来了解一些基本的统计思想;2.本部分在高考中多为选择、填空题,也有可能出现解答题,都为中低档题.【考纲知识梳理】1.回归分析(1)定义:对具有相关关系的两个变量进行统计分析的一种常用方法;(2)随机误差:线性回归模型用y bx a e =++表示,其中a b 和为模型的未知数,e 称为随机误差.(3)样本点的中心在具有线性相关关系的数据1122(,),(,),,(,)n n x y x y x y 中,回归方程的截距和斜率的最小二乘估计公式分别为:121()()ˆˆˆˆ,.()niii nii x x y y bay bx x x ==--==--∑∑其中1111,,(,)n ni i i i x x y y x y n n ====∑∑称为样本点的中心.(4)相关系数①)(nx y r =②当0r >时,表明两个变量正相关;当0r <时,表明两个变量负相关.r 的绝对值越接近于0时,表明两个变量之间几乎不存在线性相关关系.通常||r 大于0.75时,认为两个变量有很强的线性相关性.2.残差分析(1)总偏差平方和把每个效应(观测值减去总的平均值)的平方加起来即:21()ni i y y =-∑(2)残差数据点和它回归直线上相应位置的差异A ()i i y y -是随机误差的效应,称A A i ii e y y =-为残差.(3)残差平方和A 21()ni i i y y =-∑.(4)相关指数A22121()()niii nii y y R y y ==-=-∑∑2R 的值越大,说明残差平方和越小,也就是说模型的拟合效果越好.在线性回归模型中, 2R 表示解释变量对预报变量变化的贡献率,2R 越接近于1,表示回归的效果越好.3.独立性检验(1)分类变量:变量的不同“值”表示个体所属的不同类别,像这类变量称为分类变量.(2)列联表:列出两个分类变量的频数表,称为列联表.假设有两个分类变量X 和Y,它们的可能取值分别为1122{,}{,}x y x y 和,其样本频数列联表(称为2×2列联表)为2×2列联表1y 2y 总计1x a b a b +2x c d c d +总计a c+b d+a b c d+++构造一个随机变量22()()()()()n ad bc K a b c d a c b d -=++++,其中a b c d +++为样本容量.(3)独立性检验利用随机变量2K 来确定是否能以一定把握认为“两个分类变量有关系”的方法称为两个分类变量的独立性检验.注:在独立性检验中经常由2K 得到观测值k ,则k =2K 是否成立?(2K 与k 的关系并不是k =2K ,k 是2K 的观测值,或者说2K 是一个随机变量,它在a ,b ,c ,d )取不同值时,2K 可能不同,而k 是取定一组数a ,b ,c ,d 后的一个确定的值.【考点精题精练】(一)线性回归分析※相关链接※1.首先利用散点图判断两个变量是否线性相关.2.求回归方程y bx a =+ .(1)线性回归方程中的截距 a 和斜率b 都是通过样本估计而来的,存在着误差,这种误差可能导致预报结果的偏差.(2)回归方程y bx a =+ 中的b 表示x 增加1个单位时 y 的变化量为b .(3)可以利用回归方程 y bx a =+ 预报在x 取某一个值时y 的估计值.3.相关系数r利用相关系数r 来衡量两个变量之间的线性相关的强弱.4.建立回归模型的步骤(1)确定研究对象,明确哪个变量是解释变量,哪个变量是预报变量.(2)画出确定好的解释变量和预报变量的散点图,观察它们之间的关系(如是否存在线性关系等).(3)由经验确定回归方程的类型(如我们观察到数据呈线性关系,则选用线性回归方程y bx a =+ ).(4)按一定规则估计回归方程中的参数(如最小二乘法).(5)得出结果后分析残差是否异常(个别数据对应残差过大,或残差呈现不随机的规律性等).若存在异常,则检查数据是否有误,或模型是否适合等.注:回归方程只适用于我们所研究的样本的总体,而且一般都有时间性.样本的取值范围一般不能超过回归方程的适用范围,否则没有实用价值.※例题解析※〖例〗测得某国10对父子身高(单位:英寸)如下:(1)对变量y x 与进行相关性检验;(2)如果y x 与之间具有线性相关关系,求回归方程.(3)如果父亲的身高为73英寸,估计儿子的身高.思路解析:(1)先根据已知计算相关系数r ,判断是否具有相关关系.(2)再利用分工求出回归方程进行回归分析.解答:(1)10101022221111066.8,67.01,4462.24,4490.4,44974,44941.93,44842.4,iii i i i i x y x y x y x y x yr ======≈=====∑∑∑0.804.≈所以y x 与之间具有很强的线性相关关系.(2)设回归方程为y bx a =+ .由101102211044842.444762.6879.72ˆ0.46464479444662.4171.610i ii i i x y x ybx x==--===≈--∑∑.ˆˆ67.010.464666.835.97.ay bx =-=-⨯≈故所求的回归方程为:ˆ0.464635.97yx =+.(3)当x=73时,ˆ0.46467335.9769.9y=⨯+≈.所以当父亲身高为73英寸时,估计儿子身高约为69.9英寸.(二)非线性回归分析※相关链接※1.非线性回归模型:当回归方程不是形如y bx a =+时称之为非线性回归模型.2.非线性回归模型的拟合效果:对于给定的样本点1122(,),(,),,(,)n n x y x y x y ,两个含有未知数的模型(1)(2)(,)(,)yf x a yg x b == 和,其中a b 和都是未知参数.可按如下的步骤比较它们的拟合效果:(1)分别建立对应于两个模型的回归方程(1)(2)ˆˆˆˆ(,)(,)yf x a yg x b ==和,其中ˆˆab 和分别是参数a b 和的估计值;(2)分别计算两个回归方程的残差平方和(1)(1)2(2)(2)211ˆˆˆˆ()()nni i i i i i Qy yQ y y===-=-∑∑和;(3)若(1)ˆQ<(2)ˆQ ,则(1)(2)ˆˆˆˆ(,)(,)y f x a y g x b ==的效果比;反之, (1)(2)ˆˆˆˆ(,)(,)y f x a yg x b ==的效果不如的好.※例题解析※〖例〗为了研究某种细菌随时间x 变化时,繁殖个数y 的变化,收集数据如下:(1)用天数x 作解释变量,繁殖个数y 作预报变量,作出这些数据的散点图;(2)描述解释变量x 与预报变量y 之间的关系;(3)计算残差平方和、相关指数.思路解析:作出散点图→分析与哪种曲线拟合→转化线性关系→进行回归分析.解答:(1)所作散点图如图所示.(2)由散点图看出样本点分析在一条指数函数21c x y c e =的周围,于是令ln z y =,则由计算器得:ˆ0.69 1.112,zx =+则有 1.69 1.112ˆx y e +=.(3)则662211ˆˆ() 3.1643ii i i i ey y ===-=∑∑,621ˆ()i i i y y =-∑=24642.8,2 3.164310.999924642.8R =-=,即解释变量天数对预报变量细菌的繁殖个数解释了99.99%.(三)独立性检验〖例〗在调查的480名男人中有38名患有色盲,520名女人中有6名患有色盲,分别利用图形和独立性检验的方法来判断色盲与性别是否有关?你所得到的结论在什么范围内有效?思路解析:(1)先由已知作出调查数据的列联表;(2)再根据列联表画出二维条形图,并进行分析;(3)利用独立性检验作出判断.解答:根据题目所给的数据作出如下的联表:根据列联表作出相应的二维条形图,如图所示.从二维条形图来看,在男人中患色盲的比例38480,要比在女人中患色盲的比例6 520要大,其差值为386||0.068,480520-≈差值较大,因而我们可以认为“性别与患色盲是有关的”,根据列联表中所给的数据可以有38,442,6,514,480,520,44,956,1000, a b c d a b c d a c b d n====+=+=+=+==代入公式22()()()()()n ad bcKa b c d a c b d-=++++得221000(385146442)27.148052044956K⨯⨯-⨯=≈⨯⨯⨯。
第十三章 统计案例高考导航考纲要求备考策略1.理解随机抽样的必要性和重要性,会用简单随机抽样方法从总体中抽取样本,了解分层抽样和系统抽样方法.2.了解分布的意义和作用,能根据频率分布表画频率分布直方图、频率折线图、茎叶图,体会它们各自的特点,理解样本数据标准差的意义和作用,会计算数据标准差,能从样本数据中提取基本的数字特征(如平均数、标准差),并作出合理的解释,会用样本的频率分布估计总体分布,会用样本的基本数字特征估计总体的基本数字特征,理解用样本估计总体的思想,会用随机抽样的基本方法和样本估计总体的思想解决一些简单的实际问题.3.会作两个有关联变量的数据的散点图,会利用散点图认识变量间的相关关系,了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程(线性回归方程系数公式不要求记忆).统计案例是高中数学中应用性的章节,也是高考必考内容,高考中多数以选择、填空题形式考查,属于中、低档题,主要考查抽样方法、频率分布直方图及回归分析等内容.复习时采用以下应对策略:1.立足课本,突出基础,重视概念的辨析与理解.2.注重“操作”训练,如抽样方法的操作步骤,频率分布表和频率分布直方图、茎叶图的绘制等,要熟练掌握.3.重视统计与概率的综合运用,会用样本频率分布估计总体分布,会用样本平均数估计总体期望值,会用样本的方差估计总体方差;提高搜集处理信息及分析解决问题的能力.4.加强统计应用性的训练,能用统计的方法提供决策、制定方案.知识网络13.1 抽样方法与用样本估计总体考点诠释重点:三种抽样方法的区别、联系与操作步骤,样本频率分布直方图和茎叶图,用样本估计总体的思想.难点:简单随机抽样,总体的期望与方差概念的建立.典例精析题型一 抽样方法【例1】某单位最近组织了一次健身活动,活动分为登山组和游泳组,且每个职工至多参加其中一组.在参加活动的职工中,青年人占42.5%,中年人占47.5%,老年人占10%.登山组的职工占参加活动总人数的14,且该组中,青年人占50%,中年人占40%,老年人占10%.为了了解各组不同年龄层次的职工对本次活动的满意程度,现用分层抽样方法从参加活动的全体职工中抽取一个容量为200的样本.试确定:(1)游泳组中,青年人、中年人、老年人分别所占的比例; (2)游泳组中,青年人、中年人、老年人分别应抽取的人数.【思路分析】(1)设出游泳组各年龄段人数比例,利用和登山组的比例关系,建立在总单位所占的比例关系,解方程求得结果;(2)据分层抽样的比例关系求得各年龄段人数.【解析】(1)设登山组人数为x ,游泳组中青年人、中年人、老年人各占比例分别为a ,b ,c ,则有x ·40%+3xb 4x =47.5%,x ·10%+3xc4x=10%,解得b =50%,c =10%,则a =40%,即游泳组中,青年人、中年人、老年人各占比例分别为40%,50%,10%.(2)游泳组中,抽取的青年人人数为200×34×40%=60人;抽取的中年人人数为200×34×50%=75人;抽取的老年人人数为200×34×10%=15人.【方法归纳】(1)分层抽样适用于总体由有明显差异的几部分组成的情况,并且在各层抽取个体时宜采用简单随机抽样方法,分层抽样中每个个体被抽取的可能性相等,体现了抽样的公平性;(2)分层抽样与系统抽样的区别分层抽样是从各层独立地抽取个体,而系统抽样各段上的抽取是按事先定好的规则进行的,各层编号有联系,不是独立的.故系统抽样不同于分层抽样.【举一反三】1.采用系统抽样方法从960人中抽取32人做问卷调查,为此将他们随机编号为1,2,…,960,分组后在第一组采用简单随机抽样的方法抽到的号码为9,抽到的32人中,编号落入区间[1,450]的人做问卷A ,编号落入区间[451,750]的人做问卷B ,其余的人做问卷C .则抽到的人中,做问卷B 的人数为( C )A.7B.9C.10D.15【解析】采用系统抽样方法从960人中抽取32人,将整体分成32组,每组30人,第k 组的号码为30(k -1)+9,令451≤30(k -1)+9≤750,而k ∈Z ,解得16≤k ≤25,则满足16≤k ≤25的整数k 有10个.题型二 频率分布直方图【例2】(1)在样本频率分布直方图中,共有11个小长方形,若中间一个小长方形的面积等于其他10个小长方形面积和的14,且样本容量为160,则中间一组的频数为( )A.32B.0.2C.40D.0.25 (2)某区高二年级的一次数学统考中,随机抽取200名同学的成绩,成绩全部在50分至100分之间,将成绩按如下方式分成5组:第一组,成绩大于等于50分且小于60分;第二组,成绩大于等于60分且小于70分;……第五组,成绩大于等于90分且小于等于100分,据此绘制了如图所示的频率分布直方图.则这200名同学中成绩大于等于80分且小于90分的学生有 名.【思路分析】根据频率分布直方图的含义可求.【解析】(1)A.由频率分布直方图的性质,可设中间一组的频率为x ,则x +4x =1,解得x =0.2.故中间一组的频数为160×0.2=32.(2)40.由题知,成绩大于等于80分且小于90分的学生所占的频率为1-(0.005×2+0.025+0.045)×10=0.2,所以这200名同学中成绩大于等于80分且小于90分的学生有200×0.2=40名.【方法归纳】解决该类问题时应正确理解图表中各个量的意义,识图获取信息是解决该类问题的关键.频率分布指的是一个样本数据在各个小范围内所占的比例的大小,一般用频率分布直方图反映样本的频率分布.频率分布直方图中各长方形高的比也就是其频率之比.【举一反三】2.已知一个样本容量为100的样本数据的频率分布直方图如图所示,样本数据落在[6,10)内的样本频数为 32 ,样本数据落在[2,10)内的频率为 0.4 .【解析】样本数据落在[6,10)内的样本频数为0.08×4×100=32,样本数据落在[2,10)内的频率为(0.02+0.08)×4=0.4.题型三 平均数、方差的计算【例3】甲、乙两人在相同条件下各射靶10次,每次命中环数如下: 甲 4 7 10 9 5 6 8 6 8 8 乙 7 8 6 8 6 7 8 7 5 9 试问谁10次射靶的情况较稳定?【思路分析】首先利用公式求出平均数、方差,再分析两人的成绩,作出评价.【解析】x 甲=110(4+7+…+8)=7.1,x 乙=110(7+8+…+9)=7.1,s 2甲=110[(4-7.1)2+(7-7.1)2+…+(8-7.1)2]=3.09, s 2乙=110[(7-7.1)2+(8-7.1)2+…+(9-7.1)2]=1.29. 因为s 2甲>s 2乙,所以乙10次射靶比甲10次射靶情况稳定.【方法归纳】平均数反映了数据取值的平均水平,标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.【举一反三】3.某化肥厂甲、乙两个车间包装肥料,在自动包装传送带上每隔30 min 抽取一包产品,称其重量,分别记录抽查数据如下:甲:102,101,99,98,103,98,99; 乙:110,115,90,85,75,115,110. (1)这种抽样方法是哪一种? (2)将这两组数据用茎叶图表示;(3)将这两组数据比较,说明哪个车间的产品较稳定.【解析】(1)因为间隔时间相同,所以是系统抽样.(2)茎叶图如下: (3)甲车间:平均值x 1=17(102+101+99+98+103+98+99)=100,方差s 21=17[(102-100)2+(101-100)2+…+(99-100)2]≈3.428 6;乙车间:平均值x 2=17(110+115+90+85+75+115+110)=100,方差s 22=17[(110-100)2+(115-100)2+…+(110-100)2]≈228.571 4.因为x 1=x 2,s 21<s 22,所以甲车间的产品较稳定.体验高考(2015新课标Ⅱ)根据下面给出的2004年至2013年我国二氧化硫年排放量(单位:万吨)柱形图,以下结论中不正确的是( )A.逐年比较,2008年减少二氧化硫排放量的效果最显著B.2007年我国治理二氧化硫排放显现成效C.2006年以来我国二氧化硫年排放量呈减少趋势D.2006年以来我国二氧化硫年排放量与年份正相关【解析】D.由柱形图可知:A ,B ,C 均正确,2006年以来我国二氧化硫年排放量在逐渐减少,所以排放量与年份负相关,所以D 不正确.【举一反三】(2015安徽)若样本数据x 1,x 2,…,x 10的标准差为8,则数据2x 1-1, 2x 2-1,…,2x 10-1的标准差为( C )A.8B.15C.16D.32 【解析】设样本数据x 1,x 2,…,x 10的标准差为s ,则s =8,可知数据2x 1-1,2x 2-1,…,2x 10-1的标准差为2s =16.13.2 两变量间的相关性、回归分析和独立性检验考点诠释重点:了解最小二乘法的思想,能根据给出的线性回归方程系数公式建立线性回归方程,了解独立性检验的基本思想、方法及其简单应用.难点:对独立性检验、回归分析的基本思想方法的理解.典例精析题型一 求回归直线方程【例1】某工厂为了对新研发的一种产品进行合理定价,将该产品按事先拟定的价格进行试销,得到以下数据:(1)求回归直线方程y ^=b ^x +a ^,其中b ^=-20,a ^=y --b ^x -;(2)预计在今后的销售中,销量与单价仍然服从(1)中的关系,且该产品的成本是4元/件,为使工厂获得最大利润,该产品的单价应定为多少元?(利润=销售收入-成本)【思路分析】(1)利用回归方程系数公式求出回归方程;(2)利用回归方程进行分析预测.【解析】(1)由于x =16(8+8.2+8.4+8.6+8.8+9)=8.5,y =16(90+84+83+80+75+68)=80.所以a ^=y -b ^x -=80+20×8.5=250,从而回归直线方程为y ^=-20x +250. (2)设工厂获得的利润为L 元,依题意得 L =x (-20x +250)-4(-20x +250) =-20x 2+330x -1 000=-20⎝⎛⎭⎫x -3342+361.25.当且仅当x =8.25时,L 取得最大值.故当单价定为8.25元时,工厂可获得最大利润.【方法归纳】当x 与y 呈线性相关关系时,可直接求出回归直线方程,再利用回归直线方程进行计算和预测.【举一反三】1.下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x (吨)与相应的生产能耗y (吨标准煤)的几组对照数据.x 3 4 5 6y 2.5344.5(1)请画出上表数据的散点图;(2)请根据上表提供的数据,用最小二乘法求出y 关于x 的线性回归方程y ^=b ^x +a ^; (3)已知该厂技改前100吨甲产品的生产能耗为90吨标准煤.试根据(2)求出的线性回归方程,预测生产100吨甲产品的生产能耗比技改前降低多少吨标准煤?(参考数值:3×2.5+4×3+5×4+6×4.5=66.5) 【解析】(1)由题意,作散点图如图.(2)由对照数据,计算得=66.5,=32+42+52+62=86,x =4.5,y =3.5, b ^=66.5-4×4.5×3.586-4×4.52=66.5-6386-81=0.7, a ^=y -b ^x =3.5-0.7×4.5=0.35,所以回归方程为y ^=0.7x +0.35. (3)x =100,y =100×0.7+0.35=70.35(吨标准煤),预测生产100吨甲产品的生产能耗比技改前降低90-70.35=19.65(吨标准煤).题型二 独立性检验【例2】衡阳市第一次联考后,某校对甲、乙两个文科班的数学考试成绩进行分析,规定:大于或等于120分为优秀,120分以下为非优秀.统计成绩后,得到如下的2×2列联表,且已知在甲、乙两个文科班全部110人中随机抽取1人为优秀的概率为311.优秀 非优秀 合计甲班10 乙班30合计110 (1)请完成上面的列联表;(2)根据列表中的数据,若按99.9%的可靠性要求,能否认为“成绩与班级有关系”;参考公式与临界值表:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d )P (K 2≥k 0)0.1000.0500.0250.0100.001k 0 2.706 3.841 5.024 6.635 10.828 【思路分析】本题主要考查独立性检验,解题关键是正确列出2×2列联表,求出K 2的值. 【解析】(1)列联表如下:优秀 非优秀 合计甲班 10 50 60 乙班203050合计30 80 110 (2)根据列联表中的数据,得到K 2=110×(10×30-20×50)260×50×30×80≈7.486<10.828. 因此,按99.9%的可靠性要求,不能认为“成绩与班级有关系”.【方法归纳】判断两个变量之间关系的方法有两种:一是利用二维条形图判断,但图形不能给我们两个分类之间的有关或无关的精确的可信程度;二是利用独立性检验,能作出精确的判断.【举一反三】2.通过随机询问某校110名高中学生在购买食物时是否看营养说明,得到如下的列联表:性别与看营养说明列联表 单位:名男 女 总计看营养说明 50 30 80 不看营养说明102030总计60 50 110 (1)从这50名女生中按是否看营养说明采取分层抽样,抽取一个容量为5的样本,那么样本中看与不看营养说明的女生各多少名?(2)从(1)中的5名女生样本中随机选取两名作深度访谈,求选到看与不看营养说明的女生各一名的概率;(3)根据以上列联表,问有多大把握认为“性别与在购买食物时看营养说明”有关?参考公式:K 2=n (ad -bc )2(a +b )(c +d )(a +c )(b +d ),其中n =a +b +c +d .参考数据:P (K 2≥k 0)0.10 0.05 0.025 0.010 0.005 k 02.7063.8415.0246.6357.879【解析】(1)根据分层抽样可得:样本中看营养说明的女生有550×30=3名,样本中不看营养说明的女生有550×20=2名.(2)记样本中看营养说明的3名女生为a 1,a 2,a 3,不看营养说明的2名女生为b 1,b 2,从这5名女生中随机选取2名,共有10个等可能的基本事件:a 1,a 2;a 1,a 3;a 1,b 1;a 1,b 2;a 2,a 3;a 2,b 1;a 2,b 2;a 3,b 1;a 3,b 2;b 1,b 2.其中事件A “选到看与不看营养说明的女生各一名”包含了6个基本事件:a 1,b 1;a 1,b 2;a 2,b 1;a 2,b 2;a 3,b 1;a 3,b 2.所以所求的概率为P (A )=610=35.(3)假设H 0:该校高中学生性别与在购买食物时看营养说明无关,则K 2应该很小.根据题中的列联表得K 2=110×(50×20-30×10)280×30×60×50=53972≈7.486. 由P (K 2≥6.635)=0.010,P (K 2≥7.879)=0.005可知,有99%的把握认为该校高中学生“性别与在购买食物时看营养说明”有关.体验高考(2015新课标Ⅰ)某公司为确定下一年度投入某种产品的宣传费,需了解年宣传费x (单位:千元)对年销售量y (单位:t)和年利润z (单位:千元)的影响.对近8年的年宣传费x i 和年销售量y i (i =1,2,…,8)数据作了初步处理,得到下面的散点图及一些统计量的值.(1)根据散点图判断,y =a +bx 与y =c +d x 哪一个适宜作为年销售量y 关于年宣传费x 的回归方程类型?(给出判断即可,不必说明理由)(2)根据(1)的判断结果及表中数据,建立y 关于x 的回归方程;(3)已知这种产品的年利润z 与x ,y 的关系为z =0.2y -x ,根据(2)的结果回答下列问题: ①年宣传费x =49时,年销售量及年利润的预报值是多少? ②年宣传费x 为何值时,年利润的预报值最大?附:对于一组数据(u 1,v 1),(u 2,v 2),…,(u n ,v n ),其回归直线v =α+βu 的斜率和截距的最小二乘估计分别为=,【解析】(1)由散点图可以判断,y =c +d x 适宜作为年销售量y 关于年宣传费x 的回归方程类型.(2)令w =x ,先建立y 关于w 的线性回归方程.由于d ^==108.81.6=68, c ^=y -d ^w =563-68×6.8=100.6,所以y 关于w 的线性回归方程为y ^=100.6+68w ,因此y 关于x 的回归方程为y ^=100.6+68x . (3)①由(2)知,当x =49时,年销售量y 的预报值y ^=100.6+6849=576.6,年利润z 的预报值z ^=576.6×0.2-49=66.32. ②根据(2)的结果知,年利润z 的预报值 z ^=0.2×(100.6+68x )-x =-x +13.6x +20.12,所以当x =13.62=6.8,即x =46.24时,z ^取得最大值.故年宣传费为46.24千元时,年利润的预报值最大.【举一反三】(2015福建)为了解某社区居民的家庭年收入与年支出的关系,随机调查了该社区5户家庭,得到如下统计数据表:收入x (万元)8.2 8.6 10.0 11.3 11.9 支出y (万元)6.27.5 8.0 8.5 9.8根据上表可得回归直线方程y ^=b ^x +a ^,其中b ^=0.76,a ^=y -b ^x .据此估计,该社区一户年收入为15万元家庭的年支出为( B )A.11.4万元B.11.8万元C.12万元D.12.2万元 【解析】由统计数据表可得x =8.2+8.6+10.0+11.3+11.95=10.0,y =6.2+7.5+8.0+8.5+9.85=8.0,则a ^=8.0-0.76×10.0=0.4,所以回归直线方程为y ^=0.76x +0.4,当x =15时,y ^=0.76×15+0.4=11.8,故估计年收入为15万元家庭的年支出为11.8万元,故选B.。