18统计.讲义教师版
- 格式:doc
- 大小:3.33 MB
- 文档页数:32
1.5.1 估计总体的分布1.5.2 估计总体的数字特征1.理解并会运用样本的频率分布估计总体的分布,通过实例体会分布的意义和作用.(重点)2.在表示样本数据的过程中,学会列频率分布表,画频率分布直方图及频率折线图.(难点)3.能根据给出的频率分布直方图解决具体问题.(难点)[基础·初探]教材整理1 基本概念阅读教材P 32~P 36“练习”以上部分,完成下列问题. 1.频率分布表和频率分布直方图 (1)频率分布表编制的方法步骤:计算极差――决定―决定―→列出频率分布表(2)2.频率分布折线图(1)在频率分布直方图中,按照分组原则,在左边和右边各加一个区间,从所加的左边区间的中点开始,用线段依次连接各个矩形的顶端中点,直至右边所加区间的中点,就可以得到一条折线,我们称之为频率折线图.(2)当样本容量不断增大时,样本中落在每个区间内的样本数的频率会越来越稳定于总体在相应区间内取值的概率.也就是说,一般地,样本容量越大,用样本的频率分布去估计总体的分布就越精确.(3)随着样本量的增大,所划分的区间数也可以随之增多,而每个区间的长度则会相应随之减小,相应的频率折线图就会越来越接近于一条光滑曲线.判断(正确的打“√”,错误的打“×”)(1)频率分布直方图中的纵坐标指的是频率的值.( ) (2)频率分布直方图中各小矩形的面积之和可以不为1.( ) (3)将数据分组时,一般要求各组的组距相等.( ) 【解析】 (1)×,纵坐标指的是频率与组距的比值. (2)×,各小矩形的面积之和一定为1.(3)√,对数据进行分组时,一般要求各组的组距相等. 【答案】 (1)× (2)× (3)√教材整理2 用样本的平均数、方差与标准差 估计总体的数字特征阅读教材P 37第二自然段至P 39“练习”以上部分,完成下列问题. 用样本的平均数、方差与标准差估计总体的数字特征利用随机抽样得到样本,从样本数据得到的分布、平均数和标准差(通常称之为样本分布、样本平均数和样本标准差)并不是总体真正的分布、平均数和标准差,而只是总体的一个估计,但这个估计是合理的,特别是当样本容量很大时,它们确实反映了总体的信息.n 个样本数据x 1,x 2,…,x n 的平均数x =1n(x 1+x 2+…+x n ),则有n x =x 1+x 2+…+x n .设样本的元素为x 1,x 2,…,x n ,样本的平均数为x ,则样本的方差s 2=1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2] .样本方差的算术平方根即为样本的标准差, 即s []x 1-2+x 2-2+…+x n -2判断(正确的打“√”,错误的打“×”)(1)在用样本估计总体分布的过程中,样本容量越大,估计越精确.( ) (2)样本平均数一定大于总体平均数.( )(3)样本标准差与总体标准差的大小关系无法确定.( ) 【解析】 (1)√,样本容量越大,估计越精确. (2)×,样本平均数与总体平均数的大小关系不确定. (3)√,可能大于也可能小于. 【答案】 (1)√ (2)× (3)√[小组合作型]25,27,29,25,28.【导学号:63580011】(1)列出样本的频率分布表;(2)画出频率分布直方图和频率折线图;(3)根据频率分布直方图,估计总体出现在23~28内的频率是多少.【精彩点拨】根据绘制频率分布直方图和频率折线图的步骤进行.【自主解答】(1)计算极差:30-21=9.决定组距和组数:取组距为2.∵92=412,∴共分5组.决定分点,使分点比数据多一位小数.并把第1小组的分点减小0.5,即分成如下5组:[20.5,22.5),[22.5,24.5),[24.5,26.5),[26.5,28.5),[28.5,30.5].列出频率分布表如下:取各小长方形上的中点并用线段连接就构成了频率折线图,如上图.(3)由频率分布表和频率分布直方图观察得:样本值出现在23~28之间的频率为0.15+0.40+0.2=0.75,所以可以估计总体中出现在23~28之间的数的频率约为0.75.绘制频率分布直方图的具体步骤:求极差:一组数据的最大值与最小值的差称为极差.决定组距与组数:数据分组的组数与样本容量有关,一般样本容量越大,所分组数越多.当样本容量不超过120时,按照数据的多少,常分成5~12组.为方便起见,组距的选择应力求“取整”.将数据分组:通常对组内数值所在区间取左闭右开区间,最后一组取闭区间.[再练一题]1.下表给出了某校从500名12岁男孩中随机抽选出的120人的身高情况(单位:cm):(2)画出频率分布直方图;(3)估计身高低于134 cm的人数占总人数的百分比.【解】(1)样本频率分布表如下所示:(2)频率分布直方图如图所示.(3)由样本频率分布表可知,身高低于134 cm 的男孩出现的频率为0.04+0.07+0.08=0.19,所以可以估计身高低于134 cm 的人数占总人数的19 %.将所得数据整理后,画出频率分布直方图如图151所示,图中从左到右各小长方形面积之比为2∶4∶17∶15∶9∶3,第二小组频数为12.图151(1)第二小组的频率是多少?样本容量是多少?(2)若次数在110以上(含110次)为达标,试估计该校全体高一学生的达标率是多少? 【精彩点拨】 (1)各小长方形面积之比即为相应的频率之比,从而可算出第二小组的频率.利用频率=频数样本容量,可求样本容量.(2)由图可知次数在110次以上的频率,从而可求达标率.【自主解答】 (1)由于频率分布直方图以面积的形式反映了数据落在各个小组内的频率大小,因此第二小组的频率为42+4+17+15+9+3=0.08.又因为第二小组频率=第二小组频数样本容量,所以样本容量=第二小组频数第二小组频率=120.08=150.(2)由图可估计该校高一学生的达标率约为 17+15+9+32+4+17+15+9+3×100%=88%.频率分布直方图的性质:因为小矩形的面积=组距×频率÷组距=频率,所以各小矩形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组内的频率大小.在频率分布直方图中,各小矩形的面积之和等于1. 频数÷相应的频率=样本容量.[再练一题]2.某校开展了一次小制作评比活动,作品上交时间为5月1日至30日.评委会把同学们上交作品的件数按5天一组分组统计,绘制了如图152所示的频率分布直方图.已知从左到右各长方形的高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答有关问题:(1)本次活动共有多少件作品参加评比? (2)哪组上交的作品数最多?有多少件?图152(3)经过评比,第四组和第六组分别有10件、2件作品获奖,则这两组哪组获奖率较高? 【解】 (1)依题意知,第三组的频率为42+3+4+6+4+1=0.2,又因为第三组的频数为12,故本次活动的参评作品有120.2=60(件).(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有60×62+3+4+6+4+1=18(件).(3)第四组的获奖率是1018=59.因为第六组上交的作品数量为60×12+3+4+6+4+1=3件,所以第六组的获奖率为23.而23>59,显然第六组的获奖率较高.[探究共研型]探究1【提示】在频率分布直方图中,中位数左边和右边的直方图的面积应该相等,由此可估计中位数的值.探究2 在条形统计图中怎样估计众数?【提示】众数是最高矩形的中点的横坐标.探究3 怎样估计平均数?【提示】平均数的估计值等于频率分布直方图中每个小矩形的面积与小矩形底边中点的横坐标之积的总和.已知一组数据:125,121,123,125,127,129,125,128,130,129,126,124, 125, 127, 126, 122,124, 125,126,128.(1)填写下面的频率分布表:(2)(3)根据频率分布直方图或频率分布表求这组数据的众数、中位数和平均数.【精彩点拨】(1)根据频数与频率的概念填写表格;(2)利用作频率分布直方图的步骤作图;(3)根据直方图中求数字特征的方法求解.【自主解答】(1)(2)(3)在[125,127)中的数据最多,取这个区间的中点值作为众数的近似值,得众数126,事实上,众数的精确值为125;(2)图中虚线对应的数据是125+2×58=126.25,事实上中位数为125.5.使用“组中值”求平均数x =122×0.1+124×0.15+126×0.4+128×0.2+130×0.15=126.3,平均数的精确值为x =125.75.1.平均数、中位数、众数、极差、方差等统计量是将多个数据“加工”成一个数据,能更清楚地反映这组数据的某些重要特征,要理解这些统计量表达的信息.2.利用直方图求众数、中位数、平均数均为估计值,与实际数据可能不一致.[再练一题]3.某中学举行电脑知识竞赛,现将高一参赛学生的成绩进行整理后分成五组,绘制成如图153所示的频率分布直方图,已知图中从左到右的第一、二、三、四、五小组的频率分别是0.30、0.40、0.15、0.10、0.05.图153求:(1)高一参赛学生成绩的众数、中位数; (2)高一参赛学生的平均成绩.【解】 (1)由图可知众数为65,又∵第一个小矩形的面积为0.3, ∴设中位数为60+x ,则0.3+x ×0.04=0.5,得x =5, ∴中位数为60+5=65.(2)依题意,x =55×0.3+65×0.4+75×0.15+85×0.1+95×0.05=67,∴平均成绩约为67分.1.当收集到的数据量很大时,比较合适的统计图是( ) A .茎叶图 B .频率分布直方图 C .频率折线图D .频率分布表【解析】 当收集到的数据量很大时,一般用频率分布直方图. 【答案】 B2.在抽查产品的尺寸过程中,将其尺寸分成若干组,[a ,b )是其中的一组,抽查出的个体在该组上的频率为m ,该组上的直方图的高为h ,则|a -b |=( )A .hm B.mhC.h mD .h +m【解析】频率组距=h ,故|a -b |=组距=频率h =mh. 【答案】 B3.某班的全体学生参加英语测试,成绩的频率分布直方图如图154,数据的分组依次为[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是( )图154A .45B .50C .55D .60【解析】 成绩在[20,40)和[40,60)的频率分别是0.1,0.2,则低于60分的频率是0.3,设该班学生总数为m ,则15m=0.3,m =50.【答案】 B4.从某小学随机抽取100名同学,将他们的身高(单位:厘米)数据绘制成频率分布直方图如图155.由图中数据可知a =________.若要从身高在[120,130),[130,140),[140,150]三组内的学生中,用分层抽样的方法选取18人参加一项活动,则从身高在[140,150]内的学生中选取的人数应为________.图155【解析】 ∵0.005×10+0.035×10+a ×10+0.020×10+0.010×10=1,∴a =0.030,设身高在[120,130),[130,140),[140,150]三组的分别有x ,y ,z 人. ∴x100=0.030×10, ∴x =30,同理y =20,z =10.∴从[140,150]中抽取1030+20+10×18=3.【答案】 0.030 35.公交车的数量太多容易造成资源的浪费,太少又难以满足乘客的需求.为此,公交公司在某站台随机调查了80名乘客,他们的候车时间如下所示(单位:分):17 14 20 12 10 24 18 17 1 22 13 19 28 5 34 7 25 18 28 1 15 31 12 11 10 16 12 9 10 13 19 10 12 12 16 22 17 23 16 15 16 11 9 3 13 2 18 22 19 9 23 28 15 21 28 12 11 14 15 3 11 6 2 18 25 5 12 15 20 16 12 28 20122815832189(1)将数据进行适当的分组,并画出相应的频率分布直方图和频率折线图; (2)候车时间15分钟以上的比例是多少?你能为公交公司提出什么建议?【解】 (1)该数据中最大值为34,最小值为1,两者之差为33,故取组距为5,分为7组.11频率折线图如下图所示:(2)候车时间不低于15分钟的百分比为0.275+0.125+0.100+0.038=0.538=53.8%, 公交公司可以适当增加公交车的数量.。
第18讲复式条形统计图(讲义)(知识梳理+易错汇总+易错精讲+易错专练)1、复式条形统计图。
(1)复式条形统计图的绘制方法与单式条形统计图的绘制方法基本相同,只是有两组(或多组)数据,需要用两种(或多种)不同颜色(或底纹)的直条来表示,同时要标明图例。
(2)观察复式条形统计图时,可以运用横向、纵向、综合对比等不同的方法,从中获取尽可能多的信息,而且可以根据获取的信息提出问题并解决问题。
(3)横向复式条形统计图与纵向复式条形统计图只是形式上不同,其他都相同。
当数据的种类不多,但每类数据又比较大时,用横向复式条形统计图比较方便。
1、在绘制复式条形统计图时,要写上标题,标明图例,图中直条的宽窄要一致,间隔要相同,组成直条的两条线一定要互相平行,并且要统一单位长度。
【易错一】下图是某小区在垃圾分类活动中厨余垃圾与其它垃圾的统计图。
根据图中信息,下面()的说法是错误的。
A.二月份的厨余垃圾数量比其它垃圾多。
B.这四个月中,其它垃圾的总量比厨余垃圾多。
C.四月份厨余垃圾的重量是一月份的4倍。
D.三月份的厨余垃圾与其它垃圾共有27吨。
【分析】根据复式条形统计图的特点,对每个选项中的说法进行判断即可;A.二月份的厨余垃圾为10吨,其它垃圾为9吨;B.先分别计算出这四个月中,其它垃圾的总量以及厨余垃圾的总量,然后再比较即可;C.用四月份厨余垃圾的重量除以一月份厨余垃圾的重量即可;D.用三月份的厨余垃圾的重量加三月份其它垃圾的重量即可。
【详解】A.10吨>9吨,因此二月份的厨余垃圾数量比其它垃圾多,即原说法正确;B.厨余垃圾:5+10+12+15=42(吨);其它垃圾:7+9+15+20=51(吨),51吨>42吨,因此这四个月中,其它垃圾的总量比厨余垃圾多,即原说法正确;C.15÷5=3,因此四月份厨余垃圾的重量是一月份的3倍,即原说法错误;D.12+15=27(吨),因此三月份的厨余垃圾与其它垃圾共有27吨,即原说法正确;故答案为:C【点睛】熟练掌握复式条形统计图的特点是解答此题的关键。
2018年事业统计学校级工作开展培训讲义一、《教育统计管理规定》的颁布《教育统计管理规定》(令第44号)(以下简称:《规定》),以教育部长令下达。
2018年5月15日部党委会审议通过后公布,2018年8月1日起正式实施。
《规定》的出台,是适应实践发展,解决教育统计工作现实问题的迫切要求。
《规定》的贯彻实施,对于规范教育统计行为,提高统计数据质量,解决教育统计工作面临的人财物资源不足等现实问题,更好地服务于国家经济社会发展具有重要意义。
(1)规范统计行为。
统计人员应当实事求是,恪守职业道德,对其负责采集、审核、录入的教育统计资料负责。
任何部门和单位的负责人,不得自行或授意他人伪造、篡改统计人员依法采集、整理的教育统计资料和数据,不得对依法履行职责的统计人员打击报复。
(2)明确职责,夯实数据。
各区、市教育行政部门和学校根据职能明确教育统计工作的机构或岗位,配备统计人员,明确统计机构负责人。
建立完善的统计人员管理制度,做好统计人员的备案工作。
设置原始记录、统计台账等基础统计资料。
建立健全统计资料的审核、签署、交接、归档管理制度。
教育统计调查任务的开展要执行逐级布置、培训和逐级上报、审核、汇总的工作程序。
各统计调查单位应组织本单位内部业务部门对上报数据进行全面审核。
基础统计资料应有统计调查参与人员的签字,报表必须由统计人员、审核人及单位负责人的签名,同时加盖公章。
(3)树立教育统计数据的权威性。
对外报送数据应当优先使用教育统计资料。
任何单位和个人不得对外提供、泄露教育统计调查中获得的能够识别或者推断单个统计调查对象身份的资料。
(4)强化数据服务社会发展的重要作用。
除涉及保密的数据,各区、市教育部门应主动公开教育统计数据资料。
要运用科学方法和信息化手段,深入挖掘统计数据资源,切实提高教育统计分析水平。
为教育管理的宏观决策提供重要参考。
鼓励各级教育、科研机构和广大统计人员,围绕教育统计工作的关键领域和薄弱环节,开展课题研究。
第二节统计学的理论基础和研究方法第三节统计学的基本范畴一、统计总体与总体单位(一)概念统计总体和总体单位,又可以简称为总体和个体,是反映统计认识对象的基本概念.凡是客观存在的,在同一性质基础上结合起来的许多事物的整体,就是统计总体.组成统计总体的个体称为总体单位.例如,一个工业企业,有以职工为单位组成的职工总体,有以每台设备组成的设备总体,有以产品为单位组成的产品总体,有以销售行为为单位组成的销售总体等。
总体和个体是多种多样的,常见的主要有两种,即:以某种客观存在的实体为单位组成的总体,如以个人、家庭、学校、设备、产品、商品等为单位组成的总体称作实体总体;以某种行为、事件为单位组成的总体,如买卖行为、工伤事故、犯罪事件、体育活动等为单位组成的总体称作行为总体。
一个统计总体中所包括的总体单位数可以是无限的,这样的总体称为无限总体;也可以是有限的,则称为无限总体.在社会经济现象中统计总体大多是有限的。
在统计调查中,对无限总体不能进行全面调查,只能调查其中一小部分单位,据以推断总体.对有限总体既可作全面调查,也可只调查其中的一小部分.(二)特点统计总体的形成必须具备一定的条件,作为统计研究具体对象的统计总体,其形成条件主要有三条:第一,同质性。
组成统计总体的所有单位必须是在某些性质上是相同的,例如工业企业总体,必须是由进行工业生产经营的基层单位组成的。
如果是国有工业企业总体,便又多了一个所有制性质上的相同标志,它的范围便小于工业企业总体了。
或数量标志数值;第二,大量性。
统计总体是由许多总体单位构成的。
小型总体(抽样总体)的单位数要足够多;第三,差异性。
构成总体的各单位除了同质性一面还必须有差异性一面,否则便不需要进行统计调查研究了。
例如职工总体中的每个职工,在工种、性别、年龄、文化程度、工资等方面都有差异,这样才构成社会经济统计调查的内容。
二、标志与指标(一)概念标志是说明总体单位属性和特征的名称。
标志按其表现形式有数量标志与品质标志两种。
一.随机抽样1.随机抽样:满足每个个体被抽到的机会是均等的抽样,共有三种经常采用的随机抽样方法:⑴简单随机抽样:从元素个数为N 的总体中不放回地抽取容量为n 的样本,如果每一次抽取时总体中的各个个体有相同的可能性被抽到,这种抽样方法叫做简单随机抽样. 抽出办法:①抽签法:用纸片或小球分别标号后抽签的方法.②随机数表法:随机数表是使用计算器或计算机的应用程序生成随机数的功能生成的一张数表.表中每一位置出现各个数字的可能性相同. 随机数表法是对样本进行编号后,按照一定的规律从随机数表中读数,并取出相应的样本的方法.简单随机抽样是最简单、最基本的抽样方法.⑵系统抽样:将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本的抽样方法.抽出办法:从元素个数为N 的总体中抽取容量为n 的样本,如果总体容量能被样本容量整除,设Nk n=,先对总体进行编号,号码从1到N ,再从数字1到k 中随机抽取一个数s 作为起始数,然后顺次抽取第2(1)s k s k s n k +++-,,,个数,这样就得到容量为n 的样本.如果总体容量不能被样本容量整除,可随机地从总体中剔除余数,然后再按系统抽样方法进行抽样.系统抽样适用于大规模的抽样调查,由于抽样间隔相等,又被称为等距抽样.⑶分层抽样:当总体有明显差别的几部分组成时,要反映总体情况,常采用分层抽样,使总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占比例进行简单随机抽样,这种抽样方法叫做分层抽样.分层抽样的样本具有较强的代表性,而且各层抽样时,可灵活选用不同的抽样方法,应用广泛.2.简单随机抽样必须具备下列特点:⑴简单随机抽样要求被抽取的样本的总体个数N 是有限的. ⑵简单随机样本数n 小于等于样本总体的个数N . ⑶简单随机样本是从总体中逐个抽取的. ⑷简单随机抽样是一种不放回的抽样.⑸简单随机抽样的每个个体入样的可能性均为nN.3.系统抽样时,当总体个数N 恰好是样本容量n 的整数倍时,取Nk n=;若Nn不是整数时,先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量n 整除.因为每个个体被剔除的机会相等,因而整个抽样过程中每个个体被抽取的机会仍知识内容板块四.统计数据的数字特征然相等,为N n.二.频率直方图列出样本数据的频率分布表和频率分布直方图的步骤:①计算极差:找出数据的最大值与最小值,计算它们的差;②决定组距与组数:取组距,用极差组距决定组数;③决定分点:决定起点,进行分组;④列频率分布直方图:对落入各小组的数据累计,算出各小数的频数,除以样本容量,得到各小组的频率.⑤绘制频率分布直方图:以数据的值为横坐标,以频率组距的值为纵坐标绘制直方图,知小长方形的面积=组距×频率组距=频率.频率分布折线图:将频率分布直方图各个长方形上边的中点用线段连接起来,就得到频率分布折线图,一般把折线图画成与横轴相连,所以横轴左右两端点没有实际意义.总体密度曲线:样本容量不断增大时,所分组数不断增加,分组的组距不断缩小,频率分布直方图可以用一条光滑曲线()y f x =来描绘,这条光滑曲线就叫做总体密度曲线.总体密度曲线精确地反映了一个总体在各个区域内取值的规律.三.茎叶图制作茎叶图的步骤:①将数据分为“茎”、“叶”两部分;②将最大茎与最小茎之间的数字按大小顺序排成一列,并画上竖线作为分隔线; ③将各个数据的“叶”在分界线的一侧对应茎处同行列出.四.统计数据的数字特征用样本平均数估计总体平均数;用样本标准差估计总体标准差. 数据的离散程序可以用极差、方差或标准差来描述.极差又叫全距,是一组数据的最大值和最小值之差,反映一组数据的变动幅度; 样本方差描述了一组数据平均数波动的大小,样本的标准差是方差的算术平方根. 一般地,设样本的元素为12n x x x ,,,样本的平均数为x , 定义样本方差为222212()()()n x x x x x x s n-+-++-=,样本标准差s =简化公式:22222121[()]n s x x x nx n=+++-.五.独立性检验1.两个变量之间的关系;常见的有两类:一类是确定性的函数关系;另一类是变量间存在关系,但又不具备函数关系所要求的确定性,它们的关系是带有一定随机性的.当一个变量取值一定时,另一个变量的取值带有一定随机性的两个变量之间的关系叫做相关关系.2.散点图:将样本中的n 个数据点()(12)i i x y i n =,,,,描在平面直角坐标系中,就得到了散点图.散点图形象地反映了各个数据的密切程度,根据散点图的分布趋势可以直观地判断分析两个变量的关系.3.如果当一个变量的值变大时,另一个变量的值也在变大,则这种相关称为正相关;此时,散点图中的点在从左下角到右上角的区域.反之,一个变量的值变大时,另一个变量的值由大变小,这种相关称为负相关.此时,散点图中的点在从左上角到右下角的区域.散点图可以判断两个变量之间有没有相关关系.4.统计假设:如果事件A 与B 独立,这时应该有()()()P AB P A P B =,用字母0H 表示此式,即0:()()()H P AB P A P B =,称之为统计假设. 5.2χ(读作“卡方”)统计量:统计学中有一个非常有用的统计量,它的表达式为22112212211212()n n n n n n n n n χ++++-=,用它的大小可以用来决定是否拒绝原来的统计假设0H .如果2χ的值较大,就拒绝0H ,即认为A 与B 是有关的.2χ统计量的两个临界值:3.841、6.635;当2 3.841χ>时,有95%的把握说事件A 与B 有关;当2 6.635χ>时,有99%的把握说事件A 与B 有关;当2 3.841χ≤时,认为事件A 与B 是无关的.独立性检验的基本思想与反证法类似,由结论不成立时推出有利于结论成立的小概率事件发生,而小概率事件在一次试验中通常是不会发生的,所以认为结论在很大程度上是成立的. 1.独立性检验的步骤:统计假设:0H ;列出22⨯联表;计算2χ统计量;查对临界值表,作出判断.2.几个临界值:222()0.10( 3.841)0.05( 6.635)0.01P P P χχχ≈≈≈≥2.706,≥,≥.22⨯联表的独立性检验:如果对于某个群体有两种状态,对于每种状态又有两个情况,这样排成一张22⨯的表,如下:如果有调查得来的四个数据11122122n 4个数据来检验上述的两种状态A 与B 是否有关,就称之为22⨯联表的独立性检验.六.回归分析1.回归分析:对于具有相关关系的两个变量进行统计分析的方法叫做回归分析,即回归分析就是寻找相关关系中这种非确定关系的某种确定性. 回归直线:如果散点图中的各点都大致分布在一条直线附近,就称这两个变量之间具有线性相关关系,这条直线叫做回归直线. 2.最小二乘法:记回归直线方程为:ˆy a bx =+,称为变量Y 对变量x 的回归直线方程,其中a b ,叫做回归系数.ˆy是为了区分Y 的实际值y ,当x 取值i x 时,变量Y 的相应观察值为i y ,而直线上对应于i x 的纵坐标是ˆi i ya bx =+. 设x Y ,的一组观察值为()i i x y ,,12i n =,,,,且回归直线方程为ˆya bx =+, 当x 取值i x 时,Y 的相应观察值为i y ,差ˆ(12)i i y yi n -=,,,刻画了实际观察值i y 与回归直线上相应点的纵坐标之间的偏离程度,称这些值为离差.我们希望这n 个离差构成的总离差越小越好,这样才能使所找的直线很贴近已知点. 记21()ni i i Q y a bx ==--∑,回归直线就是所有直线中Q 取最小值的那条.这种使“离差平方和为最小”的方法,叫做最小二乘法.用最小二乘法求回归系数a b ,有如下的公式:1221ˆni ii nii x ynxy bxnx ==-=-∑∑,ˆˆa y bx =-,其中a b ,上方加“^”,表示是由观察值按最小二乘法求得的回归系数.3.线性回归模型:将用于估计y 值的线性函数a bx +作为确定性函数;y 的实际值与估计值之间的误差记为ε,称之为随机误差;将y a bx ε=++称为线性回归模型. 产生随机误差的主要原因有:①所用的确定性函数不恰当即模型近似引起的误差; ②忽略了某些因素的影响,通常这些影响都比较小; ③由于测量工具等原因,存在观测误差. 4.线性回归系数的最佳估计值:利用最小二乘法可以得到ˆˆab ,的计算公式为 1122211()()()()nnii iii i nniii i xx y y x ynxyb xx xn x ====---==--∑∑∑∑,ˆˆa y bx =-,其中11n i i x x n ==∑,11nii y y n ==∑ 由此得到的直线ˆˆya bx =+就称为回归直线,此直线方程即为线性回归方程.其中ˆa ,b 分别为a ,b 的估计值,ˆa称为回归截距,b 称为回归系数,ˆy 称为回归值. 5.相关系数:()()nnii i ixx y y x ynx yr ---==∑∑6.相关系数r 的性质: ⑴||1r ≤;⑵||r 越接近于1,x y ,的线性相关程度越强; ⑶||r 越接近于0,x y ,的线性相关程度越弱.可见,一条回归直线有多大的预测功能,和变量间的相关系数密切相关. 7.转化思想:根据专业知识或散点图,对某些特殊的非线性关系,选择适当的变量代换,把非线性方程转化为线性回归方程,从而确定未知参数. 8.一些备案 ①回归(regression )一词的来历:“回归”这个词英国统计学家Francils Galton 提出来的.1889年,他在研究祖先与后代的身高之间的关系时发现,身材较高的父母,他们的孩子也较高,但这些孩子的平均身高并没有他们父母的平均身高高;身材较矮的父母,他们的孩子也较矮,但这些孩子的平均身高却比他们父母的平均身高高.Galton 把这种后代的身高向中间值靠近的趋势称为“回归现象”.后来,人们把由一个变量的变化去推测另一个变量的变化的方法称为回归分析.②回归系数的推导过程:22222[()]222i i i i i i i i Q y a bx y a y na b x y ab x b x =--=-+-++∑∑∑∑∑∑ 22222()2i i i i i i na a b x y b x b x y y =+-+-+∑∑∑∑∑,把上式看成a 的二次函数,2a 的系数0n >,因此当2()2i i i ib x y y b x a n n --=-=∑∑∑∑时取最小值. 同理,把Q 的展开式按b 的降幂排列,看成b 的二次函数,当2i iiix y a xb x-=∑∑∑时取最小值.解得:12221()()()ni iii i niii x ynxyx x y y b x x xnx==---==--∑∑∑∑,a y bx =-, 其中1i y y n =∑,1i x x n=∑是样本平均数. 9. 对相关系数r 进行相关性检验的步骤: ①提出统计假设0H :变量x y ,不具有线性相关关系;②如果以95%的把握作出推断,那么可以根据10.950.05-=与2n -(n 是样本容量)在相关性检验的临界值表中查出一个r 的临界值0.05r (其中10.950.05-=称为检验水平); ③计算样本相关系数r ;④作出统计推断:若0.05||r r >,则否定0H ,表明有95%的把握认为变量y 与x 之间具有线性相关关系;若0.05||r r ≤,则没有理由拒绝0H ,即就目前数据而言,没有充分理由认为变量y 与x 之间具有线性相关关系. 说明:⑴对相关系数r 进行显著性检验,一般取检验水平0.05α=,即可靠程度为95%.⑵这里的r 指的是线性相关系数,r 的绝对值很小,只是说明线性相关程度低,不一定不相关,可能是非线性相关的某种关系.⑶这里的r 是对抽样数据而言的.有时即使||1r =,两者也不一定是线性相关的.故在统计分析时,不能就数据论数据,要结合实际情况进行合理解释.题型一.数字特征的计算【例1】 某校高中年级开设了丰富多彩的校本课程,甲、乙两班各随机抽取了5名学生的学分,用茎叶图表示(如右图).1s ,2s 分别表示甲、乙两班各自5名学生学分的标准差,则1s 2s .(填“>”、“<”或“=”)乙甲3407602125418【考点】数字特征的计算 【难度】1星 【题型】填空题典例分析【关键字】2010年,海淀2模【解析】易知甲乙的平均数均为14,易知乙比较分散,故12s s <. 【答案】<;【例2】 甲、乙、丙三名射击运动员在某次测试中各射击20次,三人的测试成绩如下表123,,x x x 分别表示甲、乙、丙三名运动员这次测试成绩的平均数,则123,,x x x 的大小关系为 ;123,,s s s 分别表示甲、乙、丙三名运动员这次测试成绩的标准差,则123,,s s s 的大小关系为 .【考点】数字特征的计算 【难度】2星 【题型】填空题【关键字】2010年,北京崇文2模【解析】1238.5x x x ===;由成绩与平均数的偏差可看出,丙的稳定性最好,其次是甲,故213s s s >>.【答案】123x x x ==【例3】 10个正数的平方和是370,方差是33,那么平均数为( )A .1B .2C .3D .4【考点】数字特征的计算 【难度】1星 【题型】选择 【关键字】无 【解析】22133370210s x x ==⨯-⇒=. 【答案】B ;【例4】 若M 个数的平均数是X ,N 个数的平均数是Y ,则这M N +个数的平均数是( )A .2X Y +B .X Y M N++ C .MX NY M N ++ D .MX NY X Y ++【考点】数字特征的计算 【难度】1星 【题型】选择 【关键字】无 【解析】略 【答案】C ;【例5】 已知一组数据1210x x x ,,,的方差是2,且2221210(3)(3)(3)380x x x -+-++-=,则这组数据的平均数x =__________.【考点】数字特征的计算 【难度】1星 【题型】填空 【关键字】无【解析】依题设有2221210()()()210x x x x x x -+-++-=,展开变形得222212101210()102()20x x x x x x x x ++++-+++=.……………①同样的,2221210(3)(3)(3)380x x x -+-++-=,展开变形得22212101210()1096()380x x x x x x ++++⨯-⋅+++=.…………②②-①并化简得26270x x --=.解得3x =-或9x =.【答案】9或3-;【例6】 求下列各组数据的方差与标准差(精确到0.1),并分析由这些结果可得出什么更一般的结论.⑴123456789;⑵111213141516171819; ⑶24681012141618【考点】数字特征的计算 【难度】2星 【题型】解答 【关键字】无 【解析】略【答案】⑴11(129)59x =+++=,222221120(12995) 6.793s =+++-⨯=≈,1 2.6s =≈;⑵21(111219)159x =+++=,22222120[(1115)(1215)(1915)] 6.793s =-+-++-=≈,2 2.6s =≈;⑶31(2418)109x =+++=,22223180[(210)(410)(1810)]26.73s =-+-++-=≈,3 5.2s =≈;一组数都加上相同的数后,方差不变,都乘以相同的倍数n 后,标准差变为原来的n 倍,方差变为原来的2n 倍.即12n x x x ,,,的方差为2s ,则12n x a x a x a +++,,,的方差仍为2s , 12n nx nx nx ,,,的方差为22n s .【例7】 在发生某公共卫生事件期间,有专业机构认为该事件在一段时间内没有发生大规模群体感染的标志为“连续10天,每天新增疑似病例不超过7人”.根据过去10天甲、乙、丙、丁四地新增疑似病例数据,一定符合该标志的是( )A .甲地:总体均为3,中位数为4B .乙地:总体均值为1,总体方差大于0C .丙地:中位数为2,众数为3D .丁地:总体均值为2,总体方差为3【考点】数字特征的计算 【难度】2星 【题型】选择【关键字】2009年,上海高考【解析】根据信息可知,连续10天内,每天的新增疑似病例不能有超过7的数,选项A 中,中位数为4,可能存在大于7的数; 同理,在选项C 中也有可能;选项B 中,如果某天数据为10,其余9天为0,则不符合标志;选项D 中,根据公式,若有大于7的数存在,则方差至少为21(82) 3.610⎡⎤-+⎣⎦≥.【答案】D ;【例8】 设矩形的长为a ,宽为b ,其比满足0.618b a ≈∶,这种矩形给人以美感,称为黄金矩形.黄金矩形常应用于工艺品设计中.下面是某工艺品厂随机抽取两个批次的初加工矩形宽度与长度的比值样本: 甲批次:0.598 0.625 0.628 0.595 0.639 乙批次:0.618 0.613 0.592 0.622 0.620根据上述两个样本来估计两个批次的总体平均数,与标准值0.618比较,正确结论是A .甲批次的总体平均数与标准值更接近B .乙批次的总体平均数与标准值更接近C .两个批次总体平均数与标准值接近程度相同D .两个批次总体平均数与标准值接近程度不能确定【考点】数字特征的计算 【难度】2星 【题型】选择【关键字】2009年,四川高考【解析】甲批次的平均数为0.617,乙批次的平均数为0.613【答案】A ;【例9】 已知总体的各个体的值由小到大依次为23371213.718.320a b ,,,,,,,,,,且总体的中位数为10.5,若要使该总体的方差最小,则a 、b 的取值分别是 .【考点】数字特征的计算 【难度】3星 【题型】填空【关键字】2008年,上海高考【解析】10.52a b+=21a b ⇒+=,要使方差最小,只需22(10.5)(10.5)a b -+-最小,当且仅当22a b +最小,显然当10.5a b ==时取到最小值.【答案】10.5,10.5;【例10】 从某项综合能力测试中抽取100人的成绩,统计如表,则这100人成绩的标准差为( )A【考点】数字特征的计算 【难度】2星 【题型】选择【关键字】2008年,山东高考【解析】这100个人的平均数为520410*********3100⨯+⨯+⨯+⨯+⨯=.【答案】B ;【例11】 两台机床同时生产直径为10的零件,为了检验产品质量,质量检验员从两台机床的产品中各抽出4件进行测量,结果如下:机床生产的零件质量更符合要求?【考点】数字特征的计算 【难度】3星 【题型】解答 【关键字】无 【解析】略【答案】⑴先计算平均直径:1(109.91010.2)10.0254x =+++=甲,1(10.1109.910.1)10.0254x =+++=乙,由于x x =乙甲,因此平均直径反映不出两台机床生产零件的质量优劣. ⑵再计算方差:2221[(9.910)(10.210)]0.01254s =-+-=甲;22221[(10.110)(9.910)(10.110)]0.00754s =-+-+-=乙;由于22s s <乙甲,这说明乙机床生产出的零件直径波动小;因此,从产品质量稳定性的角度考虑,乙机床生产的零件质量更符合要求.。
高中数学必修2《统计》知识点讲义一、引言高中数学必修2中的《统计》部分是我们在日常生活中应用广泛的数学知识。
通过学习统计,我们可以更好地理解世界,做出更明智的决策。
本篇文章将详细讲解统计部分的重要知识点。
二、知识点概述1、描述性统计描述性统计是统计学的基石,它主要研究如何用图表和数值来描述数据的基本特征。
这部分内容将介绍如何制作频数分布表、绘制条形图、饼图和折线图等。
2、概率论基础概率论是统计学的核心,它研究随机事件发生的可能性。
在本部分,我们将学习如何计算事件的概率,了解独立事件与互斥事件的概念。
3、分布论基础分布论是研究随机变量及其分布的数学分支。
本部分将介绍如何计算随机变量的期望和方差,了解正态分布的特点及其在日常生活中的应用。
三、知识点详解1、描述性统计本文1)频数分布表:频数分布表是一种用于表示数据分布情况的表格,其中每一列表示数据的一个取值,每一行表示该取值的频数。
通过频数分布表,我们可以直观地看到数据分布的集中趋势和离散程度。
本文2)图表:图表是描述数据的一种有效方式。
通过绘制条形图、饼图和折线图,我们可以直观地展示数据的数量关系和变化趋势。
2、概率论基础本文1)概率:概率是指事件发生的可能性,通常用P表示。
P(A)表示事件A发生的概率,其值在0和1之间,其中0表示事件不可能发生,1表示事件一定会发生。
本文2)独立事件与互斥事件:独立事件是指两个事件不相互影响,即一个事件的发生不影响另一个事件的概率;互斥事件是指两个事件不包括共同的事件,即两个事件不可能同时发生。
3、分布论基础本文1)期望:期望是随机变量的平均值,通常用E表示。
E(X)表示随机变量X的期望,它是所有可能取值的概率加权平均值。
期望对于预测随机变量的行为非常有用。
本文2)方差:方差是衡量随机变量取值分散程度的指标,通常用D表示。
D(X)表示随机变量X的方差,它是每个取值与期望之差的平方的平均值。
方差越大,随机变量的取值越分散;方差越小,取值越集中。
教学过程知识导入(进入美妙的世界啦~)(一)随机抽样知识梳理1.简单随机抽样(1)抽取方式:逐个不放回抽取;(2)每个个体被抽到的概率相等;(3)常用方法:抽签法和随机数法. 2.系统抽样的步骤假设要从容量为N 的总体中抽取容量为n 的样本. (1)先将总体的N 个个体编号;(2)确定分段间隔k ,对编号进行分段.当N n (n 是样本容量)是整数时,取k =Nn ;(3)在第1段用简单随机抽样确定第一个个体编号l (l ≤k );(4)按照一定的规则抽取样本.通常是将l 加上间隔k 得到第2个个体编号l +k ,再加k 得到第3个个体编号l +2k ,依次进行下去,直到获取整个样本.3.分层抽样(1)定义:在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样方法是一种分层抽样.(2)分层抽样的应用范围:例题精讲【题型一、简单随机抽样】【例1】 某公司在甲、乙、丙、丁四个地区分别有150,120,180,150个销售点.公司为了调查产品销售情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区有20个大型销售点,要从中抽取7个调查其销售收入和售后服务等情况,记这项调查为②,则完成①,②这两项调查宜采用的抽样方法依次是( )A .分层抽样法,系统抽样法B .分层抽样法,简单随机抽样法C .系统抽样法,分层抽样法D .简单随机抽样法,分层抽样法【方法技巧】抽签法适用于总体中个体数较少的情况,随机数法适用于总体中个体数较多的情况.【题型二、系统抽样】【例2】某单位有840名职工,现采用系统抽样方法抽取42人做问卷调查,将840人按1,2,…,840随机编号,则抽取的42人中,编号落入区间[481,720]的人数为( )A .11B .12C .13D .14 【方法技巧】1.当总体容量较大,样本容量也较大时,可用系统抽样法.2.在利用系统抽样时,经常遇到总体容量不能被样本容量整除的情况,这时可以先从总体中随机地剔除几个个体,使得总体中剩余的个体数能被样本容量整除.【题型三、分层抽样】【例3】(1)某学校有男、女学生各500名.为了解男、女学生在学习兴趣与业余爱好方面是否存在显著差异,拟从全体学生中抽取100名学生进行调查,则宜采用的抽样方法是()A.抽签法B.随机数法C.系统抽样法D.分层抽样法(2)某商场有四类食品,其中粮食类、植物油类、动物性食品类及果蔬类分别有40种、10种、30种、20种,现从中抽取一个容量为20的样本进行食品安全检测.若采用分层抽样的方法抽取样本,则抽取的植物油类与果蔬类食品种数之和是()A.4 B.5 C.6 D.7【方法技巧】进行分层抽样时的注意事项(1)分层抽样中分多少层,如何分层要视具体情况而定,总的原则是:层内样本的差异要小,两层之间的样本差异要大,且互不重叠.(2)为了保证每个个体等可能入样,所有层中每个个体被抽到的可能性相同.(3)在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样.1、从2 007名学生中选取50名学生参加全国数学联赛,若采用下面的方法选取:先用简单随机抽样从2 007人中剔除7人,剩下的2 000人再按系统抽样的方法抽取,则每人入选的概率()A.不全相等B.均不相等C.都相等,且为502 007D.都相等,且为1 402、某报社做了一次关于“什么是新时代的雷锋精神”的调查,在A,B,C,D四个单位回收的问卷数依次成等差数列,且共回收1 000份,因报道需要,再从回收的问卷中按单位分层抽取容量为150的样本,若在B单位抽取30份,则在D单位抽取的问卷是________份.(二)用样本估计总体1.频率分布直方图(1)作频率分布直方图的步骤:①求极差(即一组数据中最大值与最小值的差);②决定组距与组数;③将数据分组;④列频率分布表;⑤画频率分布直方图.(2)频率分布折线图和总体密度曲线:①频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得频率分布折线图.②总体密度曲线:随着样本容量的增加,作图时所分组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,即总体密度曲线.2.茎叶图用茎叶图表示数据有两个突出的优点:一是统计图上没有原始信息的损失,所有的数据信息都可以从茎叶图中得到;二是茎叶图可以随时记录,方便记录与表示.3.样本的数字特征数字特征定义众数在一组数据中,出现次数最多的数据叫做这组数据的众数中位数将一组数据按大小依次排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数在频率分布直方图中,中位数左边和右边的直方图的面积相等平均数样本数据的算术平均数.即x=1n(x1+x2+…+x n)方差s2=1n[(x1-x)2+(x2-x)2+…+(x n-x)2]其中s为标准差例题精讲【题型一、频率分布直方图】【例1】某班的全体学生参加英语测试,成绩的频率分布直方图如图,数据的分组依次为:[20,40),[40,60),[60,80),[80,100].若低于60分的人数是15,则该班的学生人数是()A.45 B.50 C.55 D.60【方法技巧】在频率分布直方图中,小矩形的高等于每一组的频率/组距,每个小矩形的面积等于这一组的频率,所有小矩形的面积之和为1.【题型二、茎叶图】【例2】以下茎叶图记录了甲、乙两组各五名学生在一次英语听力测试中的成绩(单位:分).已知甲组数据的中位数为15,乙组数据的平均数为16.8,则x,y的值分别为()甲组乙组909X 215y 8742 4A.2,5 B.5,5 C.5,8 D.8,8【方法技巧】由茎叶图可以清晰地看到数据的分布情况,这一点同频率分布直方图类似.它优于频率分布直方图的第一点是从茎叶图中能看到原始数据,没有任何信息损失,第二点是茎叶图便于记录和表示.其缺点是当样本容量较大时,作图较繁琐.【题型三、样本数字特征】【例3运动员第一次第二次第三次第四次第五次甲8791908993乙8990918892则成绩较为稳定(【方法技巧】1.用样本估计总体时,样本的平均数、标准差只是总体的平均数、标准差的近似.实际应用中,需先计算数据的平均数,分析平均水平,再计算方差(标准差)分析稳定情况.2.若给出图形,一方面可以由图形得到相应的样本数据,再计算平均数、方差(标准差);另一方面,可以从图形直观分析样本数据的分布情况,判断平均数的范围,利用数据的波动性大小比较方差(标准差)的大小.(一日悟一理,日久而成学)一、方法小结:二、本节课我做的比较好的地方是:三、我需要努力的地方是:课后作业【基础巩固】回顾小结1.下列抽取样本的方式是简单随机抽样的有()①从无限多个个体中抽取50个个体作为样本;②从50个个体中一次性抽取5个个体作为样本.③箱子里有100支铅笔,从中选取10支进行检验.在抽样时,从中任意拿出一支检测后再放回箱子里;A.0个B.1个C.2个D.3个2.用系统抽样法(按等距离的规则)要从160名学生中抽取容量为20的样本,将160名学生从1~160编号.按编号顺序平均分成20组(1~8号,9~16号,…,153~160号),若第16组应抽出的号码为125,则第一组中按此抽签方法确定的号码是()A.7 B.5C.4 D.33.某社区有500个家庭,其中高收入家庭125户,中等收入家庭280户,低收入家庭95户.为了调查社会购买力的某项指标,采用分层抽样的方法从中抽取一个容量为若干户的样本,若从高收入家庭中抽取了25户,则低收入家庭被抽取的户数为________.4.一个班级有5个小组,每一个小组有10名学生,随机编号为1~10号,为了了解他们的学习情况,要求抽取每组的2号学生留下来进行问卷调查,这里运用的方法是()A.分层抽样法B.抽签法C.随机数法D.系统抽样法5.某企业共有职工150人,其中高级职称15人,中级职称45人,初级职称90人.现采用分层抽样抽取容量为30的样本,则抽取的各职称的人数分别为()A.5,10,15B.3,9,18C.3,10,17D.5,9,166.某中学采用系统抽样方法,从该校高一年级全体800名学生中抽50名学生做牙齿健康检查.现将800名学生从1到800进行编号.已知从33~48这16个数中取的数是39,则在第1小组1~16中随机抽到的数是() A.5 B.7 C.11 D.137.为了解一片大约一万株树木的生长情况,随机测量了其中100株树木的底部周长(单位:cm).根据所得数据画出的样本频率分布直方图如图所示,那么在这片树木中,底部周长小于110 cm的株数大约是()A.3 000B.6 000C.7 000 D.8 0008.某同学进入高三后,4次月考的数学成绩的茎叶图如图.则该同学数学成绩的方差是()A.125 B.5 5C.45 D.3 59.在样本的频率分布直方图中,共有11个小长方形,若中间一个小长方形的面积11 4126813 2等于其他10个小长方形的面积和的14,且样本容量为160,则中间一组的频数为( )A .32B .0.2C .40D .0.2510.从某小区抽取100户居民进行月用电量调查,发现其用电量都在50至350度之间,频率分布直方图如图所示.(1)直方图中x 的值为________;(2)在这些用户中,用电量落在区间[100,250)内的户数为________.【能力提升】1.为了检查某超市货架上的奶粉是否含有三聚氰胺,要从编号依次为1到50的袋装奶粉中抽取5袋进行检验,用每部分选取的号码间隔一样的系统抽样方法确定所选取的5袋奶粉的编号可能是( )A .5,10,15,20,25B .2,4,8,16,32C .1,2,3,4,5D .7,17,27,37,472.某市A ,B ,C ,D 四所中学报名参加某高校今年自主招生的学生人数如下表所示:中学 A B C D 人数30402010机抽取50名参加问卷调查,则A ,B ,C ,D 四所中学,抽取学生数分别是多少名( )A .10,20,15,5B .15,20,10,5C .10,15,20,5D .3,4,2,13.某校共有学生2 000名,各年级男、女生人数如下表所示:一年级 二年级 三年级 女生 373 380 y 男生377370Z( ) A .24B .18C .16D .124.网络上流行一种“QQ 农场游戏”,这种游戏通过虚拟软件模拟种植与收获的过程.为了了解本班学生对此游戏的态度,高三(6)班计划在全班60人中展开调查,根据调查结果,班主任计划采用系统抽样的方法抽取若干名学生进行座谈,为此先对60名学生进行编号为:01,02,03,…60,已知抽取的学生中最小的两个编号为03,09,则抽取的学生中最大的编号为________.5.如图是根据某校10位高一同学的身高(单位:cm)画出的茎叶图,其中左边的数字从左到右分别表示学生身高的百位数字和十位数字,右边的数字表示学生身高的个位数字,从图中可以得到这10位同学身高的中位数是()A.161 B.162C.163 D.1646.为了了解某校今年准备报考飞行员的学生的体重情况,将所得的数据整理后,画出了频率分布直方图(如图),已知图中从左到右的前3个小组的频率之比为1∶2∶3,第2小组的频数为12,则报考飞行员的学生人数是________.7.一次数学测验后,从甲、乙两班各抽取9名同学的成绩进行统计分析,绘成茎叶图如图所示.据此估计两个班成绩的中位数的差的绝对值为()甲乙86372 577281393295687109A.8C.4 D.28.某苗圃基地为了解基地内甲、乙两块地种植的同一种树苗的长势情况,从两块地各随机抽取了10株树苗,用茎叶图表示上述两组数据,对两块地抽取树苗的高度的平均数x甲、x乙和中位数y甲、y乙进行比较,下面结论正确的是()甲乙910953102673230047144667A.x甲>x乙,y甲>y乙B.x甲<x乙,y甲<y乙C.x甲<x乙,y甲>y乙D.x甲>x乙,y甲<y乙。
内容 基本要求略高要求较高要求数据的收集了解普查和抽样调查的区别;知道抽样的必要性及不同的抽样可能得到不同的结果总体、个体、样本、样本容量能指出总体、个体、样本、样本容量;理解用样本估计总体的思想能根据有关资料,获得数据信息,说出自己的看法能通过收集、描述、分析数据的过程作出合理的判断和预测,认识到统计对决策的作用,能表达自己的观点平均数、众数、中位数理解平均数的意义,会求一组数据的平均数(包括加权平均数)、众数与中位数能用样本的平均数估计总体的平均数;根据具体问题,能选择适合的统计量表示数据的集中程度统计表、统计图 会用扇形统计图表示数据 会列频数分布表,画频数分布直方图和频数折线图能利用统计图、表解决简单的实际问题极差、方差会求一组数据的极差、方差在具体问题中,会用极差、方差表示数据的离散程度;能用样本的方差估计总体的方差频数、频率 理解频数、频率的概念;了解频数分布的意义和作用;能通过实验、获得事件发生的频率能利用频数、频率解决简单的实际问题板块一、数据的收集、整理及表示1、数据处理的基本过程:收集、整理、描述和分析数据.2、数据的收集的一般过程:明确调查问题、确定调查对象、选择调查方法、展开调查、记录结果、得出结论.3、收集数据常用方法:一般有全面调查和抽样调查两种,实际中常常采用抽样调查的方式,调查时,可以用不同的方式获得数据,除了问卷调查、访问调查等外,查阅文献资料和实验也是获得数据的有效方法.4、总体与个体:为了一定的目的而对考察对象进行全面调查,叫普查,其中要考察对象的全体叫总体,组成总体的每一个考察对象叫个体.5、抽样调查、样本与样本容量:从总体中抽取部分个体进行调查称为抽样调查,其中从总体中抽样取的一部分个体叫做总体的一个样本,样本中个体的数量叫样本容量.抽样调查是一种非全面的调查,它是按照随机原则从总体中抽取一部分作为样本进行调查,并依据样本的数据对总体的数量特征作出具有一定可靠性的估计和推断的一种统计方法.抽样调查具有以下几个特点:中考要求18统计(1)按随机的原则从总体中抽取调查单位.抽样调查在选择调查单位时要完全排除人的主观意识.哪个单位被选中,哪个单位不被选中,完全是偶然的.随机抽样要关注抽样的随机性、代表性和广泛性.当样本的容量较大时,通常采用抽样调查.由于抽样调查的目的在于推断总体,因而在抽样的时候就应保证每个单位有同等的机会被选中,这样就有较大的可能性使所选中的样本和总体有相似或相同的分布.(2)根据所选中的部分单位的统计资料对全部总体的数量特征作出推断估计.通过抽样调查可以取得部分的单位资料,并据以计算抽样指标,对总体指标作出估计.例如,根据全国一部分职工家庭收人和支出情况来推断全国所有职工家庭的收入、支出水平;根据一部分农作物收获面积的实际产量来推断全县、全省、全国的农产量;根据抽中的一部分商品的质量来推断所有商品的质量等等.6、表示数据的两种基本方法:一种是利用统计表,一种是利用统计图.利用表格处理数据,可以帮助我们找到数据的分布规律,利用统计图表示经过整理的数据,能更直观地反映数据规律.7、频数与频率:频数:每个对象出现的次数为频数.频率:每个对象出现的次数与总次数的比值为频率.8、三种常见的统计图:扇形统计图:能清楚地表示出各部分在总体中所占的百分比.扇形统计图中各部分所占百分比之和一定等于100%,每个扇形所表示的部分之间无重叠部分.条形统计图:能清楚地表示出每个项目的具体数目;折线统计图:能反映事物的变化情况;例题精讲板块一、数据的收集、整理与表示【例1】⑴下列调查方式合适的是( )A.为了了解炮弹的杀伤力,采用全面调查的方式B.为了了解全国中学生的睡眠状况,采用全面调查的方式C.为了了解人们保护水资源的意识,采用抽样调查的方式D.对载人航天器“神舟”五号零部件的检查,采用抽样调查的方式⑵问题“①某厂家生产一批手表的抗震最大限度;②某冷饮批发门市部所经营冷饮的合格率;③某天班级内数学作业完成情况;④某月学生对学校电视台播放的各类节目满意程度”中,适宜作抽样调查的有( ).A. 1 个B. 2个C. 3 个D. 4 个【考点】收集数据的方法【难度】1星【题型】选择【关键词】【解析】⑴选择C,A中调查具有破坏性;B 中可用普查方式,但太费人力、物力不合适;D 中必须采用普查,确保安全.⑵问题①的调查带有破坏性,问题②显然无法作普查,问题④也因调查对象及内容较多,均适宜用抽样调查;而问题③应该用普查的方式,故选C【答案】⑴C;⑵C【巩固】某烟花爆竹厂从20万件同类产品中随机抽取了100件进行质检,发现其中有5件不合格,那么你估计该厂这20万件产品中合格品约为()A.1万件B.19万件C.15万件D.20万件【考点】收集数据的方法【难度】1星【题型】选择【关键词】2009年,深圳市中考【解析】省略【答案】B【巩固】结合实际情况,下面几个抽样调查中选取样本的方法合适的是( ).A.为了解流水线上所生产罐头食品的质量,每天打开第一箱,从中任意抽取5 只罐头检查B. 结合统计学习,为了解学校附近5 个十字路口车辆通行情况,三(1)班学生每天中午随机抽取3 个路口,由学生轮流观察记录,坚持了一个星期C. 某机构为了解本市近年新生儿的性别比例,到市妇幼保健院调查近一个月的婴儿出生情况D. 为了解某县城镇居民的膳食结构,随机抽取5 个镇各10 户居民进行跟踪调查【考点】收集数据的方法【难度】2星【题型】选择【关键词】【解析】前三个问题中选取的样本对调查的整体对象都没有代表性:A 中每天都确定取第一箱中产品检验,B 中只调查了中午的交通情况,C 中只调查了在市妇保院出生的新生儿情况,且时间上也与调查目的不符.而D 中采用随机抽样的方法是合适的,故选D.【答案】D【巩固】为了测量调查对象每分钟的心跳次数,甲同学建议测量10 分钟的心跳次数再除以10,乙同学则建议测量6 秒钟的心跳次数再乘以10.将按甲刚学的方法测得的每分钟心跳次数称为甲样本,按乙同学的方法测得的每分钟心跳次数称为乙样本.你认为哪个样本具有代表性?为什么?向熟悉的医护人员做一个调查,他们是怎样测量病人每分钟心跳次数的?【考点】收集数据的方法【难度】2星【题型】解答【关键词】【解析】甲样本比乙样本更具有代表性.乙样本的容量较小,一是得到的结果误差较大,如6秒中误差1 次,结果就会相差10 次;而且有不少人由于生理和病理的原因,心率并非是匀速的,较短时间内的心率没有代表性.事实上医护人员测量心率也因测量对象不同而异,一般情况下测量半分钟至1 分钟时间,也有长达数小时甚至整天的.【答案】见解析【巩固】想了解北京市初二学生视力的大致情况,想抽出2000 名学生进行测试,应该( ) A.从不戴眼镜的同学中抽B.从戴眼镜的同学中抽C.中午的时候,测试一些在从事体育运动的初二的同学D.到40 所中学,当学校放学后,对出校门的初二的同学随机测试【考点】收集数据的方法【难度】2星【题型】选择【关键词】【解析】根据题意可知:应该采用抽样调查的方式【答案】D【例2】要知道一锅汤的味道,只要取一小勺尝一下就可以;要知道一个班级学生的体重,能不能只让一个同学测一下就可以了?为什么?【考点】收集数据的方法【难度】2星【题型】解答【关键词】【解析】用样本估计总体要注意样本的代表性及总体中的个体差异,由物理知识我们知道,一锅汤的味道是均匀的,一小勺汤的味道足以代表整锅汤的味道;而人体体重的个体差异较大,不能用一个人的体重估计班级学生的体重.【答案】见解析【巩固】专家提醒,目前我国少年儿童的健康存在着五个必须重视的问题:营养不良和肥胖、近视、龋齿、贫血以及儿童卫生,这个结果是通过得到的.(选填“普查”或“抽样调查”)【考点】收集数据的方法【难度】2星【题型】解答【关键词】【解析】抽样调查,当样本的容量较大时,通常采用抽样调查【答案】抽样调查【例3】判断下列选取样本的方法是否随机抽样,为什么?⑴为了了解学生在周末的作业负担情况,学生会学习干事想了一下,通知班学号末位数为1的同学参加座谈会;⑵为了了解学生每天早晨参加晨练的情况,学生会体育干事先用计算机在一到9之间产生一个随机数,召集各班学号末位数为这个数的同学座谈;⑶某电视栏目为了了解观众反映,将观众来电号码全部编号后由计算机同机抽取作为调查对象;⑷某电视栏目为了鼓励观众参与互动,让参与观众的来电号码在屏幕上才断滚动,将主持人喊停时的号码主人作为中奖并接受调查的对象.【考点】收集数据的方法【难度】2星【题型】解答【关键词】【解析】(1)不是随机抽样,因为抽样的对象由学习干事主观确定,不是每个同学都有均等的机会被抽到.(2)是随机抽样,因为调查对象都有等可能的机会被抽到.(3)不是随机抽样,因为调查目的是了解观众反映,即调查对象是观众,而抽取对象只限于来电的观众,未打电话的观众没有机会.(4)不是随机抽样,因为主持人喊停的时间带有一定的主观意愿,不是每个号码都有均等的机会.【答案】见解析【例4】为了解某班学生的英语学习情况,抽取了5 名学生进行调查.这一抽样调查中的总体是,样本是,样本容量是.【考点】个体、总体、样本、样本容量【难度】2星【题型】填空【关键词】【解析】总体、个体、样本都是调查的具体对象,如本题不能笼统地将总体和样本说成是学生.这一抽样调查中的总体是某班学生的英语学习情况,样本是被抽取的5 名学生的英语学习情况,样本容量是5.【答案】总体是某班学生的英语学习情况,样本是被抽取的5 名学生的英语学习情况,样本容量是5.【巩固】想调查北京市海淀区初一男同学的身高状况,从中抽取200名同学,测量他们的身高,这次抽样调查中,总体是,样本是.【考点】个体、总体、样本、样本容量【难度】2星【题型】填空【关键词】【解析】总体是北京市海淀区初一男同学的身高,样本是被抽取200名同学的身高.【答案】总体是北京市海淀区初一男同学的身高,样本是被抽取200名同学的身高.【例5】王老汉为了与客户签订购销合同,对自己的鱼塘中鱼的总重量进行估计,第一次捞出100 条,称得重量为184 kg,并将每条鱼作上记号放入水中;3 小时后,当它们完全混合于鱼群后,又捞出200 条,称得重量为416 kg,且带有记号的鱼有20 条,王老汉的鱼塘中估计有鱼条,共重kg.【考点】收集数据的方法【难度】3星【题型】填空【关键词】【解析】王老汉的鱼塘中估计有鱼1000 条,共重2000kg.根据“又捞出200 条,且带有记号的鱼有20 条”,可知此鱼塘中带有记号的鱼占总条数的110,所以鱼的总数为1100100010÷=(条);每条鱼的平均重量为:(184416)(100200)2()kg+÷+=,所以鱼共重约210002000()kg⨯=【答案】共有1000条,共重2000kg【例6】某工厂要运走400 个机器零件毛坯,从中取出20 件,称得它们的重量如下(单位:千克) 201 208 200 205 202 208 206 204 205 207206 207 201 205 202 202 201 203 202 205请你估算出这400 个机器零件毛坯的总重量.【考点】个体、总体、样本、样本容量【难度】3星【题型】解答【关键词】【解析】可选用“基数法”求20个零件的平均值为204千克,这400个机器零件毛坯的总重量大约是:40020481600⨯=千克【答案】81600千克【巩固】要了解一批电视机的使用寿命,从中任意抽取40台电视机进行试验,在这个问题中,40是()A.个体B.总体C.样本容量D.总体的一个样本【考点】个体、总体、样本、样本容量【难度】2星【题型】选择【关键词】2009年,湘西自治州中考【解析】【答案】C【例7】一个农民种了5 亩西瓜,他每亩地种了1200 颗西瓜苗,每个西瓜苗能结一个西瓜,从种到收预计投资7000 元,等到西瓜成熟的时候,他随机选了20 个西瓜,称量了它们的重量,分别为(单位:斤):13、12、15、16、14、12、13、17、16、12、14、11、11、18、16、13、15、15、12、15,按照以往的经验,西瓜的平均价格是每斤0.25 元,请你预算一下这个农民这5 亩地能收入多少元?【考点】个体、总体、样本、样本容量【难度】3星【题型】解答【关键词】【解析】这5亩瓜地的总产量预计是:280201200584000÷⨯⨯=斤,预计这个农民的盈利是:840000.25700014000⨯-=元.【答案】14000千克【例8】某校初一(1)、(2)班80名同学利用课余时间开展学雷锋活动,并组成了不同的学雷锋小组,如右图条形统计图所示,根据图示反映数据制作扇形统计图组别卫生图书服务打气【考点】用统计图表描述数据 【难度】3星 【题型】解答 【关键词】【解析】本题结合条形统计图和扇形统计图的认识.制作扇形统计图:第一步:计算出各个小组在总人数 中的百分比;第二步:根据百分比计算对应的扇形圆心角度数,而后用量角器帮助画图,如下右图.打扫卫生【答案】见解析【巩固】 问【考点】用统计图表描述数据 【难度】3星 【题型】解答 【关键词】【解析】不能!各部分的百分比之和不是1,也就是说爱好的人数总和不等于全班总人数,在制作扇形统计图时一定要注意调查的各个类别彼此独立,不重叠,且保证被调查对象都要被分进类别中去,使各部分的百分比之和为1.【答案】不能,各部分的百分比之和不是1【巩固】 小明统计了七年级两个班参加数学竞赛的获奖情况,其中七(1)班有50人参赛,10人获奖,七(2)班有56人参赛,11人获奖,小明于是得出一个结论:在这次数学竞赛中,七(2)班比七(1)班的成绩好.对吗?【考点】用统计图表描述数据 【难度】3星 【题型】解答 【关键词】【解析】小明的结论是很片面的,因为他忽略了两班的参赛总人数.如果七(1)班有50人参赛,七(2)班有56人参赛,则七(1)班的获奖人数占全班人数的:10100%20%50⨯=,而七(2)班的获奖人数占全班人数的:11100%19.64%56⨯=,可见七(1)班的成绩比七(2)班好. 【答案】小明的结论是片面的【巩固】 如图甲、乙两户居民家庭全年支出费用的扇形统计图,根据统计图,下面对全年食品支出费用判断正确的是 ( )食品24%其他21%食品34%食品31%衣着19%教育23%衣着23%衣着25%甲 乙A .甲户比乙户多B .乙户比甲户多C .甲、乙两户一样多D .无法确定【考点】用统计图表描述数据 【难度】3星 【题型】选择 【关键词】【解析】无法确定,他们的单位“1”可能不相同. 【答案】D【巩固】 在学校开展的小制作评比活动中,二年级六个班都加了比赛,根据他们上交作品的件数,绘制直方图如下图已知从左到右个长方形高的比为2:3:4:2:3:1,小制作件数最多的三班上交了16件.经评选各班获奖件数如表:在这次评选中,获奖率较高的两个班级依次是( ).A .五班、三班B .三班、四班C .五班、六班D .六班、五班【考点】用统计图表描述数据 【难度】3星 【题型】选择 【关键词】【解析】由条件可知,六个班级参赛件数分别为8、12、16、8、12、4.得奖率较高的六班和五班分别为50%和33.3%,故选D.【答案】D【巩固】 某校九年级学生总人数为500,其男女生所占的比例如图所示,则该校九年级男生人数为( )A .48B .52C .240D .260男生52%女生48%【考点】用统计图表描述数据【难度】2星 【题型】选择【关键词】2006年,河北中考 【解析】50052%260⨯= 【答案】D【例9】 如右图,为某养鸡场1999年至2003年的税收情况折线统计图,试根据图中提供的信息,求税收增长率最高的年份及增长率.【考点】用统计图表描述数据 【难度】3星 【题型】解答 【关键词】【解析】根据图中所示信息我们知道:1999年、2000年、2001年、2002年、2003年的税收分别为:40、50、80、90、130万元,那么有:2000年的增长率为:(5040)4025%-÷= 2001年的增长率为:(8050)5060%-÷= 2002年的增长率为:(9080)8012.5%-÷= 2003年的增长率为:(13090)9044.4%-÷≈所以税收增长率最高的年份是2001年,增长率为60%.【答案】税收增长率最高的年份是2001年,增长率为60%.【例10】 某班13位同学参加每周一次的卫生大扫除,按学校的卫生要求需要完成总面积为280m 的三个项目任务,三个项目的面积比例和每人每分钟完成各项目的工作量如下图所示:项目拖地桌椅扫地拖地55%课桌椅25%玻璃20%⑴从上述统计图可知:每人每分钟能擦课桌椅 2m ;擦玻璃,擦课桌椅,扫地拖地的面积分别是 2m ; 2m 2m ;⑵如果x 人每分钟擦玻璃的面积是2ym ,那么y 关于x 的关系式是 ;⑶他们一起完成的扫地和拖地的任务后,把这13人分成两组,一组去擦玻璃,一组去擦课桌椅,如果你是卫生委员,该如何分配这两组的人数,才能最快的完成任务【考点】用统计图表描述数据 【难度】4星 【题型】解答【关键词】金华市中考【解析】⑴11620442,,,;⑵14y x =⑶设分配x 人去擦玻璃,那么13x -人去擦桌椅,由题意得:()1620111342x x =-,解得:8135x x =-=, 【答案】⑴11620442,,,;⑵14y x =⑶设分配x 人去擦玻璃,那么13x -人去擦桌椅,由题意得:()1620111342x x =-,解得:8135x x =-=,【例11】 翔红中学有1200名学生.为了解学生的消费水平.随机抽样调查了100名学生平均每个月的个人消费(单位:元,消费金额均为整数)情况.下面是根据这次调查数据统计分析制成的频数分布表和频数/元6组5组 4组 3组 2组 1组(1)填空:本次抽样的样本容量是 , (2)请补全频数分布表和频数分布直方图;(3)若学校准备对平均每月个人消费在300元以上(不含300元)的学生提出消费建议,试估计要对多少名学生提出这项建议?【考点】用统计图表描述数据 【难度】3星 【题型】解答 【关键词】 【解析】⑴100⑵图略⑶第5组和第6【答案】见解析【例12】 根据北京市统计局的2006-2009年空气质量的相关数据,绘制统计图如下:⑴由统计图中的信息可知,北京全年市区空气质量达到二级和好于二级的天数与上一年相比,增加最多的是 年,增加了 天;⑵表上是根据《中国环境发展报告(2010)》公布的数据会置的2009十个城市供气质量达到二级和好于二级的天数占全年天数百分比的统计表,请将表1中的空缺部分补充完整(精确到1%)且低于95%的为B 组,低于85%的为C 组。