总体密度曲线与茎叶图
- 格式:ppt
- 大小:1.29 MB
- 文档页数:23
第二章:统计 1、抽样方法:①简单随机抽样(总体个数较少) ②系统抽样(总体个数较多) ③分层抽样(总体中差异明显)注意:在N 个个体的总体中抽取出n 个个体组成样本, 每个个体被抽到的机会(概率)均为Nn。
2、总体分布的估计: ⑴一表二图:①频率分布表——数据详实 ②频率分布直方图——分布直观③频率分布折线图——便于观察总体分布趋势 注:总体分布的密度曲线与横轴围成的面积为1。
⑵茎叶图:①茎叶图适用于数据较少的情况, 从中便于看出数据的分布, 以及中位数、众位数等。
②个位数为叶, 十位数为茎, 右侧数据按照从小到大书写, 相同的数据重复写。
3、总体特征数的估计:⑴平均数:nx x x x x n++++=Λ321; 取值为n x x x ,,,21Λ的频率分别为n p p p ,,,21Λ, 则其平均数为n n p x p x p x +++Λ2211; 注意:频率分布表计算平均数要取组中值。
⑵方差与标准差:一组样本数据n x x x ,,,21Λ方差:212)(1∑=-=ni ix xns ;标准差:21)(1∑=-=ni ix xns注:方差与标准差越小, 说明样本数据越稳定。
平均数反映数据总体水平;方差与标准差反映数据的稳定水平。
⑶线性回归方程①变量之间的两类关系:函数关系与相关关系; ②制作散点图, 判断线性相关关系 ③线性回归方程:a bx y +=∧(最小二乘法)1221ni i i ni i x y nx y b x nx a y bx==⎧-⎪⎪=⎪⎨-⎪⎪=-⎪⎩∑∑注意:线性回归直线经过定点),(y x 。
第三章:概率1、随机事件及其概率:⑴事件:试验的每一种可能的结果, 用大写英文字母表示;⑵必然事件、不可能事件、随机事件的特点; ⑶随机事件A 的概率:1)(0,)(≤≤=A P nmA P . 2、古典概型:⑴基本事件:一次试验中可能出现的每一个基本结果;⑵古典概型的特点: ①所有的基本事件只有有限个; ②每个基本事件都是等可能发生。
用样本估计总体【学习目标】1.在表示样本数据的过程中,学会列频率分布表,画频率分布直方图、频率折线图和茎叶图.2.通过实例体会频率分布直方图、频率折线图、茎叶图的各自特征,从而恰当地选择上述方法分析样本的分布,准确地做出总体估计.3.正确理解样本数据标准差的意义和作用,学会计算数据的标准差.4.能根据实际问题的需要合理地选取样本,从样本数据中提取基本的数字特征(如平均数、标准差),并做出合理的解释.5.会用样本的基本数字特征估计总体的基本数字特征.【要点梳理】要点一、频率分布的概念频率分布是指一个样本数据在各个小X围内所占比例的大小.一般用频率分布直方图反映样本的频率分布.其一般步骤为:1.计算一组数据中最大值与最小值的差,即求极差2.决定组距与组数3.将数据分组4.列频率分布表5.画频率分布直方图要点诠释:频率分布直方图的特征:1.从频率分布直方图可以清楚的看出数据分布的总体趋势.2.从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.要点二、频率分布折线图、总体密度曲线1.频率分布折线图的定义:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.2.总体密度曲线的定义:在样本频率分布直方图中,样本容量越大,所分组数越多,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线.要点诠释:总体密度曲线能够精确地反映了总体在各个X围内取值的百分比,它能给我们提供更加精细的信息,能够精确的反映一个总体在各个区域内取值的规律.要点三、茎叶图当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图.要点诠释:茎叶图的特征:(1)用茎叶图表示数据有两个优点:一是在统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示.(2)茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰.要点四、众数、中位数与平均数1.众数一组数据中出现次数最多的数据叫做众数.如果变量是分类的,用众数是很有必要的.例如班委会要作出一项决定,考察全班同学对它赞成与否就可以用众数.2.中位数将一组数据从小到大依次排列,把中间数据(或中间两数据的平均数)叫做中位数.中位数把样本数据分成了相同数目的两部分.3.平均数样本数据的算术平均数,即121()n x x x x n=+++.要点诠释:由于众数仅能刻画某一数据出现的次数较多,中位数对极端值不敏感,而平均数又受极端值左右,因此这些因素制约了仅依赖这些数字特征来估计总体数字特征的准确性.要点五、标准差与方差 1.标准差样本数据1,2,,n x x x 的标准差的算法:(1)算出样本数据的平均数x .(2)算出每个样本数据与样本数据平均数的差:()12i x x i n -=, ,, (3)算出(2)中()12i x x i n -=, ,,的平方. (4)算出(3)中n 个平方数的平均数,即为样本方差. (5)算出(4)中平均数的算术平方根,,即为样本标准差. 其计算公式为:(n s x =+-2.方差从数学的角度考虑,人们有时用标准差的平方2s (即方差)来代替标准差,作为测量样本数据分散程度的工具:2222121[()()()]n s x x x x x x n=-+-++-要点诠释:在刻画样本数据的分散程度上,方差和标准差是一样的,但在解决实际问题时,一般多采用标准差. 数据的离散值程度可以用极差、方差或标准差来描述.极差反映了一组数据变化的幅度;样本方差描述了一组数据围绕平均数波动的大小;样本方差的算术根表示样本的标准差,它也描述了数据对平均数的离散程度.【典型例题】类型一:频率分布表、频率分布直方图例1.在学校开展的综合实践活动中,某班进行了小制作评比,作品上交时间为5月1日至30日,评委会把同学们上交作品的件数按5天一组分组统计,绘制了频率分布直方图(如下图所示).已知从左到右各长方形的高的比为2∶3∶4∶6∶4∶1,第三组的频数为12,请解答下列问题:(1)本次活动共有多少件作品参加评比?(2)哪组上交的作品数最多?有多少件?(3)经过评比,第四组和第六组分别有10件、2件作品获奖,问这两组哪组获奖率较高?【答案】(1)60 (2)四组18(3)六组【解析】(1)依题意知第三组的频率为41 2346415=+++++.∵第三组的频数为12,∴本次活动的参评作品数为126015=件).(2)根据频率分布直方图,可以看出第四组上交的作品数量最多,共有66018 234641⨯=+++++(件).(3)第四组的获奖率是105 189=,第六组上交的作品数量为1603234641⨯=+++++(件),∴第六组的获奖率为26 39 =.显然第六组的获奖率较高.【总结升华】弄清所求问题是什么,并正确地运算是做对题的关键.本题主要考查同学们对频率分布直方图的理解,只有熟悉它的特征,才能清楚数据分布的总体趋势,根据直方图反映的信息正确解题.举一反三:【变式1】某中学为了解学生数学课程的学习情况,在3000名学生中随机抽取200名,并统计这200名学生的某次数学考试成绩,得到了样本的频率分布直方图(如下图所示).根据频率分布直方图推测,这3000名学生在该次数学考试中成绩小于60分的学生数是________.例2.阅高考试卷有一个环节叫“试批”.某省为了了解和掌握考生的实际答卷情况,随机地抽取了100名考生的数学成绩,数据如下(单位:分):135 98 102 110 99 121 110 96 100 103125 97 117 113 110 92 102 109 104 112105 124 87 131 97 102 123 104 104 128109 123 111 103 105 92 114 108 104 102129 126 97 100 115 111 106 117 104 109111 89 110 121 80 120 121 104 108 118129 99 90 99 121 123 107 111 91 10099 101 116 97 102 108 101 95 107 101102 108 117 99 118 106 119 97 126 108123 119 98 121 101 113 102 103 104 108(1)列出频率分布表;(2)画出频率分布直方图和折线图;(3)估计该省考生数学成绩在100~120分之间的比例;(4)设该省有20万考生,估计该省考生数学成绩不与格的人数(满分150分,90分与以上视为与格);(5)根据折线图估计该省考生的数学成绩在哪一个分数段的人数将会最多.【思路点拨】理解频率分布直方图的具体含义.【解析】100个数据中,最大值为135,最小值为80,极差为135-80=55.把100个数据分成11组,这时组距55511===极差组数.(1)频率分布表如下:分组频数频率频率组距[80,85) 1 0.01 0.002[85,90) 2 0.02 0.004[90,95) 4 0.04 0.008[95,100)14 0.14 0.028[100,105)24 0.24 0.048[105,110)15 0.15 0.030[110,115)12 0.12 0.024[115,120)9 0.09 0.018[120,125)11 0.11 0.022[125,130) 6 0.06 0.012[130,135] 2 0.02 0.004 合计100 1 0.2注:表中加上“频率组距”一列,这是为画频率直方图准备的,因为它是频率直方图的纵坐标.(2)根据频率分布表中的有关信息画出频率分布直方图与折线图,见下图.(3)从频率分布表中可知,这100名考生的数学成绩在100~120分之间的频率为0.24+0.15+0.12+0.09=0.60,据此估计该省考生数学成绩在100~120分之间的比例为60%(0.60=60%).(4)100名考生中,数学成绩不与格的频率为0.01+0.02=0.03.比例为3%.200000×3%=6 000(人).估计该省考生数学成绩不与格的有6000人.(5)折线图的最高点位于100~105之间,据此估计该省考生的数学成绩在100~105分这个分数段的人数将会最多.【总结升华】本例中,决定分点时,直接使用了最小值加组距,即80+5k(k=1,2,…,11),而没有把最小值减去某一个数(例如80-0.5=79.5)作为第1个分点,这是因为100个分数是明确的,即它们都在80~135之间.凡事都要具体问题具体分析,不可教条化.本例是把5分看成一个分数段,统计各段的情况.举一反三:【变式1】一个容量为20的样本,分组后,组距与频数如下[10,20],2;(20,30],3;(30,40],4;(40,50],5;(50,60],4;(60,70],2,则样本在(-∞,50]上的频率为()A.120B.14C.12D.710【答案】 D【解析】根据频率的计算公式频率=频数样本容量求解.频率2345147 2345422010+++===+++++.【变式2】对某电子元件进行寿命追踪调查,情况如下:寿命/h 100~200 200~300 300~400 400~500 500~600个数20 30 80 40 30 (1)列出频率分布表;(2)画出频率分布直方图;(3)估计该电子元件寿命在100~400 h以内的占总体的比例;(4)估计该电子元件寿命在400 h以上的在总体中占的比例.【解析】(1)样本频率分布表如下:寿命/h 频数频率100~200 20 0.10200~300 30 0.15300~400 80 0.40400~500 40 0.20500~600 30 0.15合计200 1(2)频率分布直方图如下图所示;(3)估计该电子元件寿命在100~400 h以内占总体的比例为65%;(4)估计该电子元件寿命在400 h以上的在总体中占的比例为35%.类型二:众数、中位数、平均数(2)假设副董事长的工资从5000元提升到20000元,董事长的工资从5500元提升到30000元,那么新的平均数、中位数、众数又是什么?(精确到元)(3)你认为哪个统计量更能反映这个公司人员的工资水平?结合此问题谈一谈你的看法.【思路点拨】理解平均数、中位数、众数的概念. 【答案】(1)2091 1500 1500 (2)3288 (3)中位数和众数 【解析】 (1)平均数是40003500200021500100055003020150033x ++⨯++⨯+⨯+⨯=+150********≈+=(元), 中位数是1500元,众数是1500元. (2)平均数是2850018500200021500100055003020'150015001788328833x ++⨯++⨯+⨯+⨯=+≈+=(元),中位数是1500元,众数是1500元.(3)在这个问题中,中位数和众数均能反映该公司人员的工资水平.因为公司中少数人的工资额与大多数人的工资额差别较大,这样导致平均数与中位数偏差较大,所以平均数不能反映这个公司人员的工资水平.【总结升华】(1)深刻理解和把握平均数、中位数、众数在反映样本数据上的特点,结合实际情况,灵活运用.(2)众数、中位数、平均数三者比较,平均数更能体现每个数据的特征,它是各数据的重心. 举一反三:【变式1】为了了解高一学生的体能情况,某校抽取部分学生进行一分钟跳绳次数测试,将所得数据整理后,画出频率分布直方图(如图),图中从左到右各小长方形面积之比为2:4:17:15:9:3,第二小组频数为12. (1)第二小组的频率是多少?样本容量是多少? (2)若次数在110以上(含110次)为达标,试估计该学校全体高一学生的达标率是多少? 在这次测试中,学生跳绳次数的中位数落在哪个小组内?请说明理由.在频率分布直方图中,各小长方形的面积等于相应各组的频率,小长方形的高与频数成正比,各组频数之和等于样本容量,频率之和等于1. 【答案】 (1)由于频率分布直方图以面积的形式反映了数据落在各小组内的频率大小,因此第二小组的频率为:40.0824171593=+++++又因为频率=第二小组频数样本容量所以 121500.08===第二小组频数样本容量第二小组频率(2)由图可估计该学校高一学生的达标率约为171593100%88%24171593+++⨯=+++++(3)由已知可得各小组的频数依次为6,12,51,45,27,9,所以前三组的频数之和为69,前四组的频数之和为114,所以跳绳次数的中位数落在第四小组内.类型三:方差、标准差已经算得两个组的平均分都是80分.请根据你所学过的统计知识,进一步判断这两个组在这次竞赛中的成绩谁优谁劣,并说明理由.【解析】 (1)甲组成绩的众数为90分,乙组成绩的众数为70分,从成绩的众数比较看,甲组成绩好些.(2)21251013146s =+++++甲[2(50-80)2+5(60-80)2+10(70-80)2+13(80-80)2+14(90-80)2+6(100-80)2]=150(2×900+5×400+10×100+13×0+14×100+6×400)=172, 2150s =乙(4×900+4×400+16-100+2×0+12×100+12×400)=256. ∴22s s <乙甲,∴甲组成绩较乙组成绩稳定,故甲组成绩好些.(3)甲、乙两组成绩的中位数、平均数都是80分,其中,甲组成绩在80分以上的有33人,乙组成绩在80分以上的有26人,从这一角度看,甲组的成绩总体较好.(4)从成绩统计表看,甲组成绩大于或等于90分的人数为14+6=20(人),乙组成绩大于或等于90分的人数为12+12=24(人),∴乙组成绩集中在高分段的人数较多,同时,乙组得满分的人数比甲组得满分的人数多6人,从这一角度看,乙组的成绩较好【总结升华】 要正确解答这道题,首先要抓住问题中的关键词语.全方位地进行必要的计算,而不能习惯地仅从样本方差的大小去决定哪一组的成绩好,像这样的实际问题还得从实际的角度去分析,如本例的“满分人数”;其次要在恰当地评估后,组织好正确的语言作出结论.举一反三: 【变式1】甲、乙两台机床在相同的技术条件下,同时生产一种零件,现在从中抽测10个,它们的尺寸分别如下(单位:mm) 甲机床:10.2 10.1 10.0 9.8 9.9 10.3 9.7 10.0 9.9 10.1乙机床:10.3 10.4 9.6 9.9 10.1 10.9 8.9 9.7 10.2 10.0分别计算上面两个样本的平均数和方差.如图纸规定零件的尺寸为10 mm ,从计算的结果来看哪台机床加工这种零件较合适? 【解析】101001011.101.102.10101=⨯=++=)(甲 x ,1010101104.103.10101=⨯=+++=)(乙 x .∴[]2222101.10101.10102.10101)()()(甲-+-+-= s =0.032mm []22221010104.10103.10101)()()(乙-+-+-= s =0.062mm . ∴2甲s <2乙s∴用甲机床比乙机床稳定,即用甲机床加工较合适. 类型四:茎叶图例5.某中学高二(2)班甲、乙两名学生自进入高中以来,每次数学考试成绩情况如下: 甲:95,81,75,91,86,89,71,65,76,88,94,110,107; 乙:83,86,93,99,88,103,98,114,98,79,78,106,101. 画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较.【思路点拨】茎叶图便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据. 【答案】乙同学的成绩比较稳定【解析】 甲、乙两人数学成绩的茎叶图如图所示.从这个茎叶图上可以看出,乙同学的得分情况是大致对称的,中位数是98;甲同学的得分情况,也大致对称,中位数是88.乙同学的成绩比较稳定,总体情况比甲同学好. 举一反三:【变式1】在某高中篮球联赛中,甲、乙两名运动员的得分如下:甲:14,17,25,26,30,31,35,37,38,39,44,48,51,53,54; 乙:6,15,17,18,21,27,28,33,35,38,40,44,56. (1)用茎叶图表示上面的样本数据,并求出样本数据的中位数;(2)根据(1)中所求的数据分析甲、乙两名运动员中哪一位发挥得更加稳定. 【解析】(1)茎叶图如图所示.甲运动员的中位数是37,乙运动员的中位数是28.(2)从茎叶图上可以看出甲运动员的得分大致对称,中位数是37,乙运动员的得分也大致对称,中位数是28,因此,甲运动员发挥得比较稳定,总体得分比乙运动员高.【变式2】随机抽取某中学甲乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图. (1)根据茎叶图判断哪个班的平均身高较高; (2)计算甲班的样本方差.【答案】(1)乙班(2)57 【解析】(1)由茎叶图可知:甲班身高集中于160179之间, 而乙班身高集中于170180之间. 因此乙班平均身高高于甲班; (2) 15816216316816817017117917918217010+++++++++==x甲班的样本方差为:()()()()()()()()()()222222222211581701621701631701681701681701017017017117017917017917018217057[-+-+-+-+-+-+-+-+-+-]=。
高中数学概率统计知识点总结一、抽样方法1.简单随机抽样 2.简单随机抽样常用的方法:(1)抽签法;⑵随机数表法.3.系统抽样:K (抽样距离)=N (总体规模)/n (样本规模)4.分层抽样:二、样本估计总体的方式1、用样本的频率分布估计总体分布(1)频率分布直方图的画法;(2)频率的算法;(3)频率分布折线图;(4)总体密度曲线;(5)茎叶图。
化不大的位作为一个主干(茎),将变化大的位的数作为分枝(叶),列在主干的后面,这样就可以清楚地看到每个主干后面的几个数,每个数具体是多少。
2、用样本的数字特征估计总体的数字特征(1)众数、中位数、平均数的算法;(2)标准差、方差公式.3、样本均值:nx x x x n +++= 21 4、.样本标准差:n x x x x x x s s n 222212)()()(-++-+-==三、两个变量的线性相关1、正相关2、负相关正相关:自变量增加,因变量也同时增加(即单调递增) 负相关:自变量增长,因变量减少(即单调递减)四、概率的基本概念(1)必然事件(2)不可能事件(3)确定事件(4)随机事件(5)频数与频率(6)频率与概率的区别与联系必然事件和不可能事件统称为确定事件1他们都是统计系统各元件发生的可能性大小;2、频率一般是大概统计数据经验值,概率是系统固有的准确值; 3频率是近似值,概率是准确值4、频率值一般容易得到,所以一般用来代替概率进行定量分析,首先要知道系统各元件发生故障的频率或概率.事件的频率与概率是度量事件出现可能性大小的两个统计特征数.频率是个试验值,或使用时的统计值,具有随机性,可能取多个数值。
因此,只能近似地反映事件出现可能性的大小概率是个理论值,是由事件的本质所决定的,只能取唯一值,它能精确地反映事件出现可能性的大小虽然概率能精确反映事件出现可能性的大小,但它通过大量试验才能得到,这在实际工作中往往是难以做到的.所以,从应用角度来看,频率比概率更有用,它可以从所积累的比较多的统计资料中得到需要指出的是用频率代替概率,并不否认概率能更精确、更全面地反映事件出现可能性的大小,只是由于在目前的条件下,取得概率比取得频率更为困难。
茎叶图一.茎叶图1.茎叶图:茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小或从小到大的顺序同行列出; 2.茎叶图的特征1用茎叶图表示数据有两个优点:一是统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示; 2茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两组以上的数据虽然能够记录,但是没有表示两个记录那么直观、清晰;当样本数据较多时,因为每一个数据都要在图中占据一个空间,用茎叶图很不方便;3.制作茎叶图的方法是:将所有两位数的十位数字作为“茎”,个位数字作为“叶”,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶一般按从大到小或从小到大的顺序同行列出.茎叶图对于分布在0~99的容量较小的数据比较合适,此时,茎叶图比直方图更详尽地表示原始数据的信息. 在茎叶图中,茎也可以放两位,后面位数多可以四舍五入后再制图.4.画茎叶图时的注意事项1将每个数据分为茎高位和叶低位两部分,当数据是两位整数时,茎为十位上的数字,叶为个位上的数字;当数据是由整数部分和小数部分组成时,可以把整数部分作为茎,小数部分作为叶;2将茎上的数字按大小次序排成一列;3为了方便分析数据,通常将各数据的叶按大小次序写在其茎右左侧;4用茎叶图比较数据时,一般从数据分布的对称性、中位数,稳定性等方面来比较; 二.茎叶图中常用的几个量:众数.中位数.平均数样本的数字特征 1众数:出现次数最多的数叫做众数.2中位数:如果将一组数据按大小顺序依次排列,把处在最中间位置的一个数据或中间两个数据的平均是叫做这组数据的中位数. 例:2、3、4、5、6、7 中位数:4+5/2= 例:1、2、3、6、7的中位数是3;3平均数与加权平均数:如果有n 个数,,,,n x x x x ⋯⋯321那么12nx x x x n++⋅⋅⋅+=叫做这n 个数的平均数. 如果在n 个数中,1x 出现次1f 次, 2x 出现次2f 次,……,k x 出现次2f 次,这里),n f f f k =+⋯⋯++21那么11221()k k xx f x f x f n=++⋅⋅⋅+叫做这n 个数的加权平均数,其中k f f f ⋯⋯,,21叫做权.4标准差与方差:设一组数据123nx x x x ⋯,,,,的平均数为x ,则nx x x x x x s s n 222212)()()(-++-+-== ,其中2s 表示方差,s 表示标准差. 例1 下面一组数据是某生产车间30名工人某日加工零件的个数,请设计适当的茎叶图表示这组数据,并由图出发说明一下这个车间此日的生产情况;134 112 117 126 128 124 122 116 113 107116 132 127 128 126 121 120 118 108 110 133 130 124 116 117 123 122 120 112 112分析:以前两位数为茎,个位数为叶,可以作出相应的茎叶图,从而可据图分析数据的特征; 解析:茎叶图如图2所示: 百位 十位 个位 10781102223666778120012234466788130234该生产车间的工人加工零件数大多都在110到130之间,且分布较对称、集中,说明日生产情况稳定;评注:一个完整的茎叶图由代表“茎”、“叶”的数值和“图示说明”三部分构成,茎叶图直观地反映了数据的集中趋势;例2 甲、乙两个小组各10名学生的英语口语测试成绩如下单位:分 甲组:76,90,84,86,81,87,86,82,85,83; 乙组:82,84,85,89,79,80,91,89,79,74;用茎叶图表示两小组的成绩,并判断哪个小组的成绩更整齐一些; 分析:按照作茎叶图的方法首先画出茎叶图,然后分析; 解析:作出茎叶图如图3所示:容易看出甲组成绩较集中,即甲组成绩更整齐一些;评注:用茎叶图分析数据直观、清晰,所有信息都可以从这个茎叶图中得到; 例3、青年歌手电视大赛共有10名选手参加,并请了7名评委;下面的茎叶图是7名评委给参加最后决赛的两位选手甲、乙评定的成绩,试根据下面所给条件回答下列问题: Ⅰ根据茎叶图,选手乙的成绩中,众数出现的概率是多少Ⅱ根据图,甲、乙的成绩分别是多少例3、解: Ⅰ73=p ; Ⅱ 在计算每位选手的平均分数时,为了避免个别评委所给的极端分数的影响,必须去掉一个最高分和一个最低分后再求平均分;Ⅲ 2.8458886858478=++++=甲x , 8558786848484=++++=乙x5、 某中学高三年级从甲、乙两个班级各选出7名学生参加数学竞 赛,他们取得的成绩满分100分的茎叶图如图,其中甲班学生的平均分是85,乙班学生成绩的中位数是 83,则x+y 的值为 B .A. 7B. 8C. 9D. 10甲乙78961 1 y 1 1 68 95 x 06 2。
统计一.简单随机抽样:抽签法和随机数法1.一般地,设一个总体含有N个个体有限,从中逐个不放回地抽取n个个体作为样本n≤N,如果每次抽取时总体内的各个个体被抽到的机会都相等n/N,就把这种抽样方法叫做简单随机抽样;2.一般地,抽签法就是把总体中的N个个体编号,把号码写在号签上,将号签放在一个容器中,搅拌均匀后,每次从中抽取一个号签,连续抽取n次,就得到一个容量为n的样本,这种抽样方法叫做抽签法;抽签法的一般步骤:a、将总体的个体编号; b、连续抽签获取样本号码;3. 利用随机数表、随机数骰子或计算机产生的随机数进行抽样,叫随机数表法;随机数表法的步骤:a、将总体的个体编号;b、在随机数表中选择开始数字;c、读数获取样本号码;4. 抽签法的优点是简单易行,缺点是当总体的容量非常大时,费时、费力,又不方便,如果标号的签搅拌得不均匀,会导致抽样不公平,随机数表法的优点与抽签法相同,缺点上当总体容量较大时,仍然不是很方便,但是比抽签法公平,因此这两种方法只适合总体容量较少的抽样类型;二.系统抽样:1.一般地,要从容量为N的总体中抽取容量为n的样本,可将总体分成均衡的若干部分,然后按照预先制定的规则,从每一部分抽取一个个体,得到所需要的样本,这种抽样的方法叫做系统抽样;系统抽样的一般步骤:1采用随机抽样的方法将总体中的N个个编号;2将整体按编号进行分段,确定分段间隔k=N/n;k∈N,L≤k.3在第一段用简单随机抽样确定起始个体的编号LL∈N,L≤k;4按照一定的规则抽取样本,通常是将起始编号L加上间隔k得到第2个个体编号L+K,再加上K得到第3个个体编号L+2K,这样继续下去,直到获取整个样本;在确定分段间隔k时应注意:分段间隔k为整数,当N/n不是整数时,应采用等可能剔除的方剔除部分个体,以获得整数间隔k;三.分层抽样:1.一般地,在抽样时,将总体分成互不交叉的层,然后按照一定的比例,从各层独立地抽取一定数量的个体,将各层取出的个体合在一起作为样本,这种抽样的方法叫分层抽样;分层抽样的步骤:1分层:按某种特征将总体分成若干部分; 2按比例确定每层抽取个体的个数;3各层分别按简单随机抽样的方法抽取; 4综合每层抽样,组成样本;2.分层抽样是当总体由差异明显的几部分组成时采用的抽样方法,进行分层抽样时应注意以下几点:1分层抽样中分多少层、如何分层要视具体情况而定,总的原则是,层内样本的差异要小,面层之间的样本差异要大,且互不重叠;2为了保证每个个体等可能入样,所有层应采用同一抽样比等可能抽样;3在每层抽样时,应采用简单随机抽样或系统抽样的方法进行抽样;四.用样本的频率分布估计总体分布:1.频率分布是指一个样本数据在各个小范围内所占比例的大小;一般用频率分布直方图反映样本的频率分布;其一般步骤为:1计算一组数据中最大值与最小值的差,即求极差 2决定组距与组数3将数据分组 4列频率分布表 5画频率分布直方图2.频率分布折线图、总体密度曲线频率分布折线图:连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图;总体密度曲线:在样本频率分布直方图中,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线;它能够精确地反映了总体在各个范围内取值的百分比,给我们提供更加精细的信息;3. 当数据是两位有效数字时,用中间的数字表示十位数,即第一个有效数字,两边的数字表示个位数,即第二个有效数字,它的中间部分像植物的茎,两边部分像植物茎上长出来的叶子,因此通常把这样的图叫做茎叶图;茎叶图的特征:1用茎叶图表示数据有两个优点:一是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示;2茎叶图只便于表示两位有效数字的数据,而且茎叶图只方便记录两组的数据,两个以上的数据虽然能够记录,但是没有表示两个记录那么直观,清晰;五. 用样本的数字特征估计总体的数字特征:1. 众数、中位数、平均数、方差、标准差的求法;六.变量之间的相关关系:1.相关关系:两个变量之间的关系可能是确定的关系如:函数关系,或非确定性关系;当自变量取值一定时,因变量也确定,则为确定关系;当自变量取值一定时,因变量带有随机性,这种变量之间的关系称为相关关系;相关关系是一种非确定性关系;2.散点图的概念:将各数据在平面直角坐标中的对应点画出来,得到表示两个变量的一组数据的图形,这样的图形叫做散点图;1.如果所有的样本点都落在某一函数曲线上,就用该函数来描述变量之间的关系,即变量之间具有函数关系.2.如果所有的样本点都落在某一函数曲线附近,变量之间就有相关关系;3. 如果所有的样本点都落在某一直线附近,变量之间就有线性相关关系;3.正相关与负相关概念:如果散点图中的点散布在从左下角到右上角的区域内,称为正相关;如果散点图中的点散布在从左上角到右下角的区域内,称为负相关;注:散点图的点如果几乎没有什么规则,则这两个变量之间不具有相关关系4. 从散点图上可以看出,这些点大致分布在通过散点图中心的一条直线;如果散点图中点的分布从整体上看大致在一条直线附近,我们就称这这两个变量之间具有线形相关关系,直线叫回归直线;5.教学最小二乘法:1求回归方程的关键是如何用数学的方法刻画"从整体上看,各点与此直线的距离最小".2最小二乘法公式:求回归直线,使得样本数据的点到它的距离的平方和最小的方法叫做最小二乘法;题型一 抽样方法例11某高校甲、乙、丙、丁四个专业分别有150、150、400、300名学生,为了解学生的就业倾向,用分层抽样的方法从该校这四个专业共抽取40名学生进行调查,应在丙专业抽取的学生人数为 .2利用简单随机抽样的方法,从n 个个体n >13中抽取13个个体,依次抽取,若第二次抽取后,余下的每个个体被抽取的概率为361,则在整个抽样过程中,每个个体被抽取的概率为变式1:某公司生产三种型号的轿车,产量分别为1200辆,6000辆和2000辆.为检验该公司的产品质量,现用分层抽样的方法抽取46辆进行检验,这三种型号的轿车依次应抽取 ____,____, ____辆.变式2:经问卷调查,某班学生对摄影分别执“喜欢”、“不喜欢”和“一般”三种态度,其中执“一般”态度的比“不喜欢”态度的多12人,按分层抽样方法从全班选出部分学生座谈摄影,如果选出的5位“喜欢”摄影的同学、1位“不喜欢”摄影的同学和3位执“一般”态度的同学,那么全班学生中“喜欢”摄影的比全班人数的一半还多 人.题型二 统计图表问题例2 从一条生产线上每隔30分钟取一件产品,共取了n 件,测得其产品尺寸后,画得其频率直方图如下.尺寸在15,45内的频数为46.1求n 的值;2求尺寸在20,25内产品的个数.变式3: ⑴有一个容量为100的样本,数据的分组及各组的频数如下:,,6;,,16;,,18;,,22;,,20;,,10;,,8.①列出样本的频率分布表;②画出频率分布直方图;③估计数据小于的概率题型三 平均数、标准差方差的计算问题例3一次歌手大奖赛上,七位评委为歌手打出的分数如下:9. 9去掉一个最高分和一个最低分后,所剩数据的平均值和方差分别为 A ., B ., C ., D .,变式4: x 是12100,,x x x 的平均数,a 是1240,,x x x 的平均数,b 是4142100,,x x x 的平均数,则x ,a ,b 之间的关系为 .变式5:某人5次上班途中所花时间单位:分钟分别为x 、y 、10、11、9.已知这组数据的平均数为10,方差为2,则y x 的值为A .1B .2C .3D .4题型四 线性回归分析例4下表提供了某厂节能降耗技术改造后生产甲产品过程中记录的产量x吨与相应的生产能耗y吨标准煤的几组对照数据:1请画出上表数据的散点图;2请根据上表提供的数据,用最小二乘法求出y关于x的线性回归方程y bx a=+;3已知该厂技术改造前100吨甲产品能耗为90吨标准煤;试根据2求出的线性回归方程,预测生产100吨甲产品的生产能耗比技术改造前降低多少吨标准煤变式6: 为了分析某个高三学生的学习状态,对其下一阶段的学习提供指导性建议.现对他前7次考试的数学成绩x、物理成绩y进行分析.下面是该生7次考试的成绩.1他的数学成绩与物理成绩哪个更稳定请给出你的证明;2已知该生的物理成绩y与数学成绩x是线性相关的,若该生的物理成绩达到115分,请你估计他的数学成绩大约是多少并请你根据物理成绩与数学成绩的相关性,给出该生在学习数学、物理上的合理建议.。
第二讲 用样本估计总体知识梳理·双基自测 知识梳理知识点一 用样本的频率分布估计总体分布 (1)频率分布表与频率分布直方图频率分布表和频率分布直方图,是从各个小组数据在样本容量中所占比例大小的角度,来表示数据分布规律,从中可以看到整个样本数据的频率分布情况.绘制频率分布直方图的步骤为:①_求极差__;②_决定组距与组数__;③_将数据分组__;④_列频率分布表__;⑤_画频率分布直方图__.(2)频率分布折线图顺次连接频率分布直方图中_各小长方形上端的中点__,就得到频率分布折线图. (3)总体密度曲线总体密度曲线反映了总体在各个范围内取值的百分比,它能提供更加精细的信息. 知识点二 茎叶图(1)茎叶图中茎是指_中间__的一列数,叶是从茎的_旁边__生长出来的数.(2)茎叶图的优点是可以_保留__原始数据,而且可以_随时__记录,这对数据的记录和表示都能带来方便.知识点三 样本的数字特征(1)众数:一组数据中出现次数最多的数.(2)中位数:将数据从小到大排列,若有奇数个数,则最中间的数是中位数;若有偶数个数,则中间两数的平均数是中位数.(3)平均数:x =_x 1+x 2+…+x nn__,反映了一组数据的平均水平.(4)标准差: s =_1n[x 1-x2+x 2-x2+…+x n -x2]__,反映了样本数据的离散程度.(5)方差:s 2=_1n[(x 1-x )2+(x 2-x )2+…+(x n -x )2]__,反映了样本数据的离散程度.重要结论(1)若一组数据x i (i =1,2,…,n)的平均数为x -,方差为s 2,则数据组ax i +b(i =1,2,…,n ,a ,b 为常数)的平均数为a x -+b ,方差为a 2·s 2.(2)频率分布直方图与众数、中位数与平均数的关系 ①最高的小长方形底边中点的横坐标即是众数.②中位数左边和右边的小长方形的面积和是相等的,均为12.③平均数是频率分布直方图的“重心”,等于频率分布直方图中每个小长方形的面积乘以小长方形底边中点的横坐标之和.双基自测题组一 走出误区1.判断下列结论是否正确(请在括号中打“√”或“×”)(1)平均数、众数与中位数从不同的角度描述了一组数据的集中趋势.( √ ) (2)一组数据的众数可以是一个或几个,那么中位数也具有相同的结论.( × )(3)从频率分布直方图得不出原始的数据内容,把数据表示成直方图后,原有的具体数据信息就被抹掉了.( √ )(4)茎叶图一般左侧的叶按从大到小的顺序写,右侧的叶按从小到大的顺序写,相同的数据可以只记一次.( × )(5)在频率分布直方图中,最高的小长方形底边中点的横坐标是众数.( √ ) (6)在频率分布直方图中,众数左边和右边的小长方形的面积和是相等的.( × ) 题组二 走进教材2.(P 81A 组T1改编)已知某班级部分同学一次测验的成绩统计如图,则其中位数和众数分别为( B )A .95,94B .92,86C .99,86D .95,91[解析]由茎叶图可知,此组数据由小到大排列依次76,79,81,83,86,86,87,91,92,94,95,96,98,99,101,103,114,共17个,故92为中位数,出现次数最多的为众数,故众数为86,故选B .3.(P 7T1)如图是100位居民月均用水量的频率分布直方图,则月均用水量为[2,2.5)范围内的居民有_25__人.[解析]100×(0.5×0.5)=25(人).题组三走向高考4.(2020·新课标Ⅲ)设一组样本数据x1,x2,…,x n的方差为0.01,则数据10x1,10x2,…,10x n的方差为( C )A.0.01 B.0.1C.1 D.10[解析]∵样本数据x1,x2,…,x n的方差为0.01,∴根据任何一组数据同时扩大几倍方差将变为平方倍增长,∴数据10x1,10x2,…,10x n的方差为:100×0.01=1,故选C.5.(2020·天津)从一批零件中抽取80个,测量其直径(单位:mm),将所得数据分为9组:[5.31,5.33),[5.33,5.35),…,[5.45,5.47),[5.47,5.49],并整理得到如下频率分布直方图,则在被抽取的零件中,直径落在区间[5.43,5.47)内的个数为( B )A.10 B.18C.20 D.36[解析]直径落在区间[5.43,5.47)的频率为(6.25+5)×0.02= 0.225,则被抽取的零件中,直径落在区间[5.43,5.47)内的个数为0.225×80 =18个,故选B.考点突破·互动探究考点一频率分布直方图——自主练透例1 (1)(2021·江西赣州十四县联考)中央电视台播出《中国诗词大会》火遍全国,下面是组委会在选拔赛时随机抽取的100名选手的成绩,按成绩分组,得到的频率分布表如下所示:组号分组频数频率第1组[160,165) 0.100笫2组[165,170) ①第3组[170,175) 20 ②第4组[175,180) 20 0.200第5组[180,185) 10 0.100合计100 1.00(ⅰ)请先求出频率分布表中①、②位置的相应数据,再完成频率分布直方图(用阴影表示).(ⅱ)为了能选拔出最优秀的选手,组委会决定在笔试成绩高的第3,4,5组中用分层抽样抽取5名选手进入第二轮面试,则第3,4,5组每组各抽取多少名选手进入第二轮面试?(ⅲ)在(ⅱ)的前提下,组委会决定在5名选手中随机抽取2名选手接受考官A面试,求第4组至少有一名选手被考官A面试的概率.(2)(2021·福建漳州质检)2018年9月的台风“山竹”对我国多个省市的财产造成重大损害,据统计直接经济损失达52亿元.某青年志愿者组织调查了某地区的50个农户在该次台风中造成的直接经济损失,将收集的损失数据分成五组:[0,2 000],(2 000,4 000],(4 000,6 000],(6 000,8 000],(8 000,10 000](单位:元),得到如图所示的频率分布直方图.(ⅰ)试根据频率分布直方图估计该地区每个农户的损失(同一组中的数据用该区间的中点值代表);(ⅱ)台风后该青年志愿者与当地政府向社会发出倡议,为该地区的农户捐款帮扶,现从这50户损失超过4 000元的农户中随机抽取2户进行重点帮扶,设抽出损失超过8 000元的农户数为X,求X的分布列和数学期望.[解析](1)(ⅰ)第1组的频数为100×0.100=10,所以①处应填的数为100-(10+20+20+10)=40, 从而第2组的频率为40100=0.400.②处应填的数为1-(0.1+0.4+0.2+0.1)=0.200. 频率分布直方图如图所示.(ⅱ)因为第3,4,5组共有50名选手,所以利用分层抽样在50名选手中抽取5名选手进入第二轮面试时,每组抽取的人数分别为:第3组:2050×5=2,第4组:2050×5=2,第5组:1050×5=1,所以第3,4,5组分别抽取2人,2人,1人进入第二轮面试. (ⅲ)记“第4组至少有一名选手被考官A 面试”为事件A , 则P(A)=C 12C 13+C 22C 25=710. ⎝ ⎛⎭⎪⎫或P A =1-P A -=1-C 23C 25=710 (2)(ⅰ)记每个农户的平均损失为x -元,则x -=1 000×0.3+3 000×0.4+5 000×0.18+7 000×0.06+9 000×0.06=33 601;(ⅱ)由频率分布直方图,可得损失超过 4 000元的农户共有(0.000 09+0.000 03+0.000 03)×2 000×50=15(户),损失超过8 000元的农户共有0.000 03×2 000×50=3(户),随机抽取2户,则X 的可能取值为0,1,2; 计算P(X =0)=C 212C 215=2235,P(X =1)=C 112C 13C 215=1235,P(X =2)=C 23C 215=135.所以X 的分布列为:X0 1 2P2235 1235 135数学期望为E(X)=0×2235+1×1235+2×135=25.名师点拨应用频率分布直方图时的注意事项用频率分布直方图解决相关问题时,应正确理解图表中各个量的意义,识图掌握信息是解决该类问题的关键.频率分布直方图有以下几个要点:(1)纵轴表示频率/组距;(2)频率分布直方图中各长方形高的比也就是其频率之比;(3)频率分布直方图中每一个矩形的面积是样本数据落在这个区间上的频率,所有的小矩形的面积之和等于1,即频率之和为1.〔变式训练1〕(1)(2021·安徽“皖南八校”摸底)某校高三年级有400名学生,在一次数学测试中,成绩都在[80,130](单位:分)内,其频率分布直方图如图,则这次测试数学成绩不低于100分的人数为_220__.(2)(2021·山西适应性考试)某病毒引起的肺炎的潜伏期平均为7天左右,短的约2~3天,长的约10~14天,甚至有20余天.某医疗机构对400名确诊患者的潜伏期进行统计,整理得到以下频率分布直方图.根据该直方图估计:要使90%的患者显现出明显病状,需隔离观察的天数至少是( C )A .12B .13C .14D .15[解析] (1)根据频率分布直方图知: (2a +0.04+0.03+0.02)×10=1⇒a =0.005; 计算出数学成绩不低于100分的频率为: (0.03+0.02+0.005)×10=0.55;所以这次测试数学成绩不低于100分的人数为0.55×400=220人.(2)由题可知,第一,二,三,四,五组的频率分别为0.16,0.4,0.32,0.08,0.04. 因为前三组的频率和为0.88, 故要使90%的患者显现出明显病状,则需隔离观察的天数至少是:13+0.9-0.880.02=14,故选C .考点二 茎叶图——师生共研例2 (多选题)(2021·四川省乐山市调研改编)胡萝卜中含有大量的β-胡萝卜素,摄入人体消化器官后,可以转化为维生素A ,现从a ,b 两个品种的胡萝卜所含的β-胡萝卜素(单位mg)得到茎叶图如图所示,则下列说法正确的是( ABD )A .x a <x bB .a 的方差大于b 的方差C .b 品种的众数为3.31D .a 品种的中位数为3.27 [解析] 由茎叶图得:b 品种所含β-胡萝卜素普遍高于a 品种, ∴x a <x b ,故A 正确;a 品种的数据波动比b 品种的数据波动大, ∴a 的方差大于b 的方差,故B 正确; b 品种的众数为3.31与3.41,故C 错误; a 品种的数据的中位数为:3.23+3.312=3.27,故D 正确.名师点拨茎叶图的绘制及应用(1)茎叶图的绘制需注意:①“叶”的位置只有一个数字,而“茎”的位置的数字位数一般不需要统一;②重复出现的数据要重复记录,不能遗漏,特别是“叶”的位置上的数据.(2)茎叶图通常用来记录两位数的数据,可以用来分析单组数据,也可以用来比较两组数据.通过茎叶图可以确定数据的中位数,数据大致集中在哪个茎,数据是否关于该茎对称,数据分布是否均匀等.〔变式训练2〕(2019·山东)如图所示的茎叶图记录了甲,乙两组各5名工人某日的产量数据(单位:件).若这两组数据的中位数相等,且平均值也相等,则x 与y 的值分别为( A )A .3,5B .5,5C .3,7D .5,7[解析] 甲组数据的中位数为65,由甲、乙两组数据的中位数相等,得y =5.又甲、乙两组数据的平均值相等,∴15×(56+65+62+74+70+x)=15×(59+61+67+65+78),∴x =3.故选A . 考点三 样本数字特征——多维探究 角度1 样本数字特征与频率分布直方图例3 (1)如图所示是一样本的频率分布直方图,则由图形中的数据,可以估计众数与中位数分别是( B )A .12.5,12.5B .12.5,13C .13,12.5D .13,13[解析] 由频率分布直方图可知,众数为10+152=12.5,因为0.04×5=0.2,0.1×5=0.5,在频率分布直方图中,中位数左边和右边的面积相等,所以中位数在区间[10,15)内.设中位数为x ,则(x -10)×0.1=0.5-0.2,解得x =13.角度2 样本数字特征与茎叶图(2)将某选手的9个得分去掉1个最高分,去掉1个最低分,7个剩余分数的平均分为91,现场作的9个分数的茎叶图后来有1个数据模糊,无法辨认,在图中以x 表示:⎪⎪⎪897 74 0 1 0 x 9 1则7个剩余分数的方差为_367__.[解析] 由图可知去掉的两个数是87,99,所以87+90×2+91×2+94+90+x =91×7,解得x =4,∴s 2=17[(87-91)2+(90-91)2×2+(91-91)2×2+(94-91)2×2]=367.角度3 样本数字特征的计算(3)(2021·湖北武汉、襄阳、荆门、宜昌四地六校考试联盟联考)已知某7个数据的平均数为5,方差为4,现又加入一个新数据5,此时这8个数的方差s 2为( C )A .52B .3C .72D .4[解析] 设某7个数据分别为a 1,a 2,…,a 7, 则由题意得a 1+a 2+…+a 7=5×7=35, (a 1-5)2+(a 2-5)2+…+(a 7-5)2=4×7=28, 加入新数据5后的平均数x -=35+58=5,方差s 2=a 1-52+a 2-52+…+a 7-52+5-528=288=72.故选C .名师点拨平均数与方差都是重要的数字特征,是对总体的一种简明的描述,它们所反映的情况有着重要的实际意义,平均数,中位数,众数描述其集中趋势,方差和标准差描述其波动大小.〔变式训练3〕(1)(角度1)某小区共有1 000户居民,现对他们的用电情况进行调查,得到频率分布直方图如图所示,则该小区居民用电量的中位数为_155__,平均数为_156.8__.(2)(角度2)(2021·陕西西安八校联考)在一次技能比赛中,共有12人参加,他们的得分(百分制)茎叶图如图,则他们得分的中位数和方差分别为( B )A .89 54.5B .89 53.5C .87 53.5D .89 54(3)高铁、扫码支付、共享单车、网购并称中国“新四大发明”,近日对全国100个城市的共享单车和扫码支付的使用人数进行大数据分析,其中共享单车使用的人数分别为x 1,x 2,x 3,…,x 100,它们的平均数为x -,方差为s 2:其中扫码支付使用的人数分别为3x 1+2,3x 2+2,3x 3+2,…,3x 100+2,它们的平均数为x -′,方差为s′2,则x -′,s′2分别为( C )A .3x -+2,3s 2+2 B .3x -,3s 2C .3x -+2,9s 2D .3x -+2,9s 2+2[解析] (1)中位数为:150+(170-150)×0.10.02×20=155.该组数据的平均数为x =0.005×20×120+0.015×20×140+0.020×20×160+0.005×20×180+0.003×20×200+0.002×20×220=156.8.(2)由题可知,中位数为:87+912=89,先求平均数:x -=78+79+84+86+87+87+91+94+98+98+99+9912=90,S 2=112[(-12)2+(-11)2+(-6)2+(-4)2+(-3)2+(-3)2+12+42+82+82+92+92]=53.5,故中位数为:89,方差为53.5,故选:B .(3)显然x -′=3x -+2,而每个数据上都加上或减去相同数不影响方差,但每个数据都乘以a ,则方差变为原方差的a 2倍,故选C .考点四 折线图——师生共研例4 (多选题)(2021·河南顶级名校模拟改编)如图是某地某月1日至15日的日平均温度变化的折线图,根据该折线图,下列结论不正确的是( BCD )A .连续三天日平均温度的方差最大的是7日,8日,9日三天B .这15天日平均温度的极差为15 ℃C .由折线图能预测16日温度要低于19 ℃D .由折线图能预测本月温度小于25 ℃的天数少于温度大于25 ℃的天数[解析] A 选项,日平均温度的方差的大小取决于日平均温度的波动的大小,7,8,9三日的日平均温度的波动最大,故日平均温度的方差最大,正确;B 选项,这15天日平均温度的极差为18 ℃,B 错;C 选项,由折线图无法预测16日温度是否低于19 ℃,故C 错误;D 选项,由折线图无法预测本月温度小于25 ℃的天数是否少于温度大于25 ℃的天数,故D 错误.故选B 、C 、D .名师点拨折线图可以显示随时间(根据常用比例放置)而变化的连续数据,因此非常适用于显示在相等时间间隔下数据的趋势.〔变式训练4〕(多选题)甲乙两名同学在本学期的六次考试成绩统计如图,甲乙两组数据的平均值分别为x -甲、x -乙,则( BC )A .每次考试甲的成绩都比乙的成绩高B .甲的成绩比乙稳定C .x -甲一定大于x -乙D .甲的成绩的极差大于乙的成绩的极差[解析] 第二次考试甲的成绩比乙低,A 错;由图可知甲的成绩比乙的成绩波动小,B 正确,D 错;甲的平均成绩显然比乙的平均成绩高,C 正确;故选B 、C .名师讲坛·素养提升 高考与频率分布直方图例5 (2021·安徽省池州市期末)高三年级某班50名学生期中考试数学成绩的频率分布直方图如图所示,成绩分组区间为:[80,90),[90,100),[100,110),[110,120),[120,130),[130,140),[140,150].其中a ,b ,c 成等差数列且c =2a ,物理成绩统计如表.(说明:数学满分150分,物理满分100分)分组 [50,60) [60,70) [70,80) [80,90) [90,100]频数6920105(1)根据频率分布直方图,请估计数学成绩的平均分; (2)根据物理成绩统计表,请估计物理成绩的中位数;(3)若数学成绩不低于140分的为“优”,物理成绩不低于90分的为“优”,已知本班中至少有一个“优”同学总数为6人,从此6人中随机抽取3人.记X 为抽到两个“优”的学生人数,求X 的分布列和期望值.[解析] (1)根据频率分布直方图得, (a +b +2c +0.024+0.020+0.004)×10 =1, 又因a +c =2b ,c =2a ,解得a =0.008,b =0.012,c =0.016, 故数学成绩的平均分x -=85×0.04+95×0.12+105×0.16+115×0.2+125×0.24 +135×0.16+145×0.08=117.8(分),(2)总人数50分,由物理成绩统计表知,中位数在成绩区间[70,80), 所以物理成绩的中位数为75分.(3)数学成绩为“优”的同学有4人,物理成绩为“优”有5人,因为至少有一个“优”的同学总数为6名同学,故两科均为“优”的人数为3人,故X 的取值为0、1、2、3.P(X =0)=C 33C 36=120,P(X =1)=C 13C 23C 36=920,P(X =2)=C 23C 13C 36=920,P(X =3)=C 33C 36=120,所以分布列为:X 0 1 2 3 P120920920120∴期望值为E(X)=0×120+1×920+2×920+3×120=32.名师点拨(1)通过统计图可以很清楚地表示出各部分数量同总数之间的关系. (2)准确理解频率分布直方图的数据特点是解题关键. 〔变式训练5〕(2019·高考全国Ⅲ卷)为了解甲、乙两种离子在小鼠体内的残留程度,进行如下试验:将200只小鼠随机分成A ,B 两组,每组100只,其中A 组小鼠给服甲离子溶液,B 组小鼠给服乙离子溶液,每只小鼠给服的溶液体积相同、摩尔浓度相同.经过一段时间后用某种科学方法测算出残留在小鼠体内离子的百分比.根据试验数据分别得到如下直方图:记C为事件:“乙离子残留在体内的百分比不低于5.5”,根据直方图得到P(C)的估计值为0.70.(1)求乙离子残留百分比直方图中a,b的值;(2)分别估计甲、乙离子残留百分比的平均值(同一组中的数据用该组区间的中点值为代表).[解析](1)由已知得0.70=a+0.20+0.15,故a=0.35.b=1-0.05-0.15-0.70=0.10.(2)甲离子残留百分比的平均值的估计值为2×0.15+3×0.20+4×0.30+5×0.20+6×0.10+7×0.05=4.05,乙离子残留百分比的平均值的估计值为3×0.05+4×0.10+5×0.15+6×0.35+7×0.20+8×0.15=6.00.。
⼤学⽣必解知识-茎叶图茎叶图(Stem and leaf plot)什么是茎叶图茎叶图⼜称“枝叶图”,它的思路是将数组中的数按位数进⾏⽐较,将数的⼤⼩基本不变或变化不⼤的位作为⼀个主⼲(茎),将变化⼤的位的数作为分枝(叶),列在主⼲的后⾯,这样就可以清楚地看到每个主⼲后⾯的⼏个数,每个数具体是多少。
茎叶图有三列数:左边的⼀列数统计数,它是上(或下)向中⼼累积的值,中⼼的数(带括号)表⽰最多数组的个数;中间的⼀列表⽰茎,也就是变化不⼤的位数;右边的是数组中的变化位,它是按照⼀定的间隔将数组中的每个变化的数⼀⼀列出来,象⼀条枝上抽出的叶⼦⼀样,所以⼈们形象地叫它茎叶图。
茎叶图是⼀个与直⽅图相类似的特殊⼯具,但⼜与直⽅图不同,茎叶图保留原始资料的资讯,直⽅图则失去原始资料的讯息。
将茎叶图茎和叶逆时针⽅向旋转9O度,实际上就是⼀个直⽅图,可以从中统计出次数,计算出各数据段的频率或百分⽐。
从⽽可以看出分布是否与正态分布或单峰偏态分布逼近。
茎叶图在质量管理上⽤途与直⽅图差不多,但它通常是作为更细致的分析阶段使⽤。
由于它是⽤数字组成直⽅图,所以在做的时候⽐直⽅图时,通常我们常使⽤专业的软件进⾏绘制。
[编辑]茎叶图的优缺点1、⽤茎叶图表⽰数据有两个优点:⼀是从统计图上没有原始数据信息的损失,所有数据信息都可以从茎叶图中得到;⼆是茎叶图中的数据可以随时记录,随时添加,⽅便记录与表⽰。
2、茎叶图只便于表⽰两位有效数字的数据,⽽且茎叶图只⽅便记录两组的数据,两个以上的数据虽然能够记录,但是没有表⽰两个记录那么直观、清晰。
[编辑]茎叶图的案例分析[1]茎叶图是将统计分组和次数分配⼀次完成,是探索性数据分析中对数据的初步形象描绘。
其图形直观且保留原始信息,均值、中位数和众数均可依原始数据准确⽅便地算出。
现以某班⼀次考试成绩为例,介绍茎叶图的作法。
作图过程是先作“茎”后填“叶”,将分组标志(组距)视为茎,按数的⼤⼩从上到下(也可从下到上)排列。
第2课时频率分布折线图和茎叶图学习目标 1.了解频率分布折线图和总体密度曲线的定义.2.理解茎叶图的概念,会画茎叶图.3.了解频率分布直方图、频率分布折线图、茎叶图的各自特征,学会选择不同的方法分析样本的分布,从而作出总体估计.知识点一频率分布折线图和总体密度曲线1.频率分布折线图连接频率分布直方图中各小长方形上端的中点,就得到频率分布折线图.2.总体密度曲线在样本频率分布直方图中,随着样本容量的增加,作图时所分的组数增加,组距减小,相应的频率折线图会越来越接近于一条光滑曲线,统计中称这条光滑曲线为总体密度曲线,它反映了总体在各个范围内取值的百分比.知识点二茎叶图1.将所有两位数的十位数字作为茎,个位数字作为叶,茎相同者共用一个茎,茎按从小到大的顺序从上向下列出,共茎的叶可以按从大到小(或从小到大)的顺序同行列出(也可以没有大小顺序).2.茎叶图的优点与不足(1)优点:一是原始数据信息在图中能够保留,所有数据信息都可以从茎叶图中得到;二是茎叶图中的数据可以随时记录,随时添加,方便记录与表示.(2)不足:当样本数据较多时,茎叶图就显得不太方便.1.频率分布折线图就是总体密度曲线.(×)2.对于两位数的茎叶图,中间的数字表示十位数,旁边的数字表示个位数.(√) 3.对于三位数的茎叶图,中间的数字表示百位数,旁边的数字表示十位和个位数.(×) 4.茎叶图只可以分析单组数据,不能对两组数据进行比较.(×)题型一识读茎叶图例1甲、乙两个班级各随机选出15名同学进行测验,成绩的茎叶图如图所示(单位:分),则甲班、乙班的最高成绩分别是________,从图中看,________班的平均成绩较高.答案96,92乙解析由茎叶图知甲班的最高成绩为96分,乙班的最高成绩为92分,再根据茎叶图的分布特点知,乙班的成绩分布集中在下面,故乙班的平均成绩较高.反思感悟(1)当数据是两位数时,十位上的数字为“茎”,个位上的数字为“叶”;如果是三位数,通常把百位和十位部分作为“茎”,个位上的数字为“叶”;如果是小数,通常把整数部分作为“茎”,小数部分作为“叶”.解题时要根据数据的特点合理地选择茎和叶.(2)应用茎叶图对两组数据进行比较时,要从数据分布的对称性、稳定性等几方面来比较.跟踪训练1(1)如图所示,茎叶图表示某城市一台自动售货机在16天内的销售额情况(单位:元),图中的数字7表示的意义是这台自动售货机该天的销售额为()A.7元B.70元C.27元D.72元(2)甲、乙两名同学12次考试中数学成绩的茎叶图如图所示,则下列说法正确的是()A.甲同学比乙同学发挥稳定,且平均成绩也比乙同学高B.甲同学比乙同学发挥稳定,但平均成绩比乙同学低C.乙同学比甲同学发挥稳定,且平均成绩也比甲同学高D.乙同学比甲同学发挥稳定,但平均成绩比甲同学低答案(1)C(2)C解析(1)茎表示十位数字,叶表示个位数字,所以7表示27.(2)由茎叶图的性质可知乙同学比甲同学发挥稳定,且平均成绩比甲同学高.题型二茎叶图及其应用命题角度1茎叶图的绘制例2某良种培育基地正在培育一种小麦新品种A.将其与原有的一个优良品种B进行对照试验.两种小麦各种植了25亩,所得亩产量数据(单位:千克)如下:品种A:357,359,367,368,375,388,392,399,400,405,412,414,415,421,423,423,427,430,430,434,443,445, 445,451,454.品种B:363,371,374,383,385,386,391,392,394,394,395,397,397,400,401,401,403,406,407,410,412,415, 416,422,430.(1)画出茎叶图;(2)用茎叶图处理现有的数据,有什么优点?(3)通过观察茎叶图,对品种A与B的亩产量及其稳定性进行比较,得出统计结论.解(1)茎叶图如图.(2)样本容量不大,画茎叶图很方便,此时茎叶图不仅清晰明了地展示了数据的分布情况,便于比较,没有任何信息丢失,而且还可以随时记录新的数据.(3)通过观察茎叶图可以看出:①品种A亩产量的平均数比品种B亩产量的平均数大;②品种A的亩产量波动比品种B的亩产量波动大,故品种A的亩产量稳定性较差.反思感悟(1)画茎叶图时,用中间的数表示数据的十位和百位数,两边的数分别表示两组数据的个位数.要先确定中间的数取数据的哪几位,填写数据时边读边填.比较数据时从数据分布的对称性、稳定性等几方面来比较.(2)绘制茎叶图的关键是分清茎和叶,一般地说数据是两位数时,十位数字为“茎”,个位数字为“叶”;如果是小数的,通常把整数部分作为“茎”,小数部分作为“叶”,解题时要根据数据的特点合理选择茎和叶.跟踪训练2某赛季甲、乙两名篮球运动员每场比赛的得分情况如下:甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.试制作茎叶图来对比描述这些数据.解以十位数字为茎,个位数字为叶,制作茎叶图如图:命题角度2茎叶图的应用例3某公司为了解用户对其产品的满意度,从A,B两地区分别随机调查了20个用户,得到用户对产品的满意度评分如下:A地区:6273819295857464537678869566977888827689B地区:7383625191465373648293486581745654766579根据两组数据作出两地区用户满意度评分的茎叶图,并通过茎叶图比较两地区满意度评分的平均值及分散程度(不要求计算出具体值,给出结论即可).解两地区用户满意度评分的茎叶图如图:通过茎叶图可以看出,A地区用户满意度评分的平均值高于B地区用户满意度评分的平均值;A地区用户满意度评分比较集中,B地区用户满意度评分比较分散.反思感悟茎叶图可保留原始数据,还可以通过叶的疏密情形,得到样本数据的分布离散情形.跟踪训练3某中学甲、乙两名同学最近几次的数学考试成绩情况如下:甲的得分:95,81,75,89,71,65,76,88,94,110,107;乙的得分:83,86,93,99,88,103,98,114,98,79,101.画出两人数学成绩的茎叶图,并根据茎叶图对两人的成绩进行比较.解甲、乙两人数学成绩的茎叶图如图所示.从这个茎叶图上可以看出,乙同学的得分情况是大致对称的;甲同学的得分情况除一个特殊得分外,也大致对称,但分数分布相对于乙来说,趋向于低分阶段.因此乙同学发挥比较稳定,总体得分情况比甲同学好.茎叶图与频率分布直方图的综合应用典例 在某市的青少年才艺表演评比活动中,参赛选手成绩的茎叶图和频率分布直方图都受到不同程度的破坏,可见部分如图所示,据此回答以下问题:求参赛总人数和频率分布直方图中[80,90)矩形的高,并补全频率分布直方图.解 由茎叶图知,分数在[50,60)的频数为2.由频率分布直方图知,分数在[50,60)的频率为0.008×10=0.08,所以参赛总人数为20.08=25. 所以分数在[80,90)的人数为25-2-7-10-2=4,所以分数在[80,90)的频率为425=0.16, 故频率分布直方图中[80,90)矩形的高为0.1610=0.016. 补全频率分布直方图,如图所示.[素养评析](1)茎叶图由所有样本数据构成,没有损失任何样本信息,可以在抽样的过程中随时记录,但样本容量较大时,使用茎叶图就不合适;而频率分布表和频率分布直方图可以处理样本容量很大的数据,但损失了样本的原始数据,而且必须在完成抽样后才能制作.(2)茎叶图和频率分布直方图都是用来整理数据的,根据整理的数据,提取信息,进行推断,获得结论,这是重要的数学素养之数据分析.1.如果想用统计图来反映各数据的变化趋势,比较合适的统计图是()A.条形图B.折线图C.扇形图D.其他图形答案B解析能反映各数据的变化趋势的统计图是折线图.2.如图是总体密度曲线,下列说法正确的是()A.组距越大,频率分布折线图越接近于它B.样本容量越小,频率分布折线图越接近于它C.阴影部分的面积代表总体在(a,b)内取值的百分比D.阴影部分的平均高度代表总体在(a,b)内取值的百分比答案C3.在一次马拉松比赛中,35名运动员的成绩(单位:分钟)的茎叶图如图所示.若将运动员按成绩由好到差编为1~35号,再用系统抽样方法从中抽取7人,则其中成绩在区间[139,151)上的运动员人数是()A.3 B.4 C.5 D.6答案B解析由题意知,将1~35号分成7组,每组5名运动员,成绩落在区间[139,151)的运动员共有4组,故由系统抽样法知,共抽取4名.故选B.4.从甲、乙两种玉米苗中各抽6株,分别测得它们的株高如图所示(单位:cm).根据数据估计()A.甲种玉米比乙种玉米不仅长得高而且长得整齐B.乙种玉米比甲种玉米不仅长得高而且长得整齐C.甲种玉米比乙种玉米长得高但长势没有乙整齐D.乙种玉米比甲种玉米长得高但长势没有甲整齐答案D解析由题干中的茎叶图可知,甲种玉米的株高集中在20 cm段,乙种玉米的株高集中在30 cm和40 cm段,则甲种玉米的平均株高小于乙种玉米的平均株高,但乙种玉米的株高较分散,故选D.5.如图茎叶图表示的是甲、乙两人在5次综合测评中的成绩,其中一个数字被污损,若乙的平均分是89,则污损的数字是________.答案3解析设污损的叶对应的成绩是x,由茎叶图可得89×5=83+83+87+x+99,所以x=93,故污损的数字是3.1.估计总体的分布分两种情况:当总体中的个体取值很少时,用茎叶图估计总体的分布;当总体中的个体取值较多时,将样本数据恰当分组,用各组的频率分布描述总体的分布,方法是用频率分布表或频率分布直方图.2.茎叶图、频率分布表和频率分布直方图都是用来描述样本数据的分布情况的.茎叶图由所有样本数据构成,没有损失任何样本信息,可以在抽样的过程中随时记录;而频率分布表和频率分布直方图则损失了样本的原始信息,必须在完成抽样后才能制作.一、选择题1.下列关于茎叶图的叙述正确的是()A.茎叶图可以展示未分组的原始数据,它与频率分布表以及频率分布直方图的处理方式不同B.对于重复的数据,只算一个C.茎叶图中的叶是“茎”十进制的上一级单位D.制作茎叶图的程序是:第一步:画出茎;第二步:画出叶;第三步:将“叶子”任意排列答案A2.当样本数据增加时,下列说法正确的是()A.频率分布表不会变化B.茎叶图不会变化C.频率折线图不会变化D.频率分布直方图变化不太大答案D3.在茎叶图中比40大的数据的个数为()A.1 B.4 C.3 D.5答案C4.某校举行演讲比赛,9位评委给选手A打出的分数如茎叶图所示,统计员在去掉一个最高分和一个最低分后,算得平均分为91,复核员在复核时,发现有一个数字(茎叶图中的x)无法看清,若统计员计算无误,则数字x应该是()A.5 B.4C.3 D.2答案D解析去掉最低分87,去掉最高分94(假设x≤4),则7×91=80×2+9+8+90×5+2+3+2+1+x,∴x=2,符合题意.同理可验证x>4不合题意.5.如图是某公司10个销售店某月销售某产品数量(单位:台)的茎叶图,则数据落在区间[22,30)内的频率为()A.0.2 B.0.4C.0.5 D.0.6答案B解析依据茎叶图,在区间[22,30)内的频数为4,样本容量为10,故对应的频率为410=0.4,故选B.6.如图是甲、乙两名运动员某赛季一些场次得分的茎叶图,据图可知()A.甲运动员的成绩好于乙运动员B.乙运动员的成绩好于甲运动员C.甲、乙两名运动员的成绩没有明显的差异D.甲运动员的最低得分为0分答案A解析从茎叶图上看,由于甲运动员的成绩多数集中在31以上,而乙运动员的成绩集中在12到29之间,所以甲运动员成绩较好.7.给出如图所示的三幅统计图及四个命题:①从折线统计图能看出世界人口的变化情况;②2050年非洲人口将达到大约15亿;③2050年亚洲人口比其他各洲人口的总和还要多;④从1957年到2050年各洲中北美洲人口增长速度最慢.其中命题正确的有()A.①②B.①③C.①④D.②④答案B解析①从折线统计图能看出世界人口的变化情况,故①正确;②从条形统计图中可得:2050年非洲人口大约将达到18亿,故②错误;③从扇形统计图中能够明显地得到结论:2050年亚洲人口比其他各洲人口的总和还要多,故③正确;④由题中三幅统计图并不能得出从1957年到2050年中哪个洲人口增长速度最慢,故④错误.因此正确的命题有①③.故选B.8.如图是2017年青年歌手大奖赛中,七位评委为甲、乙两名选手打出的分数的茎叶图(其中m,n均为数字0~9中的一个),在去掉一个最高分和一个最低分后,甲、乙两名选手得分的平均数分别为a1,a2,则有()A.a1>a2B.a1,a2的大小与m的值有关C.a2>a1D.a1,a2的大小与m,n的值有关答案A解析 由题意知去掉一个最高分和一个最低分以后,两组数据都有五个数据, 代入数据可以求得甲的平均分为a 1=80+15×(1+5+5+m +9)=84+m5,乙的平均分为a 2=80+15×(1+2+4+4+7)=83.6,∵m ≥0,∴a 1>a 2.9.某中学举行了一次“环保知识竞赛”活动.为了了解本次竞赛学生的成绩情况,从中抽取了部分学生的成绩(得分取正整数,满分为100分)作为样本(样本容量为n )进行统计.按照[50,60),[60,70),[70,80),[80,90),[90,100]的分组作出了频率分布直方图,并作出了分数的茎叶图(图中仅列出得分在[50,60),[90,100]的数据),如图.则样本容量n 和频率分布直方图中x ,y 的值分别为( ) A .50,0.030,0.004 B .30,0.040,0.003 C .30,0.030,0.040 D .50,0.300,0.400答案 A解析 由题意可知,样本容量n =80.016×10=50,y =250×10=0.004,x =0.100-0.004-0.010-0.016-0.040=0.030. 二、填空题10.随机抽取某中学甲、乙两班各10名同学,测量他们的身高(单位:cm),获得身高数据的茎叶图如图.根据茎叶图判断________班的平均身高较高. 答案 乙解析 由茎叶图可知:甲班身高集中于160~179之间,而乙班身高集中于170~180之间.因此乙班平均身高高于甲班.11.如图所示是一个班的数学成绩的茎叶图,则优秀率(90分以上)是________,最低分是________.答案4%51解析∵总数为25,∴优秀率为125×100%=4%.最低分是51.12.从甲、乙两个班中各随机选出15名同学进行随堂测验,成绩的茎叶图如图所示,则甲、乙两班的最高成绩分别是______,______.从图中看,________班的平均成绩较高.答案9692乙解析由茎叶图可知,甲班的最高分是96,乙班的最高分是92.甲班的成绩集中在(60,80)内,乙班的成绩集中在(70,90)内,故乙班的平均成绩较高.三、解答题13.甲、乙两个网站为了了解各自受欢迎的程度,分别随机选取了14天记录上午8:00~10:00间各自的点击量:甲:73,24,58,72,64,38,66,70,20,41,55,67,8,25;乙:12,37,21,5,54,52,61,45,19,6,19,36,42,14.你能用哪些方法表示上面的数据?你认为甲、乙两个网站哪个更受欢迎?解方法一列频数分布表如下:[0,60)上,从数据的分布情况来看,甲网站更受欢迎.方法二画出茎叶图如图所示.由茎叶图可以看出,甲网站的点击量集中在茎叶图的下方,而乙网站的点击量集中在茎叶图的上方.从数据的分布情况来看,甲网站更受欢迎.14.为了解某校教师使用多媒体进行教学的情况,采用简单随机抽样的方法,从该校200名授课教师中抽取20名教师,调查了他们上学期使用多媒体进行教学的次数,结果用茎叶图(如图)表示,据此估计该校上学期200名教师中,使用多媒体进行教学的次数在[15,25)内的人数.解由茎叶图,知抽取的20名教师中使用多媒体进行教学的次数在[15,25)内的人数为6,频率为620,故200名教师中使用多媒体进行教学的次数在[15,25)内的人数为620×200=60. 15.从甲、乙两个城市所有的自动售货机中随机抽取16台,记录了上午8∶00~11∶00之间各自的销售情况(单位:元):甲:18,8,10,43,5,30,10,22,6,27,25,58,14,18,30,41;乙:22,31,32,42,20,27,48,23,38,43,12,34,18,10,34,23.试用纵坐标为频数的频数分布直方图与茎叶图的方式分别表示上面的数据,并简要说明各自的优点.解用频数分布直方图表示如图:茎叶图如图,两竖线中间的数字表示甲、乙销售额的十位数,两边的数字表示甲、乙销售额的个位数.可以看出频数分布直方图能直观地反映数据分布的大致情况,并且能够清晰地表示出各个区间的具体数目;而用茎叶图表示有关数据,对数据的记录和表示都带来方便.。
2.2.1-2频率分布折线图、总体密度曲线及茎叶图一、内容与解析《用样本的频率分布估计总体分布》是普通高中新课程标准人教A版必修三第二章2.2.1的内容,属于概率统计知识的一部分。
概率统计是高中新课标的重要内容,也是高考重点考查的内容之一,统计思想方法是数学中的一个重要思想方法。
本节课,是在初中学习了统计初步知识和前面研究了随机抽样、数据收集方法的基础上。
通过对样本分析估计总体的过程,突出了统计的实用性,体现了统计的思想及其在实际问题中的应用价值,真正体现出数学知识与现实生活的联系。
本节,主要研究对收集样本如何进行处理,突出对数据描述、处理的方法。
特别是,频率分布直方图画法。
后面,接着研究总体密度曲线、用样本的数字特征估计总体的数字特征以及正态曲线等。
可以说,本节课内容承上启下,地位非常重要。
二、教学目标及解析1.能够根据频率分布直方图画出频率分布折线图,并最终得到总体密度曲线。
2.能够根据样本数据,画出茎叶图,并通过茎叶图估计总体的分布情况.3.正确理解频率折线图、总体密度曲线和茎叶图的特点及随机性。
三、问题诊断分析在本节课的教学中,学生可能遇到的问题是能通过样本的频率分布估计总体的分布,体会统计的思想、方法.四、教学过程问题1.复习:作频率分布直方图的步骤有哪些?频率分布直方图有什么特点?第一步,求极差.第二步,决定组距与组数.第三步,确定分点,将数据分组.第四步,统计频数,计算频率,制成表格.第五步,画平面直角坐标系,在横轴上均匀标出各组分点,在纵轴上标出单位长度,以组距为宽,各组的频率与组距的商为高,分别画出各组对应的小长方形.特点:(1)随机性:频率分布表和频率分布直方图由样本决定,因此它们会随着样本的改变而改变.(2)规律性:若固定分组数,随着样本容量的增加,频率分布表中的各个频率会稳定在总体相应分组的概率之上,从而频率分布直方图中的各个矩形高度也会稳定在特定的值上.设计意图:师生活动(小问题):问题 2. 频率分布直方图能够很容易地表示大量的数据,非常直观地表明分布形状.但它不能保留原来的数据信息,在精确要求较高的情况下不适用.那么当题目要求精度较高时,我们该怎么做呢?一般地,类似于频数分布折线图,只要我们把频率分布直方图中各个小矩形上端的中点连接起来,就得到了频率分布折线图.那么当组数增大到大时,相应的频率分布折线图就变成一条光滑的曲线.这条曲线在统计中就叫做总体密度曲线,它反映了总体在各个范围内的取值,能提供更多更详细的信息.1.你认为频率分布折线图能大致反映样本数据的频率分布吗?2.当总体中的个体数很多时(如抽样调查全国城市居民月均用水量),随着样本容量的增加,作图时所分的组数增多,组距减少,你能想象出相应的频率分布折线图会发生什么变化吗?3.当总体中的个体数比较少或样本数据不密集时,是否存在总体密度曲线?为什么?不存在,因为组距不能任意缩小.4.对于一个总体,如果存在总体密度曲线,这条曲线是否惟一?能否通过样本数据准确地画出总体密度曲线?(1)有的总体没有密度曲线;(2)尽管有些总体密度曲线是客观存在的,但在实际应用中我们并不知道它的具体表达形式,需要用样本来估计.由于样本是随机的,它的频率分布折线图并不是惟一的,而是随着样本的容量和分组情况的变化而变化的,因此不能由样本的频率分布折线图准确估计密度曲线.问题3.频率分布表、频率分布直方图和折线图的主要作用是表示样本数据的分布情况,此外,我们还可以用茎叶图来表示样本数据的分布情况.【问题】某赛季甲、乙两名篮球运动员每场比赛的得分情况如下:甲运动员得分:13,51,23,8,26,38,16,33,14,28,39;乙运动员得分:49,24,12,31,50,31,44,36,15,37,25,36,39.助教在比赛中将这些数据记录为如下形式:1.在统计中,上图叫做茎叶图,它也是表示样本数据分布情况的一种方法,其中“茎”指的是哪些数,“叶”指的是哪些数?练习:对于样本数据:3.1,2.5,2.0,0.8,1.5,1.0,4.3,2.7,3.1,3.5,用茎叶图如何表示?2.一般地,画出一组样本数据的茎叶图的步骤如何?第一步,将每个数据分为“茎”(高位)和“叶”(低位)两部分;第二步,将最小的茎和最大的茎之间的数按大小次序排成一列,写在左(右)侧;第三步,将各个数据的叶按大小次序写在茎右(左)侧.3.用茎叶图表示数据的分布情况是一种好方法,你认为茎叶图有哪些优点?(1)保留了原始数据,没有损失样本信息;(2)数据可以随时记录、添加或修改.4.比较茎叶图和频率分布表,茎叶图中“茎”和“叶”的数目分别与频率分布表中哪些数目相当?5.对任意一组样本数据,是否都适合用茎叶图表示?为什么?不适合样本容量很大或茎、叶不分明的样本数据.五、课堂小结1.用样本的频率分布估计总体分布,当总体中的个体数取值很少时,可用茎叶图估计总体分布;当总体中的个体数取值较多时,可将样本数据适当分组,用频率分布表或频率分布直方图估计总体分布.2.总体密度曲线可看成是函数的图象,对一些特殊的密度曲线,其函数解析式是可求的.3.茎叶图中数据的茎和叶的划分,可根据样本数据的特点灵活决定.六、目标检测课本61页练习1。
数学高考知识点茎叶图数学高考知识点:茎叶图茎叶图是统计学中一种常用的数据展示方式,主要用于描述数据的分布情况和集中趋势。
它由茎和叶两部分组成,茎部代表数据的十位和百位,叶部代表数据的个位和十分位。
茎叶图能够直观地显示数据的整体分布,便于进行观察和分析。
在高考数学中,茎叶图是一个重要的知识点,它不仅考察学生对茎叶图的理解和应用能力,还能培养学生的数据处理和分析能力。
1. 什么是茎叶图茎叶图是一种将数据进行可视化展示的图形,它的构造方法很简单。
首先,将数据按照从小到大的顺序排列。
然后,将每个数据拆分成两部分,即茎和叶。
茎部是数据的十位和百位部分,叶部是数据的个位和十分位部分。
最后,依照茎部的大小和顺序,将叶部数据以竖直方式排列在茎的两侧,形成茎叶图。
2. 茎叶图的优点茎叶图有多种优点,使得它在统计学和高考数学中得到广泛应用。
首先,茎叶图能够直观地展示数据的分布情况,让人一目了然。
其次,它能够同时展示数据的每一个值,避免了只关注平均值或总体特征的缺点。
再次,茎叶图的构造方法简单,容易理解和应用。
最后,茎叶图可以携带较多信息,如数据的具体值以及数据的分布形状等。
3. 茎叶图的实际应用茎叶图在实际应用中有很多用途。
在生活中,我们可以用茎叶图来描述和比较不同蔬菜的价格、产品销量等信息。
在商业领域,茎叶图可用于分析客户消费行为、产品竞争力等。
在教育中,茎叶图可以用于展示学生的成绩分布,帮助教师了解班级学生的学习情况。
茎叶图还可以在医学、环境科学等领域中得到应用,帮助分析和解读大量数据。
4. 茎叶图的练习与应用在高考数学中,茎叶图经常出现在统计学或概率统计的题目中。
学生需要掌握茎叶图的构造和解读方法,能够灵活运用茎叶图进行数据分析。
为了提高解题能力,学生可以多做一些茎叶图的练习题。
同时,学生还可以结合实际问题,自行收集数据并制作茎叶图,提高数据分析和表达能力。
5. 拓展思考除了茎叶图,还有其他的统计图形可以用于数据的展示和分析。
高中数学新课程中茎叶图的考点茎叶图又称“枝叶图”,与频率分布直方图一样,都是用来表示样本数据的一种统计图。
通常我们将数的大小基本不变或者变化不大的位作为“茎”,将变化大的位作为“叶”。
1.茎叶图的书写规则书写规则是:“茎”一般要求按照从小到大的顺序从上到下列出。
公用“茎”的“叶”一般也按照从小到大的顺序同行列出,注意重复的项也必须写上。
2.特点图形形状的特点:(1)若图形扁而宽,则说明整体的样本数据集中,样本数据的差异性不大。
(2)若图形长而窄,则说明样本数据比较分散,标准差较大,距组较大。
3.优缺点同频率分布直方图比较,茎叶图中所有的原始数据都可以得到。
并且在以后新增加数据的时候容易修改,但直方图这样操作起来就很困难了。
茎叶图也有其缺点,就是当样本数据比较多的时候,很难进行此操作。
如果我们将茎叶图的茎和叶按逆时针方向旋转90度,得到的是一个没有坐标的直方图。
通过此操作,很容易求出各个数据段的频率分布或频率百分比。
下面我们通过几个例子来阐述上述问题。
例1右图是根据某校10位高一同学的身高(单位:cm)画出的茎叶图。
其中左边两位数字从左到右的分别表示学生身高的百位数字和十位数字,15 5 5 7 8右边的数字表示学生身高的个位数字,从图中可以得到这10个同学16 1 3 3 5身高的中位数是()17 1 2A.161cm B. 162cm解析:15 ∣5表示身高155cm。
这10个数字分别是:155cm、155cm、157cm、158cm、161cm、163c m、163cm、165cm、171cm、172cm。
所以中位数为 =162cm。
评注:由样本数据来求样本的中位数,一般先将所有的数据按从小到大排序。
若个数为奇数则取正中间一个,若个数为偶数,则取中间两个数的平均值。
茎叶图的优点就是对数据不需要排序,可以快速的求出统计量。
例2某中学高一(1)班中段考试数学成绩的茎叶图如右图所示,那么优秀率(90分以上)和最低分分别是() 5 1235%,15 %,51 6 09%,51 %,15 7 98 023367789 1245解析:我们可以将茎叶图转化为样本数据,可以知道最低分为51分。