高中数学统计学共66页
- 格式:ppt
- 大小:6.17 MB
- 文档页数:66
必修三统计知识点二、统计初步有关概念和公式:1、频数——落在各个小组的数据的个数叫~。
2、频率——每一个小组频数与数据的比值叫做这一组的~。
3、总体——所要考察对象的全体叫做~。
4、个体——每一个考察对象~。
5、样本——从总体中所抽取的一部分个体叫做总体的一个样本。
6、样本容量——样本中个体的数目叫做~。
7、众数——在一组数据中,出现次数最多的数据叫做这组数据的众数。
8、中位数——将一组数据按从小到大排列,把处在最中间位置的一个数据(或最中间两个数据的平均数)叫做这组数据的中位数。
9、总体分布——总体取值的概率分布规律通常称为~。
10、连续型总体——可以在实数区间取值的总体叫~。
11、累积频率——样本数据小于某一数值的频率,叫做~。
计算最大值与最小值的差决定组距与数据列法决定分点列表12、频率分布表试验结果频数频率表的行式分组个数累计频数频率累积频率(有时可省略)(有时可省略)横轴——实验结果纵轴频率条形图用高度表示各取值的频率适用于个体取不同值较少横轴——产品尺寸纵轴——频率/组距13、直方图用图形面积的大小表示在各个区间内取值的概率适用于个体在区间内取值横轴——产品尺寸累积频率分布图纵轴——累计频率反映一组数据的分布情况14、总体分布曲线——当样本容量无限增大、分组的组距无缩限小时、频率分布直方图就会无限趋近于一条光滑曲线,这条曲线叫总体密度曲线。
以这条曲线为图象的函数叫做总体的概率密度函数。
总体密度函数反映了总体分布,即反映总体在各个范围内取值的概率。
P(a<ξ<b)的值等于直线 x=a,x=b 与曲线、x 轴围成的图形面积。
15、累积分布曲线——当样本容量无限增大、分组的组距无缩限小时,累积频率分布图就会无限趋近于一条光滑曲线,这条曲线叫累积分布曲线。
它反映了总体的累积分布规律,即曲线上任意一点 P(a,b)纵坐标 b,表示总体取小于 a 的值的概率。
1①正态总体的概率密度函数f(x)-(x - )22 2, ∈R(其中 总体的平均数, 总体的标准差,N(μ,σ2)—正态总体,有时记作 N(μ,σ2)1)曲线在轴上方,并且关于直线 x=对称:②正态曲线的性质2)曲线在x=μ时处于最高点,由这一点向左、右两边延伸时,曲线逐渐下降:3)曲线的对称轴位置由μ确定:直线的形状由σ确定,σ越大,曲线的形状越“矮胖”反过来曲线越“高瘦”③正态曲线在几个区间上的取值:区间取值概率(μ-σ,μ+σ)68.3%(μ-2σ,μ+2σ)95.44%(μ-3σ,μ+3σ)99.7%16、质控图④小概率事件——通常指发生的概率小于5%的事件。
第二章统计一、三种抽样方法1、统计的的基本思想是:用样本的某个量去估计总体的某个量总体:在统计中,所有考察对象的全体。
个体:总体中的每一个考察对象。
样本:从总体中抽取的一部分个体叫做这个总体的一个样本。
样本容量:样本中个体的数目。
2、抽样方法:要求:总体中每个个体被抽取的机会相等(1)简单随机抽样:抽签法和随机数表法简单随机抽样的特点是:不放回、等可能.抽签法步骤(1)先将总体中的所有个体(共有N个)编号(号码可从1到N)(2)把号码写在形状、大小相同的号签上,号签可用小球、卡片、纸条等制作(3)将这些号签放在同一个箱子里,进行均匀搅拌(4)抽签时,每次从中抽出一个号签,连续抽取n次(5)抽出样本随机数表法步骤(1)将总体中的个体编号(编号时位数要统一);(2)选定开始的数字;(3)按照一定的规则读取号码;(4)取出样本(2)系统抽样系统抽样特点:容量大、等距、等可能.步骤:1.编号,随机剔除多余个体,重新编号2.分组 (段数等于样本容量),确定间隔长度 k=N/n3.抽取第一个个体编号为i4.依预定的规则抽取余下的个体编号为i+k, i+2k, …(3)分层抽样分层抽样特点:总体差异明显、按所占比例抽取、等可能.步骤:1.将总体按一定标准分层;2.计算各层的个体数与总体的个体数的比;3.按比例确定各层应抽取的样本数目4.在每一层进行抽样 (可用简单随机抽样或系统抽样)二、用样本估计总体1、用样本的频率分布估计总体的分布①作样本频率分布直方图的步骤:(1)求极差;(2)决定组距与组数; (组数=极差/组距)(3)将数据分组;(4)列频率分布表(分组,频数,频率);(5)画频率分布直方图。
根据频率分布表做频率分布直方图应注意两点:频率⑴纵轴的意义:组距⑵横轴的意义:样本内容(每个矩形下面是组距).例1、为了了解中学生的身高情况,对育才中学同龄的50名男学生的身高进行了测量,结果如下:(单位:cm)175 168 180 176 167 181 162 173 171 177171 171 174 173 174 175 177 166 163 160166 166 163 169 174 165 175 165 170 158174 172 166 172 167 172 175 161 173 167170 172 165 157 172 173 166 177 169 181列出样本的频率分布表,画出频率分布直方图.解:在这个样本中,最大值为181,最小值为157,它们的差是24,可以取组距为4,分成7组,根据题意列出样本的频率分布表如下:频率分布直方图(略)②茎叶图作图步骤:1.将每个数据分为茎(高位)和叶(低位)两部分.2.将最小茎和最大茎之间的数按大小顺序排成一列,写在左(右)侧;3.将各个数据的叶按大小次序写在其右(左)侧.例、某中学高二(2)班甲、乙两名同学自高中以来每场数学考试成绩如下:甲的得分:95,81,75,91,86,89,71,65,76,88,94,110,107;乙的得分:83,86,93,99,88,130,98,114,98,79,101.画出两人数学成绩茎叶图,请根据茎叶图对两人的成绩进行比较.解:甲、乙两人数学成绩的茎叶图如下图:甲乙5 65 6 1 7 98 9 6 1 8 6 3 84 15 9 3 9 8 87 10 3 10 11 4从这个茎叶图上可看出,乙同学的得分情况是大致对称的,中位数是99;甲同学的得分情况除一个特殊得分外,也大致对称,中位数是89.因此乙同学发挥比较稳定,总体得分情况比甲同学好.2、用样本的数据特征估计总体的数据特征(1)、在频率直方图中计算众数、平均数、中位数众数:在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。
第二章统计一、三种抽样方法1、的的基本思想是:用本的某个量去估体的某个量体:在中,所有考察象的全体。
个体:体中的每一个考察象。
本:从体中抽取的一部分个体叫做个体的一个本。
本容量:本中个体的数目。
2、抽方法:要求:体中每个个体被抽取的机会相等(1)随机抽:抽法和随机数表法随机抽的特点是:不放回、等可能.抽法步( 1)先将体中的所有个体(共有N 个)号(号可从 1 到 N)( 2)把号写在形状、大小相同的号上,号可用小球、卡片、条等制作( 3)将些号放在同一个箱子里,行均匀拌(4)抽,每次从中抽出一个号,抽取n 次(5)抽出本随机数表法步(1)将体中的个体号 ( 号位数要一 ) ;( 2)定开始的数字;( 3)按照一定的取号;( 4)取出本(2)系抽系抽特点:容量大、等距、等可能.步 :1.号 , 随机剔除多余个体 , 重新号2.分 ( 段数等于本容量 ), 确定隔度 k=N/n3.抽取第一个个体号 i4. 依定的抽取余下的个体号i+k, i +2k, ⋯(3)分抽分抽特点:体差异明、按所占比例抽取、等可能.步: 1. 将体按一定准分 ;2.算各的个体数与体的个体数的比;3.按比例确定各抽取的本数目4.在每一行抽 ( 可用随机抽或系抽 )二、用样本估计总体1、用样本的频率分布估计总体的分布①作样本频率分布直方图的步骤:(1)求极差;(2)决定组距与组数 ; ( 组数=极差 / 组距 )(3)将数据分组;(4)列频率分布表(分组,频数,频率);(5)画频率分布直方图。
根据频率分布表做频率分布直方图应注意两点:频率⑴纵轴的意义:组距⑵横轴的意义:样本内容(每个矩形下面是组距).例 1、为了了解中学生的身高情况, 对育才中学同龄的50名男学生的身高进行了测量, 结果如下:(单位: cm)175168180176167181162173171177171171174173174175177166163160166166163169174165175165170158174172166172167172175161173167170172165157172173166177169181列出样本的频率分布表, 画出频率分布直方图.解:在这个样本中, 最大值为 181, 最小值为 157, 它们的差是24, 可以取组距为4, 分成 7 组 , 根据题意列出样本的频率分布表如下:分组频数频率156.5 ~ 160.530.06160.5 ~ 164.540.08164.5 ~ 168.5120.24168.5 ~ 172.5120.24172.5 ~ 176.5130.26176.5 ~ 180.540.08180.5 ~ 184.520.04合计50 1.00频率分布直方图( 略 )②茎叶图作图步骤:1.将每个数据分为茎 ( 高位 ) 和叶 ( 低位 ) 两部分 .2. 将最小茎和最大茎之间的数按大小顺序排成一列, 写在左 ( 右 ) 侧;3.将各个数据的叶按大小次序写在其右( 左 ) 侧.例、某中学高二(2) 班甲、乙两名同学自高中以来每场数学考试成绩如下:甲的得分: 95,81,75,91,86,89,71,65,76,88,94,110,107;乙的得分: 83,86,93,99,88,130,98,114,98,79,101.画出两人数学成绩茎叶图, 请根据茎叶图对两人的成绩进行比较.解:甲、乙两人数学成绩的茎叶图如下图:甲乙565 6 1 798 9 6 1 8 6 3 84 15 9 3 9 8 87 10 310 114从这个茎叶图上可看出, 乙同学的得分情况是大致对称的, 中位数是99;甲同学的得分情况除一个特殊得分外,也大致对称, 中位数是89. 因此乙同学发挥比较稳定, 总体得分情况比甲同学好.2、用样本的数据特征估计总体的数据特征( 1)、在频率直方图中计算众数、平均数、中位数众数:在样本数据的频率分布直方图中,就是最高矩形的中点的横坐标。
第九章统计(公式、定理、结论图表)1.全面调查和抽样调查调查方式全面调查(普查)抽样调查定义对每一个调查对象都进行调查的方法,称为全面调查,又称普查根据一定目的,从总体中①抽取一部分个体进行调查,并以此为依据对总体的情况作出估计和推断的调查方法,称为抽样调查相关概念总体:在一个调查中,我们把调查对象的全体称为总体.个体:组成总体的每一个调查对象称为个体样本:把从总体中抽取的那部分个体称为样本.样本量:样本中包含的个体数称为样本量2.简单随机抽样的概念放回简单随机抽样不放回简单随机抽样一般地,设一个总体含有N(N为正整数)个个体,从中②逐个抽取n(1≤n<N)个个体作为样本如果抽取是放回的,且每次抽取时总体内的各个个体被抽到的概率都③相等,我们把这样的抽样方法叫做放回简单随机抽样如果抽取是不放回的,且每次抽取时总体内④未进入样本的各个个体被抽到的概率都相等,我们把这样的抽样方法叫做不放回简单随机抽样放回简单随机抽样和不放回简单随机抽样统称为简单随机抽样.通过简单随机抽样获得的样本称为简单随机样本3.抽签法先把总体中的个体编号,然后把所有编号写在外观、质地等无差别的小纸片(也可以是卡片、小球等)上作为号签,并将这些小纸片放在一个⑤不透明的盒里,充分搅拌.最后从盒中不放回地逐个抽取号签,使与号签上的编号对应的个体进入样本,直到抽足样本所需要的个体数.4.随机数法(1)定义:先把总体中的个体编号,用随机数工具产生已编号范围内的整数随机数,把产生的随机数作为抽中的编号,使与编号对应的个体进入样本,重复上述过程,直到抽足样本所需要的个体数.(2)产生随机数的方法:(i)用随机试验生成随机数;(ii)用信息技术生成随机数.5.总体均值和样本均值(1)总体均值:一般地,总体中有N个个体,它们的变量值分别为Y1,Y2,…,Y N,则称Y=⑥Y1+Y2+…+Y NN ⑦1N∑i=1NY i为总体均值,又称总体平均数.(2)总体均值加权平均数的形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Y k,其中Y i出现的频数f i(i 1,2,…,k),则总体均值还可以写成加权平均数的形式Y⑧1 N∑i=1kf i Y i.(3)如果从总体中抽取一个容量为n的样本,它们的变量值分别为y1,y2,…,y n,则称y=⑨y1+y2+…+y nn ⑩1n∑i=1ny i为样本均值,又称样本平均数.6.分层随机抽样的相关概念(1)分层随机抽样的定义:一般地,按一个或多个变量把总体划分成若干个子总体,每个个体属于且仅属于一个子总体,在每个子总体中独立地进行①简单随机抽样,再把所有子总体中抽取的样本②合在一起作为总样本,这样的抽样方法称为分层随机抽样,每一个子总体称为层.(2)比例分配:在分层随机抽样中,如果每层③样本量都与层的大小成比例,那么称这种样本量的分配方式为比例分配.7.画频率分布直方图的步骤(1)求极差:极差为一组数据中①最大值与②最小值的差;(2)决定组距与组数:当样本容量不超过100时,常分成③5~12组,为方便起见,一般取等长组距,并且组距应力求“取整”;(3)将数据分组;(4)列频率分布表:一般分四列:分组、④频数累计、频数、⑤频率.其中频数合计应是样本容量,频率合计是⑥1;(5)画频率分布直方图:横轴表示分组,纵轴表示⑦频率组距.小长方形的面积组距×⑧频率组距⑨频率,各小长方形的面积的总和等于1.8.其他统计图表统计图表主要应用扇形图直观描述各部分数据在全部数据中所占的比例条形图和直方图直观描述不同类别或分组数据的频数和频率折线图反映统计对象在不同时间(或其他合适情形)的发展变化情况9.第p百分位数一般地,一组数据的第p百分位数是这样一个值,它使得这组数据中至少有①p%的数据小于或等于这个值,且至少有(100-p)%的数据大于或等于这个值.10.计算一组n个数据的第p百分位数的步骤第1步,按②从小到大排列原始数据.第2步,计算i ③n×p%.第3步,若i不是整数,而大于i的比邻整数为j,则第p百分位数为第j项数据;若i是整数,则第p百分位数为第i项与第(i+1)项数据的④平均数.11.四分位数⑤第25百分位数,⑥第50百分位数,⑦第75百分位数,这三个分位数把一组由小到大排列后的数据分成四等份,因此称为四分位数.12.众数、中位数和平均数的定义(1)众数:一组数据中①出现次数最多的数.(2)中位数:一组数据按大小顺序排列后,处于②中间位置的数.如果这组数据是偶数个,则取③中间两个数据的平均数.(3)平均数:一组数据的④和除以数据个数所得到的数.13.众数、中位数、平均数与频率分布直方图的关系(1)平均数:在频率分布直方图中,样本平均数可以用每个小矩形底边中点的⑤横坐标与小矩形的⑥面积的乘积之和近似代替.(2)中位数:在频率分布直方图中,中位数左边和右边的直方图的面积应该⑦相等.(3)众数:众数是⑧最高小矩形底边的中点所对应的数据.【特别提醒】众数、中位数和平均数的比较名称优点缺点平均数与中位数相比,平均数反映出样本数据中更多的信息,对样本中的极端值更加敏感任何一个数据的改变都会引起平均数的改变.数据越“离群”,对平均数的影响越大中位数不受少数几个极端数据(即排序靠前或靠后的数据)的影响对极端值不敏感众数体现了样本数据的最大集中点众数只能传递数据中信息很少的一部分,对极端值不敏感14.一组数据x1,x2,…,x n的方差和标准差数据x1,x2,…,x n的方差为①1n∑i=1n(x i-x)2②1n∑i=1nx i2-x2,标准差为③√1n∑i=1n(x i-x)2.15.总体方差和总体标准差(1)总体方差和标准差:如果总体中所有个体的变量值分别为Y1,Y2,…,Y N,总体的平均数为Y,则称S2④1N∑i=1N(Y i-Y)2为总体方差,S ⑤√S2为总体标准差.(2)总体方差的加权形式:如果总体的N个变量值中,不同的值共有k(k≤N)个,不妨记为Y1,Y2,…,Y k,其中Y i出现的频数为f i(i 1,2,…,k),则总体方差为S2⑥1N∑i=1kf i(Y i-Y)2.16.样本方差和样本标准差如果一个样本中个体的变量值分别为y1,y2,…,y n,样本平均数为y,则称s2⑦1n∑i=1n(y i-y)2为样本方差,s ⑧√s2为样本标准差.17.标准差的意义标准差刻画了数据的⑨离散程度或⑩波动幅度,标准差越大,数据的离散程度越大;标准差越小,数据的离散程度越小.【特别提醒】对标准差和方差概念的理解(1)标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大;标准差、方差越小,数据的离散程度越小.(2)标准差、方差的取值范围:[0,+∞).标准差、方差为0时,样本各数据全相等,表明数据没有波动幅度,数据没有离散性.(3)因为方差与原始数据的单位不同,且平方后可能夸大了偏差的程度,所以虽然方差与标准差在刻画样本数据的离散程度上是一样的,但在解决实际问题时,一般多采用标准差.18.分层随机抽样的方差设样本容量为n,平均数为x,其中两层的个体数量分别为n1,n2,两层的平均数分别为x1,x2,方差分别为s12,s22,则这个样本的方差为s2n1n [s12+(x1-x)2]+n2n[s22+(x2-x)2].<解题方法与技巧>1.使用分层随机抽样法应遵循的原则(1)将相似的个体归入一类,即为一层,分层要求每层的各个个体互不交叉,即遵循不重复、不遗漏的原则;(2)分层随机抽样为保证每个个体等可能入样,需在各层中进行简单随机抽样,每层样本数量与每层个体数量的比等于抽样比.2.进行分层随机抽样的相关计算时,常用到的关系(1)样本容量n总体容量N 该层抽取的个体数该层的个体数;(2)总体中某两层的个体数之比等于样本中这两层抽取的个体数之比;(3)样本的平均数和各层的样本平均数的关系:w mm+n x+nm+ny MM+Nx+NM+Ny.典例1:某公司在甲、乙、丙、丁四个地区分别有150个、120个、180个、150个销售点.公司为了调查产品销售的情况,需从这600个销售点中抽取一个容量为100的样本,记这项调查为①;在丙地区中有20个特大型销售点,要从中抽取7个调查其销售收入和售后服务情况,记这项调查为②.则完成①、②这两项调查宜采用的抽样方法依次是( )A.分层抽样法,系统抽样法 B.分层抽样法,简单随机抽样法C.系统抽样法,分层抽样法 D.简单随机抽样法,分层抽样法【思路点拨】此题为抽样方法的选取问题.当总体中个体较多而且差异又不大时宜采用系统抽样,采用系统抽样在每小组内抽取时应按规则进行;当总体中的个体差异较大时,宜采用分层抽样;当总体中个体较少时,宜采用随机抽样.【解析】依据题意,第①项调查应采用分层抽样法、第②项调查应采用简单随机抽样法.故选B.【总结升华】采用什么样的抽样方法要依据研究的总体中的个体情况来定.3.频率分布直方图的性质(1)因为小长方形的面积组距×频率组距=频率,所以各小长方形的面积表示相应各组的频率.这样,频率分布直方图就以面积的形式反映了数据落在各个小组的频率的大小.(2)在频率分布直方图中,各小长方形的面积的总和等于1.(3)样本容量频数相应的频率.4.频率分布直方图中第p百分位数的计算方法方法一:(1)确定百分位数所在的区间[a,b);(2)确定小于a和小于b的数据所占的百分比分别为f a%,f b%,则第p百分位数为a+p%-f a%f b%-f a%×(b-a).方法二:设出百分位数的值,利用百分位数的定义计算.典例2:为了了解某地区高三学生的身体发育情况,抽查了该地区100名年龄为17.5岁-18岁的男生体重(kg) ,得到频率分布直方图如下:根据上图可得这100名学生中体重在〔56.5,64.5〕的学生人数是()(A)20 (B)30 (C)40 (D)50【答案】C;【解析】根据运算的算式:体重在〔56.5,64.5〕学生的累积频率为2×0.03+2×0.05+2×0.05+2×0.07=0.4,则体重在〔56.5,64.5〕学生的人数为0.4×100=40.5.利用样本的数字特征解决优化决策问题的依据(1)平均数反映了数据取值的平均水平;标准差、方差描述了一组数据围绕平均数波动的大小.标准差、方差越大,数据的离散程度越大,越不稳定;标准差、方差越小,数据的离散程度越小,越稳定.(2)用样本估计总体就是利用样本的数字特征来描述总体的数字特征.6.利用样本数字特征进行决策时的两个关注点(1)平均数与每一个数据都有关,可以反映更多的总体信息,但受极端值的影响较大;中位数是样本数据所占频率的等分线,不受极端值的影响;众数只能体现数据的最大集中点,无法客观反映总体特征.(2)当平均数大于中位数时,说明数据中存在许多较大的极端值;反之,说明数据中存在许多较小的极端值.7.众数、中位数、平均数与频率分布直方图的关系众数众数是最高小长方形底边的中点所对应的数据,表示样本数据的中心值中位数①在频率分布直方图中,中位数左边和右边的直方图面积相等,由此可以估计中位数的值,但是有偏差;②表示样本数据所占频率的等分线平均数①平均数等于每个小长方形的面积乘小长方形底边中点的横坐标之和;②平均数是频率分布直方图的重心,是频率分布直方图的平衡点8.计算分层随机抽样的方差s 2的步骤(1)确定x 1,x 2,s 12,s 22;(2)确定x ;(3)应用公式s 2 n1n [s 12+(x 1-x)2]+n2n [s 22+(x 2-x)2]计算s 2.9.数据分析的要点要正确处理此类问题,首先要抓住问题中的关键词语,全方位地进行必要的计算、分析,而不能习惯性地仅从平均数的大小去决定哪一组的成绩好,解决像这样的实际问题还得从实际的角度去分析.典例3:甲、乙两人在一次射击比赛中各射靶5次.两人成绩的统计表如甲表、乙表所示,请根据你所学统计知识,进一步判断这两个人这次比赛中的成绩情况. 甲表:乙表:【解析】甲、乙两人比赛的中位数、平均数如下:甲的平均数是4567865x ++++==甲;乙的平均数是536965x ⨯++==乙;甲、乙的平均数都是6,甲的中位数是6,乙的中位数是5,甲的总体成绩好些; 从方差看,甲的方差是2222221[(2)(1)012]25s =-+-+++=甲, 乙的方差是22221[3(1)03] 2.45s =⨯-++=乙;甲的成绩较乙的成绩好;甲的极差是8―4=4,乙的极差是9―5=4.【总结升华】平均数、众数、中位数描述了数据的集中趋势,极差、方差和标准差描述了数据的波动大小,也可以说反映了各个数据与其平均数的离散程度,方差越大,数据的离散程度越大,越不稳定;方差越小,数据的离散程度越小,越稳定.。