随机抽样、正态分布
- 格式:ppt
- 大小:825.01 KB
- 文档页数:40
抽样方法、正态分布本页仅作为文档封面,使用时可以删除This document is for reference only-rar21year.March抽样方法、正态分布重点、难点讲解:1.抽样的三种方法:简单随机抽样、系统抽样、分层抽样。
后两种方法是建立在第一种方法基础上的。
2.了解如何用样本估计总体: 用样本估计总体的主要方法是用样本的频率分布来估计总体分布,主要有总体中的个体取不同数值很少和较多甚至无限两种情况。
3.正态曲线及其性质:N(),其正态分布函数:f(x)=, x∈(-∞,+∞)。
把N(0,1)称为标准正态分布,相应的函数表达式:f(x)=, x∈(-∞,+∞)。
正态图象的性质:①曲线在x轴的上方,与x轴不相交。
②曲线关于直线x=μ对称。
③曲线在x=μ时位于最高点。
④当x<μ时,曲线上升;当x>μ时,曲线下降,并且当曲线向左、右两边无限延伸时,以x轴为渐近线,向它无限靠近。
⑤当μ一定时,曲线的形状由确定,越大,曲线越“矮胖”,表示总体的分布越分散;越小,曲线越“瘦高”,表示总体的分布越集中。
4.一般正态分布与标准正态分布的转化对于标准正态分布,用表示总体取值小于x0的概率,即=p(x<x0),其几何意义是由正态曲线N(0,1),x轴,直线x=x0所围成的面积。
又根据N(0,1)曲线关于y轴的对称性知,,并且标准正态总体在任一区间(a,b)内取值概率。
任一正态总体N(),其取值小于x的概率F(x)=。
5.了解“小概率事件”和假设检验的思想。
知识应用举例:例1.从503名大学一年级学生中抽取50名作为样本,如何采用系统抽样方法完成这一抽样思路分析:因为总体的个数503,样本的容量50,不能整除,故可采用随机抽样的方法从总体中剔除3个个体,使剩下的个体数500能被样本容量50整除,再用系统抽样方法。
解:第一步:将503名学生随机编号1,2,3,……,503第二步:用抽签法或随机数表法,剔除3个个体,剩下500名学生,然后对这500名学生重新编号。
抽样分布与理论分布一、抽样分布总体分布:总体中所有个体关于某个变量的取值所形成的分布。
样本分布:样本中所有个体关于某个变量大的取值所形成的分布。
抽样分布:样品统计量的概率分布,由样本统计量的所有可能取值和相应的概率组成。
即从容量为N 的总体中抽取容量为n 的样本最多可抽取m 个样本,m 个样本统计值形成的频率分布,即为抽样分布。
样本平均数的抽样分布:设变量X 是一个研究总体,具有平均数μ和方差σ2。
那么可以从中抽取样本而得到样本平均数x ,样本平均数是一个随机变量,其概率分布叫做样本平均数的抽样分布。
由样本平均数x 所构成的总体称为样本平均数的抽样总体。
它具有参数μx 和σ2x ,其中μx 为样本平均数抽样总体的平均数,σ2x 为样本平均数抽样总体的方差,σx 为样本平均数的标准差,简称标准误。
统计学上可以证明x 总体的两个参数 μx 和σ2x 与X 总体的两个参数μ和σ2有如下关系:μx = μ σ2x = σ2 /n由中心极限定理可以证明,无论总体是什么分布,如果总体的平均值μ和σ2都存在,当样本足够大时(n>30),样本平均值x 分布总是趋近于N (μ,n2)分布。
但在实际工作中,总体标准差σ往往是未知的,此时可用样本标准差S 估计σ。
于是,以nS估计σx ,记为X S ,称为样本标准误或均数标准误。
样本平均数差数的抽样分布:二、正态分布2.1 正态分布的定义:若连续型随机变量X 的概率密度函数是⎪⎭⎫ ⎝⎛--=σμπσx ex f 22121)( (-∞<x <+∞)则称随机变量X 服从平均数为μ、方差为σ2的正态分布,记作X~N (μ,σ2)。
相应的随机变量X 概率分布函数为 F (x )=⎰∞-x dx x f )(它反映了随机变量X 取值落在区间(-∞,x )的概率。
2.2 标准正态分布当正态分布的参数μ=0,σ2=1时,称随机变量X 服从标准正态分布,记作X~N (0,1)。
正态分布的性质及实际应用举例正态分布定义:定义1:设连续型随机变量的密度函数(也叫概率密度函数)为:式中,μ 为正态总体的平均值;σ 为正态总体的标准差; x 为正态总体中随机抽样的样本值。
其中μ 、σ 是常数且σ > 0,则称随机变量ξ 服从参数为μ 、σ 的正态分布,记作ξ ~ N(μ,σ).定义2:在(1)式中,如果μ = 0,且σ =1,这个分布被称为标准正态分布,这时分布简化为:(2)正态分布的分布函数定义3:分布函数是指随机变量X 小于或等于x 的概率,用密度函数表示为:标准正态分布的分布函数习惯上记为φ ,它仅仅是指μ = 0,σ =1时的值,表示为:正态分布的性质:正态分布的变量的频数分布由μ、σ完全决定。
集中性:正态曲线的高峰位于正中央,即均数所在的位置。
对称性:正态曲线以均数为中心,左右对称,曲线两端永远不与横轴相交。
均匀变动性:正态曲线由均数所在处开始,分别向左右两侧逐渐均匀下降。
正态分布有两个参数,即均数μ和标准差σ,可记作N(μ,σ):均数μ决定正态曲线的中心位置;标准差σ决定正态曲线的陡峭或扁平程度。
σ越小,曲线越陡峭;σ越大,曲线越扁平。
u变换:为了便于描述和应用,常将正态变量作数据转换。
μ是正态分布的位置参数,描述正态分布的集中趋势位置。
正态分布以X=μ为对称轴,左右完全对称。
正态分布的均数、中位数、众数相同,均等于μ。
σ描述正态分布资料数据分布的离散程度,σ越大,数据分布越分散,σ越小,数据分布越集中。
也称为是正态分布的形状参数,σ越大,曲线越扁平,反之,σ越小,曲线越瘦高。
应用综述 :1. 估计频数分布 一个服从正态分布的变量只要知道其均数与标准差就可根据公式即可估计任意取值范围内频数比例。
2. 制定参考值范围(1)正态分布法 适用于服从正态(或近似正态)分布指标以及可以通过转换后服从正态分布的指标。
(2)百分位数法 常用于偏态分布的指标。
表3-1中两种方法的单双侧界值都应熟练掌握。
正态分布概率密度函数绿线代表标准正态分布累积分布函数 颜色与概率密度函数同参数location (real )squ (real )支撑集概率密度函數累积分布函数期望值中位数众数方差偏度0峰度3 信息熵 动差生成函数特性函数正态分布normal distribution一种概率分布。
正态分布是具有两个参数μ和σ2的连续型随机变量的分布,第一参数μ是服从正态分布的随机变量的均值,第二个参数σ2是此随机变量的方差,所以正态分布记作N(μ,σ2 )。
服从正态分布的随机变量的概率规律为取与μ邻近的值的概率大,而取离μ越远的值的概率越小;σ越小,分布越集中在μ附近,σ越大,分布越分散。
正态分布的密度函数的特点是:关于μ对称,在μ处达到最大值,在正(负)无穷远处取值为0,在μ±σ处有拐点。
它的形状是中间高两边低,图像是一条位于x轴上方的钟形曲线。
当μ=0,σ2 =1时,称为标准正态分布,记为N(0,1)。
μ维随机向量具有类似的概率规律时,称此随机向量遵从多维正态分布。
多元正态分布有很好的性质,例如,多元正态分布的边缘分布仍为正态分布,它经任何线性变换得到的随机向量仍为多维正态分布,特别它的线性组合为一元正态分布。
正态分布最早由A.棣莫弗在求二项分布的渐近公式中得到。
C.F.高斯在研究测量误差时从另一个角度导出了它。
P.S.拉普拉斯和高斯研究了它的性质。
生产与科学实验中很多随机变量的概率分布都可以近似地用正态分布来描述。
例如,在生产条件不变的情况下,产品的强力、抗压强度、口径、长度等指标;同一种生物体的身长、体重等指标;同一种种子的重量;测量同一物体的误差;弹着点沿某一方向的偏差;某个地区的年降水量;以及理想气体分子的速度分量,等等。
一般来说,如果一个量是由许多微小的独立随机因素影响的结果,那么就可以认为这个量具有正态分布(见中心极限定理)。
从理论上看,正态分布具有很多良好的性质,许多概率分布可以用它来近似;还有一些常用的概率分布是由它直接导出的,例如对数正态分布、t分布、F分布等。
11.6 随机抽样 用样本估计总体 正态分布教材细梳理—-知识点 一.随机抽样 1.简单随机抽样(1).定义:一个总体含有N 个个体,从中逐个①_____地抽取n 个个体作为样本(n ≤N ),如果每次抽取时总体内的各个个体被抽到的机会_②_____,就把这种抽样方法叫做简单随机抽样.(2). 最常用的简单随机抽样方法有两种___③__法和_④_________法. (3). 适用于 ⑤ 的情况. 2.系统抽样(1).定义:将总体分成 ⑥ 的若干部分,然后按照预先制定的规则,从每一部分中抽取一个个体,得到所需要的样本,这样的抽样方法称为系统抽样 . (2).系统抽样步骤:假设要从容量为N 的总体中抽取容量为n 的样本. a. 先将总体的N 个个体⑧ .有时可直接利用个体自身所带的号码,如学号、准考证号、门牌号等;(编号的位数要一样) b. 确定⑨ ,对编号进行分段.当N n (n 是样本容量)是整数时,取k =N n;c. 在第1段用_⑩_________确定第一个个体编号l (l ≤k );d. 按照一定的规则抽取样本.通常是将l ⑪ 得到第2个个体编号(l +k ),再加k 得到第3个个体编号(l +2k ) 依次进行下去,直到获取整个样本. (3).系统抽样适用于⑫ 的情况. 3.分层抽样(1).定义:当总体由⑬ 组成时,为了使抽取的样本更好地反映总体的情况,可将总体中各个个体按某种特征分成若干个互不重叠的几部分,每一部分叫做层,在各层中按层在总体中所占⑭ 进行简单随机抽样或系统抽样,这种抽样方法叫做分层抽样.(2).分层抽样适用于总体由差别明显的几部分组成的情况. 二.样本估计总体有关概念和知识点1.通常我们对总体作出的估计一般分成两种.一种是用样本的①__________估计总体的分布.另一种是用样本的② 估计总体的数字特征. 2.频率分布直方图画法(1).求极差(最大值-最小值=极差). (2).决定组距与组数.(3).确定分点,将数据分组.5.茎叶图以数据的高位为茎,放中间,低位为叶放两边,它的优点是: (1)保留了原始数据,没有损失样本信息.(2)数据可以随时记录、添加或修改. (n x x ++-2(n x x ++-受极值影响较大。
高三数学高效课堂资料学案四十九 随机抽样、用样本估计总体、正态分布(概率与统计学案三,共八个)一、考点与能力要求1.熟练掌握随机抽样的概念、抽样方法及三种抽样的区别与联系;2.掌握频率、中位数、众数、方差、标准差的定义;3.能利用频率分布直方图解决与概率有关的实际问题;4.了解正态分布曲线的特点及曲线所表示的意义并结合具体题目进行运算。
二、知识讲解 (一)预备知识1.抽样方法:三种抽样的共同点与各自特点分别是什么?2.样本分析(1)样本平均值 (2)样本众数 (3)样本中位数 (4)样本方差众数、中位数、平均数都是描述一组数据集中趋势的量,方差是用来描述一组数据波动情况的特征数。
3.频率分布直方图(1)频率分布直方图的绘制; (2)样本估计总体;(3)用样本平均数估计总体平均数,用样本标准差估计总体标准差。
4.正态分布 (1)正态变量概率密度曲线的函数表达式为 ,其中参数σμ,分别表示什么变量?标准正态分布怎样表示?(2)正态分布曲线的几何性质?(二)基础知识析理 1.随机抽样(1)基础解读:随机抽样包括简单随机抽样、系统抽样、分层抽样三种。
它们的共同点:抽样过程中每个个体被抽取的机会相同,都是不放回的抽样 。
不同点:使用的范围不同。
简单随机抽样适用于总体个数较少的抽样;系统抽样适用于总体个数较多的抽样;分层抽样适用于总体由差异明显的几部分所组成的抽样。
(2)应用:(2017江苏) 某工厂生产甲、乙、丙、丁四种不同型号的产品,产量分别为22()21(),2x f x e x R μσπσ--=∈∙22222123()()()()n x x x x x x x x S n-+-+-+∙∙∙+-=2222123()()()()n x x x x x x x x S n -+-+-+∙∙∙+-=60件进行检验,则应从丙种型号的产品中抽取 件. 2.正态分布(1)基础解读:若随机变量ξ服从正态分布2(,)N μσ,则()68.26%P μσξμσ-<<+=,(22)95.44%P μσξμσ-<<+=。
1.总体:总体(population)是根据研究目的确定的同质的观察单位的全体,更确切的说,是同质的所有观察单位某种观察值(变量值)的集合。
总体可分为有限总体和无限总体。
总体中的所有单位都能够标识者为有限总体,反之为无限总体。
样本:从总体中随机抽取部分观察单位,其测量结果的集合称为样本(sample)。
样本应具有代表性。
所谓有代表性的样本,是指用随机抽样方法获得的样本.2。
随机抽样:随机抽样(random sampling)是指按照随机化的原则(总体中每一个观察单位都有同等的机会被选入到样本中),从总体中抽取部分观察单位的过程。
随机抽样是样本具有代表性的保证。
3。
变异:在自然状态下,个体间测量结果的差异称为变异(variation)。
变异是生物医学研究领域普遍存在的现象。
严格的说,在自然状态下,任何两个患者或研究群体间都存在差异,其表现为各种生理测量值的参差不齐。
4。
计量资料:对每个观察单位用定量的方法测定某项指标量的大小,所得的资料称为计量资料(measurement data)。
计量资料亦称定量资料、测量资料..其变量值是定量的,表现为数值大小,一般有度量衡单位.如某一患者的身高(cm)、体重(kg)、红细胞计数(1012/L)、脉搏(次/分)、血压(KPa)等计数资料:将观察单位按某种属性或类别分组,所得的观察单位数称为计数资料(count data)。
计数资料亦称定性资料或分类资料。
其观察值是定性的,表现为互不相容的类别或属性。
如调查某地某时的男、女性人口数;治疗一批患者,其治疗效果为有效、无效的人数;调查一批少数民族居民的A、B、AB、O 四种血型的人数等。
等级资料:将观察单位按测量结果的某种属性的不同程度分组,所得各组的观察单位数,称为等级资料(ordinal data)。
等级资料又称有序变量.如患者的治疗结果可分为治愈、好转、有效、无效或死亡,各种结果既是分类结果,又有顺序和等级差别,但这种差别却不能准确测量;一批肾病患者尿蛋白含量的测定结果分为 +、++、+++等.等级资料与计数资料不同:属性分组有程度差别,各组按大小顺序排列。
正态性检验方法
正态性检验是一种确定样本数据是否服从正态分布的检验方法。
它通常用于检查数据是否满足期望的正态分布,这对很多统计技术而言是很重要的。
通常,正态性检验有多种形式,其中包括Kolmogorov-Smirnov检验、Shapiro-Wilk检验、Chi-Square检验和Anderson-Darling检验。
Kolmogorov-Smirnov检验(K-S检验)是一种无参数正态性检验,它比较实际分布和理论分布的CDF之间的差异,通过计算样本最大绝对差异来判断样本是否符合正态分布。
K-S检验使用的是随机抽样,可以检验观测值和理论值之间的极端差异,但如果两个分布之间有微小的差异,K-S检验就不能很好地检测出来。
Shapiro-Wilk检验(SW检验)是一种有参数正态性检验,它通过比较累积分布函数的估计值和理论值之间的差异,来衡量样本是否符合正态分布。
它使用少量参数,比K-S检验更加高效。
然而,它的优势仅在于处理小的样本量,当样本量较大时,其拒绝假设的能力要差一些。
Chi-Square检验(卡方检验)是一种有参数正态性检验,它通过比较实际数据和理论数据之间的差异来判断数据是否符合正态分布。
它使用较大的参数统计量,如果样本量较小,则拒绝正态性可能性较大,反之亦然。
Anderson-Darling检验(A-D检验)是一种无参数正态性检验。