四大分布简述-心理统计
- 格式:docx
- 大小:129.71 KB
- 文档页数:5
统计学常见分布、概念⾮常有必要搞清楚统计学种⼀些常⽤的分布离散型随机变量分布1.两点分布/伯努利分布伯努利分布是⼆项分布在n=1时的特例。
⼀次随机试验,成功概率为p,失败概率为q=1-p。
2.⼆项分布⼆项分布(Binomial distribution)是n重伯努利试验成功次数的离散概率分布。
⼆项分布的典型例⼦是扔硬币,硬币正⾯朝上概率为p, 重复扔n次硬币,k次为正⾯的概率即为⼀个⼆项分布概率。
3.超⼏何分布对N件产品(其中M件次品)进⾏不放回抽样,在n次抽样种抽到次品数X,服从超⼏何分布。
4.⼏何分布X记⾸次成功的概率,服从⼏何分布。
5.负⼆项分布X记第k次成功时总的实验次数,当k=1时,为⼏何分布。
“⼆项分布”是固定试验总次数N的独⽴试验中,成功次数k的分布;⽽“负⼆项分布”是所有到成功r次时即终⽌的独⽴试验中,失败次数k的分布。
例⼦:Pat is required to sell candy bars to raise money for the 6th grade field trip. There are thirty houses in the neighborhood, and Pat is not supposed to return home until five candy bars have been sold. So the child goes door to door, selling candy bars. At each house, there is a 0.4 probability of selling one candy bar and a 0.6 probability of selling nothing.What's the probability of selling the last candy bar at the nth house?6.泊松分布有些事件,我们可以预估这些事件的总数,但是没法知道具体的发⽣时间。
全距(range):亦称“极差”。
差异量数的一种。
用R表示。
一组数据中极大值与极小值之间的差距。
即极大值减极小值所得数据结果。
主要适用于等距数据、比率数据等有单位的数据,不适用于名称数据和顺序数据。
四分位差(quartile deviation):亦称“内距”、“四分间距”。
差异量数的一种。
一组数据中上四分位数与下四分位数之差。
用Q表示。
四分位数指将若干按递增顺序排列的数据等分为四部分时,位于划分临界点上的数据。
四分位差主要用于测度顺序、等距和比率数据的离散程度,但一般不适合于类别数据。
离差(deviation):亦称“差量”。
差异量数的一种。
一组数据中具体数值与平均数之间的差。
实际使用中一般通过离差平方和来表示数据分布的集中程度。
离差平方和(sum of squares of deviation):差异量数的一种。
一组数据中每个数据离差平方的总和。
一般用来表示数据分布的集中程度。
方差(variance):差异量数的一种。
随机变量§与其数学期望Es的偏差平方的加权平均E(§-Es)²。
用Ds或vars表示。
在概率论和数理统计中,表示随机变量和其数学期望(即均值)之间的偏离程度,即数据和中心偏离的程度。
用来衡量一批数据的波动大小(即这批数据偏离平均数的大小)。
在样本容量相同的情况下,方差越大,说明数据的波动越大,越不稳定。
样本方差(sample variance):与“总体方差”相对。
样本数据的方差。
用S²表示。
当总体方差未知,需要对其进行估计时,通常使用样本方差的修正公式估计总体方差,以保证估计的无偏性。
总体方差(population variance):与“样本方差”相对。
总体数据的方差。
用a²表示。
当总体方差未知时,一般通过样本方差进行估计。
参见“样本方差”。
标准差(standard deviation):亦称“均方差”。
差异量数的一种。
方差的平方根。
统计学上三大分布推导方法统计学涉及到众多的概率分布,其中三大分布推导方法是统计学中的重要内容。
这三种分布分别是正态分布、指数分布和泊松分布。
首先,我们来介绍正态分布。
正态分布又称为高斯分布,是统计学中常见且重要的分布之一。
正态分布的形状呈钟形曲线,两侧尾部逐渐递减。
我们经常可以在生活中观察到符合正态分布的现象,如人的身高、体重等。
正态分布的推导方法主要基于中心极限定理,通过对大量独立随机变量求平均值的方式得到。
正态分布的参数包括均值和标准差,通过对原始数据进行变换和标准化,可以将任意分布转化为标准正态分布。
正态分布在统计学中有广泛的应用,如假设检验、置信区间估计等。
接下来,让我们看看指数分布。
指数分布是一种描述随机事件发生时间间隔的分布,常用于描述连续事件的无记忆性。
例如,指数分布可以用于描述等待某件事情发生的时间,如等待公交车到站的时间。
指数分布的推导方法主要基于随机过程理论中的泊松过程。
指数分布的参数是速率参数,参数的倒数表示了事件发生的平均等待时间。
指数分布的特点是呈右偏态分布,即事件发生的概率逐渐减小。
在实际应用中,指数分布常用于可靠性分析、风险评估等方面。
最后,我们来了解一下泊松分布。
泊松分布是一种用于描述单位时间内随机事件发生次数的分布。
例如,泊松分布可以用于描述在一段时间内电话呼叫的次数、邮件的接收量等。
泊松分布的推导方法主要基于稀有事件的统计推断,通过限制时间段内的事件次数来得到。
泊松分布的参数是平均发生次数,参数越大,分布形状越集中在平均发生次数附近。
泊松分布的特点是呈正偏态分布,即事件发生的概率逐渐增加后逐渐减小。
在实际应用中,泊松分布常用于建模离散事件的发生情况,如交通流量、事故发生率等。
综上所述,正态分布、指数分布和泊松分布是统计学中重要的三大分布推导方法。
通过对中心极限定理、随机过程理论和稀有事件统计推断的研究,我们可以得到这三种分布。
这些分布在实际问题的建模和分析中有广泛的应用,对于理解和解决实际问题具有重要的指导意义。
概率论三大分布四大定理概率论是统计学的一个分支,它讨论和研究一些随机事件发生的概率。
它的研究对于进行统计分析和做出经验推断都非常重要。
概率论主要分为三大分布及四大定理。
首先来谈谈三大分布:正态分布、泊松分布和二项式分布。
正态分布又称高斯分布,是一种表征连续随机变量的概率分布,由其特殊的曲线形式,常可以清楚直观地反映出总体中随机变量分布的特点。
它具有平均值、标准差和期望值等参数,常用于描述一般性普适性状。
泊松分布也称为指数分布,这种分布可以用来描述一定时间内发生某类事件的次数。
它具有概率分布函数及期望值、方差等参数,主要应用于线性回归模型中,广泛应用于抽样检验、可靠性分析。
二项式分布是离散随机变量的概率分布,它可以描述试验重复完成某类事情的次数。
它反映的是一系列重复实验中成功次数的概率,具有概率函数及期望值、方差等参数,主要应用于网络设计中,广泛应用于效率分析及统计检验。
接下来让我们来谈谈四大定理:大数定律、中心极限定理、方差定理和期望定理。
大数定律规定,一系列的实验结果的均值越多越接近期望值,它解释了总体均值和样本均值的关系,是概率论中最重要的定理。
中心极限定理指出,在进行大量独立重复实验时,总体随机变量的分布接近正态分布,即随着实验次数的增加,实验结果越来越接近期望值。
方差定理规定,当做一系列实验时,总体方差应越来越小,而样本方差则越来越接近总体方差,这表明样本变量的方差可以代表总体方差。
期望定理定义了实验的期望值的关系,表明总体期望值可以由样本期望值准确估计。
概率论中的三大分布及四大定理是概率研究的基础知识,也是统计分析的基础。
掌握这些基本概念和定理,可以帮助我们理解和深入探讨更多有关概率和统计的主题,从而更好地应用于各种实际领域。
知识点总结分布导言分布是统计学中一个重要的概念。
它描述了指标在不同取值之间的分散情况,是描述数据分散性和集中趋势的基础性概念。
分布在统计学、数据分析、概率论等领域有着广泛的应用,对于理解和解释数据的特征具有重要意义。
本文将从分布的基本概念入手,系统地介绍各种类型的分布及其特性,包括离散型分布、连续型分布、对称分布、偏态分布、正态分布等。
同时,还将介绍有关分布的一些重要应用,如概率分布、频数分布、累积分布等。
一、分布的基本概念1.1 分布的概念及意义在统计学中,分布是对数据的一种整体描述,它描述了数据在不同取值之间的分布情况。
通过对数据的分布特征进行描述和分析,可以揭示数据的集中趋势和分散程度,为进一步的数据分析和统计推断提供依据。
1.2 分布的度量分布的度量主要包括集中趋势和分散程度两个方面。
集中趋势用来描述数据的中心位置,包括均值、中位数和众数等指标;分散程度则用来描述数据的离散程度,包括极差、方差、标准差等指标。
二、离散型分布2.1 二项分布二项分布描述了一组独立重复的是/非试验中成功的次数的概率分布。
它是描述伯努利试验的最基本的分布,具有广泛的应用。
2.2 泊松分布泊松分布描述了在一个给定的时间或空间内随机事件发生次数的概率分布。
它适用于描述稀有事件的概率分布。
2.3 几何分布几何分布描述了在一系列独立的是/非试验中,第一次成功发生前的失败次数的概率分布。
它是描述试验成功次数的分布。
三、连续型分布3.1 正态分布正态分布是自然界中最常见的分布形式,它具有单峰、对称、钟形的特点,并且具有非常重要的数学性质,在自然科学和社会科学等领域有着广泛的应用。
3.2 均匀分布均匀分布描述了连续型随机变量在一段区间内的概率分布,其概率密度在该区间内是恒定的,没有特定的中心趋势。
3.3 指数分布指数分布描述了一种连续型随机变量在某个时间或空间内发生的概率分布,它具有单峰、右偏的特点,适用于描述一些生存时间、等待时间的概率分布。
【附录一】常见分布汇总一、二项分布二项分布(Binomial Distribution),即重复n次的伯努利试验(Bernoulli Experiment),用ξ表示随机试验的结果, 如果事件发生的概率是P,则不发生的概率q=1-p,N次独立重复试验中发生K次的概率是。
二、泊松poisson分布1、概念当二项分布的n很大而p很小时,泊松分布可作为二项分布的近似,其中λ为np。
通常当n≧10,p≦0.1时,就可以用泊松公式近似得计算。
2、特点——期望和方差均为λ。
3、应用(固定速率出现的事物。
)——在实际事例中,当一个随机事件,例如某电话交换台收到的呼叫、来到某公共汽车站的乘客,以固定的平均瞬时速率λ(或称密度)随机且独立地出现时,那么这个事件在单位时间(面积或体积)内出现的次数或个数就近似地服从泊松分布三、均匀分布uniform设连续型随机变量X的分布函数F(x)=(x-a)/(b-a),a≤x≤b则称随机变量X服从[a,b]上的均匀分布,记为X~U[a,b]。
四、指数分布Exponential Distribution1、概念2、特点——无记忆性(1)这种分布表现为均值越小,分布偏斜的越厉害。
(2)无记忆性当s,t≥0时有P(T>s+t|T>t)=P(T>s) 即,如果T是某一元件的寿命,已知元件使用了t 小时,它总共使用至少s+t小时的条件概率,与从开始使用时算起它使用至少s小时的概率相等。
3、应用在电子元器件的可靠性研究中,通常用于描述对发生的缺陷数或系统故障数的测量结果五、正态分布Normal distribution1、概念2、中心极限定理与正态分布(说明了正态分布的广泛存在,是统计分析的基础)中心极限定理:设从均值为μ、方差为σ^2;(有限)的任意一个总体中抽取样本量为n 的样本,当n充分大时,样本均值的抽样分布近似服从均值为μ、方差为σ^2/n 的正态分布。
3、特点——在总体的随机抽样中广泛存在。
简述统计分布的概念及构成要素。
统计分布(statistical distribution)是指总体中各个单位或者各个个体的客观情况的综合,是统计推断结果的理论基础。
因此,必须首先明确什么是统计分布,了解它与其他形式概率之间的关系和区别。
根据统计的目的可以把统计分布分为三种类型:(1)描述性统计分布,又称为概率分布;(2)推断性统计分布,又称为统计推断分布;(3)检验性统计分布,又称为显著性检验分布。
1、描述性统计分布:描述性统计分布是一种特殊的概率分布。
用于描述某个总体单位或总体内部各组成部分客观存在的数量差异程度的分布。
统计上主要用于表示总体中每个单位或个体的相对位置、大小和强弱等。
它的形状如下图:统计上常用的描述性统计分布有正态分布、对数正态分布、二项分布、 t分布、 x分布等。
2、推断性统计分布:推断性统计分布也是一种特殊的概率分布。
它用于表示总体中各单位或个体之间相互关系及其变化趋势的数量分布。
它的形状如下图:统计上常用的推断性统计分布有:单尾分布、双尾分布、偏态分布、几何分布、泊松分布、帕斯卡分布等。
所谓同度量,即表示这样一个单位与另一个单位之间的距离程度。
例如,一台仪器的分辨力表示这台仪器能够分辨的最小间隔。
相对间隔又称相对率,也叫做百分率。
单位相对率是指一个单位时刻或某段时间内与另一单位的距离。
时间相对率是指一个时刻或某段时间内两个时刻的距离。
同度量之间是用百分比来衡量的。
度量之间有如下关系:间隔相对率=分辨力×时间相对率不同度量,即表示不同单位的距离程度。
例如,某种设备的生产能力,即指每天平均能生产的件数。
相对生产能力是指一定时间内平均每天生产的件数。
间隔相对率是指单位时间内的工作量。
时间相对率是指工作总量。
四大分布简述
一、正态分布
1. 概述
正态分布又名常态分布。
高斯在研究误差理论时曾用它来刻画误差,故很多文献中亦称之为高斯分布。
正态分布是概率论中最重要的分布,并有极其广泛的实际背景,很多随机变量的概率分布都可以近似地用正态分布来描述。
统计学中的三大分布(2χ分布、t分布和F分布)均是由它导出的。
2. 定义
如果随机变量X的概率密度为
()2
2
2
(),
xμ
σ
φx x
-
-
=-∞<<+∞
则称X服从正态分布,记作2
~(,)
X Nμσ,其中,μ为随机变量X的数学期望,σ为随机变量X的标准差。
特别地,当0
μ=,1
σ=时,有
2
2
(),
x
φx x
-
=-∞<<+∞
相应的正态分布(0,1)
N称为标准正态分布。
标准正态分布的重要性在于,任何一个普通的正态分布都可以通过线性变换转化为标准正态分布。
标准化过程为若2
~(,)
X Nμσ,则(0,1)
Xμ
Z~N
σ
-
=。
3. 性质和特点
1)正态分布的概率密度函数的图像为钟形,关于xμ
=对称。
2)标准差σ决定正态曲线的陡峭或扁平程度。
σ越小,曲线越高狭;σ越大,
曲线越低阔。
3)普遍性:一个变量如果收到大量的独立因素的影响(无主导因素),则它
一般服从正态分布。
4. 应用
1) 估计频数分布。
2) 制定参考值范围。
3) 质量控制:3σ准则。
4) 二项分布、t 分布等的正态近似计算。
5) 正态分布是许多统计方法的理论基础。
检验、方差分析、相关和回归分
析等多种统计方法均要求分析的指标服从正态分布。
二、2χ分布
1. 概述
2χ分布是由海尔默特(Hermert )和皮尔逊(Pearson )分别于1875年和1900年推导出来的。
2. 定义
设随机变量12,,,n X X X 相互独立,且()1,2,
,=i X i n 服从标准正态分布
(0,1)N ,则它们的平方和21
=∑n i i X 服从自由度为n 的2χ分布,记作2()χn 。
3. 性质和特点
1) 2χ分布的密度函数在第一象限内呈正偏态(右偏态)。
自由度n 越小,分
布越偏斜;随着自由度n 的增大,分布趋近于正态分布。
2) 自由度n 越大,分布越低阔。
3) 2χ分布的数学期望2()E χn =,方差2()2D χn =。
4) 若2()X ~χm ,2()Y ~χn 且X 与Y 相互独立,1Z X Y =+,2Z X Y =-,
则21()Z ~χm n +,22()Z ~χm n -。
4. 应用
1) 假设检验:利用2χ分布确定是否拒绝虚无假设。
2) 拟合优度检验:根据某一变量,将一个事件总体划分为k 类,考察k 类
中每一类的次数分布f 是否符合2χ分布。
3) 独立性检验:依照两个不同的分类标准划分得到的对象次数分布,利用
2χ分布检验两个分类标准是具有相互独立性。
4) 对总体方差的估计和检验。
三、t 分布
1. 概述
t 分布是高赛特(W. S. Gosset )于1908年以笔名“Student ”发表的论文中首次提出的,故又称学生氏分布。
2. 定义
设随机变量(0,1)X ~N ,2()Y ~χn ,且X 与Y 相互独立,则
t =
的分布称为自由度为n 的t 分布,记作()t n 。
3. 性质和特点
5) t 分布的密度函数形状与标准正态分布相似,都是单峰偶函数,但()t n 的
密度函数两侧的尾部较(0,1)N 粗一些。
()t n 的方差略大于(0,1)N 。
6) 1n =时的t 分布又称柯西分布,其数学期望和方差都不存在。
2n ≥时,t 分布的数学期望()0E t =;3n ≥时,t 分布的方差()2
n D t n =-。
7) 随着自由度n 的增加,t 分布的密度函数越来越接近正态分布。
实际应用
中一般将30n ≥时的t 分布近似看做正态分布。
4. 应用
t 分布一般适用于总体标准差未知时,用样本标准差代替总体标准差,由样本平均数推断总体平均数,以及两个小样本之间差异的显著性检验。
四、F 分布
1. 概述
F 分布是统计学家费希尔(R. A. Fisher )首先提出的。
F 分布有着广泛的应用,如在方差分析、回归方程的显著性检验中都有着重要的地位。
2. 定义
设随机变量2()Y ~χm ,2()Z ~χn ,且Y 与Z 相互独立,则nY X mZ =
的分布称为第一自由度为m ,第二自由度为n 的F 分布,记作(,)X
F m n 。
3. 性质和特点
1) F 分布是一种非对称分布。
2) (,)X F m n 的数学期望和方差分别为 (),22n E X n n =>-; 22(2)(),4(2)(4)
n m n D X n m n n +-=>-- 3) F 分布的p 分位数12(,)p F v v 可查F 分布表获得,且121211(,)(,)p p F v v F v v -=。
4) F 分布与t 分布的关系:若()X
t n ,则2(1,)X F n 。
4. 应用 F 分布主要用于方差的同质性检验、方差分析,协方差分析和回归分析。
参考文献
张厚粲. 现代心理与教育统计学(第三版). 北京师范大学出版社贾俊平. 统计学(第四版). 中国人民大学出版社
贾俊平. 统计学基础(第二版). 中国人民大学出版社
龙永红. 概率论与数理统计(第二版). 高等教育出版社
盛骤. 概率论与数理统计(第四版). 浙江大学出版社。