第3章-正态分布时的统计决策
- 格式:doc
- 大小:3.01 MB
- 文档页数:16
正态分布的理论原理及应用正态分布(Normal Distribution),又称高斯分布(Gaussian Distribution),是概率统计学中最重要的概率分布之一,也是最常见的连续概率分布之一、正态分布在理论研究和实际应用中都起到了重要的作用。
1.中心极限定理:中心极限定理是正态分布理论的基础,它指出,独立同分布的随机变量的和的极限分布依近似于正态分布。
这意味着,对于大量独立随机变量的和,即使这些变量的分布不同,其总体分布也会接近于正态分布。
2.正态分布的概率密度函数:正态分布的概率密度函数由两个参数决定,即均值(μ)和标准差(σ)。
其概率密度函数可以表示为:f(x)=(1/(σ*√(2π)))*e^(-((x-μ)^2/(2σ^2)))3.正态分布的特性:-均值μ是分布的中心,标准差σ决定了分布的离散程度。
-68%的观测值在均值左右一个标准差范围内,95%的观测值在均值左右两个标准差范围内,99.7%的观测值在均值左右三个标准差范围内。
1.统计分析:正态分布广泛应用于统计分析中。
很多统计模型都需要基于正态分布的假设。
例如,参数估计、假设检验、方差分析等都需要基于正态分布进行推断。
2.质量控制:质量控制中常常使用正态分布。
通过收集样本数据,计算平均值和标准差,可以对产品的质量进行控制和评估。
例如,正态分布常用于确定产品的上下公差。
3.自然科学:正态分布在自然科学中也有应用。
例如,生物学中研究身高、体重等指标时可以使用正态分布。
物理学中粒子运动的速度和位置分布也可以近似为正态分布。
4.金融与经济学:金融市场和经济领域中,许多变量的分布近似为正态分布。
例如,股票收益率、利率、汇率等可以建模为正态分布。
这使得研究人员能够使用正态分布的属性来做出预测和决策。
5.归一化处理:正态分布是进行归一化处理的常用工具之一、通过将数据转化为标准正态分布,可以对不同数据进行比较和分析。
第3章 正态分布时的统计决策在统计决策理论中,涉及到类条件概率密度函数)|(i w x P 。
对许多实际的数据集,正态分布通常是合理的近似。
如果在特征空间中的某一类样本,较多地分布在这一类均值附近,远离均值点的样本比较少,此时用正态分布作为这一类的概率模型是合理的。
另外,正态分布概率模型有许多好的性质,有利于作数学分析。
概括起来就是: (1) 物理上的合理性 (2) 数学上的简单性下面重点讨论正态分布分布及其性质,以及正态分布下的Bayes 决策理论。
3.1 正态分布概率密度函数的定义及性质 1.单变量正态分布 定义:])(21ex p[21)(2σμσπρ--=x x(3.1-1)其中:μ为随机变量x 的期望,也就是平均值;2σ为x 的方差,σ为均方差,又称为标准差。
⎰∞∞-⋅==dx x x x E )()(ρμ (3.1-2)⎰∞∞-⋅-=dx x x )()(22ρμσ(3.1-3)概率密度函数的一般图形如下:)(x ρ具有一下性质:)(,0)(∞<<-∞≥x x ρ1)(=⎰∞∞-dx x ρ (3.1-4)从)(x ρ的图形上可以看出,只要有两个参数2σμ和就可以完全确定其曲线。
为了简单,常记)(x ρ为),(2σμN 。
若从服从正态分布的总体中随机抽取样本x ,约有95%的样本落在)2,2(σμσμ+-中。
样本的分散程度可以用σ来表示,σ越大分散程度越大。
2.多元正态分布 定义:∑---∑=-)]()(21ex p[||)2(1)(1212μμπρx x x T d(3.1-5)其中: T d x x x x ],,,[21 =为d 维随机向量,对于d 维随机向量x ,它的均值向量μ是d 维的。
也就是:T d ],,,[21μμμμ =为d 维均值向量。
∑是d d ⨯维协方差矩阵,1-∑是∑的逆矩阵,||∑为∑的行列式。
协方差矩阵∑是对称的,其中有2/)1(+⨯d d 个独立元素。
概率统计中的正态分布与标准正态分布概率统计是一门研究随机现象的学科,它关注的是事件发生的可能性以及这些可能性的分布规律。
在概率统计中,正态分布是一种非常重要的分布形式,它在自然界和社会科学中广泛应用。
本文将介绍正态分布的基本概念和性质,以及与之相关的标准正态分布。
一、正态分布的基本概念正态分布,又称高斯分布,是一种连续型的概率分布。
它的概率密度函数可以用一个钟形曲线来描述,曲线的中心对称,左右两侧的面积相等。
正态分布的概率密度函数可以表示为:f(x) = (1 / (σ * √(2π))) * exp(-((x - μ)^2 / (2σ^2)))其中,μ是分布的均值,σ是分布的标准差。
均值决定了曲线的中心位置,标准差决定了曲线的宽度。
正态分布的均值和标准差越大,曲线越平坦;均值和标准差越小,曲线越陡峭。
二、正态分布的性质正态分布具有许多重要的性质,其中一些性质对于概率统计的应用非常关键。
1. 对称性:正态分布是以均值为中心对称的,即曲线左右两侧的面积相等。
2. 均值与中位数相等:正态分布的均值等于中位数,即曲线对称轴上的点。
3. 68-95-99.7法则:对于一个服从正态分布的随机变量,约68%的观测值位于均值的一个标准差范围内,约95%的观测值位于均值的两个标准差范围内,约99.7%的观测值位于均值的三个标准差范围内。
4. 累积分布函数:正态分布的累积分布函数可以用高斯误差函数表示,它可以计算出给定值之前的累积概率。
三、标准正态分布标准正态分布是一种特殊的正态分布,其均值为0,标准差为1。
标准正态分布在概率统计中具有重要的作用,它可以通过标准化来简化计算。
标准正态分布的概率密度函数可以表示为:φ(x) = (1 / √(2π)) * exp(-x^2 / 2)标准正态分布的累积分布函数通常用符号Φ(x)表示,它可以表示为:Φ(x) = ∫φ(t)dt标准正态分布的性质与一般正态分布类似,但由于其均值和标准差已经确定,计算和应用更加方便。
概率与统计中的正态分布与标准化正态分布(Normal distribution)是概率论与统计学中一种重要的连续概率分布,也被称为高斯分布(Gaussian distribution)。
正态分布在实际生活和科学研究中有着广泛的应用。
本文将介绍正态分布的特点、标准化以及相关应用。
一、正态分布的特点正态分布的概率密度函数是一个钟形曲线,其特点包括:1. 对称性:正态分布的曲线关于均值对称,即均值左右对称。
2. 唯一性:正态分布由两个参数决定,即均值和标准差。
3. 正态性:大部分实际数据可以近似看作是正态分布,例如身高、体重等。
二、标准化标准化是指将正态分布的随机变量转化为标准正态分布的随机变量的过程。
标准正态分布是均值为0,标准差为1的正态分布。
标准化的步骤为:1. 假设有一个服从正态分布的随机变量X,其均值为μ,标准差为σ。
2. 标准化公式为Z = (X - μ) / σ,其中Z为标准化后的变量。
标准化后的变量Z可以用来计算正态分布中某个随机变量落入某个区间的概率,而不需要知道具体的正态分布的均值和标准差。
三、正态分布的应用正态分布在各个领域都有广泛的应用,以下是其中几个常见的应用:1. 统计推断:利用正态分布的特性,可以进行假设检验、置信区间估计等统计推断分析,从而帮助研究人员做出科学的决策。
2. 风险分析:正态分布可以用来分析金融市场的风险,帮助投资者做出风险管理和资产配置的决策。
3. 质量控制:正态分布可以应用于质量控制中,通过控制图等方法,对生产过程中的差异进行监控和控制。
4. 教育评估:正态分布可以用来评估学生的智力、能力等指标,帮助教师进行个体化的教育和辅导。
5. 自然科学研究:正态分布在物理、化学、生物等自然科学研究中有着广泛的应用,从而揭示事物的规律和特性。
综上所述,正态分布是概率与统计学中的重要内容,通过对正态分布的了解和应用,可以为实际问题提供科学的分析和解决方案。
标准化是利用正态分布特性的一种方法,可以简化计算和分析过程。
正态分布的概率计算解读正态分布是概率论和统计学中最为常见且重要的一种连续概率分布。
它的图形呈钟形曲线,也被称为高斯分布。
这个分布是由数学家高斯提出并发展而来的,被广泛应用于自然科学、社会科学、工程技术和金融等领域的数据分析。
在正态分布中,均值和标准差是两个关键参数。
均值决定了曲线的中心位置,而标准差则刻画了曲线的宽度和形状。
具体来说,均值决定了分布的期望值,标准差则表征了分布的离散程度。
正态分布的图像是中间较高、两端逐渐降低,并且在均值两侧关于均值对称的。
这种对称性和中间高、两端低的特点使得正态分布成为许多自然和社会现象的模型。
正态分布的概率计算是指根据给定的正态分布进行统计推断和概率预测。
主要有两种类型的概率计算,即概率密度函数(Probability Density Function, PDF)和累积分布函数(Cumulative Distribution Function, CDF)。
PDF可以帮助我们计算在其中一特定值的概率密度,而CDF可以帮助我们计算在一些特定阈值以下的概率。
在进行正态分布的概率计算前,先要标准化数据。
标准化是将原始数据转化成标准正态分布的过程。
标准正态分布是均值为0,标准差为1的正态分布。
标准化可以通过以下公式完成:Z值=(X-均值)/标准差其中,X为原始数据,均值为正态分布的均值,标准差为正态分布的标准差。
通过标准化,我们可以将不同的数据转化成相同的标准分布,从而方便进行概率计算和比较。
一种常见的概率计算是计算在其中一特定值的概率密度。
由于正态分布是连续分布,每个具体的值的概率都是无限小,因此我们只能计算在一些区间的概率密度。
对于标准正态分布而言,其曲线下一个区间的概率可以通过求解累积分布函数来得到。
另一种常见的概率计算是计算在一些特定阈值以下的概率。
对于标准正态分布而言,计算在一些特定阈值以下的概率可以通过查表或使用计算机软件来进行。
一般地,我们可以使用标准正态分布的累积分布函数来计算该概率。
正态分布原则正态分布是统计学中的一个重要概念,也被称为高斯分布。
它在自然界中广泛存在,并且在各个领域的研究中扮演着重要角色。
正态分布有许多相关的原则和性质,下面将介绍几个常见的参考内容。
1. 中心极限定理中心极限定理是正态分布的一个重要原则。
该定理指出,对于一个随机变量序列,无论其原始分布如何,其样本量足够大时,该序列的均值将近似服从正态分布。
这一定理的应用非常广泛,可用于建立统计学方法和推断,解释观测数据的规律和模型等。
2. 标准正态分布标准正态分布是正态分布的一种特殊形式,均值为0,标准差为1。
标准正态分布常用于统计推断和假设检验中,通过将原始数据标准化为标准正态分布,可以对数据进行比较和分析。
标准正态分布在经济学、生物学、金融学等多个领域中都有广泛应用。
3. 正态曲线图和概率密度函数正态曲线是正态分布的图形表示,具有典型的钟形曲线,左右对称,峰值在均值处。
正态曲线图可以直观地展示数据集的分布情况。
正态分布的概率密度函数是描述正态分布的函数,它具有一定的数学形式,描述了各个取值点的概率密度。
通过概率密度函数,我们可以计算出数据在不同区间的概率。
4. 正态分布的性质和特点正态分布具有许多重要的性质和特点。
首先,正态分布的均值、中位数和众数是相等的,并且都位于曲线的中心。
其次,正态分布的方差决定了曲线的宽窄程度,方差越大,曲线越宽。
另外,正态分布的曲线是左右对称的,即左半部分与右半部分完全相同。
5. 应用范围与意义正态分布在许多领域中都有广泛的应用。
在自然科学中,正态分布常被用来描述物种分布、自然现象的测量误差等。
在社会科学中,正态分布可以用来描述人群身高、智力分数、心理测量结果等。
在金融学中,正态分布可以用来描述股票收益、汇率波动等变量。
正态分布的应用使得我们能够更好地理解和解释数据集的特征,从而推断和预测未来的结果。
以上是关于正态分布原则的一些相关参考内容,正态分布的理论和方法在统计学中具有重要的地位和应用价值。
统计学中的正态分布与假设检验公式整理正态分布是统计学中一种重要的概率分布,广泛应用于各个领域的数据分析和模型建立中。
而假设检验则是统计学中常用的一种方法,用于对假设的真实性进行验证。
本文将对正态分布和假设检验的公式进行整理,并讨论其在统计学中的应用。
一、正态分布正态分布,又称为高斯分布,是一种连续概率分布。
它的概率密度函数的数学表达式为:f(x) = (1 / (σ * √(2π))) * e^(-((x - μ)^2 / (2 * σ^2)))其中,f(x)表示在取值为x的点的概率密度,μ表示正态分布的均值,σ表示正态分布的标准差。
正态分布的均值决定了分布的中心位置,标准差则决定了分布的形状。
正态分布具有许多重要性质,例如:1. 标准正态分布:当均值μ为0,标准差σ为1时,得到的正态分布称为标准正态分布。
其概率密度函数为:φ(x) = (1 / √(2π)) * e^(-x^2 / 2)标准正态分布在实际应用中经常用于转换其他正态分布为标准化分布,方便计算和比较。
2. 正态性检验:统计学中经常需要判断一组数据是否符合正态分布。
常用的正态性检验方法包括Kolmogorov-Smirnov检验、Shapiro-Wilk检验等。
这些方法都是基于样本数据与理论正态分布的差异来进行判断。
3. 中心极限定理:中心极限定理是统计学中一条非常重要的定理,它指出,对于任意一组具有有限方差的独立随机变量,其样本均值的分布在样本量趋于无穷时,逼近于正态分布。
二、假设检验假设检验是统计学中用于验证某个假设是否成立的一种方法。
在假设检验过程中,我们需要提出一个原假设(H0)和一个备择假设(H1),然后通过数据分析来判断是否支持原假设。
1. 假设检验的步骤:(1) 建立假设:根据实际问题和研究目的,提出原假设和备择假设。
(2) 选择显著性水平:显著性水平α是控制拒绝原假设的错误概率。
一般常用的显著性水平有0.05和0.01。
正态分布的概率计算解读正态分布是一种重要的概率分布,在统计学和概率论中广泛应用。
它的数学表达式为:f(f;f,f)=1/(√(2f)f)e^(-(f−f)²/(2f²))其中,f(f;f,f)表示随机变量f的概率密度函数,f是分布的均值,f是标准差。
正态分布的特点是呈钟形曲线,以均值为对称中心。
标准差决定了曲线的宽度,标准差越大,曲线越宽。
在正态分布中,我们经常需要计算特定范围内的概率。
以下是对正态分布的概率计算进行解读:1.标准正态分布的概率计算:标准正态分布是均值为0,标准差为1的正态分布。
对于标准正态分布,我们可以将需要计算的区域转化为标准单位(即标准差的倍数),利用标准正态分布的概率表或计算函数得到。
2.计算特定区域的概率:正态分布曲线下的面积表示了该范围内的概率。
我们可以通过积分或查表的方式来计算特定范围内的概率。
例如,给定一个正态分布f(f,f²),我们希望计算f在一些范围[a,b]内的概率f(f≤f≤f)。
我们可以计算出标准化的区间,即(a−f)/f和(b−f)/f,然后利用标准正态分布的概率表或计算函数来计算区间的概率。
3.计算单点的概率:正态分布是连续分布,因此单个点的概率接近于0。
但我们可以通过计算在一些点附近的一个小范围内的概率来近似计算单个点的概率。
例如,要计算f在一些特定值f附近的概率,我们可以计算出一个范围[f−f,f+f]的概率,其中f是一个较小的数值(如0.01),然后通过累积正态分布的概率值来计算该范围内的概率。
4.利用正态分布进行推断:正态分布在统计推断中起到重要的作用。
例如,我们可以根据样本数据建立样本均值的置信区间,由于样本均值服从正态分布,我们可以利用正态分布的性质计算出样本均值落在一些特定范围内的概率。
此外,我们还可以利用正态分布来进行假设检验,比如判断一个总体均值是否为一些特定值。
总而言之,正态分布的概率计算对于理解和应用统计学和概率论都是至关重要的。
正态分布概率的计算正态分布是统计学中常用的一种连续概率分布,也被称为高斯分布。
正态分布在自然界和社会科学研究中广泛应用,因为许多观察现象都服从正态分布。
正态分布的定义正态分布的概率密度函数为:f(x)=(1/σ√(2π))*e^(-(x-μ)^2/(2σ^2))其中,μ是分布的均值,σ是分布的标准差,e是自然对数的底。
正态分布的均值μ决定了分布的中心位置,标准差σ决定了分布的扁平程度和分散程度。
在正态分布中,我们可以计算给定区间内的概率,或者给定概率下的区间范围。
1.计算给定区间内的概率对于给定的区间[a,b],我们可以通过积分正态分布函数f(x)来计算该区间内的概率。
P(a ≤ X ≤ b) = ∫[a,b] f(x)dx其中,X是正态分布随机变量。
在实际应用中,积分正态分布函数通常通过查表或使用计算机软件进行计算。
2.计算给定概率下的区间范围对于给定的概率值p,我们可以计算正态分布随机变量X落在区间[a,b]内的概率为p的区间范围。
P(a≤X≤b)=p我们可以转化为标准正态分布(均值为0,标准差为1)来计算,然后再进行反演。
即X=μ+σZ,其中Z是标准正态分布随机变量。
将X代入得:P((a-μ)/σ≤Z≤(b-μ)/σ)=p我们可以通过标准正态分布的分布函数Φ(z)来计算该区间的Z值。
P((a-μ)/σ≤Z≤(b-μ)/σ)=Φ((b-μ)/σ)-Φ((a-μ)/σ)=p在实际应用中,一般会提供标准正态分布的累积分布函数的查表或计算机软件来计算。
正态分布的性质正态分布具有许多重要的性质,使其成为统计学中不可或缺的分布:1.正态分布是关于均值对称的,即均值左右的部分概率相等。
2.68%的观测值位于均值加减一个标准差范围内,95%的观测值位于均值加减两个标准差范围内,99.7%的观测值位于均值加减三个标准差范围内。
3.正态分布的均值和标准差完全决定了分布的形状。
4.正态分布可以通过中心极限定理来近似很多其他分布。
概率与统计中的正态分布正态分布是概率与统计学中最为重要的概率分布之一。
它的形状对称、钟形曲线使得它在很多实际问题中都有着广泛的应用。
本文将介绍正态分布的定义、性质以及如何使用正态分布进行概率计算和统计推断。
一、正态分布的定义正态分布,又称高斯分布,是一种连续型的概率分布。
它的概率密度函数(probability density function, PDF)可以用以下公式表示:f(x) = (1 / σ√(2π)) * e^(-(x-μ)^2 / (2σ^2))其中,μ是正态分布的均值,σ是正态分布的标准差,e是自然对数的底数。
二、正态分布的性质正态分布具有许多重要的性质,以下是其中的几个:1. 对称性:正态分布的概率密度函数关于均值对称。
即当x接近μ时,f(x)的值趋近于最大值。
2. 峰度:正态分布的峰度是3,意味着它的尾部相对较重。
3. 范围:正态分布的取值范围是(-∞, +∞),即负无穷到正无穷。
4. 均值和标准差:正态分布的均值μ决定了分布的中心位置,标准差σ决定了分布的形状。
68%的数据在均值的一个σ范围内,95%的数据在两个σ范围内,99.7%的数据在三个σ范围内。
三、正态分布的应用正态分布在实际问题中有着广泛的应用。
以下是正态分布常见的几个应用场景:1. 抽样分布近似:中心极限定理表明,当样本容量足够大时,许多随机变量的抽样分布可以近似为正态分布。
2. 参数估计:在统计推断中,我们经常使用正态分布来估计未知参数的置信区间。
通过样本数据的均值和标准差,我们可以计算出参数估计的置信区间。
3. 假设检验:正态分布在假设检验中也有着重要的应用。
我们可以通过计算检验统计量并参考正态分布的分位数,判断某个假设是否成立。
4. 质量控制:正态分布在质量控制中常用于确定过程的稳定性。
通过统计过程得到的样本数据,可以进行正态性检验,判断过程是否受到特殊因素的影响。
四、正态分布的计算与推断在实际应用中,我们经常需要计算正态分布的概率值或进行统计推断。
1第三章 统计决策与贝叶斯估计§3.1 统计决策的基本概念一、统计判决问题的三个要素为了估计一个未知参数,需要给出一个合适的估计量,该估计量也称为该统计问题的解。
一般地说,一个统计问题的解就是所谓的统计决策函数。
为了明确统计决策函数这一重要概念,需对构成一个统计决策问题的基本要素作一介绍。
这些要素是:1).样本空间和分布族;2).行动空间(决策空间);3).损失函数.以下逐个介绍。
1.样本空间和分布族设总体X 的分布函数为();F x θ,θ是未知参数Θ,Θθ∈称为参数空间。
样本空间: 若()T n X X X ,,,21"为取自总体X 的一个样本,则样本所有可能值组成的集合称为样本空间,记为χ.分布族:由于i X 的分布函数为();,1,2,,i F x θi n ="则()T n X X X ,,,21"的联合分布函数为2()().,;;,,,121Θ∈=∏=θθθni i n x F x x x F "若记()*1{;:}ni i F F x θθ==∈Θ∏,则称F ∗为样本()T n X X X ,,,21"的概率分布族,简称分布族。
注:若总体X 为离散型变量,则F ∗中的联合分布函数应换成联合分布律。
例3.1设总体X 服从两点分布()p B ,1,p 为未知参数,10≤≤p , ()T n X X X ,,,21"是取自总体X 的样本,则样本空间是集合()12{,,,:0,1,1,2,}.n i χx x x x i n ===""它含有n 2个元素,样本()T n X X X ,,,21"的分布族为()111,0,1,1,2,,,01n n i i i i x n x i F p p x i n p ==−∗⎧⎫∑⎪⎪∑=−==≤≤⎨⎬⎪⎪⎩⎭". 2.决策空间(或称判决空间)对于一个统计问题,如参数θ的点估计,区间估计及其他统计问题,我们常常要给予适当的回答。
正态分布的概念与计算正态分布(Normal Distribution),也称高斯分布(Gaussian Distribution),是概率论与统计学中非常重要的一种连续型概率分布。
它在自然界和人类社会的各个方面都有广泛应用,是描述随机变量分布的重要工具。
本文将介绍正态分布的概念,并说明如何计算正态分布。
一、正态分布的概念正态分布由其概率密度函数来定义,符号表示为:N(N, N²),其中N为均值,N²为方差。
概率密度函数的形式为:N(N) = 1 / (N√2N) * N^(-((N−N)² / (2N²)))特点:1. 正态分布的图像呈钟形,中心对称,左右两边曲线对称,均值、中位数和众数相等,即N。
2. 在均值处有最高点,随着离均值的距离增加,曲线下降缓慢。
3. 标准差N的大小决定了曲线的陡峭程度,标准差越大,曲线越平缓。
二、正态分布的计算1. 概率密度计算:对于给定的正态分布N(N, N²),可以通过概率密度函数计算任意N处的概率密度值。
例如,计算某个值N的概率密度,可以使用如下公式:N(N) = 1 / (N√2N) * N^(-((N−N)² / (2N²)))其中,N(N)表示N处的概率密度值。
2. 累积概率计算:对于给定的正态分布N(N, N²),可以计算N≤ N的累积概率N(N≤ N)。
此时,可以使用标准正态分布表格或统计软件来查找概率值。
3. 标准化与反标准化:在实际计算过程中,常常需要将正态分布转化为标准正态分布,即N(0, 1)。
标准正态分布的均值N为0,方差N²为1。
标准化公式如下:N = (N−N) / N其中,N表示标准化后的值。
反标准化则是将标准正态分布转化为任意正态分布。
反标准化公式如下:N = N + NN4. 百分位数计算:对于给定的正态分布N(N, N²),可以计算N对应的百分位数。
第3章 正态分布时的统计决策在统计决策理论中,涉及到类条件概率密度函数)|(i w x P 。
对许多实际的数据集,正态分布通常是合理的近似。
如果在特征空间中的某一类样本,较多地分布在这一类均值附近,远离均值点的样本比较少,此时用正态分布作为这一类的概率模型是合理的。
另外,正态分布概率模型有许多好的性质,有利于作数学分析。
概括起来就是: (1) 物理上的合理性 (2) 数学上的简单性下面重点讨论正态分布分布及其性质,以及正态分布下的Bayes 决策理论。
3.1 正态分布概率密度函数的定义及性质 1.单变量正态分布 定义:])(21ex p[21)(2σμσπρ--=x x(3.1-1)其中:μ为随机变量x 的期望,也就是平均值;2σ为x 的方差,σ为均方差,又称为标准差。
⎰∞∞-⋅==dx x x x E )()(ρμ (3.1-2)⎰∞∞-⋅-=dx x x )()(22ρμσ(3.1-3)概率密度函数的一般图形如下:)(x ρ具有一下性质:)(,0)(∞<<-∞≥x x ρ1)(=⎰∞∞-dx x ρ (3.1-4)从)(x ρ的图形上可以看出,只要有两个参数2σμ和就可以完全确定其曲线。
为了简单,常记)(x ρ为),(2σμN 。
若从服从正态分布的总体中随机抽取样本x ,约有95%的样本落在)2,2(σμσμ+-中。
样本的分散程度可以用σ来表示,σ越大分散程度越大。
2.多元正态分布 定义:∑---∑=-)]()(21ex p[||)2(1)(1212μμπρx x x T d(3.1-5)其中: T d x x x x ],,,[21 =为d 维随机向量,对于d 维随机向量x ,它的均值向量μ是d 维的。
也就是:T d ],,,[21μμμμ =为d 维均值向量。
∑是d d ⨯维协方差矩阵,1-∑是∑的逆矩阵,||∑为∑的行列式。
协方差矩阵∑是对称的,其中有2/)1(+⨯d d 个独立元素。
由于)(x ρ可由μ和∑完全确定,所以实际上)(x ρ可由2/)1(+⨯+d d d 个独立元素来确定。
T x )(μ-是)(μ-x 的转置,且:}{x E =μ}))({(T x x E μμ--=∑μ、∑分别是向量x 和矩阵T x x ))((μμ--的期望。
具体说:若i x 是x 的第i 个分量,i μ是μ的第i 个分量,2ij σ是∑的第i 、j 个元素。
⎰⎰∞∞-===i i i i i i dx x x dx x x x E )()(][ρρμ(3.1-6)其中)(i x ρ为边缘分布,⎰⎰∞∞-∞∞-=di dx dx dx x x 21)()(ρρ―――――――――――――――――――――――――――“对于二维随机变量X 和Y 作为一个整体,其分布函数F (x ,y ),而X 和Y 都是随机变量,各别也有分布函数F X (x)、F Y (y),分别称为二维随机变量(X ,Y )关于X 和Y 的边缘分布函数。
有:),()(+∞=x F x F X 和),()(y F y F Y +∞=。
对于离散随机变量有:∑∑≤∞==+∞=x x j ijX i p x F x F 1),()(从中得到X 的分布律为:∑∞===1}{j ij i p x X P 同样,Y的分布律为∑∞===1}{i ij j p y Y P 。
对于连续型随机变量(X ,Y ),假定它的概率密度为),(y x f ,由:dx dy y x f x F x F xX ⎰⎰∞-+∞∞-=+∞=]),([),()(知道,X 的概率密度为:⎰+∞∞-=dy y x f x f X ),()(同样也可以求出Y 的概率密度函数。
”―――――――――――――――――――――――――――――而:)])([(j 2j i i ijx x E μμσ--=]),())((j j i j i j i i dx dx x x x x ρμμ⋅--=⎰⎰∞∞-∞∞-(3.1-7)协方差矩阵:⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡=∑222212222221221212211dd d d d d σσσσσσσσσ (3.1-8)是一个对称矩阵,只考虑∑为正定矩阵的情况,也就是||∑所有的子式都大于0。
即0||211≥σ,0222212212211≥σσσσ,…… 同单变量正态分布一样,多元正态分布)(x ρ可以由μ和∑完全确定,常记为),(∑μN 。
3.多元正态分布的性质(1)参数∑和μ对分布的决定性对于d 维随机向量x ,它的均值向量μ也是d 维的,协方差矩阵是对称的,其中有2/)1(+d d 个独立元素。
)(x ρ可由∑和μ完全确定,实际上)(x ρ可由2/)1(++d d d 个独立元素决定。
常记为:)(x ρ~),(∑μN 。
(2)等密度点的轨迹为一超椭球面由)(x ρ的定义公式(3.1-5)可知,当右边指数项为常数时,密度)(x ρ的值不变,所以等密度点满足:常数=-∑--)()(1μμx x T可以证明,上式的解是一个超椭球面,其主轴方向取决于∑的本征向量(特征向量),主轴的长度与相应的本征值成正比。
如下图所示:从上图可以看出,从正态分布总体中抽取的样本大部分落在由μ和∑所确定的一个区域里,这个区域的中心由均值向量μ决定,区域的大小由协方差矩阵决定。
在数理统计中,令: )()(12μμγ-∑-=-x x T式中γ称为x 到μ的马氏距离(Mahalanobis )距离。
所以,等密度点轨迹是x 到μ的马氏距离γ为常数的超椭球面。
该超椭球面构成的球体的大小是样本对于均值向量的“离散度度量”。
体积:dd γνν⋅∑⋅=21||⎪⎪⎪⎪⎩⎪⎪⎪⎪⎨⎧-⋅⋅=-!)!21(2)!2(2)1(2d d d d d d d ππν 如果d 确定了,则d ν不变,v 与21||∑有关。
也就是对于给定的维数d ,样本离散度随21||∑而变。
(3)不相关性等价于独立性概率论中,两个随机变量i x 和j x 之间不相关,并不意味着它们一定独立。
如果i x 和j x 之间不相关,则j i x x 的数学期望有:)()()(j i j i x E x E x x E ⋅=如果i x 和j x 相互独立,则有:)()(),(j i j i x P x P x x P ⋅=独立性是比不相关更强的条件。
不相关反映了i x 和j x 的总体性质。
如果i x 和j x 相互独立,则它们之间一定不相关,反之则不成立。
但是对服从正态分布的两个分量i x 和j x ,若i x 与j x 互不相关,则它们之间一定独立。
证明:根据定义,i x 和j x 的协方差)])([(2j j i i ijx x E μμσ--= 又根据不相关定义)()(),(j i j i x E x E x x E ⋅=有:)()()])([(2j j i i j j i i ij x E x E x x E μμμμσ-⋅-=--=又:)(i i x E =μ,0)()()()[(=-=-=-i i i i i i x E E x E x E μμμ所以:有02=ijσ d 为偶数d 为奇数协方差矩阵⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=∑2211ddσσ 成为对角阵。
可以计算出:⎥⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎢⎣⎡=∑-221111001dd σσ∏==∑di ii 12||σ,∏==∑di ii121||σ⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡--⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡--=-∑⋅--d d dd d d x x x x x T x μμσσμμμμ 1122111111001],,[)()(21)(∑=-=di iiii x σμ因此,∑---∑=-)]()(21ex p[||)2(1)(1212μμπρx x x T d∏∏===⎭⎬⎫⎩⎨⎧--⋅=di i ii i i di iix x 121)()(21ex p 21ρσμσπ根据独立性的定义:正态分布随机向量的各分量间互不相关性与相互独立等价。
(4)边缘分布与条件分布的等价性不难证明正态随机向量的边缘分布与条件分布仍服从正态分布。
从(3)证明得出的结论)(x ρ表达式,如果x 用1x 表示,有:))(21exp(21)(211111σμσπρ--⋅=x x ii也就是说,边缘分布)(1x ρ服从均值为1μ,方差为211σ的正态分布:),(~)(21111σμρN x同理,),(~)(22222σμρN x另外,条件分布,给定1x 的条件下2x 的分布:)(),()|(12112x x x x x ρρρ=[]⎭⎬⎫⎩⎨⎧----+-∑-∑=))(()()(||21exp ||21),(22112122222112112222121μμσμσμσπρx x x x x x 代入上式,)|(12x x ρ服从正态分布,同理)|(21x x ρ也服从正态分布。
(5)线性变换的正态性对于多元随机向量的线性变换,仍为多元正态分布的随机向量。
就是:x 服从正态分布),(~)(∑μρN x ,对x 作线性变换Ax y =,其中A 为线性变换矩阵,且0||≠A ,则y 服从正态分布:),(~)(T A A A N y ∑μρ(6)线性组合的正态性若x 为多元正态随机向量,则线性组合x a y T =是一维的正态随机变量:),(~)(a a a N y T T ∑μρ其中,a 与x 同维。
3.2 正态分布中的Bayes 分类方法在上一章,我们已经把基于Bayes 公式的几种分类判决规则抽象为相应的判决函数和决策面方程。
这几种方法中Bayes 最小错误率判决规则是一种最基本的方法。
如果取0-1损失函数,最小风险判决规则和最大似然比判决规则均与最小错误判决规则等价。
为了方便,我们以最小错误判决规则为例来研究Bayes 分类方法在正态分布中的应用。
由最小错误率判决规则抽象出来的判决函数如下:)()|()(i i i w P w x x g ⋅=ρc i ,,2,1 =如果类概率密度是正态分布的,则)|(i w x ρ~),(i i N ∑μ。
∑---∑=-)]()(21exp[||)2()()(1212i i Ti i d i i x x w P x g μμπ 由于对数函数是一个单调变化的函数,上式右边取对数后作为判决函数使用不会改变类型区域的划分。
因此:)(ln ||ln 212ln 2)()(21)(1i i i i T i i w P d x x x g +∑-----=∑-πμμ其中,π2ln 2d 与类型无关,所有函数皆加上此项后,并不影响区域的划分,可以去掉。
下面对几种特殊情况进行讨论。
1.情况一:I i2σ=∑,c i ,,2,1 =该情况下,每类的协方差矩阵相等,而且类的各特征间相互独立(由上节的性质③得知),具有相等的方差2σ。