数理统计的核心部分
- 格式:pdf
- 大小:2.55 MB
- 文档页数:46
统计推断是从总体中抽取部分样本,通过对抽取部分所得到的带有随机性的数据进行合理的分析,进而对总体作出科学的判断,它是伴随着一定概率的推测,特点是:由样本推断总体,统计推断是数理统计的核心部分,统计推断的基本问题可以分为两大类:一类是参数估计问题;另一类是假设检验问题。
其中假设检验方法可以分为参数检验和非参数检验两大部分。
1.参数检验:
是在给定或假定总体分布形式的基础上,对总体的未知参数进行估计或检验。
它一方面以明确的总体分布为前提,另一方面需要满足某些总体参数的假定条件
2.非参数检验:
对总体分布不做严格假定,统计过程不涉及总体参数,完全依靠样本数据的顺序、秩等信息进行分析,通常在不符合参数检验的条件下使用。
参数检验的优点是针对性较强,每种方法都有其特定的使用环境,并且利用数据信息充分,一旦符合使用条件,得出的结论会非常准确。
缺点是,对总体的分布要求较高,实际工作中有时无法满足使用条件。
非参数检验的优点是对总体分布没有严格要求,对样本数据类型也没有过多要求,非正态、方差不齐等都能做,适应性较强,计算方法也比较简单。
缺点是对数据信息利用不充分,会降低功效。
由于检验的功效是我们选择分析方法的首要因素,因此在实际工作中,我们还是优先使用参数检验,只有在数据特征不符合参数检验要求时,才考虑使用非参数检验。
数理统计及其工程应用数理统计是一门研究如何收集、整理、分析和解释数据的学科。
它在各个领域都有着广泛的应用,特别是在工程领域。
本文将探讨数理统计及其在工程应用方面的重要性和实际应用案例。
数理统计的核心概念之一是概率。
概率是描述事件发生可能性的数值。
在工程应用中,概率可以用来评估风险和确定可靠性。
例如,在设计桥梁或建筑物时,工程师需要评估各种不确定因素对结构安全性的影响,通过使用数理统计中的概率理论,可以对结构的可靠性进行定量分析和评估。
数理统计还包括描述统计和推断统计两个方面。
描述统计是对数据进行整理、总结和展示的方法,以便更好地理解数据的特征和趋势。
在工程领域中,描述统计可以用于分析实验数据、测量数据和调查数据,从而为工程师提供决策依据。
推断统计则是通过对样本数据进行分析和推断,得出对总体的结论。
在工程应用中,推断统计可以用于进行质量控制、产品测试和工艺改进等方面的决策。
数理统计还涉及到统计模型和回归分析。
统计模型是对观测数据背后的概率过程进行建模的方法。
通过建立合适的统计模型,可以对未来的数据进行预测和推断。
在工程应用中,统计模型可以用于预测产品的寿命、市场需求的变化和资源的分配等问题。
回归分析则是研究自变量和因变量之间关系的方法。
在工程领域中,回归分析可以用于确定影响产品性能的因素,从而优化产品设计和工艺流程。
数理统计在风险评估和决策分析方面也具有重要作用。
在工程项目中,存在着各种潜在的风险和不确定性。
通过使用数理统计方法,可以对这些风险进行定量评估,并制定相应的风险管理策略。
同时,数理统计还可以用于决策分析,帮助工程师在多个可选方案中进行选择,并评估每个方案的风险和收益。
让我们看一些实际的工程应用案例。
在电力系统中,数理统计可以用于分析电力负荷数据,预测未来的负荷需求,并优化电力供应方案。
在交通工程中,数理统计可以用于分析交通流量数据,研究交通拥堵的原因,并提出改善交通流动性的措施。
在制造业中,数理统计可以用于进行质量控制,检测产品的缺陷,并提高生产效率。
正态分布与中心极限定理是概率论与数理统计中的核心概念,它们在统计学、自然科学、社会科学以及工程技术等众多领域都有着广泛的应用。
下面将对这两个概念进行详细阐述,并分析它们在实际应用中的重要性。
一、正态分布1. 正态分布的定义正态分布(Normal Distribution)又称高斯分布(Gaussian Distribution),是一种连续型概率分布,描述了实值随机变量的分布规律。
其概率密度函数为f(x|μ,σ2)=(1σ2π)exp[−12σ2(x−μ)2]f(x|\mu, \sigma^2) = \left(\frac{1}{\sigma\sqrt{2\pi}}\right)\exp\left[-\frac{1}{2\sigma^2}(x-\mu)^2\right]f(x|μ,σ2)=(σ2π1)exp[−2σ21(x−μ)2]其中,μμ\mu为均值(Mean),σ2\sigma^2σ2为方差(Variance),σ\sigmaσ为标准差(Standard Deviation)。
正态分布由均值和方差完全确定,这两个参数决定了分布的位置和形状。
2. 正态分布的性质正态分布具有许多优良的性质,如对称性、单峰性、集中性等。
此外,正态分布还具有稳定性,即多个独立同分布的随机变量之和仍服从正态分布,且均值和方差分别为各变量均值之和和方差之和。
这一性质使得正态分布在实际应用中具有广泛的适用性。
3. 正态分布的应用正态分布在实际应用中具有广泛的应用,如测量误差、生物统计、金融分析、信号处理等领域。
例如,在生物统计中,许多生物特征(如身高、体重等)都服从正态分布;在金融分析中,股票价格的波动也常常假设为正态分布。
二、中心极限定理1. 中心极限定理的定义中心极限定理(Central Limit Theorem,CLT)是概率论中的一个基本定理,它指出:对于独立同分布的随机变量序列,其和的分布逐渐逼近正态分布,无论这些随机变量具有何种分布。
数理统计核心公式完全解读抽样分布与中心极限定理数理统计是统计学中的一项重要分支,旨在通过收集和分析数据来揭示现象背后的模式和规律。
在数理统计中,抽样分布与中心极限定理是两个核心概念。
本文将对这两个概念进行详细解读,并介绍其相关的公式及应用。
一、抽样分布抽样分布是指从总体中抽取样本的统计量的分布。
通过抽样分布,我们可以推断出总体参数的信息。
在研究抽样分布时,我们使用了几个重要的公式。
1. 抽样平均数的分布当从具有总体均值μ和总体标准差σ的总体中抽取容量为n的样本时,样本平均数的分布服从正态分布。
其数学表达式为:X ~ N(μ, σ/√n)其中,X代表样本平均数,N表示正态分布。
2. 抽样比例的分布当从总体中抽取容量为n的样本时,样本比例的分布服从近似正态分布,其数学表达式为:P ~ N(p, √[p(1-p)/n])其中,P代表样本比例,N表示正态分布,p代表总体比例。
3. 抽样差异的分布当从具有总体均值μ和总体标准差σ的总体中抽取容量为n的样本时,样本差异的分布可以通过样本标准差来估计总体标准差,并服从自由度为n-1的t分布。
其数学表达式为:T(n-1) = √n(X - μ) / S其中,T(n-1)表示自由度为n-1的t分布,S代表样本标准差。
二、中心极限定理中心极限定理是数理统计中最为重要的定理之一,指出当大样本容量n趋近于无穷大时,样本平均数的分布趋近于正态分布。
这意味着即使总体分布不是正态分布,抽取的样本平均数仍然具有近似正态分布的特性。
中心极限定理在实际应用中具有广泛的意义,尤其在假设检验和置信区间估计中起到了关键的作用。
三、应用举例抽样分布与中心极限定理在实际问题中有着丰富的应用。
以下是一些典型的例子:1. 投掷硬币假设我们有一枚公平的硬币,我们想要知道正面朝上的概率。
通过抛硬币100次,并记录正面朝上的次数,我们可以得到样本比例,从而估计出总体比例。
2. 调查问卷假设我们需要了解某个城市居民的平均每周工作小时数。
数学专业核心课程数学专业是一门理论性与实践性相结合的学科,其核心课程旨在培养学生的数学思维能力和解决实际问题的能力。
以下是数学专业的几个核心课程:1. 微积分微积分是数学的基础课程之一,也是数学专业的核心课程之一。
它主要包括极限、导数、积分等内容。
通过学习微积分,学生能够掌握函数的极限与连续性,了解函数的导数与微分,以及掌握函数的积分与定积分等。
微积分在数学专业中具有重要的地位,为后续课程的学习打下了坚实的基础。
2. 线性代数线性代数是数学专业中的另一个核心课程。
它主要研究向量空间、线性变换、矩阵等内容。
通过学习线性代数,学生能够掌握向量与矩阵的运算,了解线性变换与特征值等概念,以及掌握矩阵的特征值与特征向量等。
线性代数在数学专业中具有广泛的应用,如在数据分析、图像处理等领域中发挥着重要的作用。
3. 概率论与数理统计概率论与数理统计是数学专业中的另一个重要课程。
它主要研究随机事件的概率与统计规律。
通过学习概率论与数理统计,学生能够掌握概率与随机变量的概念,了解概率分布与统计推断等内容,以及掌握参数估计与假设检验等方法。
概率论与数理统计在数学专业中具有广泛的应用,如在金融风险评估、医学统计分析等领域中有着重要的应用价值。
4. 数学分析数学分析是数学专业中的另一个重要课程。
它主要研究函数的性质与极限。
通过学习数学分析,学生能够掌握函数的性质与连续性,了解函数的极限与导数等内容,以及掌握函数的级数展开与泰勒公式等方法。
数学分析在数学专业中具有重要的地位,为后续课程的学习和研究提供了基础。
5. 数值计算方法数值计算方法是数学专业中的一门实践性课程。
它主要研究利用计算机对数学问题进行数值求解的方法。
通过学习数值计算方法,学生能够掌握数值计算的基本原理与方法,了解数值稳定性与收敛性等内容,以及掌握常见数值计算算法的实现与应用。
数值计算方法在数学专业中具有重要的应用价值,如在工程计算、科学计算等领域中发挥着重要的作用。
数理统计的核心部分一. 参数估计的概念1. 提出问题参数估计是统计推断的基本问题之一,在许多实际问题中, 根据实践经验已经知道数据来自于某类分布总体, 但总体中有些参数是未知的.问题:(1) 在一定时间内某信息台接到的呼叫次数X是一个随机变量,由实践经验知道它服从泊松分布,而其中参数是多少呢?(2) 调查初中男学生的身高,根据以往经验,这些数据应该来自正态总体,我们怎样才能得到这个正态总体的两个参数呢?定义已知其分布类型(包含未知参数), 通过样本对总体中的未知参数进行估计的问题就是本章的参数估计问题.参数估计的类型:点估计——估计未知参数的值.区间估计——估计未知参数的取值范围,并使此范围包含未知参数真值的概率为给定的值.点估计问题的一般提法.,,,,,,,.,);(2121为相应的一个样本值本的一个样是是待估参数知的形式为已的分布函数设总体n n x x x X X X X x F X θθ.),,,(ˆ),,,,(ˆ2121θθθ来估计未知参数用它的观察值一个适当的统计量点估计问题就是要构造n n x x x X X X .),,,(ˆ21的估计量称为θθn X X X .),,,(ˆ21的估计值称为θθn x x x .ˆ,θ简记为通称估计⎭⎬⎫二. 点估计例估计量的求法由于估计量是样本的函数, 是随机变量, 故对不同的样本值, 得到的参数值往往不同,如何求估计量是关键问题.1.矩估计法2. 极大(最大)似然法3. 最小二乘法4. 贝叶斯方法……√√(一) 矩估计矩估计法是英国统计学家K.皮尔逊最早提出来的.矩估计法思想实质是用样本的经验分布和样本的l阶矩去代替总体的分布和l阶矩.在第五章大数定律和中心极限定理中, 我们知道: 样本的l阶矩依概率收敛于总体的l阶矩, 这就是矩估计法理论依据.定义(矩估计法)用相应的样本的k阶矩作为总体的k阶矩的估计量, 这种估计方法称为矩估计法.用上面的解来估计参数θi就是矩法估计.矩估计的步骤:Step 1 求k阶矩的期望Step 2 用相应的样本k阶矩来代替k阶矩的期望Step 3 解出关于样本k阶矩的参数的的解(先求解再替换也可以).,),,,(,)0(,],0[21的估计量求的样本是来自总体未知其中上服从均匀分布在设总体θθθθX X X X X n >解)( 1X E =μ因为,2θ=根据矩估计法,,2ˆ1X A ==θ令.2ˆ 的估计量为所求所以θθX =例1.,,),,,(,,,],[21的估计量求的样本是来自总体未知其中上服从均匀分布在设总体b a X X X X b a b a X n 解)(1X E =μ,2b a +=)(22X E =μ()(),41222b a b a ++-=2)]([)(X E X D +=,1211∑===+ni i X n A b a 令2224)(12)(A b a b a =++-,112∑==n i i X n 例2样本矩总体矩⎪⎩⎪⎨⎧-=-=+.)(12,22121A A a b A b a 即解方程组得到a, b 的矩估计量分别为)(3ˆ2121A A A a --=,)(312∑=--=ni i X X n X )(3ˆ2121A A A b -+=.)(312∑=-+=ni i X X n X.,),,,(,)10(),,2,1()1(}{,211的估计量求的样本体是来自总未知其中即有分布律服从几何分布设总体p X X X X p p k p p k X P X n k <<=-==-解)(1X E =μ11)1(-∞=-=∑k k p p k ,1p=,ˆ11X A p ==令.1ˆ的估计量为所求所以p Xp=例3.,,,,,,0,221222的矩估计量和求一个样本是又设均为未知和但且有都存在和方差的均值设总体σμσμσσμn X X X X >解)(1X E =μ,μ=)(22X E =μ,22μσ+=2)]([)(X E X D +=⎩⎨⎧=+=.,2221A A μσμ令解方程组得到矩估计量分别为,ˆ1X A ==μ2122ˆA A -=σ∑=-=ni i X X n 1221.)(112∑=-=ni i X X n 例4上例表明:总体均值与方差的矩估计量的表达式不因不同的总体分布而异.的矩估计量即得未知例222, ,,),,(~σμσμσμN X ,ˆX =μ2ˆσ.)(112∑=-=n i i X X n 一般地,,11的均值的矩估计作为总体用样本均值X X n X n i i ∑==.)(1212的方差的矩估计作为总体用样本二阶中心矩X X X n B n i i -=∑=例5解:dxx x X E αα)1(10+21)1(11++=+=+⎰ααααdx x由矩法,21++=ααX 样本矩总体矩从中解得,12ˆXX --=α的矩估计.α即为数学期望是一阶原点矩练习设总体X 的概率密度为⎩⎨⎧<<+=其它,010,)1()(x x x f αα是未知参数,其中1->ααX 1,X 2,…,X n 是取自X 的样本,求参的矩估计.(二) 极大(最大)似然估计它首先是由德国数学家高斯在1821年提出的.Gauss Fisher然而,这个方法常归功于英国统计学家费歇.费歇在1922年重新发现了这一方法,并首先研究了这种方法的一些性质.记为);();,,,()(121θθθ∏===ni i n x p x x x L L 似然函数定义),;();,,,()(121θθθ∏===ni i n x f x x x L L极大似然估计量定义求极大似然估计量的步骤:;);();,,,()();();,,,()( )(121121θθθθθθ∏∏======ni i n ni i n x f x x x L L x p x x x L L 或写出似然函数一;);(ln )(ln );(ln )(ln )(11θθθθ∑∑====ni i ni i x f L x p L 或取对数二.ˆ,0d )(ln d ,d )(ln d )(θθθθθθθ的极大似然估计值解方程即得未知参数并令求导对三=L L 极大似然估计法也适用于分布中含有多个未知参数的情况. 此时只需令.,,2,1,0ln k i L i==∂∂θ.ˆ),,2,1( ,i i k i k θθ的最大似然估计值数即可得各未知参个方程组成的方程组解出由 =对数似然方程组对数似然方程注意: 求极大值时也可能不需要取对数.,,,,),,1(~21的最大似然估计量求个样本的一是来自设p X X X X p B X n ,,,,,,,2121一个样本值的为相应于样本设n n X X X x x x 解,1,0,)1(}{1=-==-x p p x X P X xx的分布律为似然函数iix ni x p p p L -=-=∏11)1()(,)1(11∑-∑===-ni ini ix n x p p例6),1ln(ln )(ln 11p x n p x p L ni i n i i -⎪⎭⎫ ⎝⎛∑-+⎪⎭⎫ ⎝⎛∑===,01)(ln d d 11=-∑--∑===px n p x p L p ni ini i令的最大似然估计值解得p .11x x n p ni i =∑==的最大似然估计量为p .1ˆ1X X n pni i =∑==这一估计量与矩估计量是相同的..,,,,,0)(21似然估计量的最大求的一个样本是来自的泊松分布服从参数为设λλλX X X X X n >解的分布律为因为X ),,2,1,0(,e !}{n x x x X P x===-λλ∏=-⎪⎪⎭⎫ ⎝⎛=ni i x x L i1e !)(λλλ(),!e 11∏=-∑==ni i x n x ni iλλ的似然函数为所以λ例7(),!ln )(ln 11∑-⎪⎭⎫ ⎝⎛∑+-===ni i n i i x x n L λλλ,0)(ln d d1=∑+-==λλλni ix n L 令的最大似然估计值解得λ,11x x n ni i =∑==λ的最大似然估计量为λ.1ˆ1X X n n i i =∑==λ这一估计量与矩估计量是相同的..,,,,,,),,(~22122的最大似然估计量和求的一个样本值是来自为未知参数设总体σμσμσμX x x x N X n 解的概率密度为X ,eπ21),;(222)(2σμσσμ--=x x f X 的似然函数为,e π21),(22)(12σμσσμ--=∏=i x ni L 例8,)(21ln 2)π2ln(2),(ln 12222∑=----=ni i x n n L μσσσμ⎪⎪⎩⎪⎪⎨⎧=∂∂=∂∂,0),(ln ,0),(ln 222σμσσμμL L 令,0112=⎥⎦⎤⎢⎣⎡-∑=ni i n x μσ,0)()(21212222=-+-∑=ni i x n μσσ⎪⎩⎪⎨⎧解得由0112=⎥⎦⎤⎢⎣⎡-∑=ni i n x μσ,1ˆ1x x n ni i =∑==μ解得由0)()(21212222=-+-∑=ni i x n μσσ,)(1ˆ212x x n n i i ∑-==σ为的最大似然估计量分别和故2σμ,ˆX =μ.)(1ˆ212X X n n i i ∑-==σ它们与相应的矩估计量相同..,,,,,,,,],[21的最大似然估计量求的一个样本值是来自总体未知其中上服从均匀分布在设总体b a X x x x b a b a X n 解),,,,min(21)(n l x x x x =记),,,,max(21)(n h x x x x =的概率密度为X ⎪⎩⎪⎨⎧≤≤-=.,0,,1),;(其他b x a ab b a xf 例9求极大值的其它方法,,,,,)()(21b x x a b x x x a h l n ≤≤≤≤等价于因为 的函数的似然函数为作为b a ,⎪⎩⎪⎨⎧≥≤-=其他,0,,,)(1),()()(h l nx b x a a b b a L 有的任意于是对于满足条件b a x b x a h l ,,)()(≥≤,)(1)(1),()()(nl h n x x a b b a L -≤-=,)(,),()()()()(nl h h l x x x b x a b a L --==取到最大值时在即似然函数的最大似然估计值b a ,,min ˆ1)(i ni l x x a≤≤==,max ˆ1)(i ni h x x b≤≤==的最大似然估计量b a ,,min ˆ1i ni X a≤≤=.max ˆ1i ni X b≤≤=最大似然估计的性质.)()ˆ(ˆ,)();(ˆ),(,)(的最大似然估计是则估计的最大似然中的参数形式已知数的概率密度函是又设数具有单值反函的函数设θθθθθθθΘθθθu u uf x f X u u u u =∈=∈= .证明,ˆ的最大似然估计值是因为θθ),;,,,(max )ˆ;,,,(2121θθΘθn n x x x L x x x L ∈=所以,,,,21的一个样本值是来自总体其中X x x x n ),ˆ(ˆ),ˆ(ˆu u uθθθ==由于)),(;,,,(max ))ˆ(;,,,(2121u x x x L ux x x L n u n θθ ∈=故.)()ˆ(ˆ的最大似然估计是于是θθu u u=此性质可以推广到总体分布中含有多个未知参数的情况.如例9中,的最大似然估计值为2σ,)(1ˆ212X X n n i i ∑-==σ),0()(2222≥===u u u u σσσ有单值反函数函数的最大似然估计值为故标准差σ.)(1ˆˆ212X X n n i i ∑-===σσ三、小结两种求点估计的方法:⎩⎨⎧矩估计法最大似然估计法在统计问题中往往先使用最大似然估计法,在最大似然估计法使用不方便时,再用矩估计法.;);();,,,()();();,,,()(121121θθθθθθ∏∏======ni i n ni i n x f x x x L L x p x x x L L 或似然函数课堂练习例1设总体X 的概率密度为⎩⎨⎧<<+=其它,010,)1()(x x x f αα其中是未知参数,αX 1 , X 2 , … , X n 是取自X 的样本,1α>求参数的矩估计.解样本矩总体矩解得11211μαμ-=-的矩估计量为α故21ˆ1X αX-=-()1μE X =1(1)αx αx dx=+⎰11(1)ααxdx +=+⎰12αα+=+解由密度函数知例2设X 1,X 2,…X n 是取自总体X 的一个样本为未知参数其它μθμθθμ,,0,1)(~)(⎪⎩⎪⎨⎧≥=--x e x f X x 其中> 0 , 求的矩估计.θ,θμμ-X 具有均值为的指数分布θ即E (X -) =μθμ2θD (X -)=⎧⎨⎩E (X )=+μθ2θD (X )=⎧⎨⎩故解得-=X μˆ∑=-=ni i X X n 12)(1ˆθ∑=-ni i X X n 12)(1也就是E (X )=+μθ2θD (X )=()θD X =()()μE X D X =-的矩估计量为于是,θμ解似然函数为∏=-=ni i x L 11)(θθθ11)(-=∏=θθni i nx )10(<<i x 对数似然函数为∑-+=nix n L ln )1(ln )(ln θθθni ≤≤1例3设X 1,X 2,…X n 是取自总体X 的一个样本⎩⎨⎧<<=-其它,010,)(~1x x x f X θθ求的最大似然估计值.θθ其中>0,∑=+=ni i x nd L d 1ln )(ln θθθ求导并令其为0=0从中解得1ln nii θnx==-∑即为的最大似然估计值.θ对数似然函数为∑=-+=ni ix n L 1ln )1(ln )(ln θθθ费舍尔资料Ronald Aylmer FisherBorn:17 Feb. 1890 inLondon, EnglandDied:29 Jul. 1962 inAdelaide, Australia。