《数理统计与随机过程讲义》
- 格式:doc
- 大小:704.50 KB
- 文档页数:14
第四章 假设检验假设检验是一种重要应用价值的统计推断形式,是数理统计的分支。
从发展历史上有重要的节点为1 :Pearson 的拟合优度的2χ检验 19002:Fisher 的显著性检验 19203:Neyman-Pearson 一致最优检验 1928 4:Wald 的判决理论 19505:Bayes 方法 (二战之后发展的学派) §4.1 基本术语关于随机变量的分布、数字特征等,每一种论断都称为统计假设,分为参数假设和非参数假设,例如),(~2σu N X ,假设1,1:==σu H 就称为参数假设;给定一组样本值,假设:H ~X 正态分布,对于分布进行论断,为非参数假设。
无论上面那种假设,都是给出一个对立的假设,比如),(~2σu N X ,那么假设1,1:0==σu H 的对立假设就是1,1:1≠≠σu H ,我们就把0H 称为基本假设,或者原假设,而1H 就称为对立(备选)假设。
为了分别那个假设是对的,需要判断假设真伪,就是对假设做出“否”还是“是”的程序就是检验,这个检验常用否定域形式给出,按照一定规则把样本值集合分成两个部分V V ⋃,当样本值落入子集V 认为0H 不真,那么V 是0H 的否定域,V 为0H 的接受域。
那么这样就产生了两种错误:第一类错误α :本来0H 是真,但是却否定了,弃真; 第二类错误β :本来0H 不真,但是却接受为真,叫取伪。
选定一种检验方法,我们希望上述两种错误概率都小。
但是给定样本容量,使得两种错误任意小是不可能的,我们主要研究两大类检验方法:1:样本容量给定,控制第一类错误,使得错误概率有一个上界α,叫做检验的显著性水平,根据这种原则建立的检验就是α水平显著性检验;2:样本容量给定,控制第一类错误α水平固定,还使得第二类错误最小,就是接受不真实假设的概率最小,否定不真实假设的概率就称为检验功效1-β,使得功效最大,,根据这种原则建立的检验就是α水平最大功效检验,或者最佳检验。
数理统计与随机过程数理统计与随机过程1. 引言数理统计与随机过程是两个密切相关的概念,既有相似之处又有一些区别之处。
数理统计是一种研究数据收集、分析和解释的方法,而随机过程则是研究时间上的随机变化的数学模型。
本文将深入探讨数理统计与随机过程的基本概念、应用以及相互关系,以期帮助读者更全面地理解这两个领域。
2. 数理统计数理统计是一种通过收集、处理和解释数据来进行推断和决策的学科。
它包括描述统计和推断统计两个方面。
描述统计主要包括对数据的总结、图形展示和基本统计指标的计算,通过这些方法可以揭示数据的特征和分布。
推断统计则是基于样本数据对总体特征进行估计和推断的方法,其中包括参数估计和假设检验。
数理统计在各个领域都有广泛的应用,如市场调研、医学研究和金融风险评估等。
3. 随机过程随机过程是一种描述随机现象演变的数学模型,它涉及到时间上不确定性的变化。
随机过程可以看作是一系列随机变量的集合,这些随机变量在时间上有关联,并且它们的取值取决于某个随机事件的结果。
随机过程可以分为离散时间和连续时间两种类型。
离散时间下的随机过程通常用更简单的概率论工具进行描述,如马尔可夫链和随机游走。
而连续时间下的随机过程则需要用到更为复杂的数学方法,如随机微分方程和布朗运动。
随机过程在物理学、通信系统和金融工程等领域有着广泛的应用。
4. 数理统计与随机过程的联系数理统计和随机过程有着密切的联系,两者既有相互支持的关系,也有独立发展的特点。
数理统计可以用来对随机过程进行建模和推断。
通过收集随机过程的样本数据,可以应用数理统计中的方法来估计空间分布、预测未来变化趋势等。
而随机过程则为数理统计提供了数据来源,将现实世界的随机现象进行数学描述,为数理统计的分析提供了基础。
随机过程的理论和方法也常常被运用到数理统计中。
在时间序列分析中,随机过程的模型可以用来描述数据随时间变化的规律,从而可以对未来的观测结果进行预测和分析。
数理统计和随机过程的融合使得对数据的分析更加全面和准确。
《数理统计与随机过程讲义》段法兵复杂性科学研究所第二章 抽样理论 §2.1 基本术语从一个集合中取出一部分元素,来研究这些元素的特征作为一个指标,从而推断整个集合的性质,整个集合称为母体(总体),每个元素称为个体。
对于母体的推断往往不止一次地进行,每次观测值向量是个随机向量X=(n x x x ,,,21 ),称为容量n 的子样观测值。
不同抽样观测中,随机向量X 所有取值的全体称为样本空间。
为反映母体样本特性,抽样时:1)子样每个分量n x x x ,,,21 也与母体有相同分布)(x F ; 2)子样每个分量n x x x ,,,21 相互独立,其联合分布为∏=ni i x F 1)(。
满足上述要求的子样称为简单子样。
统计量:对于子样观测值针对不同的问题构造出某种子样的函数,称为统计量。
比如子样矩:∑==ni i x n X 11 子样均值∑=-=ni i nX x n S 122)(1 子样方差∑=--=n i i nX x n S12*2)(11子样方差(类型二) ∑==n i ki k x n A 11 子样k 阶原点矩∑=-=ni i k k X x n B 1)(1 子样k 阶中心矩这里我们设母体真值:均值为μ,方差2σ,k 阶原点矩k m ,k 阶中心矩k μ。
§2.2 抽样的分布为了从抽样形成的统计量推断母体的分布特征,抽样的分布是个解决的基本问题。
2.2.1 正态母体子样的线性函数分布正态母体子样列向量X=(n x x x ,,,21 )T 相互独立都符合正态分布),(2σμN ,定理:设矩阵n p ij a A ⨯=)(那么AX Y Y Y Y p =⎥⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎢⎣⎡= 21那么i Y 都是正态分布,且均值为: p i a EY nk ik i ,,2,1,1 ==∑=μ方差为: p i aDY nk iki ,,2,1,122==∑=σ互协方差:∑==--=nk jk ikj j i i j i a aEY Y EY Y E Y Y 12)})({(),cov(σ推论:当A 为正交阵时,且均值μ=0,那么i Y 是相互独立的正态分布),0(2σN ,且互协方差:I Y Y j i 2),cov(σ=为对角阵。
数理统计与随机过程李忠范数理统计与随机过程是概率论和统计学的重要分支,它们的研究对象都是随机现象。
数理统计主要研究如何从样本中推断总体的性质,而随机过程则关注于随机现象在时间上的演化规律。
本文将从简单介绍数理统计和随机过程的基本概念开始,逐渐深入探讨其应用和研究方法。
一、数理统计1.1 基本概念数理统计是一门研究如何根据数据推断总体特征的学科。
它涉及到总体、样本、参数估计、假设检验等基本概念。
在实际应用中,我们往往无法直接获得总体的信息,只能通过对样本进行观察和分析来推断总体的性质。
1.2 参数估计参数估计是数理统计中的重要内容,它通过样本数据来估计总体的未知参数。
最常用的参数估计方法有矩估计和最大似然估计。
矩估计是根据样本矩的性质来估计总体参数,而最大似然估计则是寻找最有可能产生观测数据的参数值。
1.3 假设检验假设检验是数理统计中用来判断总体参数是否符合某种设定的方法。
它分为参数检验和非参数检验两种。
参数检验通常是对总体参数进行假设,然后通过样本数据来判断该假设是否成立;非参数检验则不对总体参数做特定的假设,通过对样本的分布进行比较来得出结论。
1.4 方差分析方差分析是数理统计中用来分析多个总体均值是否相等的方法。
它通过比较组间变异和组内变异的大小来推断不同组的均值是否有显著差异。
方差分析在实际应用中广泛用于比较不同处理组之间的差异。
二、随机过程2.1 基本概念随机过程是描述随机现象在时间上演化的数学模型。
它由状态空间、时间集合和转移概率组成。
随机过程可以是离散的,也可以是连续的。
通过研究转移概率和状态空间的性质,我们可以了解随机过程在不同状态之间的转移规律。
2.2 马尔可夫链马尔可夫链是随机过程的一种特殊形式,它具有马尔可夫性质,即未来状态的概率分布仅依赖于当前状态,而与历史状态无关。
马尔可夫链在很多领域中都有广泛应用,比如排队论、货物流动等。
2.3 布朗运动布朗运动是一种连续时间、连续状态的随机过程,它具有独立增量和正态分布特性。
《数理统计与随机过程讲义》段法兵复杂性科学研究所第一章 概率论回顾下面是数理统计部分需要的掌握的,许多推导的基础知识。
§1.1 几种分布的由来指数分布:服务台电话呼叫时间,公交车到达一个车站时间,这些时间分布的符合指数分布。
设)(t q 为区间t 上没有事件发生的概率,x 为第一次事件发生等待的时间,那么)()(t x P t q >=,假设不同时间区间1t ,2t 相互不重叠且独立,那么)()()(2121t t x P t x P t x P +>=>>⇒)()()(2121t t q t q t q +=⇒t e t q λ-=)(为非平凡(非零)有界解,这里λ为状态转移概率 那么我们有分布函数t e t q t x P t x P t F λ--=-=>-=≤=1)(1)(1)()(因此得到指数分布⎩⎨⎧≥==-other t e dt t dF t f t 00)()(λλ两个指数分布之和的分布?y x z +=在x-y 的空间内,满足z y x ≤+的区域如上,那么z 的累计分布Y{}⎰⎰-=≤+=yz xy z dx y x f dy z y x P z F 0),()(那么⎰-==z y x z dx x z f x f dzz dF z f 0)()()()( 例如x 与y 为相互独立的指数分布,x x e x f λλ-=)(和y y e y f λλ-=)(分别为其概率分布函数,那么x z =+y 的分布为z zx z x y x z e z dx e e y f x f z f λλλλλ---===⎰20)(*)()(z zx z x e z dx e e λλλλλ----==⎰20)(2, 0>zGamma 分布:N 个指数分布的随机变量之和的分布为Gamma 分布。
例如x 与y 为相互独立的指数分布,x x e x f λλ-=)(和y y e y f λλ-=)(分别为其概率分布函数,那么x z =+y 的分布为z zx z x y x z e z dx e e y f x f z f λλλλλ---===⎰20)(*)()(如此卷积下去,N 个相互独立的指数分布相加的概率分布为Gamma 分布,其概率密度函数⎪⎩⎪⎨⎧≥Γ=--other x e x x f x 00)()(/1βααβα这里参数0,>βα。
Gamma 函数⎰∞--=Γ01)(dx e x x αα。
性质1:利用分部积分法得到递推公式)()1(αααΓ=+Γ,当α为整数n 时,利用分部积分法得到!)()1(n n n n =Γ=+Γ,而非整数2/1=α,利用变量代换2/2y x =,得到π=Γ)2/1(,所以有πnn n n n n n 2!)!12()21(2123)23)(21()21()21()21(-=Γ--=-Γ-=+Γ 。
性质2:1=α ,Gamma 分布为βλ/1=的指数分布;α为整数n ,Gamma 分布为Erlang 分布,如第一次故障后再次出现n次故障;2/n =α,2/1/1==βλ,Gamma 分布为2χ分布,抽样理论中一种重要分布。
§1.2 随机变量函数的分布因为我们在后面统计假设,检验时将遇到随机变量的函数,因此求出随机变量函数的分布是一个非常重要的基础知识。
分为单输入单输出和双输入单(双)输出三种类型。
类型一: 设x 的分布)(x f x ,求)(x g y =的分布)(y f y如图所示,在dy 区间y 发生的概率为dy y f y )(,由于)(x g y =不一定是单调函数,dy 区间y 对应了多个区间dx1,dx2,dx3,…,都满足dy y x g y +<<)(,dy 区间y 发生的概率等于所对应的x 所在区间发生的概率:i i x y dx x f dy y f )()(∑=∑∑==⇒ii x i i x y dx dy x f dy dx x f y f /)()()( 我们设)(y h x i i =为逆函数,则∑∑==i i ix i ii x y y h g y h f y h y h f y f |)](['|)]([|)('|)]([)(例子:设x 的分布2221)(x e x f x -=π,求平方律检波器输出2x y =的概率分布函数。
解:y x ±=为反函数两支,且)2/(1/y dy dx =,则0,212121*2)()(2/2/12≥===---∑y e y e y dy dx x f y f y yi i x y ππ这个分布就是Gamma 分布的)2,2/1(Γ,也是自由度为1的2χ分布。
例子:设x 的分布为均匀分布)(x f x =π/1,]2/,2/[ππ-∈x ,那么)arctan(x y =的分布为柯西分布21/1)(y y f y +=π逆问题1:已知x 的分布)(x f x ,如何构造)(x g y =函数使得y 符合(0,1)之间的均匀分布1)(=y f y 。
由上面推导知dx x f dy y f x y )()(=将1)(=y f y 代入上式,得出)()()(x F du u f y dx x f dy x x x x ==⇒=⎰∞-可以看出我们要找到函数)(x g 就是x 的累积分布函数x F 。
应用:数字图像的直方图均衡化【Gonzalez : 数字图像处理】数字图像的直方图就是图像灰度的分布,比如电子显微镜下花粉图像 Matlab 代码:假设你有花粉图像pollen.tif >> X=imread('pollen.tif'); >> imshow(X) >> imhist(X) >> ylim('auto')0050100150200250原始花粉图像 灰度的分布直方图可以看出图像较暗,灰度集中在较低的灰度级别-偏暗端,如果将灰度调节一下,使得整个灰度范围内(0,255)内大致均匀分布,那么就达到了亮度调谐的目的。
利用上面推导,)(x g 就是x 的累积分布函数x F ,这里是离散分布,那么就把积分改成加和的方式,设)(j x x p 为不同灰度级L j ,,2,1 =灰度的概率,那么均衡化变换为∑==kj j x k x p y 1)(L k ,,2,1 =,k y 就是输出图像的灰度值。
这样处理: >> Y=histeq(I,256); >> imshow(Y)>> figure, imhist(Y) >> ylim('auto')0050100150200250可以看出输出图像的直方图在256个灰度级都有分布,比较接近均匀分布,并不是完全平坦。
但是图像已经比较亮度合适了。
逆问题2:已知x 的分布为(0,1)之间的均匀分布)(x f x =1,如何构造)(x g y =函数使得y 符合任意分布)(y f y 。
同理,由 dx x f dy y f x y )()(=,得到⎰∞-=y y du u f x )(=)(y F y就是)(y h x =逆函数为y 的累积概率密度函数y F ,自然)(x g 就是y F 的逆函数:)(1x F y y -=例子:求Rayleigh 分布这个是只对于r>0有定义,求CDF那么如果设U 为均匀分布()(y h x=)1- U 也是均匀分布,即那么得出变换关系R 就是瑞利分布了~~~~~Rayleigh随机数程序clear alln = input('Enter number of points > ');varR = 3; % set pdf parameteru = rand(1,n); % generate Uy_exp = sqrt(-2*varR*log(u)); % transformation[N_samp,r] = hist(y_exp,20); % get histogram parameters subplot(2,1,1)bar(r,N_samp,1) % plot histogramylabel('Number of Samples')xlabel('Independent Variable - x')subplot(2,1,2)term1 = r.*r/2/varR; % exponentray = (r/varR).*exp(-term1); % Rayleigh pdfdel_r = r(3)-r(2); % determine bin widthp_hist = N_samp/n/del_r; % probability from histogram plot(r,ray,'k',r,p_hist,'ok') % compare resultsylabel('Probability Density')xlabel('Independent Variable - x')legend('true pdf','samples from histogram',1)0123456750100150N u m b e r o f S a m p l e sIndependent Variable - x00.10.20.30.4P r o b a b i l i t y D e n s i t yIndependent Variable - x类型二: 设x 和y 的联合分布),(y x f xy ,那么求),(y x g z =的分布z f ,这里主要考虑y x z ±=,xy z =,y x z /=,以及),max(y x z =,),min(y x z =,此类问题的重要处在于二重积分的积分区间。
例如:y x z /=解:}0|{}0|{}/{<≥+>≤=≤y yz x P y yz x P z y x P 上述两个分割概率可以用图形表示那么z 的累积概率密度函数⎰⎰⎰⎰-∞=∞=∞=-∞=+=⎭⎬⎫⎩⎨⎧≤=00),(),()(y yzx xy y yzx xy z dxdy y x f dxdy y x f z y x P z F 按照复合函数求导法则⎰⎰⎰∞∞-∞-∞=-+==dyy yz f y dyy x yf dy y x yf dz dF z f xy xy xy zz ),(||),(),()(00同理可得:y x z ±=对应的分布为⎰∞∞-=dy y y z f z f xy z ),()(对于x >0分布)(x f x y >0分布)(y f y 类型,比如前面的指数分布⎰=zxy z dy y y z f z f 0),()(因为此时积分区间为⎰⎰=-==≤+=zy yz x dxdy y x f z y x F z F 00),(}{)(那么dy y y z f dy dx y x f z dz dFz f z z y z z ⎰⎰⎰-=∂∂==-000),()),(()(比如两个系统x,y 表示其故障发生时间,那么备用系统模型S 的故障时间分布为x+y 和的分布设x 和y 相互独立,)()(),(y f x f y x f y x xy =,),max(y x z =的分布为)()()()()(z F z f z f z F z f y x y x z +=比如并联系统),min(y x z =的分布为)()()()()()()(z F z f z f z Fz f z f z f y x y x y x z --+=比如串联系统类型三:已知设x 和y 的联合分布),(y x f xy ,那么求),(y x g z =,),(y x h w =的联合分布),(w z f zw ,这里设g 和h 函数连续可导,且有可逆函数),(w z k x =,),(w z m y =在微元面积w z ∆∆上发生的概率w z w z f w w y x h w z z y x g z P zw ∆∆=∆+≤≤∆+≤≤),(}),(,),({我们将ABCD 对应的微元映射到xy 概率空间上的A’B’C’D’微元S ∆,那么S y x f w z w z f xy zw ∆=∆∆),(),(因此,我们可以解出 w z S y x f w z f xy zw ∆∆∆=),(),(,问题的关键转化为求wz S∆∆∆,点(z,w )变换为'A 点(),(w z k x =,),(w z m y =),那么'B 点的坐标可以表示为('',B B y x )=(),(),,(w z z m w z z k ∆+∆+)≈(,),(z z k w z k ∆∂∂+z zmw z m ∆∂∂+),() =(,z z k x ∆∂∂+z zm y ∆∂∂+)同理'C 点的坐标可以表示为('',C C y x )=(,w w k x ∆∂∂+w wmy ∆∂∂+) 那么S ∆的面积可以用平行四边形面积求出wz w z J w z w m z m w kz k ww kz z m w w m z z k C A B A C A B A C A B A S ∆∆=∆∆∂∂∂∂∂∂∂∂=∆∂∂∆∂∂-∆∂∂∆∂∂=-=-=∆|),(|cos ''sin ''sin ''cos '')sin(''''θϕθϕϕθ 代入S y x f w z w z f xy zw ∆=∆∆),(),(,我们得到|),(|),(),(|),(|),(,y x J y x f y x f w z J w z f y x xy zw ==这里Jacobi 矩阵|),(|1|),(|y x J w z J =,二者互为逆阵。