《数理统计与随机过程讲义》
段法兵
复杂性科学研究所
第一章 概率论回顾
下面是数理统计部分需要的掌握的,许多推导的基础知识。
§1.1 几种分布的由来
指数分布:服务台电话呼叫时间,公交车到达一个车站时间,这些时间分布的符合指数分布。设)(t q 为区间t 上没有事件发生的概率,x 为第一次事件发生等待的时间,那么)()(t x P t q >=,假设不同时间区间1t ,2t 相互不重叠且独立,那么
)()()(2121t t x P t x P t x P +>=>>
?)()()(2121t t q t q t q +=
?t e t q λ-=)(为非平凡(非零)有界解,这里λ为状态转移概率 那么我们有分布函数
t e t q t x P t x P t F λ--=-=>-=≤=1)(1)(1)()(
因此得到指数分布
???≥==-other t e dt t dF t f t 0
0)()(λλ
两个指数分布之和的分布?
y x z +=
在x-y 的空间内,满足z y x ≤+的区域如上,那么z 的累计分布
Y
{}?
?-=≤+=y
z xy z dx y x f dy z y x P z F 0
),()(
那么
?-==
z y x z dx x z f x f dz
z dF z f 0)()()
()( 例如x 与y 为相互独立的指数分布,x x e x f λλ-=)(和y y e y f λλ-=)(分别为其概率分布函数,那么x z =+y 的分布为
z z
x z x y x z e z dx e e y f x f z f λλλλλ---===?20)(*)()(
z z
x z x e z dx e e λλλλλ----==?20)(2, 0>z
Gamma 分布:N 个指数分布的随机变量之和的分布为Gamma 分布。
例如x 与y 为相互独立的指数分布,x x e x f λλ-=)(和y y e y f λλ-=)(分别为其概率分布函数,那么x z =+y 的分布为
z z
x z x y x z e z dx e e y f x f z f λλλλλ---===?20)(*)()(
如此卷积下去,N 个相互独立的指数分布相加的概率分布为Gamma 分布,其概率密度函数
??
???≥Γ=--other x e x x f x 00)()(/1β
α
αβα
这里参数0,>βα。Gamma 函数
?∞
--=Γ01)(dx e x x αα。
性质1:利用分部积分法得到递推公式
)()1(αααΓ=+Γ,
当α为整数n 时,利用分部积分法得到
!)()1(n n n n =Γ=+Γ,
而非整数2/1=α,利用变量代换2/2y x =,得到
π=Γ)2/1(,
所以有
πn
n n n n n n 2!)!12()21(2123)23)(21()21()21()21(-=Γ--=-Γ-=+ΓΛ。
性质2:1=α ,Gamma 分布为βλ/1=的指数分布;
α为整数n ,Gamma 分布为Erlang 分布,如第一次故障后再次出现n
次故障;
2/n =α,2/1/1==βλ,Gamma 分布为2χ分布,抽样理论中一种重要分布。
§1.2 随机变量函数的分布
因为我们在后面统计假设,检验时将遇到随机变量的函数,因此求出随机变量函数的分布是一个非常重要的基础知识。分为单输入单输出和双输入单(双)输出三种类型。
类型一: 设x 的分布)(x f x ,求)(x g y =的分布)(y f y
如图所示,在dy 区间y 发生的概率为dy y f y )(,由于)(x g y =不一定是单调函数,dy 区间y 对应了多个区间dx1,dx2,dx3,…,都满足dy y x g y +<<)(,dy 区间y 发生的概率等于所对应的x 所在区间发生的概率:
i i x y dx x f dy y f )()(∑=
∑∑==?i
i x i i x y dx dy x f dy dx x f y f /)
()
()( 我们设)(y h x i i =为逆函数,则
∑∑==i i i
x i i
i x y y h g y h f y h y h f y f |
)](['|)]([|
)('|)]([)(
例子:设x 的分布22
21)(x e x f x -=
π
,求平方律检波器输出2x y =的概率分布函数。 解:y x ±=为反函数两支,且)2/(1/y dy dx =,则
0,21
2121
*
2)()(2/2/12≥===---∑y e y e y dy dx x f y f y y
i i x y π
π
这个分布就是Gamma 分布的)2,2/1(Γ,也是自由度为1的2χ分布。
例子:设x 的分布为均匀分布)(x f x =π/1,]2/,2/[ππ-∈x ,那么)arctan(x y =的分布为柯西分布
2
1/1)(y y f y +=
π
逆问题1:
已知x 的分布)(x f x ,如何构造)(x g y =函数使得y 符合(0,1)之间的均匀分布1)(=y f y 。 由上面推导知
dx x f dy y f x y )()(=
将1)(=y f y 代入上式,得出
)()()(x F du u f y dx x f dy x x x x ==?=?
∞
-
可以看出我们要找到函数)(x g 就是x 的累积分布函数x F 。
应用:数字图像的直方图均衡化【Gonzalez : 数字图像处理】
数字图像的直方图就是图像灰度的分布,比如电子显微镜下花粉图像 Matlab 代码:假设你有花粉图像pollen.tif >> X=imread('pollen.tif'); >> imshow(X) >> imhist(X) >> ylim('auto')
00
50
100
150
200
250
原始花粉图像 灰度的分布直方图
可以看出图像较暗,灰度集中在较低的灰度级别-偏暗端,如果将灰度调节一下,使得整个灰度范围内(0,255)内大致均匀分布,那么就达到了亮度调谐的目的。利用上面推导,)(x g 就是x 的累积分布函数x F ,这里是离散分布,那么就把积分改成加和的方式,设)(j x x p 为不同灰度级L j ,,2,1Λ=灰度的概率,那么均衡化变换为
∑==k
j j x k x p y 1)(
L k ,,2,1Λ=,k y 就是输出图像的灰度值。这样处理: >> Y=histeq(I,256); >> imshow(Y)
>> figure, imhist(Y) >> ylim('auto')
00
50
100
150
200
250
可以看出输出图像的直方图在256个灰度级都有分布,比较接近均匀分布,并不是完全平坦。但是图像已经比较亮度合适了。 逆问题2:
已知x 的分布为(0,1)之间的均匀分布)(x f x =1,如何构造)(x g y =函数使
得y 符合任意分布)(y f y 。同理,由 dx x f dy y f x y )()(=,得到
?
∞
-=y y du u f x )(=)(y F y
就是)(y h x =逆函数为y 的累积概率密度函数y F ,自然)(x g 就是y F 的逆函数:
)(1
x F y y -=
例子:求Rayleigh 分布
这个是只对于r>0有定义,求CDF
那么如果设U 为均匀分布()(y h x
=)
1- U 也是均匀分布,即
那么得出变换关系
R 就是瑞利分布了~~~~~
Rayleigh随机数程序
clear all
n = input('Enter number of points > ');
varR = 3; % set pdf parameter
u = rand(1,n); % generate U
y_exp = sqrt(-2*varR*log(u)); % transformation
[N_samp,r] = hist(y_exp,20); % get histogram parameters subplot(2,1,1)
bar(r,N_samp,1) % plot histogram
ylabel('Number of Samples')
xlabel('Independent Variable - x')
subplot(2,1,2)
term1 = r.*r/2/varR; % exponent
ray = (r/varR).*exp(-term1); % Rayleigh pdf
del_r = r(3)-r(2); % determine bin width
p_hist = N_samp/n/del_r; % probability from histogram plot(r,ray,'k',r,p_hist,'ok') % compare results
ylabel('Probability Density')
xlabel('Independent Variable - x')
legend('true pdf','samples from histogram',1)