经验分布函数与直方图共43页
- 格式:ppt
- 大小:4.96 MB
- 文档页数:43
经验分布和分布函数在统计学中,经验分布和分布函数是两个重要的概念。
经验分布是指根据一组观测数据得到的概率分布函数的估计,而分布函数则是用于描述一个随机变量的概率分布的函数。
经验分布是通过对观测数据进行统计分析来估计真实概率分布的方法之一。
在实际应用中,我们通常无法获得全部的数据,而只能通过抽样得到一部分数据。
因此,我们需要通过对抽样数据进行分析来得到总体的概率分布。
经验分布的计算方法很简单,只需要统计抽样数据中每个取值出现的频率即可。
然后将这些频率按照大小顺序累加,就得到了经验分布。
经验分布是对真实分布的一种估计,它可以用来描述抽样数据的分布特征。
分布函数是用来描述一个随机变量的概率分布的函数。
它定义为随机变量小于等于某个特定值的概率。
分布函数通常用大写字母F表示,其数学表达式为F(x) = P(X ≤ x),其中X表示随机变量,x表示一个实数。
分布函数是概率论中最基本的概念之一,它能够完整地描述一个随机变量的概率分布。
分布函数具有以下性质:1) F(x)是一个非减函数;2) F(x)的取值范围在0到1之间;3) F(x)在x趋于负无穷时趋于0,x趋于正无穷时趋于1。
经验分布和分布函数在统计学中有着广泛的应用。
它们可以用来描述随机变量的分布特征,从而对随机变量进行概率推断和统计推断。
例如,在假设检验中,我们可以通过计算经验分布和分布函数来判断某个假设的可行性。
另外,在参数估计中,我们也可以利用经验分布和分布函数来估计未知参数的值。
此外,经验分布和分布函数还可以用来进行模型拟合和预测,从而对未来的观测数据进行预测和分析。
经验分布和分布函数是统计学中两个重要的概念。
它们可以用来描述随机变量的分布特征,进行参数估计和假设检验。
在实际应用中,我们可以通过对观测数据进行统计分析来计算经验分布和分布函数,从而对随机变量的概率分布进行估计和推断。
经验分布和分布函数的应用范围广泛,对于统计学的研究和实践都具有重要的意义。
直方图与经验分布函数总体X 分布未知samplepopulation直方图(Histogram)总体X 的sample :12,,,n X X X ":()pdf f x 具体步骤:①Sample 观测值12,,,nX X X "min{,1,X X i n =="max{1,,}X X i n =="(1){,}i (){,n i[a,b]m 个小区间(m<n )小区间长度可以不等,设分点为②将[,]分成个小区间,小区间长度可以不等设分点为算数率n bt t t a m =<<<="10③ 计算频数j n 及频率1,,jj f j m n==" ④ 作图:],[1t t −为底边,j f 为高作长方形,面积为f (m 个长方形之和为1)j j jt Δj 用直方图对应的分布函数()jn jf x t Φ=Δ1(,]j j x t t −∈1,,j m ="⎧引进“随机变量”11(,]1,2,,0i j j j x t t i n otherwise ξ−⎪∈⎪⎪==⎨⎪⎪"⎪⎩11{(,]}{1}(1)xxj j j p P x t t P p p ξ−−=∈⇐==−由SLLN(kolmogorov)有1n SLLNjj i i n f E pn ξξ===∑→1j n =jt 11{(,]}()j j j t P x t t f x dx −−=∈=∫()n →∞{lim }1P ==n ⇒→∞{j n f p →∞f 近似代替以)(x f 为曲边的曲边梯形的面积。
j 若∞→n ,j t Δ较小时,可用j f x =Φx x t t jn t Δ)(,近似代替()f ,1(,]j j −∈Example 1:原始数据data=[16,25,19,20,25,33,24,23,20,24,25,17,15,21,22,26,15,23,22,24,20,14,16,11,14,28,18,13,27,31,25,24,16,19,23,26,17,14,30,21,18,16,18,19,2022192218262613211311192318242813112515171820,22,19,22,18,26,26,13,21,13,11,19,23,18,24,28,13,11,25,15,17,18,22,16,13,12,13,11,9,15,18,21,15,12,17,13,14,12,16,10,8,23,18,11,16,28,13,21,22,12,8,15,21,18,16,16,19,28,19,12,14,19,28,28,28,13,21,28,191115182418162819151322141624202818182814132819,11,15,18,24,18,16,28,19,15,13,22,14,16,24,20,28,18,18,28,14,13,28,29,24,28,14,18,18,18,8,21,16,24,32,16,28,19,15,18,18,10,12,16,26,18,19,33,8,11,18,27,23,11,22,22,13,28,14,22,18,26,18,16,32,27,25,24,17,17,283816202832192318281524282916171918]28,38,16,20,28,32,19,23,18,28,15,24,28,29,16,17,19,18]数字特征计算:mean(data) median(data) std(data) var(data) skewness(data) kurtosis(data)195650185000592723513140343125599计算结果19.5650 18.5000 5.9272 35.1314 0.3431 2.5599histfit(data,13)35150经验分布函数(Experience DistributedFunction)经验分布函数(Experience Distributed Function)总体X 的分布函数F 未知,Sample 12,,,()()n n X X X F x F x ⇒⇒"构造()(x F n )方法:12,,,nX X X "(1)(2)()n X X X ≤≤≤"(1)0x X ⎧≤⎪()()(1)()n k k k F x X x X +⎪⎪⎪⎪=<≤⎨⎪1,2,,1k n =−"()1n n x X ⎪⎪⎪>⎪⎩仿真试验固定,()n X F x :表示事件{}X x <在n 次试验中出现的频率,1(){}n i F x x X =−∞落在(,)中的个数n 类似可证:{lim )()}1nP F x F x ==( n →∞Theorem(Glivenko-Cantelli):对任意给定的自然数n ,设12,,,n X X X " 是取自总体X 分布函数)(x F 的一个样本观测值,)(x F n 为其经验 分布函数,记)()({sup x F x F D nx n −=∞<<∞− 则{lim 0}1n n P D →∞==经验分布函数(数据如前例)程序:[h,stats]=cdfplot(data)[h,stats]cdfplot(data) 程序运行结果:Empirical CDF Empirical CDF统计量及分布统计量(St ti ti Sample X X X ",构造statistics ,poplation 统计量(Statistics)Sample 的函数不含参数的函数p 12,,,n ,p p12(,,,)n T T X X X ="Example 7、Sample,statistics:180952809.52i X X n==∑1154.28S ==∑结论:平均(X ),悬殊(S )不大Popalatrion X 的SampleX X X ",则常用的Statistics 1X X = (Mean) p p 12,,,n ①i n∑样本均值()1② S =∑ 样本方差(Sample Variance ) ③ 2S S =样本标准差(Standard Variance )④ 11nkk i i A X n ==∑ 样本k 阶原点矩(Moment )1nkB =−样本⑤1()k i i X X n =∑k 阶中心矩二维两总体X Y 总体的Sample X Y X Y X Y "则有:(,)p 1122(,),(,),,(,)n n ① 121()(ni i S X X Y Y =−− 样本协方差(Covariance )1i n =∑S ②Y x S S 12ˆ=ρ 样本相关系数(Correlation Clefficient )Histogram nn f ii =0x X ⎧⎪≤⎪Experience (1)(1)()()n k k k F x X x X n −⎪⎪⎪⎪=<≤⎨⎪ ()1n x X ⎪⎪⎪>⎪⎪⎩Ordered statistics :Sample X X X"p 12,,,n(1)(2)(1)(2)(),,,n n X X X X X X ≤≤≤⇒"" ()()()()()()1!(1))!()!x F k n k n F x u u du −−⎧⎪⎪=−⎪()(1)0()((1)!(()1(1())k x n x k n k F x F x ⎪−−⎪⎪⎪=−−⎨⎪∫()()(())n n x F x F x ⎪⎪⎪=⎪⎪⎪⎩():'k X k th ordered statistic⇐(1):min X imum ordered statistici d d t ti ti⇐():max n X imum ordered statisticn ()()11!(,)[()][()()][1()](1!(1)!(1)!()!1!i j i j i n j x x f x y F x F y F x F y p i j i n j −−−−=−−−−−−⎧()()2(1)[()()]()()(,)0i n n x x n n F y F x p x p y x y f x y otherwise −⎪−−<⎪⎪=⎨⎪⎪⎪⎩ 11212!()()(,,)n nn n f x f x x x x f x x x ⎧⎪<<<⎪⎪=⎨⎪"""0otherwise⎪⎪⎩X ⎧⎪⎪1()2*()(1)221[]2n n n M X X ++⎪⎪=⎨⎪+⎪⎪⎪⎪⎩ *()(1)n D X X =−反例:..2(,)~i i di X N μσ⇒2111,(),ni X X X μ−∑是1i n σ=Sample二重性Statistic二重性抽样分布2χ分布..22(01)~i i dn=∑"Definition :1()1,,(0,1)~nin i X X N Y Xχ=⇒Theorem1.1(2χ分布addition ):k 个相互独立的r.v. 12,,,k Y Y Y "且2~()j j Y n χ,1,,j k ="Then : 211~()nnj j j j Y Y n χ===∑∑..i i dProof :2=k 推出:If :112121,,,,,,(0,1)~n nnn X X X X X N ++""Then⎪⎪⎫∑∑=+=211122121,n j jn n i jX Y X Y 同分布与同分布与 ⎪⎪⎭⎬∑∑==+121112221n i n j jn j X X Y Y 相互独立与相互独立与又⇓同分布与∑∑∑+===+=++=2112112112221n n j j n i n j j n j X X X Y Y YTheorem1.22~==Theorem1.2X χ⇒① n X n EX 2var ②:的pdf X Where10()0xxe dx ααα∞−−Γ=>∫⎧122210n x n x e x n −−⎪⎪>⎪⎪⎪⎪=()2(20f x otherwise Γ⎨⎪⎪⎪⎪⎪⎪⎩Proof :① ..(0,1)~i i dnii X N X X ⇒∑与同分布1i =且22n nn∑且:111var iii i i i EX E X EXX n=======∑∑()n EX X E X X X ni iiini i∑∑∑===−===1224212])(([var var(var ))时,X t xty y 22121122−−=−②1=n dt e t dye x P x F 022}{)(∫=∫=<=ππn x −−⎧⎪12212101()2()x e x f x ⎪>⎪⎪⎪⎪=Γ⎨ 20otherwise ⎪⎪⎪⎪⎪⎪⎩设:22~(1),~(1),Y n Z Y Z χχ−且与相互独立Then :同分布与Z Y Y +(2χ分布的可加性)11222221102211()()()()11n yy x x Y n f x f y f x y dy ye x y en −−+∞−−−−−∞=−=⋅−−∫∫2(2()22ΓΓ11112221x n −−−−−12()12()2n eyx y dyn −=−Γ∫1x n n 1111222221(1)112n exzz dzn −−−−−=−−ΓΓ∫()(221221n x x e −−=22(2n n ΓB函数duu uB q p 1111−−−=Beta函数q p 0)(),(∫Beta与Gamma关系)()()(),(),(q P q p P q B q p B +ΓΓΓ==t 分布与F 分布Definition设 2~(0,1)~X N Y n X 与Y 相互独立 则(,)()χ~X=()T t n2⎧211()2x X n x f x π−−−⎪⎪⎪=⎪⎪⎪⎪⎧⎪1221()2n n x −−+Γ=22210()2(2n Y y e y n f y ⎪⎪⎨>⎪⎪⎪⎪⎪=⎪⎨Γ⎪⎪⎪⎪⎪()(1)()2T f x n n n π⇒+Γ00x ⎪⎪⎪≤⎪⎪⎩⎪⎩Definition :If 21~()X n χ,22~()Y n χ X 与Y 相互独立, themX 112~(,)n T F n n Y =2ndf为类似可得 ),(21n n F 的pdf 为:⎧1121212122212()20n n n n n n n x n x +⎪+⎪Γ⎪⎪⎪⋅>⎪=12212()()()()220f x n n n x n elsewhere⎨⎪ΓΓ+⎪⎪⎪⎪⎪⎪⎩性质:①),(~1),(~1221n n F n n F F ⇒F②),1(~)(~2n F XY n t X =⇒③1,n n F =),()(12121n n F αα−分位数(quantile).:RV X CDF F X,,给定(){}:()F x P X x CDF F x =<⇒给定的值,要确定X 取什么值? Definition :设X 的,(){}01CDF F X F X P X X ααααα=<=<<为满足 则称αX 为F 的α分为数(点)若X 有pdf )(x f ,则分为数αX 表示αX 以左的一块阴影面积为α。
§6.2直方图和箱线图在数理统计中,我们常常用图形来直观地显示观察到的数据,以便对总体X的分布有一个直观、粗略的了解。
四川大学徐小湛本节讲以下图形:直方图箱线图(自学)经验分布函数及其图形直方图(频率直方图)Histogram百度传课我们通过一个例子来说明直方图的作法。
25 19 39 72 49 58 65 75 68 66 61 78 51 60 45 74 73 77 29 16 90 12 64 61 40 57 40 46 81 51 52 58 73 70 87 33 49 61 83 41 52 46 38 77 63 75 61 45 51 62 51 59 66 68 97 53 54 70 54 54 38 50 83 50最低分和最高分分别是 12 和 97例1 设有64个学生的考试成绩如下:四川大学 徐小湛25 19 39 72 49 58 65 75 68 66 61 78 51 60 45百74度73传7课7显得杂乱无章29 16 90 12 64 61 40 57 40 46 81 51 52 58 73 70 87 33 49 61 83 41 52 46 38 77 63 75 61 45 51 62 51 59 66 68 97 53 54 70 54 54 38 50 83 50 四川大学 徐小湛 用Excel 作出数据的条形图(柱形图)(Bar Chart)四川大学用Excel将成绩排序:121619252933383839404041454546 464949505051515151525253545454 575858596061616161626364656666 68687070727373747575777778818383 87 90 97百度传课12161925 29 33 38 38 39 40 40 41 45454646 49 49 50 50 51 51 51 51 52525354 54 54 57 58 58 59 60 61 61616162 63 64 65 66 66 68 68 70 70727373 74 75 75 77 77 78 81 83 83 87 90 97下面来分析各分数段得分的人数和频率将分数分成9段将区间(9.5, 99.5) 等分成9个子区间每个区间长(99.5-9.5)/9=1083 87 90 97百度传课分 组 频数 f i9.5~19.5 3 19.5~29.5 2 29.5~39.5 4 39.5~49.5 9 49.5~59.5 16 59.5~69.5 13 69.5~79.5 11 79.5~89.5 4 89.5~99.5212 16 19 25 29 33 38 38 39 40 40 41 45 45 46 46 49 49 50 50 51 51 51 51 52 52 53 54 54 54 57 58 58 59 60 61 61 61 61 62 63 64 65 66 66 68 68 70 70 72 73 73 74 75 75 77 77 78 81 83 将区间(9.5, 99.5) 等分成 9 个子区间每个区间长 1032 4911频数直方图161342百度传课四川大学徐小湛9.5 19.5 29.5 39.5 49.5 59.5 69.5 79.5 89.5 99.5百度传课分组频数fi 频率fi/649.5~19.530.0469 19.5~29.520.0313 29.5~39.540.0625 39.5~49.590.1406 49.5~59.5160.2500 59.5~69.5130.2031 69.5~79.5110.1719 79.5~89.540.0625 89.5~99.520.0313四川大学徐小湛9.5 19.5 29.5 39.5 49.5 59.5 69.5 79.5 89.5 99.50.04690.03130.06250.14060.25000.20310.1719频率直方图0.0313矩形面积之和64 ( f i 9∑ i =1 64 i i =19⨯10) = 10 ∑ f 64 = 10 ⨯ 64 = 10 0.0625不满足规范性百度传课四川大学徐小湛分组频数fi 频率fi/64矩形高f i /64/109.5~19.530.04690.0047 19.5~29.520.03130.0031 29.5~39.540.06250.0063 39.5~49.590.14060.0141 49.5~59.5160.25000.0250 59.5~69.5130.20310.0203 69.5~79.5110.17190.0172 79.5~89.540.06250.0063 89.5~99.520.03130.00310.00470.0031 0.00630.01410.02500.02030.01720.00630.0031矩形面积之和9 fii=164⨯10∑ 964 if( ⨯10) = 1 ∑i =1164=⨯64 =1百度传课满足规范性频率直方图Frequencyhistogram四川大学徐小湛9.5 19.5 29.5 39.5 49.5 59.5 69.5 79.5 89.5 99.59.5 19.5 29.5 39.5 49.5 59.5 69.5 79.5 89.5 99.5 这几个直方图的形状是一样的,区别只是纵坐标的刻度不一样。
经验分布和分布函数
经验分布指的是从样本中获得的分布函数,它反映了样本数据的实际情况。
当样本量足够大时,经验分布可以逼近真实分布。
经验分布可以用来研究随机变量的各种性质,比如均值、方差、偏度和峰度等。
分布函数是随机变量取值的概率分布描述,它可以用来计算随机变量落在某个区间内的概率。
分布函数的形式可以是累积分布函数或密度函数。
累积分布函数指的是随机变量小于等于某个值的概率,密度函数指的是随机变量取某个值的概率密度。
分布函数可以用来描述随机变量的位置、形状和分散程度等特征。
经验分布和分布函数在统计学中应用广泛。
它们可以用来研究随机变量的分布特征、评估随机变量的性质和进行假设检验等。
此外,它们还可以用来建立数学模型、优化决策和进行数据分析等。
- 1 -。