§6[1].2_经验分布函数和频率直方图

  • 格式:ppt
  • 大小:200.50 KB
  • 文档页数:12

下载文档原格式

  / 12
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。
x ≤ 1; 0, 1 /8 , 1 < x ≤ 2; F8 ( x ) = 4 /8 , 2 < x ≤ 3; 7 /8 , 3 < x ≤ 4; x > 4; 1 ,
经验分布函数如右图所示: 经验分布函数如右图所示:
关于经验分布函数,我们要注意一下几点: 关于经验分布函数,我们要注意一下几点:
x ∈ [t0 , t m ) 其它
用fn(x)作为密度函数 作为密度函数p(x)的估计,这就是频率直方图法。 的估计,这就是频率直方图法。 作为密度函数 的估计
是得到的样本观测值 设(x1,…,xn)是得到的样本观测值,在实际使用时,我们往往用以下步 是得到的样本观测值,在实际使用时, 骤具体给出频率直方图
定理6.2.2 密度函数 密度函数p(x)在点 ∈[t0,tm)处连续,样本容量为 ,且 在点x∈ 处连续, 定理 在点 处连续 样本容量为n,
lim h = 0, lim n h = ∞ , 则 对 任 给 ε > 0, 有 → lim P ( f ( x ) − p ( x ) ≥ ε ) = 0 (即 f ( x )
解: 最小值为2895,最大值为37382,取a=2894.5, b=37382.5,将区间分成6等分,统计频数计算频率,得下表:
分组 [2894.5,8642.5) [8642.5,14390.5) 频数 21 6 频率 频率/组距
0.677419 0.000118 0.193548 0.0000337 0.032258 0.00000516 0.064516 0.0000112 0 0
≤ 2
ε
2
{E ( f
n ( x) − Efn ( x)) + (Efn ( x) − p( x)) 2
ε
2
}
(1)
由于R 由于 n(a,b)~B(n,pk),其中 ,
所以 当 n → ∞时, E
p k = P ( X ∈ [ t k , t k +1 ) ) =
Efn ( x)) =
2

t k +1 tk
n→ ∞ n→ ∞
P
n→ ∞
n
n
p ( x ))
证明: 在点x∈ 处连续知其局部有界, 证明:由p(x)在点 ∈[t0,tm)处连续知其局部有界,即存在δ>0,K>0,使得对 在点 处连续知其局部有界 , , y ∈[x- δ,x+ δ]有p(y)≤K。 有 。 由已知条件知,样本容量 充分大时 充分大时, 由已知条件知,样本容量n充分大时,h ≤δ。设 x∈[tk,tk+1),对任给的ε>0, ∈ , , 1 2 P ( fn ( x) − p( x) ≥ ε ) ≤ 2 E ( fn ( x) − p( x))
P ( X ∈ [a, b) ) =
的个数, 的个数,那么

b a
Fra Baidu bibliotek
p ( u ) d u ≈ p ( x )( b − a )
再次利用频率近似概率的思想, 表示样本(X 中落在[a,b) 再次利用频率近似概率的思想,用Rn(a,b)表示样本 1,X2,…,Xn)中落在 表示样本 中落在
P ( X ∈ [a , b ) ) Rn (a , b ) p(x) ≈ ≈ b−a n (b − a )
这就引出了频率直方图。 这就引出了频率直方图。 依次给定m+1个实数 0<t1<…<tm,其中 1-t0=t2-t1=t3-t2=…=tm-tm-1=h>0. 令 个实数t 其中t 依次给定 个实数
m −1 R n ( t i , t i + 1 ) I [ ti , ti + 1 ) ( x ) ∑ f n ( x ) = i=0 nh 0
§6.2 经验分布函数和频率直方图
分布函数是随机变量的一个重要特征, 分布函数是随机变量的一个重要特征,既然总体可以用 随机变量来表示,而样本又可对总体的信息进行提取。因此, 随机变量来表示,而样本又可对总体的信息进行提取。因此, 怎样用样本(X 估计总体X的分布函数 怎样用样本 1,…,Xn)估计总体 的分布函数 估计总体 的分布函数F(x)?
tk
( fn ( x) −
E [ R ( t k , t k +1 ) − E R ( t k , t k +1 ) ]

tk +1
p ( y )dy
p (ξ ) h − p ( x ) = p (ξ ) − p ( x ) → 0 h
(3)
作业2: 习题六的第2,3,4,5,6题,其中第6题还有求使用软件 来完成。
样本中小于 x 的观测值的个数 , x∈R. Fn (x) = ∀ n

0, k Fn ( x ) = , n 1 ,
x ≤ x (1 ) x ( k ) < x ≤ x ( k + 1 ) , k = 1 , ⋯ , n -1 x > x(n )
x (1)
x
x (2)
总体X,样本观察值1, , , , , , , , 例 总体 ,样本观察值 ,2,2,2,3,3,3,4, 则经验分布函数为
选择适当的a<x(1),b>x(n).(例如将x(1)缩 (1)找出 (1),x(n),选择适当的 )找出x ( 小半个刻度作为a, 放大半个刻度作为b) 小半个刻度作为 ,将x(n)放大半个刻度作为 )取m-1个分 个分 个等分区间[t 点a=t0<…<tm=b,得到 个等分区间 i-1,ti)(i=1,…,m)。ti-1称 ,得到m个等分区间 。 为第i组的下组界 称为第i组的上组界 组的下组界; 组的上组界; 为第 组的下组界;ti称为第 组的上组界;h=ti-ti-1称为组距 或步长。则每个数据都落在其中的一个小区间上。 或步长。则每个数据都落在其中的一个小区间上。 (2)统计落在每一组上的频数 i=Rn(ti,ti+1) ;计算 fi= )统计落在每一组上的频数n ni/nh,i=0,1,…,m-1. 为底, 为高作矩形, (3)以[ti-1,ti)(i=1,…,m)为底,fi为高作矩形,即频 ) 为底 率直方图。 率直方图。
p ( y ) dy ≤ K h
2
n2h2 D R ( t k , t k +1 ) n p k (1 − p k ) np K = = ≤ 2 k2 ≤ → 0 (2) nh n2h2 n2h2 n h E R ( t k , t k +1 ) 由 p( x ) 在 点 x 连 续 还 知 , 当 n → ∞ 时 , E f n ( x ) − p ( x ) = − p( x) nh = − p( x) = h 由(1-3)可知,结论成立。 )可知,结论成立。
• 经验分布函数是利用样本得到的,而样本是随机 经验分布函数是利用样本得到的, 向量,所以经验分布函数也是随机的。 向量,所以经验分布函数也是随机的。同一个总 即使是在相同的样本容量下, 体,即使是在相同的样本容量下,不同的样本也 会给出不同的经验分布函数; 会给出不同的经验分布函数; • 对于给定的 ,Fn(x)是一个随机变量,是事件 对于给定的x, 是一个随机变量, 是一个随机变量 {X<x}在n重贝努里试验中发生的频率; 重贝努里试验中发生的频率; 在 重贝努里试验中发生的频率 • 给定样本值后,经验分布函数就成为一个普通的 给定样本值后, 跳跃函数, 跳跃函数,而且恰好是一个离散型随机变量的分 布函数, 布函数,该离散型随机变量的分布列为 Pi=1/n,i=1,2,…,n …

Dn = sup Fn ( x) − F ( x)
x∈R

P limDn = 0 = 1 n→∞
二、频率直方图
如果总体X的分布函数 有密度函数p(x),怎样利用样本 1,X2,…,Xn)来刻 如果总体 的分布函数F(x)有密度函数 有密度函数 ,怎样利用样本(X 来刻 画这个密度函数?任意给定x∈ 区间比较短, 画这个密度函数?任意给定 ∈[a,b),则当 ,则当[a,b)区间比较短,而且 区间比较短 而且p(u)在[a,b) 在 区间变化不大时, 区间变化不大时,有
例 下表为我国大陆各省、直辖市2001年人均国民生产总值 (万元),试做出频率直方图,从中判断数据大概是来自什 么样的总体?
北京 25523 上海 37382 湖北 7813 云南 4866 天津 20154 江苏 12922 湖南 6054 西藏 5307 河北 8362 浙江 14655 广东 13730 陕西 5024 山西 5460 安徽 5221 广西 4668 甘肃 4163 内蒙古 6463 福建 12362 海南 7135 青海 5735 辽宁 12041 江西 5221 重庆 5654 宁夏 5340 吉林 7640 山东 10465 四川 5250 新疆 7913 黑龙江 9349 河南 5924 贵州 2895
任意给定自变量x,则 任意给定自变量 , F(x)=P(X<x). . 用事件{X<x)发生的频率作为其估计即可。这就引出了下面 发生的频率作为其估计即可。 用事件 发生的频率作为其估计即可 所谓经验分布函数的概念。 所谓经验分布函数的概念。
一、经验分布函数 是抽自总体X的一个样本 观察值为x 的一个样本, 设X1,…,Xn是抽自总体 的一个样本,观察值为 1,…,xn, 次序观测值x 总体X的经验分布函数定义为 次序观测值 (1)≤ …≤x(n),则总体 的经验分布函数定义为
[14390.5,20138.5) 1 [20138.5,25886.5) 2 [25886.5,31634.5) 0 [31634.5,37382.5) 1
0.032258 0.00000516
频率直方图如下图所示:
初步判断数据是来自什么样的总体? 这个例子中数据量相对来说比较少,一般情况下数据量最好大于 这个例子中数据量相对来说比较少,一般情况下数据量最好大于100, , 分组的个数根据数据量来确定,一般介于[n/10,n/5]之间,最多不能 之间, 分组的个数根据数据量来确定,一般介于 之间 超过20组 超过 组。
所以,我们有必要研究随着样本的不同经验分布函 数会发生什么变化。也就是研究经验分布函数和总 体分布函数之间的关系。
定理6.2.1(格列汶科定理或 格列汶科定理或Glivenko-Cantelli定理 定理) 定理 格列汶科定理或 定理 是总体X的分布函数 是总体X的经验分 设F(x)是总体 的分布函数,Fn(x)是总体 的经验分 是总体 的分布函数, 是总体 布函数, 布函数,