多元统计分析(何晓群 中国人民大学) 第一章

  • 格式:ppt
  • 大小:1.77 MB
  • 文档页数:61

下载文档原格式

  / 61
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

13
目录 上页 下页 返回 结束
§1.1.4 随机向量的数字特征
3、随机向量X 和Y 的协差阵
设 X ( X1, X 2 ,, X n )' 和Y (Y1,Y2 ,,Yp )' 分别为 n 维和 p
维随机向量,它们之间的协方差阵定义为一个n p 矩
阵,其元素是 cov( X i ,Yj ),即 cov( X ,Y ) (cov( Xi ,Yj )), i 1,, n; j 1,, p (1.10) 若cov( X ,Y) 0,称X和Y是不相关的。
P(X x, Y y) P(X x)P(Y y) (1.3)
对一切(X , Y )成立。若 F(x, y)为(X , Y )的联合分布函
数,G(x) 和 H(y)分别为X 和 Y 的分布函数,则 X 与 Y 独立
当且仅当 Ff(x(,xy,)y) G(gx()xH)(hy()y)
(1.4)
(1.14)
2021/1/28
19
目录 上页 下页 返回 结束
§1.2 统计距离和马氏距离
但就大部分统计问题而言,欧氏距离是不 能令人满意的。这里因为,每个坐标对欧氏距 离的贡献是同等的。当坐标轴表示测量值时, 它们往往带有大小不等的随机波动,在这种情 况下,合理的办法是对坐标加权,使得变化较 大的坐标比变化小的坐标有较小的权系数,这 就产生了各种距离。
据是同时观测 p个指标(即变量),又进行了 n 次
观测得到的,把这 p 个指标表示为 X1, X 2 ,, X p常 用向量
X ( X1, X 2,, X p )'
表示对同一个体观测的 p 个变量。若观测了 n
个个体,则可得到如下表1-1的数据,称每一个个
体的 p 个变量为一个样品,而全体 n个样品形成一
2021/1/28
21
目录 上页 下页 返回 结束
x2
§1.2 统计距离和马氏距离
这时
AB 52 102 125 CD 102 12 101
显然AB比CD要长。
现在,如果 x2用mm作单位,x1 单位保持不变,
此时A坐标为(0,50),C坐标为(0,100),则
AB 502 102 2600 CD 1002 12 10001
E(X' AX) tr(AΣ) μ ' Aμ
对于任何随机向量 X (X1, X 2,, X p )' 来说, 其协差阵∑都是对称阵,同时总是非负定(也称 半正定)的。大多数情形下是正定的。
2021/1/28
15
目录 上页 下页 返回 结束
§1.1.4 随机向量的数字特征
4、随机向量X 的相关阵
重要的作用。
2021/1/28
25
目录 上页 下页 返回 结束
§1.2 统计距离和马氏距离
马氏距离
设X、Y从均值向量为μ,协方差阵为∑的总体G中抽 取的两个样品,定义X、Y两点之间的马氏距离为
结果CD反而比AB长!这显然是不够合理的。
2021/1/28
22
目录 上页 下页 返回 结束
§1.2 统计距离和马氏距离
因此,有必要建立一种距离,这种距离要能够 体现各个变量在变差大小上的不同,以及有时存 在着的相关性,还要求距离与各变量所用的单位 无关。看来我们选择的距离要依赖于样本方差和 协方差。因此,采用“统计距离” 这个术语,以 区别通常习惯用的欧氏距离。最常用的一种统计
变量
序号

1
x xnp 11
x12

x1 p
2
x21
x22

x2 p
n
xn1
xn2

xnp
2021/1/28
7
目录 上页 下页 返回 结束
§1.1.1 随机向量
• 因此,样本资料矩阵可用矩阵语言表示为:
x11 x12
X
x21
x22
x1p
x2
p
(x1,
x2
,
x(/1)
,
x
p
)
x(/ 2 )
2021/1/28
16
目录 上页 下页 返回 结束
§1.1.4 随机向量的数字特征
在数据处理时,为了克服由于指标的量纲不同对统计分 析结果带来的影响,往往在使用某种统计分析方法之前,常 需将每个指标“标准化”,即做如下变换
X
j
X j E(X j ) (var X j )1/ 2
j 1, , p
xn1 xn2
xnp
x(/n)
若无特别说明,本书所称向量均指列向量
定义1.1 设 x1, x2 , , x p为p个随机变量,由它们组成 的向量 (x1, x2, , x p ) 称为随机向量。
2021/1/28
8
目录 上页 下页 返回 结束
§1.1.2 分布函数与密度函数
描述随机变量的最基本工具是分布函数,类似地描述 随机向量的最基本工具还是分布函数。
定义1.2 设 X (x1, x2 , , x p )是以随机向量,它的多元分布 函数是
F(X ) F(x1, x2,, xp ) P(X1 x1,, X p xp ) 1.1
式中:
x (x1, x2, , xp ) RP,并记为X F。 多元分布函数的有关性质此处从略。
2021/1/28
2021/1/28
(1.8)
12
目录 上页 下页 返回 结束
§1.1.4 随机向量的数字特征
2、随机向量X 自协方差阵
Σ COV (X, X) E(X EX)(X EX)/ D(X)
D(X1 )
COV ( X1, X 2 ) COV ( X1, X P )
COV
(
X
2
,
X1)
密度 f 并称 X 为连续型随机向量。
一个p维变量的函数f(·)能作为 R P 中某个随机向量
的分布密度,当且仅当
(i) f (x) 0 x R p
(ii) f (x)dx 1 Rp 2021/1/28
10
目录 上页 下页 返回 结束
§1.1.3 多元变量的独立性
定义1.4:两个随机向量 X 和 Y 称为是相互独立的,若
D(X 2 )
COV ( X 2 ,
X
P
)
COV ( X P , X1) COV ( X P , X 2 ) D(X P )
( ij )
(1.9)
称它为 p 维随机向量 X 的协方差阵,简称为 X 的协
方差阵。称cov( X , X )为 X 的广义方差,它是协差阵的行
列式之值。
2021/1/28
看,A点在1右侧约41 处,A点在 2 的左侧约3 2 处,若以标
准差的观点来衡量,A点离 2 比A点离 1 要“近一些”。显然,
后者是从概率角度上来考虑的,因而更为合理些,它是用坐标
差平方除以方差(或说乘以方差的倒数),从而化为无量纲数,
推广到多维就要乘以协方差阵∑的逆矩阵
,这1 就是马氏
距离的概念,以后将会看到,这一距离在多元分析中起着十分
多元统计分析
何晓群
中国人民大学出版社
2021/1/28
1
第一章 多元正态分布
§1.1 多元分布的基本概念 §1.2 统计距离和马氏距离 §1.3 多元正态分布 §1.4 均值向量和协方差阵的估计 §1.5 常用分布及抽样分布
2021/1/28
2
目录 上页 下页 返回 结束
第一章 多元正态分布
• 一元正态分布在统计学的理论和实际应 用中都有着重要的地位。同样,在多变 量统计学中,多元正态分布也占有相当 重要的位置。原因是:
若 (X , Y)有密度 f (x, y),用g(x) 和 h( y) 分别表示 X 和 Y
的分布密度,则X 和Y 独立当且仅当 (1.5)
注意:在上述定义中,X 和 Y 的维数一般是不同的。
2021/1/28
11
目录 上页 下页 返回 结束
§1.1.4 随机向量的数字特征
1、随机向量 X的均值
设 X (X1, X2, , X p )有P个分量。若 E(Xi ) i (i 1, 2, p)
欧氏距离还有一个缺点,这就是当各个分量 为不同性质的量时,“距离”的大小竟然与指 标的单位有关。
2021/1/28
20
目录 上页 下页 返回 结束
§1.2 统计距离和马氏距离
例如,横轴 X1代表重量(以kg为单位),纵轴 X2 代表长度(以cm为单位)。有四个点A、B、C、D见 图1.1,它们的坐标如图1.1所示
X
(
X
1
,
X
2
,
,
X
p
)
于是
(1.12)
E(X ) 0
D(X ) corr(X) R
即标准化数据的协差阵正好是原指标的相关阵.
R 1 X/ X n 1
(1.13)
2021/1/28
17
目录 上页 下页 返回 结束
§1.2 统计距离和马氏距离
欧氏距离 马氏距离
2021/1/28
18
目录 上页 下页 返回 结束
一个样品,其值在A处,A点距离哪个总体近些呢?由
图1-2
2021/1/28
图1-2
24
目录 上页 下页 返回 结束
§1.2 统计距离和马氏距离
由图1-2可看出,从绝对长度来看,A点距左面总体G1近些,
即A点到
比A点到
11
要“近一些”(这里用的是欧氏距离,比
wk.baidu.com
较的是A点坐标与1 到2 值之差的绝对值),但从概率观点来
存在,我们定义随机向量X的均值为:
E ( X1 ) 1
E (
X
)p
E
(
X2
)
2
μ
E ( X P )
P
是一个p维向量,称为均值向量.
1.6
当 A 、B为常数矩阵时,由定义可立即推出如下性质:
(1) E(AX ) AE(X )
1.7
(2) E(AXB) AE(X )B
2021/1/28
4
目录 上页 下页 返回 结束
§1.1多元分布的基本概念
§1.1.1 随机向量 §1.1.2 分布函数与密度函数 §1.1.3 多元变量的独立性 §1.1.4 随机向量的数字特征
2021/1/28
5
目录 上页 下页 返回 结束
§1.1.1 随机向量
假定所讨论的是多个变量的总体,所研究的数
• 许多随机向量确实遵从正态分布,或近 似遵从正态分布;
• 对于多元正态分布,已有一整套统计推 断方法,并且得到了许多完整的结果。
2021/1/28
3
目录 上页 下页 返回 结束
第一章 多元正态分布
多元正态分布是最常用的一种多元 概率分布。除此之外,还有多元对数正 态分布,多项式分布,多元超几何分布, 多元 分χ布2 、多元 分布 、多元指数 分布等。本章从多维变量及多元分布的 基本概念开始,着重介绍多元正态分布 的定义及一些重要性质。
距离是印度统计学家马哈拉诺比斯(Mahalanobis
)于1936年引入的距离,称为“马氏距离”。
2021/1/28
23
目录 上页 下页 返回 结束
§1.2 统计距离和马氏距离
下面先用一个一维的例子说明欧氏距离与马氏距离在概 率上的差异。
设有两个一维正态总体
G1
:
(1
,
2 1
)和G2
:
(2
,。22 ) 若有
当A、B为常数矩阵时,由定义可推出协差阵有如下性质:
D(AX ) AD(X ) A' AA' cov( AX , BY ) Acov( X ,Y )B'
2021/1/28
14
目录 上页 下页 返回 结束
§1.1.4 随机向量的数字特征
(3)设X为n维随机向量,期望和协方差存在记
E(X ), D(X ) , A为n n常数阵,则
§1.2 统计距离和马氏距离
欧氏距离
在多指标统计分析中,距离的概念十分重要,样品间的不 少特征都可用距离去描述。大部分多元方法是建立在简单 的距离概念基础上的。即平时人们熟悉的欧氏距离,或称
直线距离.如几何平面上的点p=(x1,x2)到原点O=(0,0)的
欧氏距离,依勾股定理有
d (0, p) (x12 x22 )1/2
若随机向量 X (X1, X 2,, X p )'的协差阵存在,且每
个分量的方差大于零,则X的相关阵定义为:
R (corr( X i , X j )) (rij )PP
rij
COV ( X i , X j ) ,i, j 1,2,, p D( X i) D( X j )
(1.11)
rij也称为分量X i 与 X j之间的(线性)相关系数。
个样本。
2021/1/28
6
目录 上页 下页 返回 结束
§1.1.1 随机向量
横看表1-1,记 X() (x1, x 2,, xp )' , 1,2,n
它表示第 个样品的观测值。竖看表1-1,第 j 列的元素
X j (x1j , x2 j ,, xnj )' , j 1,2, p
表示对 j 第个变量 x j 的n次观测数值。下面为表1-1
9
目录 上页 下页 返回 结束
§1.1.2 分布函数与密度函数
定义1.3:设 X ~ F(X ) = F (x1, x2 ,, x p ) ,若存在一个
非负的函数 f ,使得
F(x)
x1
xp
f (t1,t p )dt1 dt p ,
(1.2)
对一切x R p 成立,则称 X(或 FX )有分布