当前位置:文档之家› (37)多元统计分析(1).docx

(37)多元统计分析(1).docx

(37)多元统计分析(1).docx
(37)多元统计分析(1).docx

多元统计分析

第一章绪论

§1.1什么是多元统计分析

在自然科学、社会科学以及经济领域中,常常需要同时观察多个指标。例如,要衡量一个地区的经济发展,需要观测的指标有:

总产值(X1)、利润(X2)、效益(X3)、劳动生产率(X4)、万元生产值能耗(X5)、固定资产(X6)、流动资金周转率(X7)、物价(X8)、信贷(X9)及税收(X10)也就是说一个地区的经济发展,受多种指标共同作用的影响,我们把每一个指标看成一个随机变量,可以单独研究每个随机变量,但这只能揭示该地区经济发展的一个方面,更多的时候需要把把这诸个随机变量一起研究揭示多个随机变量对该地区经济发展的共同影响,以及揭示这些随机变量内在变化规律。

例如,研究某公司的经营状况,需要观测公司的财务指标有:

每股净资产(X1)、净资产收益率(X2)、每股收益(X3)、每股现金流(X4)、负债率(X5)、流动比率(X6)及速动比率(X7)。可以单独研究每个随机变量,更多的时候需要把这诸个随机变量一起研究,揭示这些随机变量内在变化规律。

多元统计分析——研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。

多元统计分析包括的主要内容:多元(正态)总体的参数估计和假设检验、聚类分析、判别分析、主成分分析、因子分析、对应分析、典型相关分析、多重多元回归分析等。

介绍多元统计分析方法时,需要的时候增加一些线性代数的知识。

§1.2多元统计分析能解决哪些实际问题

⑴经济学:对我国32个省市自治区的社会情况进行分析。 ⑵工业:服装厂生产服装。为了适应大多数顾客的需要,如何确定服装的主要指标及分类的型号。指标:身长、袖长、胸围、腰围、肩宽、肩厚等十几个指标(主要指标:长度、胖瘦)

⑶投资组合: §1.3主要内容安排

多元(正态)总体的参数估计、聚类分析、判别分析、主成分分析、因子分析、典型相关分析等。上机操作。

第二章多元正态分布

§2.1基本概念 1.随机向量的概率分布

定义1 将p 个随机变量12,,,p X X X 的整体称为p 维随机向量,记为12(,,,)p X X X X '=

在多元统计分析中,仍然将所研究对象的全体称为总体。 一元总体分布函数和分别密度定义:

()()F x P X x =≤为随机变量X 的概率分布,记为()X X F x 。

离散型:

()k k P X x p == k=1,2,3,…

⑴()0k k P X x p ==≥; ⑵1k k

p =∑

连续型:

()()()x

F x P X x f t dt -∞=≤=

?

⑴ ()0f t ≥; ⑵()1f t dt +∞

-∞

=?

定义2 设12(,,,)p X X X X '= 是p 维随机向量,它的多元分别函数定义为

111122()=(,,,)(,,,)p p p F x F x x x P X x X x X x =≤≤≤

记为()X X F x ,其中记为12=(,,,)R p p x x x x '∈ 。

定义3 设12(,,,)p X X X X '= 是p 维随机向量,若存在有限个或可列个p 维数向量1x ,2x ,3x ,…,记()k k P X x p == (k=1,2,3,…),且满足

()0k k P X x p ==≥,1k k

p =∑,

则称X 为离散型随机向量,称()k k P X x p ==(k=1,2,3,…)为X 的概率分布。

设p 维随机向量()X X F x ,11()=(,,,)p F x F x x x ,若存在一个非负函数12(,,,)p f x x x ,使得对一切12=(,,,)R p p x x x x '∈ ,有

12

121212()(,,,)(,,,)p

x x x p p p F x F x x x f t t t dt dt dt -∞-∞

-∞

==

???

则称X 为连续随机向量,称12(,,,)X p f x x x 为分布密度函数,易见

12(,,,)0p f x x x ≥ , ⑵

1212(,,,)1p p f t t t dt dt dt ∞∞

-∞-∞

-∞

=???

例1试证函数

12()

12120,0(,)0

x x e x x f x x -+?≥≥=?

?其它

为随机向量12X X X ??

= ???

的密度函数。

证:(1)易见12(,)0f x x ≥

(2)12()

1212120

(,)x x f x x dt dt e

dx dx +∞+∞

+∞+∞

-+-∞-∞

=

?

?

??

1

2

1

22

122

00

20

()()1

x x x x x e dx e

dx e e dx e

dx +∞+∞+∞

+∞----+∞

-==

-=

=????

定义4 设12(,,,)p X X X X '= 是p 维随机向量,称由q (

2

()(,,,)q

i i i i X X X X '= 的分布为X 的边缘(或边际)分

布(通过变换X 中各分量的次序,总可以假定(1)X 正好是X 的前q 个分量,其余p-q 个分量为(2)

X

),即(1)(2)X X X ??= ???

,相应的取值也可以分成

两部分(1)(2)x x x ??

= ???

。(1)X 的边缘分布函数为

(1)11221122112212212()(,,,)

(,,,,)

(,,,,,,,)(,,,,,,)

q q X q q q q q q q q F x p X x X x X x p X x X x X x p X x X x X x X X X F x x x +++=≤≤≤=≤≤≤=≤≤≤≤∞≤∞≤∞=∞∞

当X 有分布密度12(,,,)X p f x x x 时,则(1)X 的分布密度为

12111(,,,),,(,,,,,,),,X q X q q p q p f x x x f x x x x dx dx +∞

+∞

++-∞

-∞

=

??

例2 对例1中的12X X X ??

= ???求边缘密度函数。

解:当10x ≥时

1210

()1122220

()(,)0x x x f x f x x dx dx e dx e +∞

+∞

-+--∞

-∞

=

=

+

=?

?? 当10x <时

11222

()(,)0f x f x x dx dx

+∞+∞

-∞

-∞

=

=

=?

?0

从而有

1

1110()0

x e x f x x -?≥=?

同理可得到

2

2220()0

x e x f x x -?≥=?

定义5 若p 维随机向量12(,,,)p X X X X '= 的联合分布等于各自边缘分布的乘积,则称12,,,p X X X 是相互独立的

11(,,,)p F x x x 1212()(),,()p X X X p F x F x F x =

一切12(,,,)p p x x x x R '=∈ 对于连续型随机变量,有

12312(,,,,)()(),,()X p p P x x x x P x P x P x = 一切12(,,,)p p x x x x R '=∈

(有时候根据几何图形判断概率,根据试验的背景判断独立性) 例3 例2中的1X 与2X 是否相互独立?

解:例1中密度函数12()12120,0

(,)0

x x e x x f x x no

-+?≥≥=?

?

例2中求得的边缘分布

1

1110

()0

0x e x f x x -?≥=?

2220()00

x e x f x x -?≥=?

所以有1

2

1212(,)()()X X f x x f x f x =,即1X 与2X 相互独立。

如果12,,,p X X X 相互独立,则任何i X 与()j X i j ≠独立,反之不真。 2.随机向量的数字特征

定义6设12(,,,)p X X X X '= ,若1EX (i=1,2,3,…)存在,则称

123(,,,,)P EX EX EX EX EX '=为X 的均值(向量)或期望,也记为

1122p p EX EX EX EX μμμμ???? ? ? ? ?=== ? ? ? ? ? ?

????

均值向量性质: ⑴()()E AX AE X = ⑵()()E AXB AE X B =

⑶()()()E AX BY AE X BE Y +=+其中X 、Y 为随机向量,A 、B 为常数矩阵。

定义7 设12p X X X X ?? ? ?= ? ? ??? , 12q Y Y Y Y ??

? ?= ? ? ???

称 ()[()()]D X E X EX X EX '=--

=111212122212(,)(,)

(,)(,)(,)(,)(,)(,)

(,)p p p p p p p p

Cov X X Cov X X Cov X X Cov X X Cov X X Cov X X Cov X X Cov X X Cov X X ???

?

?

? ?

???

为X 的方差矩阵或协方差矩阵,有时简记为

()

()[()()]

p p ij p p

D X

E X EX X EX V σ??'=--===∑

称随机向量X 和Y 的协方差矩阵为 (,)[()()]Cov X Y E X EX Y EY '=--

=111212122212(,)(,)

(,)(,)(,)(,)(,)(,)

(,)q q p p p q p q

Cov X Y Cov X Y Cov X Y Cov X Y Cov X Y Cov X Y Cov X Y Cov X Y Cov X Y ???

?

?

? ?

??

?

若X 的协方差矩阵存在,且每个分量的方差大于零,则X 的相

关系数矩阵为

()

ij p p

R r ?=

其中

(,)

ij

ij ii jj

Cov X X r σσσ== (i,j=1,2,3,…,p )

为i X 与j X 的相关系数。记标准离差矩阵

1

2P P

V ??? ?=

? ? ?

则有

112

2

V

RV =∑ , 112

2

R V

V

-

-

=∑

易见0,0R V ≥≥。实际上,对于任意非零向量()120p a a a a '=≥ ,

a a a Da ''=∑

2[()()]()()[()()][()]0

a E X EX X EX a

Ea X EX X EX a E a X EX a X EX E a X EX ''=--''''''=--=--''=-≥ ,R V 为半正定矩阵。

例4 设

1112132122233132334121912116σσσσσσσσσ????

? ?

==- ? ? ? ?-????

∑,则可得

12

02000

003000400

V ???

? ?== ? ?

? ???

, 111

22

1

0021()003100

4V V --?? ? ? ?== ? ? ? ??

?

容易验证112

2

1116411163121114

12

R V

V

-

-

?? ? ? ?===- ? ? ?- ???

若(,)p q Cov X Y O ?=,称X 与Y 不相关。若X 与Y 独立,则X 与Y 不相关,反之不成立。(正态分布反之成立)

协方差矩阵性质: ⑴()0D X ≥; ⑵()()D X a D X +=; ⑶()()D AX AD X A '=;

⑷(,)(,)Cov AX BY ACov X Y B '=。 §2.2多元正态分布的定义及基本性质

多元正态分布在多元统计分析中所处的地位,如同一元统计分析中一元正态分布所处的地位一样重要,多元统计分析中的许多理论和方法都是直接或间接建立在正态分布的基础上,多元正态分布是多元统计分析的基础。另外,在实用中遇到的随机向量常常是服从或近似服从正态分布。因此,现实世界中许多实际问题的解决办法都是以总体服从正态分布或近似正态分布为前提。

1.(多元正态分布)定义

定义8 若p 维随机向量12(,,,)p X X X X '= 的密度函数为

12(,,,)X p f x x x 12

2

11exp ()()2(2)

p

p X X μμπ-??

'=

---????

∑∑

其中12(,,,)p x x x x '= ,而12(,,,)p μμμμ'= 是p 为常数向量,∑是p 阶

正定矩阵,则称X 服从p 元正态分布,也称X 为p 维正态随机向量,简记为X ~(,)p N μ∑。(∑是退化矩阵时,用特征函数的方法定义)

当p=1时,记为一元正态分布密度函数。 当p=2时,有

1122()EX E X EX μμμ????=== ? ?

????,11122122()D X σσσσ??== ???∑

,1221ρρ== , 2

22

12112212

11221122121122

(1)(1)σσσσσσσσρσσ=-=-=-∑

二元正态分布密度函数可以写成

12(,)

f x

x 11221211222211122112212112(1)X X X X μσσμμσσμσσρ?

?'---??

??????

=-??

? ???----????????

?

?

221122122121122()()122(1)X X μμρρσσ??????--??=--??????-????????

2.多元正态变量的基本性质

⑴若X ~(,)p N μ∑,当∑是p 阶对角矩阵时,12,,,p X X X 相互独立;

⑵若X ~(,)p N μ∑,s p A ?为常数矩阵,d 为s 维常数向量,则 AX+d ~(,)s N A d A A μ'+∑

⑶若X ~(,)p N μ∑,将X ,,μ∑作如下划分:

(1)(2)X X X ??

= ???, 11

1221

22

?? ?= ???

∑∑

∑∑∑

, (1)(2)μμμ??= ??? 则(1)X ~(1)11(,)q N μ∑,(2)X ~(2)22(,)q N μ∑。

说明:

⑴多元正态分布的任何边缘分布为正态分布,反之不真。 ⑵协方差矩阵(1)(2)12(,)Cov X X O ==∑(表明不相关)的充分必要条件是(1)X 与(2)X 独立。

例5 123(,,)X X X X '=~3(,)N μ∑,其中

123μμμμ??

?

= ?

?

??

,111213212223313233σσσσσσσσσ?? ?= ? ???∑ 设(001)a '=,100001A ??= ?-??

⑴()1233001X a X X X X ??

?'== ? ???

~(,)N a a a μ''∑,其中 ()1233001a μμμμμ?? ?'== ? ???,()11121321222333313233000101a a σσσσσσσσσσ???? ???

'== ??? ???????

即3X ~333(,)N μσ。

⑵11233100001X X AX X X X ??

??

?? ?== ? ? ?--????

???~2(,)N A A A μ'∑,其中

11233100001A μμμμμμ??

???? ?== ? ? ?--????

???

, 11121311

1321222331

33313233101000000101A A σσσσσσσσσσσσσ????

-??

?? ???'== ? ? ???--????

???-????

∑ ⑶记(分块矩阵)1(1)2X X X ??= ???,1(1)

2μμμ??= ???,1112112122σσσσ??= ???∑,则 1(1)2X X X ??

= ???

~(1)211(,)N μ∑

多元统计中的很多统计方法,大都假定数据来自多元正态总体。但是要判断已有的数据是否来自多元正态总体不是一件容易的事,不过要肯定数据不是来自多元正态总体,有一些简易的方法,例如

12(,,,)p X X X X '= 服从p 元正态分布,则它的每一个分量必须服从一

元正态分布,因此把某个分量的n 个样本作成直方图,如果断定不呈正态分布,则可以断定12(,,,)p X X X X '= 也不服从p 元正态分布。

§2.3多元正态分布的参数估计12(,,,)p X X X X '=

在实际应用中,多元正态总体中均值向量μ和协方差矩阵∑通常是未知的,需由样本来估计,而参数的估计方法有很多,这里用常见的极大似然估计给出其估计量。

1.多元样本的概念及表示法

设(1)(2)(),,,n X X X 是p 元总体X 中抽取的相互独立的随机样本,简称为样本,每个()12(,,,)(1,2,,)p X x x x n ααααα'== 称为一个样品。其中j X α为第α个样品对第j 个指标的观测值。

11

121(1)

21222(2)1

2()p p n p

n n np n n p x x x X x x x X X x x x X ??'???? ? ?

' ? ?= ? ? ? ? ? ?'????

每一行都是总体的简单随机样本。

⑴每个样本各分量之间有相关关系,不同样本之间一定相互独立;

⑵多元统计中样本常常是横截面数据,不同于时间序列中样本数据(纵向数据)。

2. 多元样本的数值特征

定义设(1)(2)(),,,n X X X 为来自p 元总体的样本,其中

()12(,,,)(1,2,,)p X x x x n ααααα'== 。

⑴ 样本均值向量定义为

⑵ 1121112222()

1

1211n n

n p p np x x x x x x X X n n x x x αα=?????????? ? ? ??? ? ?

?=+++?? ? ?

??? ? ? ? ? ? ??????????

?∑

11213111222322()

1

132333312311n n

n n p p p np x x x x x x x x X X x x x x n n x x x x αα=???????????? ? ? ? ???

? ? ? ?==+++

?? ? ? ? ??? ? ? ? ? ? ? ? ?????????????

∑ 112111122222121n n p p np p x x x x x x x x n x x x x +++???? ? ?+++ ? ?

==

? ? ? ? ? ?

+++????

⑵ 样本离差矩阵定义为

()()()()1()n

p p ij p p S X X X X s ααα??='=--=∑

其中()()1

(,1,2,3,)n

ij i i j j s X X X X i j p ααα==--=∑

()()()()1

n

p p S X X X X ααα?='

=--∑

()1122112233

1

33n p p p p x x x x x x x x x x x x x x x x ααααααααα=??

-??

?? ?-?? ?=----?? ?-?? ? ?

-?????

?

∑ 211112211331122211222233222331133223333112()()()()()()()()()()()()()()()()()()()()()()()()(p p p p p p p p p p x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x x ααααααααααααααααααααααααα--------------=----------12233)()()()n p p p p x X X X X x x αααα=??

????????----????

()ij p p s ?=

⑶ 样本协方差矩阵定义为

()()()()1111

()()n p p

ij p p ij p p V S X X X X s v n n n

ααα???='==--==∑ ⑷ 样本相关系数矩阵定义为

()p p ij p p

R r ??=

其中ij v s r =

=

样本均值向量和离差矩阵也可以用样本资料矩阵n p X ?表示。记

1

11111n n ????

? ?= ? ??? , 则11211122221121n n p p p

np x x x x x x X n x x x ?+++?? ?+++ ?

= ? ? ?+++??

()()(1)

(2)()1111

1n n n X X X X n n

αα?===∑ 11

1n X n

?'=

? ()()()()

()()()()11

n

n

p p

S X X X X X X X X αααααα?=='''=--=--∑∑

()()()()()1n

X X XX X X XX ααααα=''''=--+∑

()()()()1

1

1

n

n n

X X XX X X nXX ααααααα===''''=--+∑∑∑

由于

()()()111111

()(1)(1)n

n

n

p n n p n n XX X X X X X X nX X nXX

n αααααα????===''''''''=====∑∑∑

()()11

()n

n

X X XX nXX αααα==''''==∑∑

()1

()n X X nXX nXX αα

=''''==∑

()(1)

(2)(1)

(2)

()()p n n p n n X X X X X X X X ??'?? ?'

?

'= ? ? ?'??

(1)(1)

(2)(2)()()n n X X X X X X '''=+++ ()()1

n

X X ααα='=∑

所以

p p p n n p S X X nXX ???''=-

11

111111(11)n n n n n X X X X X I X n n

????'''''=-

=- 3. 均值向量μ和协方差矩阵∑的最大似然估计及基本性质 设(1)(2)(3),,,X X X …(),n X 为来自p 元正态总体(,

)p N μ∑

的容量为n

的样本,每个样本()12(,,,)(1,2,

,)p X x x x n ααααα'== ,样本资料矩阵为

11

12

1(1)

21222(2)1

2()p p n p

n n np n n p x x x X x x x X X x x x X ??'???? ? ?

' ?

?

== ? ? ? ? ? ?'???? μ和∑的最大似然估计为

11111??,(11)p p n n n

X V S X I X n n n

μ???''===-

μ和∑的估计量的性质:

⑴ ()E X μ=,即X 是μ的无偏估计;

11()p p n E S n n ?-=∑,即1

p p S n

?不是∑的无偏估计。 111()()()111p p p p p p n n E S E S E S n n n n n ???=?=--- 11n n n n -=?=-∑∑,即1

1

p p S n ?-是∑的无偏估计。

⑵ 1

,1X S n -分别是,μ∑ 的有效估计;(最小方差无偏估计) ⑶ 1,X S n (或1

,

1

X S n -)分别是,μ∑ 的一致估计量(相合估计量)。

设12??(,,,)n X X X θθ= 为参数θ的估计量,若对于任意θ∈Θ,当

n →∞时,12?(,,,)n

X X X θ 以概率收敛到θ,则称?θ是θ的一致估计量。 由于

()()nE X X μμ??'--????1111[()()]n n

i i i i E X n X n n n n μμ=='=--==∑∑∑∑ ()()()()()()1

1

n

n

X X X X ααααμμμμ==''

--=---∑∑

()()()()111n n X n X n X n X n ααααμμμμ==????''=---=---????????

∑∑

()()n X X μμ'=--- ()()()()1()n p p E S E X X X X ααα?=??

'=--??

??

∑()()()()()()1n E X X X X αααμμμμ=??'????=-+--+-???

?????

∑ ()()()()()()()()()112n n E X X nE X X nE X X αααααμμμμμμ==??????'''=-----+--????????????∑∑

()()()()()()()()12n E X X nE X X nE X X αααμμμμμμ=??????

'''=-----+--????????????∑

()()()()()()1n E X X nE X X αααμμμμ=????

''=-----????????∑

(1)n n =-=-∑∑∑

定理(P27)设,X S 分别是正态总体(,

)p N μ∑

的样本均值和离

差矩阵,则

⑴ X ~1

(,

)p N n

μ∑; ⑵离差矩阵S 可以写为:

1

1n S Z Z αα

α-='=∑ 其中,121,,,n Z Z Z - 独立同服从分布(0,

)p N ∑

⑶X 与S 相互独立;

⑷S 为正定矩阵的充要条件是n p >。 4.Wishart 分布

在实际应用中,常采用1

,1

X S n -分别作为,μ∑

的估计。 定义 设()11(,,,)(1,2,,)p X x x x n ααααα'== ~(,

)p N μ∑,

且相互独立,则由()X α组成的随机矩阵

()()1n

p p W X X ααα?='=∑(1,2,,)n α=

的分布称为非中心Wishart 分布,记为(,,)p W Z μ∑,其中1

n

Z αα

αμμ='=∑;当全部αμ=0时,称为中心Wishart 分布,记为(,)p W n ∑,密度函数见书P28。

当21,p σ==∑时,密度函数就是22()n σχ的分布密度,Wishart 分布是克方分布在p 为正态情况下的推广。

基本性质: ⑴ 设()X α~(,

)p N μ∑(1,2,,)n α= 且相互独立,则样本离差矩阵

()()()()1

n

p p

S X X X X ααα?='=--∑~(1,)p W n -∑,其中()11n X X n αα==∑。

⑵ i S ~(,)p i W n ∑(1,2,,)i k = 且相互独立,则

12n S S S S =+++ ~12(,)p k W n n n +++∑

⑶若p p X ?~(,)p W n ∑,p p C ?为非奇异矩阵,则

CXC '~(,)p W n C C '∑。

第五章 聚类分析

§5.1什么是聚类分析

聚类分析又称为群分析,它是数理统计中研究“物以类聚”的一种统计分析方法。在数值分类方面,可以分为两大类问题,一类是已知研究对象的分类情况,将某些未知个体归属其中某一类(判企业归宿),这是判别分析所要解决的问题;另一类问题不存在一个事前分类的情况下,而进行数据结构的分类,这就是本章聚类分析所要解决的问题(怎么把企业聚类)。

聚类分析起源于分类学,在考古的分类学中,人们主要依靠经验和专业知识来实现分类。随着生产技术和科学的发展,人类的认知不断加深,分类越来越细,要求也越来越高,有时光凭经验和专业知识是不能进行确切分类的,往往需要定性和定量分析结合起来去分类,于是数学工具逐渐被引进分类学中,形成了数值分类学。随着多元分析的引进,聚类分析又逐渐从数值分类学中分离出来而形成一个相对独立的分支。

在社会经济领域存在大量分类问题:例如,⑴根据某些经济指标将全国32个省市自治区分类;⑵根据上市公司总股本、流通股本、

每股收益等指标,将2400多家上市公司分类;⑶根据N 个国家的森林面积、森林覆盖面积、林木积蓄量及草原面积把N 个国家进行科学分类;⑷学生按各科考试成绩分类;⑸酒分成好、中、次分析;⑹将杭州市所有企业按经济类型、生产规模分类。这些都属于聚类问题。

聚类问题内容丰富,有系统聚类法、动态聚类法、模糊聚类法、图论,其中系统聚类法是目前国内外应用最为广泛的一种方法,本章仅介绍此种方法聚类法。

§5.2距离和相似系数

变量(—在不同的个体上取不同的值,这个量称为变量)类型: ①间隔尺度(数值尺度)—变量是用数值来表示的(⑴—⑶); ②有序尺度—变量度量时没有明显数量关系,有次序关系(⑸); ③名义尺度—变量度量时既无数量关系又无次序关系,只是用特征和状态来描述(⑹)。

主要研究具有间隔尺度的变量。

设()12(,,,)(1,2,,)p X X X X n ααααα'== 是p 项指标(p 维随机向量)

12(,,,)p X X X X '= 中抽取的n 个样本数据,有资料矩阵

12

p X X X

11

12

1(1)

21222(2)1

2()p p n p

n n np n n p x x x X x x x X X x x x X ??'???? ? ?

' ? ?==

? ? ? ? ? ?'???? 12p x x x 1

2p s s s

其中ij x 为第i 个样品对第j 个指标的观测值。第i 个样本()i X 为矩

阵的n p X ?的第i 行,所以第i 个样本()i X 与第j 个样本()j X 的相似性可用n p X ?中的第i 行()i X '与第j 行()j X '的相似性来描述;两个变量i X 与j X 的相似性,可以通过第i 列与第j 列来描述。

为了将样本或变量分类,就需要研究样本(变量)之间的关系:一种研究方法是将每个样本(变量)看成p (n )维空间的一个点,在p (n )维空间定义两点之间的距离,距离较近的点归为一类,距离较远的点归为不同的类;另一种方法是用相似系数,定义的相似系数应该使性质越接近的变量(样本)相似系数的绝对值越接近1,而彼此无关系或关系甚微的变量(样本)的相似系数接近0,我们把性质比较接近的变量(样本)归为一类,不怎么接近归为不同的类。

1.对样本分类(Q —型聚类分析)常用的距离和相似系数 ⑴距离

ⅰ)明氏(Minkowski )距离

1

1()p

q

q ij i j d q x x ααα=?

?=- ???

当q=1时,是绝对值距离

1(1)p

ij i j d x x ααα==-∑

当q=2时,是欧氏距离

(2)ij d =

当q=∞时,是切比雪夫距离

1()max ij i j p

d x x ααα≤≤∞=-

欧氏距离平方

221

(2)()p

ij

i j d x x ααα==-∑

明氏距离的缺点:与个分量的量纲有关。 例 向量()1234X x x x x '=有4个样本

如果用绝对值距离,那么

12(1)11221722300320d =-+-+-+-=25

14(1)d =17,24(1)d =34 241214(1)(1)(1)d d d >>

变量的差异很大,第四个分量要比第一、三个分量大几十倍到近

百倍。(1)

X '与(4)X '的第一、三个分量虽然只相差1或2个单位,但想对它们的第四个分量的差别而言要大得多;(1)X '与(2)X '的第一、三个分量相等,第二、四个分量来讲相差不大。这些说明(1)

X '与(2)X '的距离应该比(1)

X '与(4)X '的距离大,可与结果不一致。既然第四个分量比第一、三个分量大近百倍,我们可以让第三个分量的量纲不变,而让第四个分量缩小100倍,仍用绝对值距离,则有

241214(1) 4.3(1) 5.2(1)7.1d d d =>=>=

总之,此例说明,在计算距离或相似系数之前,应先对数据进行

多元统计分析模拟考题及答案.docx

一、判断题 ( 对 ) 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵 ( 对 ( ) 2 标准化随机向量的协差阵与原变量的相关系数阵相同。 对) 3 典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据 分析方法。 ( 错)5 X (X 1 , X 2 , , X p ) ~ N p ( , ) , X , S 分别是样本均值和样本离 差阵,则 X , S 分别是 , 的无偏估计。 n ( 对) 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) , X 作为样本均值 的估计,是 无偏的、有效的、一致的。 ( 错) 7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对) 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。 ( 对 )9 判别分析中, 若两个总体的协差阵相等, 则 Fisher 判别与距离判别等价。 (对) 10 距离判别法要求两总体分布的协差阵相等, Fisher 判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、 样本相关系数矩阵. 2、 设 是总体 的协方差阵, 的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位 正 交 化 特 征 向 量 i ( a i1, a i 2 ,L ,a im ) , 则 第 一 主 成 分 的 表 达 式 是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ,方差为 1 。 3 设 是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵, 的特征根和标准正交特征向量分别 为: 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ,则其第二个主成分的表达式是

多元统计思考题及答案

《多元统计分析思考题》 第一章 回归分析 1、回归分析是怎样的一种统计方法,用来解决什么问题 答:回归分析作为统计学的一个重要分支,基于观测数据建立变量之间的某种依赖关系,用来分析数据的内在规律,解决预报、控制方面的问题。 2、线性回归模型中线性关系指的是什么变量之间的关系自变量与因变量之间一定是线性关系形式才能做线性回归吗为什么 答:线性关系是用来描述自变量x 与因变量y 的关系;但是反过来如果自变量与因变量不一定要满足线性关系才能做回归,原因是回归方程只是一种拟合方法,如果自变量和因变量存在近似线性关系也可以做线性回归分析。 3、实际应用中,如何设定回归方程的形式 答:通常分为一元线性回归和多元线性回归,随机变量y 受到p 个非随机因素x1、x2、x3……xp 和随机因素?的影响,形式为: 01p βββ???是p+1个未知参数,ε是随机误差,这就是回归方程的设定形 式。 4、多元线性回归理论模型中,每个系数(偏回归系数)的含义是什么 答:偏回归系数01p βββ???是p+1个未知参数,反映的是各个自变量对随机变 量的影响程度。 5、经验回归模型中,参数是如何确定的有哪些评判参数估计的统计标准最小二乘估计法有哪些统计性质要想获得理想的参数估计值,需要注意一些什

么问题 答:经验回归方程中参数是由最小二乘法来来估计的; 评判标准有:普通最小二乘法、岭回归、主成分分析、偏最小二乘法等; 最小二乘法估计的统计性质:其选择参数满足正规方程组, (1)选择参数01 ??ββ分别是模型参数01ββ的无偏估计,期望等于模型参数; (2)选择参数是随机变量y 的线性函数 要想获得理想的参数估计,必须注意由于方差的大小表示随机变量取值 的波动性大小,因此自变量的波动性能够影响回归系数的波动性,要想使参数估计稳定性好,必须尽量分散地取自变量并使样本个数尽可能大。 6、理论回归模型中的随机误差项的实际意义是什么为什么要在回归模型中加入随机误差项建立回归模型时,对随机误差项作了哪些假定这些假定的实际意义是什么 答:随机误差项?的引入使得变量之间的关系描述为一个随机方程,由于因变 量y 很难用有限个因素进行准确描述说明,故其代表了人们的认识局限而没有考虑到的偶然因素。 7、建立自变量与因变量的回归模型,是否意味着他们之间存在因果关系为什么 答:不是,因果关系是由变量之间的内在联系决定的,回归模型的建立只是 一种定量分析手段,无法判断变量之间的内在联系,更不能判断变量之间的因果关系。 8、回归分析中,为什么要作假设检验检验依据的统计原理是什么检验的过程

多元统计分析期末复习

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变),(~∑μP N X μ∑μ p X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1 X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

(完整word版)实用多元统计分析相关习题

练习题 一、填空题 1.人们通过各种实践,发现变量之间的相互关系可以分成(相关)和(不相关)两种类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相关系数。 2.总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。3.回归方程显著性检验时通常采用的统计量是(S R/p)/[S E/(n-p-1)]。 4.偏相关系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的)的相关系数。 5.Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。 6.主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求(降维)的一种方法。 7.主成分分析的基本思想是(设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来替代原来的指标)。 8.主成分表达式的系数向量是(相关系数矩阵)的特征向量。 9.样本主成分的总方差等于(1)。 10.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相关矩阵特征值)的特征向量。 11.SPSS中主成分分析采用(analyze—data reduction—facyor)命令过程。 12.因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部分为(特殊因子)。 13.变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14.公共因子方差与特殊因子方差之和为(1)。 15.聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏程度)进行科学的分类。 16.Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17.Q型聚类统计量是(距离),而R型聚类统计量通常采用(相关系数)。 18.六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19.快速聚类在SPSS中由(k-均值聚类(analyze—classify—k means cluster))过程实现。 20.判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21.用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有(Fisher准则)、(贝叶斯准则)。 23.类内样本点接近,类间样本点疏远的性质,可以通过(类与类之间的距离)与(类内样本的距离)的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越(类与类之间的距离越大),分类效果越(好)。24.Fisher判别法就是要找一个由p个变量组成的(线性判别函数),使得各自组内点的

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

多元统计分析模拟考题及答案

一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

实用多元统计分析相关习题学习资料

实用多元统计分析相 尖习题 练习题 一、填空题 1?人们通过各种实践,发现变量之间的相互矢系可以分成(相尖)和(不相尖)两种 类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相尖系数。 2?总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。 3 ?回归方程显著性检验时通常采用的统计量是(S R/P)/[S E/ (n-p-1) ]O 4?偏相尖系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的) 的相尖系数。 5. Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。

6 ?主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求 (降维)的一种方法。 7 ?主成分分析的基本思想是(设法将原来众多具有一定相尖性(比如P个指标),重 新组合成一组新的互相无矢的综合指标来替代原来的指标)。 8 ?主成分表达式的系数向量是(相尖系数矩阵)的特征向量。 9 ?样本主成分的总方差等于(1)。 10 ?在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相尖矩阵特征值)的特征向量。 11. SPSS 中主成分分析采用(analyze—data reduction — facyor)命令过程。 12?因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部

分为(特殊因子)。 13 ?变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14 ?公共因子方差与特殊因子方差之和为(1) o 15 ?聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏 程度)进行科学的分类。 16. Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17. Q型聚类统计量是(距离),而R型聚类统计量通常采用(相尖系数)。 18. 六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19?快速聚类在SPSS中由(k■均值聚类(analyze— classify— k means cluste))过程实 现。 20. 判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21. 用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22. 进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有 (Fisher准则)、(贝叶斯准则)。 23. 类内样本点接近,类间样本点疏

多元统计分析课后习题解答_第四章

第四章判别分析 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X= 和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时,

D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p维空间R p的k个子集,如果 它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间 构造一个“划分”,这个“划分”就构成了一个判别规则。 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。

①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是 1 和 2, 对于一个新的样品X ,要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则 X ,D 2(X ,G 1)D 2(X ,G 2) X ,D 2(X ,G 1)> D 2(X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ??? ''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为 X ,W(X)

多元统计分析题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步 判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极 大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 P e=√1?R2 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转化 为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

多元统计分析自己写

多元统计分析有哪些应用? 比较 关系 预测 分类 评价 各种应用对应的多元统计分析方法 比较:多元方差分析 关系:回归模型 预测:回归模型 分类:聚类分析与判别分析、回归模型 评价:主成分分析与因子分析 ?多元回归、logisitic回归、Cox回归、Poisson回归 多元统计分析方法主要内容 多元T检验、多元方差分析 ?Hotelling T2 ?multivariate analysis of variance (MANOV A) 多元线性回归(multivariate linear regression) logistic回归(logistic regression) Cox比例风险模型(Cox model) Poisson回归(Poisson regression) 聚类分析(cluster analysis) 判别分析(discriminant analysis) 主成分分析和因子分析 生存分析 本课程的要求 上机做练习,分析实际资料 学会看文献,判断统计分析的应用是否正确 统计软件SAS,或Stata, SPSS10.01 考试: 理论占30%,实验占70% 二、多元统计分析的基本概念 研究因素从广义的角度看,所有可以测量的变量都可以成为研究因素,比如:年 龄、性别、文化程度、人体的各种生物学特征和生理生化指标环境因素、心理因素等。狭义来看,研究因素是指可能与研究目的有关的影响因素 多元统计分析对多变量样本的要求 ①分布:多元正态分布、相互独立、多元方差齐 ②样本含量 目前尚没有多元分析的样本含量估计方法,一般认为样本含量应超过研究因素5-10倍以上即可。 数值变量→分类成有序分类变量 哑变量的数量=K-1(K为分类数)

高惠璇多元统计分析习题答案

第四章 4-1 设 ?????++=+-=+=,2,2,332211εεεb a y b a y a y ).,0(~32 3321I N σεεεε?? ?? ??????= (1)试求参数b a ,的最小二乘估计; (2)试导出检验b a H =:0的似然比统计量,并指出当假设成立时,这个统计量是分布是什么? 解:(1)由题意可知 .,,,211201321 321??? ? ??????=??????=??????????=??????????-=εεεεβ b a y y y Y C 则 ??????????????????? ?-?????? ????????????-??????????-==--321' 1 ''1'211201************)(?y y y Y C C C β .??)2(51)2(6132321??????=???? ? ?????+-++b a y y y y y (2)由题意知,检验b a H =:0的似然比统计量为 2 3 2 2 ? ??? ? ??=σσλ 其中,])?2?()??2()?[(3 1?23 22212 b a y b a y a y --++-+-= σ 。 当0H 成立时,设0a b a ==,则 ?????+=+=+=,3,,303202101εεεa y a y a y ,311???? ? ?????=C 可得

,?)3y (111311311311)(?0321321' 1 ''1'a y y y y y Y C C C =++=??? ? ? ????????? ? ?????????? ? ??????????????????????==--β ],)?3()?()?[(3 1?20320220120a y a y a y -+-+-=σ 因此,当假设0H 成立时,与似然比统计量λ等价的F 统计量及其分布为 ).1,1(~???2202 F F σσ σ -= 4-3 设Y 与321,,x x x 有相关关系,其8组观测数据见表4.5. 表 4.5 观测数据 序号 1x 2x 3x Y 1 38 47.5 23 66.0 2 41 21. 3 17 43.0 3 3 4 36. 5 21 36.0 4 35 18.0 14 23.0 5 31 29.5 11 27.0 6 34 14.2 9 14.0 7 29 21.0 4 12.0 8 32 10.0 8 7.6 (1)设εββββ++++=3 322110x x x Y ,试求回归方程及决定系数2 R 和均方误差2 s 。 解:用sas 软件的编写程序如下: title ' "应用多元统计分析" p171 习题4-3'; data xt43;

数学建模多元统计分析

实验报告 一、实验名称 多元统计分析作业题。 二、实验目的 (一)了解并掌握主成分分析与因子分析的基本原理和简单解法。 (二)学会使用matlab编写程序进行因子分析,求得特征值、特征向量、载荷矩阵等值。(三)学会使用排序、元胞数组、图像表示最后的结果,使结果更加直观。 三、实验内容与要求

四、实验原理与步骤 (一)第一题: 1、实验原理: 因子分析简介: (1) 1.1 基本因子分析模型 设p维总体x=(x1,x2,....,xp)'的均值为u=(u1,u2,....,u3)',因子分析的一般模型为 x1=u1+a11f1+a12f2+........+a1mfm+ε 1 x2=u2+a21f1+a22f2+........+a2mfm+ε 2 ......... xp=up+ap1f1+fp2f2+..........+apmfm+εp 其中,f1,f2,.....,fm为m个公共因子;εi是变量xi(i=1,2,.....,p)所独有的特殊因子,他们都是不可观测的隐变量。称aij(i=1,2,.....,p;j=1,2,.....,m)为变量xi的公共因子fi上的载荷,它反映了公共因子对变量的重要程度,对解释公共因子具有重要的作用。上式可以写为矩阵形式 x=u+Af+ε

其中A=(aij)pxm 称为因子载荷矩阵;f=(f1,f2,....,fm)'为公共因子向量;ε=(ε1,ε2,.....εp)称为特殊因子向量 (2) 1.2 共性方差与特殊方差 xi的方差var(xi)由两部分组成,一个是公共因子对xi方差的贡献,称为共性方差;一个是特殊因子对xi方差的贡献,称为特殊方差。每个原始变量的方差都被分成了共性方差和特殊方差两部分。 (3) 1.3 因子旋转 因子分析的主要目的是对公共因子给出符合实际意义的合理解释,解释的依据就是因子载荷阵的个列元素的取值。当因子载荷阵某一列上各元素的绝对值差距较大时,并且绝对值大的元素较少时,则该公共因子就易于解释,反之,公共因子的解释就比较困难。此时可以考虑对因子和因子载荷进行旋转(例如正交旋转),使得旋转后的因子载荷阵的各列元素的绝对值尽可能量两极分化,这样就使得因子的解释变得容易。 因子旋转方法有正交旋转和斜交旋转两种,这里只介绍一种普遍使用的正交旋转法:最大方差旋转。这种旋转方法的目的是使因子载荷阵每列上的各元素的绝对值(或平方值)尽可能地向两极分化,即少数元素的绝对值(或平方值)取尽可能大的值,而其他元素尽量接近于0. (4) 1.4 因子得分 在对公共因子做出合理解释后,有时还需要求出各观测所对应的各个公共因子的得分,就比如我们知道某个女孩是一个美女,可能很多人更关心该给她的脸蛋、身材等各打多少分,常用的求因子得分的方法有加权最小二乘法和回归法。 注意:因子载荷矩阵和得分矩阵的区别: 因子载荷矩阵是各个原始变量的因子表达式的系数,表达提取的公因子对原始变量的影响程度。因子得分矩阵表示各项指标变量与提取的公因子之间的关系,在某一公因子上得分高,表明该指标与该公因子之间关系越密切。简单说,通过因子载荷矩阵可以得到原始指标变量的线性组合,如X1=a11*F1+a12*F2+a13*F3,其中X1为指标变量1,a11、a12、a13分别为与变量X1在同一行的因子载荷,F1、F2、F3分别为提取的公因子;通过因子得分矩阵可以得到公因子的线性组合,如F1=a11*X1+a21*X2+a31*X3,字母代表的意义同上。 (5) 1.5 因子分析中的Heywood(海伍德)现象 如果x的各个分量都已经标准化了,则其方差=1。即共性方差与特殊方差的和为1。也就是说共性方差与特殊方差均大于0,并且小于1。但在实际进行参数估计的时候,共性方差

多元统计分析简答题..

1、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2/21exp 2np n e tr n λ????=-?? ?????S S 00p H =≠ΣΣI : /2/2**1exp 2np n e tr n λ????=-?? ????? S S 检验12k ===ΣΣΣ012k H ===ΣΣΣ: 统计量/2/2/2/211i i k k n n pn np k i i i i n n λ===∏∏S S 2. 针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量? 3. 作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系? 答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。 多元线性回归分析的线性关系指的是随机变量间的关系,因变量y 与回归系数βi 间存在线性关系。 多元线性回归的条件是: (1)各自变量间不存在多重共线性; (2)各自变量与残差独立; (3)各残差间相互独立并服从正态分布; (4)Y 与每一自变量X 有线性关系。 4.回归分析的基本思想与步骤 基本思想:

应用多元统计分析习题解答_因子分析

第七章 因子分析 7.1 试述因子分析与主成分分析的联系与区别。 答:因子分析与主成分分析的联系是:①两种分析方法都是一种降维、简化数据的技术。②两种分析的求解过程是类似的,都是从一个协方差阵出发,利用特征值、特征向量求解。因子分析可以说是主成分分析的姐妹篇,将主成分分析向前推进一步便导致因子分析。因子分析也可以说成是主成分分析的逆问题。如果说主成分分析是将原指标综合、归纳,那么因子分析可以说是将原指标给予分解、演绎。 因子分析与主成分分析的主要区别是:主成分分析本质上是一种线性变换,将原始坐标变换到变异程度大的方向上为止,突出数据变异的方向,归纳重要信息。而因子分析是从显在变量去提炼潜在因子的过程。此外,主成分分析不需要构造分析模型而因子分析要构造因子模型。 7.2 因子分析主要可应用于哪些方面? 答:因子分析是一种通过显在变量测评潜在变量,通过具体指标测评抽象因子的统计分析方法。目前因子分析在心理学、社会学、经济学等学科中都有重要的应用。具体来说,①因子分析可以用于分类。如用考试分数将学生的学习状况予以分类;用空气中各种成分的比例对空气的优劣予以分类等等②因子分析可以用于探索潜在因素。即是探索未能观察的或不能观测的的潜在因素是什么,起的作用如何等。对我们进一步研究与探讨指示方向。在社会调查分析中十分常用。③因子分析的另一个作用是用于时空分解。如研究几个不同地点的不同日期的气象状况,就用因子分析将时间因素引起的变化和空间因素引起的变化分离开来从而判断各自的影响和变化规律。 7.3 简述因子模型中载荷矩阵A 的统计意义。 答:对于因子模型 1122i i i ij j im m i X a F a F a F a F ε=++ ++ ++ 1,2, ,i p = 因子载荷阵为1112 121 22212 12 (,, ,)m m m p p pm a a a a a a A A A a a a ????? ?==?????? ? ?A i X 与j F 的协方差为: 1Cov(,)Cov(,)m i j ik k i j k X F a F F ε==+∑ =1 Cov( ,)Cov(,)m ik k j i j k a F F F ε=+∑ =ij a 若对i X 作标准化处理,=ij a ,因此 ij a 一方面表示i X 对j F 的依赖程度;另一方面也反映了

生物统计学 第九章 多元统计分析

第九章多元统计分析简介 多元统计分析主要研究多个变量之间的关系以及具有这些变量的个体之间的关系。无论是自然科学还是社会科学,无论是理论研究还是应用决策,多元统计分析都有较广泛的应用。近年来,随着计算机的普及和广泛应用,多元统计分析的应用越来越广泛,越来越深入。生物学研究中,有许多问题要考虑样本与样本之间的关系、性状与性状之间的关系,也要考虑样本与性状之间的关系,为了能够正确处理这些错综复杂的关系,就需要借助于多元统计分析方法来解决这些问题。 从应用的观点看,多元统计分析就是要研究多个变量之间的关系,但哪些问题才是多元统计的内容,并无严格的界限。一般认为,典型的多元统计分析主要可以归结为两类问题:第一类是决定某一样本的归属问题:根据某样品的多个性状(特征)判定其所属的总体。如判别分析、聚类分析即属于此类内容。第二类问题是设法降低变量维数,同时将变量变为独立变量,以便更好地说明多变量之间的关系。主成分分析、因子分析和典型相关分析均属于此类问题。此外,多因素方差分析、多元回归与多元相关分析和时间序列分析,均是研究一个变量和多个变量之间的关系的,也是多元统计分析的内容。 第一节聚类分析(Cluster Analysis) 聚类分析是研究分类问题的一种多元统计方法,聚类分析方法比较粗糙,但由于这种方法能解决许多实际问题,应用比较方便,因此越来越受到人们的重视。近年来聚类分析发展较快,内容也越来越多。常见的有系统聚类、模糊聚类、灰色聚类、信息聚类、图论聚类、动态聚类、最优分割、概率聚类等方法,本节重点介绍系统聚类法。 系统聚类法是目前应用较多的聚类分析方法,这种聚类方法从一批样本的多个观测指标(变量)中,找出能度量样本之间相似程度的统计数,构成一个相似矩阵,在此基础上计算出样本(或变量)之间或样本组合之间的相似程度或距离,按相似程度或距离大小将样本(或变量)逐一归类,关系密切的归类聚集到一个小分类单位,关系疏远的聚集到一个大的分类单位,直到把所有样本(或变量)都聚集完毕,形成一个亲疏关系谱系图,直观地显示分类对象的差异和联系。 第二节判别分析(Discriminant Analysis) 判别分析是多元统计分析中较为成熟的一类分类方法,它是根据两个或多个总体的观测结果,按照一定的判别准则和相应的判别函数,来判断某一样本属于哪一类总体。判别分析的内容很多,常见的有距离判别、贝叶斯判别、费歇判别、逐步判别、序贯判别等方法。 第三节主成分分析(Principal components analysis)

多元统计分析心得

多元统计分析读书心得 聚类分析 聚类与分类的不同在于,聚类所要求划分的类是未知的。聚类是将数据分类到不同的类或者簇这样的一个过程,所以同一个簇中的对象有很大的相似性,而不同簇间的对象有很大的相异性。聚类分析(cluster analysis)是一组将研究对象分为相对同质的群组(clusters)的统计分析技术。聚类分析也叫分类分析(classification analysis)或数值分类(numerical taxonomy)。聚类分析方法认为,在所研究的统计总体中,各样品或指标(变量)之间存在着程度不同的相似性(亲琉关系),因此可以根据一批样品的多个观测指标,具休找到一些能够度量其相似程度的统计量,并依据这些统计量完成事物的分类。具体的方法,是按样品或指标的相似性或亲疏关系,逐级地归并即聚类,每次的归并聚成一个新的类.直到把全部的样品或指标聚成一类,形成一个由小类逐步到大类的分类系统为止二若将聚类过程的结果绘成一张分类图谱并进行分析、则就可以完成整个聚类分析过程。 它的主要应用有:聚类分析在商业上被用来发现不同的客户群,并且通过购买模式刻画不同的客户群的特征。在生物上聚类分析被用来动植物分类和对基因进行分类,获取对种群固有结构的认识。在地理上,聚类能够帮助在地球中被观察的数据库商趋于的相似性。聚类分析在因特网上被用来在网上进行文档归类来修复信息等等。 下面来简要介绍一下曲国庆和姜玉春写的聚类分析及其在土地利用分类上的应用,它利用系统聚类分析的基本原理,并根据实际的土地申报登记和土地利用的调查资料,选择反映住宅建设和占地情况的人均占地面积、平均年建房率、建设用地利用率、反映耕地分布和占有情况的人均耕地面积、当地经济状况等为聚类指标,探讨聚类分析的模式相似性测度,计算方法和步骤。这其中涉及了很多问题,如样本数据的采集、统计、标准化和样本相似度测度的选择及确定,文章最后给出了土地利用聚类分析的计算方法和步骤。 读何晓群编著的多元统计分析和张文璋编著的实用统计分析方法与SPSS应用得出的一些体会如下:在聚类分析这一章,张文璋编的多元更具有系统性和层次性,比如他将聚类分析方法用一个表格的形式表现出来,让不同方法之间的区别与联系一目了然,同时,他将理论分析和SPSS软件操作结合在一起,都进行了仔细的讲述。 回归分析 在数量分析中,我们经常会看到变量与变量之间存在着一定的联系,而不只是前面所讨论的单个变量的某些孤立的特性,如均值、方差的特性等。我们要了解的是变量之间是如何发生相互影响的,这就是所谓的相关分析和回归分析。回归分析(regression analysis)是确定两种或两种以上变数间相互依赖的定量关系的一种统计分析方法,运用十分广泛,回归分析按照涉及的自变量的多少,可

应用多元统计分析应用报告(DOC)

应用多元统计分析 课程报告 班级专业:_ 市调0901 _ 学号: 2009***** __ 姓名:__ CYQ _____ 成绩:______________ 2010年10月7日

我国部分城市主要经济指标统计 ——官方与民间数据差异分析 一、引言 经济指标是反映一定社会经济现象数量方面的名称及其数值。本题主要经济指标包括人均GDP 1x (元)、人均工业产值2x (元)、客运总量3x (万人)、货运总量4x (万吨)、5x (亿元)、固定资产投资总额6x (亿元)、在岗职工占总人口的比例7x (%)、在岗职工人均工资额8x (元)、城乡居民年底储蓄余额9x (亿元)。所以我们借助这一指标体系对我国部分城市的主要经济指标进行分析。 二、数据分析 过程 1. 在SPSS 窗口中选择Analyze→Classify→Hierachical Cluster ,调出系统聚类分析主界面,并将变量X 1~X 5移入Variables 框中。在Cluster 栏中选择Cases 单选按钮,即对样品进行聚类(若选择Variables ,则对变量进行聚类)。在Display 栏中选择Statistics 和Plots 复选框,这样在结果输出窗口中可以同时得到聚类结果统计量和统计图。

2. 点击Statistics按钮,设置在结果输出窗口中给出的聚类分析统计 量。这里我们选择系统默认值,点击Continue按钮,返回主界面。 3. 点击Plots按钮,设置结果输出窗口中给出的聚类分析统计图。选 中Dendrogram复选框和Icicle栏中的None单选按钮,即只给出聚类树形图,而不给出冰柱图。单击Continue按钮,返回主界面。 4. 点击Method按钮,设置系统聚类的方法选项。这里我们仍然均沿 用系统默认选项。单击Continue按钮,返回主界面。 5. 点击Save按钮,指定保存在数据文件中的用于表明聚类结果的新 变量。None表示不保存任何新变量;Single solution表示生成一

相关主题
文本预览
相关文档 最新文档