当前位置:文档之家› 朱建平:应用多元统计分析课后答案_

朱建平:应用多元统计分析课后答案_

朱建平:应用多元统计分析课后答案_
朱建平:应用多元统计分析课后答案_

第二章

2.1.试叙述多元联合分布和边际分布之间的关系。

解:多元联合分布讨论多个随机变量联合到一起的概率分布状况,12(,,)p X X X X '= 的联合分布密度函数是一个p 维的函数,而边际分布讨论是12(,,)p X X X X '= 的子向量的概率分布,其概率密度函数的维数小于p 。

2.2设二维随机向量1

2()X X '服从二元正态分布,写出其联合分布。

解:设1

2()X X '的均值向量为()1

2μμ'=μ,协方差矩阵为21

122212σσσσ?? ?

??

,则其联合分布密度函数为

1/2

12

2

2112112222122121()exp ()()2f σσσσσσσσ--????????

'=---?? ?

???

??????

x x μx μ。

2.3已知随机向量1

2()X X '的联合密度函数为

12121222

2[()()()()2()()]

(,)()()d c x a b a x c x a x c f x x b a d c --+-----=

--

其中1a x b ≤≤,2c x d ≤≤。求

(1)随机变量1X 和2X 的边缘密度函数、均值和方差; (2)随机变量1X 和2X 的协方差和相关系数; (3)判断1X 和2X 是否相互独立。

(1)解:随机变量1X 和2X 的边缘密度函数、均值和方差;

11212122

2[()()()()2()()]

()()()

d

x c

d c x a b a x c x a x c f x dx b a d c --+-----=--?

12

212222

22

2()()2[()()2()()]

()()()()d

d

c

c d c x a x b a x c x a x c dx b a d c b a d c -------=

+----?

1212222

2()()2[()2()]

()()()()d

d c

c d c x a x b a t x a t dt b a d c b a d c ------=

+----?

2

2

12122

22

2()()[()2()]1()()()()d c

d

c

d c x a x b a t x a t b a d c b a d c b a

------=

+

=

----- 所以

由于1X 服从均匀分布,则均值为2b a +,方差为()2

12b a -。

同理,由于2X 服从均匀分布[]2121,()0

x x c d f x d c

?∈?

=-???其它

,则均值为

2

d c

+,方差为

()2

12

d c -。

(2)解:随机变量1X 和2X 的协方差和相关系数;

12cov(,)

x x

12121212222[()()()()2()()]22()()d

b

c

a d c x a

b a x

c x a x c a b

d c x x dx dx b a d c --+-----++?

???=-- ???--?

????

?

()()

36

c d b a --=

1

2

12cov(,)

13

x x

x x ρσσ=

=

(3)解:判断1X 和2X 是否相互独立。

1X 和2X 由于121212(,)()()x x f x x f x f x ≠,所以不独立。

2.4设12(,,)p X X X X '= 服从正态分布,已知其协方差矩阵∑为对角阵,证明其分量是相

互独立的随机变量。

解: 因为12(,,)p X X X X '= 的密度函数为

1/21

11(,...,)exp ()()2p

p f x x --??'=---????Σx μΣx μ 又由于212

22p σσσ??

? ?= ? ? ??

?Σ 222

12p

σσσ=Σ 21212

21

1

1p σσσ-?? ? ? ? ?=

? ? ? ? ??

?

Σ

则1(,...,)p f x x

211/22

2221

2

12211

1exp ()()21p

p p σσσσσσ--????

?? ?

?? ?

?? ?

?? ?'==--=-??

?

??

??? ?

?? ???

????

?

Σx μΣx μ

()2221231112222

12()()()111exp ...222p p p p p x x x μμμσσσσσσ-??---??

=----??????

212

1()()...()2p

i i p i i x f x f x μσ=??-=-=????

则其分量是相互独立。

2.5由于多元正态分布的数学期望向量和均方差矩阵的极大似然分别为

1?n

i i n ===∑μ

X X 1

?()()n

i i

i n ='=--∑ΣX X X X 35650.0012.33?17325.00152.50??

? ?== ? ? ???

μ

X 201588000.0038900.0083722500.00-736800.0038900.0013.06716710.00-35.80?83722500.0016710.0036573750.00-199875.00-736800.00-35.800-199875.0016695.10??

?

?

=

?

?

???

Σ

注:利用 11p n n

?'=1X X , S 1()n n n n ''=-11X I X 其中 1

001n ????=??????

I

在SPSS 中求样本均值向量的操作步骤如下:

1. 选择菜单项Analyze →Descriptive Statistics →Descriptives ,打开Descriptives 对话框。

将待估计的四个变量移入右边的Variables 列表框中,如图2.1。

图2.1 Descriptives 对话框

2.

单击Options 按钮,打开Options 子对话框。在对话

框中选择Mean 复选框,即计算样本均值向量,如图2.2所示。单击Continue 按钮返回主对话框。

图2.2 Options子对话框

3.单击OK按钮,执行操作。则在结果输出窗口中给出样本均值向量,如表2.1,即

样本均值向量为(35.3333,12.3333,17.1667,1.5250E2)。

表2.1 样本均值向量

在SPSS中计算样本协差阵的步骤如下:

1.选择菜单项Analyze→Correlate→Bivariate,打开

Bivariate Correlations对话框。将三个变量移入右边的Variables列表框中,如图

2.3。

图2.3 Bivariate Correlations对话框

2.单击Options按钮,打开Options子对话框。选择

Cross-product deviations and covariances复选框,即计算样本离差阵和样本协差阵,如图2.4。单击Continue按钮,返回主对话框。

图2.4 Options 子对话框

3.

单击OK 按钮,执行操作。则在结果输出窗口中给

出相关分析表,见表 2.2。表中Covariance 给出样本协差阵。(另外,Pearson Correlation 为皮尔逊相关系数矩阵,Sum of Squares and Cross-products 为样本离差阵。)

2.6 渐近无偏性、有效性和一致性;

2.7 设总体服从正态分布,~(,)p N X μΣ,有样本12,,...,n X X X 。由于X 是相互独立的正态分布随机向量之和,所以X 也服从正态分布。又

()11

1()n n

n

i i i i i E E n E n n ===??==== ???∑∑∑X X X μμ

()2211

111()n n

n i i i i i D D n D n n n ===??==== ???∑∑∑ΣX X X Σ

所以~(,)p N X μΣ。

2.8 方法1: 1

1?()()1n

i i i n ='=---∑ΣX X X X 1

11n

i i i n n =''=--∑X X XX

1

1?()()1n

i i i E E n n =''=--∑ΣX X XX ()()111n i i i E nE n =??

''=-??-??∑X X XX 111

(1)11n i n n n n n =??=-=-=??--??

∑ΣΣΣΣ。 方法2:1()n

i

i

i ='=

∑S X -X)(X -X

1((n

i

i

i ='

????=

----????∑X -μX μ)X -μX μ)

1

1

()()2()()()n

n

i

i

i

i i n =='''=

-+--∑∑X -μX -μX -μX -μX μ)(X μX μ

1()()2()()n

i

i

i n n ='''=

---+--∑X -μX -μX μ)(X μX μ)(X μ

1

()()()n

i

i

i n =''=

---∑X -μX -μX μ)(X μ

11()()()()11n i i i E E n n n =??

''=--- ?--??∑S X -μX -μX μ)(X μ 1

1()()()1n i i i E nE n =??

''=---= ?-??

∑X -μX -μX μ)(X μΣ。 故

1

n -S

为Σ的无偏估计。 2.9.设(1)(2)()n X ,X ,...,X 是从多元正态分布~(,)p N X μΣ抽出的一个简单随机样本,试求S 的分布。

证明: 设

******()***ij γ?? ? ?

==

? ?Γ

为一正交矩阵,即'=ΓΓI 。 令()'1

2n 12n Ζ=(ΖΖΖ)=X X X Γ ,

(1,2,3,4,),i n =i X Γ 由于独立同正态分布且为正交矩阵

所以1

2()n 'Z =Z Z Z 独立同正态分布。且有

1()()

(1,2,3,,

1)n

a aj j j

E E r a n ===-∑ΖΧ

1n

aj

j ==r 1

0n

aj

nj i r r ='==∑ 1

()()n

a aj j j Var Var r ==∑ΖΧ

()2

2

1

1

n

n

aj j aj j j r Var r =====∑∑ΧΣΣ

所以121n -ΖΖΖ 独立同(0,)N Σ分布。

又因为1

()()n

j

j ='=

--∑i S X

X X X

1

n

j j j n

=''=-∑X X XX

因为11n n i i n n i i n n =='

?''==??

XX X X Z Z

又因为

()????

??

? ??'''='∑=n n n

j j

j

X X X X X X

X X 212

1

1

()'?? ?' ?'= ? ? ?'??121

2

n n X X

X X X ΓΓX

()'?? ?' ?= ? ? ?'??

121

2

n n Z Z Z Z Z Z 所以原式

n

n

n

j j

j

n

n

n

j j

j

Z Z Z Z Z Z X X '-'='-'∑∑==1

1

1122...n n ''''=+++n n Z Z Z Z Z Z -ΖΖ

故11

n j

j

j -='=

Z Z ∑S ,由于12

1,,,n Z Z Z

- 独立同正态分布

(0,)p N Σ,所以

1

1

~(1,)n j j p j W n -='=Z Z -∑∑S

2.10.设()i i X n p ?是来自(,)p i i N μΣ的简单随机样本,1,2,3,,i k = ,

(1)已知2...k ====1μμμμ且2...k ====1ΣΣΣΣ,求μ和Σ的估计。 (2)已知2...k ====1ΣΣΣΣ求2,,...,,k 1μμμ和Σ的估计。

解:(1)11

121?...a

n k a i

a i k

n n n ====+++∑∑μ

x x

()()11

12?...a

n k a

a i

i a i k

n n n =='

--=+++∑∑x

x x x Σ

(2) 1ln (,,,)k L μμΣ

2

11

1ln ()exp[]2a n k n p

a

a i a i a a i 2π-=='??=-??

∑∑-1Σ(x -μ)Σ(x -μ)

11

11ln ()ln()ln 222a n k a

a i a i a a i n L pn 2π=='=---∑∑-1μ,ΣΣ(x -μ)Σ(x -μ)

()21111

ln (,)1()()022a

n k a a i a i a a i L n --==?'=-+--=?∑∑μΣΣX μX μΣΣ

11

ln (,)

()0(1,2,...,)j

n j ij j i j

L j k -=?=-==?∑μΣΣX μμ

解之,得

1

1?j

n j j ij

i j

n ===∑μ

x x

,()()11

12?...j

n k

j j

j i k

n n n =='--=+++∑∑ij ij x

x x x Σ

第三章

3.1 试述多元统计分析中的各种均值向量和协差阵检验的基本思想和步骤。

其基本思想和步骤均可归纳为:

答: 第一,提出待检验的假设和H1;

第二,给出检验的统计量及其服从的分布;

第三,给定检验水平,查统计量的分布表,确定相应的临值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。

均值向量的检验:

统计量 拒绝域

在单一变量中

当2σ已知 X z =/2||z z α>

当2σ未知 X t =

/2||(1)t t n α>-

(2

2

1

1()1n i

i S X X n ==--∑作为2σ的估计量)

一个正态总体00H =μμ:

协差阵Σ已知 212000()()~()T n p χ-'=--X μΣX μ 22

0T αχ> 协差阵Σ未知 2(1)1~(,)(1)n p T F p n p n p --+-- 2

(1)n p T F n p

α->-

(2

00(1))]T n -'=---X μS X μ)

两个正态总体012H =μμ:

有共同已知协差阵 2

120()()~()n m T p n m

χ-?'=

--+X Y ΣX Y 22

0T αχ>

有共同未知协差阵 2

(2)1~(,1)(2)n m p F T F p n m p n m p

+--+=+--+- F F α>

(其中 2

1(2)))T n m -'??

=+---????

X Y S X Y )

协差阵不等m n = -1()~(,)n p n

F F p n p p

-'=

-Z S Z F F α> 协差阵不等m n ≠ 1()~(,)n p n

F F p n p p

-'=--Z S Z F F α>

多个正态总体k H μμμ=== 210: 单因素方差 (1)

~(1,)()

SSA k F F k n k SSE n k -=

--- F F α>

多因素方差 ~(,,1)p n k k Λ==

Λ--+E E T

A E

协差阵的检验 检验0=ΣΣ

0p H =ΣI : /2

/21exp 2np n e tr n λ????

=-?? ?

????

S S

00p H =≠ΣΣI : /2

/2**1exp 2np n e tr n λ????

=-?? ?

????

S S

检验12k ===ΣΣΣ 012k H ===ΣΣΣ :

统计量/2/2

/2

/2

1

1

i i k

k

n n pn np k i

i

i i n

n

λ===∏∏S

S

3.2 试述多元统计中霍特林分布和威尔克斯分布分别与一元统计中t 分布和F 分布的关

系。

答:(1)霍特林

分布是t 分布对于多元变量的推广。

22

21

2

()()()()n X t n X S X S

μμμ--'==--而若设~(,)p N X μΣ,~(,)p W n S Σ且X 与S 相互独立,p n ≥,则称统计量的分布为非中心霍特林T 2分布。

若~(,)p N X 0Σ,~(,)p W n S Σ且X 与S 相互独立,令21

T n -'=X S X ,则

2

1~(,1)n p T F p n p np

-+-+ 。 (2)威尔克斯分布在实际应用中经常把统计量化为2

T 统计量进而化为F 统计量,利用F 统计量来解决多元统计分析中有关检验问题。

3.3 试述威尔克斯统计量在多元方差分析中的重要意义。

答:威尔克斯统计量在多元方差分析中是用于检验均值的统计量。

012k H ===μμμ : 1i j H i j ≠≠μμ:至少存在使

用似然比原则构成的检验统计量为 ~(,,1)p n k k Λ=

=Λ--

+E

E T A E

给定检验水平α,查Wilks 分布表,确定临界值,然后作出统计判断。

第四章

4.1 简述欧几里得距离与马氏距离的区别和联系。 答: 设p 维欧几里得空间中的两点X =

和Y =

。则欧几里得距

离为

。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到

实际问题中量纲的影响。

设X,Y 是来自均值向量为

,协方差为

的总体G 中的p 维样本。则马氏距离为

D(X,Y)=。当

即单位阵时,

D(X,Y)=

=

即欧几里得距离。

因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。

4.2 试述判别分析的实质。

答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk 是p 维空间R p 的k 个子集,如果它们互不相交,且它们的和集为

,则称

的一个

划分。判别分析问题实质上就是在某种意义上,以最优的性质对p 维空间构造一个“划

分”,这个“划分”就构成了一个判别规则。

4.3 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。 ①两个总体的距离判别问题

设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是μ1和μ 2,对于一个新的样品X ,

要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2

(X ,G 2),则

X

,D 2(X ,G 1)D 2

(X ,G 2)

X

,D 2

(X ,G 1)> D 2

(X ,G 2,

具体分析,

2212(,)(,)

D G D G -X X

111122111111

111222*********

()()()()

2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()

2()

22()2()

---''=-++-'

+?

?=--- ??

?''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为

X

,W(X)

X

,W(X)<0

②多个总体的判别问题。

设有k 个总体k G G G ,,,21 ,其均值和协方差矩阵分别是k μμμ,,,21 和k ΣΣΣ,,,21 ,且ΣΣΣΣ====k 21。计算样本到每个总体的马氏距离,到哪个总体的距离最小就属于哪个总体。

具体分析,21(,)()()D G ααα-'=--X X μΣX μ

1111

22()C α

αααα----'''=-+''=-+X ΣX μΣX μΣμX ΣX I X

取ααμΣI 1-=,αααμΣμ1

2

1-'-=C ,k ,,2,1 =α。 可以取线性判别函数为

()W C αα

α'=+X I X , k ,,2,1 =α 相应的判别规则为i G ∈X 若 1()max()i k

W C α

αα≤≤'=+X I X

4.4 简述贝叶斯判别法的基本思想和方法。

基本思想:设k 个总体k G G G ,,,21 ,其各自的分布密度函数)(,),(),(21x x x k f f f ,假设k 个总体各自出现的概率分别为k q q q ,,,21 ,0≥i q ,

11

=∑=k

i i

q

。设将本来属于i G 总体的样品

错判到总体j G 时造成的损失为)|(i j C ,k j i ,,2,1, =。

设k 个总体k G G G ,,,21 相应的p 维样本空间为 ),,,(21k R R R R =。 在规则R 下,将属于i G 的样品错判为j G 的概率为

x x d f R i j P j

R i )(),|(?= j i k

j i ≠=,,2,1,

则这种判别规则下样品错判后所造成的平均损失为

∑==k

j R i j P i j C R i r 1

)],|()|([)|( k i ,,2,1 =

则用规则R 来进行判别所造成的总平均损失为

∑==k

i i R i r q R g 1),()(

∑∑===k

i k

j i R i j P i j C q 1

1

),|()|(

贝叶斯判别法则,就是要选择一种划分k R R R ,,,21 ,使总平均损失)(R g 达到极小。 基本方法:∑∑===

k i k

j i R i j P i j C q R g 1

1),|()|()(

x x d f i j C q k

i k

j R i i j

∑∑?===1

1)()|(

∑?∑===k

j R k

i i i j

d f i j C q 1

1

))()|((x x

1

(|)()()k i

i

j

i q C j i f h ==∑x x ,则 ∑?

==k

j R j j d h R g 1

)()(x x

若有另一划分),,,(**2*

1*

k

R R R R =,∑?

==k

j R j j

d h R g 1

*

*)()(x x

则在两种划分下的总平均损失之差为

∑∑?

==?-=-k i k

j R R j i j

i d h h R g R g 11

*

*)]()([)()(x x x

因为在i R 上)()(x x j i h h ≤对一切j 成立,故上式小于或等于零,是贝叶斯判别的解。

从而得到的划分),,,(21k R R R R =为1{|()min ()}i i j j k R h h ≤≤==x x x k i ,,2,1 =

4.5 简述费希尔判别法的基本思想和方法。

答:基本思想:从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数

1122()p p U u X u X u X '=+++=X u X 系数),,,(21'=p u u u u 可使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出()U X 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。

4.6 试析距离判别法、贝叶斯判别法和费希尔判别法的异同。

答:① 费希尔判别与距离判别对判别变量的分布类型无要求。二者只是要求有各类母体的两阶矩存在。而贝叶斯判别必须知道判别变量的分布类型。因此前两者相对来说较为简单。 ② 当k=2时,若

则费希尔判别与距离判别等价。当判别变量服从正态分布时,

二者与贝叶斯判别也等价。 ③ 当

时,费希尔判别用

作为共同协差阵,实际看成等协差阵,此与距离判

别、贝叶斯判别不同。

④ 距离判别可以看为贝叶斯判别的特殊情形。贝叶斯判别的判别规则是 X

W(X)

X

,W(X)

距离判别的判别规则是

X

,W(X)

X

,W(X)<0

二者的区别在于阈值点。当21q q =,)1|2()2|1(C C =时,1=d ,0ln =d 。二者完全相同。

4.7 设有两个二元总体

,从中分别抽取样本计算得到

,, 假设,试用距离判别法建立判别函数和判

别规则。 样品X =(6,0)’应属于哪个总体?

解:

= ,

= , =

=

即样品X 属于总体

4.8 某超市经销十种品牌的饮料,其中有四种畅销,三种滞销,三种平销。下表是这十种品牌饮料的销售价格(元)和顾客对各种饮料的口味评分、信任度评分的平均数。

⑴根据数据建立贝叶斯判别函数,并根据此判别函数对原样本进行回判。

⑵现有一新品牌的饮料在该超市试销,其销售价格为3.0,顾客对其口味的评分平均为8,信任评分平均为5,试预测该饮料的销售情况。

解:增加group变量,令畅销、平销、滞销分别为group1、2、3;销售价格为X1,口味评分为X2,信任度评分为X3,用spss 解题的步骤如下:

1.在SPSS窗口中选择Analyze→Classify→Discriminate,调出判别分析主界面,

将左边的变量列表中的“group”变量选入分组变量中,将X1、X2、X3变量选入自

变量中,并选择Enter independents together单选按钮,即使用所有自变量进行判

别分析。

2.点击Define Range按钮,定义分组变量的取值范围。本例中分类变量的范围为

1到3,所以在最小值和最大值中分别输入1和3。单击Continue按钮,返回主界

面。如图4.1

图4.1 判别分析主界面

3.单击Statistics…按钮,指定输出的描述统计量和判别函数系数。选中Function

Coefficients栏中的Fisher’s:给出Bayes判别函数的系数。(注意:这个选项不是

要给出Fisher判别函数的系数。这个复选框的名字之所以为Fisher’s,是因为按判

别函数值最大的一组进行归类这种思想是由Fisher提出来的。这里极易混淆,请

读者注意辨别。)如图4.2。单击Continue按钮,返回主界面。

图4.2 statistics子对话框

4. 单击Classify …按钮,弹出classification 子对话框,选中Display 选项栏中的Summary table 复选框,即要求输出错判矩阵,以便实现题中对原样本进行回判的要求。如图4.3。

图4.3 classification 对话框

5. 返回判别分析主界面,单击OK 按钮,运行判别分析过程。

1) 根据判别分析的结果建立Bayes 判别函数:

Bayes 判别函数的系数见表4.1。表中每一列表示样本判入相应类的Bayes 判别函数系数。由此可建立判别函数如下:

Group1: 3761.162297.121689.11843.811X X X Y ++--= Group2: 3086.172361.131707.10536.942X X X Y ++--=

Group3: 3447.62960.41194.2449

.173X X X Y ++--= 将各样品的自变量值代入上述三个Bayes 判别函数,得到三个函数值。比较这三个函数值,哪个函数值比较大就可以判断该样品判入哪一类。

表4.1 Bayes 判别函数系数

根据此判别函数对样本进行回判,结果如表4.2。从中可以看出在4种畅销饮料中,有3种被正确地判定,有1种被错误地判定为平销饮料,正确率为75%。在

3种平销饮料中,有2种被正确判定,有1种被错误地判定为畅销饮料,正确率为66.7%。3种滞销饮料均正确判定。整

表4.2 错判矩阵

2) 该新饮料的0.31=X ,82=X ,53=X ,将这3个自变量代入上一小题得到的Bayes

判别函数,2Y 的值最大,该饮料预计平销。也可通过在原样本中增加这一新样本,重复上述的判别过程,并在classification 子对话框中同时要求输出casewise results ,运行判别过程,得到相同的结果。

4.9 银行的贷款部门需要判别每个客户的信用好坏(是否未履行还贷责任),以决定是否给予贷款。可以根据贷款申请人的年龄(1X )、受教育程度(2X )、现在所从事工作的年数(3X )、未变更住址的年数

(4X )、收入(5X )、负债收入比例(6X )、信用卡债务(7X )、其它债务(8X )等来判断其信用情况。下表是从某银行的客户资料中抽取的部分数据,⑴根据样本资料分别用距离判别法、Bayes 判别法和Fisher 判别法建立判别函数和判别规则。⑵某客户的如上情况资料为(53,1,9,18,50,11.20,2.02,3.58),对其进行信用好坏

解:令已履行还贷责任为group0,未履行还贷责任为group1。令(53,1,9,18,50,11.20,2.02,3.58)客户序号为11,group 未知。用spss 解题步骤如下:

1. 在SPSS 窗口中选择Analyze →Classify →Discriminate ,调出判别分析主界面,将左边

的变量列表中的“group ”变量选入分组变量中,将61X X -变量选入自变量中,并选择Enter independents together 单选按钮,即使用所有自变量进行判别分析。 2. 点击Define Range 按钮,定义分组变量的取值范围。本例中分类变量的范围为0到

1,所以在最小值和最大值中分别输入0和1。单击Continue 按钮,返回主界面。

3.单击Statistics…按钮,指定输出的描述统计量和判别函数系数。选中Function

Coefficients栏中的Fisher’s和Unstandardized。单击Continue按钮,返回主界面。

4.单击Classify…按钮,定义判别分组参数和选择输出结果。选择Display栏中的

Casewise results,以输出一个判别结果表。其余的均保留系统默认选项。单击

Continue按钮。

5.返回判别分析主界面,单击OK按钮,运行判别分析过程。

1)用费希尔判别法建立判别函数和判别规则:

未标准化的典型判别函数系数由于可以将实测的样品观测值直接代入求出判别得分,所以该系数使用起来比标准化的系数要方便一些。具体见表4.3 。

表4.3 未标准化的典型判别函数系数

由此表可知,Fisher判别函数为:

X

X

X

X

X 10X X

.0

794

.

+

32

-

-

=

+

+

+

+

+

Y-

X

710

.0

1

024

6

.0

383

.2

7

792

.0

5

.0

8

687

.6

173

2

4

357

.0

3

用Y计算出各观测值的具体坐标位置后,再比较它们与各类重心的距离,就可以得知分类,如若与group0的重心距离较近则属于group0,反之亦然。各类重心在空间中的坐标位置如表4.4所示。

表4.4 各类重心处的费希尔判别函数值

用bayes判别法建立判别函数与判别规则,由于此题中假设各类出现的先验概率相等且

误判造成的损失也相等,所以距离判别法与bayes判别完全一致。

如表4.5所示,group栏中的每一列表示样品判入相应列的Bayes判别函数系数。由此可得,各类的Bayes判别函数如下:

1

X

X

X

X

118

.0

340

693

.

X

0X

X

+

+

-

=

+

-

G-

-

+

+

X

4

10

.

6

723

.

994

7

94

504

.

37

13

8

2

070

.

5

033

.1

3

969

943

.2

.4

X

X

X

X

X

.0

X

184

296

.

171

1X

+

+

-

=

1

+

+

G-

-

+

-

X

5

.7

6

182

.

133

7

8

116

.

49

17

086

.1

2

660

.

874

3

.3

4

681

.6

126

多元统计分析与R语言建模考试试卷

.. .. 多元统计分析及R 语言建模考试试卷 一、简答题(共5小题,每小题6分,共30分) 1. 常用的多元统计分析方法有哪些? (1)多元正态分布检验 (2)多元方差-协方差分析 (3)聚类分析 (4)判别分析 (5)主成分分析 ______________ 课程类别 必修[ ] 选修[ ] 考试方式 开卷[ ] 闭卷[ ]

(7)对应分析 (8)典型相关性分析 ( 9)定性数据建模分析 (10)路径分析(又称多重回归、联立方程) (11)结构方程模型 (12)联合分析 (13)多变量图表示法 (14)多维标度法 2. 简单相关分析、复相关分析和典型相关分析有何不同?并举例说明之。 简单相关分析:简单相关分析是研究现象之间是否存在某种依存关系,并对具体有依存关系的现象探讨其相关方向以及相关程度,是研究随机变量之间的相关关系的一种统计方法。例如,以X、Y分别记小学生的数学与语文成绩,感兴趣的是二者的关系如何,而不在于由X去预测Y。 复相关分析;研究一个变量 x0与另一组变量 (x1,x2,…,xn)之间的相关程度。例如,职业声望同时受到一系列因素(收入、文化、权力……)的影响,那么这一系列因素的总和与职业声望之间的关系,就是复相关。复相关系数R0.12…n的测定,可先求出 x0对一组变量x1,x2,…,xn的回归直线,再计算x0与用回归直线估计值悯之间的简单直线回归。复相关系数为R0.12…n的取值围为0≤R0.12…n≤1。复相关系数值愈大,变量间的关系愈密切。 典型相关分析就是利用综合变量对之间的相关关系来反映两组指标之间的整体相关性的多元统计分析方法。它的基本原理是:为了从总体上把握两组指标之间的相关关系,分别在两组变量中提取有代表性的两个综合变量U1和V1(分别为两个变量组中各变量的线性组合),利用这两个综合变量之间的相关关系来反映两组指标之间的整体相关性。

多元统计分析模拟考题及答案.docx

一、判断题 ( 对 ) 1 X ( X 1 , X 2 ,L , X p ) 的协差阵一定是对称的半正定阵 ( 对 ( ) 2 标准化随机向量的协差阵与原变量的相关系数阵相同。 对) 3 典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4 多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据 分析方法。 ( 错)5 X (X 1 , X 2 , , X p ) ~ N p ( , ) , X , S 分别是样本均值和样本离 差阵,则 X , S 分别是 , 的无偏估计。 n ( 对) 6 X ( X 1 , X 2 , , X p ) ~ N p ( , ) , X 作为样本均值 的估计,是 无偏的、有效的、一致的。 ( 错) 7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对) 8 因子载荷阵 A ( ij ) ij 表示第 i 个变量在第 j 个公因子上 a 中的 a 的相对重要性。 ( 对 )9 判别分析中, 若两个总体的协差阵相等, 则 Fisher 判别与距离判别等价。 (对) 10 距离判别法要求两总体分布的协差阵相等, Fisher 判别法对总体的分布无特 定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、 样本相关系数矩阵. 2、 设 是总体 的协方差阵, 的特征根 ( 1, , ) 与相应的单 X ( X 1,L , X m ) i i L m 位 正 交 化 特 征 向 量 i ( a i1, a i 2 ,L ,a im ) , 则 第 一 主 成 分 的 表 达 式 是 y 1 a 11 X 1 a 12 X 2 L a 1m X m ,方差为 1 。 3 设 是总体 X ( X 1, X 2 , X 3, X 4 ) 的协方差阵, 的特征根和标准正交特征向量分别 为: 1 2.920 U 1' (0.1485, 0.5735, 0.5577, 0.5814) 2 1.024 U 2' (0.9544, 0.0984,0.2695,0.0824) 3 0.049 U 3' (0.2516,0.7733, 0.5589, 0.1624) 4 0.007 U 4' ( 0.0612,0.2519,0.5513, 0.7930) ,则其第二个主成分的表达式是

多元统计思考题及答案

《多元统计分析思考题》 第一章 回归分析 1、回归分析是怎样的一种统计方法,用来解决什么问题 答:回归分析作为统计学的一个重要分支,基于观测数据建立变量之间的某种依赖关系,用来分析数据的内在规律,解决预报、控制方面的问题。 2、线性回归模型中线性关系指的是什么变量之间的关系自变量与因变量之间一定是线性关系形式才能做线性回归吗为什么 答:线性关系是用来描述自变量x 与因变量y 的关系;但是反过来如果自变量与因变量不一定要满足线性关系才能做回归,原因是回归方程只是一种拟合方法,如果自变量和因变量存在近似线性关系也可以做线性回归分析。 3、实际应用中,如何设定回归方程的形式 答:通常分为一元线性回归和多元线性回归,随机变量y 受到p 个非随机因素x1、x2、x3……xp 和随机因素?的影响,形式为: 01p βββ???是p+1个未知参数,ε是随机误差,这就是回归方程的设定形 式。 4、多元线性回归理论模型中,每个系数(偏回归系数)的含义是什么 答:偏回归系数01p βββ???是p+1个未知参数,反映的是各个自变量对随机变 量的影响程度。 5、经验回归模型中,参数是如何确定的有哪些评判参数估计的统计标准最小二乘估计法有哪些统计性质要想获得理想的参数估计值,需要注意一些什

么问题 答:经验回归方程中参数是由最小二乘法来来估计的; 评判标准有:普通最小二乘法、岭回归、主成分分析、偏最小二乘法等; 最小二乘法估计的统计性质:其选择参数满足正规方程组, (1)选择参数01 ??ββ分别是模型参数01ββ的无偏估计,期望等于模型参数; (2)选择参数是随机变量y 的线性函数 要想获得理想的参数估计,必须注意由于方差的大小表示随机变量取值 的波动性大小,因此自变量的波动性能够影响回归系数的波动性,要想使参数估计稳定性好,必须尽量分散地取自变量并使样本个数尽可能大。 6、理论回归模型中的随机误差项的实际意义是什么为什么要在回归模型中加入随机误差项建立回归模型时,对随机误差项作了哪些假定这些假定的实际意义是什么 答:随机误差项?的引入使得变量之间的关系描述为一个随机方程,由于因变 量y 很难用有限个因素进行准确描述说明,故其代表了人们的认识局限而没有考虑到的偶然因素。 7、建立自变量与因变量的回归模型,是否意味着他们之间存在因果关系为什么 答:不是,因果关系是由变量之间的内在联系决定的,回归模型的建立只是 一种定量分析手段,无法判断变量之间的内在联系,更不能判断变量之间的因果关系。 8、回归分析中,为什么要作假设检验检验依据的统计原理是什么检验的过程

多元统计分析试题及答案

华南农业大学期末试卷(A 卷) 2006学年第2学期 考试科目:多元统计分析 考试类型:(闭卷) 考试时间:120 分钟 学号 姓名 年级专业 题号 一 二 三 四 五 六 七 八 总分 得分 评阅人 一、填空题(5×6=30) 22121212121~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ???+-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑、设则=服从。 ()1 2 34 433,4 92,32 16___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1, ,16(,),(,) 15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 (), 123设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111 X σ = 的方差21X g =1公因子f 对的贡献121330.93400.1280.9340.4170.83511 00.4170.8940.02700.8940.44730.8350.4470.1032013 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

多元统计分析期末复习

第一章: 多元统计分析研究的内容(5点) 1、简化数据结构(主成分分析) 2、分类与判别(聚类分析、判别分析) 3、变量间的相互关系(典型相关分析、多元回归分析) 4、多维数据的统计推断 5、多元统计分析的理论基础 第二三章: 二、多维随机变量的数字特征 1、随机向量的数字特征 随机向量X 均值向量: 随机向量X 与Y 的协方差矩阵: 当X=Y 时Cov (X ,Y )=D (X );当Cov (X ,Y )=0 ,称X ,Y 不相关。 随机向量X 与Y 的相关系数矩阵: )',...,,(),,,(2121P p EX EX EX EX μμμ='=Λ)')((),cov(EY Y EX X E Y X --=q p ij r Y X ?=)(),(ρ

2、均值向量协方差矩阵的性质 (1).设X ,Y 为随机向量,A ,B 为常数矩阵 E (AX )=AE (X ); E (AXB )=AE (X )B; D(AX)=AD(X)A ’; Cov(AX,BY)=ACov(X,Y)B ’; (2).若X ,Y 独立,则Cov(X,Y)=0,反之不成立. (3).X 的协方差阵D(X)是对称非负定矩阵。例2.见黑板 三、多元正态分布的参数估计 2、多元正态分布的性质 (1).若 ,则E(X)= ,D(X)= . 特别地,当 为对角阵时, 相互独立。 (2).若 ,A为sxp 阶常数矩阵,d 为s 阶向量, AX+d ~ . 即正态分布的线性函数仍是正态分布. (3).多元正态分布的边缘分布是正态分布,反之不成立. (4).多元正态分布的不相关与独立等价. 例3.见黑板. 三、多元正态分布的参数估计 (1)“ 为来自p 元总体X 的(简单)样本”的理解---独立同截面. (2)多元分布样本的数字特征---常见多元统计量 样本均值向量 = 样本离差阵S= 样本协方差阵V= S ;样本相关阵R (3) ,V分别是 和 的最大似然估计; (4)估计的性质 是 的无偏估计; ,V分别是 和 的有效和一致估计; ; S~ , 与S相互独立; 第五章 聚类分析: 一、什么是聚类分析 :聚类分析是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。用于对事物类别不清楚,甚至事物总共可能有几类都不能确定的情况下进行事物分类的场合。聚类方法:系统聚类法(直观易懂)、动态聚类法(快)、有序聚类法(保序)...... Q-型聚类分析(样品)R-型聚类分析(变量) 变量按照测量它们的尺度不同,可以分为三类:间隔尺度、有序尺度、名义尺度。 二、常用数据的变换方法:中心化变换、标准化变换、极差正规化变换、对数变换(优缺点) 1、中心化变换(平移变换):中心化变换是一种坐标轴平移处理方法,它是先求出每个变量的样本平均值,再从原始数据中减去该变量的均值,就得到中心化变换后的数据。不改变样本间的相互位置,也不改变变量间的相关性。 2、标准化变换:首先对每个变量进行中心化变换,然后用该变量的标准差进行标准化。 经过标准化变换处理后,每个变量即数据矩阵中每列数据的平均值为0,方差为1,且也不再具有量纲,同样也便于不同变量之间的比较。 3、极差正规化变换(规格化变换):规格化变换是从数据矩阵的每一个变量中找出其最大值和最小值,这两者之差称为极差,然后从每个变量的每个原始数据中减去该变量中的最小值,再除以极差。经过规格化变换后,数据矩阵中每列即每个变量的最大数值为1,最小数值为0,其余数据取值均在0-1之间;且变换后的数据都不再具有量纲,便于不同的变),(~∑μP N X μ∑μ p X X X ,,,21Λ),(~∑μP N X ) ,('A A d A N s ∑+μ)()1(,, n X X ΛX )',,,(21p X X X Λ)')(()()(1X X X X i i n i --∑=n 1 X μ∑μX )1,(~∑n N X P μ),1(∑-n W p X X

多元统计分析第三章假设检验与方差分析

第3章 多元正态总体的假设检验与方差分析 从本章开始,我们开始转入多元统计方法和统计模型的学习。统计学分析处理的对象是带有随机性的数据。按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。 所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。 统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。 3.1一元正态总体情形的回顾 一、 假设检验 在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。 1、显著性检验 为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2 σμN 的样本,我们要检验假设 100:,:μμμμ≠=H H (3.1) 原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。 当2 σ已知时,用统计量n X z σ μ -=

应用多元统计分析试题及答案

一、填空题: 1、多元统计分析是运用数理统计方法来研究解决多指标问题的理论和方法. 2、回归参数显著性检验是检验解释变量对被解释变量的影响是否著. 3、聚类分析就是分析如何对样品(或变量)进行量化分类的问题。通常聚类分析分为 Q型聚类和 R型聚类。 4、相应分析的主要目的是寻求列联表行因素A 和列因素B 的基本分析特征和它们的最优联立表示。 5、因子分析把每个原始变量分解为两部分因素:一部分为公共因子,另一部分为特殊因子。 6、若 () (,), P x N αμα ∑=1,2,3….n且相互独立,则样本均值向量x服从的分布 为_x~N(μ,Σ/n)_。 二、简答 1、简述典型变量与典型相关系数的概念,并说明典型相关分析的基本思想。 在每组变量中找出变量的线性组合,使得两组的线性组合之间具有最大的相关系数。选取和最初挑选的这对线性组合不相关的线性组合,使其配对,并选取相关系数最大的一对,如此下去直到两组之间的相关性被提取完毕为止。被选出的线性组合配对称为典型变量,它们的相关系数称为典型相关系数。 2、简述相应分析的基本思想。 相应分析,是指对两个定性变量的多种水平进行分析。设有两组因素A和B,其中因素A包含r个水平,因素B包含c个水平。对这两组因素作随机抽样调查,得到一个rc的二维列联表,记为。要寻求列联表列因素A和行因素B的基本分析特征和最优列联表示。相应分析即是通过列联表的转换,使得因素A

和因素B 具有对等性,从而用相同的因子轴同时描述两个因素各个水平的情况。把两个因素的各个水平的状况同时反映到具有相同坐标轴的因子平面上,从而得到因素A 、B 的联系。 3、简述费希尔判别法的基本思想。 从k 个总体中抽取具有p 个指标的样品观测数据,借助方差分析的思想构造一个线性判别函数 系数: 确定的原则是使得总体之间区别最大,而使每个总体内部的离差最小。将新样品的p 个指标值代入线性判别函数式中求出 值,然后根据判别一定的规则,就可以判别新的样品属于哪个总体。 5、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设 和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2 /21exp 2np n e tr n λ???? =-?? ? ???? S S 00p H =≠ΣΣI : /2 /2**1exp 2np n e tr n λ???? =-?? ? ???? S S

(完整word版)实用多元统计分析相关习题

练习题 一、填空题 1.人们通过各种实践,发现变量之间的相互关系可以分成(相关)和(不相关)两种类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相关系数。 2.总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。3.回归方程显著性检验时通常采用的统计量是(S R/p)/[S E/(n-p-1)]。 4.偏相关系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的)的相关系数。 5.Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。 6.主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求(降维)的一种方法。 7.主成分分析的基本思想是(设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来替代原来的指标)。 8.主成分表达式的系数向量是(相关系数矩阵)的特征向量。 9.样本主成分的总方差等于(1)。 10.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相关矩阵特征值)的特征向量。 11.SPSS中主成分分析采用(analyze—data reduction—facyor)命令过程。 12.因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部分为(特殊因子)。 13.变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14.公共因子方差与特殊因子方差之和为(1)。 15.聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏程度)进行科学的分类。 16.Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17.Q型聚类统计量是(距离),而R型聚类统计量通常采用(相关系数)。 18.六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19.快速聚类在SPSS中由(k-均值聚类(analyze—classify—k means cluster))过程实现。 20.判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21.用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22.进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有(Fisher准则)、(贝叶斯准则)。 23.类内样本点接近,类间样本点疏远的性质,可以通过(类与类之间的距离)与(类内样本的距离)的大小差异表现出来,而两者的比值能把不同的类区别开来。这个比值越大,说明类与类间的差异越(类与类之间的距离越大),分类效果越(好)。24.Fisher判别法就是要找一个由p个变量组成的(线性判别函数),使得各自组内点的

多元统计分析模拟考题及答案

一、判断题 ( 对 )112(,,,)p X X X X '=L 的协差阵一定是对称的半正定阵 ( 对 )2标准化随机向量的协差阵与原变量的相关系数阵相同。 ( 对)3典型相关分析是识别并量化两组变量间的关系,将两组变量的相关关系 的研究转化为一组变量的线性组合与另一组变量的线性组合间的相关关系的研究。 ( 对 )4多维标度法是以空间分布的形式在低维空间中再现研究对象间关系的数据分析方法。 ( 错)5),(~),,,(21∑'=μp p N X X X X Λ,,X S 分别是样本均值和样本离差阵,则, S X n 分别是,μ∑的无偏估计。 ( 对)6),(~),,,(21∑'=μp p N X X X X Λ,X 作为样本均值μ的估计,是 无偏的、有效的、一致的。 ( 错)7 因子载荷经正交旋转后,各变量的共性方差和各因子的贡献都发生了变化 ( 对)8因子载荷阵()ij A a =中的ij a 表示第i 个变量在第j 个公因子上的相对重要性。 ( 对 )9 判别分析中,若两个总体的协差阵相等,则Fisher 判别与距离判别等 价。 (对)10距离判别法要求两总体分布的协差阵相等,Fisher 判别法对总体的分布无特定的要求。 二、填空题 1、多元统计中常用的统计量有:样本均值向量、样本协差阵、样本离差阵、样本相关系数矩阵. 2、设∑是总体1(,,)m X X X =L 的协方差阵,∑的特征根(1,,)i i m λ=L 与相应的单 位正交化特征向量 12(,,,)i i i im a a a α=L ,则第一主成分的表达式是 11111221m m y a X a X a X =+++L ,方差为 1λ。 3设∑是总体1234(,,,)X X X X X =的协方差阵,∑的特征根和标准正交特征向量分别 为:' 112.920(0.1485,0.5735,0.5577,0.5814)U λ==--- ' 221.024(0.9544,0.0984,0.2695,0.0824)U λ==- '330.049(0.2516,0.7733,0.5589,0.1624)U λ==--

秋季多元统计分析考试答案

《多元统计分析》课程试卷答案 A 卷 2009年秋季学期 开课学院:理 考试方式:√闭卷、开卷、一纸开卷、其它 考试时间:120 分钟 班级 姓名 学号 散卷作废。 一、(15分)设()∑????? ??=,~3321μN x x x X ,其中????? ??-=132μ,??? ? ? ??=∑221231111, 1.求32123x x x +-的分布; 2. 求二维向量???? ??=21a a a ,使3x 与??? ? ??'-213x x a x 相互独立。 解:1.32123x x x +-()CX x x x ???? ? ? ??-=321123,则()C C C N CX '∑,~μ。(2分) 其中:μC ()13132123=????? ??--=,()9123221231111123=??? ? ? ??-????? ??-='∑C C 。(4分) 所以32123x x x +-()9,13~N (1分) 2. ????? ?????? ??'-213 3x x a x x =AX x x x a a ????? ? ?????? ??--3212 1110 ,则()A A A N AX '∑,~2μ。(1分) 其中: 订 线 装

μA ???? ??++-=???? ? ??-???? ??--=132113********* a a a a ,(1分) ??? ? ??+--+++--+--='???? ??--???? ? ?????? ??--='∑242232222211002212311111100 2121222121212121 a a a a a a a a a a a a a a A A (2分) 要使3x 与???? ??'-213x x a x 相互独立,必须02221=+--a a ,即2221=+a a 。 因为2221=+a a 时24223212122 21 +--++a a a a a a 0>。所以使3x 与??? ? ??'-213x x a x 相互独立,只要 ???? ??=21a a a 中的21,a a 满足2221=+a a 。 (4分) 二、(14分)设一个容量为n=3的随机样本取自二维正态总体,其数据矩阵为 ??? ? ? ??=3861096X ,给定显著性水平05.0=α, 1. 求均值向量μ和协方差矩阵∑的无偏估计 2. 试检验,38:H 0???? ??=μ .38:H 1??? ? ??≠μ (已知F 分布的上α分位数为19)2,2(F ,5.199)1,2(F ,51.18)2,1(F 0.050.050.05===) 解:1、??? ? ??==∑=68X n 1X n 1i i (3分) ???? ??--='--=∑=9334)X X ()X X (1-n 1S i n 1i i (3分) 2、,38:H 0???? ??=μ .38:H 1??? ? ??≠μ…(1分)

实用多元统计分析相关习题学习资料

实用多元统计分析相 尖习题 练习题 一、填空题 1?人们通过各种实践,发现变量之间的相互矢系可以分成(相尖)和(不相尖)两种 类型。多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相尖系数。 2?总离差平方和可以分解为(回归离差平方和)和(剩余离差平方和)两个部分,其中(回归离差平方和)在总离差平方和中所占比重越大,则线性回归效果越显著。 3 ?回归方程显著性检验时通常采用的统计量是(S R/P)/[S E/ (n-p-1) ]O 4?偏相尖系数是指多元回归分析中,(当其他变量固定时,给定的两个变量之间的) 的相尖系数。 5. Spss中回归方程的建模方法有(一元线性回归、多元线性回归、岭回归、多对多线性回归)等。

6 ?主成分分析是通过适当的变量替换,使新变量成为原变量的(线性组合),并寻求 (降维)的一种方法。 7 ?主成分分析的基本思想是(设法将原来众多具有一定相尖性(比如P个指标),重 新组合成一组新的互相无矢的综合指标来替代原来的指标)。 8 ?主成分表达式的系数向量是(相尖系数矩阵)的特征向量。 9 ?样本主成分的总方差等于(1)。 10 ?在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为(方差贡献度)。主成分的协方差矩阵为(对称)矩阵。主成分表达式的系数向量是(相尖矩阵特征值)的特征向量。 11. SPSS 中主成分分析采用(analyze—data reduction — facyor)命令过程。 12?因子分析是把每个原始变量分解为两部分因素,一部分是(公共因子),另一部

分为(特殊因子)。 13 ?变量共同度是指因子载荷矩阵中(第i行元素的平方和)。 14 ?公共因子方差与特殊因子方差之和为(1) o 15 ?聚类分析是建立一种分类方法,它将一批样品或变量按照它们在性质上的(亲疏 程度)进行科学的分类。 16. Q型聚类法是按(样品)进行聚类,R型聚类法是按(变量)进行聚类。 17. Q型聚类统计量是(距离),而R型聚类统计量通常采用(相尖系数)。 18. 六种Q型聚类方法分别为(最长距离法)、(最短距离法)、(中间距离法)、(类平均法)、(重心法)、(离差平方和法)。 19?快速聚类在SPSS中由(k■均值聚类(analyze— classify— k means cluste))过程实 现。 20. 判别分析是要解决在研究对象已(已分成若干类)的情况下,确定新的观测数据属于已知类别中哪一类的多元统计方法。 21. 用判别分析方法处理问题时,通常以(判别函数)作为衡量新样本点与各已知组别接近程度的指标。 22. 进行判别分析时,通常指定一种判别规则,用来判定新样本的归属,常见的判别准则有 (Fisher准则)、(贝叶斯准则)。 23. 类内样本点接近,类间样本点疏

多元统计分析课后习题解答_第四章

第四章判别分析 简述欧几里得距离与马氏距离的区别和联系。 答:设p维欧几里得空间中的两点X= 和Y=。则欧几里得距离为 。欧几里得距离的局限有①在多元数据分析中,其度量不合理。②会受到实际问题中量纲的影响。 设X,Y是来自均值向量为,协方差为 的总体G中的p维样本。则马氏距离为D(X,Y)= 。当 即单位阵时,

D(X,Y)==即欧几里得距离。 因此,在一定程度上,欧几里得距离是马氏距离的特殊情况,马氏距离是欧几里得距离的推广。 试述判别分析的实质。 答:判别分析就是希望利用已经测得的变量数据,找出一种判别函数,使得这一函数具有某种最优性质,能把属于不同类别的样本点尽可能地区别开来。设R1,R2,…,Rk是p维空间R p的k个子集,如果 它们互不相交,且它们的和集为,则称为的一个划分。判别分析问题实质上就是在某种意义上,以最优的性质对p维空间 构造一个“划分”,这个“划分”就构成了一个判别规则。 简述距离判别法的基本思想和方法。 答:距离判别问题分为①两个总体的距离判别问题和②多个总体的判别问题。其基本思想都是分别计算样本与各个总体的距离(马氏距离),将距离近的判别为一类。

①两个总体的距离判别问题 设有协方差矩阵∑相等的两个总体G 1和G 2,其均值分别是 1 和 2, 对于一个新的样品X ,要判断它来自哪个总体。计算新样品X 到两个总体的马氏距离D 2(X ,G 1)和D 2(X ,G 2),则 X ,D 2(X ,G 1)D 2(X ,G 2) X ,D 2(X ,G 1)> D 2(X ,G 2, 具体分析, 2212(,)(,) D G D G -X X 111122111111 111222********* ()()()() 2(2)2()-----------''=-----''''''=-+--+'''=-+-X μΣX μX μΣX μX ΣX X ΣμμΣμX ΣX X ΣμμΣμX ΣμμμΣμμΣμ11211212112122()()()2() 22()2() ---''=-++-' +? ?=--- ??? ''=--=--X ΣμμμμΣμμμμX ΣμμX μααX μ 记()()W '=-X αX μ 则判别规则为 X ,W(X)

多元统计分析题

多元统计分析模拟试题(两套:每套含填空、判断各二十道) A卷 1)判别分析常用的判别方法有距离判别法、贝叶斯判别法、费歇判别法、逐步 判别法。 2)Q型聚类分析是对样品的分类,R型聚类分析是对变量_的分类。 3)主成分分析中可以利用协方差矩阵和相关矩阵求解主成分。 4)因子分析中对于因子载荷的求解最常用的方法是主成分法、主轴因子法、极 大似然法 5)聚类分析包括系统聚类法、模糊聚类分析、K-均值聚类分析 6)分组数据的Logistic回归存在异方差性,需要采用加权最小二乘估计 7)误差项的路径系数可由多元回归的决定系数算出,他们之间的关系为 P e=√1?R2 8)最短距离法适用于条形的类,最长距离法适用于椭圆形的类。 9)主成分分析是利用降维的思想,在损失很少的信息前提下,把多个指标转化 为几个综合指标的多元统计方法。 10)在进行主成分分析时,我们认为所取的m(m

多元统计分析期末试题及答案.doc

22121212121 ~(,),(,),(,),, 1X N X x x x x x x ρμμμμσρ ?? ∑==∑= ??? +-1、设其中则Cov(,)=____. 10 31 2~(,),1,,10,()()_________i i i i X N i W X X μμμ=' ∑=--∑L 、设则=服从。 ()1 2 34 433,4 92,32 16___________________ X x x x R -?? ?'==-- ? ?-? ? =∑、设随机向量且协方差矩阵则它的相关矩阵 4、 __________, __________, ________________。 215,1,,16(,),(,)15[4()][4()]~___________i p p X i N X A N T X A X μμμμ-=∑∑'=--L 、设是来自多元正态总体和分别为正态总体的样本均值和样本离差矩阵,则。 12332313116421(,,)~(,),(1,0,2),441, 2142X x x x N x x x x x μμ-?? ?'=∑=-∑=-- ? ?-?? -?? + ??? 、设其中试判断与是否独立? (), 1 2 3设X=x x x 的相关系数矩阵通过因子分析分解为 211X h = 的共性方差111X σ= 的方差21X g = 1公因子f 对的贡献1213 30.93400.1280.9340.4170.8351100.4170.8940.02700.8940.44730.8350.4470.10320 13 R ? ? - ????? ? -?? ? ? ?=-=-+ ? ? ? ??? ? ? ????? ? ???

高惠璇多元统计分析习题答案

第四章 4-1 设 ?????++=+-=+=,2,2,332211εεεb a y b a y a y ).,0(~32 3321I N σεεεε?? ?? ??????= (1)试求参数b a ,的最小二乘估计; (2)试导出检验b a H =:0的似然比统计量,并指出当假设成立时,这个统计量是分布是什么? 解:(1)由题意可知 .,,,211201321 321??? ? ??????=??????=??????????=??????????-=εεεεβ b a y y y Y C 则 ??????????????????? ?-?????? ????????????-??????????-==--321' 1 ''1'211201************)(?y y y Y C C C β .??)2(51)2(6132321??????=???? ? ?????+-++b a y y y y y (2)由题意知,检验b a H =:0的似然比统计量为 2 3 2 2 ? ??? ? ??=σσλ 其中,])?2?()??2()?[(3 1?23 22212 b a y b a y a y --++-+-= σ 。 当0H 成立时,设0a b a ==,则 ?????+=+=+=,3,,303202101εεεa y a y a y ,311???? ? ?????=C 可得

,?)3y (111311311311)(?0321321' 1 ''1'a y y y y y Y C C C =++=??? ? ? ????????? ? ?????????? ? ??????????????????????==--β ],)?3()?()?[(3 1?20320220120a y a y a y -+-+-=σ 因此,当假设0H 成立时,与似然比统计量λ等价的F 统计量及其分布为 ).1,1(~???2202 F F σσ σ -= 4-3 设Y 与321,,x x x 有相关关系,其8组观测数据见表4.5. 表 4.5 观测数据 序号 1x 2x 3x Y 1 38 47.5 23 66.0 2 41 21. 3 17 43.0 3 3 4 36. 5 21 36.0 4 35 18.0 14 23.0 5 31 29.5 11 27.0 6 34 14.2 9 14.0 7 29 21.0 4 12.0 8 32 10.0 8 7.6 (1)设εββββ++++=3 322110x x x Y ,试求回归方程及决定系数2 R 和均方误差2 s 。 解:用sas 软件的编写程序如下: title ' "应用多元统计分析" p171 习题4-3'; data xt43;

多元统计分析-第三章 多元正态分布

第三章 多元正态分布 多元正态分布是一元正态分布在多元情形下的直接推广,一元正态分布在统计学理论和应用方面有着十分重要的地位,同样,多元正态分布在多元统计学中也占有相当重要的地位。多元分析中的许多理论都是建立在多元正态分布基础上的,要学好多元统计分析,首先要熟悉多元正态分布及其性质。 第一节 一元统计分析中的有关概念 多元统计分析涉及到的都是随机向量或多个随机向量放在一起组成的随机矩阵,学习多元统计分析,首先要对随机向量和随机矩阵有所把握,为了学习的方便,先对一元统计分析中的有关概念和性质加以复习,并在此基础上推广给出多元统计分析中相应的概念和性质。 一、随机变量及概率分布函数 (一)随机变量 随机变量是随机事件的数量表现,可用X 、Y 等表示。随机变量X 有两个特点:一是取值的随机性,即事先不能够确定X 取哪个数值;二是取值的统计规律性,即完全可以确定X 取某个值或X 在某个区间取值的概率。 (二)随机变量的概率分布函数 随机变量X 的概率分布函数,简称为分布函数,其定义为: )()(x X P x F ≤= 随机变量有离散型随机变量和连续型随机变量,相对应的概率分布就有离散型概率分布和连续型概率分布。 1、离散型随机变量的概率分布 若随机变量X 在有限个或可列个值上取值,则称X 为离散型随机变量。 设X 为离散型随机变量,可能取值为1x ,2x ,…,取这些值的概率分别为1p ,2p ,…, 记为 k k p x X P ==)((Λ,2,1=k ) 称k k p x X P ==)((Λ,2,1=k )为离散型随机变量X 的概率分布。 离散型随机变量的概率分布具有两个性质: (1) 0≥k p ,Λ,2,1=k (2)11 =∑ ∞ =k k p 2、连续型随机变量的概率分布 若随机变量X 的分布函数可以表示为 dt t f x F x ?∞-=)()( 对一切R x ∈都成立,则称X 为连续型随机变量,称 )(x f 为X 的概率分布密度函数,简

多元统计分析期末考试考点整理

二名词解释 1、多元统计分析:多元统计分析是运用数理统计的方法来研究多变量(多指标)问题的理论和方法,是一元统计学的推广 2、聚类分析:是根据“物以类聚”的道理,对样品或指标进行分类的一种多元统计分析方法。将个体或对象分类,使得同一类中的对象之间的相似性比与其他类的对象的相似性更强。使类内对象的同质性最大化和类间对象的异质性最大化 3、随机变量:是指变量的值无法预先确定仅以一定的可能性(概率)取值的量。它是由于随机而获得的非确定值,是概率中的一个基本概念。即每个分量都是随机变量的向量为随机向量。类似地,所有元素都是随机变量的矩阵称为随机矩阵。 4、统计量:多元统计研究的是多指标问题,为了了解总体的特征,通过对总体抽样得到代表总体的样本,但因为信息是分散在每个样本上的,就需要对样本进行加工,把样本的信息浓缩到不包含未知量的样本函数中,这个函数称为统计量 三、计算题 解:

答: 答:

题型三解答题 1、简述多元统计分析中协差阵检验的步骤 答: 第一,提出待检验的假设和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 2、简述一下聚类分析的思想 答:聚类分析的基本思想,是根据一批样品的多个观测指标,具体地找出一些能够度量样品或指标之间相似程度的统计量,然后利用统计量将样品或指标进行归类。把相似的样品或指标归为一类,把不相似的归为其他类。直到把所有的样品(或指标)聚合完毕. 3、多元统计分析的内容和方法 答:1、简化数据结构,将具有错综复杂关系的多个变量综合成数量较少且互不相关的变量,使研究问题得到简化但损失的信息又不太多。(1)主成分分析(2)因子分析(3)对应分析等

多元统计分析简答题..

1、简述多元统计分析中协差阵检验的步骤 第一,提出待检验的假设H0和H1; 第二,给出检验的统计量及其服从的分布; 第三,给定检验水平,查统计量的分布表,确定相应的临界值,从而得到否定域; 第四,根据样本观测值计算出统计量的值,看是否落入否定域中,以便对待判假设做出决策(拒绝或接受)。 协差阵的检验 检验0=ΣΣ 0p H =ΣI : /2/21exp 2np n e tr n λ????=-?? ?????S S 00p H =≠ΣΣI : /2/2**1exp 2np n e tr n λ????=-?? ????? S S 检验12k ===ΣΣΣ012k H ===ΣΣΣ: 统计量/2/2/2/211i i k k n n pn np k i i i i n n λ===∏∏S S 2. 针对一个总体均值向量的检验而言,在协差阵已知和未知的两种情形下,如何分别构造的统计量? 3. 作多元线性回归分析时,自变量与因变量之间的影响关系一定是线性形式的吗?多元线性回归分析中的线性关系是指什么变量之间存在线性关系? 答:作多元线性回归分析时,自变量与因变量之间的影响关系不一定是线性形式。当自变量与因变量是非线性关系时可以通过某种变量代换,将其变为线性关系,然后再做回归分析。 多元线性回归分析的线性关系指的是随机变量间的关系,因变量y 与回归系数βi 间存在线性关系。 多元线性回归的条件是: (1)各自变量间不存在多重共线性; (2)各自变量与残差独立; (3)各残差间相互独立并服从正态分布; (4)Y 与每一自变量X 有线性关系。 4.回归分析的基本思想与步骤 基本思想:

相关主题
文本预览
相关文档 最新文档