多元统计分析课后练习答案汇编
- 格式:doc
- 大小:296.50 KB
- 文档页数:11
第二章2.1 试述多元联合分布和边缘分布之间的关系。
设X =(X 1,X 2,⋯X p )′是p 维随机向量,称由它的q (<p )个分量组成的子向量X(i)=(X i1,X i2,⋯X iq )′的分布为X 的边缘分布,相对地把X 的分布称为联合分布。
当X 的分布函数为F (x 1,x 2,⋯x p )时,X (1)的分布函数即边缘分布函数为F (x 1,x 2,⋯x p )=P(X 1≤x 1,⋯X q ≤x q ,X q+1≤∞,⋯X p ≤∞) = F (x 1,x 2,⋯x q ,∞,⋯∞)当X 有分布密度f (x 1,x 2,⋯x p )则X (1)也有分布密度,即边缘密度函数为:f (x 1,x 2,⋯x q )=∫⋯+∞−∞∫f (x 1,x 2,⋯x p )dx q+1⋯d +∞−∞x p 2.2 设随机向量X =(X 1,X 2)′服从二元正态分布,写出其联合分布密度函数和X 1,X 2各自的边缘密度函数。
联合分布密度函数12πσ1σ2(1−ρ2)1/2exp{−12(1−ρ2)[(x 1−μ1)2σ12−2ρ(x 1−μ1)(x 2−μ2)σ1σ2+f (x 1,x 2)=(x 2−μ2)2σ22]} , x 1>0,x 2>00 , 其他(x 1−μ1)2σ12−2ρ(x 1−μ1)(x 2−μ2)σ1σ2+(x 2−μ2)2σ22=(x 1−μ1)2σ12−2ρ(x 1−μ1)(x 2−μ2)σ1σ2+(x 2−μ2)2σ22+ρ2(x 1−μ1)2σ12−ρ2(x 1−μ1)2σ12=[ρ(x 1−μ1)σ1−(x 2−μ2)σ2]2+(1−ρ2)(x 1−μ1)2σ12所以指数部分变为−12{[11√1−ρ2σ1−22√1−ρ2σ2]2+(x 1−μ1)2σ12}令t=22√1−ρ2σ2−11√1−ρ2σ1 ∴dt =√1−ρ2σ22∴f (x 1)=∫f (x 1,x 2)+∞−∞dx 2=12πσ1σ2(1−ρ2)1/2exp{−(x 1−μ1)22σ12∫exp(+∞−∞−12t 2√1−ρ22dt =√2πσexp[−(x 1−μ1)22σ12] √2πσexp[−(x 1−μ1)22σ12] , x 1>0f (x 1)=0 ,其他 同理, √2πσ2exp[−(x 2−μ2)22σ22] , x 2>0f (x 2)=0 ,其他2.3 已知随机向量X =(X 1,X 2)′的联合分布密度函数为f (x 1,x 2)=2[(d−c )(x 1−a )+(b−a )(x 2−c )−2(x 1−a)(x 2−c)(b−a)2(d−c)2,其中,a ≤x 1≤b,c ≤x 2≤d 。
第二章 多元正态分布及参数的估计2-1 解:利用性质2, 得二维随机向量Y~N 2(μy ,∑y ),其中:3112121312211,().y y A d A I A AA μμ∑⎛⎫⎛⎫⎛⎫=+=+= ⎪ ⎪ ⎪-⎝⎭⎝⎭⎝⎭-⎛⎫''=== ⎪-⎝⎭2-2 (1)证明:记Y 1= X 1 +X 2 =(1,1) X , Y 2= X 1-X 2= (1,﹣1) X ,利用性质2可知Y 1 , Y 2 为正态随机变量. 又()()212111111011Cov(,)Y Y ∑σρρ⎛⎫⎛⎫==++= ⎪ ⎪--⎝⎭⎝⎭故X 1 +X 2和X 1-X 2相互独立.另证:记112121221111Y X X X Y CX Y X X X +⎛⎫⎛⎫⎛⎫⎛⎫==== ⎪ ⎪ ⎪ ⎪--⎝⎭⎝⎭⎝⎭⎝⎭,则2~(,),Y N C C C μ∑'因222111111111111112101111021()()Y ΣC C ρ∑σρρρρσσρρρ⎛⎫⎛⎫⎛⎫'== ⎪ ⎪ ⎪--⎝⎭⎝⎭⎝⎭+++⎛⎫⎛⎫⎛⎫== ⎪ ⎪ ⎪----⎝⎭⎝⎭⎝⎭故由定理2.3.1可得X 1 +X 2和X 1-X 2相互独立.(2)解:因为1212221212210021()~,()X X Y N X X μμρσμμρ⎛⎫+++⎛⎫⎛⎫⎛⎫= ⎪ ⎪ ⎪ ⎪---⎝⎭⎝⎭⎝⎭⎝⎭ 所以22121212122121~(,()),~(,()).X X N X X N μμσρμμσρ+++---2-3 (1)证明:令121122()()()()()()pp pp I I X X X Y CX I I X X X ⎛⎫⎛⎫⎛⎫+=== ⎪ ⎪ ⎪⎪--⎝⎭⎝⎭⎝⎭,则2~(,)p Y N C C C μ∑'. 因为1221121212211212D()22D()()()pp pp p p pp pp pp I I I I Y C X C I I I I I I I I O O ∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑⎛⎫⎛⎫⎛⎫'==⎪ ⎪ ⎪ ⎪ ⎪--⎝⎭⎝⎭⎝⎭⎛⎫++⎛⎫= ⎪⎪ ⎪---⎝⎭⎝⎭+⎛⎫= ⎪-⎝⎭由定理2.3.1可知X (1) +X (2)和X (1) -X (2) 相互独立. (2)解:因为121212212121222()()()()()()()()()~,()p O X X Y N O X X ∑∑μμ∑∑μμ⎛⎫+⎛⎫⎛⎫⎛⎫++= ⎪ ⎪ ⎪ ⎪ ⎪---⎝⎭⎝⎭⎝⎭⎝⎭, 所以12121212121222()()()()()()()()~(,()),~(,()).p p X X N X X N μμ∑∑μμ∑∑+++---2-6 解:(1)记B =(3,-1,1), 由性质2得,~(,')Y BX N B B B μ=∑.123121113(3,2,1)313,'(3,2,1)132291122132(13,9).B B B Y X X X N μ⎛⎫⎛⎫⎛⎫⎪ ⎪⎪=--=∑=--= ⎪ ⎪⎪ ⎪ ⎪⎪⎝⎭⎝⎭⎝⎭∴=-+ (2)令1132'X Y X a X ⎡⎤=-⎢⎥⎣⎦, 显然31,X Y 均服从正态分布, 故要使它们相互独立,只需()31,0COV X Y =即可. 又因()313311223313123212,(,)(,)(,)(,)22COV X Y COV X X a X a X COV X X a COV X X a COV X X a a =--=--=-- ∴1222a a +=,故当(1,0.5)a =时满足条件. 2-9 解:(1)1/1/1/1/1/1/1/1/1/21/2001/41/21/61/ '1/61/62/601/402/61/1/1/1/3/1/003/1000010000100001AA⎡⎤⎡⎤⎢⎥⎢⎥--⎢⎥⎢⎥=⎢⎥⎢⎥--⎢⎥⎢⎥⎢⎢--⎣⎣⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦∴A是正交矩阵.(2)①由Y=AX知,11/1/1/1/2Y X X⎡==⎣,且()442211'()'()'''i ii iY Y Y AX AX X AA X X X X=======∑∑,所以()444222221211444222221114214842()4.i i ii i ii i ii i iiiY X Y X XX X X X X X XX X========-=-=-+=-+=-∑∑∑∑∑∑∑②由2444(,)X N Iμσ1,Y=AX知:2444(,')Y N A AI Aμσ1.而22244''AI A AA Iσσσ==,故由定理2.3.1的推论2知1234,,,Y Y Y Y相互独立.③由②知1234,,,Y Y Y Y均服从正态分布,且方差均为2σ,又41/1/1/1/121/1/0010101/1/2/0101/1/1/3/Aμμμ⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥-⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥-⎢⎥⎢⎥⎢⎥⎢⎣⎦⎣⎦-⎣1所以221~(2,),~(0,)(2,3,4).iY N Y N iμσσ=2-11解:设221212121211(,)exp(22221465)22f x x x x x x x xπ⎧⎫=-++--+⎨⎬⎩⎭2222211121122122222121[()2()()()]2(1)x x x xσμσσρμμσμσσρ⎧⎫=-----+-⎨⎬-⎩⎭比较上下式相应的系数,可得:1222112212122221121222212211212121122222214265σσσσρσσμσρσσμμσρσσμμσμσρσσμμ⎧=⎪=⎪⎪=⎪-=⎨⎪-+=-⎪⎪-+=-⎪+-=⎩解得:121211/43σσρμμ=⎧⎪=⎪⎪⎨=-⎪=⎪⎪=⎩,所以2111222122411,312μσρσσμμρσσσ-⎛⎫⎛⎫⎛⎫⎛⎫==∑==⎪⎪ ⎪ ⎪-⎝⎭⎝⎭⎝⎭⎝⎭. 2-13解:(1)[]()()'(')'(')'ΣE X EX X EX E XX EXEX E XXμμ=--=-=-(')'.E XXΣμμ∴=+(2)()()()(')tr'tr'tr'E X AX E X AX E AXX E AXX===⎡⎤⎡⎤⎣⎦⎣⎦()()tr'tr'tr()tr(')tr()tr(')tr()'.AE XX AΣAΣAΣA AΣA Aμμμμμμμμ==+=+⎡⎤⎡⎤⎣⎦⎣⎦=+=+(3)∵22'2'1tr()=tr()()=trp p p p p p pΣA I I Ip pσσσ⎛⎫⎡⎤--⎪⎢⎥⎣⎦⎝⎭1111()()()2222'2'22 tr tr tr tr(1) p p p p p pI I p p pp p pσσσσσσσ⎛⎫=-=-=-=-⎪⎝⎭1111,又'2'''11'()'()()()p p p p p p p p p p pA a I a ap pμμ=-=-11111111112''=()=0p p p ppap-1111,∴2(')()'(1)E X AX tr ΣA A p μμσ=+=-.2-18解:(1)()()1111()()().n n n ni i i i i i i i i i E Z E c X c EX c c μμμ=========∑∑∑∑(2)∵Z 为p 维正态随机向量的线性组合,故Z 也为正态随机向量,又 22()()111()()()'nnni i i i i i i i D Z D c X c DX c Σc c Σ=======∑∑∑, 结合(1)知 ~(,')p Z N c c Σμ(3)∵22221212()1n nc c c c c c nn++++++≥=,且Σ为非负定矩阵 ∴对任意p 维向量0x ≠,有2111111''()'()'''''0,n n n i i x c c Σ-Σx x c c Σ-Σx c c -x Σx c -x Σx n n n n n =⎛⎫⎛⎫⎛⎫⎛⎫===≥ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭∑11即1n c n=1 时,Z 的协方差阵在非负定意义下达到极小.第三章 多元正态总体参数的假设检验3-1解:因为A 对称幂等阵,而对称幂等阵的特征值非0即1,且只有r 个非0特征值,即存在正交阵Γ(其列向量i r 为相应特征向量),使⎥⎦⎤⎢⎣⎡=ΓΓ'000t I A ,记),,(1n r r =Γ,令X Y Y Y n Γ'=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡= 1(即Y X Γ=), 则),(),(~22n nn n I N I N Y σμσμΓ'=ΓΓ'Γ', ∑==⎥⎦⎤⎢⎣⎡'=ΓΓ'''ti it YY I Y Y A Y AX X 122222100011~1σσσσ,因为),,2,1)(,(~2r i r N Y i i ='σμ,且相互独立,所以∑=='=ti ir X YAX X 12222),(~11δσσξ,其中非中心参数为121112221111()[)][,,]tt i t t t i t r r rr rr r r r δμμμμμσσσ='⎡⎤⎢⎥''''==++=⎢⎥'⎢⎥⎣⎦∑(μμσμμσA I t '=Γ'⎥⎦⎤⎢⎣⎡Γ'=22100013-2解:记()rank A r =.① 若n r =,由O AB =,知n n O B ⨯=,于是AX X '与BX X '相互独立; ② 若0=r 时,则0=A ,则两个二次型也是独立的. ③以下设0r n <<.因A 为n 阶对称阵,存在正交阵Γ,使得100',000rr r D ΓA Γ=D λλ⎡⎤⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦⎢⎥⎣⎦其中0λ≠为A 的特征值1(,,)i r =.于是,r r D D A=ΓΓ'AB ΓΓ'B ΓΓ'⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦000000, 令11122122,nnH H H =Γ'B ΓH H ⨯⎡⎤⎢⎥⎣⎦其中11H 为r 阶方阵, 由于111211122122rr r H H D D H D H AB =ΓΓ'ΓΓ'H H ⎡⎤⎡⎤⎡⎤==⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦000000, 故11120,0r r D H D H ==. 又因r D 为满秩阵,故有1112()0,0r r r n r H H ⨯⨯-==. 由于H 为对称阵,所以21()0n r r H -⨯=.于是 2200,0H =Γ'B ΓH ⎡⎤=⎢⎥⎣⎦ 令H X Γ'=,则2~(,)n n Y N I μσΓ',且21'()rr i i i D X AX Y A Y Y A Y Y Y Y ξλ=⎡⎤'''''==ΓΓ=ΓΓ==⎢⎥⎣⎦∑000, 112222000ηΓΓΓ(,,)r r n n Y X BX Y B Y Y Y Y H H Y ++⎡⎤⎡⎤⎢⎥''''====⎢⎥⎢⎥⎣⎦⎢⎥⎣⎦,由于11,,,,,r r n Y Y Y Y +相互独立,故AX X '与BX X '相互独立..3-11解:这是两总体均值向量的检验问题. 检验统计量取为(p =3,n =6,m =9):021~(,1)(2)H n m p F T F p n m p n m p+--=+--+-下其中2112(2)()()()nmT n m X Y A A X Y n m-'=+--+-+故检验统计量为1121()()()n m p nmF X Y A A X Y p n m-+--'=⨯-+-+用观测数据代入计算可得: 25.3117,1.4982,T F == 显著性概率值 0.26930.05p α=>= 故H 0相容.第五章 判别分析5-1 解:由题意,其错判概率为1111211P μμμμΦΦσσ()*()*(|)[()]()--=-+ 12121121212112111μσμσμσμσμμσσσσΦΦσσ()()[()]()()()()()-+---+=-+(1)(2)(2)(1)2112[1()]()μμμμσσσσ--=-Φ+Φ-+),()(21)1()2(12)1()2(σσμμσσμμ+-Φ+--Φ= )]()(1[1)2|1(1)1(*1)1(*σμμσμμ-Φ+-Φ--=P)()(2)2(2112212)2(121221σμσσσμσμσμσσσμσμ-++Φ----Φ=)()()()( )()(21)2()1(12)2()1(σσμμσσμμ+-Φ---Φ= )](1[)(121)1()2(12)1()2(\σσμμσσμμ+-Φ----Φ-= ).()(12)1()2(21)1()2(σσμμσσμμ--Φ-+-Φ= 5-2 解:由题意(1)样品x 与三个总体21,G G 和3G 的马氏距离分别为 ,15.0)25.2()()(22212121=-=-=σμx x d ,5625.12)05.2()()(22222222=-=-=σμx x d,25.01)35.2()()(22232323=-=-=σμx x d 显然,{})()(),(),(min 23232221x d x d x d x d =,则3G x ∈,即样品5.2=x 应判归总体3G .(2)样品x 与三个总体21,G G 和3G 的贝叶斯距离分别为 ,3863.0)3863.1(1)ln()()(212121-=-+=+=σx d x D ,9488.24ln 5625.1)ln()()(222222=+=+=σx d x D ,25.01ln 25.0)ln()()(232323=+=+=σx d x D显然,{})()(),(),(min 21232221x D x D x D x D =,则1G x ∈,即样品5.2=x 应判归总体1G .5-4解:(1)可取121812207385123275537A -⎛⎫⎛⎫⎛⎫=∑+∑=+= ⎪ ⎪ ⎪-⎝⎭⎝⎭⎝⎭(组内)()(1)(2)(1)(2)1020100100()()10,101525100100B μμμμ-⎛⎫⎛⎫'=--=--= ⎪ ⎪-⎝⎭⎝⎭(组间) 类似于例5.3.1的解法, A -1B 的特征根就等于2(1)(2)1(1)(2)3751016500()()(10,10) 4.70675381013811381d A μμμμ---⎛⎫⎛⎫'=--=--== ⎪⎪--⎝⎭⎝⎭取1(1)(2)321()33a A d μμ-⎛⎫=-= ⎪⎝⎭,则1a Aa '=, 且a 满足:2().Ba Aa d λλ==判别效率:() 4.7067a Baa a Aaλ'∆===', Fisher 线性判别函数为:12()33)u X a X X X '==+ 判别准则为*1*2()()X G u X u X G u X u⎧∈>⎨∈≤⎩判当判当, 阈值为(1)(2)*21124.2964u u u σσσσ+==-+,其中 ()21118123217862432,330.87591232338976589765a a σ⎛⎫⎛⎫'=∑=== ⎪⎪⎝⎭⎝⎭ ()2222073211114132,330.124175338976589765a a σ-⎛⎫⎛⎫'=∑=== ⎪⎪-⎝⎭⎝⎭(1)(1)10 2.720215ua μ⎛⎫'====- ⎪⎝⎭(2)(2)20 4.889725ua μ⎛⎫'====- ⎪⎝⎭故(1)(2)uu >.当(1)2020X ⎛⎫= ⎪⎝⎭时,(1)20() 4.339020u X ⎛⎫==- ⎪⎝⎭ 因*(1)() 4.3390u X u =-<,∴判(1)2X G ∈. 当(1)1520X ⎛⎫= ⎪⎝⎭时,(2)15() 3.805020u X ⎛⎫==- ⎪⎝⎭因*(2)() 3.8050u X u =->,∴判(2)1.X G ∈ (2) )(10)(75)1|2()()2|1()()()()()1(1)1(2)1(11)1(22)1(2)1(1)1(X f X f L X f q L X f q X h X h X W ===(2)'1(2)(1)'1(1)(1)2(1)(1)2(1)1511exp{()()()()}222X X X X μμμμ--=--∑-+-∑- )25202020(32121218)25202020(21exp{5.71'⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡-=- ,19229.75)}15102020(32121218)15102020(211'>=⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡+- )(10)(75)1|2()()2|1()()()()()2(1)2(2)2(11)2(22)2(2)2(1)2(X f X f L X f q L X f q X h X h X W ===(2)'1(2)(1)'1(1)(2)2(2)(2)2(2)1511e x p {()()()()}222X X X X μμμμ--=--∑-+-∑- )25202015(32121218)25202015(21exp{5.71'⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡-=- ,15.7)}15102015(32121218)15102015(211'>=⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡+- 故,2)1(G X ∈ )2()2(G X ∈.(3)122'1112010181220101812()()ln ||()()ln 2015123220151232D x d x Σ-⎡⎤⎡⎤⎡⎤⎡⎤⎡⎤=+=--+⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎣⎦⎣⎦122'22220202072020207()()ln ||()()ln 202575202575D x d x Σ---⎡⎤⎡⎤⎡⎤⎡⎤⎡⎤=+=--+⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥--⎣⎦⎣⎦⎣⎦⎣⎦⎣⎦212212exp(0.5())(1|)0.7306exp(0.5())exp(0.5())D x P x D x D x -==-+-, 222212exp(0.5())(2|)0.2694exp(0.5())exp(0.5())D x P x D x D x -==-+-. 5-5 解:2()()()()a d a d a d a a Sa a Sa ''''∆==''(1)(2)(1)(2)def 1()()a X X X X a a Baa Sa a Saλ'''--==≤''111,S B a λλ-=其中为的最大特征值且仅当对应的特征向量时等号成立. 又1(1)(2)(1)(2)12(1)(2)1(1)(2)()()()()S B X X X X S D X X S X X ---''=--=--,与有相同的特征值. 故21D λ=;以下验证a 就是D 2对应的一个特征向量:11(1)(2)(1)(2)1(1)(2)1(1)(2)22()()()().S Ba S X X X X S X X S X X D D a ----'=---=-∙=1(1)(2)2(),().a S X X a D -=-∆=故当取时比值达最大值5-6 解:记(1)(2)(),()()W X X a μμμ'-=-是X 的线性函数,21111,()~(,),X G W X N νσ∈当时且(1)(1)(2)1(1)(2)122(1)(2)1(1)(2)1(())()()()21[()()]2E W X a d d νμμμμμμμμμμ--''==-=-∑-'==-∑-其中21(1)(2)11(1)(2)2(())[()]()()()D W X D a X a D X a a ad σμμμμμμ--'''==-=-=∑'=-∑∑∑-=11111()0(2|1){()0|}{}W X P P W X X G P ννσσ--∴=≤∈=≤2111{/}()1().222P U d d d d =≤-=Φ-=-Φ其中11()~(0,1).W X U N νσ-=2(2)2222122221,()~(,),(),2X G W X N a d d νσνμμσ'∈=-=-=当时且222222()0(1|2){()0|}{}11{/}1().22W X P P W X X G P P U d d d ννσσ--∴=>∈=>=>=-Φ其中22()~(0,1).W X U N νσ-=第六章 聚类分析6-2证明:设变量X i 和X j 是二值变量,它们的n 次观测值记为x ti , x tj (t =1,…,n ). x ti , x tj 的值为0 or 1.由二值变量的列联表(表6.5)可知:变量X i 取值1的观测次数为a +b,取值0的观测次数为c +d ;变量X i 和X j 取值均为1的观测次数为a,取值均为0的观测次数为d .利用两定量变量相关系数的公式:()()ntii tj j ij xx x x r --=∑又11()()11[()()][()()()]n nti i tj j ti tj i j t t a b a cx x x x x x nx x a n n n an a b a c a a b c d a b a c n nad bc n==++--=-=-=-++=+++-++-=∑∑222211()()1[()]()()n nti i ti i t t a b x x x nx a b n n a b n a b a b c d n n==+⎛⎫-=-=+- ⎪⎝⎭+=-+=++∑∑222211()()1[()]()()nntj j tj j t t a c x x x nx a c n n a c n a c a c b d n n==+⎛⎫-=-=+- ⎪⎝⎭+=-+=++∑∑故二值变量的相关系数为:()()(7)ntii tj j ij xx x x C --==∑利用两定量变量夹角余弦的公式:cos nti tjij x xα=∑其中1,nti tj t x x a ==∑2211,n ntitj t t x a b x a c ===+=+∑∑故有(9)c o s )i j i jc α==. 6-3解:用最长距离法:① 合并{X (1),X (4)}=CL4,并类距离 D 1=1.(2)(3)(2)(5)0903********X XD X CL ⎛⎫ ⎪⎪= ⎪ ⎪⎝⎭② 合并{X (2),X (5)}=CL3,并类距离 D 2=3.③ 合并{CL3,CL4}=CL2,并类距离 D 3=8. ④ 所有样品合并为一类CL1,并类距离 D 4=10. 最长距离法的谱系聚类图如下:用类平均聚类法:① 合并{X (1),X (4)}=CL4,并类距离 D 1=1.② 合并{X (2),X (5)}=CL3,并类距离 D 2=3.③ 合并{CL3,CL4}=CL2,并类距离 D 3=(165/4)1/2. ④ 所有样品合并为一类CL1,并类距离 D 4=(121/2)1/2. 类平均法的谱系聚类图如下:(3)(3)010049803X D CL CL ⎛⎫ ⎪= ⎪⎪⎝⎭(3)(4)01002X DCL ⎛⎫= ⎪⎝⎭(2)2(3)(2)22(5)0903506513610004222X X D X CL ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭(3)(3)01362041062165403X D CL CL ⎛⎫ ⎪= ⎪⎪⎝⎭(3)(4)0121202X D CL ⎛⎫= ⎪⎝⎭6-6解:按中间距离法, 取β=-1/4,将B 和C 合并为一类后,并类距离D 1=1,而A 与新类G r ={B,C}的类间平方距离为222211()0.5(1.1 1.1)0.251 1.10.250.8524Ar AB AC BC D D D D =+-=⨯+-⨯=-=当把A 与{B ,C}并为一类时,并类距离210.9221D D ==<= 故中间距离法不具有单调性。
第一章测试1【单选题】(1分)研究两组变量间关系的方法是()A.因子分析B.典型相关分析C.主成分分析D.聚类分析2【多选题】(1分)多元统计分析常用的方法有()A.判别分析B.典型相关分析C.主成分分析D.聚类分析E.因子分析3【多选题】(1分)常用的外部数据读取函数有()A.read.table()B.read.spss()C.read.txt()D.read.csv()4【判断题】(1分)多元统计分析是一元统计分析的推广。
A.对B.错5【判断题】(1分)多元统计分析是对多个随机变量同时进行分析研究。
A.错B.对6【判断题】(1分)多元统计分析是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科。
A.错B.对7【判断题】(1分)R程序包需要到相关网站购买。
A.错B.对8【判断题】(1分)向量x<-(10.4,5.6,3.1,6.4,21.7)。
A.错B.对9【判断题】(1分)rep(1:2,5)是把1、2重复5次。
A.错B.对10【判断题】(1分)直接用read.spss()读取SPSS格式的数据。
A.错B.对第二章测试1【单选题】(1分)随机向量X和Y分别服从正态分布,如果X和Y满足(),则它们的联合分布也服从正态分布。
A.有相关关系B.相互独立C.无条件D.互不相关2【单选题】(1分)A.B.C.D.3【单选题】(1分)A.B.C.不确定D.4【多选题】(1分)离散随机向量的概率分布列具有基本性质()。
A.归一性B.非负性C.单调性D.有界性5【多选题】(1分)()。
A.互不相关B.相互独立C.不确定D.有相关关系6【判断题】(1分)样本均值向量是总体均值向量的一致估计。
A.对B.错7【判断题】(1分)A.对B.错8【判断题】(1分)Wishart分布具有可加性。
A.对B.错9【判断题】(1分)样本离差阵S就是类似于一元随机变量的离差平方和。
A.对B.错10【判断题】(1分)样本离差阵是总体协方差阵的极大似然估计。
第二章 多元正态分布及参数的估计2-1 解:利用性质2, 得二维随机向量Y~N 2(μy ,∑y ),其中:2-2 (1)证明:记Y 1= X 1 +X 2 =(1,1) X , Y 2= X 1-X 2= (1,﹣1) X ,利用性质2可知Y 1 , Y 2 为正态随机变量. 又 故X 1 +X 2和X 1-X 2相互独立.另证:记112121221111Y X X X Y CX Y X X X +⎛⎫⎛⎫⎛⎫⎛⎫==== ⎪ ⎪ ⎪ ⎪--⎝⎭⎝⎭⎝⎭⎝⎭,则2~(,),Y N C C C μ∑'因故由定理2.3.1可得X 1 +X 2和X 1-X 2相互独立.(2)解:因为1212221212210021()~,()X X Y N X X μμρσμμρ⎛⎫+++⎛⎫⎛⎫⎛⎫= ⎪ ⎪ ⎪ ⎪---⎝⎭⎝⎭⎝⎭⎝⎭ 所以22121212122121~(,()),~(,()).X X N X X N μμσρμμσρ+++---2-3 (1)证明:令121122()()()()()()pp pp I I X X X Y CX I I X X X ⎛⎫⎛⎫⎛⎫+=== ⎪ ⎪ ⎪⎪--⎝⎭⎝⎭⎝⎭,则2~(,)p Y N C C C μ∑'. 因为由定理2.3.1可知X (1) +X (2)和X (1) -X (2) 相互独立. (2)解:因为 所以2-6 解:(1)记B =(3,-1,1), 由性质2得,~(,')Y BX N B B B μ=∑.(2)令1132'X Y X a X ⎡⎤=-⎢⎥⎣⎦, 显然31,X Y 均服从正态分布, 故要使它们相互独立,只需()31,0COV X Y =即可. 又因∴1222a a +=,故当(1,0.5)a =时满足条件. 2-9 解:(1)∴A 是正交矩阵.(2)①由Y =AX知,11/1/1/1/2Y X X ⎡==⎣ ,且所以②由2444(,)X N I μσ1: ,Y =AX 知:2444(,')Y N A AI A μσ1:.而22244''AI A AA I σσσ==,故由定理2.3.1的推论2知1234,,,Y Y Y Y 相互独立.③由②知1234,,,Y Y Y Y 均服从正态分布,且方差均为2σ ,又41/1/1/1/121/1/0010101/1/2/0101/1/1/3/A μμμ⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥-⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥-⎢⎢⎥⎢⎥⎢⎣⎦⎣⎦-⎣1 所以221~(2,),~(0,)(2,3,4).i Y N Y N i μσσ=2-11解:设221212121211(,)exp (22221465)22f x x x x x x x x π⎧⎫=-++--+⎨⎬⎩⎭2222211121122122222121[()2()()()]2(1)x x x x σμσσρμμσμσσρ⎧⎫=-----+-⎨⎬-⎩⎭比较上下式相应的系数,可得:1222112212122221121222212211212121122222214265σσσσρσσμσρσσμμσρσσμμσμσρσσμμ⎧=⎪=⎪⎪=⎪-=⎨⎪-+=-⎪⎪-+=-⎪+-=⎩ ⎪⎪⎪⎪⎪⎪⎪⎪⎨⎧=-+-=+--=+-=-===-65214222222112112222121212221221212122221μμσρσσμσμμσρσσμμσρσσμσρσσσρσσ比较上下式相应的系数,可得:⎪⎩⎪⎨⎧-===2/11212ρσσ⎩⎨⎧24μμ⎨⎧μμ解得:121211/43σσρμμ=⎧⎪=⎪⎪⎨=-⎪=⎪⎪=⎩,所以2111222122411,312μσρσσμμρσσσ-⎛⎫⎛⎫⎛⎫⎛⎫==∑==⎪ ⎪ ⎪ ⎪-⎝⎭⎝⎭⎝⎭⎝⎭. 2-13解:(1)[]()()'(')'(')'ΣE X EX X EX E XX EXEX E XX μμ=--=-=-Q (2)()()()(')tr 'tr 'tr 'E X AX E X AX E AXX E AXX ===⎡⎤⎡⎤⎣⎦⎣⎦()()tr 'tr 'tr()tr(')tr()tr(')tr()'.AE XX A ΣA ΣA ΣA A ΣA A μμμμμμμμ==+=+⎡⎤⎡⎤⎣⎦⎣⎦=+=+(3)∵22'2'1tr()=tr ()()=tr p p p p p p p ΣA I I I p p σσσ⎛⎫⎡⎤-- ⎪⎢⎥⎣⎦⎝⎭1111 又'2'''11'()'()()()p p p p p p p p p p p A a I a a p pμμ=-=-1111111111 2-18解:(1)()()1111()()().nnnni i i i i i i i i i E Z E c X c EX c c μμμ=========∑∑∑∑(2)∵Z 为p 维正态随机向量的线性组合,故Z 也为正态随机向量,又 22()()111()()()'nnni i i i i i i i D Z D c X c DX c Σc c Σ=======∑∑∑, 结合(1)知 ~(,').p Z N c c Σμ(3)∵22221212()1n nc c c c c c n n++++++≥=L L ,且Σ为非负定矩阵 ∴对任意p 维向量0x ≠,有2111111''()'()'''''0,n n n i i x c c Σ-Σx x c c Σ-Σx c c -x Σx c -x Σx n n n n n =⎛⎫⎛⎫⎛⎫⎛⎫===≥ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭∑11即1n c n=1 时,Z 的协方差阵在非负定意义下达到极小.第三章 多元正态总体参数的假设检验3-1解:因为A 对称幂等阵,而对称幂等阵的特征值非0即1,且只有r 个非0特征值,即存在正交阵Γ(其列向量i r 为相应特征向量),使⎥⎦⎤⎢⎣⎡=ΓΓ'000t I A ,记),,(1n r r Λ=Γ,令X Y Y Y n Γ'=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=M 1(即Y X Γ=), 则),(),(~22n n n n I N I N Y σμσμΓ'=ΓΓ'Γ', 因为),,2,1)(,(~2r i r N Y i i Λ='σμ,且相互独立,所以∑=='=ti i r X Y AX X 12222),(~11δσσξ, 其中非中心参数为 3-2解:记()rank A r =.① 若n r =,由O AB =,知n n O B ⨯=,于是AX X '与BX X '相互独立; ② 若0=r 时,则0=A ,则两个二次型也是独立的. ③以下设0r n <<.因A 为n 阶对称阵,存在正交阵Γ,使得 其中0λ≠为A 的特征值1(,,)i r =L .于是令11122122,n nH H H =Γ'B ΓH H ⨯⎡⎤⎢⎥⎣⎦@其中11H 为r 阶方阵, 由于111211122122r r r H H D D H D H AB =ΓΓ'ΓΓ'H H ⎡⎤⎡⎤⎡⎤==⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦000000, 故11120,0r r D H D H ==. 又因r D 为满秩阵,故有1112()0,0r r r n r H H ⨯⨯-==. 由于H 为对称阵,所以21()0n r r H -⨯=.于是 2200,0H =Γ'B ΓH ⎡⎤=⎢⎥⎣⎦ 令H X Γ'=,则2~(,)n n Y N I μσΓ',且21'()rr i i i D X AX Y A Y Y A Y Y Y Y ξλ=⎡⎤'''''==ΓΓ=ΓΓ==⎢⎥⎣⎦∑000, 由于11,,,,,r r n Y Y Y Y +L L 相互独立,故AX X '与BX X '相互独立..3-11解:这是两总体均值向量的检验问题. 检验统计量取为(p =3,n =6,m =9): 其中故检验统计量为用观测数据代入计算可得: 25.3117, 1.4982,T F ==显著性概率值 0.26930.05p α=>= 故H 0相容.第五章 判别分析5-1 解:由题意,其错判概率为5-2 解:由题意(1)样品x 与三个总体21,G G 和3G 的马氏距离分别为显然,{})()(),(),(min 23232221x d x d x d x d =,则3G x ∈,即样品5.2=x 应判归总体3G .(2)样品x 与三个总体21,G G 和3G 的贝叶斯距离分别为显然,{})()(),(),(min 21232221x D x D x D x D =,则1G x ∈,即样品5.2=x 应判归总体1G .5-4解:(1)可取121812207385123275537A -⎛⎫⎛⎫⎛⎫=∑+∑=+= ⎪ ⎪ ⎪-⎝⎭⎝⎭⎝⎭(组内) ()(1)(2)(1)(2)1020100100()()10,101525100100B μμμμ-⎛⎫⎛⎫'=--=--= ⎪ ⎪-⎝⎭⎝⎭(组间) 类似于例5.3.1的解法, A -1B 的特征根就等于2(1)(2)1(1)(2)3751016500()()(10,10) 4.70675381013811381d A μμμμ---⎛⎫⎛⎫'=--=--== ⎪⎪--⎝⎭⎝⎭取1(1)(2)321()33a A d μμ-⎛⎫=-= ⎪⎝⎭,则1a Aa '=, 且a 满足:2().Ba Aa d λλ==判别效率:() 4.7067a Baa a Aaλ'∆===', Fisher 线性判别函数为:12()33)u X a X X X '==+ 判别准则为*1*2()()X G u X u X G u X u ⎧∈>⎨∈≤⎩判当判当,阈值为(1)(2)*21124.2964u u u σσσσ+==-+,其中 故(1)(2)u u >.当(1)2020X ⎛⎫= ⎪⎝⎭时,(1)20() 4.339020u X ⎛⎫==- ⎪⎝⎭ 因*(1)() 4.3390u X u =-<,∴判(1)2X G ∈. 当(1)1520X ⎛⎫= ⎪⎝⎭时,(2)15() 3.805020u X ⎛⎫==- ⎪⎝⎭因*(2)() 3.8050u X u =->,∴判(2)1.X G ∈ (2) )(10)(75)1|2()()2|1()()()()()1(1)1(2)1(11)1(22)1(2)1(1)1(X f X f L X f q L X f q X h X h X W ===故,2)1(G X ∈ )2()2(G X ∈.(3)122'1112010181220101812()()ln ||()()ln 2015123220151232D x d x Σ-⎡⎤⎡⎤⎡⎤⎡⎤⎡⎤=+=--+⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎣⎦⎣⎦5-5 解:2()()()()a d a d a d a a Sa a Sa ''''∆==''(1)(2)(1)(2)def 1()()a X X X X a a Baa Sa a Saλ'''--==≤''又1(1)(2)(1)(2)12(1)(2)1(1)(2)()()()()S B X X X X S D X X S X X ---''=--=--,与有相同的特征值. 故21D λ=;以下验证a 就是D 2对应的一个特征向量:5-6 解:记(1)(2)(),()()W X X a μμμ'-=-是X 的线性函数, 其中11()~(0,1).W X U N νσ-=其中22()~(0,1).W X U N νσ-=第六章 聚类分析6-2证明:设变量X i 和X j 是二值变量,它们的n 次观测值记为x ti , x tj (t =1,…,n ). x ti , x tj 的值为0 or 1.由二值变量的列联表(表6.5)可知:变量X i 取值1的观测次数为a +b,取值0的观测次数为c +d ;变量X i 和X j 取值均为1的观测次数为a,取值均为0的观测次数为d .利用两定量变量相关系数的公式:()()ntii tj j ij xx x x r --=∑又故二值变量的相关系数为: 利用两定量变量夹角余弦的公式:其中1,nti tj t x x a ==∑2211,n ntitj t t x a b x a c ===+=+∑∑故有(9)cos ijij c α==.6-3解:用最长距离法:① 合并{X (1),X (4)}=CL4,并类距离 D 1=1.(2)0X ⎛⎫ ⎪② 合并{X (2),X (5)}=CL3,并类距离 D 2=3. ③ 合并{CL3,CL4}=CL2,并类距离 D 3=8. ④ 所有样品合并为一类CL1,并类距离 D 4=10.最长距离法的谱系聚类图如下: 用类平均聚类法:① 合并{X (1),X (4)}=CL4,并类距离 D 1=1. ② 合并{X (2),X (5)}=CL3,并类距离 D 2=3. ③ 合并{CL3,CL4}=CL2,并类距离 D 3=(165/4)1/2.④ 所有样品合并为一类CL1,并类距离 D 4=(121/2)1/2. 类平均法的谱系聚类图如下:6-6解:按中间距离法, 取β=-1/4,将B 和C 合并为一类后,并类距离D 1=1,而A 与新类G r ={B,C}的类间平方距离为当把A 与{B ,C}并为一类时,并类距离210.9221D D ==<= 故中间距离法不具有单调性。
多元统计分析习题与答案多元统计分析是一种在社会科学研究中广泛应用的方法,它通过同时考虑多个变量之间的关系,帮助研究者更全面地理解和解释现象。
在本文中,我将分享一些多元统计分析的习题和答案,希望能够帮助读者更好地掌握这一方法。
习题一:相关分析假设你正在研究一个学生的学习成绩和他们每天花在学习上的时间之间的关系。
你收集了100个学生的数据,学习成绩用分数表示,学习时间用小时表示。
以下是你的数据:学习成绩(X):75, 80, 85, 90, 95, 70, 65, 60, 55, 50学习时间(Y):5, 6, 7, 8, 9, 4, 3, 2, 1, 0请计算学习成绩和学习时间之间的相关系数,并解释其含义。
答案一:首先,我们需要计算学习成绩和学习时间之间的协方差和标准差。
根据公式,协方差可以通过以下公式计算:协方差= Σ((X - X平均) * (Y - Y平均)) / (n - 1)其中,X和Y分别表示学习成绩和学习时间,X平均和Y平均表示它们的平均值,n表示样本数量。
标准差可以通过以下公式计算:标准差= √(Σ(X - X平均)² / (n - 1))根据以上公式,我们可以得出学习成绩和学习时间之间的协方差为-22.5,标准差分别为18.03和2.87。
然后,我们可以通过以下公式计算相关系数:相关系数 = 协方差 / (X标准差 * Y标准差)根据以上公式,我们可以得出相关系数为-0.93。
由于相关系数接近于-1,可以得出结论:学习成绩和学习时间之间存在强烈的负相关关系,即学习时间越长,学习成绩越低。
习题二:多元线性回归假设你正在研究一个人的身高(X1)、体重(X2)和年龄(X3)对其收入(Y)的影响。
你收集了50个人的数据,以下是你的数据:身高(X1):160, 165, 170, 175, 180, 185, 190, 195, 200, 205体重(X2):50, 55, 60, 65, 70, 75, 80, 85, 90, 95年龄(X3):20, 25, 30, 35, 40, 45, 50, 55, 60, 65收入(Y):5000, 5500, 6000, 6500, 7000, 7500, 8000, 8500, 9000, 9500请利用多元线性回归分析,建立一个预测人的收入的模型,并解释模型的结果。
第1章 多元正态分布1、在数据处理时,为什么通常要进行标准化处理?数据的标准化是将数据按比例缩放,使之落入一个小的特定区间。
在某些比较和评价的指标处理中经常会用到,去除数据的单位限制,将其转化为无量纲的纯数值,便于不同单位或量级的指标能够进行比较和加权。
其中最典型的就是0-1标准化和Z 标准化。
2、欧氏距离与马氏距离的优缺点是什么?欧氏距离也称欧几里得度量、欧几里得度量,是一个通常采用的距离定义,它是在m 维空间中两个点之间的真实距离。
在二维和三维空间中的欧氏距离的就是两点之间的距离。
缺点:就大部分统计问题而言,欧氏距离是不能令人满意的。
每个坐标对欧氏距离的贡献是同等的。
当坐标表示测量值时,它们往往带有大小不等的随机波动,在这种情况下,合理的方法是对坐标加权,使变化较大的坐标比变化较小的坐标有较小的权系数,这就产生了各种距离。
当各个分量为不同性质的量时,“距离”的大小与指标的单位有关。
它将样品的不同属性之间的差别等同看待,这一点有时不能满足实际要求。
没有考虑到总体变异对距离远近的影响。
马氏距离表示数据的协方差距离。
为两个服从同一分布并且其协方差矩阵为Σ的随机变量与的差异程度:如果协方差矩阵为单位矩阵,那么马氏距离就简化为欧氏距离,如果协方差矩阵为对角阵,则其也可称为正规化的欧氏距离。
优点:它不受量纲的影响,两点之间的马氏距离与原始数据的测量单位无关。
由标准化数据和中心化数据计算出的二点之间的马氏距离相同。
马氏距离还可以排除变量之间的相关性的干扰。
缺点:夸大了变化微小的变量的作用。
受协方差矩阵不稳定的影响,马氏距离并不总是能顺利计算出。
3、当变量X1和X2方向上的变差相等,且与互相独立时,采用欧氏距离与统计距离是否一致?统计距离区别于欧式距离,此距离要依赖样本的方差和协方差,能够体现各变量在变差大小上的不同,以及优势存在的相关性,还要求距离与各变量所用的单位无关。
如果各变量之间相互独立,即观测变量的协方差矩阵是对角矩阵, 则马氏距离就退化为用各个观测指标的标准差的倒数作为权数的加权欧氏距离。
4、如果正态随机向量12(,,)p X X X X '=的协方差阵∑为对角阵,证明X 的分量是相互独立的随机变量。
解: 因为12(,,)p X X X X '=的密度函数为 1/2111(,...,)exp ()()2p p f x x --⎧⎫'=---⎨⎬⎩⎭Σx μΣx μ又由于21222p σσσ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭Σ 22212p σσσ=Σ 212122111p σσσ-⎛⎫ ⎪ ⎪ ⎪ ⎪= ⎪ ⎪ ⎪ ⎪ ⎪⎝⎭Σ 则1(,...,)p f x x211/2222212122111exp ()()21p p p σσσσσσ--⎧⎫⎛⎫⎪⎪ ⎪⎪⎪ ⎪⎪⎪ ⎪⎪⎪ ⎪'==--=-⎨⎬ ⎪⎪⎪ ⎪⎪⎪ ⎪⎪⎪ ⎪⎪⎪ ⎪⎝⎭⎩⎭Σx μΣxμ()222123*********()()()111exp ...222p p p p p x x x μμμσσσσσσ-⎧⎫---⎪⎪=----⎨⎬⎪⎪⎩⎭ 2121()()...()2p i i p i i x f x f x μσ=⎧⎫-=-=⎨⎬⎩⎭则其分量是相互独立。
5.1y 和2y 是相互独立的随机变量,且1y ~)1,0(N ,2y ~)4,3(N 。
(a )求21y 的分布。
(b )如果⎥⎦⎤⎢⎣⎡-=2/)3(21y y y ,写出y y '关于1y 与2y 的表达式,并写出y y '的分布。
(c )如果⎥⎦⎤⎢⎣⎡=21y y y 且y ~∑),(μN ,写出∑-'1y y 关于1y 与2y 的表达式,并写出∑-'1y y 的分布。
解:(a )由于1y ~)1,0(N ,所以1y ~)1(2χ。
(b )由于1y ~)1,0(N ,2y ~)4,3(N ;所以232-y ~)1,0(N ;故2221)23(-+='y y y y ,且y y '~)2(2χ第2章 均值向量和协方差阵的检验1、略2、试谈Wilks 统计量在多元方差分析中的重要意义。
3、题目此略多元均值检验,从题意知道,容量为9的样本 ,总体协方差未知假设H0:0μμ= , H1:0μμ≠ (n=9 p=5) 检验统计量/(n-1))()(0102μμ-'-=-X S X n T 服从P ,n-1的2T 分布 统计量2T 实际上是样本均值与已知总体均值之间的马氏距离再乘以n*(n-1),这个值越大,相等的可能性越小,备择假设成立时,2T 有变大的趋势,所以拒绝域选择2T 值较大的右侧部分,也可以转变为F 统计量零假设的拒绝区域 {(n-p )/[(n-1)*p]}*2T >,()p n p F α-1/10*2T >F5,4(5)μ0=( 6212.01 32.87 2972 9.5 15.78)’样本均值(4208.78 35.12 1965.89 12.2127.79)’ (样本均值-μ0)’=(-2003.23 2.25 -1006.11 2.7112.01) 协方差矩阵(降维——因子分析——抽取)协方差的逆矩阵1.88034E-05 -0.000440368 -6.09781E-05 0.00279921 -0.000625893 -0.00044037 0.207023949 -0.000210374 -0.0237044 -0.06044981 -6.0978E-05 -0.000210374 0.00022733 -0.0105019 0.003047474 0.002799208 -0.023704352 -0.010501881 0.85288927 -0.18139981 -0.00062589 -0.06044981 0.003047474 -0.1813998 0.070148804计算:边远及少数民族聚居区社会经济发展水平的指标数据.xls2T =9* (-2003.23 2.25 -1006.11 2.71 12.01)*s^-1* (-2003.23 2.25 -1006.11 2.71 12.01)’=9*50.11793817=451,06144353F 统计量=45.2>6.2 拒绝零假设,边缘及少数民族聚居区的社会经济发展水平与全国平均水平有显著差异。
4、略第3章 聚类分析1.、聚类分析的基本思想和功能是什么?聚类分析的基本思想是研究的样品或指标之间存着程度不同的相似性,于是根据一批样品的多个观测指标,具体找出一些能够度量样品或指标之间的相似程度的统计量,以这些统计量作为划分类型的依据,把一些相似程度较大的样品聚合为一类,把另外一些彼此之间相似程度较大的样品又聚合为另外一类,直到把所有的样品聚合完毕,形成一个有小到大的分类系统,最后再把整个分类系统画成一张分群图,用它把所有样品间的亲疏关系表示出来。
功能是把相似的研究对象归类。
2、试述系统聚类法的原理和具体步骤。
系统聚类是将每个样品分成若干类的方法,其基本思想是先将各个样品各看成一类,然后规定类与类之间的距离,选择距离最小的一对合并成新的一类,计算新类与其他类之间的距离,再将距离最近的两类合并,这样每次减少一类,直至所有的样品合为一类为止。
具体步骤:1、对数据进行变换处理;(不是必须的,当数量级相差很大或指标变量具有不同单位时是必要的)2、构造n个类,每个类只包含一个样本;3、计算n个样本两两间的距离ijd;4、合并距离最近的两类为一新类;5、计算新类与当前各类的距离,若类的个数等于1,转到6;否则回4;6、画聚类图;7、决定类的个数,从而得出分类结果。
3、试述K-均值聚类的方法原理。
K-均值法是一种非谱系聚类法,把每个样品聚集到其最近形心(均值)类中,它是把样品聚集成K个类的集合,类的个数k可以预先给定或者在聚类过程中确定,该方法应用于比系统聚类法大得多的数据组。
步骤是把样品分为K个初始类,进行修改,逐个分派样品到期最近均值的类中(通常采用标准化数据或非标准化数据计算欧氏距离)重新计算接受新样品的类和失去样品的类的形心。
重复这一步直到各类无元素进出。
4、试述模糊聚类的思想方法。
模糊聚类分析是根据客观事物间的特征、亲疏程度、相似性,通过建立模糊相似关系对客观事物进行聚类的分析方法,实质是根据研究对象本身的属性构造模糊矩阵,在此基础上根据一定的隶属度来确定其分类关系。
基本思想是要把需要识别的事物与模板进行模糊比较,从而得到所属的类别。
简单地说,模糊聚类事先不知道具体的分类类别,而模糊识别是在已知分类的情况下进行的。
模糊聚类分析广泛应用在气象预报、地质、农业、林业等方面。
它有两种基本方法:系统聚类法和逐步聚类法。
该方法多用于定性变量的分类。
5、略第4章判别分析1、应用判别分析应该具备什么样的条件?答:判别分析最基本的要求是,分组类型在两组以上,每组案例的规模必须至少在一个以上,解释变量必须是可测量的,才能够计算其平均值和方差。
对于判别分析有三个假设:(1)每一个判别变量不能是其他判别变量的线性组合。
有时一个判别变量与另外的判别变量高度相关,或与其的线性组合高度相关,也就是多重共线性。
(2)各组变量的协方差矩阵相等。
判别分析最简单和最常用的的形式是采用现行判别函数,他们是判别变量的简单线性组合,在各组协方差矩阵相等的假设条件下,可以使用很简单的公式来计算判别函数和进行显著性检验。
(3)各判别变量之间具有多元正态分布,即每个变量对于所有其他变量的固定值有正态分布,在这种条件下可以精确计算显著性检验值和分组归属的概率。
2、试述贝叶斯判别法的思路。
答:贝叶斯判别法的思路是先假定对研究的对象已有一定的认识,常用先验概率分布来描述这种认识,然后我们取得一个样本,用样本来修正已有的认识(先验概率分布),得到后验概率分布,各种统计推断都通过后验概率分布来进行。
将贝叶斯判别方法用于判别分析,就得到贝叶斯判别。
3、试述费歇判别法的基本思想。
答:费歇判别法的基本思想是将高维数据点投影到低维空间上来,然而利用方差分析的思想选出一个最优的投影方向。
因此,严格的说费歇判别分析本身不是一种判别方法,只是利用费歇统计量进行数据预处理的方法,以使更有利于用判别分析方法解决问题。
为了有利于判别,我们选择投影方向a应使投影后的k个一元总体能尽量分开(同一总体中的样品的投影值尽量靠近)。
k要做到这一点,只要投影后的k个一元总体均值有显著差异,即可利用方差分析的方法使组间平方和尽可能的大。
则选取投影方向a使Δ(a)达极大即可。
4、什么是逐步判别分析?答:具有筛选变量能力的判别方法称为逐步判别分析法。