应用多元统计分析-北大版-第三章
- 格式:ppt
- 大小:524.50 KB
- 文档页数:58
第3章 多元正态总体的假设检验与方差分析从本章开始,我们开始转入多元统计方法和统计模型的学习。
统计学分析处理的对象是带有随机性的数据。
按照随机排列、重复、局部控制、正交等原则设计一个试验,通过试验结果形成样本信息(通常以数据的形式),再根据样本进行统计推断,是自然科学和工程技术领域常用的一种研究方法。
由于试验指标常为多个数量指标,故常设试验结果所形成的总体为多元正态总体,这是本章理论方法研究的出发点。
所谓统计推断就是根据从总体中观测到的部分数据对总体中我们感兴趣的未知部分作出推测,这种推测必然伴有某种程度的不确定性,需要用概率来表明其可靠程度。
统计推断的任务是“观察现象,提取信息,建立模型,作出推断”。
统计推断有参数估计和假设检验两大类问题,其统计推断目的不同。
参数估计问题回答诸如“未知参数θ的值有多大?”之类的问题,而假设检验回答诸如“未知参数θ的值是0θ吗?”之类的问题。
本章主要讨论多元正态总体的假设检验方法及其实际应用,我们将对一元正态总体情形作一简单回顾,然后将介绍单个总体均值的推断, 两个总体均值的比较推断,多个总体均值的比较检验和协方差阵的推断等。
3.1一元正态总体情形的回顾一、 假设检验在假设检验问题中通常有两个统计假设(简称假设),一个作为原假设(或称零假设),另一个作为备择假设(或称对立假设),分别记为0H 和1H 。
1、显著性检验为便于表述,假定考虑假设检验问题:设1X ,2X ,…,n X 来自总体),(2σμN 的样本,我们要检验假设0100:,:μμμμ≠=H H (3.1)原假设0H 与备择假设1H 应相互排斥,两者有且只有一个正确。
备择假设的意思是,一旦否定原假设0H ,我们就选择已准备的假设1H 。
当2σ已知时,用统计量nX z σμ-=在原假设0H 成立下,统计量z 服从正态分布z )1,0(~N ,通过查表,查得)1,0(N 的上分位点2αz 。
对于检验问题(3.1.1),我们制定这样一个检验规则(简称检验): 当αz z >时,拒绝0H ;当αz z ≤时,接受0H 。
第一章绪论§1.1 什么是多元统计分析在工业、农业、医学、气象、环境以及经济、管理等诸多领域中,常常需要同时观测多个指标。
例如,要衡量一个地区的经济发展,需要观测的指标有:总产值、利润、效益、劳动生产率、万元生产值能耗、固定资产、流动资金周转率、物价、信贷、税收等等;要了解一种岩石,需观测或化验的指标也很多,如:颜色、硬度、含碳量、含硫量等等;要了解一个国家经济发展的类型也需观测很多指标,如:人均国民收入,人均工农业产值、人均消费水平等等。
在医学诊断中,要判断某人是有病还是无病,也需要做多项指标的体检,如:血压、心脏脉搏跳动的次数、白血球、体温等等。
总之,在科研、生产和日常生活中,受多种指标共同作用和影响的现象是大量存在的,举不胜举。
上述指标,在数学上通常称为变量,由于每次观测的指标值是不能预先确定的,因此每个指标可用随机变量来表示。
如何同时对多个随机变量的观测数据进行有效的统计分析和研究呢?一种做法是把多个随机变量分开分析,一次处理一个去分析研究;另一种做法是同时进行分析研究。
显然前者做法有时是有效的,但一般来说,由于变量多,避免不了变量之间有相关性,如果分开处理不仅会丢失很多信息,往往也不容易取得好的研究结果。
而后一种做法通常可以用多元统计分析方法来解决,通过对多个随机变量观测数据的分析,来研究变量之间的相互关系以及揭示这些变量内在的变化规律,如果说一元统计分析是研究一个随机变量统计规律的学科,那么多元统计分析则是研究多个随机变量之间相互依赖关系以及内在统计规律性的一门统计学科,同时,利用多元分析中不同的方法还可以对研究对象进行分类(如指标分类或样品分类)和简化(如把相互依赖的变量变成独立的或降低复杂集合的维数等等)。
在当前科技和经济迅速发展的今天,在国民经济许多领域中特别对社会经济现象的分析,只停留在定性分析上往往是不够的。
为提高科学性、可靠性,通常需要定性与定量分析相结合。
实践证明,多元分析是实现做定量分析的有效工具。
第二章 多元正态分布及参数的估计2-1 解:利用性质2, 得二维随机向量Y~N 2(μy ,∑y ),其中:3112121312211,().y y A d A I A AA μμ∑⎛⎫⎛⎫⎛⎫=+=+= ⎪ ⎪ ⎪-⎝⎭⎝⎭⎝⎭-⎛⎫''=== ⎪-⎝⎭2-2 (1)证明:记Y 1= X 1 +X 2 =(1,1) X , Y 2= X 1-X 2= (1,﹣1) X ,利用性质2可知Y 1 , Y 2 为正态随机变量. 又()()212111111011Cov(,)Y Y ∑σρρ⎛⎫⎛⎫==++= ⎪ ⎪--⎝⎭⎝⎭故X 1 +X 2和X 1-X 2相互独立.另证:记112121221111Y X X X Y CX Y X X X +⎛⎫⎛⎫⎛⎫⎛⎫==== ⎪ ⎪ ⎪ ⎪--⎝⎭⎝⎭⎝⎭⎝⎭,则2~(,),Y N C C C μ∑'因222111111111111112101111021()()Y ΣC C ρ∑σρρρρσσρρρ⎛⎫⎛⎫⎛⎫'== ⎪ ⎪ ⎪--⎝⎭⎝⎭⎝⎭+++⎛⎫⎛⎫⎛⎫== ⎪ ⎪ ⎪----⎝⎭⎝⎭⎝⎭故由定理2.3.1可得X 1 +X 2和X 1-X 2相互独立.(2)解:因为1212221212210021()~,()X X Y N X X μμρσμμρ⎛⎫+++⎛⎫⎛⎫⎛⎫= ⎪ ⎪ ⎪ ⎪---⎝⎭⎝⎭⎝⎭⎝⎭ 所以22121212122121~(,()),~(,()).X X N X X N μμσρμμσρ+++---2-3 (1)证明:令121122()()()()()()pp pp I I X X X Y CX I I X X X ⎛⎫⎛⎫⎛⎫+=== ⎪ ⎪ ⎪⎪--⎝⎭⎝⎭⎝⎭,则2~(,)p Y N C C C μ∑'. 因为1221121212211212D()22D()()()pp pp p p pp pp pp I I I I Y C X C I I I I I I I I O O ∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑∑⎛⎫⎛⎫⎛⎫'==⎪ ⎪ ⎪ ⎪ ⎪--⎝⎭⎝⎭⎝⎭⎛⎫++⎛⎫= ⎪⎪ ⎪---⎝⎭⎝⎭+⎛⎫= ⎪-⎝⎭由定理2.3.1可知X (1) +X (2)和X (1) -X (2) 相互独立. (2)解:因为121212212121222()()()()()()()()()~,()p O X X Y N O X X ∑∑μμ∑∑μμ⎛⎫+⎛⎫⎛⎫⎛⎫++= ⎪ ⎪ ⎪ ⎪ ⎪---⎝⎭⎝⎭⎝⎭⎝⎭, 所以12121212121222()()()()()()()()~(,()),~(,()).p p X X N X X N μμ∑∑μμ∑∑+++---2-6 解:(1)记B =(3,-1,1), 由性质2得,~(,')Y BX N B B B μ=∑.123121113(3,2,1)313,'(3,2,1)132291122132(13,9).B B B Y X X X N μ⎛⎫⎛⎫⎛⎫⎪ ⎪⎪=--=∑=--= ⎪ ⎪⎪ ⎪ ⎪⎪⎝⎭⎝⎭⎝⎭∴=-+ (2)令1132'X Y X a X ⎡⎤=-⎢⎥⎣⎦, 显然31,X Y 均服从正态分布, 故要使它们相互独立,只需()31,0COV X Y =即可. 又因()313311223313123212,(,)(,)(,)(,)22COV X Y COV X X a X a X COV X X a COV X X a COV X X a a =--=--=-- ∴1222a a +=,故当(1,0.5)a =时满足条件. 2-9 解:(1)1/1/1/1/1/1/1/1/1/21/2001/41/21/61/ '1/61/62/601/402/61/1/1/1/3/1/003/1000010000100001AA⎡⎤⎡⎤⎢⎥⎢⎥--⎢⎥⎢⎥=⎢⎥⎢⎥--⎢⎥⎢⎥⎢⎢--⎣⎣⎡⎤⎢⎥⎢⎥=⎢⎥⎢⎥⎣⎦∴A是正交矩阵.(2)①由Y=AX知,11/1/1/1/2Y X X⎡==⎣,且()442211'()'()'''i ii iY Y Y AX AX X AA X X X X=======∑∑,所以()444222221211444222221114214842()4.i i ii i ii i ii i iiiY X Y X XX X X X X X XX X========-=-=-+=-+=-∑∑∑∑∑∑∑②由2444(,)X N Iμσ1,Y=AX知:2444(,')Y N A AI Aμσ1.而22244''AI A AA Iσσσ==,故由定理2.3.1的推论2知1234,,,Y Y Y Y相互独立.③由②知1234,,,Y Y Y Y均服从正态分布,且方差均为2σ,又41/1/1/1/121/1/0010101/1/2/0101/1/1/3/Aμμμ⎡⎤⎡⎤⎡⎤⎢⎥⎢⎥⎢⎥-⎢⎥⎢⎥⎢⎥==⎢⎥⎢⎥⎢⎥-⎢⎥⎢⎥⎢⎥⎢⎣⎦⎣⎦-⎣1所以221~(2,),~(0,)(2,3,4).iY N Y N iμσσ=2-11解:设221212121211(,)exp(22221465)22f x x x x x x x xπ⎧⎫=-++--+⎨⎬⎩⎭2222211121122122222121[()2()()()]2(1)x x x xσμσσρμμσμσσρ⎧⎫=-----+-⎨⎬-⎩⎭比较上下式相应的系数,可得:1222112212122221121222212211212121122222214265σσσσρσσμσρσσμμσρσσμμσμσρσσμμ⎧=⎪=⎪⎪=⎪-=⎨⎪-+=-⎪⎪-+=-⎪+-=⎩解得:121211/43σσρμμ=⎧⎪=⎪⎪⎨=-⎪=⎪⎪=⎩,所以2111222122411,312μσρσσμμρσσσ-⎛⎫⎛⎫⎛⎫⎛⎫==∑==⎪⎪ ⎪ ⎪-⎝⎭⎝⎭⎝⎭⎝⎭. 2-13解:(1)[]()()'(')'(')'ΣE X EX X EX E XX EXEX E XXμμ=--=-=-(')'.E XXΣμμ∴=+(2)()()()(')tr'tr'tr'E X AX E X AX E AXX E AXX===⎡⎤⎡⎤⎣⎦⎣⎦()()tr'tr'tr()tr(')tr()tr(')tr()'.AE XX AΣAΣAΣA AΣA Aμμμμμμμμ==+=+⎡⎤⎡⎤⎣⎦⎣⎦=+=+(3)∵22'2'1tr()=tr()()=trp p p p p p pΣA I I Ip pσσσ⎛⎫⎡⎤--⎪⎢⎥⎣⎦⎝⎭1111()()()2222'2'22 tr tr tr tr(1) p p p p p pI I p p pp p pσσσσσσσ⎛⎫=-=-=-=-⎪⎝⎭1111,又'2'''11'()'()()()p p p p p p p p p p pA a I a ap pμμ=-=-11111111112''=()=0p p p ppap-1111,∴2(')()'(1)E X AX tr ΣA A p μμσ=+=-.2-18解:(1)()()1111()()().n n n ni i i i i i i i i i E Z E c X c EX c c μμμ=========∑∑∑∑(2)∵Z 为p 维正态随机向量的线性组合,故Z 也为正态随机向量,又 22()()111()()()'nnni i i i i i i i D Z D c X c DX c Σc c Σ=======∑∑∑, 结合(1)知 ~(,')p Z N c c Σμ(3)∵22221212()1n nc c c c c c nn++++++≥=,且Σ为非负定矩阵 ∴对任意p 维向量0x ≠,有2111111''()'()'''''0,n n n i i x c c Σ-Σx x c c Σ-Σx c c -x Σx c -x Σx n n n n n =⎛⎫⎛⎫⎛⎫⎛⎫===≥ ⎪ ⎪ ⎪ ⎪⎝⎭⎝⎭⎝⎭⎝⎭∑11即1n c n=1 时,Z 的协方差阵在非负定意义下达到极小.第三章 多元正态总体参数的假设检验3-1解:因为A 对称幂等阵,而对称幂等阵的特征值非0即1,且只有r 个非0特征值,即存在正交阵Γ(其列向量i r 为相应特征向量),使⎥⎦⎤⎢⎣⎡=ΓΓ'000t I A ,记),,(1n r r =Γ,令X Y Y Y n Γ'=⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡= 1(即Y X Γ=), 则),(),(~22n nn n I N I N Y σμσμΓ'=ΓΓ'Γ', ∑==⎥⎦⎤⎢⎣⎡'=ΓΓ'''ti it YY I Y Y A Y AX X 122222100011~1σσσσ,因为),,2,1)(,(~2r i r N Y i i ='σμ,且相互独立,所以∑=='=ti ir X YAX X 12222),(~11δσσξ,其中非中心参数为121112221111()[)][,,]tt i t t t i t r r rr rr r r r δμμμμμσσσ='⎡⎤⎢⎥''''==++=⎢⎥'⎢⎥⎣⎦∑(μμσμμσA I t '=Γ'⎥⎦⎤⎢⎣⎡Γ'=22100013-2解:记()rank A r =.① 若n r =,由O AB =,知n n O B ⨯=,于是AX X '与BX X '相互独立; ② 若0=r 时,则0=A ,则两个二次型也是独立的. ③以下设0r n <<.因A 为n 阶对称阵,存在正交阵Γ,使得100',000rr r D ΓA Γ=D λλ⎡⎤⎡⎤⎢⎥=⎢⎥⎢⎥⎣⎦⎢⎥⎣⎦其中0λ≠为A 的特征值1(,,)i r =.于是,r r D D A=ΓΓ'AB ΓΓ'B ΓΓ'⎡⎤⎡⎤=⎢⎥⎢⎥⎣⎦⎣⎦000000, 令11122122,nnH H H =Γ'B ΓH H ⨯⎡⎤⎢⎥⎣⎦其中11H 为r 阶方阵, 由于111211122122rr r H H D D H D H AB =ΓΓ'ΓΓ'H H ⎡⎤⎡⎤⎡⎤==⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦000000, 故11120,0r r D H D H ==. 又因r D 为满秩阵,故有1112()0,0r r r n r H H ⨯⨯-==. 由于H 为对称阵,所以21()0n r r H -⨯=.于是 2200,0H =Γ'B ΓH ⎡⎤=⎢⎥⎣⎦ 令H X Γ'=,则2~(,)n n Y N I μσΓ',且21'()rr i i i D X AX Y A Y Y A Y Y Y Y ξλ=⎡⎤'''''==ΓΓ=ΓΓ==⎢⎥⎣⎦∑000, 112222000ηΓΓΓ(,,)r r n n Y X BX Y B Y Y Y Y H H Y ++⎡⎤⎡⎤⎢⎥''''====⎢⎥⎢⎥⎣⎦⎢⎥⎣⎦,由于11,,,,,r r n Y Y Y Y +相互独立,故AX X '与BX X '相互独立..3-11解:这是两总体均值向量的检验问题. 检验统计量取为(p =3,n =6,m =9):021~(,1)(2)H n m p F T F p n m p n m p+--=+--+-下其中2112(2)()()()nmT n m X Y A A X Y n m-'=+--+-+故检验统计量为1121()()()n m p nmF X Y A A X Y p n m-+--'=⨯-+-+用观测数据代入计算可得: 25.3117,1.4982,T F == 显著性概率值 0.26930.05p α=>= 故H 0相容.第五章 判别分析5-1 解:由题意,其错判概率为1111211P μμμμΦΦσσ()*()*(|)[()]()--=-+ 12121121212112111μσμσμσμσμμσσσσΦΦσσ()()[()]()()()()()-+---+=-+(1)(2)(2)(1)2112[1()]()μμμμσσσσ--=-Φ+Φ-+),()(21)1()2(12)1()2(σσμμσσμμ+-Φ+--Φ= )]()(1[1)2|1(1)1(*1)1(*σμμσμμ-Φ+-Φ--=P)()(2)2(2112212)2(121221σμσσσμσμσμσσσμσμ-++Φ----Φ=)()()()( )()(21)2()1(12)2()1(σσμμσσμμ+-Φ---Φ= )](1[)(121)1()2(12)1()2(\σσμμσσμμ+-Φ----Φ-= ).()(12)1()2(21)1()2(σσμμσσμμ--Φ-+-Φ= 5-2 解:由题意(1)样品x 与三个总体21,G G 和3G 的马氏距离分别为 ,15.0)25.2()()(22212121=-=-=σμx x d ,5625.12)05.2()()(22222222=-=-=σμx x d,25.01)35.2()()(22232323=-=-=σμx x d 显然,{})()(),(),(min 23232221x d x d x d x d =,则3G x ∈,即样品5.2=x 应判归总体3G .(2)样品x 与三个总体21,G G 和3G 的贝叶斯距离分别为 ,3863.0)3863.1(1)ln()()(212121-=-+=+=σx d x D ,9488.24ln 5625.1)ln()()(222222=+=+=σx d x D ,25.01ln 25.0)ln()()(232323=+=+=σx d x D显然,{})()(),(),(min 21232221x D x D x D x D =,则1G x ∈,即样品5.2=x 应判归总体1G .5-4解:(1)可取121812207385123275537A -⎛⎫⎛⎫⎛⎫=∑+∑=+= ⎪ ⎪ ⎪-⎝⎭⎝⎭⎝⎭(组内)()(1)(2)(1)(2)1020100100()()10,101525100100B μμμμ-⎛⎫⎛⎫'=--=--= ⎪ ⎪-⎝⎭⎝⎭(组间) 类似于例5.3.1的解法, A -1B 的特征根就等于2(1)(2)1(1)(2)3751016500()()(10,10) 4.70675381013811381d A μμμμ---⎛⎫⎛⎫'=--=--== ⎪⎪--⎝⎭⎝⎭取1(1)(2)321()33a A d μμ-⎛⎫=-= ⎪⎝⎭,则1a Aa '=, 且a 满足:2().Ba Aa d λλ==判别效率:() 4.7067a Baa a Aaλ'∆===', Fisher 线性判别函数为:12()33)u X a X X X '==+ 判别准则为*1*2()()X G u X u X G u X u⎧∈>⎨∈≤⎩判当判当, 阈值为(1)(2)*21124.2964u u u σσσσ+==-+,其中 ()21118123217862432,330.87591232338976589765a a σ⎛⎫⎛⎫'=∑=== ⎪⎪⎝⎭⎝⎭ ()2222073211114132,330.124175338976589765a a σ-⎛⎫⎛⎫'=∑=== ⎪⎪-⎝⎭⎝⎭(1)(1)10 2.720215ua μ⎛⎫'====- ⎪⎝⎭(2)(2)20 4.889725ua μ⎛⎫'====- ⎪⎝⎭故(1)(2)uu >.当(1)2020X ⎛⎫= ⎪⎝⎭时,(1)20() 4.339020u X ⎛⎫==- ⎪⎝⎭ 因*(1)() 4.3390u X u =-<,∴判(1)2X G ∈. 当(1)1520X ⎛⎫= ⎪⎝⎭时,(2)15() 3.805020u X ⎛⎫==- ⎪⎝⎭因*(2)() 3.8050u X u =->,∴判(2)1.X G ∈ (2) )(10)(75)1|2()()2|1()()()()()1(1)1(2)1(11)1(22)1(2)1(1)1(X f X f L X f q L X f q X h X h X W ===(2)'1(2)(1)'1(1)(1)2(1)(1)2(1)1511exp{()()()()}222X X X X μμμμ--=--∑-+-∑- )25202020(32121218)25202020(21exp{5.71'⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡-=- ,19229.75)}15102020(32121218)15102020(211'>=⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡+- )(10)(75)1|2()()2|1()()()()()2(1)2(2)2(11)2(22)2(2)2(1)2(X f X f L X f q L X f q X h X h X W ===(2)'1(2)(1)'1(1)(2)2(2)(2)2(2)1511e x p {()()()()}222X X X X μμμμ--=--∑-+-∑- )25202015(32121218)25202015(21exp{5.71'⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡-=- ,15.7)}15102015(32121218)15102015(211'>=⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡⎥⎦⎤⎢⎣⎡-⎥⎦⎤⎢⎣⎡+- 故,2)1(G X ∈ )2()2(G X ∈.(3)122'1112010181220101812()()ln ||()()ln 2015123220151232D x d x Σ-⎡⎤⎡⎤⎡⎤⎡⎤⎡⎤=+=--+⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦⎣⎦⎣⎦⎣⎦⎣⎦122'22220202072020207()()ln ||()()ln 202575202575D x d x Σ---⎡⎤⎡⎤⎡⎤⎡⎤⎡⎤=+=--+⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥--⎣⎦⎣⎦⎣⎦⎣⎦⎣⎦212212exp(0.5())(1|)0.7306exp(0.5())exp(0.5())D x P x D x D x -==-+-, 222212exp(0.5())(2|)0.2694exp(0.5())exp(0.5())D x P x D x D x -==-+-. 5-5 解:2()()()()a d a d a d a a Sa a Sa ''''∆==''(1)(2)(1)(2)def 1()()a X X X X a a Baa Sa a Saλ'''--==≤''111,S B a λλ-=其中为的最大特征值且仅当对应的特征向量时等号成立. 又1(1)(2)(1)(2)12(1)(2)1(1)(2)()()()()S B X X X X S D X X S X X ---''=--=--,与有相同的特征值. 故21D λ=;以下验证a 就是D 2对应的一个特征向量:11(1)(2)(1)(2)1(1)(2)1(1)(2)22()()()().S Ba S X X X X S X X S X X D D a ----'=---=-∙=1(1)(2)2(),().a S X X a D -=-∆=故当取时比值达最大值5-6 解:记(1)(2)(),()()W X X a μμμ'-=-是X 的线性函数,21111,()~(,),X G W X N νσ∈当时且(1)(1)(2)1(1)(2)122(1)(2)1(1)(2)1(())()()()21[()()]2E W X a d d νμμμμμμμμμμ--''==-=-∑-'==-∑-其中21(1)(2)11(1)(2)2(())[()]()()()D W X D a X a D X a a ad σμμμμμμ--'''==-=-=∑'=-∑∑∑-=11111()0(2|1){()0|}{}W X P P W X X G P ννσσ--∴=≤∈=≤2111{/}()1().222P U d d d d =≤-=Φ-=-Φ其中11()~(0,1).W X U N νσ-=2(2)2222122221,()~(,),(),2X G W X N a d d νσνμμσ'∈=-=-=当时且222222()0(1|2){()0|}{}11{/}1().22W X P P W X X G P P U d d d ννσσ--∴=>∈=>=>=-Φ其中22()~(0,1).W X U N νσ-=第六章 聚类分析6-2证明:设变量X i 和X j 是二值变量,它们的n 次观测值记为x ti , x tj (t =1,…,n ). x ti , x tj 的值为0 or 1.由二值变量的列联表(表6.5)可知:变量X i 取值1的观测次数为a +b,取值0的观测次数为c +d ;变量X i 和X j 取值均为1的观测次数为a,取值均为0的观测次数为d .利用两定量变量相关系数的公式:()()ntii tj j ij xx x x r --=∑又11()()11[()()][()()()]n nti i tj j ti tj i j t t a b a cx x x x x x nx x a n n n an a b a c a a b c d a b a c n nad bc n==++--=-=-=-++=+++-++-=∑∑222211()()1[()]()()n nti i ti i t t a b x x x nx a b n n a b n a b a b c d n n==+⎛⎫-=-=+- ⎪⎝⎭+=-+=++∑∑222211()()1[()]()()nntj j tj j t t a c x x x nx a c n n a c n a c a c b d n n==+⎛⎫-=-=+- ⎪⎝⎭+=-+=++∑∑故二值变量的相关系数为:()()(7)ntii tj j ij xx x x C --==∑利用两定量变量夹角余弦的公式:cos nti tjij x xα=∑其中1,nti tj t x x a ==∑2211,n ntitj t t x a b x a c ===+=+∑∑故有(9)c o s )i j i jc α==. 6-3解:用最长距离法:① 合并{X (1),X (4)}=CL4,并类距离 D 1=1.(2)(3)(2)(5)0903********X XD X CL ⎛⎫ ⎪⎪= ⎪ ⎪⎝⎭② 合并{X (2),X (5)}=CL3,并类距离 D 2=3.③ 合并{CL3,CL4}=CL2,并类距离 D 3=8. ④ 所有样品合并为一类CL1,并类距离 D 4=10. 最长距离法的谱系聚类图如下:用类平均聚类法:① 合并{X (1),X (4)}=CL4,并类距离 D 1=1.② 合并{X (2),X (5)}=CL3,并类距离 D 2=3.③ 合并{CL3,CL4}=CL2,并类距离 D 3=(165/4)1/2. ④ 所有样品合并为一类CL1,并类距离 D 4=(121/2)1/2. 类平均法的谱系聚类图如下:(3)(3)010049803X D CL CL ⎛⎫ ⎪= ⎪⎪⎝⎭(3)(4)01002X DCL ⎛⎫= ⎪⎝⎭(2)2(3)(2)22(5)0903506513610004222X X D X CL ⎛⎫ ⎪ ⎪= ⎪ ⎪ ⎪⎝⎭(3)(3)01362041062165403X D CL CL ⎛⎫ ⎪= ⎪⎪⎝⎭(3)(4)0121202X D CL ⎛⎫= ⎪⎝⎭6-6解:按中间距离法, 取β=-1/4,将B 和C 合并为一类后,并类距离D 1=1,而A 与新类G r ={B,C}的类间平方距离为222211()0.5(1.1 1.1)0.251 1.10.250.8524Ar AB AC BC D D D D =+-=⨯+-⨯=-=当把A 与{B ,C}并为一类时,并类距离210.9221D D ==<= 故中间距离法不具有单调性。