多个总体距离判别法(DOC)
- 格式:doc
- 大小:743.50 KB
- 文档页数:19
1.多元分析研究的是多个随机变量及其相互关系的统计总体。
2.多元统计中常用的统计量有:样本均值、样本方差、样本协方差和样本相关系数。
3.协方差和相关系数仅仅是变量间离散程度的一种度量,并不能刻画变量间可能存在的关联程度。
4.人们通过各种实践,发现变量之间的相互关系可以分成相关和不相关两种类型。
5.总离差平方和可以分解为回归离差平方和和剩余离差平方和两个部分,各自的自由度为p 和n-p-1,其中回归离差平方和在总离差平方和中所占比重越大,则线性回归效果越显著。
7.偏相关系数是指多元回归分析中,当其他变量固定后,给定的两个变量之间的的相关系数。
8.Spss中回归方程的建模方法有一元线形回归、多元线形回归、岭回归、多对多线形回归等。
9.主成分分析是通过适当的变量替换,使新变量成为原变量的综合变量,并寻求相关性的一种方法。
10.主成分分析的基本思想是:设法将原来众多具有一定相关性(比如P个指标),重新组合成一组新的互相无关的综合指标来代替原来的指标。
11.主成分的协方差矩阵为对角矩阵。
12.主成分表达式的系数向量是相关系数矩阵的特征向量。
13.原始变量协方差矩阵的特征根的统计含义是原始数据的相关系数。
14.原始数据经过标准化处理,转化为均值为0 ,方差为1 的标准值,且其协方差矩阵与相关系数矩阵相等。
15.样本主成分的总方差等于1 。
16.变量按相关程度为,在相关性很强程度下,主成分分析的效果较好。
17.在经济指标综合评价中,应用主成分分析法,则评价函数中的权数为方差贡献度。
19.因子分析是把每个原始变量分解为两部分因素,一部分是公共因子,另一部分为特殊因子。
20.变量共同度是指因子载荷矩阵中第i行元素的平方和。
21.公共因子方差与特殊因子方差之和为 1 。
22.聚类分析是建立一种分类方法,它将一批样哂或变量按照它们在性质上的亲疏程度进行科学的分类。
23.Q型聚类法是按样品进行聚类,R型聚类法是按变量进行聚类。
判别分析距离判别分析距离判别的最直观的想法是计算样品到第i类总体的平均数的距离,哪个跖离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
设X=(s……以n)'和Y = O1,……,%)'是从期望为|1=(血,……川Q '和方差阵Y= (Ou)>0的总体G抽得的两个观测值,则称X与Y之间的马氏距离为:y mxmd2 =(X-Y)样本X与G,之间的马氏距离定义为X与类重心间的距离,即:9护=(乂一地)丫7(乂一&)i = 1,2・・.・・.,k附注:1、马氏距离与欧式距离的关联:为=1,马氏距离转换为欧式距离;2、马氏距离与欧式距离的差异:马氏距离不受计暈单位的影响,马氏距离是标准化的欧式距离两总体距离判别先考虑两个总体的情况,设有两个协差阵E相同的p维正态总体,对给定的样本Y,判别一个样本Y到底是来自哪一个总体,一个最直观的想法是计算Y到两个总体的距离。
故我们用马氏距离来给定判别规则,有:如/(y, J2(y, G2),<yeGp 如〃2(y, G2)<d2(y9 Gj待判,如=〃2(y,G2)沪(y,Gj=(y 2)' "(y 2)(y J' L(y J=y- 2y为一1角 + “;賞“2 -(y^1y-2y^1 + 冲?如) =2y 0一1 (" - 角)-("i + “2)尸(“i - “2)= 2[y —丫》-“2)2令"=1虽« = Z_1(//1-//2) = (a1,a2,-.-,a p yW(y) = (y - p)U = a f(y一p.)= a1(y1-/z1) + --- + a p(y p-/7p)= a'y _a'ji则前面的判别法则表示为y w Gp 如W (y) > 0,y e G2,如FT (y ) < 0o待判,如W(Y) = 0当忙“2和刀已知时, "1 2)是一个已知的P维向量,W (y)是y的线性函数,称为线性判别函数。
距离判别法及实例基本思想:首先根据已知分类的数据,分别计算各类的重心即分组(类)的均值,判别准则是对任给的一次观测,若它与第i 类的重心距离最近,就认为它来自第i 类。
距离判别法,对各类(或总体)的分布,并无特定的要求。
1 两个总体的距离判别法设有两个总体(或称两类)G 1、G 2,从第一个总体中抽取n 1个样品,从第二个总体中抽取n 2个样品,每个样品测量p 个指标如下页表。
今任取一个样品,实测指标值为),,(1'=p x x X Λ,问X 应判归为哪一类?首先计算X 到G 1、G 2总体的距离,分别记为),(1G X D 和),(2G X D ,按距离最近准则判别归类,则可写成:⎪⎩⎪⎨⎧=>∈<∈),(),( ,),(),(,),(),(,21212211G X D G X D G X D G X D G X G X D G X D G X 当待判当当 G 1总体: G 2总体:记2,1,),,()()(1)(='=i x x Xi p i i Λ如果距离定义采用欧氏距离,则可计算出1(,)D X G ==2(,)D X G ==然后比较),(1G X D 和),(2G X D 大小,按距离最近准则判别归类。
由于马氏距离在多元统计分析中经常用到,这里针对马氏距离对上述准则做较详细的讨论。
设)1(μ、)2(μ,)1(∑、)2(∑分别为G 1、G 2的均值向量和协方差矩阵。
如果距离定义采用马氏距离即2,1)()()(),()(1)()(2=-∑'-=-i X X G X D i i i i μμ这时判别准则可分以下两种情况给出: (1)当∑=∑=∑)2()1(时考察),(22G X D 及),(12G X D 的差,就有:)2(1)2()2(1112222),(),(μμμ-'--∑+∑'-∑'=-X X X X G X D G X D]2[)1(1)1()1(11μμμ-'--∑+∑'-∑'-X X X)()()(2)2()1(1)2()1()2()1(1μμμμμμ-∑'+--∑'=--X)()(212)2()1(1)2()1(μμμμ-∑'⎥⎦⎤⎢⎣⎡+-=-X令)(21)2()1(μμμ+=)()()()2()1(1μμμ-∑'-=-X X W则判别准则可写成:⎪⎩⎪⎨⎧==<<∈>>∈),(),(D 0)( ,),(),(D 0)(,),(),(D 0)(,12221222212221G X D G X X W G X D G X X W G X G X D G X X W G X 即当待判即当即当 当)2()1(,,μμ∑已知时,令),,()(1)2()1(1'∆-∑=-p a a a Λμμ则⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡--=-'='-=p p p x x a a X a a X X W μμμμM Λ ),,()()()(111)()(111p p p x a x a μμ-++-=Λ显然,W (X )是p x x ,,1Λ的线性函数,称W (X )为线性判别函数,a 为判别系数。
距离判别法及其应用一、什么是距离判别(一)定义距离判别分析方法是判别样品所属类别的一应用性很强的多因素决策方法,根据已掌握的、历史上每个类别的若干样本数据信息,总结出客观事物分类的规律性,建立判别准则,当遇到新的样本点,只需根据总结得出的判别公式和判别准则,就能判别该样本点所属的类别。
距离判别分析的基本思想是:样本和哪个总体的距离最近,就判它属于哪个总体。
(二)作用判别个体所属类型。
例如在经济学中,可根据各国的人均国人民收入、人均工农业产值和人均消费水平等多种指标来判定一个国家经济发展程度的怕属类型医学上根据口才的体温、白血球数目以及其他病理指标来判断患者所患何病等。
二、距离判别分析原理(一)欧氏距离欧氏距离(Euclidean distance )是一个通常采用的距离定义,最多的应用是对距离的测度。
大多情况下,人们谈到距离的时候,都会很自然的想到欧氏距离。
从数学的角度来讲,它是在m 维空间中两个点之间的真实距离。
在二维空间中其公式为:221221)()(y y x x d -+-=推广到n 维空间其公式为:21)(1i n i i y x d -=∑=(二)马氏距离在判别分析中,考虑到欧氏距离没有考虑总体分布的分散性信息,印度统计学家马哈诺必斯(Mahalanobis )于1936年提出了马氏距离的概念。
设总体T m X X X G },...,,{21=为m 维总体(考察m 个指标),样本T m i x x x X },...,,{21=。
令μ=E(i X )(i=1,2, …,m),则总体均值向量为T m },,{21μμμμ⋅⋅⋅=。
总体G 的协方差矩阵为:]))([()(T G G E G COV μμ--==∑。
设X ,Y 是从总体G 中抽取的两个样本,则X 与Y 之间的平方马氏距离为:)()(),(12Y X Y X Y X d T -∑-=-样本X 与总体G 的马氏距离的平方定义为:)()(),(12μμ-∑-=-X X G X d T1.两总体距离判别。
距离判别法例题距离判别法是一种常用的统计学方法,用于确定两个或多个样本之间的相似性或差异性。
它是通过计算样本之间的距离来进行判别的。
例如,假设我们想要判断一组人的身高和体重是否存在明显的差异。
我们可以通过采集一定数量的男性和女性的身高和体重数据,并应用距离判别法来进行分析。
首先,我们需要选择一种适合的距离度量方法。
常见的距离度量方法包括欧几里德距离、曼哈顿距离和闵可夫斯基距离等。
在本例中,我们可以选择欧几里德距离,因为它能够考虑到身高和体重的绝对差异。
接下来,我们计算每个样本之间的距离。
假设我们有两个样本A和B,其中A是男性的身高和体重数据,B是女性的身高和体重数据。
我们可以计算A中每个男性样本与B中每个女性样本的距离,并将其组织成一个距离矩阵。
然后,我们可以利用距离矩阵来进行判别分析。
一种常见的方法是使用最近邻分类器。
对于每个待分析的样本,我们可以找到距离最近的K个样本,并根据它们的类别来判断待分析样本的类别。
通过应用距离判别法,我们可以得出一些结论。
例如,如果经过分析,我们发现男性和女性样本之间的距离非常大,则说明身高和体重在男女性别间存在着明显的差异。
反之,如果距离较小,则说明两者之间的差异不大。
当然,在实际应用中,我们可能会遇到一些挑战。
例如,样本之间的距离可能受到异常值的影响,这可能导致判别结果出现误差。
因此,在应用距离判别法时,我们需要对数据进行合理的处理和预处理,以确保结果的准确性和可靠性。
总而言之,距离判别法是一种有用的统计学方法,可以帮助我们确定样本之间的相似性或差异性。
它可以应用于各种领域,如生物学、医学、社会科学等,以帮助我们深入理解数据并得出有意义的结论。
判别分析判别分析就是根据所研究的个体的观测指标来推断该个体所属类型的一种统计方法。
它的统计模型的语言描述就是:设有k 个总体k G G G ,,,21 ,希望建立一个准则,对任意给定的一个样本x ,依据这个准则就能判断它是来自哪个总体。
依据研究问题的角度和方法分类,现有的判别分析的方法有距离判别,Fisher 判别和Bayes 判别。
§1 距离判别一、两总体情况设有两个总体 21,G G 和一个p 维样品x .我们以x 距离这两个总体中心的远近来判断其归属。
设21,G G 的协差阵分别为21,∑∑,选用马氏距离,则x 距21,G G 的距离分别为)()(),(111112μμ-∑'-=-x x G x d)()(),(212222μμ-∑'-=-x x G x d . 于是判别准则即可叙述为⎩⎨⎧>∈≤∈),(),(,),(),(,2212222121G x d G x d G x G x d G x d G x 若若当∑=∑=∑21时,)(2)()2/)((2)()()()(),(),(211212121112212x W x x x x x G x d G x d -=-∑'+--=-∑'---∑'-=----μμμμμμμμ判别准则可叙述为⎩⎨⎧<∈≥∈0)(,0)(,21x W G x x W G x 若若易见,)(x W 是x 的线性函数。
这就使得判别过程比较简单。
几点说明:1、 按以上准则(最小距离准则)进行判别分析可能会产生误判。
2、 当两个总体的均值十分接近时,无论用什么办法,误判概率都较大,这时判别是无意义的。
所以在判别之前应对两总体的均值进行显著性检验。
3、 由于落在μ附近的点误判概率比较大,有时可划出一个待判区域,如取)](51),(51[],[2121μμμμμμ-+--=d c作为待判区域。
4、 上述判别准则并未涉及具体的分布类型,只要二阶矩存在就行。
多个总体距离判别法在统计学中,多个总体距离判别法(Multivariate Distance Discriminant Analysis)是一种常用的多元分析方法,用于确定多个总体之间的差异,以及对样本进行分类和预测。
该方法基于样本的距离测度,通过计算不同总体之间的距离来判别和分类样本。
1. 引言多个总体距离判别法属于无监督学习方法,通常用于分类或聚类分析。
该方法通过对样本进行距离计算,将样本点划分到不同的总体或群组中,从而实现对样本的分类或聚类。
多个总体距离判别法常用于识别和预测问题,可以应用于各个领域,如医学、生物学、社会科学等。
距离判别法基于样本之间的距离进行分类,其基本思想是相似的样本之间的距离较小,不相似的样本之间的距离较大。
通过计算样本之间的距离,可以生成一个距离矩阵,用于描述样本之间的差异。
在多个总体距离判别法中,常用的距离测度包括欧式距离、马哈拉诺比斯距离等。
2. 多个总体距离判别法算法步骤步骤1:收集数据首先需要收集观测数据,包括样本的各个变量。
数据可以是数值型、定类型或混合类型。
步骤2:计算距离矩阵根据收集到的数据,计算样本之间的距离矩阵。
距离矩阵描述了样本之间的相似度或差异度,可以使用不同的距离测度计算,如欧式距离、曼哈顿距离等。
步骤3:选择判别变量在进行多个总体距离判别分析之前,需要选择用于判别和分类的变量。
这些变量应具有明显的区分度,可以用于区分不同的总体或群组。
步骤4:判别函数的建立通过应用合适的判别函数,可以建立一个分类模型来判别和分类样本。
常用的判别函数包括最近邻法、线性判别法、贝叶斯判别法等。
步骤5:评估模型性能评估模型的性能是判别分析的重要步骤。
可以使用交叉验证、错误率等指标来评估模型的准确性和稳定性。
步骤6:模型应用与结果解释通过应用建立的判别模型,对新样本进行判别和分类。
同时,解释模型结果,了解不同变量对样本判别的贡献程度。
3. 应用举例多个总体距离判别法在实践中有着广泛的应用。
判别分析距离判别分析距离判别的最直观的想法是计算样品到第i 类总体的平均数的距离,哪个距离最小就将它判归哪个总体,所以,我们首先考虑的是是否能够构造一个恰当的距离函数,通过样本与某类别之间距离的大小,判别其所属类别。
设X =(x 1,……,x n )′和Y =(y 1,……,y m )′是从期望为μ=(μ1,……,μm )′和方差阵∑=(σij )m×m >0的总体G 抽得的两个观测值,则称X 与Y 之间的马氏距离为:d 2=(X −Y )′∑−1(X −Y)样本X 与G i 之间的马氏距离定义为X 与G i 类重心间的距离,即: d 2=(X −μi )′∑−1(X −μi ) i =1,2……,k附注:1、 马氏距离与欧式距离的关联:∑=I ,马氏距离转换为欧式距离;2、 马氏距离与欧式距离的差异:马氏距离不受计量单位的影响,马氏距离是标准化的欧式距离两总体距离判别先考虑两个总体的情况,设有两个协差阵∑相同的p 维正态总体,对给定的样本Y ,判别一个样本Y 到底是来自哪一个总体,一个最直观的想法是计算Y 到两个总体的距离。
故我们用马氏距离来给定判别规则,有:()()()()ïîïíì=<Î<Î),(),(22121222222121G y d G y d G d G d G G d G d G 如待判,,,如,,,,如,y y y y y y )()()()(),(),(1112121222m m m m -¢---¢-=---y y y y y y SSG d G d 22211y y y μμμ12---'+'-'=∑∑∑--∑'=-)(221μμ1y )()(212μμμμ-∑'+-11)(])([221121y μμμμ-∑'+-=-)2(1111μμμ---∑'+∑'-∑'-11y y y当 μ1、μ2 和∑已知时,是一个已知的p 维向量,W (y )是y 的线性函数,称为线性判别函数。
多个总体距离判别法及其应用课程名:年级:专业:姓名:学号:目录一、摘要 (1)二、引言 (1)三、原理 (1)3.1定义 (1)3.2思想 (1)3.3判别分析过程 (1)四、具体应用 (3)4.1判别分析在医学上的应用 (3)4.2距离判别法在居民生活水平方面的应用 (9)4.3判别分析软件的使用 (12)五、参考文献 (14)六、附录 (15)一、 摘要近年来随着信息化社会的进行,数据分析对我们来说日趋重要,为了对数据的分类进行判别,本文介绍了数据分类判别的一种方法:距离判别法。
本文从多个总体距离判别法理论出发并结合例题详细介绍了多个总体距离判别法的在医学领域以及居民生活水平方面的应用,同时也简单介绍了spss 软件一般判别法的具体操作。
关键词: 距离判别法 判别分析 一般判别分析二、 引言随着科技的发展,判别分析在经济,医学等很多领域以及气候分类,农业区划,土地类型划分等有着重要的应用, 本文从多个总体距离判别分析理论出发,介绍了多个总体距离判别法在医学以及人民生活方面的应用,并介绍了spss 一般判别分析的应用。
三、 原理3.1 定义距离判别法:距离判别分析方法是判别样品所属类别的一应用性很强的多因素决方法,其中包括两个样本总体距离判别法,多个样本距离判别法。
多个总体距离判别法:多个总体距离判别法是距离判别法的一种,是两个总体距离判别法的推广,具有多个总体,将待测样本归为多个样本中的一类。
3.2 思想计算待测样本与各总体之间的距离,将待测样本归为与其距离最进的一类。
3.3 判别分析过程对于k 个总体k 21G G G ⋯,,,假设其均值分别为:k 21u u u ,,,⋯,协方差阵分别为:∑)(i ,(其中i=1,2,…k ),待测样本为),,,(p 21x x x X ⋯= ,其中p 21x x x ,,,⋯为样本X 的p 个检测指标,假设X 的均值为)x ,x ,x (X p 21,⋯=,协方差为∑,判断X属于哪个总体。
3.3.1 步骤:从k 21G G G ⋯,,,k 个总体中,取n 个样本,分别记为k 21G G G ⋯,,总体样本,再结合上面p 个指标,这k 个样本可以表述如下:第j 个总体样本(j=1,2…k)(1)当待测样本与各总体样本的均值相等时,即∑)(1 = ∑)(2……=∑)(k =∑;则相应的判别函数为:)()](21[]G X D -)G ([21X W )()(1')()(j2j 2ij 'j i j i u u u u X X D -+-==∑-),(,)( (其中i,j=1,2…k,)G (X,D j 2表示X 与j G 的马氏距离);判断准则:如果对所有i ≠j 有0W ij >成立,则i G X ∈,若存在i 和j 使得0W ij =成立,则待判。
当各样本总体的均值i u 和协方差阵∑未知时,可以从i G 中抽取)(n)(2)(1X ,X i i i X ⋯,i=1,2…k;则i u 和∑)(i 的无偏估计∑^i ^u ,可以表示为:∑===n j i j i i X n X1)()(^1u (i=1,2…,k ) ∑∑=-=^1n 1k i i S k (其中n=1+2+……+n ,)')((S )()(1j )()(i i i n ni i n X X X X --=∑=) (2)当各样本总体样本的均值不相等时,相应的判别函数为:)u -(X ][V )'u -(X -)u -(X ][V 'u -X X W (i)-1(i)(j)(j)-1(j)(j)ji )()(= 判别准则:若对所有i ≠j 有0W ij >则i G X ∈,若存在i 和j 使得0W ij =成立,则待判。
四、 具体应用4.1 判别分析在医学上的应用为了研究某地区人口死亡状况,已按某种方法将15个已知样品分为三类(如下表所示),指标及原始数据见下表,试建立判别函数并判定另外4个待判样品分别属于哪类。
我们假设两样本的协方差相等;本题中变两个数p=6,三类总体各有5个样本,故n1=n2=n3=5; 利用Matlab 软件并结合Excel 表格进行下列计算(具体计算见附录) 4.1.1 计算各组的样本的均值为:1X =(37.94 11.90 1.50 12.25 100.06 67.46)'2X =(39.54 11.50 2.94 27.83 151.02 66.05 )' 3X =(38.50 10.12 0.68 10.33 93.95 67.42)' 4.1.2 计算样本协方差:∑=--=n1k )1(1)1()1(1)1(k1)'(*S X X X X )(='*)(S 1k )2(2)2()2(2)2(2∑=--=nkkX X X X )(=')(*)(Sk )3(2)3()3(2)3(3∑=--=nk kX X X X= 从而222.23 197.4522.06 204.82 216.83 -78.73 197.45 184.16 19.95 189.14 202.76 -72.48 22.06 19.95 2.31 20.64 22.12 -7.70 204.82 189.14 20.64 194.65 208.18 -74.58 216.83 202.76 22.12 208.18 223.65 -79.32 -78.73 -72.48-7.70-74.58 -79.32 29.09根据公式:∑∑=-=^11ki i S k n 计算得:∑=^从而可求得其逆为:1-^∑=4.1.3 求判别函数)(X W ij,解线性方程组∑-=^)()()(j i X X a,得=1i a1-^∑=从而可以求得)](21[)(X W )2()1(111112X X X a X X a +-=-=)(52.23983.328.069.369.042.1x 62.3654321+---+-=x x x x x)](21[)()(W )3()1(121213X X X a X X a X +-=-=56.9297.115.084.050.012.2x 28.2-654321-+++-+=x x x x x)](21[)(X W )1()2(212121X X X a X X a +-=-=)(52.392-83.328.0x 69.3x 69.0-x 42.1x 62.3-654321x x ++++=)](21[)(X W )3()2(222223X X X a X X a +-=-=)(=332.08-79.543.053.419.153.3x 90.5-654321x x x x x +++-+)](21[)()(W )1()3(313131X X X a X X a X +-=-=56.9297.1-15.0-84.0-50.012.2-x 28.2654321++=x x x x x)](21[)()(W )2()3(323232X X X a X X a X +-=-==332.0879.5-43.0-53.4-19.153.3-x 90.5654321++x x x x x 从而:)(X W ij ==+ 4.1.4 对已知样本的回判:将题目中表格中个数据代入上述方程组中可得:从上表中可知判对率为100%。
4.1.5 对待测样本进行判断,通过EXcel 表格计算的下表从表格中可以看出待判样本1属于第3组,待判样本2属于第1组,带判样本3属于第3.62 -1.42 0.69 -3.69 -0.28 -3.83-2.28 2.12-0.50 0.84 0.15 1.97 -3.62 1.42 -0.69 3.69 0.28 3.83 -5.90 3.53 -1.19 4.53 0.43 5.79 2.28 -2.12 0.50 -0.84 -0.15 -1.97 5.90 -3.53 1.19 -4.53 -0.43 -5.79 654321X X X X X X239.52-92.56 -239.52 -332.08 92.56 332.082组,带判样本4属于第3组。
4.2距离判别法在居民生活水平方面的应用数据来源及说明:本例的数据来源于国家统计局网站,选择了全国20省市进行分析,数据为我国2010年城镇生活的6项重要指标,包括食品,衣着,燃料,住房及生活用品和文化生活。
由于数据未进行分类,故先对其进行聚类分析,我们选择前21个省市利用spss 进行K-均值聚类分析,为后面计算方便,将其分成3类,结果如下:建立表格如下:本例中变两个数为p=6;第一类有9个样本,第二类有8个样本,第三类有4个样本,即n1=9,n2=8,n3=4;4.2.1 三类地区个变量的均值:1X =(107.75 21.16 8.64 12.49 16.82 3.80)'; 2X =(142.98 24.30 14.45 17.04 20.41 5.13)'; 3X =(141.66 33.19 13.30 38.12 35.90 4.07)'; 4.2.2 计算样本协差阵:=∑^=∑-^14.2.3 求判别函数:=ij W4.2.4对已知样本进行回判:根据判别准则,并计算可的下表从上表中可知回判率为100%;故可对带判样本进行判别分析。
4.2.5对待判样本进行判别归类,计算结果如下从表中可以看出新疆属于第一组,湖南和黑龙江属于第二组,江苏属于第三组。
4.3判别分析软件的使用从上面的两个例子中可发现,对于3个样本的距离判别分析计算量很大,如果对于更多的样本的情况,计算将非常复杂,下面我们以例二为例简单介绍使用spss 进行一般判别分析4.3.1将数据输入spss数据视图中。
4.3.2一般判别分析spss操作选择菜单分析→分类→判别,出现下图(1),本例中将类别选入分组变量中,并定义其变量范围为1到3(下图(2)),将食品,衣着等其他变量选入自变量中,再按需要选择其他统计量和分类等,本题中这些选项选择默认,在单击保存,并勾选预测组成员(下图(3)).(1)(2)(3)单击确认就可得到本题的结果。
4.3.3结果分析:我们可以从数据视图中看到分类的结果:(即表格中最后一列)Wilks的Lambda检验结果可以用于检验各个判别函数有无统计学上的显著意义,由于本例中两个sig均小于0.05,说明判别函数的作用都是显著的。
从结果中还可以得到标准化函数的系数。
如下表所示其余的结果在这里不再详述,有兴趣的读者可以参阅《spss统计分析与数据挖掘》(谢龙汉尚涛)。
五、参考文献[1] 王静龙,梁小筠定性数据统计分析北京:中国统计出版社,2008.7[2] 任雪松,于秀林多元统计分析北京:中国统计出版社,2010.12[3] 谢龙汉,尚涛spss统计分析与数据挖掘北京:电子工业出版社,2012.1[4] 袁志发多元统计分析北京:科学出版社,2009.7[5] 朱建平应用多元统计分析北京:科学出版社,2012.6六、附录6.1均值计算如下表:S的计算计算:6.2i6.3系数矩阵a以及常数b求解的matlab程序:clear,clcA1=[-3.782 -4.46 -0.38 -4.376 -4.868 1.84;-4.882 -5.56 -0.42 -5.476 -5.978 2.24;-5.682 -2.66 -0.46 -3.276 -2.758 1.34;2.228 1.55 -0.07 1.634 1.142 -1.26;12.118 11.13 1.33 11.494 12.462 -4.16]';S1=A1*A1';A2=[-6.296 -5.256 -1.758 -4.93 8.986 -0.65;-7.316 -7.276 -1.878 -7.13 -26.324 2.65;1.614 -1.416 -0.618 5.01 21.036 -0.2;13.504 14.244 1.122 7.04 1.006 -2.55;-1.506 -0.296 3.132 0.01 -4.704 0.75]';S2=A2*A2';A3=[-4.47 -4.708 -0.614 -5.132 -3.846 2.08;-6.39 -7.098 -0.594 -7.192 -8.796 3.38;5.62 5.002 0.396 4.818 9.174 -2.62;15.67 14.912 1.426 14.818 16.194 -3.72;-10.43 -8.108 -0.614 -7.312 -12.726 0.88]';S3=A3*A3';S=S1+S2+S3;X1=(1/12)*S; %协方差X=inv(X1) ; %协方差的逆X1=[37.942 11.9 1.5 12.246 100.058 67.46]'; %X1的均值; X2=[39.536 11.496 2.938 27.83 151.024 66.05]'; %X2的均值; X3=[38.5 10.118 0.684 10.332 93.946 67.42]'; %X3的均值;a12=X*(X1-X2);b1=a12'*(-0.5*(X1+X2));a13=X*(X1-X3);b2=a13'*(-0.5*(X1+X3));a21=X*(X2-X1);b3=a21'*(-0.5*(X2+X1));a23=X*(X2-X3);b4=a23'*(-0.5*(X2+X3));a31=X*(X3-X1);b5=a31'*(-0.5*(X3+X1));a32=X*(X3-X2);b6=a32'*(-0.5*(X3+X2));A=[a12';a13';a21';a23';a31';a32'] %系数矩阵Ab=[b1;b2;b3;b4;b5;b6] %常数矩阵bF=[50.22 6.66 1.08 22.54 170.6 65.2;34.64 7.33 1.11 7.78 95.16 69.3; 33.42 6.22 1.12 22.95 160.31 68.3; 44.02 15.36 1.07 16.45 105.3 64.2;]'; B=[b b b b];W=A*F+B。