聚类分析与判别分析

  • 格式:docx
  • 大小:200.00 KB
  • 文档页数:16

下载文档原格式

  / 16
  1. 1、下载文档前请自行甄别文档内容的完整性,平台不提供额外的编辑、内容补充、找答案等附加服务。
  2. 2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
  3. 3、如文档侵犯您的权益,请联系客服反馈,我们会尽快为您处理(人工客服工作时间:9:00-18:30)。

目录

1.聚类分析 (2)

1.1问题描述 (2)

1.2数据初步分析 (2)

1.3层次聚类 (2)

1.4结果解释 (3)

1.5聚类结果的验证与进一步分析 (5)

1.6最终的类别特征描述 (7)

2.判别分析 (7)

2.1 问题描述 (7)

2.2 数据基本分析 (10)

2.3判别分析 (10)

2.4 结果分析 (10)

2.5 判别效果的验证 (14)

1.聚类分析

1.1问题描述

对16中饮料的热量、咖啡因、钠和价格四个变量作为数据进行聚类分析,希望通过聚类分析的方法将相似的饮料找出来,即将16种饮料划分为若干类别,从而更好的指导销售者制定销售计划,具体数据如下表1:

表1:饮料数据

1.2

首先对数据进行初步的考察,对各个指标做简单描述性统计分析。

表2:Descriptive Statistics

从表2中可以看出4个指标的量纲基本不同,尤其以热量和价格的差距最为明显,显示了数据量纲间有很强的差异性。为消除不同变量大小对聚类结果的影响,

有必要在聚类分析前对数据进行标准化处理。

1.3层次聚类

在SPSS中,实现层次聚类的过程步骤如下:

在Method中,默认选择的是不对数据进行标准化,但在此例子中,采用Z Scores方法对数据进行标准化。

1.4结果解释

层次聚类输出的聚类过程表(表3),它说明层次聚类过程中的每一个步骤是如何进行的,一般来讲,步骤数为参加聚类的数据条数减1,在这里是15步。

表3的第1列列出了聚类过程的步骤号,第2列和第3列列出了在某一步骤中哪些饮料参与了合并,例如在第一步中,饮料5和饮料6首先被合并在一起。第4列列出了每一聚类步骤的聚类系数,这一数值表示被合并的两个类别之间的距离大小。第5列和第6列表示参与合并的饮料是在第几步中第一次出现的,0表示第一次出现在聚类过程中。第7列表示在这一步骤中合并的类别,下一次将在第几步中与其他类别再进行合并。要注意,在聚类过程的描述中,往往一个记录号已经

13 2 7 35.262 7 10 14

14 2 3 45.703 13 11 15

15 1 2 60.000 12 14 0

聚类过程表中大部分内容并不是通常要关注的对象,因为在大部分实际应用中,并不关心聚类的具体过程。但是当需要判断数据应该分成多少类别时,聚类系数这一列却有着很好的参考价值。事实上,可以根据该系数的变化来判断数据应该被分成多少类,当两个相邻步骤系数变化远大于前面相邻步骤变化时,便可以大致确定应该将聚类过程进行到哪里的类别数是较为合适的。在这个例子中,11步时聚类系数为18.847,比第10步大了3.847,而在12步时聚类系数为26.599,比第11步大了近8,从统计意义上来说聚类过程结束于第12步是合理的;同时在13,14,15步时,聚类系数同样比前一步骤大了很多,这说明数据被分成5类、3类或是2类都是合理的,当然,这种方法只是起到一个参考作用,真正数据应该分成多少类,还是需要分析者根据自己实际问题综合进行判断。

层次聚类产生的最重要的结果就是谱系图,通过谱系图可以非常直观地看出整个聚类过程和结果。

在谱系图中,聚类的全过程以直观的方式表现出来,它把类间的最大距离算做相对距离为25,其余的距离均换算成与之相比的相对距离大小。图形的左边代表进行聚类的对象或是事物,而对象或者类别的合并则通过线条连接的方式来表示,在这个例子中,对应的是这些饮料编号列在结果的最左边,而在结果的上部列出的是类别见的相对距离,通过观察这个结果,可以将这些饮料分为若干个类别。

图1:谱系图

下面两种比较典型的聚类方案,分别聚成5类和3类。

1.5

为了确定分成多少个类别合适,并且为各个类别命名,还需要对聚类结果进行进一步的分析。

在进行聚类的过程中,总是理想化的希望每个类别包含的对象是差不多相等的,但是从以上的分析可以看出,这几乎是不可能的,于是找出尽可能等分的分类就是通常确定类别数目的原则之一。

当把16种饮料分为3-8类时各类的饮料个数如表5所示:

少,并且每类的总数分布应该趋于正态分布,因此选择分成5类是相对合理的。

在确定的分成多少个类别以及每个类别中含有多少种饮料后,接下来最关心的就是各个类别间是否有显著差异,以及各个类别具有怎样的特征,可以应用SPSS中Means过程计算各个类别的描述统计量和各个类别中4个变量是否有显著差异的方差分析表,结果如表5和表6所示:

表6:Report

Mean

Ward Method(5) 热量咖啡因钠价格

1 203.1000 1.6500 13.0500 3.1500

2 31.4667 4.1000 13.2000 2.5333

3 90.3200 5.6200 8.2200 3.4000

4 71.8500 .2000 9.4000 4.1000

5 74.4250 3.1750 8.0500 1.6500

Total 87.1000 3.5500 9.8625 2.8563 从表7中可以看出,各个类别热量、咖啡因、钠、价格等4个变量上都是有显著差异的,且这种差异存在统计意义。

表7:ANOVA Table

从表6中可以看出,各类之间的F检验在α=0.05的置信区间下,都是有显著差异的,聚类效果明显。

1.6最终的类别特征描述

综合以上的分析,将16种饮料分为5类,并且总结出各个类别的特征如下:

第1类:含高热量。热量要明显高于其他类别,包括第1、10两种饮料。

第2类:含钠成分高,价格一般。该类饮料含钠成分要明显高于其他类别,包括第2、8和14种饮料。

第3类:咖啡因含量高,含钠成分偏高,价格也偏高,包括第3、5、6、11、15种饮料。

第4类:咖啡因含量低,价格高的饮料。该类饮料的咖啡因含量明显低于其他类别,同时价格要明显高于其他类别,包括第4、16种饮料。

第5类:价格低。该类饮料的价格要明显低于其他类别,包括第7、9、12、13种饮料。

2.判别分析

2.1 问题描述

我们希望用一套打分体系来描绘企业的状况,该体系对每个企业的一些指标(变量)进行评分。这些指标包括:企业规模(is),服务(se),雇员工资比例(sa),利润增长(prr),市场份额(ms),市场份额增长(msr),流动资金比例(cp),资金周转速度(cs)等等。

另外,有一些企业已经被某杂志划分为上升企业、稳定企业和下降企业。

我们希望根据这些企业的上述变量的打分和它们已知的类别(三个类别之一:group-1代表上升,group-2代表稳定,group-3代表下降)找出一个分类标准,以对没有被该刊物分类的企业进行分类。

该数据有90个企业(90个观测值),其中30个属于上升型,30个属于稳定型,30个属于下降型。这个数据就是一个“训练样本”,具体如表8所示:

表8:data