灰色关联聚类剖析
- 格式:doc
- 大小:172.50 KB
- 文档页数:8
灰色关联分析1、作用对于两个系统之间的因素,其随时间或不同对象而变化的关联性大小的量度,称为关联度。
在系统发展过程中,若两个因素变化的趋势具有一致性,即同步变化程度较高,即可谓二者关联程度较高;反之,则较低。
因此,灰色关联分析是指对一个系统发展变化态势的定量描述和比较的方法,其基本思想是通过确定参考数据列和若干个比较数据列的几何形状相似程度来判断其联系是否紧密,它反映了曲线间的关联程度。
2、输入输出描述输入:特征序列为至少两项或以上的定量变量,母序列(关联对象)为 1 项定量变量。
输出:反应考核指标与母序列的关联程度。
3、案例示例案例:分析 09-18 年内,影院数量,观影人数,票价、电影上线数量这些因素对全年电影票房的影响。
其中电影票房是母序列,影院数量,观影人数,票价、电影上线数量是特征序列。
4、案例数据灰色关联分析案例数据5、案例操作Step1:新建分析;Step2:上传数据;Step3:选择对应数据打开后进行预览,确认无误后点击开始分析;step4:选择【灰色关联分析】;step5:查看对应的数据数据格式,【灰色关联分析】要求特征序列为定量变量,且至少有一项;要求母序列为定量变量,且只有一项。
step6:设置量纲处理方式(包括初值化、均值化、无处理)、分辨系数(ρ越小,分辨力越大,一般ρ的取值区间为 ( 0 ,1 ),具体取值可视情况而定。
当ρ≤ 0.5463 时,分辨力最好,通常取ρ = 0.5 )step7:点击【开始分析】,完成全部操作。
6、输出结果分析输出结果 1:灰色关联系数图表说明:关联系数代表着该子序列与母序列对应维度上的关联程度值(数字越大,代表关联性越强)。
输出结果 2:关联系数图分析:输出结果 1 和输出结果 2 是一样的,输出结果 1 用了表格形式来呈现关联系数,输出结果 2 用了图表形式来呈现关联系数。
图表很直观地展现了,大多数年份的银幕数量和电影上线数量对票房影响更大。
灰色定权聚类评估的步骤
灰色定权聚类评估是一种用于数据分析和聚类的方法,它结合了灰色系统理论和聚类分析的思想。
下面是灰色定权聚类评估的一般步骤:
1. 数据准备:收集需要进行聚类评估的数据,并进行预处理,包括数据清洗、数据归一化等。
2. 灰色关联度计算:根据灰色系统理论,计算每个样本之间的灰色关联度。
灰色关联度是衡量样本之间相似性的指标,可以用于判断样本是否属于同一类别。
3. 定权计算:根据问题的具体要求和数据特点,确定各个指标的权重。
权重可以根据专家经验、主观评价或数学模型等方法确定。
4. 聚类分析:根据灰色关联度和权重,将样本进行聚类分析。
常用的聚类方法包括K-means、层次聚类等。
5. 聚类评估:根据聚类结果,进行聚类评估。
评估指标可以包括聚类效果的紧密度、分离度、轮廓系数等。
6. 结果解释和应用:根据评估结果,对聚类结果进行解释和应用。
可以根据聚类结果进行决策、优化或其他后续分析。
需要注意的是,灰色定权聚类评估的具体步骤可能会因具体问题和数据特点而有所不同。
在实际应用中,还需要根据具体情况进行调整和优化。
2.1系统分析法简单实例已知某样本如下表2.1所示要求对该样本进行系统聚类分析,到样本被分为三类为止。
表2.11X 2X 3X 4X5X 6X 1a 0 1 3 1 3 4 2a 3 3 3 1 2 1 3a1 0 0 0 1 1 4a2 1 0 2 2 1 5a11按照步骤对样本进行系统聚类分析如下: 1.把每个样品看做一类,表示为:()}{101X G =,()}{202X G =,()}{303X G =,()}{404X G =,()}{505X G =,()}{606X G =计算各类之间的距离系数,常见的计算方法有以下三种: (1)欧几里得距离,(,))i j d x x =(2)海明距离,1(,)mi j i k j kk d x x x x ==-∑ (3)切比雪夫距离,1(,)mi j i k j kk d x x x x ==∨- 以海明距离为例计算各样品之间的距离,构成距离矩阵()0D ,()⎪⎪⎪⎪⎪⎪⎪⎪⎭⎫ ⎝⎛=0411814210768110135606150300D2.矩阵()0D 中最小距离为()01G 与()02G 之间的距离,大小为3.所以将他们合并为一类,得到新的分类:()()()}{020111,G G G =,()()}{0312G G =,()()}{0413G G =,()()}{0514G G =,()()}{0615G G = 对于()11G ,按最小距离准则,选取()01G 与()12G -()15G 之间及()02G 与()12G -()15G 之间两两距离的最小则,得到距离矩阵()1D ,()⎪⎪⎪⎪⎪⎪⎭⎫⎝⎛=0411********1350601D 3.矩阵()1D 中最小距离为()14G 与()15G 之间的距离,大小为4.所以将他们合并为一类,得到新的分类:()()}{1121G G =,()()}{1222G G =,()()}{1323G G =,()()()}{151424,G G G = 同理,按照最小距离准则得到距离矩阵()2D ,()⎪⎪⎪⎪⎪⎭⎫⎝⎛=0768********D 4.同理得到新分类:()()()}{232131,G G G =,()()}{2232G G =,()()}{2433G G = 得到矩阵()3D()⎪⎪⎪⎭⎫⎝⎛=0670603D 此时满足题目要求,样品被分为三类:}{421,,X X X ,}{3X ,}{65,X X。
灰色定权聚类评估步骤简介灰色定权聚类评估是一种用于评估聚类结果质量的方法。
在聚类分析中,评估聚类结果的优劣对于了解数据特征、发现规律以及做出合理决策具有重要意义。
本文将详细介绍灰色定权聚类评估的步骤和方法。
什么是灰色定权聚类评估灰色定权聚类评估是一种在灰色系统理论和聚类分析的基础上发展起来的评估方法。
该方法综合考虑了聚类结果的准确性和稳定性,并通过定权的方式对不同指标进行综合评估。
灰色定权聚类评估方法可以用于评估各种类型的聚类算法,包括层次聚类、K-means聚类等。
灰色定权聚类评估步骤步骤一:数据准备在进行灰色定权聚类评估之前,首先需要准备好聚类的数据。
数据可以是数值型数据、离散型数据或者混合型数据。
根据数据的特点选择合适的聚类算法进行聚类分析。
步骤二:聚类分析在进行聚类分析时,需要选择合适的聚类算法,并根据数据特点设置相应的参数。
常用的聚类算法包括层次聚类、K-means聚类、DBSCAN等。
聚类分析的目标是将数据集划分为若干个互不重叠的簇,使得同一簇内的数据相似度高,不同簇之间的数据相似度低。
步骤三:灰色关联度计算在灰色定权聚类评估中,关联度是评估聚类结果的重要指标之一。
关联度用于衡量两个样本之间的相似程度,可以通过计算样本之间的距离或相似度来得到。
常用的关联度计算方法包括欧氏距离、曼哈顿距离、余弦相似度等。
步骤四:灰色定权计算灰色定权聚类评估方法通过对不同指标进行定权,综合考虑了聚类结果的准确性和稳定性。
定权的目的是给予不同指标不同的重要性,以便更好地评估聚类结果。
定权的方法可以根据实际需求选择,常用的方法有主观赋权法、客观赋权法等。
步骤五:聚类结果评估在灰色定权聚类评估中,聚类结果的评估是非常重要的。
评估指标可以包括聚类结果的准确性、稳定性、可解释性等。
常用的评估指标包括轮廓系数、DB指数、Dunn指数等。
根据实际需求选择合适的评估指标进行评估。
灰色定权聚类评估方法主观赋权法主观赋权法是一种根据经验和专业知识给予指标不同权重的方法。
第四章灰色聚类分析在本章中,首先介绍了灰色聚类的概念及其类型。
其次对灰色星座聚类、灰色关联聚类、灰色变权聚类和灰色定权聚类的原理和计算方法进行了阐述。
最后利用实证分析来分析灰色聚类在渔业科学中的应用。
第一节灰色聚类的概念灰色聚类是根据关联矩阵或灰数的白化权函数将一些观测指标或观测对象聚集成若干个可定义类别的方法。
一个聚类可以看作是属于同一类观测对象的集合体。
在实际问题中,每个观测对象往往具有许多个特征指标,因而难以进行准确的分类。
灰色聚类按聚类方法的不同,可分为灰色星座聚类、灰色关联聚类和灰类白化函数聚类等方法。
灰色星座聚类是根据样本自身的属性,利用相似性原理定量地确定样本之间的关系,并按这种关系进行自然聚类。
灰色关联聚类主要用于同类因素的归并,以使复杂系统得到简化。
通过灰色关联聚类,可以分析出许多因素中是否有若干个因素关系十分密切,以便我们既能够用这些因素的综合平均指标或其中的某一个因素来代表这些因素,同时又使信息不受严重损失,从而使得我们在进行大面积调研之前,通过典型抽样数据的灰色关联聚类,可以减少不必要变量(因素)的收集,以节省成本和经费。
灰类白化权函数聚类主要用于检查观测对象是否属于事先设定的不同类别,以便区别对待。
从计算工作量来看,灰类白化函数要比灰色关联聚类和星座聚类复杂。
第二节灰色星座聚类一,原理和方法星座聚类在灰色聚类中是一种比较简单易行的聚类方法。
其基本原理为:将每个样点按一定的数量关系,点在一个上半圆之中,一个样点用一颗“星点”来表示,同类的样点便组成一个“星座”,然后勾画出区分不同星座的界线,这样就可以进行分类。
实质上,它是将一个样本中的大量信息(或指标值),经过原始数据的变换(极差变换)等手段转化成为无量纲,并成为一个简单的空间坐标比较的问题。
一般情况下,星座聚类有如下步骤:(1)对原始指标值进行极差变换,并使变换后的数值均落在[0°,180°]的闭区间内。
灰色关联聚类
灰色系统基本概念:我们将信息完全明确的系统称为白色系统,信息完全未知的系统称为黑色系统,部分信息明确、部分信息不明确的系统称为灰色系统。
灰色关联聚类是根据灰色关联矩阵将一些观测指标或观测对象聚集成若干个可以定义类别的方法。
灰色关联聚类主要用于同类因素的归并,以使复杂系统简化。
由此,我们可以检查许多因素中是否有若干个因素关系十分密切,使我们既能够用这些因素的综合平均指标或其中的某一个因素来代表这几个因素,又可以使信息不受到严重损失,从而使得我们在进行大面积调研之前,通过典型抽样数据的灰色关联聚类,可以减少不必要变量(因素)的收集,以节省成本和经费。
一、灰色关联聚类的基本方法
灰色关联聚类实际上是利用灰色关联的基本原理计算各样本之间的关联度,根据关联度的大小来划分各样本的类型。
其计算的原理和方法如下。
现设有m个样本,每个样本有n个指标,并得到如下序列:
X1 = ( x1(1), x1(2), …, x1(n))
X2 = ( x2(1), x2(2), …, x2(n))
……………………………. X m = ( x m (1), x m (2), …, x m (n))
对所有的i ≤j ,i, j=1,2,…,m ,计算出X i 与X j 的绝对关联度ij ε,从而得到上三角矩阵A 。
A=⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡mm 2m 221m 1211 εεεεεε ,其中εii =1;i=1,2,…,m ;
灰色绝对关联度计算方法:
设母序列{X 0}与子序列{X i }长度相同,它们分别为:
))(,),2(),1((0000n x x x X =
))(,),2(),1((n x x x X i i i i =
则其相应的始点零化序列为:
))(,),2(),1((00000000n x x x X =
))(,),2(),1((0000n x x x X i i i i =
式中:)1()()(000
x k x k X -= )1()()(0i i i x k x k X -=
则X 0与X i 的灰色绝对关联度的计算公式为
00011s s s s s s i i i
i -+++++=
ε
式中:
∑-=+
=
1
2
0000)(21)(n k n x k x s ∑-=+
=
1
2
0)(2
1)(n k i i i n x k x s ∑-=-+-=
-1
2
000000)()((2
1))()((n k i i
i n x n x k x k x
s s
例:
现假设有母序列X 0和子序列X 1、X 2、X 3、X 4和X 5,求母序列与个子序列的绝对关联度。
第一步:进行始点零化
由)1()()(0i i i x k x k X -=可求得;
0)1()1()1(0000=-=x x x
08.064.272.2)1()2()2(0000=-=-=x x x
同理可获得其他零点化值,如下。
第二步:求0s 、i s 和0s s i -
=∑=+
=
6
20
00
0)7(2
1)(k x k x
s 0.19 =∑=+
=
6
20
1011)7(2
1)(k x k x s 83.59 =∑=+=
6
2
2022)7(2
1)(k x k x s 77.25
=∑=+
=
6
20
3033)7(2
1)(k x k x s 151.92 =∑=+
=
6
20
4044)7(2
1)(k x k x s 5.72 =∑=+
=
6
2
5055)7(2
1)(k x k x s 1.18 78.83)7()7((21))()((6
2
00100
0101=∑=-+-=
-k x x k x k x s s 06.77)7()7((21))()((6
2
00200
0202=∑=-+-=
-k x x k x k x s s 11.152)7()7((21))()((62
00300
0303=∑=-+-=
-k x x k x k x s s 91.5)7()7((21))()((62
00400
0404=∑=-+-=
-k x x k x k x s s 37.1)7()7((21))()((62
00500
0505=∑=-+-=
-k x x k x k x s s 第三步:求绝对关联度
50
.078
.8359.8319.0159
.8319.01110
1101
001=++++-+++++=
+=
s s s s s s ε
同理分别可求得:
50.002=ε;50.003=ε;54.004=ε;63.005=ε
若取临界值r ∈ [0,1],一般要求r > 0.5,当ij ε≥r 时,则可将X i 与X j 视为同类特征。
r 可根据实际问题的需要来确定,若r 越接近于1,则分类越细,每一组中的变量相对地越少;若r 越小,则分类越粗,这时每一组中的变量相对地越多。
二、举例分析
我们仍以上一节中的例子进行分析,利用灰色绝对关联度的计算方法进行聚类分析。
在本例中,共有7个样本,每一个样本中有6个指标,为了节约今后调查和收集资料的成本,我们需要将指标进行归类,以达到精简指标的目的。
第一步:进行始点零化
利用)1()()(0i i i x k x k X -=可求得(见下表);
第二步:求0s 、i s 和j i s s -
0s =0.19;=1s 83.59;=2s 77.25;=3s 151.92 =4s 5.72;=5s 1.18
78.8301=s s -;06.7702=-s s ;11.15203=-s s 91.504=-s s ;37.105=-s s ……
第三步:求绝对关联度
50.001=ε;50.002=ε;50.003=ε;54.004=ε;63.005=ε
50.012=ε;78.013=ε;54.014=ε;51.015=ε; 49.023=ε;47.024=ε;47.025=ε; 52.034=ε;51.035=ε; 64.045=ε;
则可得绝对关联矩阵A
1
64.01
51
.052.0147
.047.049.01
51.054.078.050.01
63
.054.050.050.050.01
A
若我们假定绝对关联度的临界值取0.60,则我们依次
可检查出:X 5与X 0一类,X 3与X 1一类,X 5与X 4一类。
取标号最小的指标作为各类的代表,可将X 5和X 4并入X 0中成为一类,这样6个指标的聚类结果为:
{X 5、X 4、X 0},{X 3、X 1},{X 2}
也就是说,我们在以后资料的收集中,只要收集X 0、X 1、X 2三个指标的数据即可。