_模糊聚类分析_181-202_
- 格式:doc
- 大小:1.47 MB
- 文档页数:23
模糊聚类分析模糊聚类分析,也被称为模糊聚类或者软聚类,是一种数据分析的方法。
与传统的硬聚类不同,模糊聚类可以将每个观测对象划分到不同的聚类中心,从而更好地反映对象与聚类中心之间的相似性。
模糊聚类的思想源于模糊集理论,该理论引入了概率的概念,使得划定边界变得模糊化。
在传统的硬聚类方法中,每个对象只能属于一个聚类,而在模糊聚类中,每个对象的隶属度被划分为一个实数,表示对象属于每个聚类的程度。
模糊聚类的基本原理是通过最小化目标函数来优化聚类结果。
常见的目标函数包括模糊熵和模糊轮廓系数。
模糊熵用于衡量聚类的混乱程度,值越小表示聚类更好。
模糊轮廓系数则用于评价每个对象的聚类紧密度和分离度,系数范围为[-1, 1],越接近1表示聚类结果越好。
模糊聚类的算法有多种,其中最常用的是模糊C均值(FCM)算法。
FCM算法首先随机初始化聚类中心,然后迭代更新对象的隶属度和聚类中心,直到满足终止条件。
在更新过程中,对象的隶属度和聚类中心根据距离度量进行调整。
模糊聚类在各个应用领域都有广泛的应用。
例如,在市场细分中,模糊聚类可以根据消费者的购买偏好将其划分为不同的细分市场,有助于制定更准确的营销策略。
在医学影像分析中,模糊聚类可以帮助医生根据患者的病情将其归类为不同的疾病类型,有助于做出更准确的诊断。
当然,模糊聚类也存在一些问题和挑战。
首先,模糊聚类的计算复杂度高,特别是在处理大规模数据时。
其次,模糊聚类对初始参数的敏感性较高,不同的初始化可能导致不同的聚类结果。
此外,模糊聚类的结果通常难以解释和理解,需要结合领域知识进行进一步分析。
为了克服这些问题,研究者们一直在不断改进模糊聚类算法。
例如,一些研究探索了基于深度学习的模糊聚类方法,利用神经网络来提高聚类的准确性和效率。
此外,还有一些研究致力于开发新的目标函数和距离度量方法,以更好地满足实际问题的需求。
综上所述,模糊聚类是一种基于模糊集理论的数据分析方法,可以更好地刻画对象之间的相似性。
模糊聚类分析壹、何谓聚类分析聚类分析是研究事物分类的一种多元分析方法。
在日常生活中,我们时常要把所接触到的事物(样本),按其性质、用途等进行分类,这种分类过程我们称为聚类分析。
(阙颂廉,民83)贰、聚类分析的应用模糊聚类分析是当前在模糊数学中应用最多的几个方法之一,可以将研究的样本进行合理的分类,如产品的分类就常常用聚类分析来进行,另聚类分析也可用来进行判别分析和预测(林杰斌等。
民76)。
所以,也被广泛地应用于天气预报、地震预测、地质探勘、运动员心理素质分类、河川水质污染程度等方面。
参、普通的等价关系在谈聚类分析之前,应先介绍相似关系和等价关系:一.自反性对任意Uu∈,都有Ru,u(∈,即集合中任一个元素u都)与自身有某相同性质的关系,则称R是自反关系,相对应的矩阵称为自反矩阵。
另数学表示意义为:A中的元素关于R具有”自反性”,即。
例:若U 为同一种族的集合,而集合中每一个人u ,皆与自身有同一种族之关系,这种性质则称为自反性。
二. 对称性如果ji ,R )u ,u (,R )u ,u(i j j i≠∈∈必有。
即u i 与u j 有存在某种关系,若将两个元素之位置对调,则即u j 与u i 也必有符合这层关系,则称R 有对称关系,相对应的矩阵为对称矩阵。
另数学表示意义为:A 中的元素关于R 具有”对称性”,即yRx xRy ,A y ,x 且若∈∀。
例:若甲和乙是同学关系,则乙和甲必也是同学关系,这种关系则称为对称性。
三. 传递性如果能由R)w u (R )w v (R )v u (∈∈∈,,推導出,及,。
即u与v 有存在某一关系,而v 与w 也有这同一种关系存在,则即u 与w 也必有符合这层关系存在,则称R 有传递关系,相对应的矩阵为传递矩阵。
另数学表示意义为:A 中的元素关于R 具有”传递性”,即。
例:若甲和乙是同一种族关系,而乙和丙也是同一种族关系,则甲和丙必有同一种族关系,这种则称为具有传递性关系。
模糊聚类分析是根据客观事物的特征、亲和度和相似度建立模糊相似关系,对客观事物进行聚类的一种分析方法。
当涉及到事物之间的模糊边界时,根据一定的要求对事物进行分类的一种数学方法。
聚类分析是数理统计中的一种多元分析方法,它利用数学方法定量地确定样本之间的亲和力,从而客观地对类型进行分类。
一些事物之间的界限是精确的,而另一些则是模糊的。
人与人之间脸部相似的界限是模糊的,天气之间的界限也是模糊的。
当聚类涉及到事物之间的模糊边界时,应使用模糊聚类分析方法。
模糊聚类分析在天气预报、地质、农业、林业等领域有着广泛的应用。
通常,聚类物称为样本,一组聚类物称为样本集。
模糊聚类分析的基本方法有两种:系统聚类法和逐步聚类法。
概述。
在数据分类中,常用的分类方法包括多元统计中的系统聚类、模糊聚类分析等;在模糊聚类分析中,首先要计算模糊相似矩阵,不同的模糊相似矩阵会产生不同的分类结果;即使使用相同的模糊相似矩阵,不同的阈值也会产生不同的分类结果。
“如何确定这些分类的有效性”成为模糊聚类的关键点。
这是识别研究中的一个重要问题。
在文献中,不能令人满意的有效性归因于数据集的几何结构不令人满意。
但笔者认为,不同的几何结构反映了实际需要。
我们不能排除实际需要,追求所谓的“理想几何结构”。
分类不理想不能归因于数据集的几何结构。
对于相同的模糊相似矩阵,文献建立了一种判断模糊聚类有效性的方法。
在有固定显著性水平的情况下,在不同分类中选择F统一测量临界值与F检验临界值之间的最大差值是一种有效的分类方法。
但是,当显著性水平发生变化时,该方法的结果也会发生变化。
文献引入模糊划分办公室来评价模糊聚类的有效性,并人为规定当两个类别的办公室大于1时,两个类别可以合并,最终通过逐次合并得到有效的分类。
这种方法有较多的人为干预,当指定的数量不同时,会得到不同的结果。
系统聚类法。
系统聚类法是一种基于模糊等价关系的模糊聚类分析方法。
在经典的聚类分析方法中,样本集可以通过经典的等价关系进行聚类。
模糊聚类分析方法对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统 计“物以类聚”的一种分类方法。
载科学技术、经济管理中常常要按一定的标准 (相似程度或亲疏关系)进行分类。
例如,根据生物的某些性状可对生物分类, 根据土壤的性质可对土壤分类等。
由于科学技术、经济管理中的分类界限往往不 分明,因此采用模糊聚类方法通常比较符合实际。
一、模糊聚类分析的一般步骤1、第一步:数据标准化[9](1)数据矩阵设论域U ={X i ,X 2,||l,X n }为被分类对象,每个对象又有m 个指标表示其性状,于是,得到原始数据矩阵为Xm 1X m2bI-Xnm」其中X nm 表示第n 个分类对象的第m 个指标的原始数据(2)数据标准化在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行 比较,通常需要对数据做适当的变换。
但是,即使这样,得到的数据也不一定在 区间[0,1]上。
因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据 压缩到区间[0,1]上。
通常有以下几种变换: ① 平移•标准差变换X i = {x i1, X i2,川,X m }X i 1X2 1X n2 IHxik -(i 一 1,21 n, k_;HL 2mS k其中-1 n1 n_ 2xkxi , 2(xik~'兀)。
n i 4: n i 4经过变换后,每个变量的均值为 0,标准差为1,且消除了量纲的影响。
但是,再用得到的x k 还不一定在区间[0,1]上。
② 平移•极差变换显然有0乞x ik 乞1,而且也消除了量纲的影响 ③ 对数变换xk- lg x ik (i = 1,n , k; l [L 2 m取对数以缩小变量间的数量级。
2、第二步:标定(建立模糊相似矩阵)设论域U ={为公2,川,人} , X i ={为1必2,川,心},依照传统聚类方法确定相似 系数,建立模糊相似矩阵,x i 与X j 的相似程度用=R(X j ,X j )。
第三篇评价、决策方法与模型近年来,围绕着评价与决策方法,各种相关知识不断渗入,使得评价与决策的方法不断丰富,相关研究也不断深入。
综合评价与决策逐渐成为一个多学科边缘交叉、相互渗透、多点支撑的新兴研究领域。
从某种意义上来讲,没有评价就没有决策。
评价是一种认知过程,是科学决策的前提,而决策是评价的最终目的。
目前流行的几种现代综合评价、决策方法包括模糊综合评价、层次分析法、数据包络分析法、决策分析法、人工神经网络评价法、灰色综合评价法、组合评价法等等。
各种评价、决策方法有简有繁,相互区别但又相互联系。
各种评价、决策方法各具特色,对某类具体问题选择评价、决策方法提供了借鉴。
基于篇幅的限制,本篇仅对模糊聚类分析、模糊综合评价、层次分析法、决策分析法介绍其基本原理、模型建立和求解方法,并讨论各方法在经济管理中的应用。
第九章模糊聚类分析1965年,模糊理论的创始人,美国加利福尼亚大学伯克利分校的计算机和自动控制理论专家Set”的论文,这标志着模糊信息处理的诞生,并于20世纪60年代在各科学会议上,从模糊信息处理观点出发,阐述了他的理论。
这一理论是描述和处理事务的模糊性和系统的不确定性,模拟人所特有的模糊逻辑思维功能,从定性到定量,创造了研究模糊性或不确定性问题的理论方法。
Zadeh教授在随后的研究工作中,准确地阐述了模糊性的含义,制定了刻画模糊性的数学方法。
即模糊集合、隶属度、隶属函数等,迄今已成为了一个较为完整的数学分支。
目前对模糊数学的研究十分活跃,模糊集合理论进一步丰富了经典数学的理论系统,为人们处理模糊信息提供了很多好的方法。
现在,模糊数学的公理化基础已经建立,正接受实践的检验,并进一步得到完善。
自从1976年模糊数学传入我国以来,通过广大模糊数学研究工作者的努力,模糊数学在我国得到了极大的发展,目前水平己居于世界前列。
模糊数学在实际应用中几乎涉及到了国民经济的各个领域及相关部门,模糊数学在医学、气象、环境、农业、能源、军事、经济管理和地质勘探等方面都得到了广泛的应用。
从模糊理论诞生到今天四十年来,模糊理论和技术得到了迅速的发展,在这个领域国内外许多学者做了大量卓有成效的研究工作。
模糊理论与技术的一个突出优点就是能较好地描述和模仿人的思维方式,并能总结和反映人的体会和经验,对复杂事务和系统可进行模糊度量、模糊识别、模糊推理、模糊控制与模糊决策。
尤其是将模糊理论与人工智能在神经网络和专家系统等方面相互结合的研究已深入到计算机技术、多媒体技术、自动控制技术以及信息采集与处理技术等一系列高新技术的开发、研究与利用,为推动决策科学、应用科学、管理科学与社会科学的进步作出了极大的贡献。
这种学术理论体系不断完善的新成果正在迅速地转变为生产力,促进了全人类社会物质文明的不断发展。
第一节关系及分类客观世界的各种事物之间存在着不同的相互关系。
在数学上使用“关系”作为一种数学模型来描述事物之间的联系,例如,大小关系、次序关系、等价关系、兄弟关系、函数关系等。
普通集合也存在关系。
1.关系的定义定义9.1.1 从X 到Y 的关系是指论域为笛卡儿乘积(直积)Y X ⨯的一个子集,即⊆R Y X ⨯,称为从X 到Y 的二元关系。
特别地,当Y X =时,称之为X 上的二元关系。
二元关系统称为关系。
例1 设}6,3,2{},8,7,4,1{==Y X ,定义关系y x R <⇔,称R 为“小于”关系。
于是)}6,4(),6,1(),3,1(),2,1{(=R这表明“小于”关系R 是笛卡儿乘积Y X ⨯的子集。
例2 设=X {周一,周二,周三,周四,周五,周六,周日}和=Y {晴,阴,雨}。
某一周的天气情况是:周一阴,周二雨,周三晴,周四晴,周五雨,周六雨,周日雨,则形成关系=R {(周一,阴),(周二,雨),(周三,晴),(周四,晴),(周五,雨),(周六,雨),(周日,雨)},关系R 是笛卡儿乘积Y X ⨯的一个子集。
2.关系的表示法关系可以分别用表格、图形和矩阵表示,下面以例2为例进行说明。
(1)表格。
见表9-1表9-1 关系的表格表示R周一 周二 周三 周四 周五 周六 周日 晴 0 0 1 1 0 0 0 阴 1 0 0 0 0 0 0 雨1111(2)图形。
见图9-1,如果R y x ∈),(,则连一条直线,否则不连。
论域X 论域Y 周一晴周二周三 阴 周四 周五周六 雨 周日图9-1用连线图表示关系(3)矩阵。
见图9-2。
对一般情况,设论域为有限。
关系n m ij r R ⨯=)(,n j m i ,,2,1;,,2,1 ==,}1,0{∈ij r 。
周一 周二 周三 周四 周五 周六 周日雨阴晴⎥⎥⎥⎦⎤⎢⎢⎢⎣⎡=111100000010001100R 图9-2 关系的矩阵表示3.特征函数定义9.1.2 设A 是论域X 上的集合,记⎩⎨⎧∉∈=Ax Ax x A ,0,1)(μ为集合A 的特征函数。
特征函数)(x A μ表征了元素x 对集合A 的隶属程度。
1)(=x A μ表示A x ∈,反之0)(=x A μ表示A x ∉。
第二节 模糊关系及矩阵在数学上,概念的外延可以通过“集合”来表达。
然而,日常生活中涉及的众多的概念常有内涵的“模糊(Fuzzy )性”,这必然导致外延的“不清晰性”。
例如,对于高矮之分等。
正是考虑到现实世界中很多事物的分类边界是不分明的,而这种不分明的划分在人们的识别、判断和认知过程中起着重要的作用,为了用数学的方法来处理这种问题,扎德于1965年提出了模糊集合的概念。
他用隶属度函数来刻画出中间过渡的事物对差异双方所具有的倾向性。
可以认为隶属函数是普通集合中特征函数的推广。
将特征函数的值域由}1,0{二值扩展到]1,0[区间时,就描述了一个模糊集合。
1.模糊集合隶属函数定义9.2.1 论域X 上的模糊集合A ~由隶属函数)(~x Aμ来表征,其中)(~x Aμ在闭区间]1,0[上取值,)(~x Aμ的值反映了X 中的元素x 对于A ~的隶属程度。
例1 设论域=X {周一,周二,周三,周四,周五,周六,周日},从周一到周四是好天气,周五到周日都是坏天气。
按普通集合观点,特征函数为⎩⎨⎧∉∈=A x A x x A ~,0~,1)(~(坏天气)(好天气)μ,其隶属度为A~μ(周一)=1,A ~μ(周二)=1,A ~μ(周三)=1,A ~μ(周四)=1;A ~μ(周五)=0,A~μ(周六)=0,A~μ(周日)=0。
利用模糊集合概念能较好区分好坏天气,选取]1,0[之间的数对天气情况进行细分。
这时对于天气的隶属度可以写成A~μ(周一)=0.9,A ~μ(周二)=0.8,A ~μ(周三)=0.7,A ~μ(周四)=0.6;A~μ(周五)=0.3,A ~μ(周六)=0.2,A~μ(周日)=0.1。
2.模糊关系定义9.2.2 设论域X 和Y ,称Y X ⨯的一个模糊子集⊆R ~Y X ⨯为从X 到Y 的模糊二元关系,记为Y X R−→−~。
其隶属度函数为映射: ]1,0[:~→⨯Y X Rμ 这时隶属度),(~y x R μ表示x 与y 具有关系R ~的程度。
特别地,当Y X =时,称R ~为X 上的模糊关系。
例2 论域=X {100,150,200,250,300,350,400,450,500,550,600,650,700,750,800}(公斤/亩),=Y {高产水稻}。
由于全国各地的自然条件差异和生产水平不同,人们对水稻亩产多少才算高产的理解不一样,亩产量与“高产水稻”之间的关系是模糊关系。
通过对不同地区种植水稻的123个农民的问卷调查,获得表9-2的结果。
表9-2 亩产量与“高产水稻”的模糊关系公斤/亩 100 150 200 250 300 350 400 450 500 550 600 650 700 750 800 频数 1 2 5 10 15 18 25 20 15 3 3 2 2 1 1 累计频数 1 3 8 18 35 51 76 96 111 114 117 119 121 122 123 累计频率0.010.020.070.150.270.410.620.780.900.930.950.970.980.991表9-2中的累计频数就是Y X ⨯的一个模糊子集R ~。
将累计频数变换到]1,0[区间成为累计频率,这时累计频率就是隶属函数R~μ。
R~μ(500,高产水稻)=0.90表明亩产500公斤与“高产水稻”的相关程度为90%。
定义9.2.3 设n l kj l m ik r R q Q ⨯⨯==)(~,)(~分别为Y X ⨯和Z Y ⨯上的两个模糊关系。
则Q~与R ~的合成,记为n m ij s S R Q ⨯==)(~~~其中),,2,1;,,2,1;,,2,1()(l k n j m i r q s kj ik ij ===∧∨=,则S ~为矩阵Q ~与R ~的合成(也称为模糊矩阵乘积或模糊乘积)。
其中“∨”与“∧”为逻辑符号,分别表示取大、取小。
定义9.2.4 模糊关系R ~的传递闭包)~(R t 定义为:∞==⋃⋃⋃⋃=12~~~~)~(m m m R R R R R t 。
由于⋃⋃==322~~)~()~()~(R R R t R t R t可见)~()~()~(R t R t R t ⊆ ,这个性质称为传递性。
集合论中的“关系”抽象地刻画了事物的“精确性”的联系,而“模糊关系”则从更深刻的意义上表现了事物间更广泛的联系。
从某种意义上讲,模糊关系的抽象形式更接近于人的思维。
在经济生活与经济科学中存在大量的模糊关系,而分类也是经济分析与经营管理中常常使用的方法,模糊关系理论是许多应用原理和方法的基础。
3.模糊矩阵定义9.2.5 设},,{},,,,{2121n m y y y Y x x x X ==,R ~是X 到Y 的模糊关系,记ij j i R r y x =),(~μ,记nm ij r R ⨯=)(~,n j m i ,,2,1;,,2,1 ==,]1,0[∈ij r ,则R ~称为模糊矩阵。
例3 设},,,{21m x x x X =是m 个工作人员的集合,},,{21n y y y Y =是n 项工作的集合。
若用]1,0[∈ij r 表示i x 能胜任j y 的程度,就可获得X 到Y 的模糊矩阵n m ij r R ⨯=)(~。
设4=m (即有4个工作人员),5=n (即有5项工作),则模糊矩阵R ~:⎥⎥⎥⎥⎦⎤⎢⎢⎢⎢⎣⎡=6.02.02.07.007.06.004.07.07.05.01.03.09.04.07.04.08.03.0~R例如第2个人能胜任第4项工作的程度为0.5。
定义9.2.6 设论域X 为有限集合,X 上的一个模糊关系为R ~,与其对应的模糊矩阵为n m ij r R ⨯=)(~,若满足:(1) 自反性:),,2,1(1n i r ii == (2) 对称性:),,2,1,(n j i r r ji ij ==(3) 传递性:R R R ~~~⊆则称n m ij r R ⨯=)(~为一个模糊等价矩阵,其关系是模糊等价关系。