模糊聚类分析例子1
- 格式:doc
- 大小:421.50 KB
- 文档页数:12
实验报告(一)一、实验内容模糊聚类在土地利用分区中的应用二、实验目的本次上机实习主要以指导学生掌握“如何应用模糊聚类方法进行土地利用规划分区”为目标。
三、实验方法本次试验是在Excel中实现。
利用《土地利用规划学》P114页数据,使用“欧氏距离法”、建模糊相似矩阵,并进行模糊聚类分析实现土地利用分区。
四、实验步骤1、获取原始数据通过对2000年如东县土地利用总体规划及各部门规划资料的分析得到8个评价单元的13项指标体系赋值如下。
将数据录入sheet1(A1:M8)工作区中。
表1:2000年如东县土地利用规划指标2、指标数据标准化本次实验采用了标准差法对数据进行标准化,首先需求取原始矩阵各个指标的均值和标准差。
选取A10单元格输入公式=AVERAGE(A1:A8),用数据填充A10:M10得到样本数据的均值。
在单元格A11中输入公式=STDEV(A1:A8),用数据填充A11:M11得到样本数据的方差。
如下表2。
表2:13个指标值得均值和标准差选取A13单元格输入公式=(A1-A$10)/A$11,并用数据填充A13:M20区域得到标准化矩阵如下表3。
表3:标准化数据矩阵3、求取模糊相似矩阵本次试验是通过欧氏距离法求取模糊相似矩阵。
其数学模型为:mr ij=1−c√∑(x ik−x jk)2k=1选取A23单元格输入公式=SQRT((A$13-A13)^2+(B$13-B13)^2+(C$13-C13)^2+(D$13-D13)^2+(E$13-E13)^2+(F$13-F13)^2+(G$13-G13)^2+(H$13-H13)^2+(I$13-I13)^2+(J$13-J13)^2+(K$13-K13)^2+(L$13-L13)^2+(M$13-M13)^2)求的d11,B23中输入公式=SQRT((A$14-A13)^2+(B$14-B13)^2+(C$14-C13)^2+(D$14-D13)^2+(E$14-E13)^2+(F$14-F13)^2+(G$14-G13)^2+(H$14-H13)^2+(I$14-I13)^2+(J$14-J13)^2+(K$14-K13)^2+(L$14-L13)^2+(M$14-M13)^2)q 求的d12。
模糊聚类分析壹、何谓聚类分析聚类分析是研究事物分类的一种多元分析方法。
在日常生活中,我们时常要把所接触到的事物(样本),按其性质、用途等进行分类,这种分类过程我们称为聚类分析。
(阙颂廉,民83)贰、聚类分析的应用模糊聚类分析是当前在模糊数学中应用最多的几个方法之一,可以将研究的样本进行合理的分类,如产品的分类就常常用聚类分析来进行,另聚类分析也可用来进行判别分析和预测(林杰斌等。
民76)。
所以,也被广泛地应用于天气预报、地震预测、地质探勘、运动员心理素质分类、河川水质污染程度等方面。
参、普通的等价关系在谈聚类分析之前,应先介绍相似关系和等价关系:一.自反性对任意Uu∈,都有Ru,u(∈,即集合中任一个元素u都)与自身有某相同性质的关系,则称R是自反关系,相对应的矩阵称为自反矩阵。
另数学表示意义为:A中的元素关于R具有”自反性”,即。
例:若U 为同一种族的集合,而集合中每一个人u ,皆与自身有同一种族之关系,这种性质则称为自反性。
二. 对称性如果ji ,R )u ,u (,R )u ,u(i j j i≠∈∈必有。
即u i 与u j 有存在某种关系,若将两个元素之位置对调,则即u j 与u i 也必有符合这层关系,则称R 有对称关系,相对应的矩阵为对称矩阵。
另数学表示意义为:A 中的元素关于R 具有”对称性”,即yRx xRy ,A y ,x 且若∈∀。
例:若甲和乙是同学关系,则乙和甲必也是同学关系,这种关系则称为对称性。
三. 传递性如果能由R)w u (R )w v (R )v u (∈∈∈,,推導出,及,。
即u与v 有存在某一关系,而v 与w 也有这同一种关系存在,则即u 与w 也必有符合这层关系存在,则称R 有传递关系,相对应的矩阵为传递矩阵。
另数学表示意义为:A 中的元素关于R 具有”传递性”,即。
例:若甲和乙是同一种族关系,而乙和丙也是同一种族关系,则甲和丙必有同一种族关系,这种则称为具有传递性关系。
模糊聚类分析定义:根据具体的标准和性质对事物进行分类的方法称为聚类分析 根据模糊标准对事物进行分类的方法称为模糊聚类分析基本思想:根据分类对象之间的模糊相似程度来衡量相互的异同程度,进而实现模糊分类。
传统聚类分析VS 模糊聚类分析1. 传统聚类分析: 设有n 个对象12,,...nx x x,每个对象有m 种特性12,,...my y y。
1>首先对每个对象的特性进行数量化:用ijz代表第i 个对象的第j 个性质的数值。
则对象ix 的性质形成的一个向量()12,,...i i im z zz2>考察对象之间相近的程度:引入“欧式距离”和“夹角余弦”。
1欧式距离:设对象()()1212,,...,,,....i i im j j jm ijy x z zz z zz ==则欧式距离为:ijyx -=这与我们所熟知的向量的欧式距离是一样的!2夹角余弦:设α是对象ix和jy之间的夹角,0180α≤≤,则夹角余弦为:(),cos ijijy x yx α=其中:()11,...i j im jm ijy x z zz z =++ix=iy=有了这些基础认识之后,下面我们通过一个例子来说明传统聚类分析 设有5个对象125,,...x x x,不妨设每个对象只有一个性质,数量化后分别为1,2,4.5,6,8.现使用传统聚类法进行聚类。
1 欧式距离:5个对象,共有25c个欧式距离。
计算可得121x x-=133.5x x-= 145x x-= 157x x-= 232.5x x-= 244x x -= 256x x-=341.5x x-=35 3.5x x-=452x x-=根据聚类的思想,差异最小的对象属于一类 从而1x 和2x为一类,并记为1G2 将1G 看成新的对象,其特征值为1x 和2x 的平均值1.5。
此时对象为1345,,,G x x x 。
再次计算欧式距离。
可知34,x x之间的距离最小。
专业:信息与计算科学 姓名: 学号:实验一 模糊聚类分析实验目的:掌握数据文件的标准化,模糊相似矩阵的建立方法,会求传递闭包矩阵;会使用数学软件MATLAB 进行模糊矩阵的有关运算实验学时:4学时实验内容:⑴ 根据已知数据进行数据标准化.⑵ 根据已知数据建立模糊相似矩阵,并求出其传递闭包矩阵.⑶ (可选做)根据模糊等价矩阵绘制动态聚类图.⑷ (可选做)根据原始数据或标准化后的数据和⑶的结果确定最佳分类. 实验日期:20017年12月02日实验步骤:1 问题描述:设有8种产品,它们的指标如下:x 1 = (37,38,12,16,13,12)x 2 = (69,73,74,22,64,17)x 3 = (73,86,49,27,68,39)x 4 = (57,58,64,84,63,28)x 5 = (38,56,65,85,62,27)x 6 = (65,55,64,15,26,48)x 7 = (65,56,15,42,65,35)x 8 = (66,45,65,55,34,32)建立相似矩阵,并用传递闭包法进行模糊聚类。
2 解决步骤:2.1 建立原始数据矩阵设论域},,{21n x x x X 为被分类对象,每个对象又有m 个指标表示其性状, im i i i x x x x ,,,21 ,n i ,,2,1 由此可得原始数据矩阵。
于是,得到原始数据矩阵为323455654566356542155665482615645565276285655638286384645857396827498673176422747369121316123837X 其中nm x 表示第n 个分类对象的第m 个指标的原始数据,其中m = 6,n = 8。
2.2 样本数据标准化2.2.1 对上述矩阵进行如下变化,将数据压缩到[0,1],使用方法为平移极差变换和最大值规格化方法。
(1)平移极差变换:111min{}max{}min{}ik ik i n ik ik ik i n i n x x x x x ,(1,2,,)k m L显然有01ikx ,而且也消除了量纲的影响。
模糊聚类分析方法对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统 计“物以类聚”的一种分类方法。
载科学技术、经济管理中常常要按一定的标准 (相似程度或亲疏关系)进行分类。
例如,根据生物的某些性状可对生物分类, 根据土壤的性质可对土壤分类等。
由于科学技术、经济管理中的分类界限往往不 分明,因此采用模糊聚类方法通常比较符合实际。
一、模糊聚类分析的一般步骤1、第一步:数据标准化[9](1)数据矩阵设论域U ={X i ,X 2,||l,X n }为被分类对象,每个对象又有m 个指标表示其性状,于是,得到原始数据矩阵为Xm 1X m2bI-Xnm」其中X nm 表示第n 个分类对象的第m 个指标的原始数据(2)数据标准化在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行 比较,通常需要对数据做适当的变换。
但是,即使这样,得到的数据也不一定在 区间[0,1]上。
因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据 压缩到区间[0,1]上。
通常有以下几种变换: ① 平移•标准差变换X i = {x i1, X i2,川,X m }X i 1X2 1X n2 IHxik -(i 一 1,21 n, k_;HL 2mS k其中-1 n1 n_ 2xkxi , 2(xik~'兀)。
n i 4: n i 4经过变换后,每个变量的均值为 0,标准差为1,且消除了量纲的影响。
但是,再用得到的x k 还不一定在区间[0,1]上。
② 平移•极差变换显然有0乞x ik 乞1,而且也消除了量纲的影响 ③ 对数变换xk- lg x ik (i = 1,n , k; l [L 2 m取对数以缩小变量间的数量级。
2、第二步:标定(建立模糊相似矩阵)设论域U ={为公2,川,人} , X i ={为1必2,川,心},依照传统聚类方法确定相似 系数,建立模糊相似矩阵,x i 与X j 的相似程度用=R(X j ,X j )。
模糊集合的例子《谈谈模糊集合的例子》嘿,朋友们!今天来和大家聊聊模糊集合这个有点玄乎但其实又挺好玩的概念。
你说啥是模糊集合啊?简单来说,就是很多事情不是非黑即白的,而是存在很多模糊的地带。
比如说天气,你能很明确地说今天就是晴天或者雨天吗?有时候可能有点阴天,好像要下雨又不太确定,这就是一种模糊的状态嘛。
让我给你们举几个接地气的例子,咱就说人的胖瘦。
你说一个人胖,那怎么个胖法才算胖呀?是超过多少斤就算胖还是看体型?这里面可就有很多模棱两可的地方了。
再比如说吃饭的口味,酸甜苦辣咸,往往一个菜它可能又有点辣又有点甜,这口味就是个模糊的集合呀。
还有啊,你对一个人的印象也是模糊集合。
可能你觉得这个人有时候很友好,有时候又有点奇怪,这种复杂的感觉可不好简单地用一个词来形容。
这就像是把各种特点都揉在一起的一个大模糊球。
生活中这样的模糊集合例子可太多了。
像是对一部电影的评价,有人觉得超级好看,有人觉得一般般,还有人觉得很难看,这中间的各种感受交织在一起,就是个大大的模糊集合。
再比如上班的状态,有时候你精神饱满,有时候又有点疲惫,有时候又介于两者之间,这上班状态不也是个模糊集合嘛。
这模糊集合啊,就让我们的生活变得更有意思了,不能简单地用一种标准去衡量。
它让我们知道世界不是那么绝对的,很多事情都是复杂多变的。
就好像我们自己,也是个充满各种模糊属性的集合体。
我记得有一次,我和朋友去买衣服,看到一件衣服,我说好看,朋友说一般,那这件衣服到底好不好看呢?这就是个很模糊的问题啦。
还有啊,我有时候心情特别好,有时候又莫名其妙地有点低落,这心情也是个模糊集合呢。
总之啊,模糊集合就在我们生活中无处不在,它让我们的生活丰富多彩,也让我们更能理解这个世界的复杂性和多样性。
下次当你们遇到一些说不清道不明的情况时,就想想模糊集合吧,然后一笑而过,享受生活的这种模模糊糊的美好!哈哈!。
模糊聚类实现鸢尾花(iris)分类实验报告实验报告:模糊聚类实现鸢尾花(iris)分类一、实验目的本实验旨在通过模糊聚类算法对鸢尾花(iris)数据集进行分类,并比较其分类效果与传统的硬聚类算法。
二、实验原理模糊聚类是一种基于模糊集合理论的聚类分析方法。
与传统的硬聚类算法不同,模糊聚类能够为每个样本赋予一个隶属度,表示该样本属于某个簇的程度。
常用的模糊聚类算法包括模糊C-均值聚类(FCM)和概率模糊C-均值聚类(PFCM)。
三、实验步骤1. 数据准备:加载鸢尾花数据集,将数据分为特征和标签两部分。
2. 数据预处理:对特征数据进行归一化处理,使其满足模糊聚类的要求。
3. 构建模糊矩阵:根据给定的模糊参数,构建模糊矩阵。
4. 执行模糊聚类:使用模糊聚类算法对数据进行聚类,得到每个样本的隶属度矩阵。
5. 分类结果输出:根据隶属度矩阵和阈值,将样本分为不同的类别。
6. 评估分类效果:计算分类准确率、召回率等指标,评估分类效果。
四、实验结果以下是使用模糊C-均值聚类算法对鸢尾花数据集进行分类的结果:样本实际类别预测类别隶属度1 setosa setosa2 versicolor versicolor3 virginica virginica... ... ... ...150 setosa setosa151 versicolor versicolor152 virginica virginica通过观察上表,我们可以发现大多数样本被正确地分类到了所属的类别,且具有较高的隶属度。
具体分类准确率如下:setosa: 97%,versicolor: 94%,virginica: 95%。
可以看出,模糊聚类算法在鸢尾花数据集上取得了较好的分类效果。
五、实验总结本实验通过模糊聚类算法对鸢尾花数据集进行了分类,并得到了较好的分类效果。
与传统硬聚类算法相比,模糊聚类能够为每个样本赋予一个隶属度,更准确地描述样本属于各个簇的程度。
1. 模糊聚类分析模型环境区域的污染情况由污染物在4个要素中的含量超标程度来衡量。
设这5个环境区域的污染数据为1x =(80,10,6,2),2x =(50,1,6,4),3x =(90,6,4,6),4x =(40,5,7,3),5x =(10,1,2,4).试用模糊传递闭包法对X 进行分类。
解:由题设知特性指标矩阵为:*80106250164906464057310124X ⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦数据规格化:最大规格化'ij ijjx x M =其中:12max(,,...,)j j j nj M x x x =构造模糊相似矩阵:采用最大最小法来构造模糊相似矩阵55()ij R r ⨯=, 利用平方自合成方法求传递闭包t (R )依次计算248,,R R R ,由于84R R =,所以4()t R R =210.630.620.630.530.6310.560.700.530.620.5610.620.530.630.700.6210.530.530.530.530.531R ⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦,410.630.620.630.530.6310.620.700.530.620.6210.620.530.630.700.6210.530.530.530.530.531R ⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦=8R选取适当的置信水平值[0,1]λ∈,按λ截矩阵进行动态聚类。
把()t R 中的元素从大到小的顺序编排如下:1>>>062>053.依次取λ=1,,,062,053,得11000001000()0010*******0001t R ⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦,此时X 被分为5类:{1x },{2x },{3x },{4x },{5x }0.71000001010()001000101000001t R ⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦,此时X 被分为4类:{1x },{2x ,4x },{3x },{5x }0.631101011010()001001101000001t R ⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦,此时X 被分为3类:{1x ,2x ,4x },{3x },{5x }0.621111011110()111101111000001t R ⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦,此时X 被分为2类:{1x ,2x ,4x ,3x },{5x }0.531111111111()111111111111111t R ⎡⎤⎢⎥⎢⎥⎢⎥=⎢⎥⎢⎥⎢⎥⎣⎦,此时X 被分为1类:{12345,,,,x x x x x }Matlab 程序如下: %数据规格化MATLAB 程序a=[801062 50164 90646 40573 10124]; mu=max(a) for i=1:5 for j=1:4r(i,j)=a(i,j)/mu(j); end end r%采用最大最小法构造相似矩阵r=['; for i=1:5 for j=1:5R(i,j)=sum(min([r(i,:);b(:,j)']))/sum(max([r(i,:);b(:,j)'])); end end R%利用平方自合成方法求传递闭包t (R ) 矩阵合成的MATLAB 函数function rhat=hech(r); n=length(r); for i=1:n for j=1:nrhat(i,j)=max(min([r(i,:);r(:,j)'])); end end求模糊等价矩阵和聚类的程序 2. R=[模糊综合评判模型某烟草公司对某部门员工进行的年终评定,关于考核的具体操作过程,以对一名员工的考核为例。
如下表所示,根据该部门工作人员的工作性质,将18个指标分成工作绩效(1U )、工作态度(2U )、工作能力(3U )和学习成长(4U )这4各子因素集。
员工考核指标体系及考核表技能提高 培训参与工作提供 0请专家设定指标权重,一级指标权重为: 二级指标权重为:对各个子因素集进行一级模糊综合评判得到: 这样,二级综合评判为:根据最大隶属度原则,认为该员工的评价为良好。
同理可对该部门其他员工进行考核。
3.层次分析模型你已经去过几家主要的摩托车商店,基本确定将从三种车型中选购一种,你选择的标准主要有:价格、耗油量大小、舒适程度和外观美观情况。
经反复思考比较,构造了它们之间的成对比较判断矩阵。
A=1378115531113751111853⎡⎤⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎢⎥⎣⎦三种车型(记为a,b,c )关于价格、耗油量、舒适程度和外表美观情况的成对比较判断矩阵为 价格abc 耗油量abc 舒适程度abc 外表abc1351/3141/51/41a b c ⎡⎤⎢⎥⎢⎥⎢⎥⎣⎦11/535171/31/71a b c ⎡⎤⎢⎥⎢⎥⎢⎥⎣⎦根据上述矩阵可以看出四项标准在你心目中的比重是不同的,请按由重到轻顺序将它们排出。
解:用matlab 求解 层次总排序的结果如下表Matlab程序如下:clc,clearn1=4;n2=3;a=[13781/31551/71/5131/81/51/31];b1=[1231/2121/31/21];b2=[11/51/251721/71];b3=[1351/3141/51/41];b4=[11/535171/31/71];ri=[0,0,,,,,,,];%一致性指标RI[x,y]=eig(a);%x为特征向量,y为特征值lamda=max(diag(y));num=find(diag(y)==lamda);w0=x(:,num)/sum(x(:,num));w0%准则层特征向量CR0=(lamda-n1)/(n1-1)/ri(n1)%准则层一致性比例for i=1:n1[x,y]=eig(eval(char(['b',int2str(i)])));lamda=max(diag(y));num=find(diag(y)==lamda);w1(:,i)=x(:,num)/sum(x(:,num));%方案层的特征向量CR1(i)=(lamda-n2)/(n2-1)/ri(n2);%方案层的一致性比例endw1CR1,ts=w1*w0,CR=CR1*w0%ts为总排序的权值,CR为层次总排序的随机一致性比例%当CR小于时,认为总层次排序结果具有较满意的一致性并接受该结果,否则对判断矩阵适当修改4.灰色预测GM(1,1)模型某地区年平均降雨量数据如表某地区年平均降雨量数据规定hz=320,并认为(0)()x i<=hz为旱灾。
预测下一次旱灾发生的时间解:初始序列如下(0)x=,412,320,,,,553,310,561,300,632,540,,,576,,由于满足(0)()x i为异常值,易得下限灾变数列为x i<=320的(0)()x=(320,310,300,,hz其对应的时刻数列为t=(3,8,10,14,17)建立GM(1,1)模型(1)对原始数据t做一次累加,即t(1)=(3,11,21,35,52)(2)构造数据矩阵及数据向量(3)计算a,ba=,b=(4)建立模型y=+*exp(.253610*t)(5)模型检验(6)通过计算可以预测到第六个数据是由于与17相差,这表明下一次旱灾将发生在五年以后。
计算的MATLAB程序如下:clc,cleara=[,412,320,,,,553,310,561,300,632,540,,,576,,]';x0=find(a<=320);x0=x0';n=length(x0)lamda=x0(1:n-1)./x0(2:n)range=minmax(lamda) x1=cumsum(x0) for i=2:nz(i)=*(x1(i)+x1(i-1)); endB=[-z(2:n)',ones(n-1,1)]; Y=x0(2:n)'; u=B\Yx=dsolve('Dx+a*x=b','x(0)=x0');x=subs(x,{'a','b','x0'},{u(1),u(2),x1(1)}); yuce1=subs(x,'t',[0:n-1]); digits(6),y=vpa(x) yuce=[x0(1),diff(yuce1)] epsilon=x0-yuce delta=abs(epsilon./x0) rho=1-*u(1))/(1+*u(1))*lamda yuce1=subs(x,'t',[0:n]); yuce=[x0(1),diff(yuce1)] 预测模型在实际问题中,常遇到原始数据本身呈S 形的过程,这时,可取原始数据为(1)x ,其一次累减生成(1—IAGO )为(0)x ,建立Verhulst 模型,直接对(1)x 进行预测(模拟)。
现以中国道路交通事故死亡人数为例,建立交通事故死亡人数Verhualst 预测模型。
由《中国交通年鉴》、《中国汽车工业年鉴》等可得近年来中国道路交通事故死亡人数统计资料,见表14。
解:1990~2003年中国道路交通事故死亡人数曲线见图2,可见曲线呈S 形,故可建立Verhulst 模型进行预测,其建模过程如下。
(1)设(1)x 为1990~2003年死亡人数的原始数据序列,即(1)(1)(1)(1)(1)12314(,,...)(4.93, 5.33, 5.87, 6.35, 6.63, 7.15,7.37, 7.39, 7.81, 8.35, 9.39,10.59,10.94,10.44)x x x x x ==(2)对x(1)作一次累减生成(1—IAGO ),由得(0)(0)(0)(0)1214(,,...)(4.93, 0.4, 0.54, 0.48, 0.28, 0.52, 0.22,0.02, 0.42, 0.54,1.04,1.2, 0.35, -0.5)x x x x ==(3)对(1)x 作紧邻均值生成,令得(1)(1)(1)(1)2314(,,...)(5.13, 5.6, 6.11, 6.49, 6.89, 7.26, 7.38,7.6, 8.08, 8.87, 9.99,10.765,10.69)z z z z ==(4)对参数列进行最小二乘估计,得 (5)Verhulst 模型为(6)模型精度检验(过程略)平均相对误差Δ=%,则模型精度为二级;同时算得绝对关联度g 为,均方差比值C 为,则模型精度为一级,可见模型精度较高,可用于事故预测。