聚类分析及MATLAB实现68页PPT
- 格式:ppt
- 大小:6.10 MB
- 文档页数:68
聚类分析MATLAB§8.利⽤Matlab和SPSS软件实现聚类分析1. ⽤Matlab编程实现运⽤Matlab中的⼀些基本矩阵计算⽅法,通过⾃⼰编程实现聚类算法,在此只讨论根据最短距离规则聚类的⽅法。
调⽤函数:min1.m——求矩阵最⼩值,返回最⼩值所在⾏和列以及值的⼤⼩min2.m——⽐较两数⼤⼩,返回较⼩值std1.m——⽤极差标准化法标准化矩阵ds1.m——⽤绝对值距离法求距离矩阵cluster.m——应⽤最短距离聚类法进⾏聚类分析print1.m——调⽤各⼦函数,显⽰聚类结果聚类分析算法假设距离矩阵为vector,a阶,矩阵中最⼤值为max,令矩阵上三⾓元素等于max聚类次数=a-1,以下步骤作a-1次循环:求改变后矩阵的阶数,计作c求矩阵最⼩值,返回最⼩值所在⾏e和列f以及值的⼤⼩gfor l=1:c,为vector(c+1,l)赋值,产⽣新类令第c+1列元素,第e⾏和第f⾏所有元素为,第e列和第f列所有元素为max源程序如下:%std1.m,⽤极差标准化法标准化矩阵function std=std1(vector)max=max(vector); %对列求最⼤值min=min(vector);[a,b]=size(vector); %矩阵⼤⼩,a为⾏数,b为列数for i=1:afor j=1:bstd(i,j)= (vector(i,j)-min(j))/(max(j)-min(j));endend%ds1.m,⽤绝对值法求距离function d=ds1(vector);[a,b]=size(vector);d=zeros(a);for i=1:afor j=1:afor k=1:bd(i,j)=d(i,j)+abs(vector(i,k)-vector(j,k));endendendfprintf('绝对值距离矩阵如下:\n');disp(d)%min1.m,求矩阵中最⼩值,并返回⾏列数及其值function [v1,v2,v3]=min1(vector);%v1为⾏数,v2为列数,v3为其值[v,v2]=min(min(vector'));[v,v1]=min(min(vector));v3=min(min(vector));%min2.m,⽐较两数⼤⼩,返回较⼩的值function v1=min(v2,v3);if v2>v3v1=v3;elsev1=v2;end%cluster.m,最短距离聚类法function result=cluster(vector);[a,b]=size(vector);max=max(max(vector));for i=1:afor j=i:bvector(i,j)=max;endend;for k=1:(b-1)[c,d]=size(vector);fprintf('第%g次聚类:\n',k);[e,f,g]=min1(vector);fprintf('最⼩值=%g,将第%g区和第%g区并为⼀类,记作G%g\n\n',g,e,f,c+1); for l=1:cif l<=min2(e,f)vector(c+1,l)=min2(vector(e,l),vector(f,l));elsevector(c+1,l)=min2(vector(l,e),vector(l,f));endend;vector(1:c+1,c+1)=max;vector(1:c+1,e)=max;vector(1:c+1,f)=max;vector(e,1:c+1)=max;vector(f,1:c+1)=max;end%print1,调⽤各⼦函数function print=print1(filename,a,b); %a为地区个数,b为指标数fid=fopen(filename,'r')vector=fscanf(fid,'%g',[a b]);fprintf('标准化结果如下:\n')v1=std1(vector)v2=ds1(v1);cluster(v2);%输出结果print1('fname',9,7)2.直接调⽤Matlab函数实现2.1调⽤函数层次聚类法(Hierarchical Clustering)的计算步骤:①计算n个样本两两间的距离{d ij},记D②构造n个类,每个类只包含⼀个样本;③合并距离最近的两类为⼀新类;④计算新类与当前各类的距离;若类的个数等于1,转到5);否则回3);⑤画聚类图;⑥决定类的个数和类;Matlab软件对系统聚类法的实现(调⽤函数说明):cluster 从连接输出(linkage)中创建聚类clusterdata 从数据集合(x)中创建聚类dendrogram 画系统树状图linkage 连接数据集中的⽬标为⼆元群的层次树pdist 计算数据集合中两两元素间的距离(向量) squareform 将距离的输出向量形式定格为矩阵形式zscore 对数据矩阵 X 进⾏标准化处理各种命令解释1、T = clusterdata(X, cutoff)其中X为数据矩阵,cutoff是创建聚类的临界值。