当前位置:文档之家› 基于改进核模糊聚类算法的软测量建模研究

基于改进核模糊聚类算法的软测量建模研究

第30卷第10期仪器仪表学报V ol.30 No. 10 2009年10月Chinese Journal of Scientific Instrument Oct. 2009 基于改进核模糊聚类算法的软测量建模研究*

徐海霞,刘国海,周大为,梅从立

(江苏大学电气信息工程学院镇江212013)

摘要:针对发酵过程软测量建模采用单模型建模方法存在计算量大和精度较差的问题,提出一种基于改进核模糊聚类算法的多模型神经网络软测量建模方法。该方法首先使用主元分析方法对样本数据进行数据处理,所得主元变量作为模型的输入变量,然后使用基于粒子群优化算法的核模糊C均值聚类算法(PSKFCM)对数据集作聚类划分,最后针对每个聚类建立局部神经网络模型,多个局部神经网络模型估计结果的融合即为软测量模型的输出。将所提建模方法应用于红霉素发酵过程生物量浓度软测量建模,结果表明所建软测量模型具有较高的精度和良好的泛化能力。

关键词:软测量;核模糊聚类;粒子群优化;多模型神经网络;发酵过程

中图分类号:TP273文献标识码:A国家标准学科分类代码:510.8020

Soft sensor modeling based on modified kernel fuzzy clustering algorithm

Xu Haixia, Liu Guohai, Zhou Dawei, Mei Congli

(School of Electrical and Information Engineering, Jiangsu University, Zhenjiang 212013, China)

Abstract:With massive data of a fermentation process, a single data-based soft sensor modeling method suffers from heavy burden calculation and poor accuracy. A novel soft sensor using multi-model neural network (MNN) based on modified kernel fuzzy clustering is proposed. Firstly, the features of sample data are extracted and the secondary variables are determined by principal component analysis (PCA). Secondly, a kernel fuzzy c-means clustering algorithm based on particle swarm optimization (PSO) is applied to group the principal data into over-lapping clusters, and neural network (NN) is used to construct sub-models based on the clusters. Finally, the esti-mation of every sub-model is fused by computing the weighted sum of the local models. The proposed modeling method is used to construct a novel soft sensor model for an erythromycin fermentation process. Case studies show that the peoposed approach has better performance compared with conventional single model.

Key words:soft sensor; kernel fuzzy c-means clustering (KFCM); particle swarm optimization (PSO); mul-ti-mode neural network (MNN); fermentation process

1引言

生物量浓度是微生物发酵过程中的关键过程参数。由于受生物传感技术发展水平的限制,一直没有很好地解决生物量浓度在线测量问题,导致先进优化控制算法只能停留在理论探讨上,难以在工业实际中得到应用。因此,一种“软测量”模型被提出并应用于生物发酵过程[1]。

近几年,利用神经网络(NN)对生物过程辨识以及在线估计已经受到广大学者的关注[2-4]。然而,由于生物发酵过程的复杂性和过程测量数据中离群点的存在,采用单一模型进行软测量建模时生物量浓度在线估计结果往往不尽人意。如对大量样本仅用一个NN建立软测量模型,会导致网络结构过于庞大,训练时间较长。因此,Bates和Granger[5]借鉴分解合成的思想通过将几个模型组合的多模型建模方法来提高模型的鲁棒性和预测能力。在多模型建模方法启发下,一种基于聚类算法的软测量建模方法得到了广泛的应用。Xue[6]提出了基于满意模糊C聚类的多模型辨识方法,得到的多模型系统能在全局拟合和局部特性之间取得良好的权衡,同时能得到

收稿日期:2009-01Received Date:2009-01

*基金项目:国家高新技术发展计划(863)(2007AA04Z179)资助项目

第10期 徐海霞 等:基于改进核模糊聚类算法的软测量建模研究 2227 每个局部模型的适用域。仲蔚等人[7]采用模糊C 均值聚

类(FCM )与RBF 神经网络相结合的策略来进行多模型

建模,实验结果表明所提多模型有较好的精度和优良的

泛化能力。

传统数据聚类算法依赖于测量数据的分布,对初始

值和噪声数据敏感,计算过程易陷入局部最优,必会影

响聚类结果和基于该结果所建软测量模型的性能。李卫

等人[8]提出的基于条件正定核函数的核模糊C 均值聚类

算法(KFCM )以及汪长娥等人[9]提出的一种改进核模糊

聚类算法较好地解决了传统数据聚类算法对数据分布的

依赖性,提高了聚类精度。但是在聚类对初始值敏感、

易陷入局部最优和收敛速度慢等方面仍没有提出有效的

解决方案。本文利用粒子群优化(PSO )算法的全局搜

索能力强、收敛速度快的优点,结合KFCM 提出了一种

基于PSO 的核模糊C 均值聚类算法(particle swarm-based

kernel fuzzy c-means clustering algorithm ,PSKFCM ),即

利用PSO 算法优化KFCM 的初始聚类中心实现数据聚

类。通过对PSKFCM 、FCM 和KFCM 的比较研究表明

PSKFCM 具有较高的分类准确率。

本文将PSKFCM 、NN 和多模型建模方法相结合,提出

了一种新的多模型NN 软测量建模方法。利用该建模方法“软

测量”红霉素发酵过程生物量浓度,结果表明本文所提软测

量建模方法具有较高的预测精度和良好的泛化能力。

2 基于PSO 的核模糊聚类算法

2.1 KFCM 简介

核模糊C 均值聚类算法(KFCM )将数据通过核函

数映射到高维特征空间后再进行FCM 聚类,一定程度上

克服了FCM 不适合多种数据分布的缺陷。若存在样本集

X ={x i | i =1, 2, …, N },FCM 的价值函数可表示为:

2

11

(,)N C

m

m ij i j i j J x v μ===-∑∑U V (1)

ij μ必须满足:

11

,1;,,[0,1];,0C N

ij ij ij j i i i j j μμμ==?=?∈?>∑∑ (2)

式中:C 为聚类个数,N 为样本数,[]ij C N μ?=U 是模糊C

划分矩阵,μij 为样本x i 对应于第j 个聚类的隶属度值,

V =[v j ]为C 个聚类中心组成的集合,m 是影响隶属度矩阵

模糊化程度的指数权重。通过拉格朗日乘子法,目标函

数可构造如下[5]:

11

(,,)(,)(

1)N C

m i ij i j J J λλμ===+-∑∑U V U V (3) 引入非线性映射:()x x φφ→,则特征空间中的样本

距离则定义为: ()()(,)(,)2(,)i j i i j j i j x v K x x K v v K x v φφ-=+- (4) 式中:K 为核函数。则KFCM 的价值函数为: 2111()()C C N m i ij i j i i j J J x v φμφφ=====-∑∑∑ (5) 文中核函数可选高斯核函数: 22(,)exp[()/]K x y x y σ=-- (6) 将式(6)代入式(4),(,)1K x x =,则式(5)可写成: 112[1(,)]C N m ij i j i j J K x v φμ===-∑∑ (7) 分别对J φ关于μ、v 求偏导,得到新的聚类中心v 和隶属度矩阵U 的更新公式: 11(,)(,)N m ij i j i i j N m ij i j i K x v x v K x v μμ===∑∑ (8) 1/(1)1/(1)1(1(,))(1(,))m i j ij C m i j j K x v K x v μ----=-=-∑ (9) 2.2 PSO 算法简介 PSO 是一种进化计算技术,由Eberhart 和Kennedy 博士提出[10],它是基于粒子群与粒子的适应度,粒子群中的个体(粒子)代表问题的一个可行解,每个粒子具有位置和速度2个特征,粒子位置坐标对应的目标函数值可作为粒子的适应度,算法通过适应度来衡量粒子的优劣。PSO 算法首先初始化一群随机产生的粒子,然后通过迭代找到其最优解。在每次迭代中,每个粒子通过跟踪2个“极值”来更新自己,一个是粒子本身所找到的最优解,即个体极值P id (t );另一个是整个群体目前找到的最优解,称为全局极值P gd (t )。粒子找到上述2个极值后,根据下列公式来更新速度和位置[10]: 1122(1)()(()())(()())id id id id gd id V t V t c r P t X t c r P t X t ω +=?+?-+?- (10) (1)()(1),(1,2,,)id id id X t X t V t i N +=++= (11) 式中:V id (t )是粒子前一时刻速度,V id (t +1)是粒子当前的速度,X id (t )是粒子的当前位置,X id (t +1)粒子产生的新位置,c 1、c 2为正整数,称为学习因子,r 1、r 2是[0,1]之间的随机数,ω为惯性因子。 2.3 基于PSO 的核模糊C 均值聚类算法(PSKFCM ) KFCM 虽然可以有效地避免传统聚类算法对数据分布的依赖性,然而实践证明,KFCM 易陷入局部最优且收敛速度缓慢。而恰当的初始值可以有效地克服这些缺陷。因此,采用PSO 对KFCM 的初始值进行优化以寻求更佳的聚类效果。本文利用PSKFCM 代替KFCM 逐次迭代的过程,在高维特征空间进行聚类,有效减小了聚

2228 仪 器 仪 表 学 报 第30卷 类的时间,提高了聚类准确性。

算法的基本思想为:设样本空间12{,,,}N = X x x x ,

其x i 为d 维向量。以PSO 中的一个粒子代表一个聚类中

心集合12(,,,)C = V v v v ,其v j 是与x i 同维的向量。取PSO

的适应度函数为:

11

11

()(,)12[1(,)]1

i C N m

ij i j i j f x J K φμ====+-+∑∑U V x v (12)

如果聚类效果得到改善,(,)J V φU 将变小,则适应

度函数 f (x i )将增加。因此,适应度函数值和聚类效果成

正向比例关系。

PSFKCM 具体算法步骤描述如下:

Step1:给定聚类数目C ,允许误差ε,t =1;

Step2:设定群体规模N ,惯性权重ω,学习因子c 1、

c 2,指数权重m ;

Step3:初始化粒子群 v 1, v 2, …, v C ,其中v j 为一个任

意产生的聚类中心的集合12{,,,}N = X x x x ,从样本集中

任取C 个向量来初始化v j ;

Step4:计算核矩阵 K (x i , v j );

Step5:针对每个样本根据式(9)计算隶属度矩阵

U (t );

Step6:由式(12)计算出f (x i ),根据式(10)、(11)

修正粒子速度和位置,根据适应度的值修改P id (t )和

P gd ( t ) ,以便产生下一代粒子;

Step7:若当前迭代次数达到预先设定的最大次数,

则停止迭代。在最后一代找到最优解,输出取得P gd 的粒

子,即聚类中心的集合,否则转到step5,t =t +1;

Step8:根据式(9)更新粒子群体的隶属度;

Step9:根据式(8)更新群体的聚类中心。计算相

邻两代隶属度矩阵之差E ,若E <ε,停止;否则转到step8。

3 多模型神经网络建模(MNN)

传统的基于数据驱动软测量建模方法主要采用单模

型结构,例如NN 、模糊分割方法以及其他一些参数建模

方法。当处理来自于工业过程中的大批量数据时,传统

单模型结构方法很难获得一个确定且有效的模型结构,

而MNN 等多模型建模方法在复杂非线性系统建模领域

具有一定的优势[11]。

MNN 是将多模型建模方法与NN 相结合,先利用主

元分析方法(PCA)有效地去除模型输入变量间的冗余信

息,以降低NN 的复杂度;然后采用PSKFCM 将主元数

据集聚类,根据分类后的数据集分别建立局部NN 模型;

最后通过计算局部NN 输出及其隶属度的加权和计算出

模型的总输出,如图1所示。

图1 MNN 建模方法的结构图 Fig.1 Architecture of MNN model 4 基于MNN 的发酵过程软测量建模 发酵过程中,利用NN 建立单模型结构软测量模型是一种典型的软测量建模方法。但是微生物发酵过程在不同时间段,生物量浓度有显著的变化,菌体在指数生长期甚至可以看作突变,用单个NN 模型建模去估计生物量浓度不仅使得模型复杂化,而且会影响预测精度。 本文提出了一种新的软测量建模方法,其模型结构如图2所示。首先,对发酵实验中获得的实验数据进行PCA 分析,获得的主元变量作为软测量模型的输入变量去估计生物量浓度。不同阶段微生物生长速率可以描述如下:首先是微生物生长缓慢的生长初期,接着是生长迅速的指数生长期,然后是生长变化较小的稳定期,最后是速率由于抑制剂原因降低到一个相对低的生长末期。通过对发酵过程微生物生长过程分析,可确定聚类数目为4。利用PSKFCM 将输入样本数据分成4类,分别建立4个子神经网络NN i (i =1,2,3,4)模型。软测量输出为各子NN 模型输出的加权和,权值为隶属度μi (i =1,2,3,4),满足限制条件式(2)。权值作如下处理: 41?/(1,2,,4)i i j j j μμμ===∑

(13) 图2 MNN 软测量模型结构示意图 Fig.2 Architecture of soft-sensing model 多模型建模中子模型可根据不同数据类来选取不同的核参数σ。由于高斯核函数是典型的局部性核函数,在聚类过程中核函数的值受类内数据影响较大,受类间数据影响较小。因此可根据聚类的类内数据及其聚类中心的平均聚类来确定核函数的宽度参数σ。计算公式定义为:

1,2,,4;1,2,,i i j l σ== (14)

第10期 徐海霞 等:基于改进核模糊聚类算法的软测量建模研究 2229 式中:v i 为第i 个聚类中心,x ij 为第i 类的第j 个样本数

据,l 为第i 个聚类所包含的样本数目。

则整个模型的输出可由下式计算出来:

4

1

?i i i F f μ==∑ (15)

式中:f i 为第i 个子NN 的输出值。

5 仿真研究

仿真实验分为2个部分:第1部分,利用IRIS 数据

[12]对PSKFCM 的聚类性能进行测试;第2部分,将本文

所提发酵过程软测量模型应用到红霉素发酵过程,验证

其有效性。建模过程中选取高斯RBF 核函数,粒子群群

体大小为20,最大的迭代步数为 1 000,学习因子

c 1=c 2=2,惯性权重ω=0.72,指数权重m =2,最小允许误

差为ε=10–5。所有计算在MATLAB6.5平台上进行。

5.1 PSKFCM 聚类性能测试实验

IRIS 数据是国际公认比较无监督聚类方法性能的典

型数据。它由4维空间的150个样本组成,分别隶属于

3个不同类别,每类50个样本。研究方案为分别采用

PSKFCM 、KFCM 和FCM 对IRIS 数据集聚类,比较它

们平均聚类错误数据个数和聚类速度,结果如表1所示。

表1 3种不同算法对IRIS 数据进行聚类的结果

(20次随机实验)

Table 1 The test results of three different clustering algo-

rithms with IRIS data (20 random tests)

聚类

算法 NC1 NC2 NC3 平均迭 代次数 平均计 算时间/s 计算核矩

阵时间/s 总时间/s

FCM 0 3 13 24 0.106 7 0 0.106 7

KFCM 0 7 1 69 7.974 0 14.100 0 22.074 0

PSKFCM 0 1 0 17 1.732 0 10.260 0 11.99 20

注:NC1、NC2和NC3分别表示IRIS 数据中类1、类2和类3中平均聚

类错误数据个数。

从表1的计算结果可以看出,PSKFCM 聚类正确率较

其他2种聚类算法要高,且运行时间较FKCM 明显缩短。

5.2 MNN 软测量模型实例研究

实验采用镇江某制药公司红霉素发酵过程数据对所

提MNN 软测量建模算法进行研究。并将其与单模型NN

软测量建模方法做了对比仿真实验。红霉素发酵过程中,

通过离线化验分析获得301#发酵罐每6 h 生物量浓度测

量值。总共采集10批发酵过程数据。首先将样本数据分

为两类:训练数据和测试数据。将1~7批(G0113、G0129、

G0214、G0301、G0308、G0310、G0401)发酵采集数据

作为训练数据集,另外3批(G0121、G0222和G0324)作为测试数据集。每批实验共采集红霉素发酵过程15个状态变量,包括时间、溶解氧、pH 值、糊精流量、豆油流量、 丙醇流量、水流量、糊精体积、豆油体积、丙醇体积、水体积、温度、相对气压、转速、空气流量和前一时刻的生物量浓度。利用PCA 对状态变量处理之后,获得的温度、pH 、相对压力、转速、前一时刻(t –1)生物量浓度、溶解氧6个主元变量作为软测量模型的输入变量,生物量浓度作为软测量模型的输出变量。本文中局部NN 选用3层前馈网络,输入层节点为6,隐含层节点为10,输出层节点为1。隐含层和输出层函数分别选用sigmoid 函数和线性函数。Levenberg-Marquardt BP 算法由于具备快速收敛性和有效的记忆功能,被选作训练局部NN 。根据微生物发酵过程生长速率曲线,确定聚类数目为4。测试数据验证MNN 软测量模型性能的仿真结果如图3所示,基于单模型NN 的软测量模型的仿真结果如图4所示,可以看出前者的预测精度要高于后者。

图3 基于MNN 的软测量模型对生物量浓度的预测仿真 Fig.3 Biomass estimation using the proposed

soft sensor based on MNN 图4 基于单模型NN 的软测量模型对 生物量浓度的预测仿真 Fig.4 Biomass estimation using the soft sensor based on single model neural network

2230 仪 器 仪 表 学 报 第30卷

为了进一步定量说明软测量模型的优劣,使用均方

误差(MSE )和最大相对误差(MRE )评价软测量模型。

它们可以表示成下式:

?max i i i

y y MRE y ?-?

= ???

(16)

MSE = (17)

式中:N 表示样本个数,y i 是生物量浓度的测量值,?i y 是

文中所提的软测量模型预测出的生物量估计值。

基于上述评价指标,比较基于MNN 和单模型NN

的软测量模型的输出,结果见表2。

表2 两种不同模型的测试误差表

Table 2 Comparison of the two methods

301# 发酵罐 MNN 单模型NN

MRE(%) MSE MRE(%) MSE

G0121 1.375 0.181 0 2.888 0.478 5

G0222 0.903 0.179 0 3.383 0.543 1

G0324 1.670 0.196 3 3.447 0.544 1

由图3和图4可以看出本文所提软测量模型对生物

量浓度预测结果的精度明显优于单模型NN 软测量模型。

3批测试样本数据验证所提方法,结果如表2所示。对

于指标MRE ,所提方法是单模型NN 软测量模型的

1/3~1/2。对于指标MSE ,所提方法的精度也提高了50%

以上。由此可见,本文所提的多模型方法具有较高的预

测精度及良好的泛化能力。

6 结 论

发酵过程是一个复杂的非线性过程,不同时间段微

生物的生长速率变化很大。本文提出了基于PSKFCM 和

多模型思想的生物发酵过程软测量建模策略。该策略考

虑了微生物的生长规律,首先通过PSKFCM 将实验样本

数据分成不同的类,再针对不同的类分别建立局部NN

模型。在KFCM 中引入PSO 算法的PSKFCM ,可以有

效避免传统聚类方法对数据分布的依赖性,并有效缓解

了传统算法收敛缓慢和易陷入局部最优的现象。仿真表

明所提出的软测量拓扑结构是合理的,该模型可以较好

地解决发酵过程生物量浓度的在线预测问题。

参考文献

[1] DOCHAIN D. State and parameter estimation in chemi-

cal and biochemical process: A tutorial[J]. Journal of

Process Control, 2003,13:801-818. [2] CRANINX M, FIEVEZ V , VLAEMINCK B, DE BAETS B. Artificial neural network models of the rumen fermen-tation pattern in dairy cattle[J]. Computers and Electron-ics in Agriculture, 2008,60:226-238. [3] ZOU H, XIA G , YANG F, et al. A neural network model based on the multi-stage optimization approach for short-term food price forcasting in china[J]. Expert Sys-tems with Applications, 2007,33:347-356. [4] 姜万录,雷亚飞,张齐生,等. 基于RBFNN 建模的动态流量软测量方法研究[J]. 仪器仪表学报, 2008,29(9): 1888-1893. JIANG W L, LEI Y F, ZHANG Q SH, et al. RBFNN modeling based dynamical flow soft sensing method[J]. Chinese Journal of Scientific Instrument, 2008,29(9): 1888-1893. [5] BATES J M, GRANGER C W J. The combination of forecasts[J]. Operations Research Quarterly, 1969,20:19- 325. [6] XUE Z K, LI S Y . A multi-model modeling approach to MIMO nonlinear systems[J]. Acta Electronic Sinica, 2005,33(1):52-56. [7] 仲蔚,俞金寿. 基于模糊c 均值聚类的多模型软测量建模[J]. 华东理工大学学报, 2000,26(1):83-87. ZHONG W, YU J SH. Study on soft sensing modeling via FCM based multiple models[J]. J of East China Univer-sity of Science and Technology, 2000,26(1):83-87. [8] 李卫,杨煜普,王娜. 基于核模糊聚类的多模型LSSVM 回归建模[J]. 控制与决策, 2008,23(5):560-562. LI W, YANG Y P, WANG N. Multi-model LSSVM re-gression modeling based on kernel fuzzy clustering[J]. Control and Decision, 2008,23(5):560-562. [9] 汪长娥,赵曙光,付新林. 一种模糊核聚类算法的改进[J]. 电子科技, 2008,21(10):49-51,55. WANG CH E, ZHAO SH G , FU X L. A modified fuzzy kernel c-means clustering algorithm[J]. Electronic Sci. & Tech., 2008,21(10):49-51,55. [10] KENNEDY J, EBERHART R C, SHI Y . Swarm intelli-gence[M]. San Francisco: Morgan Kaufman Publisher, 2001:2943-1948. [11] 杨强大,王福利,常玉清. 基于多“内在传感器”逆的诺西肽发酵过线生化参数软测量模型[J]. 仪器仪表学报, 2007,28(12):2163-2168. YANG Q D, WANG F L, CHANG Y Q. Soft-sensing model for biochemical parameters in Nosiheptide fer-

第10期徐海霞等:基于改进核模糊聚类算法的软测量建模研究2231

mentation process based on multiple “inherent sensor”

inversion[J]. Chinese Journal of Scientific Instrument,

2007,28(12):2163-2168.

[12]BEZDEK J C, KELLER J M, KRISHNAPURAM R, et al.

Will the real IRIS data please stand up[J]. IEEE Trans on

Fuzzy System, 1999,7(3):368-369.

作者简介

徐海霞,2007年于盐城师范学院获得

学士学位,现于江苏大学电气信息工程学

院攻读硕士学位,主要研究方向为生物发

酵软测量建模。

E-mail: hai.x.x@https://www.doczj.com/doc/0c16350467.html,

Xu Haixia received BSc degree from Yancheng Teachers University in 2007. Since September 2007, she has studied in Jiangsu University as a MSc degree candi-date. Her main research interest is soft sensor modeling in fer-mentation process.

刘国海,1985年于原江苏工学院获得

学士学位,1988年于东南大学获得硕士学

位,2002年于东南大学获得博士学位,现

为江苏大学教授、博士生导师,主要研究方

向为电机控制、生物发酵控制、复杂系统控

制和非线性智能控制等。

E-mail: ghliu@https://www.doczj.com/doc/0c16350467.html,

Liu Guohai received BSc degree from Jiangsu University in 1985 and M. Sc. degree from Southeast University in 1988. In 2002, he received PhD degree in control theory and control engineering from Southeast University. He is currently a pro-fessor in Jiangsu University. His main research interests are electric machine control, fermentation process control, complex system control and nonlinear control, etc.

模糊聚类分析报告例子

1. 模糊聚类分析模型 环境区域的污染情况由污染物在4个要素中的含量超标程度来衡量。设这5个环境区域的污染数据为1x =(80, 10, 6, 2), 2x =(50, 1, 6, 4), 3x =(90, 6, 4, 6), 4x =(40, 5, 7, 3), 5x =(10, 1, 2, 4). 试用模糊传递闭包法对X 进行分类。 解 : 由题设知特性指标矩阵为: * 80106250164906464057310124X ????????=???????? 数据规格化:最大规格化' ij ij j x x M = 其中: 12max(,,...,)j j j nj M x x x = 00.8910.860.330.560.1 0.860.671 0.60.5710.440.510.50.11 0.1 0.290.67X ????????=?? ?????? 构造模糊相似矩阵: 采用最大最小法来构造模糊相似矩阵55()ij R r ?=, 1 0.540.620.630.240.5410.550.700.530.62 0.5510.560.370.630.700.5610.380.240.530.370.381R ?? ??? ???=?? ?????? 利用平方自合成方法求传递闭包t (R ) 依次计算248,,R R R , 由于84R R =,所以4()t R R =

2 10.630.620.630.530.6310.560.700.530.62 0.5610.620.530.630.700.6210.530.530.530.530.531R ?? ??????=?? ??????, 4 10.630.620.630.530.6310.620.700.530.62 0.6210.620.530.630.700.6210.530.53 0.530.530.531R ????????=?? ?????? =8R 选取适当的置信水平值[0,1]λ∈, 按λ截矩阵进行动态聚类。把()t R 中的元素从大到小的顺序编排如下: 1>0.70>0.63>062>053. 依次取λ=1, 0.70, 0.63, 062, 053,得 11 000001000()0 010******* 0001t R ????? ? ??=?? ??????,此时X 被分为5类:{1x },{2x },{3x },{4x },{5x } 0.7 1000001010()001000101000001t R ?????? ??=?? ??????,此时X 被分为4类:{1x },{2x ,4x },{3x },{5x } 0.63 1101011010()001001101000001t R ?????? ??=?? ??????,此时X 被分为3类:{1x ,2x ,4x },{3x },{5x } 0.62 1111011110()11110111100 0001t R ?????? ??=?? ?????? ,此时X 被分为2类:{1x ,2x ,4x ,3x },{5x }

模糊聚类分析

目录 1引言: (3) 2 理论准备: (3) 2.1 模糊集合理论 (3) 2.2模糊C均值聚类(FCM) (4) 2.3 加权模糊C均值聚类(WFCM) (4) 3 聚类分析实例 (5) 3.1数据准备 (5) 3.1.1数据表示 (5) 3.1.2数据预处理 (5) 3.1.3 确定聚类个数 (6) 3.2 借助clementine软件进行K-means聚类 (7) 3.2.1 样本在各类中集中程度 (8) 3.2.2 原始数据的分类结果 (8) 3.2.3结果分析 (9) 3.3模糊C均值聚类 (10) 3.3.1 数据集的模糊C划分 (10) 3.3.2 模糊C均值聚类的目标函数求解方法 (10) 3.3.3 MATLAB软件辅助求解参数设置 (11) 3.3.4符号表示 (11)

3.3.5代码实现过程 (11) 3.3.6 FCM聚类分析 (11) 3.4 WFCM算法 (14) 3.4.1 WFCM聚类结果展示 (14) 3.4.2样本归类 (16) 3.4.3归类代码实现 (16) 4.结论 (17) 5 参考文献 (18) 6 附录 (18)

模糊聚类与非模糊聚类比较分析 摘要: 聚类分析是根据样本间的相似度实现对样本的划分,属于无监督分类。传统的聚类分析是研究“非此即彼”的分类问题,分类结果样本属于哪一类很明确,而很多实际的分类问题常伴有模糊性,即它不仅仅是属于一个特定的类,而是“既此又彼”。因此为了探究模糊聚类与非模糊聚类之间聚类结果的差别,本文首先采用系统聚类方法对上市公司132支股票数据进行聚类,确定比较合理的聚类数目为11类,然后分别采用K-means聚类与模糊聚类方法对股票数据进行聚类分析,最终得出模糊聚类在本案例中比K-means聚类更符合实际。 关键字:模糊集合,K-means聚类,FCM聚类,WFCM聚类 1引言: 聚类分析是多元统计分析的方法之一,属于无监督分类,是根据样本集的内在结构,按照样本之间相似度进行划分,使得同类样本之间相似性尽可能大,不同类样本之间差异性尽可能大。传统的聚类分析属于硬化分,研究对象的性质是非此即彼的,然而,现实生活中大多数事物具有亦此亦彼的性质。因此传统的聚类分析方法往往不能很好的解决具有模糊性的聚类问题。为此,模糊集合理论开始被应用到分类领域,并取得不错成果。 本文的研究目的是通过对比传统聚类和模糊聚类的聚类结果,找出二者之间的不同之处,并说明两种聚类分析方法在实例中应用的优缺点。 2理论准备: 2.1 模糊集合理论 模糊集合定义:设U为论域,则称由如下实值函数μA:U→ [ 0,1 ],u →μ ( u )所确定的集合A 为U上的模糊集合,而称μA为模糊集合A 的隶A 属函数,μ A ( u)称为元素u 对于A 的隶属度。若μA(u) =1,则认为u完全属于A;若μA(u) =0,则认为u完全不属于A,模糊集合是经典集合的推广。

模糊聚类分析方法

模糊聚类分析方法 对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。载科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类。例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。 一、模糊聚类分析的一般步骤 1、第一步:数据标准化[9] (1) 数据矩阵 设论域12{,,,}n U x x x =为被分类对象, 每个对象又有m 个指标表示其性状,即 12{,, ,}i i i im x x x x = (1,2,,) i n =, 于是,得到原始数据矩阵为 1112 1 21222 12 m m n n nm x x x x x x x x x ?? ? ? ? ??? 。 其中nm x 表示第n 个分类对象的第m 个指标的原始数据。 (2) 数据标准化 在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间[0,1]上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。通常有以下几种变换: ① 平移·标准差变换

i k k ik k x x x s -'= (1,2,,;1,2,i n k m == 其中 11n k i k i x x n ==∑, k s =。 经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但 是,再用得到的ik x '还不一定在区间[0,1]上。 ② 平移·极差变换 111m i n { }m a x {}m i n {}i k i k i n ik ik ik i n i n x x x x x ≤≤≤≤≤≤''-''=''- ,(1,2, ,)k m = 显然有01ik x ''≤≤,而且也消除了量纲的影响。 ③ 对数变换 lg ik ik x x '= (1,2,,;1,2,i n k m == 取对数以缩小变量间的数量级。 2、第二步:标定(建立模糊相似矩阵) 设论域12{,, ,}n U x x x =,12{,,,}i i i im x x x x =,依照传统聚类方法确定相似 系数,建立模糊相似矩阵,i x 与j x 的相似程度(,)ij i j r R x x =。确定(,)ij i j r R x x =的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。 (1) 相似系数法 ① 夹角余弦法 2 2m ik jk ij m ik jk x x r x = ∑∑ ② 最大最小法 11() () m ik jk k ij m ik jk k x x r x x ==∧= ∨∑∑。 ③ 算术平均最小法

模糊C均值聚类算法及实现(最新整理)

模糊C均值聚类算法及实现 摘要:模糊聚类是一种重要数据分析和建模的无监督方法。本文对模糊聚类进行了概述,从理论和实验方面研究了模糊c均值聚类算法,并对该算法的优点及存在的问题进行了分析。该算法设计简单,应用范围广,但仍存在容易陷入局部极值点等问题,还需要进一步研究。关键词:模糊c均值算法;模糊聚类;聚类分析 Fuzzy c-Means Clustering Algorithm and Implementation Abstract: Fuzzy clustering is a powerful unsupervised method for the analysis of data and construction of models.This paper presents an overview of fuzzy clustering and do some study of fuzzy c-means clustering algorithm in terms of theory and experiment.This algorithm is simple in design,can be widely used,but there are still some problems in it,and therefore,it is necessary to be studied further. Key words: fuzzy c-Mean algorithm;fuzzy clustering;clustering analysis 1 引言 20世纪90年代以来,随着信息技术和数据库技术的迅猛发展,人们可以非常方便地获取和存储大量的数据。但是,面对大规模的数据,传统的数据分析工具只能进行一些表层的处理,比如查询、统计等,而不能获得数据之间的内在关系和隐含的信息。为了摆脱“数据丰富,知识贫乏”的困境,人们迫切需要一种能够智能地、自动地把数据转换成有用信息和知识的技术和工具,这种对强有力数据分析工具的迫切需求使得数据挖掘技术应运而生。 将物理或抽象对象的集合分组成由类似的对象组成的多个类的过程称为聚类。由聚类所生成的簇是一组数据对象的集合,这些对象与同一个簇中的对象彼此相似,与其它簇中的对象相异。 聚类是一种重要的数据分析技术,搜索并且识别一个有限的种类集合或簇集合,进而描述数据。聚类分析作为统计学的一个分支,己经被广泛研究了许多年。而且,聚类分析也已经广泛地应用到诸多领域中,包括数据分析、模式识别、图像处理以及市场研究[1]。通过聚类,人们能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间的有趣的相互关系。在商务上,聚类能帮

模糊聚类分析应用

本科生毕业论文(设计) ( 2011 届) 论文(设计)题目模糊聚类分析应用 作者舒海波 系、专业理学分院数学与应用数学 班级应数072 指导教师(职称)何颖俞(讲师) 字数 9403 字 成果完成时间2011年4月10日 杭州师范大学钱江学院教学部制

模糊聚类分析应用 数学与应用数学专业0702班指导教师何颖俞 摘要:模糊聚类简单而言就是把数据中的指标分类。本文利用的是最大树法对等价矩阵进行聚类,然后利用fcm法对相似矩阵的求法进行比较。 关键字:模糊聚类,等价矩阵,最大树,相似矩阵 The application of fuzzy clustering Shuhaibo Instructor: HeYingYu Abstract: Fuzzy clustering is a method to classify the given data based on some indexes. In this paper I use the method of the maximal tree to classify the equivalent matrix, and then use clustering analysis method of FCM to comparison the solutions of the similar matrices. Key word: fuzzy clustering, equivalence matrix, the maximal tree, similar matrix

目录 1 绪论 (1) 2模糊聚类分析方法 (1) 2.1距离和相似系数 (1) 2.2 F相似关系 (2) 2.2.1定义 (2) 2.2.2 定理 (2) 2.3 聚类分析 (3) 2.3.1最大树法 (4) 3算法分类 (4) 3.1聚类方法的分类 (5) 3.1.1划分方法(partitioning method) (5) 3.1.2层次方法(hierarchical method) (5) 3.1.3基于密度的方法(density-based method) (5) 3.1.4基于网格的方法(grid-based method) (5) 3.1.5基于模型的方法(model-based method) (5) 3.2.数据挖掘领域中常用的聚类算法 (5) 3.2.1 CLARANS算法(随机搜索聚类算法) (5) 3.2.2 CURE算法(利用代表点聚类) (6) 3.2.3 BIRCH算法(利用层次方法的平衡迭代归约和聚类) (6) 3.2.4 DBSCAN算法(基于高密度连接区域的密度聚类方法) (6) 3.2.5 STING算法(统计信息风格) (7) 3.2.6 COBWEB算法(流行的简单增量概念聚类算法) (7) 3.2.6 模糊聚类算法FCM (8) 3.3 聚类算法的性能比较 (8) 4实际应用 (9) 5总结 (13) 参考文献: (13)

Matlab学习系列23. 模糊聚类分析原理及实现

23. 模糊聚类分析原理及实现 聚类分析,就是用数学方法研究和处理所给定对象,按照事物间的相似性进行区分和分类的过程。 传统的聚类分析是一种硬划分,它把每个待识别的对象严格地划分到某个类中,具有非此即彼的性质,这种分类的类别界限是分明的。 随着模糊理论的建立,人们开始用模糊的方法来处理聚类问题,称为模糊聚类分析。由于模糊聚类得到了样本数与各个类别的不确定性程度,表达了样本类属的中介性,即建立起了样本对于类别的不确定性的描述,能更客观地反映现实世界。 本篇先介绍传统的两种(适合数据量较小情形,及理解模糊聚类原理):基于择近原则、模糊等价关系的模糊聚类方法。 (一)预备知识 一、模糊等价矩阵 定义1 设R=(r ij )n ×n 为模糊矩阵,I 为n 阶单位矩阵,若R 满足 i) 自反性:I ≤R (等价于r ii =1); ii) 对称性:R T =R; 则称R 为模糊相似矩阵,若再满足 iii) 传递性:R 2 ≤R (等价于1 ()n ik kj ij k r r r =∨∧≤) 则称R 为模糊等价矩阵。 定理1 设R 为n 阶模糊相似矩阵,则存在一个最小的自然数k

(k

基于差分进化算法的模糊核聚类算法及其在故障诊断中的应用

第42卷第17期电力系统保护与控制 Vol.42 No.17 2014年9月1日 Power System Protection and Control Sep. 1, 2014 基于差分进化算法的模糊核聚类算法及其 在故障诊断中的应用 张新萍1,张孝远2,刘 杰3 (1.许继集团有限公司,河南 许昌 461000;2.河南工业大学电气工程学院,河南 郑州 450001; 3.河南职业技术学院,河南 郑州 450000) 摘要:针对模糊核聚类方法中,核函数参数的确定问题以及聚类结果的有效评价问题,提出采用差分进化算法进行核函数参数和聚类中心的同时寻优策略。并将Xie-Beni指标推广至核空间,设计了有效的适应度函数以实现聚类效果的提升。对所提出的方法进行数值试验,同时应用在电机轴承的故障诊断中,取得了不错的效果,验证了方法的可行性。 关键词:模糊聚类;核函数;差分进化算法;故障诊断 Fuzzy kernel-clustering algorithm based on differential evolution algorithm and its application in fault diagnosis ZHANG Xin-ping1, ZHANG Xiao-yuan2, LIU Jie3 (1. XJ Group Corporation, Xuchang 461000, China; 2. College of Electrical Engineering, Henan University of Technology, Zhengzhou 450001, China; 3. Henan Polytechnic, Zhengzhou 450000, China) Abstract: In allusion to the determination of the kernel parameters and the effective evaluation of the clustering results of Fuzzy Kernel-clustering Algorithm (FKCA), differential evolution algorithm (EA) is used to search the optimal kernel parameter and the clustering centers. Furthermore, the Xie-Beni index is promoted to the kernel space, and a new fitness function is designed to improve the clustering performance. The proposed method is applied in the standard benchmark as well as the motor bearing fault dataset. The results shows that the proposed method is a promising clustering method for fault diagnosis. This work is supported by High-level Personnel Funds of Henan University of Technology (No. 2013BS059). Key words: fuzzy clustering; kernel function; differential evolution algorithm; fault diagnosis 中图分类号:TM74 文献标识码:A 文章编号:1674-3415(2014)17-0102-05 0 引言 滚动轴承是电机系统中连接动静部分的一个媒介,其运行状态直接关系到整个电机系统及其互联生产系统的安全稳定运行。据报道,约有50%以上的电机故障是与其轴承有关的[1]。因此,对电机轴承开展状态监测与故障诊断研究具有十分重要的现实意义与工程应用前景。采用现代传感技术从轴承获取运行中的振动信号,进而基于振动信号开展故障诊断是该领域的一个研究热点。基于振动信号分析的故障诊断本质上是一类模式识别问题[2-4]。当前的一些诊断方法多采用人工神经网络、支持向量机等有监督的机器学习方法进行故障诊断。这些方 基金项目:河南工业大学高层次人才基金项目(2013BS059)法在处理未知新型故障时将束手无策。基于聚类分析的无监督学习方法能够根据故障样本的属性相似性自动聚为不同的类别,因而在故障诊断领域有着广阔的应用前景。 聚类分析是一种无监督的机器学习方法,其在不知样本类别的情况下,通过类内样本具有较高相似度,类间样本具有较大差别的特性将数据样本划分为多个类或簇。当前,聚类分析技术正在蓬勃发展,在诸多领域得到广泛应用,如数据分析、模式识别、图像处理、信息检索、故障诊断、预测分析等[5-7]。有关聚类分析的方法很多,模糊C均值聚类算法(Fuzzy C-means, FCM)是其中的一种经典有效的聚类算法。然而经典的FCM算法在处理非线性聚类问题时遇到困难,因此学者们将核函数引入到FCM中,提出模糊核聚类算法[8-10]。模糊核聚类算

Matlab笔记-模糊聚类分析原理及实现

23. 模糊聚类分析原理及实现 聚类分析,就是用数学方法研究和处理所给定对象,按照事物间的相似性进行区分和分类的过程。 传统的聚类分析是一种硬划分,它把每个待识别的对象严格地划分到某个类中,具有非此即彼的性质,这种分类的类别界限是分明的。 随着模糊理论的建立,人们开始用模糊的方法来处理聚类问题,称为模糊聚类分析。由于模糊聚类得到了样本数与各个类别的不确定性程度,表达了样本类属的中介性,即建立起了样本对于类别的不确定性的描述,能更客观地反映现实世界。 本篇先介绍传统的两种(适合数据量较小情形,及理解模糊聚类原理):基于择近原则、模糊等价关系的模糊聚类方法。 (一)预备知识 一、模糊等价矩阵 定义1设R=(r ij )n ×n 为模糊矩阵,I 为n 阶单位矩阵,若R 满足 i) 自反性:I ≤R (等价于r ii =1); ii) 对称性:R T =R; 则称R 为模糊相似矩阵,若再满足 iii) 传递性:R 2 ≤R (等价于1 ()n ik kj ij k r r r =∨∧≤) 则称R 为模糊等价矩阵。

定理1设R 为n 阶模糊相似矩阵,则存在一个最小的自然数k (k

模糊聚类分析方法汇总

模糊聚类分析方法 对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。载科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类。例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。 一、模糊聚类分析的一般步骤 1、第一步:数据标准化[9] (1) 数据矩阵 设论域12{,,,}n U x x x =为被分类对象,每个对象又有m 个指标表示其性状, 即 12{,, ,}i i i im x x x x = (1,2, ,)i n =, 于是,得到原始数据矩阵为 11 121212221 2 m m n n nm x x x x x x x x x ?? ? ? ? ??? 。 其中nm x 表示第n 个分类对象的第m 个指标的原始数据。 (2) 数据标准化 在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间[0,1]上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。通常有以下几种变换: ① 平移·标准差变换

ik k ik k x x x s -'= (1,2,,;1,2,,)i n k m == 其中 11n k ik i x x n ==∑, k s = 经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但 是,再用得到的ik x '还不一定在区间[0,1]上。 ② 平移·极差变换 111min{}max{}min{}ik ik i n ik ik ik i n i n x x x x x ≤≤≤≤≤≤''-''=''-,(1,2,,)k m = 显然有01ik x ''≤≤,而且也消除了量纲的影响。 ③ 对数变换 lg ik ik x x '= (1,2,,;1,2,,)i n k m == 取对数以缩小变量间的数量级。 2、第二步:标定(建立模糊相似矩阵) 设论域12{,, ,}n U x x x =,12{,, ,}i i i im x x x x =,依照传统聚类方法确定相似 系数,建立模糊相似矩阵,i x 与j x 的相似程度(,)ij i j r R x x =。确定(,)ij i j r R x x =的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。 (1) 相似系数法 ① 夹角余弦法 21 m ik jk ij m ik jk k x x r x == ∑∑。 ② 最大最小法 11() () m ik jk k ij m ik jk k x x r x x ==∧= ∨∑∑。 ③ 算术平均最小法

模糊聚类法

模糊聚类分析法及其应用 (汽车学院钟锐 2011122071) 摘要模糊聚类分析方法是一种多元统计分析方法, 它通过多个指标将样本划分为若干类, 这种分类方法能很好地应用于交通规划、交通流分析、安全评价等多个方面。文章以交通调查的选择为例说明了模糊聚类分析在规划过程中的具体应用, 并分析了模糊聚类分析在交通规划其他方面的应用。在交通调查中, 可利用模糊聚类分析将交通分区按工业、居住、公建、道路绿化广场等各项用途来进行分类。可相应减少同类交通分区的相似调查工作量。 关键词模糊聚类分析; 交通规划; 交通调查 1 问题的提出 交通规划旨在确定公路和城市道路交通建设的发展目标, 设计达到这些目 标的策略、过程与方案。交通规划包括目标确定、组织工作、数据调查、相关基本模型分析、分析预测、方案设计、方案评价、方案实施过程中的信息反馈和修改等工作阶段。在交通规划的很多阶段, 需要进行分类。例如可将众多的交通小区划分成几大类, 将具有相似特性的交通小区归于一类, 可以减少调查的工作量; 对线路网络进行分析评价时, 也需要进行分类。单一的指标往往不能全面反映交通分区之间的关系, 需要用多个指标来进行。在分类方法中,聚类分析是一种应用很广泛的方法, 它在交通规划领域应用较多。 2 聚类分析方法 聚类分析取意于“人以群分, 物以类聚”的俗语, 即将一组事物根据其性质上亲疏远近的程度进行分类, 把性质相近的个体归为一类, 使得同一类中的个体具有高度的同质性, 不同类之间的个体具有高度的异质性。为使分类合理, 必须描述个体之间的亲疏程度。对此, 通常有距离法、相关系数法等方法。距离法是将每个样本看成m( m 为统计指标的个数) 维空间的一个点, 在m 维空间中定义点与点之间的某种距离; 相关系数法是用某种相似系数来描述样本之间的关系, 如相关系数。聚类的方法有很多, 如系统聚类法、模糊聚类法、分裂法、

基于模糊聚类的可扩展的协同过滤算法研究

基于模糊聚类的可扩展的协同过滤算法研究1 王惠敏聂规划 武汉理工大学经济学院电子商务系,武汉(430070) Email: huiminwangbj@https://www.doczj.com/doc/0c16350467.html, 摘要:本文主要分析了传统协同过滤算法的不足,提出了一种新的电子商务推荐算法。该算法将模糊聚类技术用于划分相似的项目和相似的用户,在项目的划分中采用基于项目的协同过滤算法计算出用户对未评分项目的初始评分,在此基础上在用户的划分中采用基于用户的协同过滤算法完成预测评分。实验结果表明,该算法改善了协同过滤算法的数据稀疏性和可扩展性问题,提高了推荐系统的推荐质量。 关键词:电子商务;协同过滤;模糊聚类;推荐系统 中图分类号:TP391 1. 引言 电子商务推荐系统是基于可得到的信息资源向用户推荐适合其需要的信息或商品的系统[1]。电子商务推荐技术是电子商务推荐系统中最核心、最关键的技术,很大程度上决定了推荐系统性能的优劣。目前电子商务推荐技术主要有基于内容的推荐技术和协同过滤推荐技术[2]。协同过滤作为目前最成功的推荐算法被广泛的应用,其目标是根据具有相似偏好的用户的观点向目标用户推荐新的商品。协同过滤推荐算法基本上可以分为 Memory-based 协同过滤推荐算法和 Model-based 协同过滤推荐算法两类[3]。Memory-based 协同过滤算法利用整个用户—项目评分数据集来产生推荐,系统利用统计技术搜寻一组用户,称为邻居,他们与目标用户有一致的历史偏好。Memory-based 协同过滤算法主要有基于用户的协同过滤推荐算法和基于项目的协同过滤推荐算法。基于用户的协同过滤根据评分相似的最近邻居的评分数据向目标用户产生推荐。基于用户的协同过滤虽然当给出足够清楚的偏好信息时,它通常表现出良好的性能,但随着站点结构,内容的复杂度和用户人数的不断增加,一些缺点逐渐暴露出来,主要存在稀疏性和可扩展性两个问题。通常在电子商务网站中,用户购买或评分的商品相对于总商品数量仅占有限的百分比,为总数量的1%以下,这导致用户-项目评分数据集稀疏。在这种数据量大而评分数据又极端稀疏的情况下,一方面难以成功的定位邻居用户集,影响推荐精度;另一方面在整个用户空间上计算相似用户群的过程不可避免地成为了算法的瓶颈。并且输入数据通常包含大量的用户和商品,致使系统扩展困难,推荐质量下降。针对基于用户的协同过滤推荐算法面临的问题,研究者们提出了基于项目的协同过滤推荐算法[3]。基于项目的协同过滤推荐依赖于项目的相信似度来决定推荐。算法的不足之处是只能推荐那些和用户当前购买的商品相类似的商品,不能挖掘用户的潜在兴趣,作出“跨类型”的推荐。 聚类分析是数据处理的一种重要手段和工具,通过把样本按照某种相似性准则划分成各种不同的类别,从而发现人们感兴趣的内容。聚类技术已被广泛地大数据集的处理,研究者们也将其应用于协同过滤可扩展性问题的改善。张海燕等运用模糊聚类技术将项目的属性特性的相似性与基于项目的协同过滤推荐算法相融合,以改善推荐质量[4]。Xue G. R.采 1 本课题得到国家自然科学基金“基于知识网络的电子商务智能推荐系统研究”(70572079)资助 - 1 -

模糊聚类分析方法

第二节 模糊聚类分析方法 在科学技术、经济管理中常常要按一定的标准(相似程度或亲疏关系)进行分类。例如,根据生物的某些性状可对生物分类,根据土壤的性质可对土壤分类等。对所研究的事物按一定标准进行分类的数学方法称为聚类分析,它是多元统计“物以类聚”的一种分类方法。由于科学技术、经济管理中的分类界限往往不分明,因此采用模糊聚类方法通常比较符合实际。 一、模糊聚类分析的一般步骤 1、第一步:数据标准化[9] (1) 数据矩阵 设论域12{,,,}n U x x x = 为被分类对象,每个对象又有m 个指标表示其性状,即 12{,,,}i i i im x x x x = (1,2,,i n = , 于是,得到原始数据矩阵为 11 121 2122 2 1 2 m m n n nm x x x x x x x x x ?? ? ? ? ??? 。 其中nm x 表示第n 个分类对象的第m 个指标的原始数据。 (2) 数据标准化 在实际问题中,不同的数据一般有不同的量纲,为了使不同的量纲也能进行比较,通常需要对数据做适当的变换。但是,即使这样,得到的数据也不一定在区间[0,1]上。因此,这里说的数据标准化,就是要根据模糊矩阵的要求,将数据压缩到区间[0,1]上。通常有以下几种变换: ① 平移·标准差变换

i k k ik k x x x s -'= (1,2,,; 1,2,i n k m == 其中 1 1n k i k i x x n == ∑ , k s = 经过变换后,每个变量的均值为0,标准差为1,且消除了量纲的影响。但 是,再用得到的ik x '还不一定在区间[0,1]上。 ② 平移·极差变换 111m i n { } m a x {}m i n {} i k i k i n ik ik ik i n i n x x x x x ≤≤≤≤≤≤''-''=''-,(1,2,,)k m = 显然有01ik x ''≤≤,而且也消除了量纲的影响。 ③ 对数变换 lg ik ik x x '= (1,2,,; 1,2,i n k m == 取对数以缩小变量间的数量级。 2、第二步:标定(建立模糊相似矩阵) 设论域12{,,,}n U x x x = ,12{,,,}i i i im x x x x = ,依照传统聚类方法确定相似系数,建立模糊相似矩阵,i x 与j x 的相似程度(,)ij i j r R x x =。确定(,)ij i j r R x x =的方法主要借用传统聚类的相似系数法、距离法以及其他方法。具体用什么方法,可根据问题的性质,选取下列公式之一计算。 (1) 相似系数法 ① 夹角余弦法 m ik jk ij x x r = ∑ ② 最大最小法 11 () () m ik jk k ij m ik jk k x x r x x ==∧= ∨∑∑。 ③ 算术平均最小法

模糊聚类分析

四 模糊聚类分析方法 模糊聚类分析,是从模糊集的观点来探讨事物的数量分类的一类方法。这里将主要介绍基于模糊等价关系与基于最大模糊支撑树的模糊聚类分析方法。 一、基于模糊等价关系的模糊聚类分析方法 基于模糊等价关系的模糊聚类分析方法的基本思想是:由于模糊等价关系~R 是论域集U 与自己的直积U U ?上的一个模糊子集,因此可以对~ R 进行分解,当用λ-水平对~R 作截集时,截得的U U ?的普通子集~ R λ就是U 上的一个普通等价关系,也就得到了关于U 中被分类对象元素的一种分类。当λ由1下降到0时,所得的分类由细变粗,逐渐归并,从而形成一个动态聚类谱系图。由此可见,分类对象集U 上的模糊等价关系~ R 的建立是这种聚类分析方法中的一个关键性的环节。(一)建立模糊等价关系 为了建立分类对象集合U 上的模糊等价关系R *,通常需要首先计算各个 分类对象之间的相似性统计量,建立分类对象集合U 上的模糊相似关系~R 。1.模糊相似关系的建立关于各分类对象之间相似性统计量r ij 的计算,除了 采用夹角余弦公式和相似系数计算公式以外,还可以采用如下几个计算公式。(1)数量积法: 在(1)式中,M 是一个适当选择之正数,一般而言,它应满足: (2)绝对值差数法: 在(2)式中,c 为适当选择之正数,使0≤r ij <1(i≠j)。 (3)最大最小值法: (4)算术平均最小法: (5)绝对值指数法:

(6)指数相似系数法: 在(6)式中,s k 是第k 个指标的方差,即 2 将模糊相似关系~R 改造为迷糊等价关系~R *。由于模糊相似关系~ R 满足自反性和对称性,但一般而言,它并不满足传递性,也就是说它并不是模糊等价关系。因此,为了聚类,我们必须采用传递闭合的性质将这种模糊相似关系~ R 改造为模糊等价关系~R *。改造的办法是将~ R 自乘,即这样下去,就必然会存在一个自然数K ,使得: 这时,~~ k R R *=便是一个模糊等价关系了。 (二)在不同的截集水平下进行聚类 用上述模糊等价关系~ R *,在不同的截集水平下聚类,可以得到不同的聚类结果: 二、基于最大模糊支撑树的模糊聚类分析方法 除了依据模糊等价关系进行聚类分析外,还可以应用最大模糊支撑树进行聚类分析。基于最大模糊支撑树的聚类分析过程,可按如下步骤进行。第一步:建立分类对象集上的模糊相似关系,构造模糊图。这一步骤的工作可按如下作法进行: 计算各个分类对象之间的相似性统计量r ij (i ,j=1,2,…,m),建 立分类对象集U 上的模糊相似关系~ ()ij m n R r ?=。将~ R 表示成一个由m 个结点所构成的模糊图G=(V,E),使G 中的任意两个结点V i 与V j 之间都有一条边相连结,且赋该边的权值为r ij 。假若,对于某五个地理区域所构成的分类对象集合V={v 1,v 2,v 3,v 4,v 5}, 经过选择聚类要素并对其原始数据进行标准化处理后,计算各分类对象之间的相似性统计量,得到如下的模糊相似关系

模糊C均值聚类算法的C 实现代码讲解

模糊C均值聚类算法的实现 研究背景 模糊聚类分析算法大致可分为三类 1)分类数不定,根据不同要求对事物进行动态聚类,此类方法是基于模糊等价矩阵聚类的,称为模糊等价矩阵动态聚类分析法。 2)分类数给定,寻找出对事物的最佳分析方案,此类方法是基于目标函数聚类的,称为模糊C均值聚类。 3)在摄动有意义的情况下,根据模糊相似矩阵聚类,此类方法称为基于摄动的模糊聚类分析法 聚类分析是多元统计分析的一种,也是无监督模式识别的一个重要分支,在模式分类图像处理和模糊规则处理等众多领域中获得最广泛的应用。它把一个没有类别标记的样本按照某种准则划分为若干子集,使相似的样本尽可能归于一类,而把不相似的样本划分到不同的类中。硬聚类把每个待识别的对象严格的划分某类中,具有非此即彼的性质,而模糊聚类建立了样本对类别的不确定描述,更能客观的反应客观世界,从而成为聚类分析的主流。 模糊聚类算法是一种基于函数最优方法的聚类算法,使用微积分计算技术求最优代价函数,在基于概率算法的聚类方法中将使用概率密度函数,为此要假定合适的模型,模糊聚类算法的向量可以同时属于多个聚类,从而摆脱上述问题。 我所学习的是模糊C均值聚类算法,要学习模糊C均值聚类算法要先了解虑属度的含义,隶属度函数是表示一个对象x隶属于集合A的程度的函数,通常记做μ A (x),其自变量范围是所有可能属于集合A的对象(即集合A所在空间中的 所有点),取值范围是[0,1],即0<=μ A (x)<=1。μ A (x)=1表示x完全隶属于集合 A,相当于传统集合概念上的x∈A。一个定义在空间X={x}上的隶属度函数就定义了一个模糊集合A,或者叫定义在论域X={x}上的模糊子集 ~ A。对于有限个对 象x 1,x 2 ,……,x n 模糊集合 ~ A可以表示为: } |) ), ( {( ~ X x x x A i i i A ∈ =μ (6.1) 有了模糊集合的概念,一个元素隶属于模糊集合就不是硬性的了,在聚类的问题中,可以把聚类生成的簇看成模糊集合,因此,每个样本点隶属于簇的隶属度就是[0,1]区间里面的值。 FCM算法需要两个参数一个是聚类数目C,另一个是参数m。一般来讲C要远远小于聚类样本的总个数,同时要保证C>1。对于m,它是一个控制算法的柔性的参数,如果m过大,则聚类效果会很次,而如果m过小则算法会接近HCM 聚类算法。 算法的输出是C个聚类中心点向量和C*N的一个模糊划分矩阵,这个矩阵表示的是每个样本点属于每个类的隶属度。根据这个划分矩阵按照模糊集合中的最大隶属原则就能够确定每个样本点归为哪个类。聚类中心表示的是每个类的平均

模糊聚类分析及matlab程序实现

模糊聚类分析及matlab 程序实现 采用模糊数学语言对按一定的要求进行描述和分类的数学方法称为模糊聚 类分析。聚类分析主要经过标定和聚类两步骤。 【1】 1 标定(建立模糊相似矩阵) 城市居民食品零售价格,第t 时刻第i 种食品的零售价记为),(t i x 。 相似矩阵R 的构建方法:NTV 法 设时间序列),(j i A 表示食品i 在时间t 的价格,其中i=1,2…42;t=1,2…39。 ∑∑ ==--=m k jk ik m k jk ik x x x x j i R 11 ),max( 1),((其中i,j,k=1,2…42,m=39) 42*42),(j i R R = 2 聚类 2.1 计算R 的传递闭包: 对模糊相似矩阵R,依次用平方法计算,2 R ,4R ,…,t 2R ,…,当第一次出现k k k R R R =*时,则称k R 为传递闭包。【1】 2.2 开始聚类: 【2】 (1)令T={1,2,3…42},取)1(xi T ∈ ,令X 、Q 为空集; (2)令0=j ; (3)若λ>=),(j xi R 且X x j ?,则令}{j X X ?=,}{j Q Q ?=; (4)1+=j j ; (5)若n j <,返回(1); (6)若Q 为空集,怎输出聚类x,X -T T =; (7))1(xi Q =,}{xi Q Q -=,返回(2)。 设置不同的置信水平λ值,就可以得到不同的分类。 Matlab 程序实现: A=data; [N M] = size(A); for i = 1:N for j = 1:N R(i,j)=abs(1-sum(abs(A(i,:)-A(j,:)))/sum(max([A(i,:);A(j,:)])));

相关主题
文本预览
相关文档 最新文档