当前位置:文档之家› 贝叶斯粗糙集

贝叶斯粗糙集

贝叶斯粗糙集
贝叶斯粗糙集

山西大学研究生学位课程论文

(2010----2011学年第一学期)

学院(中心、所):计算机信息与技术学院

专业名称:计算机应用技术

课程名称:高等数理统计

论文题目:基于贝叶斯方法的分类预测

授课教师(职称):张小琴(讲师)

研究生姓名:翁小奎

年级: 2010级

学号: 201022403005 成绩:

评阅日期:

山西大学研究生学院

2011年1月12日

基于贝叶斯方法的分类预测

摘要:本文通过对概率论与数理统计中的贝叶斯方法的学习与了解,并联系与自己研究的相关内容,介绍一下基本的贝叶斯分类模型和贝叶斯信念网络模型,并对网络模型的学习进行了讨论,从实际出发,介绍了几种可以简化模型结构、降低学习复杂性的可行方法,简要说明了这些方法在网络模型中的应用,对贝叶斯分类模型的准确性及其主要特点进行了分析。

关键词:数据挖掘分类预测贝叶斯方法信念网络

l 引言

随着数据库技术的日益成熟和广泛应用,人们收集的数据成指数地增长。尤其是伴随着因特网的诞生和普及,数据量更是急剧增加,人们而对的早已不只是本部门或本企业的庞大数据库,而是来自全球的数据汪洋。如此浩瀚的数据海洋“隐藏了什么”、“预示了什么”、“表明了什么”?人们感到“数据过剩”

和“知识贫乏”的矛盾。由此,从庞大数据集中开采有用知识的技术——数据挖掘(Data Mining)便应运而生。

分类预测是数据挖掘中的一大任务。分类就是找出一组能够描述数据集合典型特征的模型,以便住给定其他变量值的条件下能对人们感兴趣的未知变量值做出预测。分类预测的变最是范畴型的,即将未知数据映射到某种离散类别之一。分类预测模型可以通过分类挖掘算法从一组类别已知的训练样本数据中学习获得。

分类挖掘获得的分类模型可以采用多种形式描述输出,常见的有:分类规则(IF_rrHEN)、决策树、数学公式、神经网络等形式。而基于贝叶斯方法的分类模型则是一种概率模型,常可以借助有向无环图来描述这种概率模型,因此也是一种图形模型。这种图表示强调了模型结构的独立性,在计算机科学中也被称为信念网络(belief network)。在数据挖掘中,通常事先对数据的模型结构了解甚少,因此选择比较简单、灵活的模型结构或函数形式是有益的,而且较简单的模型具有更加稳定和更易于解释的优势,还经常可以为更复杂的模型提供函数分量。基于贝叶斯方法的分类预测模型就具有形式简单、易于解释,且可以很容易从不同的角度进行推广等特点。

文章从贝叶斯方法的基本观点出发,介绍基本的贝叶斯分类模型,并在此基础上对模型进行了推广,引入了贝叶斯信念网络模型,对网络模型的通用性及其学习进行了讨论。并从实际出发,提出了几种可以降低模型学习复杂性的可行方法。最后讨论了模型的准确性问题。

2 贝叶斯方法的基本观点

贝叶斯方法的特点是使用概率规则来实现学习或某种推理过程,即将学习或推理的结果表示为随机变量的概率分布,这可以解释为对不同可能性的信任程度。贝叶斯方法的出发点就是贝叶斯定理和贝叶斯假设。

假定随机向量x,θ的联合分布密度是P( x,θ),其边际密度分别为P(X),

p(θ)。一般设是测量向量,θ是未知参数向量,通过测量向量获得末知向量的

估计,贝叶斯定理记作:

从上式可以看出,对未知向量的估计综合了它的先验信息和样本信息,这正是贝叶斯方法与传统经典方法的主要区别所在:传统的参数估计方法只是从样本数据获取信息,如最大似然估计。

贝叶斯统计推断一般分为两步:

(1)根据以往对参数θ的知识,确定先验分布P(θ)。

(2)利用贝叶斯公式计算后验分布.从后验分布做出对参数的推断。

先验分布P(θ)的选取是贝叶斯方法的核心问题,如果没有任何以往的知识来帮助确定P(θ),贝叶斯提出可以采用均匀分布作为其分布,即参数在它的变化范围内,取各个值的机会均等,称这个假定为贝叶斯假设。贝叶斯假设在直觉上易于被人们所接受,但它却难处理无信息先验分布,尤其是未知参数无界的情况。另一种观点认为,先验分布的选取应与目前看到的样本相联系,即经验贝叶斯方法,这种方法将经典方法和贝叶斯方法结合在一起,用经典的方法获得样本的边际密度P(X),然后通过下式确定先验分布p(θ):

3 基本贝叶斯分类模型

基本贝叶斯分类模型将每个训练样本数据分解成一个n维特征向量X和决策类别变量C,并假定特征向量的各个分量间相对于决策变量是相对独立的。

设特征向量X = {X1,X2?,Xn}表示数据n个属性( A1,A2,……,An )

的具体取值,类别变量C有m 个不同的取值C1,C2 ....Cm ,即有m个不同的类别。则:

由贝叶斯定理知X 属于Ck 的后验概率为:

基本贝叶斯分类模型将未知类别的决策变量X 归属于类别Ck 当且仅当:

由于P(X)对于所有类别均是相同的,因此:

由于类别的事前概率是未知的,因此,可以假设各类别出现的概率相同,即P(C1)=P(C2)=?=P(Cm )。这样求公式(2)的最大转换为求P(X/Ck)最大。否则就要求P(X/Ck)P(Ck)的最大。可以通过训练样本数据集合估计P(Ck)和P(Xi/Ck)(1≤i ≤n,1≤k≤m1:

其中Sk为训练样本数据集合中类别为Ck的样本个数,s为整个训练样本数据集合的容量。 Ski为训练样本数据集合中类为Ck且属性Ai 取值Xi 的样本个数。是属性的高斯规范密度函数,分别为训练样本数据集合中类别为Ck属性Ai 的均值和方差。

4 基本贝叶斯模型的推广

基本贝叶斯分类模型关于变量独立性的假设大大减少了参数量,在一些问题中,这种假定可能是非常合理的,但在很多实际问题中,这种条件独立假定可能

是很不现实的。例如,一群人的年收入(X1 )和存款总额(X1),Ck代表他们的信

誉度,分为两类:好和坏。很显然X1和X2存在依赖性,如果假定两个变量是独立

的,显然与实际情况不符。因此,可以通过包含超出一阶范围的一些依赖性来推

广基本贝叶斯模型。这种推广可以想象是对更高阶的依赖性进行搜索,然后选择

出一些“重要的”依赖性加入模型。可以借助图形网络描述这些依赖关系,这样

实际上就建立了一种通用的图模型一信念网络,来完成分类预测任务。

一组变量X ={X1 ,X2,?,Xn }的贝叶斯信念网络可以定义为一个二元组(S,

P) 其中:S是一个有向无环图,用于表示 X中各变量间的依赖关系 P是与每个变

量相联系的局部概率分布集。因此,S=(X,E),X足图巾结点集合,E是弧集,每

条弧表示一对结点问的概率依赖。弧尾结点足弧头结点的父结点,反过来弧头结

点是弧尾结点的子结点。给定父结点,图中每个变量有条件地独立于非子结点,

结点之间缺省弧线则表示条件独立。如果以Pai表示结点的父结点集。则X的合

概率分布可表示为:

其中P(X i/Pai), 即为变量 Xi 的局部概率分布。即二元组(S,P)表示了联合概率分布P(X)。

显然.如果每个结点的父结点集只包含类别变量,则(S,P)对应一阶贝叶斯图形模型,即基本贝叶斯模型。

建立一个信念网络首先必须确定与模型相关的变量和解释,结果不是唯一的。其次是为了决定网络结构,需要将变量X1,X2,?,Xn 拓扑排序,并为每个变

量Xi确定一个子集Pai,Pai {X1,X2 ?,Xi-1 },使得Xi 与{X1,X2,?,Xi-1 }

——Pai是条件独立的,这样根据概率乘法公式有:

最后足确定局部概率分布P(Xi /Pai)。

信念网络中任一个人们感兴趣的结点都可以作为输出结点,用于代表类别属

性。

除了可以通过增加依赖性来推广模型外,还可以从许多不同的角度来推广模

型。例如,对于任何实数值Xi,可以用象正态密度这样的参数模型,也可用象核

密度函数这样的非参数模型来估计P(Xi/Ck)。另外,还可以为每个类使用不同

的模型结构,如可以用正态密度对某些类建摸,用指数混合或核密度估计等对另

一些类建模。

5 信念网络模型的学习

基本贝叶斯分类模型的计算是对一元密度的简单函数相加,所以该模型的计算复杂度大体是估计每个单独一元分类依赖密度和分布的复杂度的nm倍。对于离散型变量,充分统计量就是每个柱位(bin)中的点数,所以只要扫描数据一次就可以建立起分类模型。对于连续型变量的一元密度参数模型扫描一次也足够

了,因为只需搜集充分统计量。当然对于更复杂的密度模型可能需要扫描数据多次才能建立。

对于通用的信念网络模型,如果网络结构确定,所涉及的变量都是可测量的,那么与基本贝叶斯分类模型的概率计算过程类似。如果有些变量是隐含的,即数据不完全时,可以利用梯度下降方法帮助训练信念网络。

假设D={YlY2,??,Yn }是一组训练样本数据集,Wyk 表示对应变量X取值为Xy,其父结点Pa 取值为Pak 的局部概率。Wyk的集合设为W,则利用梯度下降方法搜索最适合数据的模型参数的Wyk 值,其目标就是使Pw (D)最大。对每个Wyk 其下降梯度为aln Pw (D)/ Wyk,沿梯度方向不断循环更新Wyk,最终将收敛于局部最优。

对于不完全数据,还可以使用期望最大化(Expection—Maxi—mization,EM)算法求极大似然(ML)或极大后验(MAP)等。尽管自有不少成热的算法、尤其是在高维空里,模型构建的难度会迅速增大。因此,在实际计算中,应尽量利用变量的条件独立性来简化模型,降低学习的复杂性。下面介绍几种可行的方法,并简要说明其在网络模型中的应用。

因式分解:因式分解足为多元数据构建简单模型的一种简单有力的方法,在信念网络构造过程中可以根据实际情况充分应用这一技术。实际上基本贝叶斯分类模型就是通过假定每个变量是相互条件独立的,而将数据的联合概率分布密度函数分解为(1)式的形式。另外还可以从数据结构中寻找这种简化的因式分解形式。例如,如果变量代表的是对同一属性的一系列测量值(不同时间),这种情况下的模型可以简化为马尔可夫链,则公式(8)中的因式就可以被简化为

P(Xi/X1,X2,?,Xi-1)=p(XilXi-1)。

引入隐含变量:通过引入隐含变量作为中间变量来简化测量变量间的依赖

关系,使得多个测量变量能相对于中间变量条件独立,从而起到简化模型结构中关系的作用当然引入中间变母必须慎重,因为带有隐含变晕的参数估汁和模型选择会使问题变得繁琐。

变量选择:变量选择是用来处理高维数据、简化模型的另一种通用技术。当用变量 X1,X2,?,Xn 来预测变量y时,很多时候并不是所有的n个变量都是准确预测所必须的,即存在冗余变量。一种简单易行的变量选择方法是使用独立概念通过样本数据来定量衡量变量问的相关性。例如,如果P(yIx1)=p(Y)对所有的Y和x1都成立的话,可以认为y独立于输入变量 X1。当然在实践中不一定能根据有限的样本确定哪些变量是独立的,但我们并不一定要根据严格的独立与不独立来选择变量,而可以根据独立的程度来选择。

6 结束语

贝叶斯分类预测模型返回的不是一个类别标记,而是每个类别的预测概率。这里是把后验概率P(CkIX)最高的类别Ck作为对任意给定X值的类别预测,因为这个类别最可能产生这个数据。这种方案具有最优性,因为其分类误差率(贝叶斯误差率):

是可能的最小误差率:没何其他分类器可以对新的未见过数据达到更低的预期误差率。

尽管基本贝叶斯模型的独立假定可能不是很切合实际,但它仍有可能作出相当精确的分类预测原因有多种,包括:要估计的参数较少,因此加强了估计的稳定性;虽然概率估计t足有偏的,但人们关心的并不是它的绝对值,而是它的排列次序,因此可能并不要紧;很多时候已经对变量进行了筛选,可能在筛选中已经去掉了高度相关变量对中的多余变量等等。

除了分类性能很好外,贝叶斯分类模型还具有形式简单、很强的可扩展性和可理解性等特点。例如,假定只有两种类别C1,和C2 ,由(2)式知其对数赔率为:

(9)可以解释为一个实例属于C1类的对数赔率可以通过把先验的贡献和每个变量分别的贡献简单相加得出,每一项log(p( x1/C,)/P(X1/C2))可以看作可能属于C1还是C2的正向或负向贡献。

毫无疑问,建立的信念网络模型越完整、越准确,对变量的密度估计就越精确,但实践表明对于很多数据集,完整的信念网络模型较之基本的贝叶斯分类模型对分类性能的改善经常是非常有限的,这说明建立精确的密度估计量和建立好的分类器是不同的。因此,在信念网络模型建立中适当地增加变量的独立性,简化模型的学习是完全合理的。

以上是本学期对高等数理统计这门课程的学习,并结合自己的研究方向查询理解的一个文章的介绍,其中主要是对概率论与数理统计这门课程中的贝叶斯方法在分类器中的应用做了介绍与研究。

参考文献:

1.Jawei Han,Micheline Kamber.Data Mining:Concepts and Teehniques[M].San Francisco.CA:Morgan Kaufmann.2000

2.Gelman A.C arlin J B.Stern H S et a1.Bayesian Data Analysis[M].hradon:Chapman and Hall,1995

3.David Hand.tteikki Mannila,Padhraie Smvth.数据挖掘原理fM1.机械工业出版社.2003

4 朱明.数据挖掘[M].中国科学技术大学出版社,2002

5史忠植.知识发现fM1.清华大学出版社,2002

集合代数与粗糙集之间的关系研究【文献综述】

文献综述 信息与计算科学 集合代数与粗糙集之间的关系研究 粗糙集理论是波兰数学家Pawlak于1982年提出的用于数据分析的理论. 由于该理论能够处理模糊和不确定性信息, 因此作为一种有效的知识获取工具受到了人工智能研究者的关注. 目前粗糙集理论已被成功应用在机器学习与知识发现、过程控制、数据挖掘、决策分析、模式识别等领域, 成为信息科学的研究热点之一. 1965年, 美国加利福尼亚大学控制论专家扎德(L. A. Zadeh)教授在《信息与控制》杂志上发表了一篇开创性论文<模糊集合>, 这标志着模糊数学的诞生. L. A. Zadeh教授多年来致力于“计算机”与“大系统”的矛盾研究, 集中思考了计算机为什么不能象人脑那样进行灵活的思维与判断问题. 计算机为什么不能象人脑思维那样处理模糊信息呢? 其原因在于传统的数学. 例如精确数学, 是建立在经典集合论的基础之上, 一个研究的对象对于某个给定的经典集合的关系要么是属于, 要么是不属于, 二者必居其一. [2]19世纪, 由于英国数学家布尔(Bool)等人的研究, 这种基于二值逻辑的绝对思维方法抽象后成为布尔代数, 它的出现促使数理逻辑成为一门很有适用价值的学科, 同时也成为计算机科学的基础. 但是, 1923年, 大哲学家罗素(Russell)就在其著名论文<论模糊性>中提出“整个语言或多或少是模糊的”及“所有二值逻辑都习惯上假定使用精确符号. 因此它仅适用于虚幻的存在. 而不适用于现实生活. 逻辑比其他学科使我们更接近天堂”[1]时认识到二值逻辑的不足. 二值逻辑无法解决一些逻辑悖论, 如著名的罗素(Russell)“理发师悖论”、“秃头悖论”、“克利特岛人说谎悖论”等等悖论问题. 这就是目前计算机不能象人脑思维那样灵活、敏捷地处理模糊信息的重要原因. 为克服这一障碍, L. A. Zadeh教授提出了“模糊集合论”. 在此基础上, 现在已形成一个模糊数学体系. 1960年柏克莱加州大学电子工程系扎德(L. A. Zadeh)教授, 提出“模糊”的概念. 1965年发表关于模糊集合理论的论文. 1966年马里诺斯(P. N. Marinos)发表关于模糊逻辑的研究报告. 以后, 扎德(L. A. Zadeh)又提出关于模糊语言变量的概念. 1974年扎德(L. A. Zadeh)进行有关模糊逻辑推理的研究. 1978年, 国际上第一本以模糊数学为主题的学术刊物《Fuzzy Sets

粗糙集理论及其应用综述

控制理论与应用 CONTROL THEORY & APPLICATIONS 1999年 第16卷 第2期 Vol.16 No.2 1999 粗糙集理论及其应用综述* 韩祯祥 张琦 文福拴 摘要:粗糙集理论是一种较新的软计算方法,可以有效地分析和处理不完备信息.该理论近年日益受到国际学术届的重视,已经在模式识别、机器学习、决策支持、过程控制、预测建模等许多科学与工程领域得到成功的应用.本文介绍了粗糙集理论的基本概念,对其在各领域的应用情况进行了综述. 关键词:粗糙集;不确定性;数据分析;软计算;粗糙控制 A Survey on Rough Set Theory and Its Application Han Zhenxiang, Zhang Qi and Wen Fushuan (Department of Electrical Engineering, Zhejiang University.Hangzhou,310 027,P.R.China) Abstract: Rough set theory is a relatively new soft comput ingtool to deal with vagueness and uncertainty.It has received much attention of the researchers around the world.Rough set theory has been applied to many area s successfully including pattern recognition,machine learning,decision support, process control and predictive modeling.This paper introduces the basic concepts of rough set.A survey on its applicatoins is also given. Key words: rough set; uncertainty; data analysis; soft computing; rough control 1 引言(Introduction) 粗糙集(Rougn Set,RS)理论是一种刻划不完整性和不确定性的数学工具,能有效地分析和处理不精确、不一致、不完整等各种不完备信息,并从中发现隐含的知识,揭示潜在的规律[1].RS理论是由波兰学者Pawlak Z在1982年[2]提出的.1991年Pawlak Z出版了专著[3],系统全面地阐述了RS理论,奠定了严密的数学基础.该书与1992年出版的RS理论应用专集[4]较好地总结了这一时期RS理论与实践的研究成果,促进了它的进一步发展,现已成为学习和应用RS理论的重要文献.从1992年至今,每年都召开以RS 为主题的国际会议,推动了RS理论的拓展和应用.国际上成立了粗糙集学术研究会,参加的成员来自波兰、美国、加拿大、日本、挪威、俄罗斯、乌克兰和印度等国家.目前RS理论已成为人工智能领域中一个较新的学术热点,引起了越来越多的科研人员的关注. 2 粗糙集理论的基本概念(Basic concepts of rough set theory) 2.1 知识与不可分辨关系(Knowledge and indiscern ibility relation) 在RS理论中,“知识”被认为一种将现实或抽象的对象进行分类的能力[3].假定

粗糙集理论

粗糙集理论与应用研究综述 王国胤1Yiyu Yao2 于洪1,2 (1重庆邮电大学计算机科学与技术研究所重庆400065) (2Department of Computer Science, University of Regina, Regina, Canada S4S 0A2) {wanggy, yuhong}@https://www.doczj.com/doc/e011834762.html,, yyao@cs.uregina.ca 摘要本文在阐释粗糙集理论基本体系结构的基础上,从多个角度探讨粗糙集模型的研究思路,分析粗糙集理论与模糊集、证据理论、粒计算、形式概念分析、知识空间等其他理论之间的联系,介绍国内外关于粗糙集理论研究的主要方向和发展状况,讨论当前粗糙集理论研究的热点研究领域,以及将来需要重点研究的主要问题。 关键词粗糙集,模糊集,粒计算,形式概念分析,知识空间,智能信息处理 A Survey on Rough Set Theory and Its Application Wang Guo-Yin1Yao Yi-Yu2 Yu Hong1,2 1 Institute of Computer Science and Technology, Chongqing University of Posts and Telecommunications, Chongqing, 400065 2 Department of Computer Science, University of Regina, Regina, Saskatchewan, Canada, S4S 0A2 Abstract This paper introduces the basic ideas and framework of rough set theory and the different views of knowledge representation in rough set theory, and then discusses the relations between the rough set theory and the other theories, such as fuzzy set, evidence theory, granular computing, formal concept analyzing, knowledge space, etc. Furthermore, the paper reviews the recent studies for this theory and a survey on its applications is also given. The future development trend of rough set theory is also discussed. Keywords rough set, fuzzy set, granular computing, formal concept analyzing, knowledge space, intelligent information processing 1 引言 智能信息处理是当前信息科学理论和应用研究中的一个热点领域。由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息,信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。 粗糙集(Rough Set,有时也称Rough集、粗集)理论是Pawlak教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具[1]。粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。 由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术[2-4],该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。目前,有三个有关粗糙集的系列国际会议,即:RSCTC、RSFDGrC和RSKT。中国学者在这方面也取得了很大的成果,从2001年开始每年召开中国粗糙集与软计算学术会议;RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列国际学术会议在中国召开。 粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。经典Pawlak模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。因此,如何推广定义近似算子成为了粗糙集理论研究的一个重点。 目前,常见的关于推广粗糙集理论的研究方法有两种,即:构造化方法和公理化方法。构造化方法是以论域上的二元关系、划分、覆盖、邻域系统、布尔子代数等作为基本要素,进而定义粗糙近似算子,从而导出粗糙集代数系统。公理化方法的基本要素是一对满足某些公理的一元集合算子,近似算子的某些公理能保证有一些特殊类型的二元关系的存在;反过来, 由二元关系通过构造性方法导出的近似算子一定满足某些公理。 事实上,有两种形式来描述粗糙集,一个是从集

基于优势关系下的模糊粗糙集模型

https://www.doczj.com/doc/e011834762.html, Fuzzy Rough Sets Based on Dominance Relations Xiaoyan Zhang Department of Mathematics and Information Science Guangdong Ocean University Zhanjiang, P. R. China 524088 datongzhangxiaoyan@https://www.doczj.com/doc/e011834762.html, Abstract This model for fuzzy rough sets is one of the most important parts in rough set theory. Moreover, it is based on an equivalence relation (indiscernibility relation). However, many systems are not only concerned with fuzzy sets, but also based on a dominance relation because of various factors in practice. To acquire knowledge from the systems, construction of model for fuzzy rough sets based on dominance relations is very necessary. The main aim to this paper is to study this issue. Concepts of the lower and the upper approximations of fuzzy rough sets based on dominance relations are proposed. Furthermore, model for fuzzy rough sets based on dominance relations is constructed, and some properties are discussed. Keywords: Rough sets; Dominance relations; fuzzy sets. 1Introduction The rough set theory [10,11], proposed by Pawlak in the early 1980s, is an extension of set theory for the study of intelligent systems. It can serve as a new mathematical tool to soft computing, and deal with inexact, uncertain or vague information. Moreover, this theory has been applied successfully in discovering hidden patterns in data, recognizing partial or total dependencies in systems, removing redundant knowledge, and many others [7,12,13,15,16]. Since its introduction, the theory has received wide attention on the research areas in both of the real-life applications and the theory itself. Theory of fuzzy sets initiated by Zedeh [9] also provides useful ways of describing and modeling vagueness in ill-defined environment. Naturally, Doubois and Prade [8] combined fuzzy sets and rough sets. Attempts to combine these two theories lead to some new notions [1,5,7], and some progresses were made [2,3,4,5,6,14]. The combination involves many types of approximations and the construction of fuzzy rough sets give a good model for solving this problem [5]. However, most of systems are not only concerned with fuzzy data, but also based on a dominance relation because of various factors. In order to obtain the succinct knowledge from the systems, construction of model for fuzzy rough sets based on dominance relations is needed. The main aim of the paper is to discuss the issue. In present paper, a dominance relation is introduced and instead of the equivalence relation (discernibility relation) in the standard fuzzy rough set theory. The lower and the upper approximation of a fuzzy rough set based on dominance relations are proposed. Thus a model for fuzzy rough sets based on dominance relations is constructed, and some properties are studied. Finally, we conclude the paper and look ahead the further research.

粗糙集基本概念

一种对集合A的划分就对应着关于A中元素的一个知识 面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识?我们如何将所学到的知识去粗取精?什么是对事物的粗线条描述什么是细线条描述? 粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成了一个集合A,我们记: A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,按照颜色的不同,我们能够把这堆积木分成 R1={红,黄,兰}三个大类,那么所有 红颜色的积木构成集合X1={x1,x2,x6}, 黄颜色的积木构成集合X2={x3,x4}, 兰颜色的积木构成集合X3={x5,x7,x8}。 按照颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必然属于且仅属于一个分类),那么我们就说颜色属性就是一种知识。在这个例子中我们不难看到,一种对集合A的划分就对应着关于A中元素的一个知识,假如还有其他的属性,比如还有形状R2={三角,方块,圆形},大小R3={大,中,小},这样加上R1属性对A构成的划分分别为:

A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}}(颜色分类) A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}}(形状分类) A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}}(大小分类) 上面这些所有的分类合在一起就形成了一个基本的知识库。那么这个基本知识库能表示什么概念呢?除了红的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}这样的概念以外还可以表达例如 大的且是三角形的{x1,x2,x5}∩{x1,x2}={x1,x2}, 大三角{x1,x2,x5}∩{x1,x2}={x1,x2}, 兰色的小的圆形({x5,x7,x8}∩{x3,x4,x7}∩ {x3,x4,x6,x7}={x7}, 兰色的或者中的积木{x5,x7,x8}∪ {x6,x8}={x5,x6,x7,x8}。 而类似这样的概念可以通过求交运算得到,比如X1与Y1的交就表示红色的三角形。所有的这些能够用交、并表示的概念以及加上上面的三个基本知识(A/R1,A/R2.A/R3)一

粗糙集理论介绍(对于初学者来说,很经典的滴)

粗糙集理论介绍面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的知识?我们如何将所学到的知识去粗取精?什么是对事物的粗线条描述什么是细线条描述?粗糙集合论回答了上面的这些问题。要想了解粗糙集合论的思想,我们先要了解一下什么叫做知识?假设有8个积木构成了一个集合A,我们记:A={x1,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,按照颜色的不同,我们能够把这堆积木分成R1={红,黄,兰}三个大类,那么所有红颜色的积木构成集合X1={x1,x2,x6},黄颜色的积木构成集合X2={x3,x4},兰颜色的积木是:X3={x5,x7,x8}。 按照颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必然属于且仅属于一个分类),那么我们就说颜色属性就是一种知识。在这个例子中我们不难看到,一种对集合A的划分就对应着关于A中元素的一个知识,假如还有其他的属性,比如还有形状R2={三角,方块,圆形},大小R3={大,中,小},这样加上R1属性对A构成的划分分别为:A/R1={X1,X2,X3}={{x1,x2,x6},{x3,x4},{x5,x7,x8}} (颜色分类)A/R2={Y1,Y2,Y3}={{x1,x2},{x5,x8},{x3,x4,x6,x7}} (形状分类)A/R3={Z1,Z2,Z3}={{x1,x2,x5},{x6,x8},{x3,x4,x7}} (大小分类) 上面这些所有的分类合在一起就形成了一个基本的知识库。那么这个基本知识库能表示什么概念呢?除了红的{x1,x2,x6}、大的{x1,x2,x5}、三角形的{x1,x2}这样的概念以外还可以表达例如大的且是三角形的{x1,x2,x5}∩{x1,x2}={x1,x2},大三角{x1,x2,x5}∩{x1,x2}={x1,x2},兰色的小的圆形({x5,x7,x8}∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7},兰色的或者中的积木{x5,x7,x8}∪{x6,x8}={x5,x6,x7,x8}。而类似这样的概念可以通过求交运算得到,比如X1与Y1的交就表示红色的三角。所有的这些能够用交、并表示的概念以及加上上面的三个基本知识(A/R1,A/R2.A/R3)一起就构成了一个知识系统记为R=R1∩R2∩R3,它所决定的所有知识是A/R={{x1,x2},{x3},{x4},{x5},{x6},{x7},{x8}}以及A/R中集合的并。 下面考虑近似这个概念。假设给定了一个A上的子集合X={x2,x5,x7},那么用我们的知识库中的知识应该怎样描述它呢?红色的三角?****的大圆?都不是,无论是单属性知识还是由几个知识进行交、并运算合成的知识,都不能得到这个新的集合X,于是我们只好用我们已有的知识去近似它。也就是在所有的现有知识里面找出跟他最像的两个一个作为下近似,一个作为上近似。于是我们选择了“兰色的大方块或者兰色的小圆形”这个概念:{x5,x7}作为X的下近似。选择“三角形或者兰色的”{x1,x2,x5,x7,x8}作为它的上近似,值得注意的是,下近似集是在那些所有的包含于X的知识库中的集合中求并得到的,而上近似则是将那些包含X的知识库中的集合求并得到的。一般的,我们可以用下面的图来表示上、下近似的概念。这其中曲线围的区域是X的区域,蓝色的内部方框是内部参考消息,是下近似,绿的是边界加上蓝色的部分就是上近似集。其中各个小方块可以被看成是论域上的知识系统所构成的所有划分。整个粗集理论的核心就是上面说的有关知识、集合的划分、近似集合等等概念。 下面我们讨论一下关于粗糙集在数据库中数据挖掘的应用问题。考虑一个数据库中的二维表如下:元素颜色形状大小稳定性 x1 红三角大稳定 x2 红三角大稳定 x3 黄圆小不稳定 x4 黄圆小不稳定 x5 兰方块大稳定 x6 红圆中不稳定 x7 兰圆小不稳定 x8 兰方块中不稳定 可以看出,这个表就是上面的那个例子的二维表格体现,而最后一列是我们的决策属性,也就是说评价什么样的积木稳定。这个表中的每一行表示了类似这样的信息:红色的大三角积木稳定,****的小圆形不稳定等等。我们可以把所有的记录看成是论域A={x1,x2,x3,x4,x5,x6,x7,x8},任意一个列表示一个属性构成了对论域的元素上的一个划分,在划分的每一个类中都具有相同的属性。而属性可以分成两大类,一类叫做条件属性:颜色、形状、大小都是,另一类叫做决策属性:最后一列的是否稳定? 下面我们考虑,对于决策属性来说是否所有的条件属性都是有用的呢?考虑所有决策属性是“稳定”的集合

粗糙集与其他软计算理论结合情况进行综述研究

粗糙集与其他软计算理论结合情况进行综述研究 摘要:最近几年,对于粗糙集的研究越来越多,尤其是粗糙集与其他软计算理论相结合的研究更为突出,取得了很多有意义的研究成果。因此,将此方面目前的主要研究情况进行一个总结,主要介绍了目前粗糙集与模糊集、神经网络、证据理论等一些其他软计算理论之间的结合研究情况,并对这方面未来的发展提出了自己的一些观点。 关键词:粗糙集; 软计算; 模糊集; 粗糙模糊集; 模糊粗糙集 Survey on com bination of rough sets and other soft computing theories TANG Jian-guo??1,2, William ZHU?1,SHE Kun?1, CHEN Wen??1,3 (1.School of Computer Science & Engineering, University of Electronic Science & Technology of China, Chengdu 611731, China;2.School of Computer Science & Engineering, Xinjiang University of Finance & Economics, Urumqi 830012, China;3.Dept. of Computer Science, Fuzhou Polytechnic, Fuzhou 350108, China)?Abstract:In recent years, there are m ore and more research on rough sets.Especially,the com binations of rough sets and other soft computing theories have becam e more prominent,and have made a lot of m eaningful research results. In view of this, this paper gave a summary of the current status of these m ajor researchs.It focused on the com bination of rough sets and other soft computing theories such as fuzzy sets,neural net,evidence theory,and so on. In the end, it put forward the own viewpoint of the future development in this area. Key words:rough sets; soft com puting; fuzzy sets; rough-fuzzy sets; fuzzy-rough sets 0 引言 随着计算机技术和网络技术的迅速发展与广泛应用,人类社会进入了信息爆炸的时代,如何处理并有效利用这些信息已经成为世界各国学者研究的热点问题。软计算就是在这种需求背景下出现的一种新技术。软计算最初是由模糊集理论的创始人Zadeh[1]在1994年提出的,它是一种通过对不确定、不精确及不完全真值的数据进行容错处理从而取得低代价、易控制处理以及鲁棒性高的方法的集合。目前,软计算的理论与方法主要包括神经网络、模糊集、粗糙集、遗传算法、证据理论等。 粗糙集是在最近几年发展较快的一门理论,它是一种用于分析和处理不确定、不精确问题的数学理论,是由波兰数学家Pawlak[2]在1982年提出的。它的基本思想是通过论域上的等价关系将论域划分成若干个等价类,然后利用这些知识对所需处理的不精确或不确定的事物进行

粗糙集综述word版

粗糙集论文 题目 粗糙集综述 1 粗糙集属性约简 1.1 经典粗糙集属性约简 对于经典粗糙集我们可以用上下近似来描述。 给定知识库()R U K ,=,对于每个子集U X ?和一个等价关系()K ind R ∈,定义两个上下近似: {}{}. |/,|/ U U φ≠?∈=?∈=X Y R U Y X R X Y R U Y X R 另外上下近似还可以用以下的等式表达: []{}[]{}. |,| U U φ≠?∈=?∈=X x U x X R X x U x X R R R 当利用区分矩阵来表达知识时有许多优点,特别是他能很容易计算约简和核。约简是满足能区别由整个属性集区别的所有对象的属性极小子集。如果A 包含B 是满足B 交区别对象x 和y 的所有属性集合的极小子集不为空,且区别对象x 和y 的所有属性集合的极小子集不为空,则B 是A 的一个约简。核是区分矩阵中所有单个元素组成的集合。 对于决策表,C 为条件属性集,D 为决策属性集,决策表S 的区分矩阵是一个n n ?矩阵,其任一元素为 },x ),(),(|{),(a *)(且y a y f a x f C a y x ω≠∈= 对于满足),(,,x y x U y ω∈ )(y )(x D pos D pos C C ?∈且, 或者

)(y )(x D pos D pos C C ∈?且, 或者 ).(),()(,D ind y x D pos y x C ?∈且 如果φφ≠?≠??),(,),(C C C **''y x a y x a 满足条件的极小子集(关于包含),则'C 是C 的D 约简(相对约简). D 核(相对核)是决策表S 的区分矩阵中所有单个元素组成的集合,即 }.,},{),(a |{)(core *U y x a y x C a C D ∈=∈=其中 1.2 变精度粗糙集属性约简 变精度粗糙集是粗糙集的扩充,它是在基本粗糙集模型的基础上引入 )5.00(<≤ββ,即允许一定程度的错误分类率存在。这一方面完善了近似空间的概念,另一方面也有利于粗糙集理论从认为不相关的数据中发现相关数据。当β=0时,经典粗糙集模型是变精度粗糙集模型的一个特例。 X 和Y 表示有限论域U 的非空子集,且Y ?X 。 令 ???>>?=0,|X |0,0,|X | |,X |/|Y X |1-Y)c(X, 多数包含关系定义为ββ ≤??),(Y Y X c X 。 约简是保持和决策属性Q 的依赖性相同的最小条件属性子集。通过近似以来的定义来引入近似约简概念。 条件属性集P 关于据测属性集Q 的β约简是P 的一个子集),,(βQ P red ,且满足: ),),,,((),,()1(ββγβγQ Q P red Q P =. 不成立。都将是中去掉任何一个属性,从)1(),,()2(βQ P red 引入)5.00(<≤ββ参数后,扩充了基本粗糙集理论,更好体现了数据分析中的数据相关性,从而为获取近似决策规则奠定了基础。

粗糙集考试资料整理

粗糙集:等价关系和分类;精确集和粗糙集;属性间的依赖程度。(一张表,互信息和依赖程度都计算) 1、粗糙集基本概念: 粗糙集(Rough Set)理论是波兰数学家Z.Pawlak于1982年提出的,是一种新的处理含糊性和不确定性问题的数学工具。相对于概率统计、模糊集等处理含糊性和不确定性的数学工具而言,粗糙集理论有这些理论不具备的优越性。统计学需要概率分布,模糊集理论需要隶属函数,而粗糙集理论的主要优势就在于它不需要关于数据的任何预备的或额外的信息。 1982 年, 波兰学者Z. Paw lak 提出了粗糙集理论, 它是一种刻划不完整性和不确定性的数学工具, 能有效地分析不精确,不一致( incon sisten t),不完整( incomp lete) 等各种不完备的信息, 还可以对数据进行分析和推理, 从中发现隐含的知识, 揭示潜在的规律. 粗糙集理论是建立在分类机制的基础上的, 它将分类理解为在特定空间上的等价关系, 而等价关系构成了对该空间的划分.粗糙集理论将知识理解为对数据的划分, 每一被划分的集合称为概念.粗糙集理论的主要思想是利用已知的知识库, 将不精确或不确定的知识用已知的知识库中的知识来(近似) 刻画.该理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性. 在粗糙集理论中,"知识"被认为是一种分类能力.人们的行为是基于分辨现实的或抽象的对象的能力, 根据事物的特征差别将其分门别类的能力均可以看作是某种"知识". 2、关系、等价关系和分类 关系R:设U是一个非空集合,R是U上的一个关系,如果R是U×U的一个子集。例如,实数集中的“>”关系就是2维平面中的子集{(x, y):x >y};整数集中的“整除”关系就是Z×Z中的子集{(a, b):存在q∈Z,使得b = ra};等等。 等价关系:满足反身性,对称性和传递性的关系。例如,相等关系,三角形的相似关系。 等价关系与集合分类:一个等价关系可以给集合一个分类(等价类);集合的一个分类也对应一个等价关系。等价类。最细的分类和最粗的分类。 由等价关系R产生的关于集合U的分类(等价类)就是这个集合包含的知识。 分类过程中, 相差不大的个体被归于同一类, 它们的关系就是不可分辨关系( indiscernability relation). 假定只用两种黑白颜色把空间中的物体分割两类, {黑色物体},{白色物体},那么同为黑色的两个物体就是不可分辨的, 因为描述它们特征属性的信息相同, 都是黑色. 如果再引入方,圆的属性, 又可以将物体进一步分割为四类: {黑色方物体},{黑色圆物体},{白色方物体},{白色圆物体}. 这时, 如果两个同为黑色方物体, 则它们还是不可分辨的. 不可分辨关系也称为一个等效关系(equivalence relationship ), 两个白色圆物体间的不可分辨关系可以理解为它们在白,圆两种属性下存在等效关系.

粗糙集理论及其发展

龙源期刊网 https://www.doczj.com/doc/e011834762.html, 粗糙集理论及其发展 作者:张也驰 来源:《管理观察》2010年第16期 摘要:粗糙集理论以其出色的处理模糊和不确定知识的能力,在数据挖掘领域占据了越来越重要的地位。文章首先描述了粗糙集理论的核心思想,接着介绍了粗糙集理论在不完备信息系 统领域的扩充,最后论述了粗糙集理论的应用发展以及未来的研究方向。 关键词:粗糙集机器学习不完备信息系统数据挖掘 1.引言 粗糙集理论[1]是由波兰数学家Z. Pawlak于20世纪80年代提出的一种新的处理不精确性和不确定性信息的数学方法。之后国内外许多学者对粗糙集理论及其应用进行了坚持不懈的研究。1991年,Pawlak出版了第一本关于粗糙集理论的专著,详细介绍了粗糙集的理论基础,它奠定了粗糙集理论的基础,但由于最初关于粗糙集理论的研究大部分是用波兰语发表的,当时并没有引起国际计算机学界和数学界的重视;1992年,在波兰Kiekrz召开了第一届国际粗糙集研讨会, 从此每年一次以粗糙集理论为主题的国际研讨会以及粗糙集学术研究会的成立,推动了国际上 对粗糙集理论与应用的深入研究。1995年,Z. Pawlak概括性地介绍了粗糙集理论[2]的基本概念及其具体研究进展。我国对粗糙集理论的研究起步较晚。 粗糙集理论是建立在分类机制基础上的,它将知识理解为对数据的划分,每一个被划分的集合称为概念或范畴,其主要思想是利用已有的知识库,将不精确知识用已知知识库中的知识来(近似)刻画。与其他处理不精确性和不确定性信息的理论相比,该理论的一个最主要的优点是其无需提供任何除现有知识以外的任何先验知识,从而具有相当的客观性。近年来,由于粗糙集理论在人工智能和认知科学中日益呈现出的重要性和优越性,特别是在机器学习、数据挖掘、决策 分析、数据库知识发现、专家系统、决策支持系统、归纳推理和模式识别等领域,受到越来越 多的研究人员的关注。 2.粗糙集理论的基本概念 粗糙集理论作为一种处理模糊和不确定性知识的数学工具,其主要思想是在保持分类能力 不变的前提下,经过知识约简,导出问题的决策或分类规则。即粗糙集理论是建立在不可分辨关系基础知识的,不可分辨关系构成了粗糙集理论的数学基础。 2.1 知识表达系统和决策表

基于邻域的粗糙集近似【开题报告】

开题报告 信息与计算科学 基于邻域的粗糙集近似 一、综述本课题国内外研究动态, 说明选题的依据和意义 粗糙集理论作为一种数据分析处理理论, 由波兰科学家Z.Pawlak[1]于1982年所创立. 自20世纪90年代起, 该理论日益受到重视, 并成为国际信息科学的研究热点之一. 它是经典集合理论的扩展[2][3], 是一种处理不精确、不一致、不完整等各种不完备信息有效的新型数学工具, 是一种天然的数据挖掘或者说是知识发现方法. 由于实际需求中的数据分类、数据挖掘、概念形成等的不充分和不完备, 人们主观对各个认识领域中的信息、知识大都也是不精确的, 这种知识、信息的不确定性就要求在知识的表示、处理时能够反映出这种不确定性. 因此, 这套理论得以开发, 同时也非常成功的应用于人工智能领域, 例如人工智能、模式识别与智能信息处理等计算机领域. 粗糙集理论不继续用确定的集合边界, 它的基础是分类机制, 将分类理解为在空间上的等价关系. 这个理论与概率论, 模糊数学和证据理论等理论有很强的互补性[4]. 它的基本要素是近似空间, 由近似空间可以导出粗糙集理论中一对基本概念: 下近似算子和上近似算子. 下近似算子是所有在给定集合的等价类中子集的元素, 而上近似算子是所有在给定集合的等价类中具有非空交集的元素. 每一个集合都能够定义上近似和下近似, 再由集合的上、下近似就可以刻画出集合中可用信息的非数值属性. 对于不同的二元关系, 可以得到不同的近似空间, 其导出的近似算子性质也各不相同[4]. 在Pawlak的粗糙集合模型中, 等价关系是必要条件. 等价关系可以看成是Pawlak的粗糙集合模型中的核心思想[5]. 粗糙集理论的主导思想是保持分辨能力不变的情况下[6], 通过知识约简得出问题的决策和分类方法. 对于分类, 可以找到不确定数据或者噪声数据内在结构; 对于特征归约, 可以用来识别、删除给定数据的属性; 对于分析, 可以根据分类而评估出每个属性的意义或贡献. 论域中的元素都与论域中的一族子集相对应, 这一族子集就称为元素的邻域, 并且族中的每一个系统都被称为元素的邻域. 二元关系中建立的模糊集合理论, 进而就相关到对应的

【文献综述】决策粗糙集均值模型

文献综述 数学与应用数学 决策粗糙集均值模型 由于社会已经进入了网络信息时代,信息量不断增长(信息爆炸),并且由于人类的参与,使数据与信息系统中的不确定性更加显著(复杂系统)。面对大量的、杂乱无章的数据,人们希望能从中挖掘出潜在的、有用的信息,这给人类的智能信息处理能力提出了前所未有的挑战。由此产生了人工智能的新领域——知识发现(规则提取、数据挖掘和机器学习)。 波兰数学家Pawlak于1982年发表了论文“Rough Sets”[9]提出了一种能够定量分析处理不精确、不一致、不完整信息与知识的理论——粗糙集理论。1992年,第一届关于粗糙集理论国际学术会议在波兰召开。粗糙集的主要特点是不需要预先给定所需处理的数据集合之外的任何信息,而是直接从给定问题的分类知识出发,提供潜在知识和决策支持。国内外学者对该理论进行了广泛而深入的研究,提出了许多粗糙集模型,并且已经成功应用于很多领域和开发了大量的实用系统[7]。目前,对粗糙集理论的研究集中在它的数学性质、粗糙集拓展、其它不确定方法的关系和互补、有效算法和粒度计算等方面。目前,有3个有关粗糙集的系列国际会议,即RSCTC、RSFDGrC和RSKT。中国学者在这方面虽然起步晚,但发展较快,从2001年开始每年召开中国粗糙集与软计算学术会议;2003年中国人工智能学会粗糙集与软计算专业委员会成立;一系列学术会议也有在中国召开,特别值得一提的是2010年第二届国际粗糙集理论研讨会在我校(浙江海洋学院)召开。中国第四届粗糙集与软计算会议也于2004年10月24日在我校召开,大大增加了我校在国内外的知名度。 在经典粗糙集理论的研究中,Pawlak的代数粗糙集模型是研究的主要对象。粗糙集理论是建立在分类机制的基础上的。它将研究对象组成的集合称为论域,将分类理解为在论域上的等价关系,而等价关系构成了对该论域的划分。粗糙集理论将知识理解为对数据的划分,每一被划分的集合称为概念或范畴。一个等价关系对应一个划分,把论域分解成子集族,作为描述论域中任意概念的基本信息粒子。这产生了一个颗粒集合,其中一个颗粒看作一丛点(对象),因其不可区分性、相似性、接近的功能而被看做一致[24]。 对于一个等价关系(划分),某些子集不能精确地由一个等价类或者几个等价类来表

粗糙集算法

DUFE 管理科学与工程研究方法概论 学号:2013100654 专业:电子商务 姓名:徐麟

粗糙集理论 一、粗糙集的来源与发展 智能信息处理是当前信息科学理论和应用研究中的一个热点领域。由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息。信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。粗糙集(RoughSet,也称Rough集、粗集)理论是Pawlak教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具。粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术,该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。经典Pawlak模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。 二、粗糙集的理论基础 1、概念、可定义集 从经典的角度来看,每个概念都包含其内涵和外延。为了给出概念内涵和外延的具体描述,我们考虑一个简单的知识表达系统,即信息表。信息表就是一组 可定义集的形式化定义如下:在信息表M中,如果称子集XAU是可被属性子集AAAt定义的,当且仅当在语言L(A)中存在一个公式<使得X=m(<)。否则,X 称为不可定义的。 2、近似空间 语言L(A)的所有可定义集正好构造成一个R代数R(U/E(A)),即Def(U,L(A))=R(U/E(A))。序对apr=(U,E(A))称为一个Pawlak近似空间,简称近似空间。所以,也可以将语言L(A)的所有可定义集记为Def(U,L(A))=Def(apr)。通过U/E(A),可以构造一个R代数,即R(U/E(A)),它包含空集á和等价关系E(A)

相关主题
文本预览
相关文档 最新文档