《粗糙集理论与方法》读书笔记
- 格式:doc
- 大小:169.00 KB
- 文档页数:20
粗糙集理论和模糊集理论的异同与结合应用粗糙集理论和模糊集理论是两种常用的数学工具,用于处理不确定性和模糊性问题。
虽然它们在某些方面有相似之处,但在其他方面又有明显的差异。
本文将探讨粗糙集理论和模糊集理论的异同,并介绍它们如何结合应用。
首先,我们来看看粗糙集理论和模糊集理论的异同。
粗糙集理论是由波兰学者Pawlak于1982年提出的一种数学方法,用于处理不完备和不一致的信息。
它的核心思想是通过分析决策属性和条件属性之间的关系,来确定对象的分类和特征。
而模糊集理论则是由日本学者石原均于1973年提出的一种数学方法,用于处理模糊和不确定的信息。
它的核心思想是引入隶属函数来描述事物的隶属度,从而实现模糊分类和模糊推理。
粗糙集理论和模糊集理论在处理不确定性问题时有一些相似之处。
首先,它们都能够处理模糊和不完备的信息,帮助我们更好地理解和分析复杂的现实问题。
其次,它们都能够提供一种数学框架,用于描述和推理模糊和不确定的概念。
最后,它们都能够应用于多个领域,如医学诊断、决策支持、图像处理等。
然而,粗糙集理论和模糊集理论在处理不确定性问题时也存在一些明显的差异。
首先,粗糙集理论更关注于数据的粗粒度分析,即将对象划分为不同的等价类,而模糊集理论更关注于数据的细粒度分析,即通过隶属函数来描述对象的隶属度。
其次,粗糙集理论更注重于数据的不确定性和不完备性,而模糊集理论更注重于数据的模糊性和不确定性。
最后,粗糙集理论更适用于处理离散的数据,而模糊集理论更适用于处理连续的数据。
尽管粗糙集理论和模糊集理论在处理不确定性问题时有一些差异,但它们也可以结合应用,以提高问题的解决效果。
例如,在医学诊断中,可以使用粗糙集理论来确定疾病的分类和特征,然后使用模糊集理论来描述病情的模糊程度和不确定性。
这样可以更准确地判断病情和选择治疗方案。
在决策支持中,可以使用粗糙集理论来分析决策属性和条件属性之间的关系,然后使用模糊集理论来描述决策的模糊性和不确定性。
粗糙集理论介绍面对日益增长的数据库,人们将如何从这些浩瀚的数据中找出有用的学问?我们如何将所学到的学问去粗取精?什么是对事物的粗线条描述什么是细线条描述?粗糙集合论Pl答了上面的这些问题。
要想了解粗糙集合论的思想,我们先要了解一下什么叫做学问?假设有8个积木构成了一个集合A,我们记:A={xl,x2,x3,x4,x5,x6,x7,x8},每个积木块都有颜色属性,根据颜色的不同,我们能够把这积累木分成Rl={红,黄,兰} 三个大类,那么全部红颜色的积木构成集合Xl = {xl,x2,x6},黄颜色的积木构成集合X2={x3,x4},兰颜色的积木是:X3={x5,x7,x8}o根据颜色这个属性我们就把积木集合A进行了一个划分(所谓A的划分就是指对于A中的任意一个元素必定属于且仅属于一个分类),那么我们就说颜色属性就是一种学问。
在这个例子中我们不难看到,一种对集合A的划分就对应着关于A中元素的一个学问,假如还有其他的属性,比如还有外形R2={三角,方块,圆形},大小R3={大,中,小},这样加上Rl 属性对A 构成的划分分别为:A/R1={X1 ,X2,X3}={(X1 ,x2,x6},{x3,x4)4x5,x7,x8},(颜色分类) A∕R2={Yl,Y2,Y3}={{xl,x2},{x5,x8},{x3,x4,x6,x7}}(外形分类)A∕R3={Z1,Z2,Z3)={{x1,x2,x5},{x6,x8},{x3,x4,x7}}(大小分类) 上面这些全部的分类合在•起就形成了•个基本的学问库。
那么这个基本学问库能表示什么概念呢?除了红的{xl,x2,x6}、大的{xl,x2,x5}、三角形的{xl,x2)这样的概念以外还可以表达例如大的且是三角形的{xl,x2,x5}∩{xl,x2)={xl,x2}, 大三角{xl,x2,x5}∩{xl,x2}={xl,x2},兰色的小的圆形({x5,x7,x8)∩{x3,x4,x7}∩{x3,x4,x6,x7}={x7},兰色的或者中的积木{x5,x7,x8} U {x6,x8)={×5,x6,x7,x8}β而类似这样的概念可以通过求交运算得到,比如Xl与Yl的交就表示红色的三角。
粗糙集理论在药物发现与设计中的应用随着科技的不断发展,药物发现与设计成为了现代医学领域的重要研究方向。
而在这个过程中,粗糙集理论的应用也逐渐受到了关注。
粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它可以帮助科研人员更好地理解和分析药物的特性,从而提供指导药物发现与设计的依据。
首先,粗糙集理论可以帮助科研人员进行药物特性分析。
药物的特性包括化学结构、生物活性、毒性等多个方面。
而这些特性之间往往存在着复杂的相互关系。
粗糙集理论通过建立属性间的关联关系,可以帮助科研人员从海量的数据中提取出有用的信息,进而分析药物的特性。
例如,科研人员可以通过建立药物分子与生物活性之间的关联关系,快速筛选出具有潜在生物活性的化合物,从而缩小药物发现的范围,提高研究效率。
其次,粗糙集理论可以帮助科研人员进行药物筛选与评价。
在药物发现与设计的过程中,科研人员需要从大量的候选化合物中选择出具有潜在药效的化合物。
而这个过程往往需要考虑到多个指标,如生物活性、毒性、药代动力学等。
粗糙集理论可以通过建立属性间的关联关系,帮助科研人员对候选化合物进行筛选与评价。
通过构建属性间的约简关系,科研人员可以快速剔除那些不符合要求的化合物,从而缩小筛选范围,提高筛选效率。
此外,粗糙集理论还可以帮助科研人员进行药物相互作用的预测。
药物相互作用是指药物与生物体内其他分子之间的相互作用关系,它对于药物的疗效和安全性具有重要影响。
粗糙集理论可以通过建立药物分子与其他分子之间的关联关系,预测药物相互作用的可能性。
这对于药物发现与设计来说具有重要意义,可以帮助科研人员更好地理解药物的作用机制,从而指导药物的设计与优化。
总之,粗糙集理论在药物发现与设计中具有广泛的应用前景。
它可以帮助科研人员进行药物特性分析、药物筛选与评价以及药物相互作用的预测。
通过粗糙集理论的应用,科研人员可以更好地理解和分析药物的特性,为药物发现与设计提供有力的支持。
相信随着粗糙集理论的不断发展和完善,它将在药物发现与设计领域发挥越来越重要的作用,为人类的健康事业做出更大的贡献。
如何使用粗糙集理论解决复杂系统的分析问题粗糙集理论是一种用于解决复杂系统分析问题的有效方法。
它源于20世纪80年代初,由波兰学者Pawlak提出,并逐渐发展成为一种重要的数据挖掘和知识发现技术。
粗糙集理论的核心思想是通过模糊和粗糙的概念,对数据进行描述和分析,从而揭示系统内部的规律和关系。
在使用粗糙集理论解决复杂系统分析问题时,首先需要对系统进行建模。
建模是指将复杂的系统抽象成一组属性和关系的集合,以便于进行分析和推理。
建模的关键在于选择合适的属性和关系,以及确定它们之间的相互作用方式。
在这个过程中,我们可以利用领域知识、统计方法和数据挖掘技术等手段,对系统进行全面而准确的描述。
建模完成后,接下来是利用粗糙集理论进行数据分析。
粗糙集理论的核心工具是粗糙集近似算法,它能够在不完备和不确定的情况下,对数据进行有效的近似和推理。
具体而言,粗糙集近似算法通过对数据集进行粗化和约简操作,将数据集中的不相关和冗余信息剔除,从而得到一个更简洁和有效的数据表示。
这样一来,我们就可以更好地理解和分析数据,发现其中的规律和关系。
在进行数据分析时,我们还可以借助粗糙集理论的一些衍生技术,如粗糙集聚类和粗糙集分类等。
粗糙集聚类是一种无监督学习方法,它能够将数据集中的对象划分成若干个不相交的类别,每个类别内部的对象相似度较高,而不同类别之间的相似度较低。
通过粗糙集聚类,我们可以对复杂系统中的对象进行分类和聚类,从而更好地理解和描述系统的结构和行为。
另外,粗糙集分类是一种基于规则的分类方法,它能够根据已有的数据和知识,对新的对象进行分类和预测。
粗糙集分类的核心思想是通过建立决策规则,将对象映射到相应的类别或属性值上。
通过粗糙集分类,我们可以对复杂系统中的对象进行预测和决策,从而指导实际应用和决策制定。
除了数据分析和建模,粗糙集理论还可以应用于多领域的问题解决。
比如,在医学领域,粗糙集理论可以用于疾病诊断和治疗方案选择等问题;在金融领域,粗糙集理论可以用于风险评估和投资决策等问题;在工程领域,粗糙集理论可以用于系统优化和故障诊断等问题。
粗糙集理论的属性重要性评估方法及其实际应用引言:粗糙集理论是一种用于处理不确定性和模糊性问题的数学工具,它在数据挖掘、模式识别和决策分析等领域中得到了广泛的应用。
在粗糙集理论中,属性重要性评估是一个重要的问题,它能够帮助我们识别出对决策结果具有重要影响的属性,从而提高决策的准确性和可靠性。
本文将介绍一种基于粗糙集理论的属性重要性评估方法,并探讨其在实际应用中的价值。
一、粗糙集理论概述粗糙集理论是由波兰学者Pawlak于1982年提出的,它是一种处理不确定性和模糊性问题的数学工具。
粗糙集理论通过将对象的属性进行划分,将属性值之间的差异进行模糊化处理,从而实现对不完备和不精确数据的分析和决策。
粗糙集理论的核心思想是近似和约简,即通过近似的方法对数据进行简化和压缩,从而提取出最重要的信息。
二、属性重要性评估方法在粗糙集理论中,属性重要性评估是一个关键问题。
属性重要性评估的目标是确定哪些属性对决策结果的影响最大,从而帮助我们进行决策和分析。
常用的属性重要性评估方法有正域、核和约简等方法。
1. 正域方法正域方法是一种基于粗糙集的属性重要性评估方法。
它通过计算属性在正域中的覆盖度来评估属性的重要性。
正域是指在给定条件下能够唯一确定决策结果的属性取值,它反映了属性对决策结果的贡献程度。
正域方法的优点是简单直观,容易理解和计算,但它没有考虑属性之间的依赖关系。
2. 核方法核方法是一种基于粗糙集的属性重要性评估方法。
它通过计算属性在核中的约简度来评估属性的重要性。
核是指在给定条件下能够唯一确定决策结果的最小属性集合,它反映了属性对决策结果的决定性影响。
核方法考虑了属性之间的依赖关系,能够更准确地评估属性的重要性,但计算复杂度较高。
3. 约简方法约简方法是一种基于粗糙集的属性重要性评估方法。
它通过对属性集合进行约简,得到一个最小的属性子集,从而实现对属性的重要性评估。
约简方法的优点是能够同时考虑属性之间的依赖关系和决策结果的覆盖度,能够更全面地评估属性的重要性。
优化粗糙集理论的计算效率的方法与思路粗糙集理论是一种用于处理不确定性和模糊性的数学工具,它在数据挖掘、模式识别和决策分析等领域具有广泛的应用。
然而,由于粗糙集理论的计算复杂性,其在大规模数据集上的应用效率仍然面临一些挑战。
本文将探讨一些优化粗糙集理论计算效率的方法与思路。
1. 数据预处理在应用粗糙集理论之前,数据预处理是非常重要的一步。
数据预处理可以通过去除冗余特征、处理缺失值和异常值等方式,减少数据集的复杂度,从而提高计算效率。
此外,数据预处理还可以通过数据降维的方法,如主成分分析(PCA)和线性判别分析(LDA),将高维数据转化为低维数据,进一步简化计算过程。
2. 并行计算并行计算是提高粗糙集理论计算效率的有效方法之一。
通过将计算任务分解为多个子任务,并在多个处理器上同时进行计算,可以大大加快计算速度。
并行计算可以采用多线程、多进程或分布式计算的方式实现。
在实际应用中,可以根据计算任务的特点选择合适的并行计算方法,以提高计算效率。
3. 基于采样的方法基于采样的方法是一种常用的优化粗糙集理论计算效率的方法。
通过对原始数据集进行采样,可以得到一个较小的样本集,从而减少计算量。
在进行采样时,可以采用随机采样、分层采样或聚类采样等方法,以保持样本集的代表性。
然后,可以在采样集上进行粗糙集理论的计算,得到近似的结果。
基于采样的方法可以在一定程度上平衡计算效率和结果准确性之间的关系。
4. 基于增量计算的方法基于增量计算的方法是一种可以提高粗糙集理论计算效率的思路。
该方法通过将新数据与已有的决策规则进行合并,避免了重复计算。
当新数据进入系统时,可以根据已有的决策规则进行增量计算,更新决策规则集。
这样可以减少计算量,并在动态数据集上实现实时计算。
5. 基于优化算法的方法基于优化算法的方法是一种更加高级的优化粗糙集理论计算效率的思路。
该方法通过寻找最优的决策规则集或最小的约简集,来减少计算量。
常用的优化算法包括遗传算法、粒子群算法和模拟退火算法等。
粗糙集理论与方法
粗糙集理论与方法是一种用于处理不确定性和不完全信息的数学方法。
该方法最早由波兰科学家Zdzislaw Pawlak于1982年提出,其基本思想是基于约简和分割的思想对样本空间进行建模和分析。
粗糙集理论主要包括以下几个关键概念和步骤:
1. 近似集:粗糙集理论认为,一个对象可能属于多个不同的概念或类别,且我们不能确定其准确的分类。
因此,利用近似集的概念,我们可以将对象分成精确区域和不确定区域。
精确区域是指可以准确分类的对象,而不确定区域是指不能确定分类的对象。
2. 上近似和下近似:在粗糙集理论中,上近似是指包含所有精确分类对象的集合,而下近似是指包含所有不确定分类对象的集合。
上近似和下近似的交集被称为约简。
3. 属性重要性:对于给定的属性,粗糙集理论可以通过属性重要性来判断其对分类结果的贡献程度。
属性重要性可以通过信息熵、信息增益等指标来度量。
4. 属性约简:属性约简是粗糙集理论中的一个重要步骤,它的目的是通过删除某些不重要的属性来减少样本空间的复杂性,同时保持样本分类的准确性。
属性约简可以通过贪婪算法、遗传算法等进行求解。
粗糙集理论与方法在数据挖掘、决策分析、模式识别等领域具有广泛应用。
它可以处理不完整、不确定、模糊等问题,帮助人们对复杂的数据进行分析和决策。
使用粗糙集理论进行决策分析的步骤详解决策分析是一种重要的决策支持工具,它能够帮助决策者在面对复杂的决策问题时做出科学、合理的决策。
粗糙集理论作为一种有效的决策分析方法,被广泛应用于各个领域。
本文将详细介绍使用粗糙集理论进行决策分析的步骤。
第一步:确定决策目标在进行决策分析之前,首先需要明确决策的目标。
决策目标可以是一个具体的数值,也可以是一个范围。
例如,我们要选择一种新的市场营销策略,我们的目标可以是提高销售额10%,或者是在5%到15%之间。
第二步:确定决策因素决策因素是影响决策结果的各种因素。
在确定决策因素时,需要考虑各种可能的因素,并将其列出。
例如,对于市场营销策略的决策问题,决策因素可以包括市场需求、竞争对手、产品特点等。
第三步:收集数据在进行决策分析之前,需要收集相关的数据。
数据可以来自各种渠道,包括调查问卷、市场调研、历史数据等。
收集到的数据应该是可靠的、全面的,并且覆盖到所有的决策因素。
第四步:建立决策模型建立决策模型是使用粗糙集理论进行决策分析的核心步骤。
在建立决策模型时,需要将收集到的数据进行处理,以得到有用的信息。
粗糙集理论的核心概念是上近似集和下近似集。
上近似集是指满足某些条件的对象的集合,而下近似集是指不满足某些条件的对象的集合。
通过计算上近似集和下近似集,可以得到不同决策因素之间的关系,并进行决策分析。
第五步:进行决策分析在建立决策模型之后,可以进行决策分析。
决策分析的目的是根据已有的信息,确定最优的决策方案。
在进行决策分析时,可以使用各种决策方法,如最大值法、加权平均法等。
根据具体的决策问题,选择合适的决策方法进行分析。
第六步:评估决策结果在确定最优的决策方案之后,需要对决策结果进行评估。
评估决策结果的目的是判断决策方案的可行性和有效性。
评估决策结果可以使用各种指标,如收益率、风险指标等。
根据评估结果,可以对决策方案进行调整和优化。
第七步:实施决策方案在评估决策结果之后,可以开始实施决策方案。
粗糙集理论与模糊集理论的对比与应用在现代科学和工程领域中,粗糙集理论和模糊集理论是两个重要的数学工具,用于处理不确定性和模糊性问题。
尽管两者都是处理模糊信息的方法,但它们在理论基础、表达能力和应用领域上存在一些差异。
首先,粗糙集理论是由波兰学者Pawlak于1982年提出的,它主要用于处理信息的不完全性和不确定性。
粗糙集理论的核心思想是基于特征的粗糙集和决策的粗糙集。
特征的粗糙集是指在给定条件下,某个对象的属性集合,而决策的粗糙集是指在给定条件下,某个对象的决策集合。
粗糙集理论通过计算特征的下近似和决策的上近似来描述不确定性信息。
粗糙集理论的优势在于它能够处理大规模数据和不完整数据,并且不需要先验知识。
相比之下,模糊集理论是由日本学者山下昌良于1965年提出的,它主要用于处理模糊性问题。
模糊集理论的核心思想是引入隶属度函数来描述元素与模糊集之间的隶属关系。
隶属度函数可以将元素映射到0到1之间的一个实数,表示元素在模糊集中的隶属程度。
模糊集理论通过模糊运算和模糊推理来处理模糊信息。
模糊集理论的优势在于它能够处理模糊和不确定性的信息,并且能够提供清晰的结果和决策。
在应用方面,粗糙集理论和模糊集理论都有广泛的应用领域。
粗糙集理论常用于数据挖掘、模式识别和决策支持系统等领域。
例如,在数据挖掘中,粗糙集理论可以帮助识别数据中的模式和规律。
在模式识别中,粗糙集理论可以用于特征选择和特征提取。
在决策支持系统中,粗糙集理论可以用于决策规则的生成和评估。
模糊集理论的应用领域包括模糊控制、模糊优化和模糊决策等。
例如,在模糊控制中,模糊集理论可以用于建立模糊规则和模糊推理,从而实现对模糊系统的控制。
在模糊优化中,模糊集理论可以用于处理带有模糊目标函数和约束条件的优化问题。
在模糊决策中,模糊集理论可以用于处理带有模糊决策变量和模糊偏好的决策问题。
总之,粗糙集理论和模糊集理论是两个重要的数学工具,用于处理不确定性和模糊性问题。
《粗糙集理论与方法》读书笔记智能信息处理是当前信息科学理论和应用研究中的一个热点领域。
由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息,信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。
特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。
1 粗糙集概述粗糙集(Rough Set,有时也称Rough集、粗集)理论是Pawlak 教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。
由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术,该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。
目前,有三个有关粗糙集的系列国际会议,即:RSCTC、RSFDGrC和RSKT。
中国学者在这方面也取得了很大的成果,从2001年开始每年召开中国粗糙集与软计算学术会议;RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列国际学术会议在中国召开。
粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。
经典Pawlak模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。
因此,如何推广定义近似算子成为了粗糙集理论研究的一个重点。
目前,常见的关于推广粗糙集理论的研究方法有两种,即:构造化方法和公理化方法。
构造化方法是以论域上的二元关系、划分、覆盖、邻域系统、布尔子代数等作为基本要素,进而定义粗糙近似算子,从而导出粗糙集代数系统。
《粗糙集理论与方法》读书笔记智能信息处理是当前信息科学理论和应用研究中的一个热点领域。
由于计算机科学与技术的发展,特别是计算机网络的发展,每日每时为人们提供了大量的信息,信息量的不断增长,对信息分析工具的要求也越来越高,人们希望自动地从数据中获取其潜在的知识。
特别是近20年间,知识发现(规则提取、数据挖掘、机器学习)受到人工智能学界的广泛重视,知识发现的各种不同方法应运而生。
1 粗糙集概述粗糙集(Rough Set,有时也称Rough集、粗集)理论是Pawlak 教授于1982年提出的一种能够定量分析处理不精确、不一致、不完整信息与知识的数学工具粗糙集理论最初的原型来源于比较简单的信息模型,它的基本思想是通过关系数据库分类归纳形成概念和规则,通过等价关系的分类以及分类对于目标的近似实现知识发现。
由于粗糙集理论思想新颖、方法独特,粗糙集理论已成为一种重要的智能信息处理技术,该理论已经在机器学习与知识发现、数据挖掘、决策支持与分析等方面得到广泛应用。
目前,有三个有关粗糙集的系列国际会议,即:RSCTC、RSFDGrC和RSKT。
中国学者在这方面也取得了很大的成果,从2001年开始每年召开中国粗糙集与软计算学术会议;RSFDGRC2003、IEEE GrC2005、RSKT2006、IFKT2008、RSKT2008、IEEE GrC2008等一系列国际学术会议在中国召开。
粗糙集理论与应用的核心基础是从近似空间导出的一对近似算子,即上近似算子和下近似算子(又称上、下近似集)。
经典Pawlak模型中的不分明关系是一种等价关系,要求很高,限制了粗糙集模型的应用。
因此,如何推广定义近似算子成为了粗糙集理论研究的一个重点。
目前,常见的关于推广粗糙集理论的研究方法有两种,即:构造化方法和公理化方法。
构造化方法是以论域上的二元关系、划分、覆盖、邻域系统、布尔子代数等作为基本要素,进而定义粗糙近似算子,从而导出粗糙集代数系统。
公理化方法的基本要素是一对满足某些公理的一元集合算子,近似算子的某些公理能保证有一些特殊类型的二元关系的存在;反过来, 由二元关系通过构造性方法导出的近似算子一定满足某些公理。
事实上,有两种形式来描述粗糙集,一个是从集合的观点来进行,一个是从算子的观点来进行。
那么,从不同观点采用不同的研究方法就得到粗糙集的各种扩展模型。
扩展模型的研究以及基于其上的应用研究已经成为新的研究热点。
粗糙集理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。
因此,研究粗糙集理论和其他理论的关系也是粗糙集理论研究的重点之一。
如果我们将研究对象看成是现象,那么我们可以将这些现象分类。
现象被分为确定现象与不确定现象。
不确定现象有分为随机现象,模糊现象和信息不全的粗糙现象。
如下所示:相对于前两种现象的处理,粗糙现象是基于不完全的信息或知识去处理不分明的现象,因此需要基于观测或者测量到的部分信息对数据进行分类,这就需要与概率统计和模糊数学不同的处理手段,这就是粗糙集理论。
直观地讲,粗糙集是基于一系列既不知道多了还是少了,也不知道有用还是没用的不确定、不完整乃至于部分信息相互矛盾的数据或者描述来对数据进行分析、推测未知信息。
下面我们对粗糙集的基本特征、以及数学符号进行简述。
2粗糙集的特点粗糙集的特点是利用不精确、不确定、部分真实的信息来得到易于处理、鲁棒性强、成本低廉的决策方案。
因此更适合于解决某些现实系统,比如,中医诊断,统计报表的综合处理等。
粗糙集的另一个重要特点就是它只依赖于数据本身,不需要样本之外的先验知识或者附加信息,因此挑选出来的决策属性可以避免主观性,有英雄不问出身的意味。
用粗糙集来处理的数据类型包括确定性的、非确定性的、不精确的、不完整的、多变量的、数值的、非数值的。
粗糙集使用上、下近似来刻画不确定性,使得边界有了清晰的数学意义并且降低了算法设计的随意性。
粗糙集理论与其他处理不确定和不精确问题理论的最显著的区别是它无需提供问题所需处理的数据集合之外的任何先验信息, 所以对问题的不确定性的描述或处理可以说是比较客观的, 由于这个理论未能包含处理不精确或不确定原始数据的机制, 所以这个理论与概率论, 模糊数学和证据理论等其他处理不确定或不精确问题的理论有很强的互补性。
因此,研究粗糙集理论和其他理论的关系也是粗糙集理论研究的重点之一。
基于粗糙集理论的应用研究主要集中在属性约简、规则获取、基于粗糙集的计算智能算法研究等方面。
由于属性约简是一个NP-Hard问题,许多学者进行了系统的研究。
基于粗糙集的约简理论发展为数据挖掘提供了许多有效的新方法。
比如,针对不同的信息系统(协调的和不协调的、完备的和不完备的),结合信息论、概念格、群体智能算法技术等都有了相应的研究成果。
基于粗糙集理论的应用也涌现在各行各业。
许多学者将粗糙集理论应用到了工业控制、医学卫生及生物科学、交通运输、农业科学、环境科学与环境保护管理、安全科学、社会科学、航空、航天和军事等领域。
2.粗糙集的基本概念从经典的角度来看,每个概念都包含其内涵和外延。
为了给出概念内涵和外延的具体描述,我们考虑一个简单的知识表达系统,即信息表。
信息表就是一组对象的集合,对象通过一组属性来描述。
2.1定义粗糙集要涉及论域U(这与模糊系统相似),还要涉及属性集合=U(这被认为是知识,或者知识库)。
当然,也要有属性值域V,R C D以及从U R⨯到V的信息函数f。
因此,一个信息系统S可以表示为一个四元组{}=。
在不混淆的情况下,简记为(,),,,S U R V f=,也称为S U R知识库。
等价关系(通常用来代替分类)是不可或缺的概念,根据等价关系可以划论域中样本为等价类。
而每个等价类被称为同一个对象。
但是,等价关系又是建立在不可分辨概念之上的,为了便于描述这里的等价关系,我们首先介绍不可分辨性。
设B R ⊆为一个非空子集,如果,i j x x U ∈,均有(,)(,),i j f x r f x r r B =∀∈成立,那么,我们称i j x x 和关于属性子集B 不可分辨。
B 不可分辨关系,简记为()Ind B ,是一种等价关系(易验证它满足等价关系的数学公理),于是()Ind B 可以将论域U 中的元素分成若干等价类,每一个等价类称为知识库的知识颗粒。
全体等价类组成的集合记为/()U Ind B ,称之为基本集合。
若集合X 可以表示成某些基本集的并时,则称X 是B 精确集,否则称为B 粗糙集。
粗糙集中的“粗糙” 主要体现在边界域的存在,而边界又是由下、上近似来刻画的。
对于任意XU ⊂,X 关于现有知识R 的下、上近似分别定义为:_(){,[]}R R X x U x X =∈⊆,(){,[]}R R x x U x X φ-=∈⋂≠。
X 的确定域()()Pos X R X -=,是指论域U 中那些在现有知识R 之下能够确定地归入集合X 的元素的集合。
反之,()()Neg X U R X -=-被称为否定域。
边界域是某种意义上论域的不确定域,即在现有知识R 之下U 中那些既不能肯定在X 中,又不能肯定归入\XU X =中的元素的集合,记为()R Bnd X 。
样本子集X 的不确定性程度可以用粗糙度()R a X 来刻画,粗糙度的定义为:式中Card 表示集合的基数(集合中元素的个数)。
显然,()01R a X ≤≤,如果()1R a X =,则称集合X 关于R 是确定的;如果()1R a X <,则称集合X 关于R 是粗糙的,()R a X 可认为是在等价关系R 下逼近集合X 的精度。
为了使得上述概念具体化,下面我们举一个例子说明如何理解和计算以上相应的概念和对应量。
例. 针对一下医学信息表我们来理解前面所提到的概念。
表1 某医疗信息表依据此表,如果取属性子集{}{}12,,R r r ==头疼肌肉疼,{}123,,X x x x =。
那么我们下面给出X 的上近似集、下近似集、确定域、边界域、粗糙度。
解:①计算论域U 的所有R 基本集:(){}{}{}{}123465/,,,,,U Ind R x x x x x x =令 {}{}{}112324635,,,R x x x R x x R x ===②确定样本子集X 与基本集的关系 ③计算()R X 、()R X -、()()Pos X Bnd X 和:④计算近似精确度:与粗糙度类似,在给出了两个知识集(特征属性)的相对肯定域的概念()P Pos Q 之后,我们也可以一个量来刻画两个知识集的依赖度。
设(,)K U R =为一个知识库,,P Q R ⊆为两个知识集。
令()(())/()P P k r Q Card Pos Q Card U ==,称为知识Q 依赖于知识P 的依赖度。
特别,当1k =时称为完全依赖;01k <<时,部分依赖;0k =时,Q 完全独立于知识P 。
2.2近似空间语言()A L 的所有可定义集正好构造成一个σ代数(/())U E A σ,即: (,())(/()).Def U A U E A σ=L 。
序对(,())apr U E A =称为一个Pawlak 近似空间,简称近似空间。
所以,也可以将语言()A L 的所有可定义集记为(,())()Def U A Def apr =L 。
通过/()U E A ,可以构造一个σ代数,即(/())U E A σ,它包含空集φ和等价关系()E A 构成的等价类及其并,并且在交、并和补运算上是封闭的。
那么,Pawlak 近似空间也唯一确定了一个拓扑空间(,(/()))U U E A σ。
2.3上下近似针对不可定义集,显然不可能构造一个公式来精确描述,只能通过上下界逼近的方式来刻画,这就是粗糙集理论中的上下近似算子。
定义2 设()E A 是信息表M 上的等价关系,X U ⊆,上下近似算子,()()apr apr E A E A (下文我们采用缩写形式,apr apr )定义为: 上近似()apr X 是包含X 的最小可定义集,下近似()apr X 是包含在X 中的最大可定义集。
根据定义2,可定义集显然有相同的上下近似。
刚才我们在可定义的基础上构造了一对近似算子。
也就是说,只有当对象不可定义时,才会用上下近似的方法来描述。
考虑子集X U ⊆,论域空间将被分成三个区域:(1) 集合X 的正域: ()();POS X apr X =(2) 集合X 的负域: ()(~)();NEG X POS X U apr X ==-(3) 集合X 的边界域: ()()().BND X apr X apr X =-。