基于粗糙集的符号与数值属性的快速约简算法

格式：pdf
大小：198.43 KB
文档页数：5

下载文档原格式

基于分辨相似矩阵的相似粗糙集的属性约简算法

基于等价关系的经典粗糙集是在保持知识系统分类能力不变的条件下，通过求取核与约简挖掘出信息系统中潜在的、简洁的知识，从而为知识获取提供了一套全新的方法。但对于实际问题等价关系要求过于严格，如要描述一个对象通常是通过该对象的一些属性，这些属性中有的是单值属性，而有些则为多值属性。单值属性对应论域上的一个等价关系，而多值属性则对应论域上的一个相似关系（满足自反性和对称性）。另外，在数据收集时可能不知道某属性的具体值，而只知道它町能取几个值之中的一个，即多值粗糙集，这也是相似关系；还有，由于数据测最的误差、对数据理解或获取的限制等原因，使得在知识获取时可能存在对象的一些属性值未知，即知识系统有空值或缺省值，这时面临的是不完
ｄｓｅｎｂｅａｄｓｍｉｒｍａｒｘａｅｄｆｎｄｉｈｉｌｒｉｔｒｔｎｓｔｍｓＡｎａｅｎｉｔｅａｇｒｔｍｆａｔｉｕｅｒｄｕｔｏｎｏｅｉｉｌｒｉｃｒｉｌｎｉｌｔｉｒｅｉｅｔｅｓｍｉｎｏｍａｉｙｓｅ．ｄｂｓｄｏｔｈｌｏｉａｎａｏ，ｈｏｔｂｔｅｃｉｎａｄｃｒｎｓｍｉａｒ
维普资讯
第３卷第１期２Ｏ
ＩＬ３１２ｏ
・
计
算机
工
程
Байду номын сангаас
２００６年５月
Ｍａｙ２０６０
Ｄ
ＣｏｍｐｔｒＥｎｉｅｒｎｕｅｇｎｅｉｇ
软件技术与数据库・

一种粗糙集属性约简算法

ＬｉＫａＬｉｓｕＷａｇＬｅｎｕＹｕｈｎｉ
（ｅａｍｅｔｏｏｐｔｃｅｃｎｎｉｅｒｇＢｒｎｎｔｕｅｏｅｈｏｇ，ｅｊｇ１０８）ＤｐｒｎｆＣｍｕｒＳｉｅａｄＥｇｎｅｎ，ｅｉｇＩｓｔｔｆＴｃｎｌｙＢｉｎ００１ｔｅｎｉｉｏｉ
ｔｒｕｈｅｎｉｏａｅｔｐ．ｈｅｔａｔｂｔｒｄｃｉｎｓｔｅｅｉｈａｕｉｉｎｍｕｏｖｒｇｏｅｅａｃｈｏｇｏｄｔｎｌｎｒｙＴｅｂｓｔｉｕｅｅｕｔｉｈｓｔｗｈｃｖｌｅｓｔｅｍｉｉｍｆａｅａｅｆｒｌｖｎｅｌｏｒｏｌｏｔｂｔｓＴｅｘｅｉｎｓｏｓｈｔｔａｇｔｅｔｒｆｃｉｉ．ｉａｌｉｅｒｄｃｉｎｅｕｔｏＵｆａｌｕｅｈｅｐｒｉｆｍｅｔｈｗｔａｉｃｎｅｂｔｅｅｔｔＦｎｌｔｔｅｕｔｒｓｌｆＣＩ山ｈｂ８ｓｅｖｙｙ．ｇｏｓＬｎｅ
，．
ｉｏｔｎｔｅｒ，ｅａｅｅｔｂ￣ｒｄｃｉｅｙｉｍｉｉｂａｒ，ｎｏｐｔｒｌａｃｔ￣ｕｅｎｒｉｈｏｙｔｐｐｒｇｔａｆｕｅｕｔｎｓｔｂｄｆｍａｏ－ｈｓｉｏ￣ｅｂｌ＇ｍｔｘａｄｅｍｕ￣ｅｖｎｅｏａｃｔｓｉｉｅｆｔ
１引言
粗糙集（ｏｇｔＳｔ理论是一种处理模糊和不确定知识的Ｒｕｈｅ）数学工具，早由波兰数学家ＺＰｗａ最ａ１ｋ在１８９２年提出的『 ” 。它已经在数据挖掘人智能、式识别与分类等领域获得了较模广泛的应用叩４１性约简是ＲｕｈＳｔ论研究的一个核心 ’ ３属ｏｇｅ理内容。们希望找到最佳属性约简。而Ｗｏｇ．．和Ｚａｋ．人然ｎＳＫＭｌｏｒＷ已经证明它是Ｎ－ａ问题Ｈ因而目前还没有高教的最佳Ｐｈ￣属性约简算法。过．在实际应用中，求得到相对属性约简就要可了许多研究人员已提出了属性约简算法１８。目前许多研究人员在对属性约简的研究中．约简结果的将标准定为约简后属性数最少．者是得到的规则最简，约简或或量最大。但从数据库理论的角度考虑，性的冗余、性间的属属依赖要尽可能地小。正是基于这些，文利用ＲｕｈＳｔ论，该ｏｇ理ｅ

粗糙集

例
对于上表来说，U中有四个对象（概念），而现在条件集合中只有一个属性，对于U1和U2来说，它们的p不同所以可以通过p来区分，即u1,u2在p 下可区分；而U2和U3虽然是不同的对象但是在P 下却是相同的，即在p下不可区分，就成为不可区分
粗糙集：
一个集合若恰好等于基本集的任意并集称为一个清晰（crisp）集（精确集），否则称为粗糙（rough）集（不精确集）。解释：都可区分的是清晰集，有不可区分的对象为粗糙集主要特点:以不完全信息或知识去处理一些不分明现象的能力,或依据观察、度量到的某些不精确的结果而进行分类数据的能力. 粗糙集体现了集合中元素间的不可区分性. 主要优势:它不需要提供问题所需处理的数据集合之外的任何先验知识,而且与处理其它不确定性问题的理论有很强的互补性.
粗糙集理论所处理的问题
•不确定或不精确知识的表达; •经验学习并从经验中获取知识; •不一致信息的分析; •根据不确定,不完整的知识进行推理; •在保留信息的前提下进行数据化简; •近似模式分类; •识别并评估数据之间的依赖关系
三、粗糙集的应用
粗糙集理论在许多领域得到了应用： ①临床医疗诊断；
②电力系统和其他工业过程故障诊断；
3. 如果P中的任何一条属性都是不可简约的，那么就称P是独立的解释：P是独立的说明P中的任何一个属性都是必不可少的，它独立的表达一个系统分类的特征。
属性约简的算法分析：
初始状态：所有数据已存入数据库(以下为模拟数据)
u 1 2 3 4 5 6
a 1 1 0 1 1 2
b 0 0 0 1 1 1
集合O 的下逼近(即正区) 为 I 3 (O ) = PO S (O ) = {刘保,赵凯} 集合O 的负区为 N EG (O ) = {李得} 集合O 的边界区为 BND (O ) = {王治, 马丽} 集合O 的上逼近为 I 3 (O ) = PO S (O ) + BND (O ) = {刘保,赵凯,王治,马丽} 根据表1, 可以归纳出下面几条规则, 揭示了教育程度与是否能找到好工作之间的关 RUL E 1: IF (教育程度= 大学) OR (教育程度= 博士) THEN (可以找到好工作) RUL E 2: IF (教育程度= 小学) THEN (找不到好工作) RUL E 3: IF (教育程度= 高中) THEN (可能找到好工作)

基于粗糙集和模糊聚类方法的属性约简算法

｛）ｄ表示。ＢＣＹ，ＥＵ，）若Ｃ，ｘＹ，≠ｙ称二元关系ＩＤ（，ｄ）＿Ｎ＝Ｂ｛｝＝
｛，）ＵＵＩ（）ｄｙ或者口Ｂ，（）Ⅱｙ｝（Ｙ ∈ ｘｄ＝（） ∈ 口＝（）为不可分辨
关系。
１．粗糙集２
京：子工业出社．０８电２ｏ．（任编辑：责王钊）
［］杜芳芳．析基于Ｗｅ１浅ｂ数据挖掘的电子商务网站架构［］电子Ｊ．
商务．００２．２１（）
［］苗夺谦，道国．２李粗糙集理论、法与应用［．算Ｍ］北京：清华大学出
性口∈Ａ的值域
。一单射，论域ｕ中的任一元素取属为使
性。Ｖ中的某一唯一值。在Ａ由条件属性集合Ｃ决策属性集合和Ｄ组成，和Ｄ满足ＣＬＤＡ，ＣＪ＝ＣＮＤｄ，则称Ｓ决策系统，用（＝？为
ＣｕＤ）示；表当决策属性集合只有一个元素时，常用（也ＣＵ
＿
方法４算术平均最小法：
负域，ｎ（＝一Ｘ成为的曰边界域。ｂ）Ｂ
＿
公）＿宰式（：，＿Ｌ
隶属函数。
ＩＪＮ（）ｌＬＩＤＢ
称元集粗为素对合的糙
：
１ｍ
（Ｉ）ｘ＋ｋ
ｅ方法５几何平均最小法：
若ＩＤ（＝ＮＢａ）ａ∈Ｂ，称Ｂ为中的不必要属性，ＮＢ）ＩＤ（一｛｝，。反

基于粗糙集的CBR系统属性约简改进算法

方法选择非核属性，增加反向删除操作。该算法能够充分反映专家经验知识，保证得到一个Ｐｗａａｌｋ约筒，大幅度提高案例的检索效率。
运用Ｍａａ编程实现了该算法，通过实例对算法进行分析、对比，证明了其正确性和有效性。ｄｂ关健诃：粗糙集；基于案例推理；属性重要度；属性约简
［ｓｒｃ｜ＴｉｐｐｒｒｐｓｓａｌｏｔｍａｅｎｉｒｖｄｒｕｈｓｔｎｒｔａｍｅｔｔｏｒｅｉｏｂｅＴｅａｏｔｍｏｓｈＡｂｔａｔｈｓａｅｏｏｅｎａｇｒｈｂｓｄｏｐｉｍｐｏｅｏｇｅａｄａｅｒｔｎｈｄｆｃｉｎｔｌ．ｈｌｒｈｄｅｅｐｅｍｅｏｄｓａｇｉｔ
ＳＵＮａ．ｉｇ，Ｎｈ．ｕＷＡＮＧｉＹｈｑｎＹＩＳｕｈａ，Ｊ
（．ｐｒｍｅｔｆＧｒｄａｅＳｕｅｔａａｅｎ， ’ｎＣｏ１ＤｅａｔｎｏａｕｔｔｄｎＭｎｇｍｅｔＸｉａｍｍｕｉａｉｎＩｓｉｔ， ’ｎ７１０；ｎｃｔｏｎｔｔｅＸｉａ０１６ｕ
１橇述
粗糙集理论自１８年提出以来，已经在数据分析、数据９２挖掘、机器学习等多个领域中得到广泛应用Ｊ，属性约简则是粗糙集理论研究的核心问题之一。采用粗糙集方法对基于案例推理（ａｅＢｓｄＲａｏｉｇＢ）Ｃｓ．ａｅｅｓｎｎ，ＣＲ系统中的案例进行属
３ＳａｏｍｆｌａｙＯｐｃｌｂｒｍｎｃｔｎＸｉｎＣｍｍｕｉａｉｎＩｓｉｔ， ’ １６ＭｉｔｉＦＣｉａｎｃｔｔｕｅＸｉ７００）ｏｎｔｎａ１

粗糙集理论的使用方法与步骤详解

粗糙集理论的使用方法与步骤详解引言：粗糙集理论是一种用来处理不确定性和模糊性问题的数学工具，它在数据分析和决策支持系统中得到了广泛的应用。

本文将详细介绍粗糙集理论的使用方法与步骤，帮助读者更好地理解和应用这一理论。

一、粗糙集理论概述粗糙集理论是由波兰学者Pawlak于1982年提出的，它是一种基于近似和粗糙程度的数学理论。

粗糙集理论的核心思想是通过对属性间的关系进行分析，识别出数据集中的重要特征和规律。

它主要包括近似集、正域、决策表等概念。

二、粗糙集理论的使用方法1. 数据预处理在使用粗糙集理论之前，首先需要对原始数据进行预处理。

这包括数据清洗、数据变换和数据归一化等步骤，以确保数据的准确性和一致性。

2. 构建决策表决策表是粗糙集理论中的重要概念，它由属性和决策构成。

构建决策表时，需要确定属性集和决策集，并将其表示为一个矩阵。

属性集包括原始数据中的各个属性，而决策集则是属性的决策结果。

3. 确定正域正域是指满足某一条件的样本集合，它是粗糙集理论中的关键概念。

通过对决策表进行分析，可以确定正域，即满足给定条件的样本集合。

正域的确定可以通过计算属性的约简度或者使用启发式算法等方法。

4. 近似集的计算近似集是粗糙集理论中的核心概念，它是指属性集在正域中的近似表示。

通过计算属性集在正域中的近似集，可以确定属性之间的关系和重要程度。

近似集的计算可以使用不同的算法，如基于粒计算、基于覆盖算法等。

5. 属性约简属性约简是粗糙集理论中的一个重要问题，它是指从属性集中选择出最小的子集，保持属性集在正域中的近似表示不变。

属性约简的目标是减少属性集的复杂性，提高数据分析和决策的效率。

属性约简可以通过计算属性的重要度、使用启发式算法或者遗传算法等方法实现。

6. 决策规则的提取决策规则是粗糙集理论中的重要结果，它是从决策表中提取出来的一组条件和决策的组合。

决策规则可以帮助我们理解数据集中的规律和特征，从而做出更好的决策。

基于粗糙集与遗传算法的储层识别技术

｛：
（４）
ｆ，（一Ｆ）／（Ｐｍ一）Ｆ ≥
Ｐ＝｛［ｃ０，ｃ１），［ｃｌ，ｃ２）， …，［ｃ，ｃ＋１】ｊ
对于任意的Ｐ＝ＵＰ在原有决策系统的基础上，
可定义一个新的决策表Ｓｅ＝（（，，Ａ，）。对于Ｖｘ∈Ｕ，
１）利用式（１），计算知识表达系统：（，Ａ，Ｖ厂）中，条件属性Ｃ对决策属性Ｄ的支持度ｋ，？（Ｄ）。２）假设ｃｏｒｅ（Ｃ）＝，对于每一个条件属性Ｃ ∈Ｃ，利用式（３）计算其对决策属性Ｄ的重要性ｓ｝ｅ）。
识约简问题的实际要求，定义个体的适应值函数
Ｆ（ｘ）为
式中：ｃ为条件属性集Ｃ中的一个元素；ｓ锄１ｃ）为ｃ对决策属性集Ｄ的重要性。
１．２基于布尔逻辑的属性离散化算法
）＝（１一］针）
决策属性Ｄ的支持度ｋ（Ｄ）定义为
耻（１）
若ｓ
１（ｃ） ≠０，则令ｃｏｒｅ。（Ｃ）＝ｃｏｒｅ。（ｃ）Ｕ｛ｃ｝，最终
．
得到Ｃ对Ｄ的相对核。当ｋｃｏｒｅ（Ｄ）（Ｄ）时，ｃｏｒｅ。（Ｃ）（￣）即为最小约简；否则ｋｃｏｒｅ（ｚ））（Ｄ），执行步骤３）。（Ｃ）

一种高效的粗糙集属性约简算法

一种高效的粗糙集属性约简算法【摘要】本文将递归和贪心算法的思想融入粗糙集理论的快速属性约简中，提出了一种较为高效的粗糙集属性约简算法。

该算法在保证约简质量的情况下，较大的提高属性约简的效率，实验仿真结果说明了该算法的高效性。

【关键词】粗糙集；属性核；属性约简；递归；贪心算法引言属性约简是粗糙集理论的一个重要研究内容，目前已经提出了许多经典的属性约简算法[1—6]。

得到决策表的最小约简是一个np 难题，现有的算法大多是以属性重要性为启发性知识得到一个相对约简。

文[1，2]给出了基于属性重要性的属性约简算法和归纳属性约简算法。

文[3，4]给出了基于信息熵的约简算法。

文[5]一种基于快速排序的属性约简算法。

文献[6]给出了一种基于蚁群优化的属性约简算法。

文献[7]给出了一种基于克隆选择的属性约简算法。

然而这些算法的时空复杂度都比较高，对于大数据的处理能力还不足。

本章结合递归的思想，将大数据集转化为多个小数据集来计算属性核，然后在利用贪心算法的思想进行属性约简，从而有效的提高了属性约简算法的运行效率。

1 相关概念以下将粗糙集属性约简的相关概念作简单介绍。

2 基于递归和贪心算法思想的快速属性约简算法本文中提出的属性约简算法首先计算属性核，然后在属性核的基础上采用贪心算法的思想进行属性约简。

首先给出递归思想计算属性核的理论基础。

3 仿真实验windows环境下采用vc6.0开发工具在个人计算机（windowsxp，cpu：p4 2.6，内存512）上进行实验仿真。

4 结束语理论证明得到决策表的最小属性约简是np难题。

本文综合利用递归和贪心算法的思想提出了一种较为高效的相对属性约简算法。

如何进一步提高该算法的效率是下一步研究的重点。

【参考文献】[1]王国胤.rough集理论与知识获取[m].西安交通大学出版社，2001.[2]x h hu， n cercone. learning in relational database：a rough set approach[j]. international. journal. of computational intelligence，1995，11（2）：323—338.[3]王国胤，于洪，杨大春.基于条件信息熵的决策表约简[j].计算机学报，2002，25（7）：759—766.[4]沈永红，王发兴.基于信息熵的粗糙集属性离散化方法及应用[j].计算机工程与应用，2008，05（8）：221—224.[5]刘少辉，盛球戬，吴斌，等.rough集理论高效算法的研究[j].计算机学报，2003，5（26）：524—529.[6]孙涛，蒋科艺，等.一种基于蚁群优化的粗糙集属性约简方法[j].海军工程学院学报，2011，11（1）：324—327.[7]梁霖，徐光华.基于克隆选择的粗糙集属性约简方法[j].西安交通大学学报，2005，11（39）：464—469.[责任编辑：王迎迎]。

杂合数据的粗糙集属性约简方法

ｓＣｅｓｎｈｏｇｅｅｐｉｓｏｅｕｐｒａｄｌｗｒｓｌｒｄｓｉｕｏｔｘｓｆｕｄｏｏｄｔｎａｔｂｔｓａｄｄｃｓｎａｒｕｅｕＣｓｉ，ｔｒｕｈｄｓｒｔｎｆｔｐｎｅｉａｉｔｂｔｎｍａｅｎｎｃｎｉｏｔｕｅｎｅｉｏｔｉｔ，ｏｉｏｈｅｏｍｉｒｉｉｒｏｉｉｒｉｔｂ
ｏｔｎｒｓｎｂｅｏａｔｏｓａｏｇｏｊｔｈｔｉｔｎｍｏｅｆｒｈｌａｃｕｔｇｉｐｅｅｔ．ｈｎａｅｎｔｐｅｂｉｅｏａｌｓｆｐｒｎｎｅｓｅｏｉｚｉｄｌｏｔｅｏｃｏｎｎｒｎｅＴｅ，ｂｓｄｏｅｕｐｒａａｔｉｉｔｍｂｃ，ｔｐｍａｏｒｈｓｄｉｓｓｄｈａｄｌｅａｐｘａｏｎｅｔｒｕｈｓｔｅｒ．ｈｖｒｇｕｐｒａｄｌｅｍｌａｔｏｓａｏｇｏｊｔａｏｔｎ．ｎｎｗｒｐｒｉｔｎｃｃｐｆｍｒｇｏｔｃｅｎｐｅｎｗｒｉｉｒｒｔｎｍｎｂｃｂｉｅＩｏｏｍｉｏｏｏｅｔｙｅｏｉｈｏｓａｐｉｉｅｓａｄ
ｔｅｔｏａｔｂｔｒｄｃｏｓ１ｆｉｅｅｔｉｏｎｓｃｎｂｔｅｅｔｉｖｌ，ｂｓｄＯｅｎ－ｉｔｂｔｎｍａｘｓｉａｌ，ｔｅｈｔｉｕｅｅｕｔｎｒｕｔｏｄｆｒｎｅｉｔａｅｒｒｖｉｕｔｅｙａｅＮｔｍｘｄｓ／ｕｏｔｅ．Ｆｎｌｗｒｉｓｖｗｐｅｉｄｎｉｈｒｉｉｒｙｈｅｐｒｅｒｕｔｐｏｅｔａｉａｏｔｍｓｅｅｔｅａｄｆａｉｌ．ｘｉｍｓｌｒｖｈｔｈｓｌｒｈｉｆｃｖｓｂｅｅｍｅｓｔｇｉｉｎｅ

一种基于模糊粗糙集的快速特征选择算法

一种基于模糊粗糙集的快速特征选择算法张晓;杨燕燕【摘要】模糊粗糙集由于能够处理实数值数据,甚至是混合值数据中的不确定性受到人们的广泛关注,其最重要的应用之一是特征选择,相关的特征选择方法已有不少研究,但其快速的特征选择算法研究很少.实际中的数据一般含有噪声点或信息含量低的样例,如果对数据集先筛选出代表样例,再对筛选的样例集进行数据挖掘便会降低挖掘计算量.本文基于模糊粗糙集,先根据样例的模糊下近似值对样例进行筛选,然后利用筛选样例的模糊粗糙信息熵构造特征选择的评估度量,并给出相应的特征选择算法,从而降低了算法的计算复杂度.数值试验表明该快速算法具有有效性,并且对控制筛选样例个数的参数给出了建议.【期刊名称】《数据采集与处理》【年(卷),期】2019(034)003【总页数】10页(P538-547)【关键词】模糊粗糙集;样例选择;特征选择;信息熵【作者】张晓;杨燕燕【作者单位】西安理工大学应用数学系,西安,710048;清华大学自动化系,北京,100084【正文语种】中文【中图分类】TP18引言经典的粗糙集理论[1]是由波兰数学家Pawlak在1982年提出的,它是一种处理数据中的不确定性的有效工具,然而经典粗糙集只能处理符号值(名义值)的数据。

模糊粗糙集[2]作为经典粗糙集的最重要的推广之一,可以用来处理实数值甚至是混合值的数据。

目前,模糊粗糙集已经成功应用于机器学习和数据挖掘领域[3],其最受人们关注的应用之一就是特征选择(属性约简)。

关于模糊粗糙集特征选择的研究工作已存在不少[4-10],但其快速的特征选择算法的研究还很少,据作者所知,仅文献[11]在特征选择算法迭代步骤提供了加速策略，从而减少了算法的计算时间。

实际中的数据一般包含信息量较低的样例或噪声点,如果对样例进行筛选,利用筛选得到的样例进行挖掘知识将会减少计算的复杂度。

文献[12]提供了3种样例选择的启发式算法,其中之一的算法思想即选择隶属模糊正域的值不小于给定阈值的那些样例。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

4粗糙集与数据约简

页数:76
粗糙集属性约简matlab程序

页数:4
粗糙集属性约简matlab程序解析

页数:8
粗糙集理论学习心得与基于ROSETTA的决策表属性约简实验--陈涛

页数:12
基于粗糙集的符号与数值属性的快速约简算法

页数:5