决策表的一种知识约简与规则获取方法

格式：pdf
大小：153.91 KB
文档页数：4

下载文档原格式

/ 4

rough set 的作用

rough set 的作用rough set（粗糙集）是一种数据分析和知识发现的方法，它能够从不完全和不确定的数据中提取出有用的信息，用于决策支持和预测分析。

它的作用主要体现在以下几个方面：1. 数据约简与特征选择rough set可以通过数据约简的方法，从大量的数据中提取出最为关键和有用的特征。

在实际应用中，数据往往存在大量的冗余和不必要的特征，这些特征会影响到数据分析和模型建立的效果。

通过rough set的特征选择方法，可以减少数据的维度，降低计算复杂度，提高模型的精度和泛化能力。

2. 决策规则的挖掘rough set可以根据数据的属性和决策类别，通过构建决策表和决策规则，挖掘出数据中隐含的规律和知识。

决策规则是一种以IF-THEN形式表示的知识表达方式，可以帮助人们理解和解释数据中的规律，并用于决策支持和预测分析。

通过rough set的决策规则挖掘方法，可以从大规模的数据中抽取出有用的知识，提高决策的准确性和效率。

3. 数据分类与预测rough set可以根据已有的数据样本，通过构建决策模型和分类器，对未知样本进行分类和预测。

在实际应用中，往往需要根据已有的数据样本，对新的数据进行分类和预测。

通过rough set的数据分类和预测方法，可以根据数据的属性和决策类别，构建分类模型，并将其应用于未知数据的分类和预测，从而实现对未知问题的解决。

4. 知识发现与智能决策rough set可以帮助人们从大量的数据中发现隐藏的知识和规律，提供决策支持和智能决策的能力。

在现代社会，数据量呈指数级增长，如何从海量的数据中发现有用的知识和规律，成为了一个重要的挑战。

通过rough set的知识发现方法，可以从复杂的数据中提取出有用的信息和知识，帮助人们做出更加准确和智能的决策。

rough set作为一种数据分析和知识发现的方法，具有数据约简与特征选择、决策规则的挖掘、数据分类与预测以及知识发现与智能决策等作用。

一种非相容决策表的属性值与属性约简方法

Ａｔｒｂｔａｕｎｔｒｂｔｅｕｔｎｍｅｈｄｔｉｕｅｖｌｅａｄａｔｉｕｅｒｄｃｉｔｏｏ
ｂｓｄｏｎｏｓｓｅｔｄｃｓｏａｌｓａｅｎｉｅｎｉｔｎｅｉｉｎｔｂｅ
ＤＮｈｕｈ，Ｉｎ一ＵＮＳ — ｅ，ＥＧＳａ —ｏＬ，ＧＡｕｊＷＡａｇＭｉｉＮＦｎ
邓少波。，。黎敏，关素洁万，芳
（．南昌工程学院信息工程学院，南昌３０９２１３０９；．中国科学院计算技术研究所智能信息处理重点实验室，北京１０９；３０１０．中国科学院深圳先进技术研究院，广东深圳５８５；．江西师范大学计算机信息工程学院，１０５４
（．Ｓｈｏ（￣ｒａｉｎＥｇｎｅｎ，Ｙｎｈｎｓｔｔｏｃａｌ）Ｎｎｈｎ３０９，ｈｎ；．Ｋｙｌｂｒｔ厂ｎｅｉｅｔ，ｍａ１ｃｏｌｈｂｍｔｎｉｅｒｇａｃａｇＩｔｕＴｈｏｇ，ａｃａｇ３０９Ｃｉａ２ｅｚａｏ０Ｉｔｌｎ，ｊｏｉｎｉｅｆｅｏ￣ｏｍｌｇ — ｔｎＰｏｅｉＩｓｔｔｆｏｐｔｇＴｃｎｌ）ｈｎｓｃｄｍＳｉｃｓＢｉｎ０１０ｈｎ３ｈｎｈｎＩｔｕｅｆＴｃｎｌ）ｉｒｃｓｇ，ｎｔｕｅＣｍｕｉｅｏｇｉｅＡａｅ）ｏｓｎｉｎｈｏ，Ｃｅｃｎｅ，ｅｉｇ１０９，Ｃｉｅｊａ；．Ｓｅｚｅｎｉｔａｅｈｏｇ，ｓｔｏｃｉＡａｅ＞ｏＳｅｃ，ｈｎｈＧａｇｏｇ５８５Ｃｉａ４ｏｅｅＣｍｕｅ／ｏｍａｉｎｉｅｉＪａｇｉｏｒｄ￡ｅｉｒｗｃｄｍ，ｄｎｅＳｅｚ．ｎｄｎ１０５，ｈｎ；．Ｃｌｇｏｐｔ，ｒｔｎＥｇｎｒｇ，ｉｎｘＸｒｕｒ— ｌｆｒ，ｆｏｅｎｒｓ

一种新的不一致决策表属性约简算法

ｍａｒｘｄｆｎｔｏａｅｎｄｉｔｂｕｉｎｆｎｔｏｏｏｕｉｇｈｏｅｗａｔｆｒｒｎｔｉｐｐｒＴｈｍｐｏｅｉａｙｔｅｉｉｉｎｂｓｄｏｓｒｔｏｕｃｉｎｆｒｃｍｐｔｎｔｅｃｒｓｐｕｗａｄｉｈｓａｅ．ｉｉｏｅｉｒｖｄｂｎｒ
种新的不一致决策表属性约简算法
汪小燕，思春杨
（安徽工业大学计算机学院，安徽马鞍山２３０）４０２
（ｘ￣＠ａｕ．ｄ．ｎｗｙｘｈｔｅｕｃ）
摘
要：针对目前求核方法存在的问题，出一种基于分布函数的用于计算核属性的改进的二进制可辨矩阵。提
中图分类号：Ｐ０Ｔ３１文献标志码：Ａ
Ｎｅａｇｒｔｏｔｒｂｅｒｄｔｏｎｉｃｎｓｓｅｔｄｃｓｏａｅｗｌｏｉｈｍｆｒａｔｉｕｔｅｕｃｉｎｉｎｏｉｔｎｅｉｉｎｔｂｌｓ
ｄｓｅｎｌｔｘｉｎｔｏｌｍａｌｎｓａｅｂｔｓｕｔｂｅｆｒａｙｄｃｓｎｔｌｓｆｒｃｍｐｔｎｈｏｅｉｃｒａｅｍａｒｓｏｎｙｓｌｉｃｕｏｓｉｌｎｅｉｉａｅｏｕｉｇｔｅｃｒ．Ａｎｗａｇｒｈｂｉｌｌａａｏｏｂｏｅｏｔｍｌｉｏｔｕｅｒｄｃｉｎｉｃｎｉｎｃｓｎｔｅｓａｏｐｅｅｔｄｂｄｏｅｔｏｅｆｒａｔｂｔｅｕｔｎｉｎｏｓｓｅｔｅｉｏｌｓｗａｓｒｓｎｅａｅｎｇｔｉｇｔｅｃｒ．Ｏｌｎｒａｉｇａｐｏｒｔｉｒｏｔｄｉａｂｌｓｎｈｎｙｉｃｅｓｎｐｒｐａｅｉ

决策表法

重复A,B就可以得到精简的决策表. 重复A,B就可以得到精简的决策表. A,B就可以得到精简的决策表
决策表的简化
简化是以合并相似规则为目标；简化是以合并相似规则为目标；若表中有两条以上规则具有相同的动作，若表中有两条以上规则具有相同的动作，并且在条件项之间存在极为相似的关系，并且在条件项之间存在极为相似的关系，便可以合并。便可以合并。
1 2 3 4 5
三角形问题的扩展决策表
a,b,c是否可以构成 a,b,c是否可以构成三角形
7 8 9 10 11
6
N √
Y N N √
Y Y N √
Y Y Y Y Y Y
Y Y Y Y Y N
Y Y Y Y N Y
Y Y Y Y N N
Y Y Y N Y Y
Y Y Y N Y N
Y Y Y N N Y
Y Y Y N N N √
√ √ √ √ √
√
√
根据决策表测试用例
编号
DT1 DT2 DT3 DT4 DT5 DT6 DT7 DT8 DT9 DT10 DT11
[a,b,c]
412 142 124 555 ??? ??? 223 ??? 232 322 345
期望输出
非三角形非三角形非三角形等边三角形不可能不可能等腰三角形不可能等腰三角形等腰三角形一般三角形
作业
某厂对一部分职工重新分配工作，分配原则是：年龄不满20岁，文化程度是小学者脱产学习，文化程度是中学者当电工；年龄满20岁但不足50岁，文化程度是小学或中学者，男性当钳工，女性当车工；文化程度是大学者技术员；年龄满50及50以上，文化程度是小学或中学者当材料员，文化程度是大学者当技术员。

一种属性与值约简及规则提取算法

中图分类号：３１６ＴＰ０．
文献标识码：Ａ
Ａ＝ＣＵＤ，ＣＮＤ— ，Ｃ为条件属性集，为决策属性集，ＤＶ
１引言
目前，粗糙集这一新的数学理论已成为信息科学领域的研究热点之一，它在机器学习、知识获取、决策分析、程过控制等许多领域得到了广泛的应用。约简是粗糙集理论研究的核心内容之一，包括属性约简和属性值约简。通过约简，以剔除知识库中的冗余知可识（属性）和冗余信息（属性值）发现知识库中隐含的关联，和规则，帮助人们做出正确的决策。目前，属性约简和属性值约简已有多种算法［，２每种算法各有其优缺点。～本文提出了一种求属性和值约简的简化算法。该算法无需求出分明矩阵，而是从决策表中直接提出关于属性值分明的属性构造分明函数，且可以同时求出属性约简和并属性值约简。在此基础上提取规则，不仅节约了空间和时间，而且提高了算法的效率。
摘
要：本文提出了一种属性与值约简及规则提取算法。该算法无需求出分明矩阵，而是从决策表中直接提出关于属
性值分明的属性构造分明函数，并且可以同时求出属性约简和属性值约简。在此基础上提取规则不仅节约了空间，而且提高了效率，并通过实例进行了验证。
＝
Ｕ｛ＩＥＡ）ｒ是属性值的集合，表示ｒＥＡ的值域，：厂
Ｕ￣Ａ－Ｖ是一个信息函数，－￣它指定ｕ中每个对象ｕ，＝（ＣＵＤ，，于ｘＶ，对
Ｕ和Ｒ＿Ｘ的下近似集与Ｘ的上近似集分别定义为ｃＣ，Ｒ．Ｘ—Ｕ｛ｙ∈Ｕ／且ｙＸ）ＲＹＩＲ和Ｘ— Ｕ｛ｙｌｙ∈Ｕ／Ｒ

一种不完备决策表中的广义决策约简

Ｋｅｗｏｒｓｉｃｍｐｌｔｎｏａｉｎｓｓｅ；ｓｍｉａｉｙｒｌｔｎ；ｒｕｈｓｔ；ｋｗｌｄｇｅｕｔｏｙｄ：ｎｏｅｅｉｒｔｏｙｔｍｆｍｉｌｒｔｅａｉｏｏｇｅｓｎｏｅｅｒｄｃｉｎ
ｉｏａｉｎｓｓｍｈｃｓｃｍｐｓｄｏｎｅｔｉｔｎｍｐｅｉｉｎＡｇｎｒｌｅｏｇｅｄｌｂｓｄｏｉｌｒｙｆｍｎｒｔｙｔｗｉｈｉｏｏｅｆｕｃｒａｎｙａｄｉｒｃｓ、ｅｅａｉｄｒｕｈｓｔｍｏｅａｅｎｓｍｉｉｏｅｏｚａｔｒｌｔｎｉｅｔｂｓｅ．Ｔｅｈｓｐｐｒａａｙｅｈｎｏｌｔｅｉｉｎｔｂｅｏｉｃｎｉｏ，ｓｄｅｅｗａｆｅｅ－ｅａｉｓｓａｈｈｄｈｎｔｉａｅｎｓｓｔｅｉｃｍｐｅｅｄｃｓａｌｎｔｓｏｄｔｎｔｉｓｔｙｏｎｒｏｌｏｈｉｕｈｇｌｚｄｄｃｓｎｒｄｃｉｎｎｕｅｃｏｄｎｌｅｉｉｎｒｌｓａｉｅｅｉｏｅｕｔｎａｄｉｄｃｓａｃｒｉｇｙｄｃｓｏｕｅ．ｉｏ
或概率统计方法来分析问题时，需知道模糊隶属函数或数据概率分布等一些附加信息］则．
传统的粗糙集理论处理对象是类似二维关系表的信息表，且其中的数据是完备的．是在现实世界并但中由于各种原因，面临的信息系统不一定是完备的，大致可分为两种情况：１不确定性，（）即属性的真值程度不肯定，中用丢失型空值来表示；２文（）不精确性，属性值的内容不唯一，厂，ｎ）＝即如（｛ｌｃｍｐｃ｝ｆｌｏａｔ．以往很多学者已经分别讨论了如上所述的包含其中一种情况的不完备信息系统，ｕ，而本文所考虑的不完备信息系统则包括了上述两种情况，传统粗糙集理论中的等价关系（将即不可分辨关系）推

广义不完备决策表的知识约简和规则提取

ｇｔｄＢａｅＯｌｎｗｕｌｅａｉｎ，ｐｒａｈｏｎｗｅｇｒｄｃｉｎｎｅｔｃｉｎｕｅｉｔｅｎｏｌｔｄｃｓｏｔｂｅｓａｅ．ｓｄｉａｅｄａｒｌｔｏａｐｏｃｔｋｏｌｄｅｅｕｔａｄｘｒｔｒｌｓｎｈｉｃｍｐｅｅｅｉｉｎａｌｉｏａｏ
ａｄＡｐｉｔｎ．００４（）３－６ｎｐｌａｉｓ２１．６６：３３．ｃｏ
ＡｂｔａｔＴｅｉｃｍｐｅｅｄｃｓｏａｌｎｗｉｈｌｓａｄｓｒｃ：ｈｎｏｌｔｅｉｉｎｔｂｅｉｈｃｏｔｎ “ ｏｎｔｃｒ ” ｕｋｏｎｖｌｅｒｏｘｓｉｇｉｔｏｏｇｌｎｅｔｄｏａｅｎｎｗａｕｓａｅｃｅｉｔｓｈｒｕｈｙｉｖｓｉｎ —
１引言
粗糙集理论【ＲｕｈＳｔＴｅｒ，Ｓ）由波兰科学家１ｏｇｅｈｏＲＴ是］（ｙＰｗａａｌｋ于２０世纪８０年代初提出的一种处理含糊和不精确性
问题的新型数学工具［其中不完备信息系统（ｃｍｌｅＤ — ２１，Ｉｏｐｔｅｎｅｃｉａｌ，Ｓ中各种拓展粗集模型的应用已成为粗集理论ｉｏＴｂＩ）ｓｎｅＩ发展的一个重要方面。
摘
要：以同时具有丢失型和遗漏型未知属性值的不完备系统为研究对象，出了一种新的二元关系并基于此关系讨论了其中的提
知识约简和规则提取问题。在不完备决策系统中，引入了约简、区分矩阵、广义区分矩阵等概念并给出了约简的判定定理和算法，

决策表的一种知识约简与规则获取方法

成为研究热点。文中介绍了粗糙集的基本理论，此基础上运用该理论对从决策表中获取最小规则进行了研究，出了决在提策表约简的启发式方法，通过一个具体实例详细说明了决策规则获取过程，例分析表明了其有效性。并实关键词：糙集；策表；规则；性约简粗决决策属
能在缺少关于数据的先验知识的情况下，仅以对数据的仅
ｌ有关的粗糙集概念
现实世界中的信息，在粗糙集理论中用决策表的形式
给出。面先简要介绍一下文中主要用到的Ｒｕｈ基本下ｏｇ集
Ｋｅｒｓｒｕｈｓｔｄｉｉｎｔｂｅ；ｅｉｉｎｒｌ；ｔｒｂｔｅｕｔｎｙｗｏｄ：ｇ；ｅｓａｌｄｃｓｏｕｅａｔｕｅｒｃｉｏｅｃｏｉｄｏ
Ｏ引言
粗糙集理论是由波兰科学家ＺＰｗａ．ａｌｋ教授于１８９２
ＳＵＮｈｎＳｅｇ，
（、ｈｏｏｏｕｅｃｎｅＨｕｚｏｇＵｎｖｒｔｆｉｃｎｅｈｏｇ，ｈｎ４０７，ｈｎ；１Ｓｏｌｆｍｐｔｒｉｃ，ａｈｎｉｓｙｏｅｅａｄＴｃｎｌｙＷｕａ３０４ＣｉｃＣＳｅｅｉｃＳｎｏａ
孙胜２，
（．中科技大学计算机学院，１华湖北武汉４０７；３０４
２黄石理工学院计算机学院，，湖北黄石４５０）３０３
摘要：糙集理论是一种新型的数据挖掘和决策分析方法，粗糙集理论进行决策表的知识约简与决策规则挖掘已经粗利用

不一致决策表的值约简方法

ｔｅｅｔｎｆｔｅｉａｔａｅｃｎｉｏｓｔｉｕｅｅｄｃｓｏｂｅｐｏｉｅｙｔｅｋｏｅｇ．Ｔｅｒｌｆｃｕａｙｔａｕｅｈｘｅｔｏｈｍｐｃｔｈｏｄｔｎｔｂｔｓｉｔｅｉｉｎｔｌｒｖｄｄｂｎｗｌｄｅｈｅｏｃｒｃｍｅｓｒｈｔｔｉａｒｎｈａｈｕａｏ
策系统中一致规则和不一致规则所蕴含的信息量，持约简前后规则的准确度不变。保
关键词：粗糙集；区分矩阵；值约简；规则准确度；属性重要度
中图法分类号：Ｐ０．Ｔ３１６
文献标识码：Ａ
文章编号：００７２（０００ —８６０１０ —０４２１）４０３．４
２．兰州大学信息科学与工程学院，甘肃兰州７００）３００
摘要：对目前求不一致决策表最简规则方法存在的问题进行了分析，提出了一种构造区分矩阵的方法，能更好地适用于多决策属性存在的决策表中。借助区分矩阵进行值约简，出了一种新的规则提取算法。利用属性的重要度来描述条件属提性所提供的知识对决策表的影响程度，引入规则准确度来衡量算法是否造成决策表的新的不一致规则。该算法不会破坏决
２ｃｏｌｆｎｏｍａｉｎＳｉｎｅａｄＥｇｎｅｉｇａｚｏｉｅｓｙａｚｏ３００ｈｎ）．Ｓｈｏｆｒｔｃｅｃｎｎｉｅｒ，ＬｎｈｕＵｎｖｒｉ，Ｌｎｈｕ７００，ＣｉａｏＩｏｎｔ

不一致决策表的知识约简方法研究_李凡

第21卷第8期V ol.21N o.8　控　制　与　决　策Contr ol andDecision 　2006年8月 Aug.2006 收稿日期:2005-06-06;修回日期:2005-08-15. 基金项目:国家自然科学基金(天元)项目(A 0324638). 作者简介:李凡(1972—),男,江苏南通人,博士生,从事Ro ug h 集理论、智能信息处理等研究;杨国纬(1939—),男,重庆人,教授,博士生导师,从事人工智能、计算机网络等研究. 文章编号:1001-0920(2006)08-0857-06不一致决策表的知识约简方法研究李　凡,刘启和,叶　茂,杨国纬(电子科技大学计算机科学与工程学院,成都610054)摘　要:目前计算不一致决策表的分布约简、最大分布约简和分配约简的方法均基于可辨识属性矩阵,在大数据集下耗时较多.为此,提出转化算法,将计算原不一致决策表的上述3种约简转化为计算3种一致决策表的P awlak 约简.通过应用针对后者的高效启发式算法,有效地减少了计算时间.此外,引入 -约简的概念,通过调节的值,能得到一族反映决策矢量不同水平相似程度的知识约简.该方法降低了分布约简对决策表区分能力的过高要求,较上述3种约简更为灵活.关键词:Ro ugh 集;知识约简;不一致决策表;Fuzzy 相似关系中图分类号:T P18 文献标识码:AApproaches to Knowledge Reductions in Inconsistent Decision TablesLI Fan ,L I U Qi -he ,YE M ao ,YA N G Guo -w ei(College o f Co mput er Science a nd Eng ineer ing,U niver sity of Elect ro nic Science and T echnolog y ,Cheng du 610054,China.Cor respondent :L I F an,E-mail:lifan987@to )Abstract :Ex isting ,appr oaches t o kno wledge reduct ions for t he distr ibut ion reduct ,the m aximum distr ibutio n reduct and the assignment r educt o f an inconsistent decision table ar e based o n discer nibility matrix es,w hich are ver y time-consuming when the dataset is lar ge.T o ov ercome this sho rt co ming ,an appro ach is pro po sed to conv ert the co mput atio n fo r t he t hree ty pes of r educts of the or ig inal inco nsistent decision table int o the computatio n fo r the Paw lak r educt of t hr ee types of derived co nsist ent decisio n t ables .T hus ,efficient heur istic kno wledg e reductio n alg or ithms fo r t he P aw lak reduct can be used t o reduce computational costs.F urther mor e,the -r educt,a new ty pe of r educts,is intr o duced.By tuning the par ameter ,a set o f reducts can be o bt ained,each o f w hich r eflects the differ ent level of similar it ies of decisio n v ector s .T he -r educt eliminat es the harsh r equir ement s of the distr ibutio nreduct a nd is mo re flexible than the thr ee types of r educts .Key words :R ough sets;Know ledg e reductio n;Inconsistent decision table ;Fuzzy similar ity relation1　引言知识约简(属性约简)是Rough 集理论的核心问题之一[1,2].所谓知识约简,就是在信息系统的分类或决策能力保持不变的前提下,删除其中不相关或不重要的属性.通过知识约简,可以在不丢失基本信息的前提下得到更简明的分类或决策规则.目前,学者们已提出了一些有效的知识约简算法[1～4],但这些研究大多集中于讨论决策表的Paw lak 约简,即决策表的正区域在约简前后保持不变.然而,为了从复杂的不一致决策表中获取符合实际需要的不确定性命题规则,必须从更多侧面研究不一致决策表的知识约简问题.为此,文献[5]讨论了不一致决策表5种形式的知识约简,指出只有分布约简(DR )和分配约简(AR )是基本约简形式,其他几种约简都与二者之一等价.文献[6,7]在此基础上提出另一种知识约简的概念,即最大分布约简(M DR ),并讨论了DR,M DR和AR之间的关系,给出了这3种知识约简相应的可辨识属性矩阵,从而得到了计算这3种知识约简的方法.本文在以上研究的基础上,继续讨论不一致决策表的知识约简问题.首先,基于可辨识属性矩阵的方法虽然可以求出所有的约简,但在决策表较大的情况下将消耗大量计算时间,因而对大数据集或计算时间有严格要求的应用而言,这种方法并不适合.为此,本文提出了针对DR,M DR和AR的转化算法,将计算原不一致决策表的这3种约简转化为计算3种一致决策表的Paw lak约简(PR),通过应用针对PR的高效启发式知识约简算法[3,4],可以有效减少计算时间的消耗.其次,DR对决策表的区分能力有严格的要求,因而对噪声数据较为敏感.MDR和AR虽然从不同侧面降低了对决策表区分能力的要求,但与DR 一样,仍然属于确定性约简,对于特定的应用,往往缺乏必要的灵活性.在以往的研究中,许多学者从不同侧面提出了利用参数来调节约简精度的思路[8,9].通过调节参数,引入一定程度的分类误差,即可按实际需要将信息系统的辨识能力控制在合适的水平.实践证明,这种处理方式能有效提高新出现个体的分类准确度.本文采用了这一思想,提出了一种新的不一致决策表知识约简的概念,即 -约简.通过定义个体间决策近似度,得到Fuzzy相似关系,并进一步转化为Fuzzy等价关系.通过计算其截关系所对应的 -决策表的PR,即得到 -约简.通过调节参数的值,能够得到一族平滑过渡的知识约简,其中的每个约简反映决策矢量间不同水平的相似程度,从而不仅降低了对决策表区分能力的要求,而且能更好地满足实际应用的需要.2　Rough集理论的基本概念下面简要介绍Rough集理论的基本概念,详细内容参见考文献[1,2].定义1(信息系统)　一个信息系统可以表示为三元组:T=〈U,A,f〉.其中U,A均是非空有限集, U包含论域中所有个体,A包含所有的属性, a∈A,f a:U→V a,V a表示属性a的值域.如果属性集A 可以分为条件属性集C和决策属性集D,即C∪D =A,C∩D= ,则该信息系统也称为决策表,表示为DT=〈U,C∪D,f〉.在信息系统中,对于每个属性子集B A,可以定义不可区分关系IND(B): IND(B)={(x,y)∈U×U b∈B,b(x)= b(y)}.显然IND(B)是U上的等价关系,对象x在属性集B上的等价类记为[x]IND(B),[x]IN D(B)={y y ∈U,(x,y)∈IND(B)},在不产生混淆的情况下一般用B代替IND(B).定义2(集合近似)　在信息系统T=〈U,A,f〉中,对于论域个体子集X U和属性子集R A,定义两个集合R-X=∪{Y∈U/R Y X},(1)R-X=∪{Y∈U/R Y∩X≠ },(2)分别称为X的R下近似集和R上近似集.定义3(正区域)　在信息系统T=〈U,A,f〉中,若P A,Q A,定义Q的P正区域为POS P Q=∪X∈U/QP-X.(3) 定义4(一致决策表和不一致决策表)　在决策表DT=〈U,C∪D,f〉中,如果POS C D=U,则称DT为一致决策表,否则称DT为不一致决策表.一致决策表意味着IND(C) IND(D).一致决策表产生确定性命题,不一致决策表则产生不确定性命题. 3　不一致决策表知识约简的基本概念定义5(决策矢量)　在不一致决策表DT=〈U,C∪D,f〉中,U/D={D1,D2,…,D n}, x∈U,定义其决策矢量为B(x)=(D(D1[x]B),D(D2[x]B),…,D(D n[x]B)),(4)其中D(D i[x]B)=D i∩[x]B[x]B ,i∈{1,2,…,n}.进一步记B(x)={D k D(D k[x]B)=m axj≤nD(D j[x]B)},(5) B(x)={D k D(D k/[x]B)>0}.(6) B(x)是由x最有可能被划分到的决策等价类组成,而 B(x)由x可能被划分到的决策等价类组成.定义6(不一致决策表的约简)[5～7]　在不一致决策表DT=〈U,C∪D,f〉中,B C.1)若POS B(D)=POS C(D),且B的所有真子集均不满足此条件,则称B为决策表DT的Pawlak 约简(PR). 2)若 x∈U,有 B(x)= C(x),且B的所有真子集均不满足此条件,则称B为决策表DT的分布约简(DR). 3)若 x∈U,有 B(x)= C(x),且B的所有真子集均不满足此条件,则称B为决策表DT的最大分布约简(M DR). 4)若 x∈U,有 B(x)= C(x),且B的所有真子集均不满足此条件,则称B为决策表DT的分配约简(AR). 由以上定义可知,PR保证约简前后决策表的858控制与决策第21卷正区域不变;DR 保证约简前后决策表中的个体在每个决策类上的隶属程度不变;M DR 保证约简前后决策表中的个体的最大分布决策类不发生变化;而AR 保证约简前后决策表中的个体的可能决策类不发生变化.4　针对分布约简、最大分布约简及分配约简的高效知识约简方法4.1　决策表转化算法若决策表DT =〈U ,C ∪D ,f 〉是一致决策表,则定义6中的4种知识约简是等价的,但在不一致决策表的情况下则有所不同.文献[6,7]研究了DR,M DR 和AR 之间的关系,提出了相应的判定定理和可辨识属性矩阵.由可辨识属性矩阵可以导出相应的辨识公式,通过求解其极小析取范式可求得所有的约简.但是,这种方法在决策表较大的情况下将消耗大量计算时间,因而对大数据集或计算时间有严格要求的应用并不适合.另一方面,通过长期的研究和实践,许多学者都提出了针对PR,特别是一致决策表PR 的高效启发式算法[3,4].因此,如果能将DR,M DR 和AR 的计算转化为计算相应的一致决策表的PR,则可以利用现有的高效启发式算法提高计算效率. 定理1　在不一致决策表DT =〈U ,C ∪D ,f 〉中,U /D ={D 1,D 2,…,D n },B C ,以下结论成立:1) x ∈U , B (x )= C (x )当且仅当 y ∈[x ]B , C (y )= C (x );2) x ∈U , B (x )= C (x )当且仅当 y ∈[x ]B , C (y )= C (x );3) x ∈U , B (x )= C (x )当且仅当 y ∈[x ]B , C (y )= C (x );证明　由B C ,不妨设[x ]B =∪mi =1[y i]C.1)必要性: y ∈[x ]B ,由题设,有 B (y )= C (y )及 B (x )= C (x ).而由 B (y )的定义,有 B (y )= B (x ),因此可得 C (y )= C (x )成立.充分性: D i ∈U /D ,有D (D i [x ]B )= D i ∩[x ]B[x ]B=∑mj =1D i ∩[y j ]C [y j ]C [y j ]C[x ]B,y j ∈[x ]B ,1≤j ≤m .由题设,有 C (y j )= C (x ),即D i ∩[y j ]C [y j ]C = D i ∩[x ]C[x ]C.所以D (D i [x ]B )= D i ∩[x ]C [x ]C ∑mj =1 [y j ]C [x ]B= D i ∩[x ]C [x ]C =D (D i[x ]C ).故有 B (x )= C (x ).2)必要性:类似1)的必要性成立的证明.充分性: y j ∈[x ]B ,1≤j ≤m ,不妨设 C (y j )= C (x )={D k }, D i ∈U /D ,可得D (D i [x ]B )= D i ∩[x ]B[x ]B≤ D k ∩[x ]C [x ]C ∑mj =1 [y j ]C [x ]B =D (D k[x ]C ),仅当i =k 等号成立,故有 B (x )= C (x ).3)必要性:类似1)的必要性成立的证明.充分性: D k ∈ B (x ),D (D k /[x ]B )>0,即 D k ∩[x ]B[x ]B = D k ∩[x ]C [x ]C ∑mj =1 [y ]j ]C [x ]B >0.故有D k ∩[x ]C[x ]C>0,因此D k ∈ C (x ).则 B (x )C (x ).另一方面,由于B C ,显然有 C (x ) B (x ).综上所述,有 B (x )= C (x ).□定义7(导出决策表)　将 C , C 和 C 作为决策属性,由不一致决策表DT =〈U ,C ∪D ,f 〉可导出3个决策表DT =〈U ,C ∪{ C },f ′〉,DT =〈U ,C ∪{ C },f ′〉,DT =〈U ,C ∪{ C },f ′〉.(7)其中f ′仅在个体的决策属性到决策属性值的映射上与f 不相同.对于决策属性,f ′ C(x )= C (x ),f′C(x )= C (x ),及f ′C (x )= C (x ),易证以上3个导出决策表均为一致决策表.定理2　在不一致决策表DT =〈U ,C ∪D ,f 〉中,B C ,以下结论成立:1)B 是DT 的PR 当且仅当B 是DT 的DR;2)B 是DT 的PR 当且仅当B 是DT 的M DR;3)B 是DT 的PR 当且仅当B 是DT 的AR.证明　仅证1),2)和3)类似可证.充分性:假设U /{ C }={D 1,D 2,…,D n }, D k∈U /{ C },假设[x ]C D k .因为B 是DT 的DR,故B (x )=C (x ),因此[x ]BD k .另一方面,由定理1, y ∈[x ]B , C (y )= C (x )成立,由此可得[y ]C D k ,从而易知C -(D k )=B -(D k ).这意味着POS C { c }=POS B { c },显然B 的任何真子集均不满足此条件,因此B 是DT 的PR.类似可证明必要性成立.□利用定理2,可以得到计算DR,M DR 和AR 的859第8期李凡等:不一致决策表的知识约简方法研究算法,描述如下:输入:不一致决策表DT=〈U,C∪D,f〉.输出:DT的DR(或M DR,AR)集RED.Step1:计算决策表DT的 C(或 C, C),从而得到DT (或DT ,DT );Setp2:应用高效启发式算法计算DT (或DT , DT )的PR,得到RED.根据定理2,算法最后得到的结果一定是一个DR(或M DR,AR),即本算法是完备的.4.2　算法复杂度分析下面分析算法的时间复杂度.Setp1首先应求出条件属性集C的等价类.如果Step2计算PR时采用基于排序的启发式算法[3],则求解条件属性的等价类是计算PR中的一步,不必单独统计其计算时间.此时只需考察每个条件等价类中的个体的决策属性取值情况,即可得到每个条件等价类与每个决策等价类交集的基数,继而得到 C(或 C, C),因而这种情况下时间复杂度是O( D U );如果Step2计算PR时采用基于数据库技术的算法[4],则必须单独用一步计算求出各条件等价类,采用文献[3]提出的算法,其时间复杂度为O( C U log U ),然后考察每个条件等价类中决策属性取值的情况,故总的时间复杂度为O( C U log U )+O( D U ).一般说,决策属性集D中一般只含有一个属性,则两种情况下Setp1的时间复杂度分别为O( U )和O( C U log U ).Setp2的时间复杂度取决于计算PR所用的算法.同样假定决策属性集D中只含有一个属性,若采用文献[3]提出的算法,时间复杂度为O( C 2 U lo g U ),而采用基于数据库技术的算法[4],时间复杂度进一步降为O( C U ).综上所述,视计算PR采用的算法的不同,求解DR,　M DR或AR的时间复杂度为O( C 2 U lo g U )或O( C U log U ).在数据量较大时,无论哪种情况,本算法均较基于可辨识属性矩阵的算法更为有效.5 -约简由定义6可知,DR保证约简前后决策表中每个个体在每个决策类上的隶属程度保持不变,约简后能最大限度地保持原决策表的信息.然而,在实际应用中,如果论域中两个个体的决策矢量原本相等,但由于数据受噪声的影响产生了微小差异,根据定理2,DR也必须区分这两个决策矢量,此时就对决策表的区分能力提出了不必要的要求.即使此时数据并没有受噪声影响,为提高新出现个体的分类准确程度,在很多应用中也并不需要精确区分两个较接近的决策矢量,因此需要定义一种约简,以避免这种对决策表区分能力的过高要求.为此,首先定义决策近似度,以此作为两个决策矢量是否视为相似的依据.定义8(决策近似度)　令 x,y∈U, A(x)= (x1,x2,…,x n), A(y)=(y1,y2,…,y n).x,y间的决策近似度定义为S(x,y)=∑ni=1x i y i∑ni=1x2i∑ni=1y2i.(8) 显然,S(x,y)是x与y的决策矢量间的夹角余弦值,这是一种常用的衡量二矢量是否接近的指标.从另一个侧面讲,S是U×U→[0,1]的一个映射,因此是U上的一个Fuzzy关系,并具有以下性质:性质1　对于不一致决策表DT=〈U,C∪D, f〉,S是U中的Fuzzy相似关系.证明 x,y∈U,由定义8易知S(x,x)=1及S(x,y)=S(y,x),即S满足自反性和对称性,因此是U上的Fuzzy相似关系.□因为S是U上的Fuzzy相似关系,所以S的截关系是U上的相似关系.但在决策表中,要求决策属性构成对U的划分,而相似关系往往只能得到U的某个覆盖,因此S并不适合作为决策属性.为此需将S改造为某种Fuzzy等价关系,这可以通过求其传递闭包的方式进行处理.定理3　对于不一致决策表DT=〈U,C∪D, f〉中,S的传递闭包为[11]T S=S k,(9)其中k≥ U .TS为U上的Fuzzy等价关系,可以相应得到其截关系T S 为如下形式:T S ={(x,y)∈U×U T S(x,y)≥ },(10)其中0≤ ≤1.T S 是U上的一个等价关系,可以构成对U的划分,记为U/TS , x∈U,包含x的等价类记为[x] .每个等价类中各元素间决策近似度大于等于 .进一步,将T S 看作原决策表的决策属性,则可以得到一个新的决策表.定义9( -决策表)　由不一致决策表DT=〈U,C∪D,f〉,可以导出 -决策表DT =〈U,C∪{T S },f　′〉.其中f　′仅在个体的决策属性到决策属性值的映射上与f不相同,对于决策属性,有f′TS(x)=[x] .易证DT 是一致决策表,相应定义原决策表DT的 -约简为:860控制与决策第21卷定义10( -约简)　决策表DT 的PR 称为决策表DT 的 -约简.显然,如果 =1,则DT 的 -约简即是DT 的DR.通过引入可调节参数 ,可以得到决策矢量在不同水平相似程度下的约简,即相当于对DR 引入程度可调的不一致,因而降低了DR 对决策表区分能力的苛刻要求.在实际应用中,得到T S 后即可进行值的选择.选择的主要依据是用户的使用要求和数据中所含噪声数据的情况.如果不需要严格区分相近的决策矢量,或已知决策表中数据受噪声影响较大,则选择较小的值,反之则选取较大的值.此外,如果可估计某些数据受到噪声影响情况,则可以在S 矩阵中相应增大或减小相应的矩阵元素值.由此可见,这样处理不仅能得到符合实际需要的约简结果,而且能有效降低噪声数据对约简结果的影响,这样的处理方式相对于M DR 和AR 更为灵活.-约简的计算可分为两步,第1步需要计算T S 矩阵,继而求出TS .第2步构造DT 并计算约简.易知总的时间复杂度取决于计算TS 矩阵,其值为O ( U 3[lo g U ]),[x ]表示x 的整数部分.6　实例计算分析下面通过一个实例来说明本文提出的计算不一致决策表约简的方法.决策表如表1所示,DT =〈U ,C ∪D ,f 〉.其中,U ={t 1,t 2,…,t 18},C ={a ,b ,c ,e ,f ,g },D ={d }.易得U /C ={{t 1},{t 2,t 3,t 14,t 15},{t 4,t 5,t 6},{t 7,t 8,t 9},{t 10,t 11,t 17,t 18},{t 12,t 13,t 16}}={C 1,C 2,C 3,C 4,C 5,C 6};U /D ={{t 1,t 2,t 12},{t 3,t 4,t 6,t 9,t 10,t 14,t 16,t 17,t 18},{t 5,t 7,t 8,t 11,t 13,t 15}}={D 1,D 2,D 3}.表1　实例决策表ab c e f g d t 10000000t 21000000t 31000001t 40111111t 50111112t 60111111t 70001002t 80001002t 90001001t 100111011t 110111012t 120011000t 130011002t 141000001t 151000002t 160011001t 170111011t 1811111 由定义7,可得到由表1导出的DT ,DT 和DT ,如表2所示(条件属性均为{a ,b ,c ,e ,f ,g },决策属性分别为{ C },{ C },{ C }).采用基于排序的启发式算法[3],由表2可分别计算出DR,MDR 和AR;由表1可直接计算出PR.计算结果如表3所示.表2　由表1导出的各种决策表a b c e f g C C C C 1000000(1,0,0) 1 1C 2100000(1/4,1/2,1/4) 2 2C 3011111(0,2/3,1/3) 3 3C 4000100(0,1/3,2/3) 4 4C 5011101(0,3/4,1/4) 5 5C 611(1/3,1/3,1/3)66表3　实例决策表4种约简的计算结果分布约简最大分布约简分配约简Pawlak 约简{a ,b ,c ,e ,f }{a ,b ,c ,e }{a ,b ,c ,e }{a ,e } 表2中: 1={D 1}, 2={D 2}, 3={D 2}, 4={D 3}, 5={D 2}, 6={D 1,D 2,D 3}; 1={D 1}, 2={D 1,D 2,D 3}, 3={D 2,D 3}, 4={D 2,D 3}, 5={D 2,D 3}, 6={D 1,D 2,D 3}.下面计算表1所示实例决策表的 -约简.由表2可求得Fuzzy 相似关系S 和Fuzzy 等价关系T S 为S =10.4080000.5780.40810.9130.7300.9040.94300.91310.80.9900.77500.7300.810.7070.77500.9040.9900.70710.7310.5780.9430.7750.7750.7311,T S =10.5780.5780.5780.5780.5780.57810.9130.80.9130.9430.5780.91310.80.9900.9130.5780.80.810.80.80.5780.9130.9900.810.9130.5780.9430.9130.80.9131.则在 = 1.0, =0.99, =0.943, =0.913和 =0.8时,可分别得到U /TS 1.0={{C 1},{C 2},{C 3},{C 4},{C 5},{C 6}},U /TS 0.99={{C 1},{C 2},{C 3,C 5},{C 4},{C 6}},U /TS 0.943={{C 1},{C 2,C 6},{C 3,C 5},{C 4}},U /TS 0.913={{C 1},{C 2,C 3,C 5,C 6},{C 4}},U /TS 0.8={{C 1},{C 2,C 3C 4C 5,C 6}}. 采用基于排序的启发式算法[3],可以分别求得在这个水平下表1所示实例决策表的 -约简,如表4　不同水平下实例决策表的 -约简10.990.9430.9130.8861第8期李凡等:不一致决策表的知识约简方法研究表4所示: 从表4可见,通过调节的值,由 -约简可以得到一族平滑过渡的知识约简,并且其中包括了实例决策表的DR,MDR,AR以及PR.7　结论在实际应用中,由于数据获取或数据处理方面的原因,决策表往往是不一致的.为了从中得到简洁的不确定性命题规则,必须对其进行知识约简.本文从以下两个方面对这个问题进行了探讨.首先,对不一致决策表的DR,M DR和AR,目前的约简方法是通过构造可辨识属性矩阵和相应的辨识公式求解约简.这样的方法在决策表很大或对计算时间有严格要求的场合并不适用.为此,本文提出了针对这3种约简的转化算法,将计算原不一致决策表的这3种约简转化为计算3种一致决策表的PR,进而通过应用针对PR的高效启发式算法,可以有效地减少计算时间的消耗.其次,DR对信息系统区分能力的要求比较苛刻,针对实际应用而言,这种约简不仅缺乏灵活性,而且易受到噪音数据的影响.针对这些缺点,本文提出了一种新的不一致决策表知识约简的概念,即 -约简.通过调节参数的值,对原决策表引入可调节的额外不一致,从而可以得到一族平滑过渡的知识约简,其中的每个约简反映决策矢量间不同水平的相似程度.相对于上述3种约简, -约简有更好的灵活性,因此能更好地满足实际应用的需要.参考文献(References)[1]P aw lak Z,G rzymala-Busse J,Slow inski R,et al.R ough Sets[J].Communication of the A CM,1995,38(11):89-95.[2]P aw lak Z.So me Issues on R ough Set s[J].T r ans onR ough Sets I,L N CS3100,2004:1-58.[3]刘少辉,盛秋戬,吴斌,等.Roug h集高效算法研究[J].计算机学报,2003,26(5):524-529.(L iu S H,Sheng Q J,W u B,et al.R esear ch on Efficient A lg or ithms for R ough Set M ethods[J].Chinese J of Comp uter,2003,26(5):524-529.)[4]Han J C,Hu X H,L in T Y.A New Com putationM o del for Roug h Set T heor y Based on Database Systems[A].DaW aK2003,L N CS2737[C].Ber lin: Spr ing er-Ver lag Heidelber g,2003:381-390.[5]K ry szkiew icz M.Co mparative Study o f A lt ernativeT y pes o f Kno wledge R eductio n in Inco nsist ent Systems [J].I nt J of I ntellig ent Sy stems,2001,16(1):105-120.[6]Zhang W X,M i J S,W u W Z.A ppro aches t oK no wledge Reduct ions in Inconsistent Infor mation Systems[J].I nt J of I ntelligent S y stems,2003,18(9): 989-1000.[7]张文修,米据生,吴伟志.不协调目标信息系统的知识约简[J].计算机学报,2003,26(1):12-18.(Zhang W X,M i J S,Wu W Z.Ko nwledg e Reductions in I nco nsistent Infor matio n Systems[J].Chinese J of Comp uter,2003,26(1):12-18.)[8]Ziar ko W.V ar iable P recisio n R oug h Set M o del[J].Jof Comp uter Sy stems and Science,1993,46(1):39-59.[9]N guyen H S,Slezak D.A ppr ox im atio n Reducts andA sso ciatio n Rules Cor respondence and Co mplex it yResults[A].Pr oc of RSF DGr C'99,L N A I1711[C].Ber lin:Spring er-V erlag Heidelberg,1999:137-145.[10]L i F,L iu Q H,Y ang G W.A Heur istic A lg or ithm forA ttr ibute Reductio n in Inco mplete Infor mationSy st ems[A].Pr oc of I S I CA2005[C].W uhan:China U niver sity o f Geo sciences of P ress,2005:574-580. [11]杨纶标,高英仪.模糊数学原理及应用[M].广州:华南理工大学出版社,2000:112-125.(Y ang L B,Gao Y Y.Fuz z y M ath T heor y andA p p lications[M].G uang zhou:South ChinaU niver sity o f T echnolog y o f Pr ess,2000:112-125.) (上接第847页)[39]Rofer T,J ng el M.V isio n-based F ast a nd R eact ive M onte-car lo L ocalizatio n[A].Pr oc of the I E EE I nt Conf on Robotics and A utomation(I CRA-2003)[C].T aipei,2003:856-861.[40]Bo gdan K.Finding L ocat ion U sing a P art icle F ilterand Histo g ram M atching[A].P roc of A r tif icialI ntelligence and Sof t Comp uting[C].P oland:Spr ing er,2004:786-791.[41]A ndr ew H,Sa jid S.A n Ex perimental Study ofL o calization U sing Wir eless Ether net[A].Pr oc of theI nt Conf on Field and Serv ice Robotics[C].L akeY amanaka,2003:201-206.[42]M eneg atti E,P rett o A,Pag ello E.A N ew Omni-dir ectio nal V ision Senso r for M onte-car lo L o ca lization[A].Pr oc of the8th RoboCup I nt Sy mp osium[C].Berlin:Spr inger,2005:97-109.862控制与决策第21卷。

基于粗集理论的决策表知识获取方法研究

Ｏｎｔｅｂｉｏｔｅｔｅａｍｅｏｆａｑｉｉｏｅｉｉｎｒｌｓｓｒｓｎｅ，ａｄｔｅａｖｔｇｆｓｇｔｉｔｏＯｏｔａｕｅａｓｆｈｅ，ｔｄｏｃｕｓｔｎｄｃｓｏｕｅｅｅｔｄｎｄａａｅｏｕｉｓｈｄｉｔｍｉｖｌｅｒ－ｈｓｒｈｉｉｐｈｎｎｈｍｅｓｄｃｉｎｉｅｉｉｎｔｂｅＡｎｅａｌｌｓｒｔｓｔｅｅｆｃｅｃｆｈｓｔｏｓｕｔｄｃｓｏｌ，ｏｎａｘｍｐｅｉｕｔａｅｆｉｎｙｏｔｏｅｍｅｄ．ｌｈｉｈ
基于粗集理论的决策表知识获取方法研究
冯林，刘照鹏黄志伟，
（．南交通大学计算机与通信工程学院，１西四川成都６０３；．１０１２四川师范大学工程技术系，四川成都６０７）１０２
摘要：决策表各条件分类和决策分类集合之间的关系进行了研究，出了直接从各分类中计算决策表核及属性约简方对提法；依据属性约简，创建了一个多变量决策树；此基础上，阐述了提取决策表中蕴含规则的方法，而省去了在约简后的在从决策表中计算值约简步骤；过实例，通验证了这些方法的有效性。关键词：粗集：决策信息系统；核；知识约简；决策规则中图法分类号：Ｐ０Ｔ３１文献标识码：Ａ文章编号：００７２（０６１－１２０１０．０４２０）２２７－３

第四章属性值约简(决策规则约简)

第四章属性值约简（决策规则约简）§1 属性值约简属性约简分两类，一类是信息表约简，一类是决策表约简。

信息系统S={U,A}的约简，是对整个属性集A进行约简，要求利用最少属性的属性集能提供与原属性集A同样多的信息，在此若是冗余属性，则是将a 去掉后则A-{a}与A具有同样的分类能力，即有下面相同的等价类族：若是独立的，即中任意去掉一个属性，都将改变其分类能力，则就是A的一个约简。

A的约简是A中独立的子集P并且P与A具有同样的分类能力，而中的属性对P来说都是冗余属性。

信息表的特点是属性集不再划分为条件属性集和决策属性集。

对于决策表来说，约简的情况不同，它不是针对整个属性集A进行的，约简的只是条件属性集。

决策表的约简分两部分：第一步：属性集约简若果，满足P是关于决策属性集D独立的，并且，则P是C的D约简。

C中的所有D约简的交称为C的核，记作。

第二步：属性值约简设是一致性决策表，是C的D约简。

值约简是针对相对约简而言的，或说属性值约简是对决策表上每一条决策规则来说的。

关于决策规则中属性值约简，下面例题提供了属性值约简的理论依据。

决策表上一条决策规则的条件属性值可以被约去，当且仅当约去该属性值后，仍然保持该条规则的一致性，即不出现与该条规则不一致的规则。

约简算法的步骤为：1 约简属性集；2 约简决策规则，即属性值约简；3 从算法中消去所有过剩决策规则。

关于决策表的属性约简和决策规则的属性值约简，看下面例子。

例1 简化给定决策表，其中为条件属性集，为决策属性集第一步：约简属性集：从决策表中，将属性A中的属性逐个移去，每移去一个属性立刻检查其决策表，如果决策表中的所有决策规则不出现新的不一致，则该属性是可以被约去的，否则，该属性不能被约去，称这种方法为属性约简的数据分析法。

解法1：从条件属性集中移去c列后，决策表不出现新的不一致，所以c列可约去；从中移去a或移去b，或移去d后，决策表中都出现新的不一致，故a,b,d都不能移去，即a,b,d都是C的D核属性。

一种基于知识量的约简算法

一种基于知识量的约简算法
张海云;梁吉业;梁春华
【期刊名称】《小型微型计算机系统》
【年(卷),期】2007(28)11
【摘要】提出一种新的属性约简算法,该算法基于粗糙集理论认为知识是区分事物的能力的观点,对知识进行了新的量化,并以量化后的区分能力作为启发式信息进行约简,提高了约简效率,理论分析与实例证明该算法是有效的.
【总页数】4页(P1968-1971)
【作者】张海云;梁吉业;梁春华
【作者单位】计算智能与中文信息处理省部共建教育部重点实验室,山西,太
原,030006;山西大学,计算机与信息技术学院,山西,太原,030006;计算智能与中文信息处理省部共建教育部重点实验室,山西,太原,030006;山西大学,计算机与信息技术学院,山西,太原,030006;山西大学,计算机与信息技术学院,山西,太原,030006;山西省财政税务专科学校,经济信息系,山西,太原,030024
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于知识量的决策表约简算法 [J], 梁春华;张海云
2.一种基于知识粒度的启发式属性约简算法 [J], 马福民;张腾飞
3.一种基于知识粒度单调性的属性约简算法 [J], 王晓宇;徐章艳;张伟
4.一种基于知识颗粒的高效完备属性约简算法 [J], 赵洁;肖南峰
5.一种基于知识粒度的决策系统属性约简算法 [J], 廖洪建
因版权原因，仅展示原文概要，查看原文内容请购买。

基于知识量的决策表约简算法

础上，设计了一种基于知识量的约简算法，实例分析表明该算法能够有效得到决策表的约简。
关键字：粗糙集理论；属性约简；知识量；相对知识量
中图分类号：Ｔ３１６Ｐ０．
文献标识码：Ａ
文章编号：１７ —１１（０７０—２４０６１８５２０）２０１—４
ＤｅｉｉｎＴａｌｄｃｉｎＡｌｏｉｈＢｓｄｏｏｅｇａｔｔｃｓｏｂｅＲｅｕｔｏｇｒｔｍａｅｎＫｎｗｌｄｅＱｕｎｉｙ
ＬｌＡＮＧｕ — ｕｔａｌＣｈｎｈａｅ，
粗糙集理论＿是１８１９２年由Ｚａａ．Ｐｗｌｋ提出的一种处理不确定性知识和模糊数据的分析工具。
有限集合，｛。口，，）：ＵＡ一口，。 … 口；
ａ ∈ Ａｉ。
；是属
‘
性口的值域；示Ｕ×Ａ— Ｖ是一个信息函数，ｆ表
属性Ｐ决定的划分Ｕ／Ｐ＝｛，，，Ｘ。Ｘ。 … Ｘ），则属性Ｐ具有的知识量Ｋ（Ｐ）定义为：
属性，从而得到约简中的条件属性对决策属性的
决策规则。
Ｋ（Ｐ）
∑ ＩｆＩｘｕ—ｘＩ
定理１Ｓ一（［设４Ｕ，Ａ）是一个信息系统，
维普资讯
ＪＳｔ．ｌＡＮＸＩＡＧＲＩＵＮＩＣ．Ｖ．（ｔｒｌＳｃｅｃＮａｕａｉｎｅＥｄｉｉｎ）ｔｏ

决策树规则提取

决策树规则提取
【原创实用版】
目录
1.决策树概述
2.决策树规则提取方法
3.决策树规则提取的优缺点
4.决策树规则提取的应用案例
正文
1.决策树概述
决策树是一种常见的机器学习方法，它通过一系列的问题来对数据进行分类或者预测。

决策树可以看作是一个问题树，每个内部节点表示一个特征，每个分支代表一个决策规则，每个叶子节点代表一个分类或预测结果。

2.决策树规则提取方法
决策树规则提取是指从已经构建好的决策树中提取出有用的规则。

一般有以下几种方法：
（1）ID3 算法：ID3 算法是一种自上而下，递归划分的方法。

它采用信息增益来选择最佳特征进行划分。

（2）C4.5 算法：C4.5 算法是 ID3 算法的改进版本，它引入了信息增益比和基尼指数来选择最佳特征，同时支持生成包含属性值范围的决策树。

（3）CART 算法：CART 算法是一种二叉树结构的决策树，它可以生成二叉树或树形结构。

CART 算法使用基尼指数作为划分属性的标准。

3.决策树规则提取的优缺点
优点：
（1）易于理解和解释；
（2）具有良好的可扩展性；
（3）可以处理连续和离散特征；
（4）对于小规模数据表现良好。

缺点：
（1）容易受到噪声干扰；
（2）对于大规模数据处理效率较低；
（3）过拟合现象较为严重。

4.决策树规则提取的应用案例
决策树被广泛应用于金融、医疗、营销等领域。

基于差别矩阵的不一致决策表规则获取算法

基于差别矩阵的不一致决策表规则获取算法
钱文彬;杨炳儒;徐章艳;谢永红
【期刊名称】《计算机科学》
【年(卷),期】2013(040)006
【摘要】针对传统基于差别矩阵的不一致决策表规则获取算法效率不理想的情况,提出了一种快速的基于差别矩阵的规则获取算法.算法首先引入简化决策表思想,删除决策表中可能存在的许多重复对象；然后基于简化决策表构造不同决策类之间的子差别矩阵,以有效地解决对象分布的非平衡性问题和缩小算法的求解空间；且采用启发式向后贪心搜索策略求解相对最小属性约简；并根据规则可信度获取有效的决策规则,可信度可动态设置,使算法具有较好的适应性.最后通过算例分析和实验比较验证了算法能获取有效的决策规则.
【总页数】4页(P215-218)
【作者】钱文彬;杨炳儒;徐章艳;谢永红
【作者单位】北京科技大学计算机与通信工程学院北京100083;北京科技大学计算机与通信工程学院北京100083;广西师范大学计算机科学与信息工程学院桂林541004;北京科技大学计算机与通信工程学院北京100083
【正文语种】中文
【中图分类】TP18
【相关文献】
1.一种基于差别矩阵的决策表规则提取算法 [J], 吕韶;谢先明
2.基于包含度的不一致决策表规则获取 [J], 李倩;董胜
3.基于浓缩差别矩阵的规则获取算法 [J], 朱金虎;徐章艳;乔丽娟;谢小军;王婷
4.不完备决策表的扩展差别矩阵规则获取方法 [J], 王帅;徐章艳;王炜;舒文豪
5.不一致决策表中规则提取的矩阵算法 [J], 黄兵;周献中
因版权原因，仅展示原文概要，查看原文内容请购买。

决策表知识约简方法研究

决策表知识约简方法研究
刘刚;贾利民
【期刊名称】《铁道学报》
【年(卷),期】2005(027)006
【摘要】伴随着铁路信息化建设,铁路各信息系统数据库中存在着大量冗余信息,如何删除那些不相关或不重要的知识就是知识约简所要解决的问题.它不仅是数据挖掘领域中的一项重要工作,而且对于数据集成、融合及铁路信息共享信息平台的建设都具有十分重要的意义.基于信息熵理论的方法就是一种很有前途的方法.本文提出一种类似信息熵的概率函数,利用这个函数可得到既适合于一致决策表,也适合于不一致决策表的知识约简方法,并以从铁道部某信息管理信息系统的数据中抽取出的决策表为例,从理论上验证了该方法的正确性.
【总页数】4页(P50-53)
【作者】刘刚;贾利民
【作者单位】铁道科学研究院,电子计算技术研究所,北京,100081;北京交通大学,交通运输学院,北京,100044
【正文语种】中文
【中图分类】TN911.21
【相关文献】
1.不完备决策表的知识约简算法研究 [J], 刘海波;戴小鹏;陈垦
2.广义不完备决策表的知识约简和规则提取 [J], 申锦标;吕跃进
3.不完备决策表的启发式知识约简算法研究 [J], 章正辉;戴小鹏;熊大红;陈垦;邓胜
4.不一致决策表下基于D-S证据理论的知识约简 [J], 曾凡智;卢炎生;黄国顺;陈章
5.不一致决策表的知识约简方法研究 [J], 李凡;刘启和;叶茂;杨国纬
因版权原因，仅展示原文概要，查看原文内容请购买。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

收稿日期:2006-02-28作者简介:孙胜(1978-),男,湖北黄冈人,博士研究生,研究方向为现代数据库理论与技术及系统实现;导师:王元珍,教授,博士生导师,主要研究方向为现代数据库理论及实现技术。

决策表的一种知识约简与规则获取方法孙胜1,2(1.华中科技大学计算机学院,湖北武汉430074;2.黄石理工学院计算机学院,湖北黄石435003)摘要:粗糙集理论是一种新型的数据挖掘和决策分析方法,利用粗糙集理论进行决策表的知识约简与决策规则挖掘已经成为研究热点。

文中介绍了粗糙集的基本理论,在此基础上运用该理论对从决策表中获取最小规则进行了研究,提出了决策表约简的启发式方法,并通过一个具体实例详细说明了决策规则获取过程,实例分析表明了其有效性。

关键词:粗糙集;决策表;决策规则;属性约简中图分类号:T P311.131 文献标识码:A 文章编号:1673-629X(2006)09-0035-03Knowledge Reduction and Rule Acquirement Method in Decision TableSUN Sheng 1,2(1.Schoo l of Computer Science,Huazhong U niv ersity of Science and T echnolog y,Wuhan 430074,China;2.School of Computer Science,Huangshi Institute of T echnolog y,Huangshi 435003,China)Abstract:Rough set theory is a new data mining and decision analysis method.Knowledge reduction and decision rule mining in decision table by using rough set theory has become a research hotspot.T he article introduces basic con cepts in rough set theory first.M inimal dec-i sion rule acquirement in deci sion table based on rough set theory i s researched.A heuristic approach for rule reduction is put forward,and the procedure of decisi on rule acquirem ent is i lluminated using an example.T he instance analysis show s its validity.Key words:rough set;deci sion table;decision rule;attribute reduction0 引言粗糙集理论是由波兰科学家Z.Paw lak 教授于1982年提出的一种研究不精确、不确定性知识的数学工具[1,2]。

已应用于机器学习、知识发现、数据挖掘、决策支持与分析、专家系统、归纳推理和模式识别等许多科学和工程领域[3]。

从实际系统采集到的数据可能包含各种噪声,存在许多不确定因素和不完全信息有待处理。

传统的不确定信息处理方法,如模糊集理论、证据理论和概率统计理论等需要数据的附加信息或先验知识,而粗糙集理论能在缺少关于数据的先验知识的情况下,仅仅以对数据的分类能力为基础,对模糊或不确定性数据进行分析和处理,这就克服了以上几种方法的不足之处。

知识约简就是在保持知识库的分类和决策能力不变的条件下,删除其中不相关或不重要的知识[4]。

决策表的简化是知识约简的重要内容之一,并在数据挖掘和知识发现等领域有重大应用价值。

粗糙集理论的研究对象是一个二元信息表,称为信息系统[5]。

信息系统由一些对象通过在一些属性上的取值来构成。

若属性集合分为条件集和决策集,则信息系统称为决策表。

决策表简化的理论基础是属性的核与约简及其关系、规则的核与约简及其关系。

根据决策表简化的结果,利用决策规则挖掘算法可以获取决策系统的规则。

1 有关的粗糙集概念现实世界中的信息,在粗糙集理论中用决策表的形式给出。

下面先简要介绍一下文中主要用到的Rough 集基本概念,详细的请参考文献[3~5]。

定义1 称S =(U,A ,V ,f )是一个知识表达系统,其中U 是非空有限对象集合,U ={X 1,X 2,,,X n };A 是非空有限属性集合;f 是一个U @A 到属性值集合V 上的一个映射,它表示每个对象在每个属性上对应一个值,称为信息函数。

若A =C G D ,其中C 是非空有限条件属性集合,D 是非空有限决策属性集合,且C H D =ª,则称该知识表达系统为决策表。

此知识表达系统又称为决策系统。

定义2 若X A U,则称R -(X ){x I U:[x ]R A X }为X 的下近似集,R -(X )={x I U:[x ]R H X X ª}为X 的上近似集。

pos R (X )=R -(X )称为X 的R 正域,neg R (X )=U -R -(X )称为X 的R 负域。

第16卷第9期2006年9月计算机技术与发展COM PUT ER TECHNOLOGY AND DEVELOPM ENTVo l.16 N o.9Sep. 2006定义3 设P A R ,如果P 是独立的,且ind (P )=ind (R ),则称P 为R 的一个约简,记为red (R )。

由定义知R 的约简是不惟一的。

定义4 设P A R ,P 中所有必要关系组成的集合称为P 的核,记为c ore (P )。

核与约简有如下关系:core (P)=H red (P)。

其中red (P )表示P 的所有约简。

定义5 设属性集P A R ,对象X ,Y I U,对于每个a I P,当且仅当f (X ,a)=f (Y ,a)时,X 和Y 是不可分辨的,即ind (P )={(X ,Y )IU:a I P ,f (X ,a)=f (Y,a)}。

定义6 设有决策表S =(U,A ,V ,f ),a(x )是记录x 在属性a 上的值,即a (x )=f (x ,a),C ij 表示辨识矩阵第i 行,第j 列的元素,辨识矩阵的定义为:C ij ={a I C :a(x i )X a (x j )} D (x i )X D(x j )ª D (x i )=D(x j )其中i,j =1,2,3,,,n,这里n =|U |。

定义7 信息系统中每一行就是一条决策规则des ([x]C )]des ([x ]d ),其中de s ([x ]C )表示U 中的个体x 关于属性集C 的属性值。

定义8 设U 为一个论域,C 和D 为定义在U 上的两个等价关系簇,若POS C (D)=POS (C \{a})(D),则称a 为C 中相对于D 是可省略的;否则,称a 为C 中相对于D 是不可省略的。

2 决策表约简的启发式方法决策表的简化就是化简表中的条件属性,化简后的决策表具有与化简前的决策表相同的功能,但化简后的决策表具有更少的条件属性。

这里包括属性的简化(即去掉一列)和属性值的简化(即去掉一列中的某些冗余属性值)。

去掉冗余属性值的决策表称为条件属性的核值表。

决策表的约简分为三步:(1)计算条件属性的约简,即从决策表中删去一些列;(2)删去重复的行;(3)删去多余的属性值。

前两步是对决策表进行整体约简,第三步是对每一条决策规则(每一行)进行进一步约简,使得在一行中去掉某些属性值后仍能划分到原来的决策类中。

决策表约简的第一步通常需要求出核属性集,有两种方法可以求出核属性集。

第一种求核方法的思想是:首先生成辨识矩阵,然后在辨识矩阵中找出所有属性个数为1的元素,所求核属性集是指所有满足上述条件的属性的集合;在第二种方法中,条件属性相对于决策属性e 不可省略的属性集为核属性集。

属性约简的启发式方法的基本思路是:先计算出核,而后根据其它属性的重要程度依次在核的基础上添加属性直到使所得的知识与原信息系统或决策表的分类能力相同为止,也可以根据决策属性对条件属性的依赖程度依次剔除掉那些对分类不产生影响的条件属性。

在属性约简之后,还要进行属性值的约简。

属性值约简是针对每条决策规则,去掉表达该规则的冗余值,以便进一步使决策算法最小化。

属性值的约简,最常用的方法就是数据分析法,是基于规则逐条进行处理的。

设B A A ,x I U,关于等价关系ind (B )包含x 的等价类[x ]ind (B)可以写成[x ]B 。

在一条决策规则中,对于任意的条件属性集C ,[x ]C =H [x ]a ,a I C 。

U y 7的条件属性集、决策属性集分别为C ,D,且a I C ,当且仅当[x](C -{a })A [x]D 时,称属性a 是规则U y 7中可省略的,否则,a 为不可省略的。

消去每条决策规则中不必要条件之后可得到属性值的约简结果。

3 基于粗糙集理论的最小决策规则获取算法从决策表分析得到的规律性知识,通常采用决策规则的形式记录下来,并可以在将来的决策过程中利用这些知识来对未知的观察样本进行决策判定。

知识约简的目的是导出关于决策表的决策规则,约简中属性的多少直接影响着决策规则的繁简。

因此期望找到具有最少属性的约简,即最小约简。

实际计算知识约简时,往往采用某种启发式算法。

属性重要性是算法的重要启发式信息,按照属性重要性从大到小逐个加到被选择的属性子集中,直到该集合是一个约简为止。

在决策表S 中,C 和D 分别为条件属性集和决策属性集,属性子集C c A C 关于D 的重要性定义为R CD (C c )=C C (D)-C C -C c (D )。

其中C C (D )=|POS C (D)|/|U |。

可以将上式左边的R CD (C c )理解为当属性子集C c 被除去时所发生的分类错误率。

特别地,当C c ={a}时,属性a I C 关于D 的重要性为R CD (a )=C C (D )-C C-{a}(D )。

决策规则的重要性一般通过其支持度和信任度两个指标进行度量。

其定义如下:决策规则de s ([x ]C )]des ([x ]d )的支持度为|[x ]C H [d ]D |/|U |。

决策规则des ([x ]C )]de s ([x ]d )的信任度为|[x ]C H [d ]D |/|x |C 。

下面给出基于粗糙集的最小决策规则获取算法:输入:一个决策表S =<U,C G D,V ,f >输出:最小决策规则集RULE步骤1:计算决策表S 中条件属性集C 关于决策属性集D 的重要性C C (D )=|POS C (D )|/||U |;步骤2:计算C 相对于D 的核R =CORE D (C);步骤3:对每个属性a I C -R ,计算其属性重要性R CD (a )=C C (D)-C C-a (D);步骤4:在C -R 中选择属性a 使得R CD (a )达到最大值,如果有多个属性a i (i =1,2,,,m )达到最大,那么选择与R 组合数最少的a j ;步骤5:R =R G {a j };步骤6:如果C R (D)=C C (D ),则终止,转步骤7;否则转步骤4;步骤7:在得到C 相对于D 的某个相对约简R 之后,进#36# 计算机技术与发展第16卷一步运用数据分析法对决策表进行属性值约简,可得规则核值表;步骤8:根据规则支持度函数,对规则核值表所对应的每条规则进行评价,得到每条规则的支持度值;步骤9:对于规则核值表,提取大于支持度阈值的规则写入规则集RULE中,这样得到的规则集RULE就是决策表的最小决策规则集。

决策表的一种知识约简与规则获取方法

合集下载

rough set 的作用

一种非相容决策表的属性值与属性约简方法

一种新的不一致决策表属性约简算法

决策表法

一种属性与值约简及规则提取算法

一种不完备决策表中的广义决策约简

广义不完备决策表的知识约简和规则提取

决策表的一种知识约简与规则获取方法

不一致决策表的值约简方法

不一致决策表的知识约简方法研究_李凡

基于粗集理论的决策表知识获取方法研究

第四章属性值约简(决策规则约简)

一种基于知识量的约简算法

基于知识量的决策表约简算法

决策树规则提取

基于差别矩阵的不一致决策表规则获取算法

决策表知识约简方法研究

文档推荐

最新文档

决策表的一种知识约简与规则获取方法

合集下载

rough set 的作用

一种非相容决策表的属性值与属性约简方法

一种新的不一致决策表属性约简算法

决策表法

一种属性与值约简及规则提取算法

一种不完备决策表中的广义决策约简

广义不完备决策表的知识约简和规则提取

决策表的一种知识约简与规则获取方法

不一致决策表的值约简方法

不一致决策表的知识约简方法研究_李凡

基于粗集理论的决策表知识获取方法研究

第四章 属性值约简(决策规则约简)

一种基于知识量的约简算法

基于知识量的决策表约简算法

决策树规则提取

基于差别矩阵的不一致决策表规则获取算法

决策表知识约简方法研究

文档推荐

最新文档

第四章属性值约简(决策规则约简)