+ 7 5 8! $ $ ! % &’ () * )+ , % -./ 01 ) 2 * ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? ? A > B N =I5 > B N B 6 ’ I5 T 96 T 9J> \ 证 明 ’ 首 先 令 4S => @O PQ5 96 ;#;?> B 6 => @’ ;AB 4S O PQ5 T < < < # ? CB 因为 论 域 4 是 在 9 上 相 对 于 > 一 致 的即 B T 要 本文将从信息论观点出发对 2 通过与 2 4 7 G H集 理 论 的 基 本 概 念 和 主 要 运 算 进 行 分 析 讨 论 ; 4 7 G H集 理 论 的 代 数 观 点进行比较分析 ; 得到这两种观点下的一些等价性质和不同的特性 ; 并基于条件信息熵提出决策表的约简算法 6 关键词 信息熵 ; 近似集 ; 等价性 ; 知识约简 2 4 7 G H集 ; 中图法分类号 @ 1 9 D / 重庆 > $ $ $ > > : 深圳市中兴通讯股份有限公司重庆研究所 = 摘 不确定E 含糊信息的数学理论方法; 在机器学 2 4 7 G H集理论是近年来发展起来的一种 有 效 地 处 理 不 精 确 E 习E 数据挖掘 E 智能数据分析 E 控制算法获取等 领 域 取 得 了 很 大 的 成 功 6 研究者从不同的角度对这个理论进行研究6 "E5 ;6 E 5 ;6 @ < @ < " < D E &= "E5 <6 E 5 <6 @ # ? # ? # ? ;# ;? @ &< &E 5 <6 E 5 ;A6 C C ;A ;F < H 其 中-F =# ? @GE 5 5 6 = 6 = E ;F A < H 4 4 =# ? @H C’ 定义 . 属性集合6 定义 ’ 知识5 9 的 熵 I5 96 A ml(F n J % H 7 M Baidu Nhomakorabea< : = ;x ;x $ $ $ ? " : o p q r s r t r u v wx v y z t r u {| } s u p } u ~ p !" u } # p v $ v % & # v p % ’ s p %(p s ) u { q s r &v w* v q r q ~ p !" u $ u } v yyt p s } ~ r s v p q # v p % ’ s p %> = ;x ;x $ $ $ > > : o p q r s r t r u v wx v y z t r u {| } s u p } u ~ p !+ p % s p u u { s p % # v p % ’ s p %(p s ) u { q s r & # v p % ’ s p %> U V W X Y X Z [\ ] ^ _ V‘ V a b W c X Z [^ ] Y V aZ [d Z [ a X c X Z [ ] _ e [ f Z g h] c X Z [i [ c g Z j k A Ll(F F 7 4 mK M 9 : ! : 9 : m0 &4 M G 9 : ; ! : 第! "卷 第 #期 ! $ $ !年 #月 计 算 机 学 报 34 5 6! " (4 6# 基于条件信息熵的决策表约简 王国胤 9 : ! : < : 9 : 于 洪 9 : ; ! : 杨大春 < : 重庆邮电学院计算机科学与技术研究所 = 重庆大学计算机科学与工程学院 = 重庆 > $ $ $ ? " : 重庆 > $ $ $ ? $ : ? 计 算 机 学 报 ? ] ] ?年 理论 解 决 诸 如 数 据 挖 掘 ! 机 器 学 习! 智 能 控 制! 数据 分析 ! 故障诊断等问题的众多算法模型 ’ 通过 ( ) * + ,集 理 论 是 以 不 可 分 辨 关 系 为 基 础 引入上近似集和下近似集 在集合运算上定义的 ’ 这 通常称为 ( 另 外一些学 ) * + ,集 理 论 的 代 数 观 点 ’ 者从信息论的观点对 ( 提出 ) * + ,集理论进行研究 了( 本文将研究 ( ) * + ,集理论的信息论观点 ’ ) * + , 集理论的信息论观点 并与代数观点进行对比 发现 从而基于条件信息熵提 二 者 之间的一些 有 用 关 系 出决策表的约简算法 ’ > 引 言 收稿日期 @ 修改稿收 到 日 期 @ 本课题得到国家自然科学基金= 攀登计划特别支持费E 高等学校骨干教 ! $ $ 9 A $ # A $ B C ! $ $ ! A $ 9 A ! > 6 ? B D $ < $ 9 > : E 师资助计划 = 教育部留学回国人员科研启动基金和重庆市应用基础研究基金资 助 6 王国胤; 男; 博士; 教 " ! $ A 9 $ ? 9 # A 9 $ $ 9 : E 9 B # $年 生 ; F FA 授; 主要研究领域包括 神经网络 E 机器学习 E 数据挖掘等 6 于 A @LJ NO 6 6 6 7 G H集理论 E ) IJ K 5 M G G 8 P 7 Q R S T 7 O M 万方数据 24 洪; 女; 博士研 9 B # !年 生 ; 究生 ; 主要研究领域为数据挖掘 E 计算机网络与通信 6 杨大春 ; 男; 硕士 ; 主要研究领域为人工智能 E 计算机网络与通信 6 9 B # 9年生 ; 定 理 还仅仅 是针对 一般 信 息 表 的 约 简 问 题 5 绝对约 简6 而言的 ’ 对于 决 策 表 的 相 对 约 简 问 题 我们证明 了如下定理 ’ 定理 d ’ 设 4 是 一 个 论 域9是 4的一个条 件 属 性 集 合且论域 4是在 9上相 T为 决 策 属 性 一 致 的则 9中的一个属性 \ 是 9相对于 对于> B T 决 策 属性 T不必 要的 5 多余 的 6 其 充分必 要 条 件 为 - X c & 以从信息熵的角度来研究属性约简问题 " 但上述 - 且 9Z: 若 I5 则O 属 性集合 ’ =I5 :6 96 PQ5 :6 . / 0 1 2 3集理论的信息论 观点描述与讨论 设 4 为一个论域 可以认为 4 上任一属性集合 知识! 等价关系 簇 6 是定义在 4上的子集组成的 7 5 代数 上 的一个随 机 变 量 其概率分布可通过如下方 法来确定 ’ 定义 8 ’ 设 9:在 4上导出的划分分别为 则 5 @=> @6 ;< ;=> ;#;?;AB < < < < # ? CB 代数上的概率分布为 9: 在 4 的子集组成的 7 " ;D E &= < : ;x = $ $ $ ? $ : # v p % ’ s p %, .o p q r s r t r u v w/ " +x v { z v { ~ r s v p # v p % ’ s p %> x 0 ^ Y c g ] W c 1 H K 1 Q J Q S 2 J M J 5 8 3 S 1 R H SK M 4 4 2 IJ R K 4 M5 K S 64 4 2 4 7 G H1 S R R H S 4 2 8J M TO 4 IQ J 2 S 1 K R 6K R HR H S 6* J 5 G S 7 2 J5 K S 64 4 2 4 7 G H1 S R R H S 4 2 8 4 ISS P 7 K 5 J 5 S M O S2 S 5 J R K 4 M 1J M T4 R H S 28 K M T4 4 2 S 5 J R K 4 M 15 K 8 SK M A O 5 7 1 K 4 M2 S 5 J R K 4 M7 S R 6S S MR H SK M 4 4 2 IJ R K 4 M5 K S 6J M TR H SJ 5 G S 7 2 J5 K S 64 4 2 4 7 G H1 S R R H S 4 2 8J 2 S2 S 1 7 5 R A 61 S TR H 2 4 7 G HO 4 IQ J 2 K M GS J O H4 R H S 2 64M 4 5 S 5 H S 7 2 K 1 R K O 8 M 4 65 S T G S2 S T 7 O R K 4 MJ 5 G 4 2 K R H I1 J 2 ST S 5 S 5 A ;R ;O 4 Q S T7 J 1 S T4 MO 4 M T K R K 4 M J 5 K M 4 4 2 IJ R K 4 MS M R 2 4 Q 8 H J RK 1 4 M T K R K 4 M J 5 S M R 2 4 Q 87 J 1 S TJ 5 G 4 2 K R H I4 4 2 :J S T 7 O R K 4 M4 4 8 M 4 65 S T G S6K R HO 4 IQ 7 R K M GO 4 2 S= % ) 9 l2 :% % M TO 4 M T K R K 4 M J 5 S M R 2 4 Q 87 J 1 S TJ 5 G 4 A 2 : 61 2 K R H I4 4 2 2 S T 7 O R K 4 M4 4 8 M 4 65 S T G S6K R H 4 7 R O 4 IQ 7 R K M GO 4 2 S= % ) 9 l2 :(% H S 1 SR 64J 5 G 4 2 K R H I1 J 2 SO 4 IQ J 2 S T6K R HJI7 R 7 J 5 K M 4 4 2 IJ R K 4 M7 J 1 S TJ 5 G 4 2 K R H I4 4 2 2 S T 7 O R K 4 M4 4 8 M 4 65 S T G S= .’ 9 l2 :: 6% 4 4n 7 4 P K J M.K J 4R H 2 4 7 G HR H S 4 2 S R K O J 5J M J 5 8 1 K 1J M TS ; Q S 2 K IS M R J 51 K I7 5 J R K 4 M ) 9 l2 :% %J 5 G 4 A 6 2 K R H IJ M T% ) 9 l2 :(%J 5 G 4 2 K R H IH J 5 SG 4 4 TQ S 2 4 4 2 IJ M O SK M1 K I7 5 J R K 4 M <V k = Z g a Y R K 4 M ;K ;J ;S ;8 2 4 7 G H1 S R 1 M 4 4 2 IJ R K 4 MS M R 2 4 Q 8 Q Q 2 4 ; K IJ R S1 S R P 7 K 5 J 5 S M O S M 4 65 S T G S2 S T 7 O A 定 和 含 糊 信 息 的 重 要 工 具6 自波兰科学家 / J 65 J 8 于9 越来越多 B D !年 提 出 2 4 7 G H集 这 一 理 论 以 来 ; 的 研 究 人 员 开 始 对 它 进 行 研 究; 从理论上建立了 2 4 7 G H集 是 近 年 来 发 展 起 来 的 一 种 处 理 不 确 还提出了运用 2 2 4 7 G H集理论的数学模型 ; 4 7 G H集 " # $% & ’ I5 96 值得注意的是 定理 ?的逆并不成立 ’ 定理 M ’ 设 4 是一个论域 9: 是 4 上的两个 =O ’ PQ5 96 定理 [ ’ 设 4 是 一 个 论 域9是 4上的一个 属性集合 是不必要的 其充分必 9 中的一个属性 \ 要条件为 I5 > B N B 6 =] ’ \ 9J> \ 推论 8 中 的 一 个 属 性 ’ 9 \是 必 要 的 充 分 必 要条件为 I5 > B N B 6 ^] ’ \ 9J> \ 定理 _ ’ 设 4 是 一 个 论 域9是 4上的一个 属 性 集 合:Z9 是 9 的 一 个 约 简 的 充 分 必 要 条 件 为 I5 且对任意的 ‘ 6 =I5 a: 都有 I5 > B N : 96 ‘ : J> B 6 ^] ’ ‘ 由定理 b 定理 %和定理 W可知 对 于属 性约简 而言 信息熵表示形式与代数表示形式是等价的 ’ 可