当前位置：文档之家› 采用增量关联规则挖掘提高电子病历系统的用户体验度

采用增量关联规则挖掘提高电子病历系统的用户体验度

采用憎量关联规则按掘提高电子病历

系统的用户体验度

文章编号：1671-7104(2009)02-083-04

【作者】

【摘要】

【羌键词】【中图分类号】【文献标识码】

【Writers】【Abstract】【Key words】周保琢1，李传富1, 2，代亮亮1，冯焕清1

1 中国科学技术大学电子科学技术系（安徽，台肥，230027）

2 安徽中医学院第一附属医院影像中心（安徽，台肥，230031）

该文针对电子病历系统的用户体验度不高的问题，首先用模板和文本特征化的方法对电子病历中的事务数据实现结构化；再基于增量关联规则挖掘算法对产生的结构数据进行关联规则挖掘，找出模板中备个元素的关联以及对应元素取值之间的关联，最后根据挖掘结果来指导用户的输入，从而有效提高了电子病历系统的用户体验度

电子病历；增量关联规则；数据挖掘；用户体验度

TP311.13

ZHOU Bao-zhuo1, LI Chuan-fu1,2, DAI Liang-liang1, FENG Huan-qing1

1 Department of Electronic Science and Technology, University of Science and Technology of China,

Hefei 230027, China

2 Image Center, The First Af? liated Hospital, Anhui College of Traditional Chinese Medicine, Hefei 230031, China

The user experience (EX) of current Electronic Medical Record systems (EMR) is needed to improve. This paper proposed a new method to enhance EX of EMR. Firstly, system template and text characterization are used to make the EMR data structured. Then, the structured date are mined based on mining the association rules of incremental updating data to ? nd the association of the elements of template of EMR and the values of elements. Finally, with the help of mined results, the users of EMR are able to input data effectively and quickly.

EMR, association rules of incremental updating data, data mining, user experience

A Method to Enhance User Experience of EMR Based on Mining Association Rules of Incremental Updating Data

近年来，国家正着力推动数宇化医院的建设，而数宇化医院的核心是电子病历系统(Electronic Medical Record system, EMR)，因此国内许多大中型医院都在努力推广EMR。但是，医院在推广建设EMR过程中，存在一个突出间题是用户的体验度（User Experience, UX或UE）不高，表现尤为明显的是门诊医师工作站成了一种摆设。究其原因，工作站没能成为医师的帮手，这对于许多难以熟练操作电脑的高年资医师间题尤为突出，从而导致电子病历系统对医疗过程信息记载的不全，极大影响了系统的推广和后续的信息挖掘。实际上医疗数据本身存在一些自然规律。例如，同一医院、同一科室、同一医师诊疗的疾病种类相对局限；同一疾病的临床表现、体征、实验室检查结果等又相互关联，等等。利用这些数据的内在规律，本文提出了一种基于增量关联规则的数据挖掘算祛，旨在提高EMR的用户体验度，使电子病历成为医师看病的帮手，而不是一种负担。

增量关联规则挖掘是数据挖掘领域里的研究热点。例如，基于Apriori框架，Cheung提出了FUP[1]，FUP2[2]，冯玉才等提出了IUA和PIUA[3]；基于FP-tree框架，Ma等提出了TM[4]；基于矩阵框架，倪志伟等提出了IUBM[5]。目前，大多数应用系统中使用的挖掘算祛多基于FP-tree框架，但是它依赖于固定的最小支持度和数据集。EMR中病历样本的数据是逐步增加和变化的，最小支持度也是可以人为调整的。当这两个因素变化时，我们就不能再利用先前建立好的FP-tree树，需要重新扫描全部数据库，从而大大影响了算祛的时间和空间效率，因此EMR拟采用基于CAN-Tree树的增量关联规则挖掘算祛[6]。同时，这些挖掘算祛都是在假设数据是结构化的基础上提出的，然而EMR中最重要的病历数据并非是结构化的。这样，就需要在数据采集部分引入一些数据结构化的方祛，首先是在整体上使用模板的方祛来结构化病历数据。但是这并不能解决所

收稿日期：2008-12-11

基金项回：安微省2007年度重点科研计划项目（0702030077）作者简介：周宝琢，E-mail: bzhou8@https://www.doczj.com/doc/fb12169425.html,

有间题。对于结构化模板后的自由录入数据，本文引入了文本特征化的方祛来解决其结构化间题。

1 电子病历模板和结构化吝储

我们在设计EMR 时，考虑到各科室对病历输入格式的个性化要求，引入了模板化方祛，通过模板来实现电子病历数据的结构化。下面以一个中医院的住院病历为例，该病历主要包括病人基本情况、主诉、现病史、既往史、个人史、婚育史、月经史、家族史、体格检查、辅助检查、中医辨病辩证依据、西医诊断依据和诊断等几大部分。每个部分包含N 个输入元素[7]，如表1。

可见，一个科室的电子病历模板可以定义成多元

素的组合。我们对每个要输入的元素进行定义和编码（nodecode ），保证该元素的定义具有唯一性。这样，在一个具体的电子病历记载中便只需记录下该编码和对应的值(nodevalue)。因此，存储结构就是一个三元组：病历编号一元素编码一元素值（id 一nodecode 一nodevalue ）。

2 问题描述

2.1 基本概念和羌联规则挖掘

下文中，I 一{i 1, i 2,......,i n }称为属性集合，D 一{t 1, t 2,......,t n }称为事务数据库。t k , k 一1,2,......,n 称为一项事务，每一项事务由属性集合中的若干个属性组成，即t k 一{t k 1, t k 2,......,t kn }? I 。蕴含式X 一>Y 称为一个规则。设sup p (X )表示X 项集合的支持数[1]，则规则X 一>Y 的信任度c 和支持度s 的计算公式为[8]：

2.2 电子病历中的羌联规则挖掘

如前，EMR 存储结构是一个病历编号一元素编码一元素值的三元组，一条事务可以看成是多个病历编号相同三元组的组合，于是系统的关联规则挖掘在两个层次上展开。首先是挖掘元素编码之间的关联规则，找频繁集，作为第二个层次的挖掘基础；其次是把元素编码一元素值作为一个组合，计算组合与组合间的

支持度，并把该支持度作为备选数据的录入顺序和默

认显示的依据。具体步骤如下：第一步：对模板中的元素进行编码，如表2所示。

第二步：对具体病历数据进行扫描，看是否在病历

中有该项目，如表3所示。

第三步：对病历数据进行扫描，产生单个元素的所有值的集合；对于己经定义取值范围的元素，直接由定义产生所有值的集合。

心表4是那些己经定义取值范围的元素值集合的示意。

② 在病历元素值中，有一些数据是自由录入数

据，没有一个固定的取值集合，该值基本上是一段文本，可以按照文本特征化的方祛[9]来产生取值集合，不过这些取值多是一些词组。由于限定在某个科室的病历模板下，所使用的词组是有限的，因此这个取值集合是一个不很大的多选词组集合类。要实现快速方便的录入数据，就必须根据己输入的数据，动态调整后续的输入元素和输入数据，实现模板的智能化[10]。

3 带文车特征化的僧羹关联规则擅掘寡洁

3.1 自白录入数据的特征化

对于医生自由录入的数据，我们按以下过程来进行特征化：

表1 住院病历内容分类表

Tab.1 Classification table of hospital medical record

编号部分具体包含元素1基本情况姓名、性别、出生年月、婚姻、职业、籍贯、住址等2现病史患病时间、发病缓急、前趋症状、可能病因、主

要症状、伴随症状、两者关系等

3体格检查T 、P 、R 、BP 、发育、营养、体态、五官等4... ...... ...

表2 电子病历模板中元素编码示意表

Tab.2 Coding table of element of EMR template

元素编码

元素名元素编码元素名S1科室S7患病时间S2性别S8发病缓急S3婚姻S9主要症状S4职业S10两者关系S5籍贯S11营养

S6可能病因

... ...... ...

表3 电子病历数据库按模板元素扫描结果示意表

Tab.3 The scanning results of EMR database

病历

代码S1S2S3S4S5S6S7S8S9S10S1100001111101111010000211110101101000031101111000100004

表4 电子病历中元素值集合的示意

Tab.4 The collection of template element values of EMR

编码元素名值类型元素值集合编码

S1科别单选集合类{骨科，内科，

外科，...... }{S1V1,S1V2,S1V3,...... }S11营养单选集合类{良好，中等，不良，恶病质}

{S11V1,S11V2,S11V3,S11V4}

......

............

......

（1）文本生成。自由录入数据的特征化，实质上是从自由录入的文本中提取特征词。这里提出的特征词与一般的文本特征词有一定的区别。一般来说，对于EMR 模板中的一个元素，自由录入数据要少于一篇文章的数据，同时又大于几个词组的数据。所以，我们综合一个科室的病历数据，把一个元素的多条事务数据加在一起，作为一个文本来处理，即： SnV=SnV1+SnV2+ SnV3+......+ SnVi 可以动态或固定地选取i 的大小，也就是选取多少条事务数据。一个元素生成的所有数据，可以被分成多个文本进行综合处理。（2）词集生成。再结合CETRAN 的概念词典，提取出词集{w 1, w 2,......,w n }。（3）特征词生成。对于词集中的，是否选择为特征词，主要看该词的权重是否大于阈值。权重函数如下：

其中H 一(w i )表示词w i 的权重函数，f u 一(w i )表示特征词在文本中的频率，f v 一(w i )表示包含w i 的段落数/文本总段落数，I 表示特征词的长度。（4）特征词优化。对于中文里一些出现频率很高的词，如“这、那、的、地、是、了”等，应该放在停用表中，予以删除。同时，使用概念词典，对同义词进行合并处理。（5）结构化处理。对于选取出来的特征词集合，将其作为元素值的集合，融入病历编号一元素编码一元素值三元组结构中，参与后续的CAN-Tree 树的构建。3.2 CAN-Tree 树构建

（1）节点设计树中每个节点包含四个域：item_name （数据项目编号），item_ support （支持计数值），item_parent （指向父节点的指针），item_succ(指向相同项目节点的指针)。（2）列表L 设计首先由用户或业务专家事先对所有数据项指定一个排序，列表包含三个域：item_name （数据项目编号），item_support （支持计数值），item_succ(每个项目通过它指向在树中第一个出现的数据项目)。（3）树构造算祛扫描一次数据库获取各数据项的支持计数值，按照事先确定的排列顺序初始化列表L 。

将一条事务数据插入到树中的过程Insert （T ，Sn ）

的伪代码如下：

输入：CAN-Tree 树T （包括其列表L ），事务数据Sn 。输出：CAN-Tree 树T Insert （T ，Sn ） Pa=NULL

For(x 为Sn 的每个数据项) Lx=false ； While(node 为L （x ）链表中的每个节点) If(node 的下个节点等于Pa) node 支持数++； pa 的支持数++； Lx=True; Pa=node.item_parent ； If(Lx =false)

新建节点node ； node 支持数++； pa 的支持数++；

Pa=node.item_parent ；下面以表5中的事务数据库为例，来说明Can-Tree 的构造算祛。

该数据库中的数据关系为D B , D B U D b1，DB U Db1U Db2。参考文献[11]提供的方祛，我们可以按照图1所示的过程来构建CAN-Tree 。3.3 在CAN-Tree 树中挖掘羌联规则

首先从一个数据项出发，得到包含数据项的所有条件模式基，然后将这些条件模式基看作一个新的事务数据，构造条件模式树。对于一次确定的CAN-Tree ，它反映了所有事务数据的原始信息，包含了一些支持度小于最小支持度的非频繁数据项。这样，通过参数化最小支持度就可以裁剪条件模式树中的非频繁节点，组合数据项和条件模式树中的频繁节点就得到了该数据项的频繁集。

表5 电子病历中归一化后的增量事务数据

Tab.5 Normalized incremental data of EMR database

数据事务批次

事务内容DB

S1{A,B,D,G,E,C}

S2{A,B}S3{D,A,B}S4{D,F,B,E,A}

S5{A}Db1S6{C,B,A}S7{F,A,B,C,E}Db2

S8{A,B,C}S9{A,D,B,E,F,G}

3.4 增量挖掘思想

首先根据事务数据库D 生成一棵CAN - Tree （记为T ）。由于数据项排序是初始化值（由用户或专家指定），所以与事务数据无关。因此，当数据增加和删除的时候，T 不需要重新构造，即：（1）增加数据集d 。扫描数据集合d ，然后按照初始化数据项排序，插入到T 中就可以了。（2）删除数据集d 。扫描数据集合d ，然后对T 中的事务对应的节点计数值减1，如果该点原来为1，减去1以后就将该点删除了。然后，只要根据最新设定的最小支持度等参数，重新挖掘CAN-Tree 。

4 买验结果和评价

为了验证本文所采用的挖掘算祛的有效性，我们

根据电子病历模板和文本特征化方祛，构造了结构化的模拟数据。实验环境是Intel@2.0GHz CPU, 1G 内存，Windows XP 操作系统，C#编写的程序。在相同增量数据情况下，比较FP-Tree 和Can-Tree 的效率。（1）Can-Tree 的构建时间长于FP-Tree ，但是优势并不明显，该时间包括前面的文本特征化时间，如图2所示。

（2）Can-Tree 的挖掘效率要优于FP-Tree ，如图3所示。

5 结论

本文使用模板和文本特征化两种方祛，在两个层次上对电子病历数据进行结构化处理，同时使用倒置链表的CAN-树来存储EMR 中病历三元组数据，弥补了FP-树的不足，适应于增量挖掘的要求，提高了算祛的效率。实验验证了该算祛在提高EMR 用户体验度中的有效性。目前，利用数据挖掘实现数据的快速录入和改善用户界面体验效果，在互联网软件设计中有简单的应用，但在各种业务系统中还极少见到。本文利用数据关联性提高了电子病历数据的录入速度和效果，同时

图1 电子病历增量事务数据CAN-Tree 的构建过程

Fig.1 Building Process of CAN-Tree of incremental data

of EMR database

图2 电子病历事务数据CAN-Tree 和FP-Tree 构建时间比较

Fig.2 Comparison of building time between Can-Tree

and FP-Tree with EMR data

图3 电子病历事务数据Can-Tree 和FP-Tree

关联规则挖掘时间比较

Fig.3 Comparison of mining time of association rules between Can-Tree and

FP-Tree based on EMR data

Db1

【下转第149页］

临床医学工程

根据设备的使用、运行与维修保养状况调整预防性维修计划, 使之更加实际、合理。

3 设备巡查

巡查也是PM工作的一项重要的组成部分。巡查是对设备的运行情况、磨损和老化程度进行检查, 以便早期发现设备存在的隐患, 及时进行修理, 避兔或减少突发故障, 提高设备使用率。如发现间题应及时告知科室相关负责人。

3.1 巡查周期

巡查周期分为有“日巡查”和“定期巡查”两种。

3.2 巡查内容

设备摆放位置检查。设备外观检查。设备开机运行状态(功能、性能、噪音等) 检查。设备安全检查。使用人员操作设备情况检查，同时询间设备日常使用人员有关设备的日常使用与保养的情况，做好相关记录。

维修人员定期到设备使用科室巡查, 动态地了解设备使用情况、运行状况、操作人员操作情况,发现间题及时解决、及时向使用科室反馈、及时与操作人员沟通。这样, 不但增强了维修人员的主动服务意识, 提高设备维修的及时性, 而且促进了维修人员与使用人员的沟通, 更有效的配合了临床科室医疗工作。

4 利用计寡机技术, 动态监测设备的运行惰况

计算机技术的应用己越来越广泛地适用于医疗设备的维护和保养过程。通过相关管理软件的应用, 维护保养人员可以动态结合设备的使用情况, 分析设备故障的原因,以便于进行更有针对性的预防性维护和保养。

由于我院资产管理软件使用至今己有十余年，己无祛满足现今工作的需求，而以上这些工作都增加了大量的记录或者报告，因此我们专门对原有管理软件进行升级来满足预防性维护工作的各项需求，尤其是对设备进行PM工作的跟踪记录。目前这套资产管理软件仍处于试用阶段，待正式使用后将会有大量数据及相关表单的录入工作要做。这些数据和相关表单将来就成为我们监控设备使用情况的重要依据，待一段时间收集并分析，这对于我们今后工作的计划和改进也有重要的参考价值。

我们目前还处于预防性维护初始阶段，距离真正做好设备的PM工作甚至形成一套完善的体系还有很长的路要走。我们一方面要不断完善自身预防性维护的制度、规程、计划和流程，另一方面也要不断学习新知识、新理论、新技术，提高自身的专业水平，以此来提升我们医疗设备管理的水平，让装备科发挥更大的效用。

参考文献

[1] 谢松成, 徐伟伟主编. 医疗设备管理与技术规范[M]. 浙江: 浙江

大学出版社, 2003,10-31.

[2] 彭顺银.浅析医疗设备管理和设备维护[J] .医疗装备.2005, 18(8)

[3] 李永亮.医疗器械的使用维修和检修工作[J].实用医技,2001,8 (8)

[4] 龚维平.完善医疗设备维护体系构想[J]. 医疗装备, 2002,

15(7) :21- 221.

[5] 周丹. 医疗设备质量控制试点总结报告. 全军医疗设备质量控

制工作会议. 北京, 2007.

[6] 王义辉, 唐伟. 医院建立医疗设备质量控制与安全保证体系的

探索[J]. 医疗设备信息, 2005.

可以很好地改善电子病历的用户体验度，方便了电子病历的推广和深度应用。

参考文献

[1] Cheung DW, Han Jiawei, Ng V, et al. Maintenance of discovered

association rules in large database: an incremental updating techniqu[C]. Proc. of 12th International Conf. on Data Engineering, New Orleans, USA, 1996：106-114.

[2] Cheung D, LEE S, Kao B. A general incremental technique of

maintaining discovered association rules[C]. Proc. of 5th International Conf. on Database Systems for Advanced Applications, Melbourne, Australia, 1997：185-194.

[3] 冯玉才，冯剑琳. 关联规则的增量式更新算祛[J]. 软件学报, 1998,

9（4）：301-306.

[4] Ma X, Tong Y, Tang S, et al. Efficient incremental maintenance

of frequent pattens with fp-tree[J]. Journal of computer Science and Technology, 2004, 19（6）: 876-884.

[5] 倪志伟, 高雅卓, 李伟东等. 基于矩阵的增量式关联规则挖掘

算祛[J]. 计算机工程与应用, 2008, 44（13）: 153-155.

[6] Leung KC, Khan QI, Hoque TC. CanTree: A Tree Structure

for Efficient Incremental Mining of Frequent Patterns[J]. Proc.

of 5th IEEE International Conf. on Data Mining. New Orleans, USA,

2005:274-281.

[7] 廖帮富，胡安邦. 一种电子病历的结构化组织和自由化输入的

方祛[C]. 2007中华医院信息网络大会. 392-395.

[8] 袁玉波，杨传胜, 黄廷祝等. 数据挖掘与最优化技术及其应用 [M].

北京: 科学出版社，2007.

[9] 黄嘉满，张东茉. 基于文本的关联规则提取方祛的研究[J]. 计

算机仿真, 2008, 25（1）: 96-99

[10] 许斗, 陈恩红. XML的半结构化数据表示方祛及其在医学文

档中的应用[J]. 计算机工程, 2002, 28（1）: 57-58 .

[11] 邹力, 张其善. 基于CAN-树的高效关联规则增量挖掘算祛

[J].

计算机工程, 2008, 34（3）: 29-31.

【L接第86页］

采用增量关联规则挖掘提高电子病历系统的用户体验度

作者：周保琢，李传富，代亮亮，冯焕清， ZHOU Bao-zhuo， LI Chuan-fu， DAI Liang-liang， FENG Huan-qing

作者单位：周保琢,代亮亮,冯焕清,ZHOU Bao-zhuo,DAI Liang-liang,FENG Huan-qing(中国科学技术大学电子科学技术系,安徽,合肥,230027)，李传富,LI Chuan-fu(中国科学技术大学电子科学技术系,安徽,合肥,230027;安徽中医

学院第一附属医院影像中心,安徽,合肥,230031)

刊名：

中国医疗器械杂志

英文刊名：CHINESE JOURNAL OF MEDICAL INSTRUMENTATION

年，卷(期)：2009,33(2)

被引用次数：2次

参考文献(11条)

1.Cheung DW;Han Jiawei;Ng V Maintenance of discovered association rules in large database:an incremental updating techniqu 1996

2.Cheung D;LEE S;Kao B A general incremental technique of maintaining discovered association rules 1997

3.冯玉才,冯剑琳关联规则的增量式更新算法[期刊论文]-软件学报 1998(4)

4.Xiu-Li Ma,Yun-Hai Tong,Shi-Wei Tang,Dong-Qing Yang Efficient Incremental Maintenance of Frequent Patterns with FP-Tree [期刊论文]-计算机科学技术学报（英文版） 2004(6)

5.倪志伟,高雅卓,李伟东,束建华基于矩阵的增量式关联规则挖掘算法[期刊论文]-计算机工程与应用 2008(13)

6.Leung KC;Khan QI;Hoque TC CanTree:A Tree Structure for Efficient Incremental Mining of Frequent Patterns 2005

7.廖邦富,胡安邦一种电子病历的结构化组织和自由化输入的方法[会议论文] 2007

8.袁玉波;杨传胜;黄廷祝数据挖掘与最优化技术及其应用 2007

9.黄嘉满,张冬茉基于文本的关联规则提取方法的研究[期刊论文]-计算机仿真 2008(1)

10.许斗,陈恩红XML的半结构化数据表示方法及其在医学文档处理中的应用[期刊论文]-计算机工程 2002(1)

11.邹力鹍,张其善基于CAN-树的高效关联规则增量挖掘算法[期刊论文]-计算机工程 2008(3)

本文读者也读过(10条)

1.丁卫平.DING Wei-ping关联规则挖掘Apriori算法的改进及其应用研究[期刊论文]-南通大学学报（自然科学版）2008,7(1)

2.杨伟锋面向CIS的电子病历架构设计及基于内容管理的数据挖掘研究[学位论文]2006

3.罗衡郴.周晓辉.LUO Heng-chen.ZHOU Xiao-hui Apriori算法在电子病历门诊处方系统中的应用[期刊论文]-广西工学院学报2009,20(3)

4.阎刚.肖治一种由专家指导的决策树构建方法——数据挖掘技术在医学数据库中的应用[会议论文]-2002

5.梁志伟.蔡立民.阮永队.王永运.张杏英.李玉枢.赖小平xml结构电子病历数据分析统计方法探索研究[会议论文]-2009

6.曹洪欣.徐维基于循证医学的电子病历资源整合与挖掘的宏观模型构建[期刊论文]-图书馆理论与实践2010(9)

7.庄军.郭平.周杨.白桂花.王月毅.ZHUANG Jun.GUO Ping.ZHOU Yang.BAI Gui-Hua.WANG Yue-Yi电子病历数据预处理技术[期刊论文]-计算机科学2007,34(3)

8.周利宏.陈洁.ZHOU Li-hong.CHEN Jie浅析数据挖掘技术在电子病历中的应用[期刊论文]-医学信息学杂志2009,30(2)

9.刘秀娜.柏建普.LIU Xiu-na.BAI Jian-pu关联规则挖掘在电子病历分析中的应用研究[期刊论文]-内蒙古科技大学学报2010,29(4)

10.罗衡郴.周晓辉FP-Growth算法在电子病历挖掘中的应用[期刊论文]-大众科技2010(12)

引证文献(2条)

1.李晖,刘国伟,袁静,刘长兴军卫一号系统中的病人数据挖掘[期刊论文]-中国医疗设备 2010(08)

2.孙艳,王栋,李博数据挖掘技术在电子病历中的研究与应用[期刊论文]-中国病案 2012(05)

引用本文格式：周保琢.李传富.代亮亮.冯焕清.ZHOU Bao-zhuo.LI Chuan-fu.DAI Liang-liang.FENG Huan-qing采用增量关联规则挖掘提