当前位置:文档之家› 中文分词技术在电子病历系统中的应用

中文分词技术在电子病历系统中的应用

中文分词技术在电子病历系统中的应用
中文分词技术在电子病历系统中的应用

中文分词技术在电子病历系统中的应用

二〇一二年十月

摘要

电子病历(Electronic Medical Record,EMR)是医疗机构医务人员对门诊、住院患者临床诊疗和指导干预的、使用信息系统生成的文字、符号、图表、图形、数据、影像等数字化的医疗服务工作记录,是居民个人在医疗机构历次就诊过程中产生和被记录的完整、详细的临床信息资源,它可在医疗卫生服务中作为主要的信息源,取代纸张病历,医院通过电子病历以电子化方式记录患者就诊的信息,包括:首页、病程记录、检查检验结果、医嘱、手术记录、护理记录等等,其中既有结构化信息,也有非结构化的自由文本,还有图形图象信息,在医疗中作为主要的信息源,提供超越纸张病历的服务,满足医疗、法律和管理需求。

电子病历系统(Electronic Medical Record System, EMRs)是针对基于计算机和信息网络的电子病历进行采集、储存、传输、展现、检索、质量控制、统计和利用的系统。

为了进一步推进以电子病历为核心的医院信息化建设工作,提高医院信息化管理水平,截止2012年1月底,卫生部先后制定下发了《电子病历基本规范(试行)》、《电子病历系统功能规范(试行)》、《电子病历系统功能应用水平分级评价方法及标准》、《电子病历基本数据集(征求意见稿)》等法规和规范性文件。

在《电子病历系统功能规范(试行)》中明确了对电子病历书写需要将自然语言方式录入的医疗文书按照医学信息学的要求进行结构化以及对结构化数据的检索和统计进行了要求。在《电子病历基本数据集(征求意见稿)》中进一步确定了电子病历数据进行数据交换的基本数据集模型。由此可见电子病历的“结构化”是电子病历系统设计和实施的重点和难点。

本文将阐述如何通过在目前新版电子病历系统中引入中文分词技术,解决目前电子病历系统中电子病历数据的“结构化”难题,实现电子病历用户在实际应用中通过自然语言进行自由文本方式的输入的同时,能够通过计算机的辅助进行病历内容的结构化,为日后的查询、统计、数据交换提供基础。

本文阐述的主要内容如下:

(1)目前电子病历系统的结构化问题;

(2)中文分词技术概述;

(3)中文分词技术在电子病历系统结构化中的具体应用;

(4)中文分词技术应用的分析总结及展望。关键词:中文分词、电子病历系统、结构化

第一章电子病历的结构化

1.1为什么要结构化

电子病历相对于传统手写病历的优点是显而易见的,并且随着IT技术的发展,以及医疗信息化建设的利益加强,电子病历的发展是必然的趋势。而且顺应以电子病历为核心的医院信息化建设工作的推进,电子病历已经成为医疗信息化的重要组成部分。

国内电子病历开始于2000年左右,在此之前所开发的电子病历只能称之为病历电子文档化,基本上都是基于Word或写字板的功能,目前这种电子文档化病历目前仍然在一些医院正在使用。国内较早的一些结构化电子病历采用全结构化的书写方式,比如南京海泰基于WEB架构的表格式电子病历,东软的自定义报表式电子病历。

所谓的电子病历的“结构化”是指从医学信息学的角度将以自然语言方式录入的医疗文书按照医学术语的要求进行结构化分析,并将这些语义结构最终以关系型结构的方式保存到数据库中。

例如:

如果描述一个“腹部疼痛2日,伴呕吐”的病症,按照词语的类别,把它划分为“腹部”(名词)、“疼痛”(动词)、“2”(数词)和“日”(单位名词),“伴呕吐”(动词)5个部分。如果按照医学术语进行结构化分类分析,“腹部”是这一句话中描述“身体部位“的元素,”疼痛“是描述“症状“的元素,”2“是“数值”元素,“日”是“时间单位”元素。

这样电子病历的内容就成了结构化的描述,上述的结构不仅在编辑过程中使用,在保存时依然可以保持这些结构以便后续的利用。

电子病历结构化的优势表现在于以下几个方面:

1.降低了病历出错的概率,多层次的结构化病历通过数据量化标准模式,

把文字录入式的描述降低到最少,操作简单,同时避免了书写病历过程

中用词的随意性,为今后的数据收集,研究提供了方便;

2.优化了电子病历通过结构化中的元数据信息进行查询和统计分析;

3.实现了共享和交换,电子病历和医院中其它系统的数据交换是必然的。

这意味着,只有遵循国标所规定的全结构化的病历文档结构才是自由交

换数据的前提。

4.更适合临床信息化的需要,通过结构化电子病历,才能将病历中的病史、

临床检查检验结果、诊断治疗信息进行提取和关联,并分析出最科学的

临床路径。

1.2结构化的挑战

结构化电子病历相对于传统的电子文档化病历有很多现实性的意义和优势,在实际应用中,结构化电子病历在教学、科研方面的优势也得到了大家一致认可。但是,电子病历不应该为结构化而结构化,比如,前文所提到的一些早期的一些结构化电子病历产品,就是强制的将病历划分成几个条目或者区域,要医生逐条逐项的去输入,不仅输入起来很不方便,而且灵活性也很差。

而且,结构电子病历虽然从某种程度上减轻了医生的工作量,提高了书写效率,改善了病历正规化,但是也存在一些弊端,一是医生可以对电子化内容进行复制粘贴,影响了医生的思维过程,虽然节约了书写的时间,使得病历本身的内容失去了科研循证的价值和病历质量;二是医生依赖于电子病历的结构化辅助输入,不能起到业务训练的效果和目的,所以,现在有些医院要求实习医师、试用期医务人员不允许采用结构化电子病历模板进行病历书写,而且为了防止实习医师、试用期医务人员依赖范文,减少差错,还要求注册医生对病历进行审阅,并保留双签名。

从结构化电子病历的各个优势比较来看,电子病历的存储结构的“结构化”的需求更甚于电子病历输入方式的“结构化”的需求,所以,电子病历更应该是“可结构化”的电子病历,即电子病历在存储结构上应当是“可结构化”的。

这里的“可结构化”的含义是,在占有合理的存储空间和高效的性能的基础上能够根据医疗工作中不同情况的实际需求实现病历数据的结构化、非结构化和半结构化存储。这就是说,当仅仅为了记录医疗经过,不需要快速查询的情况下,病历应当是非结构化的。当需要快速检索和结构化查询的情况下,病历应当时结构化的。要在同一病历中同时出现上述两种情况复合存在的时候,病历应当是半结构化的。

电子病历系统在实际临床环境的运用情况是,医生希望书写病历时采用自由文本录入的方式录入,能够对病历内容的进行复制、粘贴操作,同时通过病历记

录(范文)和内容片断两级模板的辅助输入,通过数据共享快捷输入,迅速检索,调用处理各种诊疗信息,减轻书写强度,提高工作效率。结构化电子病历那种元数据输入方式在有些科室用起来可能比较顺畅,比如耳鼻喉科;因为具体的业务的关系,这些科室的结构化电子病历原型或模板比较适合结构化定义,而在有些科室,因为实际业务的关系会存在不好进行结构化定义和结构化输入不方便这两个问题,所以,他们更倾向于采用非结构病历。正因为如此,电子病历系统必须考虑结构化和非结构化模式并存,而且应该考虑所有病历文件应该都是“可结构化”的。

从技术的角度来看,电子病历文本的“结构化”的实现过程就是将非结构化的自由文本按结构化的要求进行结构化分析出语义结构并转换成结构化需要的关系型模型结构的过程。图示如下:

这里的结构化处理,就将运用下面将要介绍的中文分词技术。

第二章 中文分词技术

2.1 中文分词技术概述

什么是分词?分词就是将连续的字序列按照一定的规范重新组合成词序列的过程。在英文为代表的印欧语系中,句子是以词为单位,词与词之间是通过空格隔开,而以中文为代表的汉藏语系中,句子由字构成,句子中所有的字连起来才能够表达一个完整的意思。例如:英文中典型的主系表的句子,“I ’m a student ”,翻译成中文为“我是一个学生”,在英文中通过句子中的空格可以很容易的区分student 是一个单词,意思是学生,在中文中“学”,“生”假如分

开来,就无法理解正确的意思,必须将它们合在一起才能表示出准确的意思。

在上面的例子中可以看出,在英文的行文中,单词之间是以空格作为自然分界符的,而中文只是字、句和段可以通过明显的分界符来简单划界,唯独词没有一个形式上的分界符,虽然英文也同样存在短语的划分问题,但是在词这一层上,中文比之英文要复杂的多、困难的多。

所以在印欧语系中将句子中的单词重新组合成词序列,基本上不存在任何问题,但是将中文的句子中的汉字序列切分成有意义的词就相当困难了。比如:“南京市长江大桥欢迎你“,可以划分成”南京市/长江/大桥/欢迎/你”,也可以划分成“南京/市长/江大桥/欢迎/你”,所以如果是在一定的语境下,人是可以很容易的得到确切的意思的,但是,如果交给计算机来做,是相当的困难的。

所谓的中文分词,就是把中文的汉字序列切分成有意义的词的序列的过程。中文分词主要应用于信息检索、人机交互、信息提取、文本挖掘、中外文对译、中文校对、自动摘要、自动分类等很多方面。在互联网信息量飞速增长的今天,使得搜索引擎成为人们高效获取有效信息的首要途径,目前主流的搜索引擎,比如Google,Baidu,都是基于关键字来匹配搜索结果的,评价一个搜索引擎的优劣,最直接的标准就是信息检索的效率,搜索引擎怎么才能快速检索到关键字呢?这就得依赖搜索引擎的数据存储机制-倒排索引。

这里的倒排索引类似于数据库中的索引,搜索引擎在外边扒完网站内容后,要将所有的内容中的关键字预先进行编目,形成一个结果和关键字的对应表,这

个对应表就是所谓的倒排索引,搜索引擎在建立倒排索引时,就需要用到中文分词技术,并且分词的过程发生在用户输入查询内容时和服务器建立索引时。

例如:Baidu 搜索引擎搜索用户查询词“中国民歌钢琴曲”

2.2 中文分词算法

现有的中文分词算法大体可以分为三大类:基于字符串匹配的分词方法、基于统计的分词方法、基于理解的分词方法;下面就这三大类中文分词算法分别做一个简要的描述。

2.2.1 基于字符串匹配的分词方法

这种算法是目前搜索引擎广泛采用的一种分词方法,也称之为基于词典的分词法或机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。比如,匹配“中联信息”,在词典里面能够匹配的有:中、联、信、息、中联、信息、中联信息…。如何选择其中最佳的匹配就需要依然定义的策略,比如,这里可以定义策略为长度最大的最佳匹配。常用的匹配规则有:

正向最大匹配算法

正向最大匹配即方向为从左往右正向匹配,例如:“我有意见分歧”,词典中有如下词条:我、有、意见、有意、分歧,按正向最大匹配算法进行匹配,得到的结果就是“我/有意/见/分歧”,这里明显就错了,那是因为“有意”在词典中推广结果第1条普通结果

第3条普通结果

用户查询词1

2

3

4

优先被匹配出来了。

●逆向最大匹配算法

逆向最大匹配即方向为从右往左逆向匹配,上例经过逆向最大匹配算法进行匹配,得到的结果就是“我/有/意见/分歧”,这样就正确了,统计结果表明:单纯使用正向最大匹配的错误率为1/169,单纯使用反向最大匹配的错误率为1/245。逆向匹配的切分精度略高于正向匹配。

●MMSEG算法

MMSEG算法相对上面两种算法来说比较复杂,是一种带4个歧义消解规则的正向匹配算法,因为其正确率比较高所以被普遍采用。

上述各种基于字符串匹配的算法都不是完美的,总会有出错的时候。

2.2.2基于统计的分词方法

这种分词方法的基本思想是,从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。

这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。

实际应用的统计分词系统都要使用一部基本的分词词典(常用词词典)进行串匹配分词,同时使用统计方法识别一些新的词,即将串频统计和串匹配结合起来,既发挥匹配分词切分速度快、效率高的特点,又利用了无词典分词结合上下文识别生词、自动消除歧义的优点。

另外一类是基于统计机器学习的方法。首先给出大量已经分词的文本,利用统计机器学习模型学习词语切分的规律(称为训练),从而实现对未知文本的切分。

2.2.3基于理解的分词方法

这种分词方法是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。

句法分析过程如下图所示:

盛餐ATT 定中关系DE “的”字结构 MT 语态结构OBJ 宾语QUN 数量关系SBJ 主语语法分析过程

对于任何一个成熟的分词系统来说,不可能单独依靠某一种算法来实现,都需要综合不同的算法。

2.3 中文分词面临的问题

当前中文分词主要面临两个问题:

1. 歧义消除

2. 新词发现

其中歧义消除主要是在中文分词过程中存在两种歧义:交叉歧义和组合歧义;比如:“研究生命”,可以分成“研究生/命”和“研究/生命”,这里的两个词,“研究生”和“生命”,存在一个“生”这个交集。这就形成了交叉歧义。再如:“学生会组织义演活动”可以分成“学生/会/组织/义演/活动”或者“学生会/组织/义演/活动”,因为这里“学生”和“会”可以既可以组成“学生会”整个词也可以拆分成“学生”和“会”两个词独立存在。

另外,新词发现是指优先识别已知词还是未知词,比如:“内塔尼亚/胡说”和“内塔尼亚胡/说”,新词发现很多是因为姓名拆分造成的歧义。

第三章 中文分词技术在结构化病历中的应用

3.1 当前电子病历系统结构化综述

目前新版电子病历编辑器支持多层次的结构化输入方式,同时存储完全采用的XML 结构。电子病历的内容的结构化是通过文档结构模型上关系对象分类实现的,具体的模型示意图如下:

从上图可以看出,电子病历编辑器的内容是由基本的元素对象组成,电子病历中的文本内容由自由文本和普通文本元素组成,而普通文本元素根据输入的需要而扩展成枚举、列表、树形元素。电子病历的结构化其实就是简单的将自由文本和能够标记数据的文本元素或者元素进行区分就可以了。这些可以标记的元素,在卫生部推荐标准《电子病历基本架构与数据标准(试行)》中被定义为数据元,并给数据元给出了5类17项数据元素属性的描述,而这些所定义的数据元在病历文档中存在的最基本形式就是文本元素,而这些文本元素在文档中的两个作用,一个是显示文本,一个存储数据。

下图是一个结构化文档原型的表现样式:

其中文档中黄色背景部分的文本被区分为一个元素,例如:“病史陈述者”是一个枚举元素,“健康状况”是一个普通文本元素,他们在文档中的表现形式都是一串文本值,他们在文档中的区别在限于元素对象的属性和所对应的输入方式。另外,因为元素对象的属性不同,他们在文档中的存储格式也不同,不同类型的元素通过不同的XML节点名称进行区分,例如:普通文本节点名称为element,枚举元素节点名称为e_enum。

文档中的结构化输入方式主要有两种:一种是通过输入框的方式进行辅助输入,另外一种是通过接口方式进行查询赋值填充;最直接也是最直观的方式就是输入框输入方式,例如:下图为命名为“常见疾病”的枚举元素,在该元素上通过回车键调用元素输入窗口界面,输入界面会通过元素值域的定义提取出枚举值数据,用户通过选择对元素进行赋值,这时,元素在文档上就显示对应选中的枚举项目的文本值。

元素另外一个关键概念就是元素的值域,值域可以简单的理解为元素可选值的一个集合,在新版电子病历中除了普通文本元素之外,称之为复杂元素的元素都具有值域,元素的值域存在两种存储形式,一种是自描述值域,一种是外部描述值域,自描述值域目前只存在于枚举类型元素中。

这里,简单的描述一下电子病历编辑器中结构化元素(数据元)和文档内容的关系如下:

简单的说,结构化文档和非结构化文档最大的区别就是文档的内容中是否存在有结构化元素(数据元)这个可以进行赋值的最小、不可再细分的数据单元。目前将电子病历进行结构化的最主要途径就是通过定义结构化的病历模板来实现病历内容的结构化,在《电子病历基本架构与数据标准(试行)》中,对文档模板的描述是这样的:

“临床文档基础模板是用于指导临床文档数据创建的形式和方法。制定临床文档基础模板的目的,是用标准化的数据组和数据元,根据临床文档信息模型以及各类医疗服务活动的业务规则, 通过对数据组和数据元的基数约束以及数据元允许值约束,生成各类实际应用的结构化、标准化临床文档,以保证电子病历数据采集和交换的一致性。

一个临床文档基础模板可生成对应的一个或多个临床文档(业务活动记录),是临床文档信息模型的应用实例。其基本构件是可重用的数据组、数据元及数据元值域。”

这段话的主要意思是临床文档基础模板通过对元素(数据元)的约束,来生成各类实际应用的结构化、标准化临床文档。换句话说就是要创建结构化的电子病历文档,首先要有已经结构化成元素(数据元)的集合的文档基础模板。

所以,医院要使用结构化的电子病历,所要面对的最突出的一个问题就是如何能够定义出一个好的模板,这又引申其他一些问题:怎么能够兼顾各科室的特色?模板由谁来制订?如何制订?模板是由每个医院统一设置,还是具体到每个科室、每个医生?而这些问题在标准和规范中都是没有答案的。目前,卫生部提出了电子病历的数据标准,但是要真正实现临床文档基础模板的标准化几乎是不可能的,而且这些问题已经不在技术的范畴中了,而是关键业务问题,结构化电子病历模板的制订,目前正是电子病历系统实际实施的重点和难点。

目前,现实中很多情况是每个医生根据自由度很高的模板按自己的习惯去书写病历文档,然后根据自己的喜好和经验将写好的文档保存为范文,然后将范文当作今后书写文档的模板,这样,这种自由度太高的模板不仅没有达到结构化的目的,同时造成文档缺少规范而不好管理。

在医疗信息化飞速发展的今天,各种医疗信息都可以通过设备和仪器生成并具有各自的数据标准,唯独医生书写的病历资料是医生根据自己所学的专业知识将患者的情况用自然语言组织起来的大段文字,电子病历发展到今天,“结构化”是它一个非常显著的特点,在病历中是按照医学专业要求尽可能地将知识点提炼出来,并使用医学规范用语和诊断专业术语书写,使病历书写能够达到医学要求的规范化和标准化,电子病历虽然改变了病历的存储和书写方式,但是病历本身并没有任何变化。应该认识到,在电子病历发展历程中,病历模板是因技术限制而不得不采用的一个过渡手段。病历模板只是病历的部分结构化,从某种程度上它限制了医生的思维。真正智能化的电子病历应该是能够自动从自由文本中提炼

出医学所需的知识点及其逻辑关系,提醒医生不要遗漏必须记录的内容。

因此,结合目前新版电子病历编辑器的特点,通过技术手段,自动从电子病历中的自由文本中提取可以结构化的信息,使电子病历的非结构化内容成为可结构化的内容,实现智能化的电子病历系统将是电子病历系统发展的重点,也是本文阐述的重点。

3.2中文分词技术与结构化的结合点

目前电子病历编辑器提供了下拉单选、下拉多选、平面单选、平面多选、下拉选项、文本输入、数字输入、日期输入控件,文档中的每个元素根据各自的元素类型调用不同的输入控件,实施维护人员或者医生编辑结构化电子病历模板就是将各种类型的元素进行合理的组合,形成一份能够描述患者病状且语言标准、内容丰富详实的结构化病历。

如原文本病历体格检查书写内容为“体温36.9℃,脉博72次/分,呼吸16次/分,血压收缩压120.75mmHg。发育正常,营养稍差,病容急性,查体合作。全身皮肤粘膜无黄染,浅表淋巴结未触及肿大。鼻腔、外耳道无异常分泌物。双肺听诊呼吸音清,心前区无膨窿,心率72次/分,律齐,各瓣膜听诊区未闻及病理性杂音……”,用结构化的元素(数据元)进行组合,形式如下:“体温[体温]℃,脉博[脉博]次/分,呼吸[呼吸]次/分,血压收缩压[收缩压]mmHg。发育[发育],营养[营养],病容[病容],查体[检查合作]。全身皮肤粘膜[皮肤],浅表淋巴结[淋巴结]。鼻腔、外耳道[眼耳鼻]。双肺听诊呼吸[杂音],心前区[心前区],心率[心率]次/分,[心律],各瓣膜听诊区[杂音]……”

其中“发育”、“营养”、“病容”、“检查合作”、“皮肤”、“淋巴结”、“眼耳鼻”、“肺脏”都应该是一系列医疗专业术语和标准的诊断学名词,实际输入时,根据病人病情,通过提供下拉选项框进行输入,另外“体温”、“脉搏”、“呼吸”、“血压”都应该是数值输入并且期望的输入值不能超过某种边界,比如体温应该最大程度的避免输入大于50℃和小于0℃的数值,这样的结构不但避免了表达上出现的歧义和不合理值,而且为今后的检索和病历分析奠定了数据基础。

但是,你会发现将原来的文本病历书写的内容转换为数据元的合理组合本身就是一件很复杂和很困难的事,首先你要分析文本中哪些专业术语是可以抽取成值域,然后就是在要保证语义之间的连贯通顺。如果我们能够建立起这样的模板,

而且模板看起来也会很工整,我们也希望病历书写人员书写结构化病历时能够像做选择题和填空题一样,按一下键盘,点几下鼠标就可以搞定一份病历,轻松和快捷,真的是这样么?绝对不是!医生写病历不同于开医嘱或者填写手术申请单,写病历的过程是医生将其所学的专业知识结合患者的病情,用自然语言,也就是中文根据一定的语义、语法和逻辑关系进行组织,形成的一段文本。结构化模板因为格式上的过于标准、固定而显得呆板和欠缺灵活,比如,体格检查文本中的皮肤诊断和眼耳鼻诊断一定要是固定顺序吗?虽然在实际书写中可以通过操作进行调整,但是可能调整所花费的时间比直接输入自由文本更多。

结构化模板的作用虽然规范了输入,但是以牺牲灵活性为代价的,规范和灵活好像是两个矛盾对立的属性,如何做到矛盾的统一呢?

下面一个图描述了结构化书写和自由书写的区别:

通过自由书写得到自由文本文档是一个很自然的过程,这是电子病历最为普通的功能了;另外是依据结构化模板通过结构化书写,得到结构化文档;而且,结构化文档通过另存和复制粘贴可以很容易的得到自由文本,但是自由文本转换为结构化文档的过程却很复杂,可能比创建结构化文档模板更困难,因为将病历文本抽取成结构化模板是一次性过程,并且带有一定的主观性,但是要从大量已存在的包含了大量医疗术语和普通单词的实例病历文档转换成有结构化特性的

结构化文档是人力不可能完成的,必须要计算机来完成。

这里需要一个将自由文本转换成结构化元素的过程,实现这个过程的主要思路如下:

1、一段病历文本从逻辑上是由描述性文本(名词、动词、形容词、介词、

连词、助词等等)+医疗术语+标点符号组成;

2、其中的医疗术语可能是某个元素的值域集合中的一项;

3、根据匹配的值域定义可以找到元素的定义;

4、可以根据匹配的元素将医疗术语替换为元素;

例如:病历自由文本“发育正常,营养稍差,病容急性,查体合作。”其中“正常”是枚举元素-“发育描述”的值域的集合中的一项,那么“正常”很可能是“发育描述”元素的一个输入值,通过编辑器将“正常”文本替换为了输入值为“正常”的“发育描述”元素即完成自由文本向结构化元素的转换。

这其中最关键的一步就是如何从一段由连续的字序列组成的自由文本中将可能是医疗术语的词从描述性文本中抽取出来,而这个过程类似于中文分词技术的过程,而且匹配某个元素值域集合项的过程也符合中文分词算法中的“基于字符串匹配的分词法”的概念,其中用来进行分词的机器词典就是电子病历系统中的元素值域集合。

在以上分析的基础上,可以进一步分析电子病历编辑器结合中文分词技术实现病历中自由文本的结构化处理。

3.3中文分词技术在电子病历编辑器中的实际应用

目前电子病历编辑器整体结构如下:

对于电子病历编辑器而言,分为三个层次,其中最核心的一层是TrichView,

它是一套第三方的基于Delphi的文档编辑器,主要负责最基本的文档显示和文档操作以及一些特殊的处理功能。再往外一层是zlRichPages,它是基于ActiveX 的OCX控件,他主要负责提供外部应用程序调用文档编辑器功能所需要的函数和事件接口,最外一层就是基于.NET C#开发的zlDocEditor自定义控件,它主要是封装了ActiveX控件上的属性以及方法,以及一些组合了ActiveX控件方法的预定义方法,并提供了具体功能调用的UI界面接口以及一些逻辑控制,另外zlDocEditor具有了通过应用服务器访问EMR数据库数据的能力,同时为了满足编辑器离线使用的目的,zlDocEditor提供了将EMR数据库基础数据缓存成本地离线文件供编辑器离线时调用。

针对前面一章的分析,分词的过程就是对选中的自由文本进行分词处理后,将原文本替换为元素的过程,在进行分词处理时,需要调用经过值域生成的分词字典,而分词字典的生成和分词处理暂时不考虑放到应用服务器上,目前先模拟通过本地的值域缓存文件生成独立的分词词典,然后由分词处理组件通过分词词典得到分词结果,交给编辑器做替换处理。

为了满足基于值域的字符串匹配算法的中文分词处理,这里引入了CodePlex 上的开源基于.NET的中文分词项目:盘古分词-开源中文分词组件

(https://www.doczj.com/doc/0111806545.html,/)。

盘古分词组件满足了基本的基于词典的中英文分词的需要,盘古分词在下载中提供了字典文件,盘古的字典文件包含了几万个单词。为了满足现在的实际需要,针对盘古分词的词典进行了改造,以满足通过值域匹配到元素ID的目的。

这里重新设计了盘古分词组件的DictStruct类,重新定义了新的ElementDictStruct类,相关的词典类模型图如下:

///

///元素词典结构

///

[Serializable]

publicclass ElementDictStruct

{

///

///单词

///

public String Word;

public String Value;

///

///词频

///

publicdouble Frequency;

///

///对应元素列表

///

public ListElementIDs = new List();

publicoverridestring ToString()

{

return Word;

}

}

这里主要是重新定义了字典结构,因为在电子病历中,值域和元素是一对多的关系,所以同一个单词对应着1个或多个元素,这里,将所对应的元素ID,ElementIDs定义为List列表类型变量。

生成词典的过程分为两步,第一步是通过缓存的元素列表得到元素定义,然后得到该元素是否存在值域定义。如果有值域定义则进入第二步-创建ElementDictStruct结构,生成一个ElementDictStruct.Word为值域单项显示值的类实例,并将第一步所找到的元素定义的ID值填入到ElementIDs属性中。最后完成整个词典的构造,最后调用Dict类的SaveToXmlFile方法,将字典文件保存为XML字典文件。

为了能够将分词后的结果传回给编辑器做替换处理,这里分词结果包含了4个属性

①Offs

分词处理后的结果在原文的偏移位置

②Len

分词处理结果的长度(这里和原词长度相同)

③NewText

分词处理结果中的元素显示的新文本(这里和原词一致)

④Value

分词处理后的元素中存储的值

⑤ElementDef

分词处理后的元素定义(暂默认为第一个元素定义)

因为需要采用基于.NET的分词组件,整个处理流程需要由zlDocEditor控件调用zlRichPages(OCX)控件分词方法获得选中文本,通过事件发出分词请求,经过.NET分词组件处理后得到结果,再通过事件参数传回给zlRichPages做替换处理。这里为了避免添加很多没必要公布的OCX接口函数,而没有采用zlDocEditor直接调用多个OCX接口函数来实现这个功能。

整个调用流程时序图如下所示:

接下来,zlRichPages控件得到结果后,开始进行替换处理,因为zlRichPages 返回给zlDocEditor进行分词处理的是整个自由文本,返回的结果中的偏移也是

内科 电子病历 模板

(第次入院) 姓名:科别:内科床号:住院号: 姓名:×××职业:××× 性别:×工作单位:—— 年龄:×岁住址:××××× 婚姻:×婚供史者:×× (与患者关系) 出生地:××入院时间:××××年×月×日×时×分 民族:××记录时间:××××年×月×日×时×分 主诉:××××××××××。 现病史:×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××。 既往史:××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××。 个人史:×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××。 家族史:×××××××××××××××××××××××××。 体格检查 T:×.×℃P:×次/分R:×次/分BP:×/×mmHg ××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××

凭借cw2vec方法,阿里健康拿下中文电子病历实体识别全国冠军

凭借cw2vec方法,阿里健康拿下中文电子病历实体识别 全国冠军 全国知识电子病历结构化是让计算机理解病历、应用病历的基础。基于对病历的结构化,可以计算出症状、疾病、药品、检查检验等多个知识点之间的关系及其概率,构建医疗领域的知识例如,基于大医院的优质病历数据训练的辅助诊疗系统,可以在基层医院应用以提升医生的业务能力;根据症状和以往病历记录自动分析医生开出的药品是否合理,预测发生误诊的概率等等。结构化的电子病历对于临床医学科研等工作也具有重大作用,医生可以更加智能地搜索相关病历,或者查看相似病历,也可以对病历进行相关统计分析,有助于医生发现潜在的知识联系,产生高水平的临床研究论文。 此次CCKS2018的电子病历命名实体识别的评测任务,是对于给定的一组电子病历纯文本文档,识别并抽取出其中与医学临床相关的实体,并将它们归类到预先定义好的类别中。组委会针对这个评测任务,提供了600份标注好的电子病历文本,共需识别含解剖部位、独立症状、症状描述、手术和药物五类实体。 目前主流的中文实体识别方法主要沿用自英文和其他语言的通用方法,并没有把中文的特色发挥出来。而正如英文中可以根据单词的词根词缀来猜测其意义和性质一样,汉字的笔画及偏旁部首中也蕴含着大量信息。阿里健康团队以两种序列标注算法为基础,首次在医疗文本领域采用了cw2vec的方法构建词向量矩阵,基于全部的非标注文本和标注文本集训练词向量,以解决新字无法识别的问题;同时改进了汉字结构和拼音的特征的一般方案。最终,团队以严格指标0.8913取得了第一名的好成绩。 “医疗命名实体识别只是我们团队工作的一小部分,也是我们面向医院

中文分词技术的研究

3 2009209218收到,2010201203改回 33 基金项目:国家级课题资助项目(30800446)。 333刘红芝,女,1980年生,硕士,研究方向:电子信息咨询与服务,计算机网络及数据库技术。 文章编号:100325850(2010)0320001203 中文分词技术的研究 Research on Ch i nese W ord Segm en ta tion Techn iques 刘红芝 (徐州医学院图书馆 江苏徐州 221004) 【摘 要】对中文分词的主要算法进行了研究,阐述了中文分词中存在的困难及其解决方法,最后指出了中文分词的未来研究工作。 【关键词】中文分词,算法,歧义,未登录词,停用词 中图分类号:T P 391 文献标识码:A ABSTRACT T h is paper analyzes the m ain am biguities of Ch inese w o rd segm entati on ,elabo rates difficulties in Ch inese w o rd segm entati on and their so luti ons ,and finally po ints out the existing p roblem s in Ch inese w o rd segm entati on and the future research w o rk 1 KEYWOR D S ch inese w o rd segm entati on ,algo ris m ,am biguity ,unknow n w o rd ,stop 2w o rd 随着因特网上信息给人们带来方便的同时,也存在信息查找不便、不良信息过多等弊端,信息过滤技术应运而生。信息过滤[1]就是根据用户的信息需求,利用一定的工具从大规模的动态信息流中自动筛选出满足用户需求的信息,同时屏蔽掉无用信息的过程。目前很多信息过滤系统的设计都是基于内容的过滤,即查找信息文本中是否含有特征词库中设置的关键词。这种设计思想符合人们正常的思维习惯,比较容易实现。但是在实际应用中,特别是在处理中文信息的时候由于缺乏中文策略,处理结果很难让人满意。 因此,进行中文信息过滤,首先就要对文本预处理,进行中文分词,将其表示成可计算和推理的模型。中文分词是中文文本过滤的首要基础性工作、难点问题,也是自然语言信息处理中最基本的一步。 1 中文分词技术 将连续的字序列按照一定的规范重新组合成词序列的过程被称为分词;中文分词就是把中文的汉字序列分成有意义的词[2]。分词只是中文信息处理的一部分,分词本身并不是目的,而是后续处理过程的必要阶段,是中文信息处理的基础技术。 2 中文分词的必要性 如何让计算机更好地读懂人类的语言,理解人类的思想,更好地让用户快速方便地搜索到自己所需要的资源,中文分词技术的产生是中文搜索质量提高的 至关重要的因素。众所周知,中文文本与英文文本的表示方法有所不同,英文文本中词与词中间都由空格或标点符号隔开,因而词与词之间的界限很明显,可以很容易地获取关键词,而中文文本中词与词则无明显的界限,这就影响了关键词的获取和匹配[3]。 3 分词的主要算法 中文分词技术属于自然语言处理技术的范畴,是语义理解过程中最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用,在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,计算机如何完成这一过程?其处理过程就称为分词算法。 现有的分词算法按照是否使用分词词典来分,可分为基于词典的分词算法和基于无词典的分词算法[4]。基于词典的分词算法的分词精度在很大程度上依赖于分词词典的好坏,基于无词典的分词算法不需要利用词典信息,它通过对大规模的生语料库进行统计分析,自动地发现和学习词汇,从分词精度来看,基于词典的分词算法要大大优于无词典的分词算法。311 基于词典的分词算法 基于词典的分词算法主要基于一个词典和一个基本的切分评估规则。早期主要采取机械匹配的方法,但由于缺乏歧义切分的处理,故切分的精度较低,后来随着研究的发展,加入了规则的切分,但规则的制订不仅需要大量的人力而且对系统的开放性有很大的局限,因此后来又引入了从基于统计的分词方法,不仅统计 ? 1? 第23卷 第3期 电脑开发与应用(总173)

中文分词切词超详细分析

前面我们讲个搜索引擎如何搜集网页,今天说下第二个过程网页预处理,其中中文分词就显得尤其重要,下面就详细讲解一下搜索引擎是怎么进行网页预处理的: 网页预处理的第一步就是为原始网页建立索引,有了索引就可以为搜索引擎提供网页快照功能;接下来针对索引网页库进行网页切分,将每一篇网页转化为一组词的集合;最后将网页到索引词的映射转化为索引词到网页的映射,形成倒排文件(包括倒排表和索引词表),同时将网页中包含的不重复的索引词汇聚成索引词表。如下图所示: 一个原始网页库由若干个记录组成,每个记录包括记录头部信息(HEAD)和数据(DATA),每个数据由网页头信息(header),网页内容信息(content)组成。索引网页库的任务就是完成给定一个URL,在原始网页库中定位到该URL所指向的记录。 如下图所示:

对索引网页库信息进行预处理包括网页分析和建立倒排文件索引两个部分。中文自动分词是网页分析的前提。文档由被称作特征项的索引词(词或者字)组成,网页分析是将一个文档表示为特征项的过程。在对中文文本进行自动分析前,先将整句切割成小的词汇单元,即中文分词(或中文切词)。切词软件中使用的基本词典包括词条及其对应词频。 自动分词的基本方法有两种:基于字符串匹配的分词方法和基于统计的分词方法。 1) 基于字符串匹配的分词方法 这种方法又称为机械分词方法,它是按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。 按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大或最长匹配,和最小或最短匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法如下:

内科 电子病历 模板

助欢迎下载支持. 姓名:×××职业:××× 性别:×工作单位:—— 年龄:×岁住址:××××× 婚姻:×婚供史者:×× (与患者关系) 出生地:××入院时间:××××年×月×日×时×分 民族:××记录时间:××××年×月×日×时×分 主诉:××××××××××。 现病史:×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××。 既往史:××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××。 个人史:×××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××。 家族史:×××××××××××××××××××××××××。 体格检查 T:×.×℃P:×次/分R:×次/分BP:×/×mmHg ××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××

中文分词技术在电子病历系统中的应用

中文分词技术在电子病历系统中的应用 二〇一二年十月

摘要 电子病历(Electronic Medical Record,EMR)是医疗机构医务人员对门诊、住院患者临床诊疗和指导干预的、使用信息系统生成的文字、符号、图表、图形、数据、影像等数字化的医疗服务工作记录,是居民个人在医疗机构历次就诊过程中产生和被记录的完整、详细的临床信息资源,它可在医疗卫生服务中作为主要的信息源,取代纸张病历,医院通过电子病历以电子化方式记录患者就诊的信息,包括:首页、病程记录、检查检验结果、医嘱、手术记录、护理记录等等,其中既有结构化信息,也有非结构化的自由文本,还有图形图象信息,在医疗中作为主要的信息源,提供超越纸张病历的服务,满足医疗、法律和管理需求。 电子病历系统(Electronic Medical Record System, EMRs)是针对基于计算机和信息网络的电子病历进行采集、储存、传输、展现、检索、质量控制、统计和利用的系统。 为了进一步推进以电子病历为核心的医院信息化建设工作,提高医院信息化管理水平,截止2012年1月底,卫生部先后制定下发了《电子病历基本规范(试行)》、《电子病历系统功能规范(试行)》、《电子病历系统功能应用水平分级评价方法及标准》、《电子病历基本数据集(征求意见稿)》等法规和规范性文件。 在《电子病历系统功能规范(试行)》中明确了对电子病历书写需要将自然语言方式录入的医疗文书按照医学信息学的要求进行结构化以及对结构化数据的检索和统计进行了要求。在《电子病历基本数据集(征求意见稿)》中进一步确定了电子病历数据进行数据交换的基本数据集模型。由此可见电子病历的“结构化”是电子病历系统设计和实施的重点和难点。 本文将阐述如何通过在目前新版电子病历系统中引入中文分词技术,解决目前电子病历系统中电子病历数据的“结构化”难题,实现电子病历用户在实际应用中通过自然语言进行自由文本方式的输入的同时,能够通过计算机的辅助进行病历内容的结构化,为日后的查询、统计、数据交换提供基础。 本文阐述的主要内容如下: (1)目前电子病历系统的结构化问题; (2)中文分词技术概述; (3)中文分词技术在电子病历系统结构化中的具体应用;

国内中文分词技术研究新进展

国内中文分词技术研究新进展 冯书晓 徐 新 杨春梅 (石河子大学药学院 乌鲁木齐 832002) 摘 要 就开发中文搜索引擎在汉语语言方面的关键技术之一,即中文分词技术进行综述。 关键词 中文搜索引擎 中文分词 文献检索 搜索引擎通常由信息收集和信息检索两部分组成。对于英文,由于英文中词与词之间是用空格隔开,检索起来很方便,故计算机采用了词处理的方式,大大减轻了用户与计算机的工作量;相对来讲,中文的情形就复杂得多。中文的词与词之间是没有分隔符的,因此若想建立基于词的索引,就需要专门的技术,这种技术被称之为 汉语词语切分技术 。根据是否采用词语切分技术,中文搜索引擎又可分为基于字的搜索引擎和基于词的搜索引擎。由于中文信息处理的特殊性和复杂性,中文搜索引擎技术还很不成熟,开发中文搜索引擎决不像西文软件的汉化那样简单。在实现中文搜索引擎时,不能照搬国外现成的技术,需要对中文的信息处理技术作专门地研究。自然语言理解领域的应用已经越来越广,但是几乎任何一个基于汉语的系统,都必须经过分词这一步。自动分词系统是中文信息处理中的一个主要组成部分,是中文自然语言理解、文献检索、机器翻译即语音合成系统中最基本的一部分。在搜索引擎中,为了进行中文信息小型化,需要提取关键知识,也就是说首先要分隔出单个的中文词语,然后进行词频统计得到关键词。要开发中文搜索引擎,快速的汉语分词算法和可靠的汉化技术是至关重要的。本文将针对中文分词技术及近年来中文分词技术的发展作一综述。 1 中文分词技术 1.1 中文词的特点 与英文不同,字是汉语的基本独立单位,但是具有一定语义的最小单位却是词。词由单个或多个字构成,一般用得最多的是二字词,其次是单字词,另外还有一些多字词(如成语、专有名词等)。 1.1.1 数量多。汉语中常用的词有 几万条, 现代汉语词典 中收录的词就达 6万个之多。而且,随着社会的发展,不断 地有新词产生。 1.1.2 使用灵活、变化多样,容易产 生歧义。例如同样的两个连续汉字,在有 的句子中构成一个词,而在另外的句子环 境中,却可能不构成词。这给计算机的词 法分析工作带来了极大的困难。 1.1.3 书写习惯。在英文系统中, 词与词之间在书写上用空格隔开,计算机 处理时可以非常容易地从文档中识别出 一个一个的词。而在汉语系统中,书写以 句子为单位,句间有标点隔开,在句内,字 和词则是连续排列的,它们之间没有任何 分隔。这样,如果要对中文文档进行基于 词的处理,必须先要进行词的切分处理, 以正确地识别出每一个词。 1.1.4 其它特点。诸如汉字同音 字、同音异形字等等。 1.2 一般分词方法 目前采用的分词 方法主要有以下几种:最大匹配法、反向 最大匹配方法、逐词遍历法、设立切分标 志法、最佳匹配法、有穷多层次列举法、二 次扫描法、邻接约束方法、邻接知识约束 方法、专家系统方法、最少分词词频选择 方法、神经网络方法等等。除了这些,许 多基于统计的方法也引入到分词过程中。 例如分词与词性标注一体化方法,随机有 限状态算法用于分词,模拟物理研究中结 晶过程的统计方法也被尝试于分词过程。 此外,还有大量的基于统计或规则的汉语 未登录词识别的研究,这里不能一一列 举。但归纳起来不外乎两类:一类是理解 式切词法,即利用汉语的语法知识和语义 知识以及心理学知识进行分词,需要建立 分词数据库、知识库和推理机;另一类是 机械式分词法,一般以分词词典为依据, 通过文档中的汉字串和词表中的词逐一 匹配来完成词的切分。下面笔者就以此 对近年来中文分词技术的进展分类作一 综述。 2 中文分词技术的进展 目前的分词算法多种多样,基本上可 分为两大类:机械性分词和理解性分词 法。后者可谓理想的方法,但在语法分 析、语义分析乃至篇章理解还没有得到解 决之前,其分词实用系统主要采用机械分 词法,但实际上纯机械性分词也无人在 用,一般都使用介于二者之间的某种分词 法。在此,本人称之为综合式分词法,收 录了由作者本人明确指出同时采用了机 械式分词法和理解式分词法的文章。 2.1 机械式分词法 邹海山等在现有 分词技术的基础上,提出了一种基于词典 的正向最大匹配和逆向最大匹配相结合 的中文分词方案,可以高效、准确地实现 中文文档的主题词条的抽取和词频统计。 应志伟等基于一个实际的文语转换系统, 介绍了它的一些处理方法,采用了一种改 进的最大匹配法,可以切分出所有的交集 歧义,提出了一种基于统计模型的算法来 处理其中的多交集歧义字段,并用穷举法 和一些简单的规则相组合的方法从实用 角度解决多音字的异读问题以及中文姓 名的自动识别问题,达到实现文语转换的 目的。陈桂林等首先介绍了一种高效的 中文电子词表数据结构,它支持首字Hasb 和标准的二分查找,且不限词条长度,然 后提出了一种改进的快速分词算法。在 快速查找两字词的基础上,利用近邻匹配 方法来查找多字词,明显提高了分词效 情报杂志2002年第11期 情报检索

百度中文分词技巧

百度中文分词技巧 什么是中文分词?我们都知道,英文句子都是由一个一个单词按空格分开组成,所以在分词方面就方便多了,但我们中文是一个一个汉字连接而成,所以相对来说是比较复杂的。中文分词指的是将一个汉语句子切分成一个一个单独的词,按照一定的规则重新组合成词序列的过程。这个也称做“中文切词”。 分词对于搜索引擎有着很大的作用,是文本挖掘的基础,可以帮助程序自动识别语句的含义,以达到搜索结果的高度匹配,分词的质量直接影响了搜索结果的精确度。目前搜索引擎分词的方法主要通过字典匹配和统计学两种方法。 一、基于字典匹配的分词方法 这种方法首先得有一个超大的字典,也就是分词索引库,然后按照一定的规则将待分词的字符串与分词库中的词进行匹配,若找到某个词语,则匹配成功,这种匹配有分以下四种方式: 1、正向最大匹配法(由左到右的方向); 2、逆向最大匹配法(由右到左的方向); 3、最少切分(使每一句中切出的词数最小); 4、双向最大匹配法(进行由左到右、由右到左两次扫描) 通常,搜索引擎会采用多种方式组合使用。但这种方式也同样给搜索引擎带来了难道,比如对于歧义的处理(关键是我们汉语的博大精深啊),为了提高匹配的准确率,搜索引擎还会模拟人对句子的理解,达到识别词语的效果。基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息,当然我们的搜索引擎也在不断进步。 二、基于统计的分词方法 虽然分词字典解决了很多问题,但还是远远不够的,搜索引擎还要具备不断的发现新的词语的能力,通过计算词语相邻出现的概率来确定是否是一个单独的词语。所以,掌握的上下文越多,对句子的理解就越准确,分词也越精确。举个例子说,“搜索引擎优化”,在字典中匹配出来可能是:搜索/引擎/优化、搜/索引/擎/优化,但经过后期的概率计算,发现“搜索引擎优化”在上下文相邻出现的次数非常多,那么基于统计就会将这个词语也加入进分词索引库。关于这点我在《关于电商与圈的分词测试》就是同样的一个例子。 中文分词的应用分词准确性对搜索引擎来说十分重要,但如果分词速度太慢,即使准确性再高,对于搜索引擎来说也是不可用的,因为搜索引擎需要处理数以亿计的网页,如果分词耗用的时间过长,会严重影响搜索引擎内容更新的速度。因此对于搜索引擎来说,分词的准确性和速度,二者都需要达到很高的要求。 参考文档及网站: https://www.doczj.com/doc/0111806545.html, https://www.doczj.com/doc/0111806545.html, https://www.doczj.com/doc/0111806545.html, https://www.doczj.com/doc/0111806545.html,

中文自动分词技术

中文自动分词技术是以“词”为基础,但汉语书面语不是像西方文字那样有天然的分隔符(空格),而是在语句中以汉字为单位,词与词之间没有明显的界限。因此,对于一段汉字,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程词,就要应用到中文自动分词技术。下面依次介绍三种中文自动分词算法:基于词典的机械匹配的分词方法、基于统计的分词方法和基于人工智能的分词方法。 1、基于词典的机械匹配的分词方法: 该算法的思想是,事先建立词库,让它它是按照一定的策略将待分析的汉字串与一个充分大的词典中的词条进行匹配,若在词典中找到该字符串,则识别出一个词。按照扫描方向的不同,串匹配分词的方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,又可以分为最大匹配和最小匹配。按这种分类方法,可以产生正向最大匹配、逆向最大匹配,甚至是将他们结合起来形成双向匹配。由于汉字是单字成词的,所以很少使用最小匹配法。一般来说,逆向匹配的切分精度略高于正向匹配,这可能和汉语习惯将词的重心放在后面的缘故。可见,这里的“机械”是因为该算法仅仅依靠分词词表进行匹配分词 a)、正向减字最大匹配法(MM) 这种方法的基本思想是:对于每一个汉字串s,先从正向取出maxLength 个字,拿这几个字到字典中查找,如果字典中有此字,则说明该字串是一个词,放入该T的分词表中,并从s中切除这几个字,然后继续此操作;如果在字典中找不到,说明这个字串不是一个词,将字串最右边的那个字删除,继续与字典比较,直到该字串为一个词或者是单独一个字时结束。 b)、逆向减字最大匹配法(RMM ) 与正向减字最大匹配法相比,这种方法就是从逆向开始遍历。过程与正向减字最大匹配法基本相同,可以对文本和字典先做些处理,把他们都倒过来排列,然后使用正向减字最大匹法。 机械匹配算法简洁、易于实现.其中,最大匹配法体现了长词优先的原则,在实际工程中应用最为广泛。机械匹配算法实现比较简单,但其局限也是很明显的:效率和准确性受到词库

自然语言检索中的中文分词技术研究进展及应用_何莘

自然语言检索中的中文分词技术研究进展及应用 何 莘1 ,王琬芜 2 (1.西安石油大学机械工程学院,陕西西安710065;2.浙江大学信息科学与工程学院,浙江杭州310058)摘 要:中文分词技术是实现自然语言检索的重要基础,是信息检索领域研究的关键课题,无论是专业信息检索系统还是搜索引擎都依赖于分词技术的研究成果。本文通过在国内外著名数据库中进行相关检索,分析了研究中文分词技术及其在著名搜索引擎中的应用。 关键词:中文分词;自动分词;分词算法 中图分类号:TP391,G354 文献标识码:A 文章编号:1007-7634(2008)05-0787-05 Research and Application of Chinese Word Segmentation Technical Based on Natural Language Information Retrieval HE Xin 1 ,W ANG Wan -wu 2 (1.School o f Mechanical Engineering ,Xi p an Shiyou University ,Xi p an 710065,China ;2.School o f In f o rmation Science and Engineering ,Zhejiang University ,Hangzhou 310058,China )Abstract :Chinese word segmentation technique is the important foundation that realize the natural language re -trieval,also is the key topic of the research in information retrieval domain.Professional information retrieval sys -te m and search engine both depend on the research achievements of word segmentation technique.This paper in -dexes in the domestic and international famous database,then Chinese word segmentation technique has been ana -lyzed in fa mous search engines is sum marized. Key words :Chinese word segmentation;automatic word se gmentation;word segmentation algorithm 收稿日期:2007-10-23 作者简介:何 莘(1968-),女,河北保定人,工程师,从事信息存储与检索技术、数字资源管理、搜索引擎技术等研究. 1 分词及分词算法 从中文自然语言句子中划分出有独立意义词的过程被称为分词。众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位。由于中文词与词之间没有明确的边界,因此,中文分词技术中文信息处理的基础是机器翻译、分类、搜索引擎以及信息检索。中文分词技术属于自然语言处理技术的范畴,是语义理解过程中最初的一个环节,它将组成语句的核心词提炼出来供语义分析模块使用,在分词的过程中,如何能够恰当地提供足够的词来供分析程序处理,计算机如何完成这一过程?其处理过程就称为分词算法。现有的分 词算法可分为三大类:基于字符串匹配的分词方 法、基于理解的分词方法和基于统计的分词方法。 111 基于字符串匹配的分词方法 这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个/充分大的0机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。 (1)正向最大匹配法(MM 法)。其基本思想 第26卷第5期2008年5月 情 报 科 学 Vol.26,No.5May,2008

词位标注汉语分词技术详解

[收稿日期]2010-06-26 [基金项目]河南省教育厅高等学校青年骨干教师项目(2009G GJS -108)。 [作者简介]于江德(1971-),男,博士,副教授,主要从事自然语言处理、信息抽取、文本数据挖掘等。①可以从以下地址下载:http ://cr fpp .so ur cefo rg e .net [汉语词法·甲骨文] 汉语词法分析是中文信息处理的首要任务,主要包括分词、词性标注、命名实体识别三项子任务,它是句法分析与语义分析的基础,其性能将直接影响到中文信息处理的后续应用。安阳师范学院计算机与信息工程学院依托河南省高等学校“甲骨文信息处理”重点实验室培育基地,“中文信息处理”校级重点实验室“计算语言学”校级研究所等平台。对汉语词法分析中的这三项子任务、甲骨文进行了较深入的研究,取得了部分研究成果,现借学报这个平台展示给各位同仁,敬请各位专家学者指正。 词位标注汉语分词技术详解 于江德,王希杰 (安阳师范学院计算机与信息工程学院,河南安阳455002) [摘 要]近年来基于字的词位标注的方法极大地提高了汉语分词的性能,该方法将汉语分词转化为字的词位标注问题,借助于优秀的序列标注模型,基于字的词位标注汉语分词方法逐渐成为分词的主要技术路线。本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用四词位标注集,使用CRF ++0.53工具包实现字串序列词位标注进行了详解。最后在Bakeo ff2006的评测语料上进行了封闭测试。 [关键词]汉语分词;条件随机场;词位标注;特征模板 [中图分类号]T P391 [文献标识码]A [文章编号]1671-5330(2010)05-0001-05 在中文信息处理领域,词是最小的能够独立运用的有意义的语言单位。但汉语书写时却以字为基本的书写单位,词语之间不存在明显的分隔标记,因此,中文信息处理领域的一项基础性研究课题是如何将汉语的字串切分为合理的词语序列,即汉语分词。它不仅是句法分析、语义分析、篇章理解等深层中文信息处理的基础,也是机器翻译、自动问答系统、信息检索和信息抽取等应用的关键环节[1,2]。 近年来,尤其是2003年7月首届国际中文分词评测活动Bakeo ff 开展以来,汉语分词技术取得了可喜的进步,该领域的研究取得了令人振奋 的成果[3,4]。其中,基于字的词位标注汉语分词技术(也称为基于字标注的汉语分词或由字构词)得到了广泛关注,在可比的评测中性能领先的系统几乎无一例外都应用了类似的标注思想[3,5]。基于字的词位标注汉语分词将分词看作序列数据的标注问题,使用序列数据标注模型实现,例如,可采用条件随机场(Co nditional Random Fields ,简称CRFs )实现。CRFs 是Lafferty 等[6]于2001年提出的一种用于序列数据标注的条件概率模型。本文简要介绍了词位标注汉语分词的基本思想,探析了基于条件随机场实现词位标注汉语分词的机理,并对采用B 、M 、E 、S 四词位标注集,使 1 2010年 安阳师范学院学报

住院病历电子模板大全精

住院病历 姓名:白素贞职业:公务员 性别:女住址:浙江省杭州市西湖区 年龄:50岁入院日期:2014-06-05 09:40 民族:汉族记录日期:2014-06-05 10:40 籍贯:浙江杭州病史叙述者: 患者本人 婚姻:已婚可靠程度:可靠 主诉: 进行性吞咽困难3月余。 现病史: 患者于3月前始觉进食后轻微哽噎感,因症状轻微且断续出现,故未做治疗。2个月后症状较前明显加重,出现次数亦增加,消瘦,未予药物治疗,症状也未见好转。同时伴胸骨后烧灼感,但进半流食感觉不明显,无发热、黄疸,无憋气、胸闷、声音嘶哑。至杭州市人民医院于2014-5-25做胃镜检查示:食管中上段鳞状细胞癌,内镜组织活检:食道鳞癌;查血常规:WBC 6×109/L,N 0.7,Plt 160×109/L,HB 102g/L;大便潜血:(+);尿常规未见异常。今日入住我科进一步治疗。患者自发病以来,精神尚可,进食差,大小便无异常,体重较前下降10kg10kg。 既往史:既往体健。否认高血压、糖尿病和卒中病史,否认“肝炎”、“结核”等传染病史及接触史,有卡介苗接种史,无重大外伤及手术史,无输血史及药物过敏史。 个人史:生于原籍,未去过疟疾、血吸虫病等流行区,无烟酒嗜好,无毒物及疫水接触史。 月经史:14岁初潮, 3-5/27-30,末次月经2014-5-25,经量中等、白带无明显异常,无痛经史。 婚姻史:24岁结婚,爱人现年52岁,身体健康。夫妻关系和睦。 生育史:26岁顺产一子。 家族史:父母病故(中风)。家族无“肝炎”、“结核”等传染病及遗传病史,无同样患者。 体格检查 T 36.7℃,P 78次/min,R 20次/min, BP 140/85mmHg。 发育正常,营养中等,神志清楚,语言清晰,自主体位,查体合作,步入病房。全身皮肤粘膜无黄染无出血点、皮疹,浅表淋巴结未触及肿大。头颅无畸形,双眼球活动自如,巩膜无黄染,结膜无苍白,双侧瞳孔等大等圆,直径3mm,对光反射灵敏;鼻道通畅,鼻中隔无偏曲,面部肌肉及口角无歪斜。口唇无紫绀,牙龈无出血,咽粘膜无充血水肿,扁桃体无肿大;外耳道通畅,双外耳道无脓性分泌物,无耳聋耳鸣,双耳听力正常。颈软,气管居中,颈静脉无怒张,颈动脉无异常搏动,甲状腺无肿大。心前区无异常隆起,心尖搏动位于第五肋间左侧锁骨中线上,心尖部无震颤,心界不大,心率78次∕分钟,心律齐,心音有力,各瓣膜听诊区未闻及病理性杂音。双肾区叩击痛(-)。肛门外生殖器无异常。脊柱生理弯曲无畸形。四肢关节活动自如,无畸形,四肢肌力肌张力正常,双下肢不肿,无肌肉萎缩。神经系统检查,生理性反射正常存在,病理性反射未引出。

电子病历基本规范

电子病历基本规范 (征求意见稿) 第一章总则 第一条 为规范医疗机构电子病历管理,保证医患双方合法权益,根据《中华人民共和国执业医师法》、《医疗机构管理条例》、《医疗事故处理条例》等法律、法规,制定本规范。 第二条 本规范适用于医疗机构电子病历的建立、使用、保存、和管理。 第三条 电子病历是指医务人员在医疗活动过程中,使用医疗机构信息系统生成的文字、符号、图表、图形、数据、影像等数字化的医疗信息资料,是病历的一种记录形式。 应用字处理软件如Word文档、WPS文档等编辑、打印的病历,不属于本规范所称的电子病历,按照《病历书写基本规范(试行)》管理。 第四条 医疗机构电子病历系统的建设应当满足临床工作需要,遵循医疗工作流程,保障医疗质量和医疗安全。 第五条 电子病历录入应当遵循客观、真实、准确、及时、完整的原则。 第六条 电子病历录入应当使用中文和医学术语,要求表述准确,语句通顺,标点正确。通用的外文缩写和无正式中文译名的症状、体征、疾病名称等可以使用外文。使用阿拉伯数字记录日期,采用12小时制记录时间。 第七条 电子病历内容应当按照《病历书写基本规范》要求,使用统一的项目名称、格式和内容,不得擅自变更。 第八条 电子病历系统应当采用数字认证技术识别操作人员身份,并设置有相应权限;并确认该数字认证密钥用于电子病历时,为该操作人员专有且独立控制。 第九条 医务人员采用数字认证密钥登录电子病历系统完成各项病历记录并予确认后,系统应当按照病历记录格式要求生成并显示医务人员数字认证签名。 第十条 上级医务人员有审查、修改下级医务人员建立的电子病历的权利和义务。 电子病历系统应严格设置医务人员审查、修改的权限和时限。实习医务人员、试用期医务人员记录的病历,应当经过在本医疗机构合法执业的医务人员审阅、修改并予确认。医务人员修改时,电子病历系统应当进行身份鉴别、保存历次修改痕迹、标记准确的修改时间和修改人信息。

中文分词技术研究

分词算法一般有三类:基于字符串匹配、基于语义分析、基于统计。复杂的分词程序会将各种算法结合起来以便提高准确率。Lucene被很多公司用来提供站内搜索,但是Lucene本身并没有支持中文分词的组件,只是在Sandbox里面有两个组件支持中文分词:ChineseAnalyzer和CJKAnalyzer。ChineseAnalyzer 采取一个字符一个字符切分的方法,例如"我想去北京天安门广场"用ChineseAnalyzer分词后结果为:我#想#去#北#京#天#安#门#广#场。CJKAnalyzer 则是二元分词法,即将相邻的两个字当成一个词,同样前面那句用CJKAnalyzer 分词之后结果为:我想#想去#去北#北京#京天#天安#安门#门广#广场。 这两种分词方法都不支持中文和英文及数字混合的文本分词,例如:IBM T60HKU现在只要11000元就可以买到。用上述两种分词方法建立索引,不管是搜索IBM还是11000都是没办法搜索到的。另外,假如我们使用"服务器"作为关键字进行搜索时,只要文档包含"服务"和"器"就会出现在搜索结果中,但这显然是错误的。因此,ChineseAnalyzer和CJKAnalyzer虽然能够简单实现中文的分词,但是在应用中仍然会感觉到诸多不便。基于字符串匹配的分词算法用得很多的是正向最大匹配和逆向最大匹配。其实这两种算法是大同小异的,只不过扫描的方向不同而已,但是逆向匹配的准确率会稍微高一些。"我想去北京天安门广场"这句使用最大正向分词匹配分词结果:我#想去#北京#天安门广场。这样分显然比ChineseAnalyzer和CJKAnalyzer来得准确,但是正向最大匹配是基于词典的,因此不同的词典对分词结果影响很大,比如有的词典里面会认为"北京天安门"是一个词,那么上面那句的分词结果则是:我#想去#北京天安门#广场。 如果用"广场"作为关键字进行检索,那么使用后一个词典分出来的便可检索到,而使用前一个的则不行,而事实上应该是不管搜索北京天安门、天安门广场、天安门、广场都能检索到这篇文档。使用全切分可以实现这个想法,同样是那句使用正向全切分分词结果为:我#想去#北京天安门#北京#天安门#天安门广场#广场,这样不管用"北京天安门"、"天安门广场"、"天安门"、"广场"中的哪一个作为关键字搜索都可以搜索到。采取这种分法会在一定程度上提高分词的准确率,但也会出现问题,例如"我要在上海南站上车"这句采用正向全切分结果为:我#要在#上海#海南#南站,分出海南这个词显然是错误的,这属于交叉歧义。 正如前面所说,基于字符串匹配的分词算法都是依赖于词典的,但是不管再

中文分词技术

一、为什么要进行中文分词? 词是最小的能够独立活动的有意义的语言成分,英文单词之间是以空格作为自然分界符的,而汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词语分析是中文信息处理的基础与关键。 Lucene中对中文的处理是基于自动切分的单字切分,或者二元切分。除此之外,还有最大切分(包括向前、向后、以及前后相结合)、最少切分、全切分等等。 二、中文分词技术的分类 我们讨论的分词算法可分为三大类:基于字典、词库匹配的分词方法;基于词频度统计的分词方法和基于知识理解的分词方法。 第一类方法应用词典匹配、汉语词法或其它汉语语言知识进行分词,如:最大匹配法、最小分词方法等。这类方法简单、分词效率较高,但汉语语言现象复杂丰富,词典的完备性、规则的一致性等问题使其难以适应开放的大规模文本的分词处理。第二类基于统计的分词方法则基于字和词的统计信息,如把相邻字间的信息、词频及相应的共现信息等应用于分词,由于这些信息是通过调查真实语料而取得的,因而基于统计的分词方法具有较好的实用性。 下面简要介绍几种常用方法: 1).逐词遍历法。 逐词遍历法将词典中的所有词按由长到短的顺序在文章中逐字搜索,直至文章结束。也就是说,不管文章有多短,词典有多大,都要将词典遍历一遍。这种方法效率比较低,大一点的系统一般都不使用。 2).基于字典、词库匹配的分词方法(机械分词法) 这种方法按照一定策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。识别出一个词,根据扫描方向的不同分为正向匹配和逆向匹配。根据不同长度优先匹配的情况,分为最大(最长)匹配和最小(最短)匹配。根据与词性标注过程是否相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的方法如下: (一)最大正向匹配法 (MaximumMatchingMethod)通常简称为MM法。其基本思想为:假定分词词典中的最长词有i个汉字字符,则用被处理文档的当前字串中的前i个字作为匹配字段,查找字典。若字典中存在这样的一个i字词,则匹配成功,匹配字段被作为一个词切分出来。如果词典中找不到这样的一个i字词,则匹配失败,将匹配字段中的最后一个字去掉,对剩下的字串重新进行匹配处理……如此进行下去,直到匹配成功,即切分出一个词或剩余字串的长度为零为止。这样就完成了一轮匹配,然后取下一个i字字串进行匹配处理,直到文档被扫描完为止。

儿科-电子病历-模板

儿科-电子病历-模板

————————————————————————————————作者:————————————————————————————————日期: 2

(第 次入院) 姓名: 科别:儿科 床号: 住院号: 第 页/共 页 姓 名: ××× 职 业: —— 性 别: × 工作单位: —— 年 龄: ×× 住 址: ××××××× 婚 姻: ×× 供 史 者: ××× (与患者关系) 出生地: ×× 入院时间: ××××年×月×日 ×时×分 民 族: ×族 记录时间: ××××年×月×日 ×时× 分 主 诉:×××××××××××××× 现病史:××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××。 既往史:××××××××××××××××××××××××××××××××××××××××××××××××××××××××。 个人史:××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××。 家族史:××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××。 体 格 检 查 T :×. ×℃ P :×次/分 R :×次/分 W :×. ×㎏ ××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××××

相关主题
文本预览
相关文档 最新文档