最长名词短语识别研究
- 格式:doc
- 大小:34.50 KB
- 文档页数:7
汉语最长名词短语的自动识别*周强孙茂松黄昌宁智能技术与系统国家重点实验室清华大学计算机科学与技术系,北京100084摘要:本文通过对包含5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析,提出了两种有效的汉语最长名词短语自动识别算法:基于边界分布概率的识别算法(算法1)和基于内部结构组合的识别算法(算法2)。
实验结果显示,算法2的识别正确率和召回率分别达到了85.4%和82.3%,取得了较好的自动识别效果。
关键词:最长名词短语,边界识别,句法分析。
1 引言在自然语言句子的理解过程中,能否准确地识别其中的名词短语(np)起了很重要的作用。
按照认知科学的观点,人类必须首先识别、学习和理解文本中的实体(entity)或者概念(具体的或抽象的),才能很好地理解自然语言文本,而这些实体和概念大都是由文本句子中的名词短语所描述的。
因此,如果我们掌握了文本中的名词短语,就可以在很大程度上把握文本所表达的主要意思。
从组成结构上看,句子中的名词短语可分为以下三类:1) 最短名词短语(mNP):即不包含其他任何名词短语的名词短语;2) 最长名词短语(MNP):即不被其他任何名词短语所包含的名词短语;3) 一般名词短语(GNP):所有不是mNP和MNP的名词短语。
从mNP到GNP再到MNP,自动识别的难度是在不断增加的。
而在自然语言处理领域,MNP的自动识别具有更为重要的意义。
因为我们一旦很好地识别出了句子中所有的MNP,就可以很方便地把握句子的整体结构框架,从而很快构建出句子的完整句法树(森林)。
正是认识到了这一点,近几年来,许多研究人员在MNP的自动识别方面进行了许多有益的探索,提出了一些行之有效的识别方法。
在英语方面的工作主要有:1) Church的简单名词短语抽取器[1],利用概率矩阵信息来确定句子中np的起始和终止位置。
2) Bourigault的术语抽取器LEXTER[2],通过构造两个阶段的自动分析器发现文本中的术语(即部分MNP)3) Voutilainen的MNP获取工具:NPTool[3],利用两种有限状态分析机制(NP_否定机制和NP_肯定机制)来发现文本中可能的MNP。
组块分析研究综述组块分析是一种新的句法分析思路和策略,侧重于解决底层歧义问题。
文章归纳分析了组块分析的不同任务和研究方法,指出统计和规则方法相结合常常能取得更好的效果,但基本名词短语,最长名词短语等相对较大的语块的识别效果仍然不能令人满意。
未来需要考虑如何将语言学特征融入统计机器学习,并且更好地将统计和规则方法结合起来。
标签:组块句法分析综述一、引言句法分析是中文信息处理领域诸多应用技术的基础,如机器翻译、人机对话系统等。
但传统的完全句法分析技术在处理大规模真实语料时遇到了较大的困难,正确率徘徊在70%~80%左右。
在今天词法分析已经能够基本达到应用要求的情况下,句法分析技术已经成为制约中文信息处理技术发展的瓶颈。
20世纪90年代中后期,国内引进英语浅层句法分析的思想,展开了组块识别与分析研究。
由于底层句法歧义在很大程度上影响了句法分析的效果,浅层句法分析主张从识别句子中某些简单的组块开始,在充分化解底层歧义的基础上,逐步完成句法分析的任务。
它把一个句子的完整分析过程划分为三个部分:组块识别、组块间依存关系的识别以及组块内部的结构分析,并着力于组块的识别和内部结构分析。
组块分析是句法分析技术的进步,特别适合于分析缺乏形态变化,底层歧义较多的汉语句子,成为汉语句法分析技术的重要发展趋势。
二、系统性的组块分析研究组块分析是自然语言处理一个新兴的研究课题。
它起源于上世纪80年代末90年代初国外关于组块(chunk)的研究。
组块分析可以分为单一组块分析和一般组块分析。
单一组块主要研究基本名词块或基本名词短语的识别分析问题。
一般组块扩展了研究范围,研究多个(实)语块的识别分析问题,可以称为系统性的组块分析。
上世纪90年代中后期,国际上展开了对基本块的全面识别研究。
(一)英语组块分析研究早期的系统性组块分析主要采用基于规则的方法,包括基于简单规则,基于转换的错误驱动的方法和基于有限状态机的方法,取得了一定的效果。
名词短语的可及性与关系化一项类型学视野下的英汉对比研究一、本文概述本文旨在通过类型学的视角,对英汉两种语言中的名词短语可及性与关系化现象进行深入对比研究。
我们将探讨两种语言在处理名词短语时的共性与差异,特别是它们在构建和表达复杂语义关系时的不同策略。
本文的研究不仅有助于我们更深入地理解英汉语言的本质特点,也有助于揭示人类语言的普遍规律。
在概述部分,我们将首先界定名词短语可及性与关系化的概念,并阐述这两种现象在语言研究中的重要性。
接着,我们将回顾以往的相关研究,分析当前研究的不足,并说明本文的研究目的和研究问题。
我们还将介绍本文的研究方法,包括语料来源、数据处理方法以及数据分析工具等。
通过本文的研究,我们期望能够揭示英汉两种语言在名词短语可及性与关系化方面的异同,为语言类型学研究提供新的视角和证据。
我们也希望能够为英汉语言的教学和翻译实践提供有益的启示和建议。
二、文献综述可及性(Accessibility)和关系化(Relationalization)是语言学中两个核心概念,尤其在类型学视野下,对于不同语言的名词短语结构和功能差异具有重要的解释力。
本文旨在从类型学的角度出发,对英汉两种语言中的名词短语可及性与关系化现象进行深入的对比研究。
名词短语的可及性通常指的是在语言中名词短语被识别、提取和加工的难易程度。
这一概念与句法结构、语义关系以及认知心理等多个方面紧密相关。
在汉语和英语中,名词短语的可及性受到多种因素的影响,如词序、修饰语的位置和类型、以及名词短语内部的层级结构等。
通过对比研究,我们可以发现英汉两种语言在名词短语可及性方面的异同,以及这些差异如何影响语言的表达和理解。
关系化则是指通过一定的语法手段将名词短语转化为从句的过程。
关系化现象在不同语言中表现出不同的类型和特点,反映了语言类型学的多样性。
在汉语中,关系化通常通过“的”字结构来实现;而在英语中,则主要依赖于关系代词和关系副词。
通过对比英汉两种语言的关系化手段,我们可以深入了解它们在句法结构、语义功能和信息组织方面的差异。
认知语言学与汉语名词短语认知语言学是一种以认知过程为研究对象的语言学分支学科,其研究对象与传统语言学不同,主要研究人类语言习得、语言处理、语言理解以及语言能力,尤其是在认知心理学的基础上,探讨语言如何为人类认知服务。
汉语名词短语则是认知语言学的研究重点之一,本文将从这个角度展开讨论。
名词短语是指由名词和其修饰语组成的短语结构。
在汉语中,名词短语通常是一种具有复杂基础结构的短语,在句法和语义上都有着丰富的内涵和多个层面的结构。
因此,从认知语言学的角度来看,汉语名词短语具有独特的认知性质和特征。
从语法角度来看,汉语名词短语的结构通常是由数词、量词、形容词以及其他修饰语与名词组成。
不同的修饰语不仅可以影响名词短语的语义,还可以影响名词短语的句法。
例如,“三个大苹果”和“大三个苹果”虽然都由相同的单词组成,但它们具有不同的语义和句法结构。
因此,名词短语的结构和组成成分对于语言的理解和识别非常重要。
从语义角度来看,名词短语的语义涵义通常由其结构和内部关系决定。
在汉语中,名词短语的语义涵义可以通过修饰语的选择和位置表达出来。
例如,“三个苹果”和“大苹果”都是有意义的名词短语,但它们的语义不同。
另外,名词短语的修饰语也可以强调名词与句子的关系。
例如,“我的苹果”与“他的苹果”具有不同的语义,因为它们的修饰语反映了不同的说话者和所指对象。
从认知角度来看,名词短语的认知机制与人类的思维和语言能力密切相关。
一方面,名词短语的构建和理解需要依赖人类的记忆和复杂的认知过程。
人们在理解名词短语时需要将其与其上下文进行比较和理解,从而确定其语义和句法结构。
另一方面,名词短语也反映了人类的语言习得和语言能力,因为这种短语结构通常需要经过语言学习和语境实践才能掌握。
总之,汉语名词短语是认知语言学的研究重点之一,其复杂的句法和语义结构对于人类的思维和语言能力有着深刻的影响。
在今后的研究中,我们需要进一步探讨名词短语的构建和认知机制,以更好地理解人类语言和思维的本质。
汉语最长名词短语的自动识别
周强;孙茂松;黄昌宁
【期刊名称】《软件学报》
【年(卷),期】2000(11)2
【摘要】通过对包含5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析,提出了两种有效的汉语最长名词短语自动识别算法:基于边界分布概率的识别算法和基于内部结构组合的识别算法.实验结果显示,后者的识别正确率和召回率分别达到了85.4%和82.3%,取得了较好的自动识别效果.
【总页数】7页(P195-201)
【作者】周强;孙茂松;黄昌宁
【作者单位】不详;不详
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于归约的汉语最长名词短语识别方法 [J], 钱小飞;侯敏
2.基于混合策略的汉语最长名词短语识别 [J], 钱小飞;侯敏
3.统计和规则相结合的汉语最长名词短语自动识别 [J], 代翠;周俏丽;蔡东风;杨洁
4.汉语内层最长名词短语的识别研究 [J], 钱小飞
5.汉语内层最长名词短语的识别研究 [J], 钱小飞
因版权原因,仅展示原文概要,查看原文内容请购买。
最长名词短语识别研究本文分析了最长名词短语的内部构成特征,提出了一种基于基本名词短语中心归约的最长名词短语识别方法,并使用条件随机场模型识别了最长名词短语。
实验取得了87.58%的正确率和88.31%的召回率。
标签:最长名词短语基本名词短语条件随机场中心规约一、引言最长名词短语(MNP)的识别能够显著地改善句法分析等系统的性能。
如对于句法分析而言,最长名词短语在句子中主要充当主语和宾语,其内部结构复杂多样。
正确地识别出这些结构,可以大大降低句法分析过程中的浅层歧义,提高句法分析器的性能。
最长名词短语的识别研究涉及自然语言处理中常见的统计和规则方法。
李文捷等(1995)使用边界分布信息构造概率模型识别MNP;周强、孙茂松等(2000)提出两种不同的识别算法,其中基于内部结构组合的算法通过基本组合成分向左迭代组合,形成新的最长名词短语,取得了良好效果;代翠等(2008)则使用了条件随机场模型识别最长名词短语,并针对识别错误使用后继规则进行修正。
总的来说,随着一些新的统计模型和新方法的应用,汉语最长名词短语的识别效果逐步提高,但由于MNP自身构造的复杂性,MNP识别问题还有待进一步的研究。
在前人研究的基础上,本文提出了一种基于基本名词短语中心压缩的最长名词短语的方法,并基于条件随机场模型实现了该方法,实验证实了这种方法的有效性。
二、最长名词短语及其构成中文信息处理学界所说的“名词短语”与本体语言学的定义大体一致,是“名词性短语”“体词性短语”的意思。
周强、孙茂松等(2000)从组成结构上将名词短语分为最短名词短语(MNP)、最长名词短语(MNP)、一般名词短语(GNP)三类,其中,最长名词短语的定义沿承了Kuang-hua Chen (1994)关于英语MNP的定义,指“不被其他名词短语所包含的名词短语”。
我们把最长名词短语定义为不被其他任何名词短语所包含的名词短语,最长名词短语是句子级的短语单位,其上层结构即为句子根节点S。
本文定义的最长名词短语包含单词短语,下面的句子用括号标注了MNP:(1)[罗马/nS 时代/n]也/d 有/v[“/“想象/v 比/p 模仿/v 是/vC 更为/dD 巧妙/a 的/u 一/m 位/qN 艺术家/n ”/” 的/u 评说/vN]。
/。
(2)[电荷/n 周围/s]伴有/v [电场/n],/,[电场/n]对/p [电荷/n]产生/v [力/n 的/u 作用/n]。
/。
从内部结构看,可以把最长名词短语分为后附式结构、定中式结构和联合式结构。
通常后附式结构内部较为复杂,以“的”字结构、“者”字结构等最为典型:(3)[它/rN]是/vC 【以/p 情报/n 技术/n 的/u 发展/vN 与/c 联机/b 情报/n 系统/n 的/u 建立/vN 为/vC 特征/n 的/u】。
/。
(4)“/“ 在/p [学术/n 研究/vN]上/f 有/v [创新/n]才/d 能/vM 有/v [建树/n],/,凡/d [自己/rN]在/p [学术/n]上/f 提出/v [新说/n],/,一旦/d 发现/v [其/rN]有/v 【与/p 别人/rN 偶同/a、/、而/c 别人/rN 确/d 已/d 发布/v 在/p 先/f 者/k】,/,则/c 尽行/d 削去/v 。
/。
”/”此外,后附式结构还包括一些简单的构形结构:(5)[我/rN]最/dD 不/dN 习惯/v 也/d 最/dD 讨厌/v 【男人/n 们/k】指/v 着/u [自己/rN 的/u 鼻尖/n]数落/v “/“ [你们/rN 女人/n]……/…… ”/”[女人/n]怎么/rV 啦/y 。
/。
定中式结构是最长名词短语最主要的结构类型,其中包括含“的”的定中式结构和不含“的”的定中式结构。
正如“的”字结构一样,含“的”的定中式结构内部比较复杂,可以是简单结构,如“形容词+的+名词”的模式,也可以是复杂的“动词短语+的+名词短语”模式:(6)不/dN 在/p【想/vM 哭/v 的/u 时候/n】佯装/v [笑脸/n],/, 也/d 不/dN 会/vM 在/p【高兴/a 的/u 时候/n】收敛/v【自己/rN 的/u 情绪/n】。
/。
不含“的”的最长名词短语以简单结构居多,如例(4)中的“学术/n 研究/vN”,但也存在极少数复杂结构,如“动词短语+名词”构成的MNP:(7)“/“ [伟大/a 的/u 理论/n]指导/v [伟大/a 的/u 实践/vN],/, 【建设/v 有/v 中国/nS 特色/n 社会主义/n 理论/n】为/p [中华/nR 民族/n]指出/v 了/u [腾飞/v 之/u 路/n]。
/。
”/”联合式MNP也可以分为简单联合结构和复杂联合结构,简单联合结构由不含“的”的简单定中式结构联合而成,复杂联合结构由简单MNP与复杂MNP、复杂MNP与复杂MNP、甚至复杂MNP与谓词性短语联合而成,下面是一个复杂联合结构的例子:(8)可是/c,/,在/p[目前/t 经济/n 体制/n 转型/v 时期/n],/, 由于/p【法律/n 法规/n 的/u 不/dN 健全/a 以及/c 监督/vN 机制/n 的/u 薄弱/a】,/, 由于/p [利己主义/n 、/、拜金主义/n 的/u 影响/vN],/,[一些/m 人/n][社会/n 责任感/n 和/c 社会/n 道德/n 观念/n]淡薄/a ,/,[有的/rN 人/n]甚至/d 扰乱/v [社会/n 秩序/n],/,败坏/v [社会/n 风气/n]。
/。
可以看出,相对于组块分析中的基本名词短语,最长名词短语长度较大,内部结构较为复杂。
我们的想法是先识别基本名词短语,对基本名词短语进行规约,再识别最长名词短语。
这在一定程度上可以化解底层歧义,缩短结构长度,提高识别效率。
三、条件随机场模型条件随机场是Lafferty在2001年提出的一个序列切分和标注模型。
令X表示一个待标记数据序列的随机变量,Y表示相应的标记的序列,则条件随机场(X,Y)是以X为全局条件的无向图模型。
条件随机场的定义如下:令G=(V,E)是一个无向图,Y=(Yv),那么,Y以G的顶点为索引。
如果当以X为条件,随机变量Yv遵从图的马尔科夫属性:=,其中,w~v表示w和v是图中相邻的结点,那么(X,Y)就是一个条件随机场。
常见的图G是一个简单的链结构。
比如,序列X=(X1,X2,…,Xn)和Y=(Y1,Y2,…,Yn)。
这样,在给定x的情况下,标记序列y的联合分布具有以下形式:其中,x表示观察数据,y表示一个标记序列,和是特征函数。
和分别是它们的权值。
是归一化函数。
最长名词短语识别可以看作是文本中词语序列、词性标记序列等特征选择边界标记的过程,因此,可以采用适当的识别策略,利用CRF进行边界识别。
四、基于基本名词短语中心规约的最长名词短语识别(一) 基本名词短语的识别赵军(1998)针对汉语动词可以充当定语的特点,从基本名词短语内部结构的角度提出了汉语基本名词短语的定义:baseNPbaseNP+baseNPbaseNPbaseNP+名词|名动词baseNP 限定性定语+baseNPbaseNP限定性定语+名词|名动词限定性定语形容词| 区别词| 动词| 名词| 处所词| 西文字串| 数量词本文的研究针对最长名词短语识别,将基本名词短语定义为以名词性成分为中心,同时不包括谓词性结构的最大名词性短语。
如:(9)对/p 企业/n ,/, 保证/v 其/rN 实现/v [生产/vN 计划/n 任务/n]和/c [流通/vN 计划/n 任务/n]所/u 需要/v 的/u [资金/n 供给/vN];/; 对/p [整个/b 经济/n],/, 保证/v 实现/v [生产/vN 资料/n]和/c [消费/vN 资料/n]进行/v [计划/vN 流转/vN]所/u 必需/v 的/u [货币/n 供给/vN]。
/。
我们使用CRF模型,选择前后3个词和词性作为简单特征,语料格式如下:表1:基本名词短语标注格式样例词语词性baseNP标记多数m B人n I持v O肯定 a B意见n I, , O(二)最长名词短语的识别首先基于基本名词短语的识别结果进行规约,以中心词替代基本名词短语本身,使用上文的例子,过程如下所示:基本名词短语识别结果:[多数/m 人/n]持/v[肯定/a 意见/n],/,基本名词短语规约结果:[人/n]持/v[意见/n],/,同时,我们记录了中心规约过程中的基本名词短语结构长度,是否中心词等信息,单词基本名词短语的结构长度规定为0,是否中心词为“否”。
新的模型选择前后3个词及词性,以及当前词是否为中心词、当前基本名词短语的长度作为特征。
语料格式如下:表2:中心规约实验标注格式样例词语词性是否中心词 baseNP长度MNP标记人n Head 2 B持v No 0 O意见n Head 2 B, , No 0 O五、实验结果及分析实验从清华大学TCT树库中随机抽取10000个无重复的段落,其中9000段用作训练语料,另外1000句用作测试语料。
(一)基本名词短语实验基本名词短语的实验语料及其比例与上文划分的最长名词短语实验语料相同,以其中9000段用作训练语料,另外1000句用作测试语料。
实验结果如下:表3:基本名词短语识别实验结果测试类型SC RC CC P R F封闭测试17261 17262 17260 99.99 99.99 99.99开放测试1892 1915 1722 89.92 91.01 90.46其中,SC、RC、CC分别表示结构数、识别数和正确数,P表示正确率,R表示召回率,F表示调和平均值。
可以看出,开放测试中,由于基本名词短语内部结构相对简单,实验取得了较好的效果,基本名词短语识别的F值达到90.46%,为最长名词短语的识别奠定了一定的基础。
(二)最长名词短语实验我们选择不同的窗口长度,以及中心规约特征构成不同的特征模板观察特征对于MNP识别结果的影响。
评测结果是将中心规约的语料还原为原始标注语料后进行的。
表4报告了开放测试的实验结果。
表4:中心规约的特征模板测试模板窗口中心规约特征SC RC CC P R F1 [-1,1] 中心词4122 4146 3558 85.82 86.32 86.072 [-2,2] 中心词4122 4141 3611 87.20 87.60 87.403 [-3,3] 中心词4122 4156 3140 87.58 88.31 87.944 [-3,3] 中心词+长度4122 4154 3636 87.53 88.21 87.875 [-3,3] 长度4122 4155 3637 87.53 88.23 87.886 [-3,3] - 4122 4152 3627 87.36 88.00 87.687 - - 4122 4164 3603 86.53 87.41 86.97其中,模板7对应了不采用基本名词短语中心规约的简单实验。