最长名词短语识别研究

格式：doc
大小：34.50 KB
文档页数：7

下载文档原格式

汉语最长名词短语的自动识别

汉语最长名词短语的自动识别*周强孙茂松黄昌宁智能技术与系统国家重点实验室清华大学计算机科学与技术系，北京100084摘要：本文通过对包含5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析，提出了两种有效的汉语最长名词短语自动识别算法：基于边界分布概率的识别算法（算法1）和基于内部结构组合的识别算法（算法2）。

实验结果显示，算法2的识别正确率和召回率分别达到了85.4%和82.3%，取得了较好的自动识别效果。

关键词：最长名词短语，边界识别，句法分析。

1 引言在自然语言句子的理解过程中，能否准确地识别其中的名词短语(np)起了很重要的作用。

按照认知科学的观点，人类必须首先识别、学习和理解文本中的实体(entity)或者概念（具体的或抽象的），才能很好地理解自然语言文本，而这些实体和概念大都是由文本句子中的名词短语所描述的。

因此，如果我们掌握了文本中的名词短语，就可以在很大程度上把握文本所表达的主要意思。

从组成结构上看，句子中的名词短语可分为以下三类：1) 最短名词短语(mNP)：即不包含其他任何名词短语的名词短语；2) 最长名词短语(MNP)：即不被其他任何名词短语所包含的名词短语；3) 一般名词短语(GNP)：所有不是mNP和MNP的名词短语。

从mNP到GNP再到MNP，自动识别的难度是在不断增加的。

而在自然语言处理领域，MNP的自动识别具有更为重要的意义。

因为我们一旦很好地识别出了句子中所有的MNP，就可以很方便地把握句子的整体结构框架，从而很快构建出句子的完整句法树（森林）。

正是认识到了这一点，近几年来，许多研究人员在MNP的自动识别方面进行了许多有益的探索，提出了一些行之有效的识别方法。

在英语方面的工作主要有：1) Church的简单名词短语抽取器[1]，利用概率矩阵信息来确定句子中np的起始和终止位置。

2) Bourigault的术语抽取器LEXTER[2]，通过构造两个阶段的自动分析器发现文本中的术语（即部分MNP）3) Voutilainen的MNP获取工具：NPTool[3]，利用两种有限状态分析机制（NP_否定机制和NP_肯定机制）来发现文本中可能的MNP。

以“的”字结构为核心的最长名词短语识别研究

ｎｗｓｂｕｔｎｔｈａｋｏｉｅｅＭＮＰｒｃｇｉｏ．ｅｐｐｒｆｒｔａａｙｅｈｉｒｕｉｎａｄｔｅｓｒｃｕｅｆａｕｅｏｈｅｕｓｍｐｉｏｔｅｔｓｆＣｈｎｓｏｅｏｎｔｎＴｈａｅｓｎｌｚｓｔｅｄｓｉｔｎｈｔｔｒｅｔｒｆｔｅｉｉｔｂｏｕ
摘
要：的” 以“ 字结构为核心的最长名词短语是汉语最长名词短语的一个特殊子类。以该短语的自动识别为基础重新分化了汉语
ＭＮＰ的识别任务。在考察其结构和分布特征的基础上，出“ 提先识别右边界，识别成果参与左边界识别” 的策略，并使用边界分布
概率模型分治了左右边界。实验基于８５万字的新闻语料上进行训练，并在４２万字的同质语料上进行了开放测试，取得了８．％０６３
ｍｅｈｄ “ ｏｎａｙＤｉｔｂｔｎＰｏａｉｔ” ｔｒｃｇｉｈｈａｅＡｃｒｕ（ｂｕ．５ｍｉｉｎｈｎｓＣａａｔｒ）ｏｅｓｓｔｏＢｕｄｒｓｉｕｉｒｂｂｌｙｏｅｏｎｚｔｅｐｒｓ．ｏｐｓａｏｔ０８ｌｏＣｉｅｅｈｒｃｅｒｏｉｅｌｓｆｎｗｉ
Ｅ－ａｌｑｅｆｙｎｇ１．ｏｍｉ：ｉｒｉ＠６３ｃｎｌ
ＱＩＮｉｏｆｉｅｏｎｔｎｏＡＸａ－ｅ．ｃｇｉｏｆＭＮＰｔ “ ｅＰｒｓ ”ｃｒ．ｏｕｅｎｉｅｒｇａｄＡｐｉａｏｓ２１，６１）１８１１ＲｉｈＤ－ｈａｅｏｅｍｐｔｒＥｇｎｅｉｎｐｌｔｎ，００４（８：３－４．Ｃｎｃｉ

组块分析研究综述

组块分析研究综述组块分析是一种新的句法分析思路和策略，侧重于解决底层歧义问题。

文章归纳分析了组块分析的不同任务和研究方法，指出统计和规则方法相结合常常能取得更好的效果，但基本名词短语，最长名词短语等相对较大的语块的识别效果仍然不能令人满意。

未来需要考虑如何将语言学特征融入统计机器学习，并且更好地将统计和规则方法结合起来。

标签：组块句法分析综述一、引言句法分析是中文信息处理领域诸多应用技术的基础，如机器翻译、人机对话系统等。

但传统的完全句法分析技术在处理大规模真实语料时遇到了较大的困难，正确率徘徊在70%～80%左右。

在今天词法分析已经能够基本达到应用要求的情况下，句法分析技术已经成为制约中文信息处理技术发展的瓶颈。

20世纪90年代中后期，国内引进英语浅层句法分析的思想，展开了组块识别与分析研究。

由于底层句法歧义在很大程度上影响了句法分析的效果，浅层句法分析主张从识别句子中某些简单的组块开始，在充分化解底层歧义的基础上，逐步完成句法分析的任务。

它把一个句子的完整分析过程划分为三个部分：组块识别、组块间依存关系的识别以及组块内部的结构分析，并着力于组块的识别和内部结构分析。

组块分析是句法分析技术的进步，特别适合于分析缺乏形态变化，底层歧义较多的汉语句子，成为汉语句法分析技术的重要发展趋势。

二、系统性的组块分析研究组块分析是自然语言处理一个新兴的研究课题。

它起源于上世纪80年代末90年代初国外关于组块（chunk）的研究。

组块分析可以分为单一组块分析和一般组块分析。

单一组块主要研究基本名词块或基本名词短语的识别分析问题。

一般组块扩展了研究范围，研究多个（实）语块的识别分析问题，可以称为系统性的组块分析。

上世纪90年代中后期，国际上展开了对基本块的全面识别研究。

（一）英语组块分析研究早期的系统性组块分析主要采用基于规则的方法，包括基于简单规则，基于转换的错误驱动的方法和基于有限状态机的方法，取得了一定的效果。

名词短语的可及性与关系化一项类型学视野下的英汉对比研究

名词短语的可及性与关系化一项类型学视野下的英汉对比研究一、本文概述本文旨在通过类型学的视角，对英汉两种语言中的名词短语可及性与关系化现象进行深入对比研究。

我们将探讨两种语言在处理名词短语时的共性与差异，特别是它们在构建和表达复杂语义关系时的不同策略。

本文的研究不仅有助于我们更深入地理解英汉语言的本质特点，也有助于揭示人类语言的普遍规律。

在概述部分，我们将首先界定名词短语可及性与关系化的概念，并阐述这两种现象在语言研究中的重要性。

接着，我们将回顾以往的相关研究，分析当前研究的不足，并说明本文的研究目的和研究问题。

我们还将介绍本文的研究方法，包括语料来源、数据处理方法以及数据分析工具等。

通过本文的研究，我们期望能够揭示英汉两种语言在名词短语可及性与关系化方面的异同，为语言类型学研究提供新的视角和证据。

我们也希望能够为英汉语言的教学和翻译实践提供有益的启示和建议。

二、文献综述可及性（Accessibility）和关系化（Relationalization）是语言学中两个核心概念，尤其在类型学视野下，对于不同语言的名词短语结构和功能差异具有重要的解释力。

本文旨在从类型学的角度出发，对英汉两种语言中的名词短语可及性与关系化现象进行深入的对比研究。

名词短语的可及性通常指的是在语言中名词短语被识别、提取和加工的难易程度。

这一概念与句法结构、语义关系以及认知心理等多个方面紧密相关。

在汉语和英语中，名词短语的可及性受到多种因素的影响，如词序、修饰语的位置和类型、以及名词短语内部的层级结构等。

通过对比研究，我们可以发现英汉两种语言在名词短语可及性方面的异同，以及这些差异如何影响语言的表达和理解。

关系化则是指通过一定的语法手段将名词短语转化为从句的过程。

关系化现象在不同语言中表现出不同的类型和特点，反映了语言类型学的多样性。

在汉语中，关系化通常通过“的”字结构来实现；而在英语中，则主要依赖于关系代词和关系副词。

通过对比英汉两种语言的关系化手段，我们可以深入了解它们在句法结构、语义功能和信息组织方面的差异。

的字结构为核心的最长名词短语识别研究

1 引言
最长名词短语（MNP）是指句子中不被其他名词短语直接包含的名词短语。它的识别能够为自动句法分析、机器翻译系统提供有力的支持。如对于句法分析而言，最长名词短语内部结构比较复杂，几乎涉及了汉语所有的词类和句法结构，如果能够识别出句子中所有的最长名词短语，那么计算机就能较好地构建出句子的句法树或森林。以往的研究表明，最长名词短语识别对于结构长度较为敏感，长度大于等于 5 的复杂最长名词短语的识别精度一般要比简单最长名词短语低 16 个百分点；并且复杂定语规定的左边界识别难度远远大于右边界[1]。
dePMNP 的下文特征的分布规律与上文有所不同，不仅表现在邻接关系中，在与局部下文的共现关系上也有所体现。前者如“是”等动词经常出现在 dePMNP 下文一元邻接词位置 R1 上；后者如“是”之前有时会加上一些副词，表达程度的不同或委婉的语气等，使得“是”后退到下文二项共现词位置 RC2 上，如“最令人喜爱的还是”。造成这种情况的有两种因素：（1） dePMNP 常位于主语位置上，R1 位置上也常常出现动词；（2）汉语中存在一条语法规则：动词可以受副词等语言成分修饰。下面就从下文一元邻接词集合 R1Set、二项共现词集合 RC2Set 及位于前的修饰词三个方面讨论 dePMNP 的下文特征。
文献[2]将“的”划分为副词性语法单位的后附成分“的 1”，形容词性语法单位的后附成分“的 2”，名词性语法单位的后附成分 “的 3”。然而“，的 2”和“的 3”的区分有时并不十分明晰。如“更+A+ 的”中“的”应该是“的 2”，但有的形式却能出现在主语或宾语的位置上指称事物，如“我要更好的。”文献[3]区分了表述功能的词汇层面和句法层面，在此基础上把“的”看成是词汇层面的“饰词标记”，上述“更好的”则是该短语在句法层面的指称化。

认知语言学与汉语名词短语

认知语言学与汉语名词短语认知语言学是一种以认知过程为研究对象的语言学分支学科，其研究对象与传统语言学不同，主要研究人类语言习得、语言处理、语言理解以及语言能力，尤其是在认知心理学的基础上，探讨语言如何为人类认知服务。

汉语名词短语则是认知语言学的研究重点之一，本文将从这个角度展开讨论。

名词短语是指由名词和其修饰语组成的短语结构。

在汉语中，名词短语通常是一种具有复杂基础结构的短语，在句法和语义上都有着丰富的内涵和多个层面的结构。

因此，从认知语言学的角度来看，汉语名词短语具有独特的认知性质和特征。

从语法角度来看，汉语名词短语的结构通常是由数词、量词、形容词以及其他修饰语与名词组成。

不同的修饰语不仅可以影响名词短语的语义，还可以影响名词短语的句法。

例如，“三个大苹果”和“大三个苹果”虽然都由相同的单词组成，但它们具有不同的语义和句法结构。

因此，名词短语的结构和组成成分对于语言的理解和识别非常重要。

从语义角度来看，名词短语的语义涵义通常由其结构和内部关系决定。

在汉语中，名词短语的语义涵义可以通过修饰语的选择和位置表达出来。

例如，“三个苹果”和“大苹果”都是有意义的名词短语，但它们的语义不同。

另外，名词短语的修饰语也可以强调名词与句子的关系。

例如，“我的苹果”与“他的苹果”具有不同的语义，因为它们的修饰语反映了不同的说话者和所指对象。

从认知角度来看，名词短语的认知机制与人类的思维和语言能力密切相关。

一方面，名词短语的构建和理解需要依赖人类的记忆和复杂的认知过程。

人们在理解名词短语时需要将其与其上下文进行比较和理解，从而确定其语义和句法结构。

另一方面，名词短语也反映了人类的语言习得和语言能力，因为这种短语结构通常需要经过语言学习和语境实践才能掌握。

总之，汉语名词短语是认知语言学的研究重点之一，其复杂的句法和语义结构对于人类的思维和语言能力有着深刻的影响。

在今后的研究中，我们需要进一步探讨名词短语的构建和认知机制，以更好地理解人类语言和思维的本质。

基于规则的英语名词短语结构自动识别研究

［关键词］规则；英语名词短语；短语结构；自动识别；语料库［中图分类号］Ｈ３１３［文献标识码］Ａ［文章编号］１００９－９０４２（２０１３）０７－００７０－０３
ＲｅｓｅａｒｃｈｏｎＡｕｔｏｍａｔｉｃＲｅｃｏｇｎｉｔｉｏｎｏｆＮｏｕｎＰｈｒａｓｅＳｔｒｕｃｔｕｒｅＢａｓｅｄｏｎＲｕｌｅｓ
Ｋｅｙｗｏｒｄｓ：ｕｌｒｅｓ；Ｅｎｇｌｉｓｈｎｏｕｎｐｈｒａｓｅｓ；ｐｈｒａｓｅｓｔｕｃｒｔｕｒｅ；ａｕｔｏｍａｔｉｃｒｅｃｏｇｎｉｔｉｏｎ；ｃｏｒｐｕｓ
名词短语是英语句子的核心组成部分，然而不同名词短语类型的结构用法及其在句子中所作成分的复杂性一直困扰着英语的机器识别技术。基本名
作者简介：章忠宪（１９６３一），男，安徽安庆人，漳州职业技术学院计算机工程系副教授，硕士，主要从事人工智能研究。
第２９卷第７期
章忠宪：基于规则的英语名词短语结构自动识别研究
・７１・
串在逻辑上可能发生的各种情况，即改变、减少和增加，总之都是一种变化。同化规则属于转换规则。
ｓｅｍａｎｔｉｃｃｏｌｌｏｃａｔｉｏｎ，ｒｅｖｅａｌｓｔｈｅｒｅｌａｔｉｏｎｓｈｉｐｂｅｔｗｅｅｎｔｈｅｎｏｕｎｐｈｒａｓｅｔｙｐｅａｎｄｉｔｓｃｏｍｐｏｓｉｔｉｏｎｉｎｔｈｅｓｅｎｔｅｎｃｅ，ｏｂｖｉｏｕｓｌｙｉｍｐｒｏｖｅｓｔｈｅａｃｃｕｒａｃｙｏｆｎｏｕｎｐｈｒａｓｅｒｅｃｏｇｎｉｔｉｏｎ．

基于归约的汉语最长名词短语识别方法

Ａｂｓｔｒａｃｔ：ＴｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｎｏｐｅｒａｔｉｏｎａｌｄｅｆｉｎｉｔｉｏｎｏｆＭａｘｉｍａｌＮｏｕｎＰｈｒａｓｅ（ＭＮＰ），ａｎｄｔｈｅｎａｎａｌｙｚｅｓｉｔｓ
模型观察窗口受限的矛盾。开放测试取得了８８．６８的正确率和８９．２１的召回率；归约方法全面提升了识别性
能，特别是将多词结构的调和平均值提高１，优化幅度达６以上，并且对长距离复杂结构有着更好的识别效果。
ｗｉｎｄｏｗｓｉｏｄｅｌｓ．Ｔｈｅｅｘｐｅｒｉｍｅｎｔｉｎｄｉｃａｔｅｓａｇｏｏｄｐｒｅｃｉｓｉｏｎｏｆ８８．６８％ａｎｄａｒｅｃａｌｌｏｆ８９．２１．Ｔｈｅｒｅ —
关键词：最长名词短语；识别；归约；基本名词短语
中图分类号：ＴＰ３９１文献标识码：Ａ
ＣｈｉｎｅｓｅＭａｘｉｍａｌＮｏｕｎＰｈｒａｓｅＲｅｃｏｇｎｉｔｉｏｎＢａｓｅｄｏｎＲｅｄｕｃｔｉｏｎ
ｄｕｃｔｉｏｎｍｅｔｈｏｄｃｏｍｐｒｅｈｅｎｓｉｖｅｌｙｉｍｐｒｏｖｅｓｓｙｓｔｅｍｐｅｒｆｏｒｍａｎｃｅ，ｅｓｐｅｃｉａｌｌｙｉｔｉｍｐｒｏｖｅｓＦ１一ｓｃｏｒｅｂｙ１

汉语最长名词短语的自动识别

汉语最长名词短语的自动识别
周强;孙茂松;黄昌宁
【期刊名称】《软件学报》
【年(卷),期】2000(11)2
【摘要】通过对包含5573个汉语句子的语料文本中的最长名词短语的分布特点的统计分析,提出了两种有效的汉语最长名词短语自动识别算法:基于边界分布概率的识别算法和基于内部结构组合的识别算法.实验结果显示,后者的识别正确率和召回率分别达到了85.4%和82.3%,取得了较好的自动识别效果.
【总页数】7页(P195-201)
【作者】周强;孙茂松;黄昌宁
【作者单位】不详;不详
【正文语种】中文
【中图分类】TP18
【相关文献】
1.基于归约的汉语最长名词短语识别方法 [J], 钱小飞;侯敏
2.基于混合策略的汉语最长名词短语识别 [J], 钱小飞;侯敏
3.统计和规则相结合的汉语最长名词短语自动识别 [J], 代翠;周俏丽;蔡东风;杨洁
4.汉语内层最长名词短语的识别研究 [J], 钱小飞
5.汉语内层最长名词短语的识别研究 [J], 钱小飞
因版权原因，仅展示原文概要，查看原文内容请购买。

中文最长名词短语识别研究

1.1 课题背景 ....................................................................................................1 1.2 名词短语识别综述 ....................................................................................1
本文还将最长名词短语识别应用到了面向特定任务的指代消解中。中文最长名词短语包含了最长名词短语中的中心名词的修饰成分，这修饰成分中会包括中心名词的性别、颜色、数量、日期、方位等类型的描述信息。指代消解所需要则是上述一系列描述信息中的数量信息和性别等信息，因此可以使用最长名词短语识别，从文本中提取出相应的信息，帮助指代消解的工作。
Wang Yueying Prof. Zhao Tiejun Master of Engineering Computer Science and Technology School of Computer Science and Technology July, 2007 Harbin Institute of Technology
哈尔滨工业大学工学好的识别出名词短语可以很大程度上帮助把握文章所表达的主要意思。而中文最长名词短语亦是如此。中文最长名词短语应用于诸多自然语言处理任务中，如信息检索、文本分类、自动文摘、指代消解等，因此对于中文最长名词短语的研究是有必要的。本文对中文最长名词短语的识别作专门的研究，分别使用了隐马尔可夫模型和条件随机域模型对中文最长名词短语进行识别。
关键词名词短语；最长名词短语识别；隐马尔可夫模型；条件随机域模型
- I-

名词短语提取的训练题目

名词短语提取的训练题目
本文档旨在提供一些训练题目，帮助练名词短语的提取。

以下是一些题目示例：
题目一
阅读以下句子，提取出句子中的名词短语：
1. 他是一位优秀的篮球运动员。

2. 这个城市的发展速度很快。

3. 大学生活充满了挑战和机会。

4. 他买了一本关于历史的书。

5. 这个问题的解决方案很复杂。

题目二
阅读以下短文，提取出短文中的名词短语：
中国的传统文化源远流长。

中国的建筑、绘画、音乐和舞蹈都
有独特的特色。

中国的饮食文化也非常丰富多样。

中国菜以其独特
的口味和精致的制作工艺而闻名世界。

中国的茶文化也是独具特色。

中国人喜欢品茗，喝茶已经成为生活中的一种乐趣。

题目三
思考以下话题，写一段描述，其中包含至少三个名词短语：
话题：旅行
描述：我最喜欢的旅行地是海滩。

我喜欢在沙滩上散步，感受
海风拂过脸颊的清爽。

在海滩上，我可以享受阳光、大海和沙滩的
美景。

我最喜欢的活动是冲浪。

毫无疑问，海滩旅行是我最喜欢的
度假方式之一。

以上题目可供练习名词短语的提取。

希望对您有所帮助！。

最大熵方法在英语名词短语识别中的应用研究

ｍｅｈｄｕｅｎｌｈｐｒｓｔｃｕｅｃａａｔｒｓｃａｄｔｅｃｎｅｔｏｅｐｓｔｎｔｓａｌｈｆａｕｅｓｔｈｎｕｅｔｏｓｓＥｇｉｈａｅｓｕｔｒｈｒｃｅｉｔｎｈｏｔｘｆｈｏｉｏｏｅｔｂｉｅｔｒｅ，ｔｅｓｓｓｒｉｔｉｓ￣ｑｅｃｄａｅａｅｍｕｕｌｉｆｒｔｎｔｘｒｃｆｃｉｅｆａｕｅ，ｗｈｃｓｅｐｅｓｄａｈｘｍｕｅｔｐｅｕｎｙａｖｒｇｔａｎｏｍａｉｏｅｔａｔｅｆｔｅｔｒｓｎｏｅｖｉｈｉｘｒｓｅｓｔｅｍａｉｍｎｒｙｏｍｏｅ，ａｄｆａｌｅｏｎｔｎｉｃ￣ｅｕａｅｉｈｘｍｕｅｔｐｒｃｐｅｉｌｔｎｅｐｒｎｓｃｒｉｄｄｌｎｎｌｒｃｇｉｏａｉｄｏｔｓｄＯｅｍａｉｍｎｒｙｐｉｉｌ．Ｓｍｕａｉｘｅｍｅｔａｒｉｙｉｓｂｌｏｎｏｉｉｅ
Ｗ‘ ＡＮＧＸａ — ｕｎ．ＺｉｏｊａＨＡ０Ｃｕｈｎ
（．Ｈａｇｕｉｎｖｒｉ，Ｆｃｈｆｏｐｔ，ｈｍｄａｅａ６００ｈａ１ｕｎｈａＵｉｅｔａｕｙｏＣｍｕｅＺｕａｉｎＨｎｎ４３０，Ｃｉ；ｓｙｒｎ２Ｃｌｇｆｉｘｎ，ｉｉｇＨｎｎ４３０，ｈａ．ｏｅｅｏＸｎｉｇＸｎａｅａ５０３Ｃｉ）ｌａｘｎｎ
ＡＢＳＲＡＣＴ：ｓｔｅｂｓｓｏｈｙｔｘａ￣ｙｉ，ＢｓＮＰｒｃｇｉｏｓａｏｔｎｔｐｉｎｌｈｍａｈｎａｓＴＡｈａｉｆｅｓｎａｎｓｔｓａｅｅｏｎｔｎｉｎｉｒａｔｅＥｇｉｃｉｅｔｎ — ｉｍｐｓｎｓｒ

最长名词短语识别研究

关键词：最长名词短语基本名词短语条件随机场中心规约
一
、
引言
模仿／是／Ｃ更为／Ｄ巧妙／的／一／位／Ｎ艺术家ｖｖｄａｕｍｑ
（）［２电荷／周围／］有／［场／］ｎｓ伴ｖ电ｎ，／［，电场
最长名词短语识别研究
口钱小飞
摘要：本文分析了最长名词短语的内部构成特征，提出了一种基于基本名词短语中心归约的最长名词短语
识别方法，并使用条件随机场模型识别了最长名词短语实验取得了８．８的正确率和８．１的召回率。７５％８３％
｛ ”
汉语最长名词短语的识别效果逐步提高，但由于ＭＰ自身构／已／发布／在／先／者／］，／Ｎｄｄｖｐｆｋ，Ｎ／尽行／削ｃｄ造的复杂性，ＭＰ别问题还有待进一步的研究。在前人研芸Ｎ识
造概率模型识￣ＭＰ周强、孙茂松等（００ＩＮ；Ｊ２０）提出两种不展／Ｎ与／联机／情报／系统／的／建立／Ｎ为／Ｃｖｃｂｎｎｕｖｖ
同的识别算法，其中基于内部结构组合的算法通过基本组特征／的／］。／ｎｕ。
最长名词短语（Ｎ）的识别能够显著地改善句法分析／ ”／的／评说／Ｎ。／ＭＰｎ ” ｕｖ］。等系统的性能。如对于句法分析而言，最长名词短语在句识别出这些结构，可以大大降低句法分析过程中的浅层歧

自然语言处理中的名词短语识别技术研究

自然语言处理中的名词短语识别技术研究一、引言自然语言处理（Natural Language Processing，简称NLP）是一门涉及语言学、计算机科学和人工智能等多个领域的交叉学科，在信息检索、机器翻译、自动问答等领域都有广泛的应用。

名词短语识别是NLP中的一个重要研究方向，其在信息提取、语义分析、文本分类等应用场景中都起到了至关重要的作用。

二、名词短语的定义名词短语是一个语言单位，指一个名词及其周围的修饰成分组成的“短语”。

一个名词短语通常由一个中心名词和与它相关的修饰成分组成，如形容词、副词、介词短语等。

例如，“红色苹果”就是一个名词短语，其中“苹果”是中心名词，“红色”则是其形容词修饰部分。

三、名词短语识别技术名词短语识别技术是一种将给定的自然语言文本中的名词短语标注出来的技术。

常用的方法主要包括基于规则的方法、机器学习方法和混合方法。

1.基于规则的方法基于规则的方法是一种使用手动编写的规则来识别名词短语的方法。

这种方法的优点是可以针对具体语言的语法规则来进行开发，具有较高的准确性和可解释性。

在此方法中，常用的规则包括分块规则、语法规则和语义规则等。

分块规则主要是指通过找到一定的分块模式来对名词短语进行划分，如NP（名词短语）-VP（动词短语）-NP。

语法规则则是通过语言的语法规则来识别名词短语，如使用上下文无关文法（Context-Free Grammar，CFG）描述名词短语。

语义规则则是通过语言的语义规则来对名词短语进行判断，如基于WordNet词库的语义规则。

2.机器学习方法机器学习方法是一种基于给定数据集进行训练的方法，通过学习数据集中的模式来进行名词短语识别。

机器学习方法主要包括基于统计的方法和基于神经网络的方法。

在统计学习方法中，通常采用基于条件随机场（Conditional Random Field，CRF）和最大熵模型（Maximum Entropy，ME）等算法。

在神经网络模型中，常用的方法主要包括循环神经网络（Recurrent Neural Network，RNN）和卷积神经网络（Convolutional Neural Network，CNN）。

浅层句法分析方法概述

浅层句法分析方法概述孙宏林俞士汶一、引言浅层句法分析(shallow parsing)，也叫部分句法分析(partial parsing)或语块分析(chunk parsing)，是近年来自然语言处理领域出现的一种新的语言处理策略。

它是与完全句法分析相对的，完全句法分析要求通过一系列分析过程，最终得到句子的完整的句法树。

而浅层句法分析则不要求得到完全的句法分析树，它只要求识别其中的某些结构相对简单的成分，如非递归的名词短语、动词短语等。

这些识别出来的结构通常被称作语块(chunk)，语块和短语这两个概念通常可以换用。

浅层句法分析的结果并不是一棵完整的句法树，但各个语块是完整句法树的一个子图(subgraph)，只要加上语块之间的依附关系(attachment)，就可以构成完整的句法树。

所以浅层句法分析将句法分析分解为两个子任务：（1）语块的识别和分析；（2）语块之间的依附关系分析。

浅层句法分析的主要任务是语块的识别和分析。

这样就使句法分析的任务在某种程度上得到简化，同时也利于句法分析技术在大规模真实文本处理系统中迅速得到利用。

90年代以来，国外在英语的浅层句法方面做了不少工作，国内也有一些学者采用英语中的方法探索汉语的浅层句法分析。

本文主要就在英语浅层句法分析中所应用的一些技术进行简要的介绍，并简单介绍汉语的有关研究。

其中有些方法虽然是面向完全句法分析的，但由于其对完全句法分析的任务进行了分解，所以其技术也可以归入浅层分析的范畴。

概括起来，句法分析的方法基本上可以分成两类：基于统计的方法和基于规则的方法。

当然也可以采用规则和统计相结合的混合方法。

下面第2节介绍基于统计的方法，第3节介绍基于规则的方法，第4节简要介绍汉语的有关研究，最后是结束语。

二、基于统计的方法随着语料库技术的发展，近10年来许多统计方法被用在短语识别和分析方面。

这些方法的理论主要来自概率统计和信息论。

以下将介绍其中具有代表性的几种方法：（1）基于隐马尔科夫模型的方法；（2）互信息方法；（3） 2统计方法；（4）基于中心词依存概率的方法。

基于混合策略的汉语最长名词短语识别

ＣｏｍｍｕｎｉｃａｔｉｏｎＵｎｉｖｅｒｓｉｔｙｏｆＣｈｉｎａ，Ｂｅｉｊｉｎｇ１０００２４，Ｃｈｉｎａ）
Ａｂｓｔｒａｃｔ：Ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｄａｃｌａｓｓｉｆｉｅｒｅｎｓｅｍｂｌｅｍｅｔｈｏｄｂａｓｅｄｏｎｔｈｅｌａｎｇｕａｇｅｅｖａｌｕａｔｉｏｎ，ａｎｄｆｕｓｅｄｔｈｅＭＮＰｒｅｃｏｇｎｉｔｉｏｎｒｅｓｕｌｔｓｏｆＳＶＭｓａｎｄｃａｓｃａｄｅＣＲＦｓｂａｓｅｄｏｎｒｅｄｕｃｔｉｏｎｍｅｔｈｏｄ，ｕｓｉｎｇｔｈｅａｕｔｏｍａｔｉｃａｌｌｙｏｂｔａｉｎｅｄｃｏｌｌｏｃａ— ｔｉｏｎｓａｎｄｔｈｅｍａｎｕａｌａｓｓｅｓｓｒｕｌｅｓ．Ｉｔｔｈｅｎｆｕｒｔｈｅｒｔａｒｇｅｔｅｄｒｅｃｏｇｎｉｚｅｄｔｈｅｅｒｒｏｒ－ｐｒｏｎｅｓｔｒｕｃｔｕｒｅｓｏｆｔｈｅｃｌａｓｓｉｆｉｅｒｓ
中图分类号：ＴＰ３９１
文献标识码：Ａ
ＣｈｉｎｅｓｅＭａｘｉｍａｌＮｏｕｎＰｈｒａｓｅＲｅｃｏｇｎｉｔｉｏｎＢａｓｅｄｏｎＭｉｘｅｄＳｔｒａｔｅｇｙ
ＱＩＡＮＸｉａｏｆｅｉ，Ｈ０ＵＭｉｎ

基于辅助短语标记的名词短语识别

第３１大学学报
ＪｏｕｍａｌｏｆＳｈｅｎｙａｎｇＡｅｒｏｓｐａｃｅＵｎｉｖｅｒｓｉｔｙ
ＶＯ１．３１Ｎｏ．１
Ｆｅｂ．２０１４
ｄｏｉ：１０．３９６９／ｊ．ｉｓｓｎ．２０９５—１２４８．２０１４．０１．０１２
ＲｅｃｏｇｎｉｔｉｏｎｏｆＣｈｉｎｅｓｅｎｏｕｎｐｈｒａｓｅｂａｓｅｄｏｎａｕｘｉｌｉａｒｙｐｈｒａｓｅｍａｒｋ
式对不同分类体系的短语类别之间进行映射。然后，根据映射结果及短语的概率分布进行辅助短
语标记的组合。实验结果表明，本文的方法在提高值的基础上，有效地降低了系统的时问开销。
关键词：辅助短语标记；名词短语；映射公式
中图分类号：ＴＰ３９１．１文献标志码：Ａ
ＬＩＵＦｅｉ，ＺＨＯＵＱｉａｏ — ｌｉ，ＺＨＡＮＧＧｕｉ — ｐｉｎｇ
（ＫｎｏｗｌｅｄｇｅＥｎｇｉｎｅｅｒｉｎｇＲｅｓｅａｒｃｈＣｅｎｔｅｒ，ＳｈｅｎｙａｎｇＡｅｒｏｓｐａｃｅＵｎｉｖｅｒｓｉｔｙ，Ｓｈｅｎｙａｎｇ１１０１３６）
Ａｂｓｔｒａｃｔ：ＮｏｕｎＰｈｒａｓｅＲｅｃｏｇｎｉｔｉｏｎｉｓｏｎｅｏｆｔｈｅｍｏｓｔｃｉｔｒｉｃａｌｃｏｍｐｏｎｅｎｔｓｉｎｎａｔｕｒａｌｌａｎｇｕａｇｅｐｒｏｃｅｓｓｉｎｇｉｅｆｌｄ．Ｔｈｅｎｏｕｎｐｈｒａｓｅｒｅｃｏｇｎｉｔｉｏｎｐｅｒｆｏｒｍａｎｃｅａｎｄｉｔｓｅｉｃｆｉｅｎｃｙａｒｅｔｈｅｆｏｃｕｓｏｆｒｅｓｅｒｃａｈｅｒｓａｔｔｅｎｔｉｏｎ．Ｉｎｏｒｄｅｒｔｏｃｏｍｂｉｎｅｔｈｅｔｗｏｅｌｅｍｅｎｔｓ，ｔｈｉｓｐａｐｅｒｐｒｏｐｏｓｅｓａｍｅｔｈｏｄｏｆｒｅｃｏｇｎｉｚｉｎｇｎｏｕｎｐｈｒａｓｅｓｂａｓｅｄｏｎａｕｘｉｌ — ｉａｒｙｐｈｒａｓｅｍａｒｋ．Ｆｉｒｓｔ，ｔｈｉｓｐａｐｅｒｐｒｅｓｅｎｔｓａｍａｐｐｉｎｇｂｅｔｗｅｅｎｐｈｒａｓｅｓｂｙｕｓｉｎｇｈｅｔｍａｐｐｉｎｇｆｏｒｍｕｌａｂａｓｅｄ

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

最长名词短语识别研究本文分析了最长名词短语的内部构成特征,提出了一种基于基本名词短语中心归约的最长名词短语识别方法,并使用条件随机场模型识别了最长名词短语。

实验取得了87.58%的正确率和88.31%的召回率。

标签：最长名词短语基本名词短语条件随机场中心规约一、引言最长名词短语(MNP)的识别能够显著地改善句法分析等系统的性能。

如对于句法分析而言,最长名词短语在句子中主要充当主语和宾语,其内部结构复杂多样。

正确地识别出这些结构,可以大大降低句法分析过程中的浅层歧义,提高句法分析器的性能。

最长名词短语的识别研究涉及自然语言处理中常见的统计和规则方法。

李文捷等(1995)使用边界分布信息构造概率模型识别MNP;周强、孙茂松等(2000)提出两种不同的识别算法,其中基于内部结构组合的算法通过基本组合成分向左迭代组合,形成新的最长名词短语,取得了良好效果;代翠等(2008)则使用了条件随机场模型识别最长名词短语,并针对识别错误使用后继规则进行修正。

总的来说,随着一些新的统计模型和新方法的应用,汉语最长名词短语的识别效果逐步提高,但由于MNP自身构造的复杂性,MNP识别问题还有待进一步的研究。

在前人研究的基础上,本文提出了一种基于基本名词短语中心压缩的最长名词短语的方法,并基于条件随机场模型实现了该方法,实验证实了这种方法的有效性。

二、最长名词短语及其构成中文信息处理学界所说的“名词短语”与本体语言学的定义大体一致,是“名词性短语”“体词性短语”的意思。

周强、孙茂松等(2000)从组成结构上将名词短语分为最短名词短语(MNP)、最长名词短语(MNP)、一般名词短语(GNP)三类,其中,最长名词短语的定义沿承了Kuang-hua Chen (1994)关于英语MNP的定义,指“不被其他名词短语所包含的名词短语”。

我们把最长名词短语定义为不被其他任何名词短语所包含的名词短语,最长名词短语是句子级的短语单位,其上层结构即为句子根节点S。

本文定义的最长名词短语包含单词短语,下面的句子用括号标注了MNP:(1)[罗马/nS 时代/n]也/d 有/v[“/“想象/v 比/p 模仿/v 是/vC 更为/dD 巧妙/a 的/u 一/m 位/qN 艺术家/n ”/” 的/u 评说/vN]。

/。

(2)[电荷/n 周围/s]伴有/v [电场/n],/,[电场/n]对/p [电荷/n]产生/v [力/n 的/u 作用/n]。

/。

从内部结构看,可以把最长名词短语分为后附式结构、定中式结构和联合式结构。

通常后附式结构内部较为复杂,以“的”字结构、“者”字结构等最为典型:(3)[它/rN]是/vC 【以/p 情报/n 技术/n 的/u 发展/vN 与/c 联机/b 情报/n 系统/n 的/u 建立/vN 为/vC 特征/n 的/u】。

/。

(4)“/“ 在/p [学术/n 研究/vN]上/f 有/v [创新/n]才/d 能/vM 有/v [建树/n],/,凡/d [自己/rN]在/p [学术/n]上/f 提出/v [新说/n],/,一旦/d 发现/v [其/rN]有/v 【与/p 别人/rN 偶同/a、/、而/c 别人/rN 确/d 已/d 发布/v 在/p 先/f 者/k】,/,则/c 尽行/d 削去/v 。

/。

”/”此外,后附式结构还包括一些简单的构形结构:(5)[我/rN]最/dD 不/dN 习惯/v 也/d 最/dD 讨厌/v 【男人/n 们/k】指/v 着/u [自己/rN 的/u 鼻尖/n]数落/v “/“ [你们/rN 女人/n]……/…… ”/”[女人/n]怎么/rV 啦/y 。

/。

定中式结构是最长名词短语最主要的结构类型,其中包括含“的”的定中式结构和不含“的”的定中式结构。

正如“的”字结构一样,含“的”的定中式结构内部比较复杂,可以是简单结构,如“形容词+的+名词”的模式,也可以是复杂的“动词短语+的+名词短语”模式:(6)不/dN 在/p【想/vM 哭/v 的/u 时候/n】佯装/v [笑脸/n],/, 也/d 不/dN 会/vM 在/p【高兴/a 的/u 时候/n】收敛/v【自己/rN 的/u 情绪/n】。

/。

不含“的”的最长名词短语以简单结构居多,如例(4)中的“学术/n 研究/vN”,但也存在极少数复杂结构,如“动词短语+名词”构成的MNP:(7)“/“ [伟大/a 的/u 理论/n]指导/v [伟大/a 的/u 实践/vN],/, 【建设/v 有/v 中国/nS 特色/n 社会主义/n 理论/n】为/p [中华/nR 民族/n]指出/v 了/u [腾飞/v 之/u 路/n]。

/。

”/”联合式MNP也可以分为简单联合结构和复杂联合结构,简单联合结构由不含“的”的简单定中式结构联合而成,复杂联合结构由简单MNP与复杂MNP、复杂MNP与复杂MNP、甚至复杂MNP与谓词性短语联合而成,下面是一个复杂联合结构的例子:(8)可是/c,/,在/p[目前/t 经济/n 体制/n 转型/v 时期/n],/, 由于/p【法律/n 法规/n 的/u 不/dN 健全/a 以及/c 监督/vN 机制/n 的/u 薄弱/a】,/, 由于/p [利己主义/n 、/、拜金主义/n 的/u 影响/vN],/,[一些/m 人/n][社会/n 责任感/n 和/c 社会/n 道德/n 观念/n]淡薄/a ,/,[有的/rN 人/n]甚至/d 扰乱/v [社会/n 秩序/n],/,败坏/v [社会/n 风气/n]。

/。

可以看出,相对于组块分析中的基本名词短语,最长名词短语长度较大,内部结构较为复杂。

我们的想法是先识别基本名词短语,对基本名词短语进行规约,再识别最长名词短语。

这在一定程度上可以化解底层歧义,缩短结构长度,提高识别效率。

三、条件随机场模型条件随机场是Lafferty在2001年提出的一个序列切分和标注模型。

令X表示一个待标记数据序列的随机变量,Y表示相应的标记的序列,则条件随机场(X,Y)是以X为全局条件的无向图模型。

条件随机场的定义如下:令G=(V,E)是一个无向图,Y=(Yv),那么,Y以G的顶点为索引。

如果当以X为条件,随机变量Yv遵从图的马尔科夫属性:=,其中,w～v表示w和v是图中相邻的结点,那么(X,Y)就是一个条件随机场。

常见的图G是一个简单的链结构。

比如,序列X=(X1,X2,…,Xn)和Y=(Y1,Y2,…,Yn)。

这样,在给定x的情况下,标记序列y的联合分布具有以下形式:其中,x表示观察数据,y表示一个标记序列,和是特征函数。

和分别是它们的权值。

是归一化函数。

最长名词短语识别可以看作是文本中词语序列、词性标记序列等特征选择边界标记的过程,因此,可以采用适当的识别策略,利用CRF进行边界识别。

四、基于基本名词短语中心规约的最长名词短语识别(一) 基本名词短语的识别赵军(1998)针对汉语动词可以充当定语的特点,从基本名词短语内部结构的角度提出了汉语基本名词短语的定义:baseNPbaseNP+baseNPbaseNPbaseNP+名词|名动词baseNP 限定性定语+baseNPbaseNP限定性定语+名词|名动词限定性定语形容词| 区别词| 动词| 名词| 处所词| 西文字串| 数量词本文的研究针对最长名词短语识别,将基本名词短语定义为以名词性成分为中心,同时不包括谓词性结构的最大名词性短语。

如:(9)对/p 企业/n ,/, 保证/v 其/rN 实现/v [生产/vN 计划/n 任务/n]和/c [流通/vN 计划/n 任务/n]所/u 需要/v 的/u [资金/n 供给/vN];/; 对/p [整个/b 经济/n],/, 保证/v 实现/v [生产/vN 资料/n]和/c [消费/vN 资料/n]进行/v [计划/vN 流转/vN]所/u 必需/v 的/u [货币/n 供给/vN]。

/。

我们使用CRF模型,选择前后3个词和词性作为简单特征,语料格式如下:表1:基本名词短语标注格式样例词语词性baseNP标记多数m B人n I持v O肯定 a B意见n I, , O(二)最长名词短语的识别首先基于基本名词短语的识别结果进行规约,以中心词替代基本名词短语本身,使用上文的例子,过程如下所示:基本名词短语识别结果:[多数/m 人/n]持/v[肯定/a 意见/n],/,基本名词短语规约结果:[人/n]持/v[意见/n],/,同时,我们记录了中心规约过程中的基本名词短语结构长度,是否中心词等信息,单词基本名词短语的结构长度规定为0,是否中心词为“否”。

新的模型选择前后3个词及词性,以及当前词是否为中心词、当前基本名词短语的长度作为特征。

语料格式如下:表2:中心规约实验标注格式样例词语词性是否中心词 baseNP长度MNP标记人n Head 2 B持v No 0 O意见n Head 2 B, , No 0 O五、实验结果及分析实验从清华大学TCT树库中随机抽取10000个无重复的段落,其中9000段用作训练语料,另外1000句用作测试语料。

(一)基本名词短语实验基本名词短语的实验语料及其比例与上文划分的最长名词短语实验语料相同,以其中9000段用作训练语料,另外1000句用作测试语料。

实验结果如下:表3:基本名词短语识别实验结果测试类型SC RC CC P R F封闭测试17261 17262 17260 99.99 99.99 99.99开放测试1892 1915 1722 89.92 91.01 90.46其中,SC、RC、CC分别表示结构数、识别数和正确数,P表示正确率,R表示召回率,F表示调和平均值。

可以看出,开放测试中,由于基本名词短语内部结构相对简单,实验取得了较好的效果,基本名词短语识别的F值达到90.46%,为最长名词短语的识别奠定了一定的基础。

(二)最长名词短语实验我们选择不同的窗口长度,以及中心规约特征构成不同的特征模板观察特征对于MNP识别结果的影响。

评测结果是将中心规约的语料还原为原始标注语料后进行的。

表4报告了开放测试的实验结果。

表4:中心规约的特征模板测试模板窗口中心规约特征SC RC CC P R F1 [-1,1] 中心词4122 4146 3558 85.82 86.32 86.072 [-2,2] 中心词4122 4141 3611 87.20 87.60 87.403 [-3,3] 中心词4122 4156 3140 87.58 88.31 87.944 [-3,3] 中心词+长度4122 4154 3636 87.53 88.21 87.875 [-3,3] 长度4122 4155 3637 87.53 88.23 87.886 [-3,3] - 4122 4152 3627 87.36 88.00 87.687 - - 4122 4164 3603 86.53 87.41 86.97其中,模板7对应了不采用基本名词短语中心规约的简单实验。

最长名词短语识别研究

合集下载

汉语最长名词短语的自动识别

以“的”字结构为核心的最长名词短语识别研究

组块分析研究综述

名词短语的可及性与关系化一项类型学视野下的英汉对比研究

的字结构为核心的最长名词短语识别研究

认知语言学与汉语名词短语

基于规则的英语名词短语结构自动识别研究

基于归约的汉语最长名词短语识别方法

汉语最长名词短语的自动识别

中文最长名词短语识别研究

名词短语提取的训练题目

最大熵方法在英语名词短语识别中的应用研究

最长名词短语识别研究

自然语言处理中的名词短语识别技术研究

浅层句法分析方法概述

基于混合策略的汉语最长名词短语识别

基于辅助短语标记的名词短语识别

文档推荐

最新文档

最长名词短语识别研究

合集下载

汉语最长名词短语的自动识别

以“的”字结构为核心的最长名词短语识别研究

组块分析研究综述

名词短语的可及性与关系化一项类型学视野下的英汉对比研究

的 字结构为核心的最长名词短语识别研究

认知语言学与汉语名词短语

基于规则的英语名词短语结构自动识别研究

基于归约的汉语最长名词短语识别方法

汉语最长名词短语的自动识别

中文最长名词短语识别研究

名词短语提取的训练题目

最大熵方法在英语名词短语识别中的应用研究

最长名词短语识别研究

自然语言处理中的名词短语识别技术研究

浅层句法分析方法概述

基于混合策略的汉语最长名词短语识别

基于辅助短语标记的名词短语识别

文档推荐

最新文档

的字结构为核心的最长名词短语识别研究