中文句法异构蕴含语块标注和边界识别研究
- 格式:pdf
- 大小:249.34 KB
- 文档页数:9
汉语句⼦的组块分析体系汉语句⼦的组块分析体系*周强孙茂松黄昌宁智能技术与系统国家重点实验室清华⼤学计算机科学与技术系,北京100084摘要:本⽂介绍了⼀种介于线性词序列和完整句法树表⽰之间的浅层句法知识描述体系:组块分析体系,并详细讨论了其中两⼤部分:词界块和成分组的基本内容及其⾃动识别算法。
在此基础上进⾏的⼀系列句法分析和知识获取实验证明了这种知识描述体系的实⽤性和有效性。
关键词:词界块,成分组,部分分析,句法分析。
1 引⾔句法分析是⾃然语⾔处理研究中的重点和难点。
针对完整的句法分析⽅法在分析⼤规模真实⽂本中遇到的困难,许多研究⼈员开始尝试着把⼀个完整的句法分析问题分解为⼏个易于处理的⼦问题,以逐步降低完整句法分析的难度,提⾼分析效率。
这其中⼀个很成功的例⼦是将词性标注(Part-Of-Speech Tagging)从句法分析中分离出来。
通过利⽤局部语境信息进⾏基于规则或基于统计的词类排歧,⽬前的⼤部分词性标注⼯具对真实⽂本的标注正确率都达到了96%以上,为在此基础上进⼀步进⾏句法分析打下了很好的基础。
依据同样的研究思路,Steven Abney提出了块分析(chunk parsing)的策略[Abn91],通过引进句法块(chunk)概念,他将句法分析问题分为三个阶段:1) 块识别:利⽤基于有限状态分析机制的块识别器(chunker)快速识别出句⼦中所有的块。
2) 块内结构分析:对每个块内部的成分赋予合适的句法结构。
3) 块间关系分析:利⽤块连接器(attacker)将各个不同的块组合成完整的句法结构树。
这样,⼀⽅⾯由于对不同的⼦问题的准确功能定位,可以独⽴地选⽤不同的语⾔模型和搜索策略加以分析处理;另⼀⽅⾯,通过在块层次上进⾏⾃底向上的块间关系分析和⾃顶向下的块内结构分析,可以⼤⼤提⾼整体分析效率,达到降低句⼦分析难度的⽬的。
块分析策略的精髓在于寻找到合适的切⼊点,将完整的句法分析问题分解为句法拓朴结构分析和句法关系分析两个⼦问题。
汉语话语标记的类型及功能研究综观一、本文概述《汉语话语标记的类型及功能研究综观》一文旨在全面梳理和深入探讨汉语中话语标记的类型及其所承载的功能。
话语标记,作为一种重要的语言现象,对于理解汉语口语和书面语的表达习惯、揭示语言使用者的认知心理和交际策略具有不可忽视的作用。
本文首先对话语标记的定义、性质及分类进行界定和阐述,为后续研究奠定理论基础。
接着,文章将详细分析汉语中常见的话语标记,如“然后”“所以”“但是”等,揭示它们在不同语境下的使用情况和功能差异。
本文还将探讨话语标记在语言交际中的作用,如提高话语连贯性、表达说话者情感态度等。
文章将总结现有研究成果,指出研究不足,并对未来研究方向进行展望。
通过本文的综述,读者将对汉语话语标记的类型及功能有更深入的了解,并为相关领域的研究提供有益的参考。
二、汉语话语标记的类型汉语话语标记的类型丰富多样,它们在言语交流中扮演着重要的角色。
话语标记是指那些在句子中并非核心信息,但对理解整个话语结构和语境至关重要的词语或短语。
这些标记在汉语中的存在,不仅丰富了语言表达的形式,还增强了交流的明确性和效率。
连接性标记:这类标记主要用于连接前后句子或段落,使整体语义流畅。
例如,“而且”“但是”“因此”等,它们在句子中起到了承上启下的作用,帮助听者或读者理解句子之间的逻辑关系。
强调性标记:这类标记用于突出句子中的某些重要信息,引起听者或读者的注意。
常见的强调性标记有“确实”“真的”“特别”等,它们可以增强句子的语气和重点。
情感性标记:这类标记主要表达说话者的情感或态度,如“可惜”“幸好”“居然”等。
这些词语不仅传递了信息,还传达了说话者的情感色彩。
解释性标记:这类标记用于对前面的话语进行解释或补充,使听者或读者更易于理解。
例如,“也就是说”“换句话说”等,它们为听者或读者提供了更多的背景信息或解释。
话题转换标记:这类标记用于表示话题的转变,如“另外”“还有”等。
它们帮助听者或读者识别出话语中不同话题的界限。
汉语句法树库标注体系∗周强清华大学计算机系智能技术与系统国家重点实验室北京100084zhouq@摘要:语料库的句法标注是语料库语言学研究的前沿课题。
本文在研究和总结国内外句法树库标注实践的基础上,提出了一套汉语真实文本的句法树标注体系。
它以完整的层次结构树为基础,对句法树上的每个非终结符节点都给出两个标记:成分标记和关系标记,形成双标记集的句法信息描述体系。
目前,这两个标记集分别包含了16和27个标记,对汉语句子的不同句法组合的外部功能分布和内部组合特点进行了详细描述。
在此基础上,我们开发完成了100万词规模的汉语句法树库TCT,对其中各种复杂语言现象的标注实践显示了这套标注体系具有很好的信息覆盖率和语料适应性。
关键词:句法树库,标注规范,语料库语言学Annotation Scheme for Chinese TreebankZHOU QiangState Key Laboratory of Intelligent Technology and SystemsDept. of Computer Science and TechnologyTsinghua University, Beijing 100084zhouq@ABSTRACT: The syntactically annotated corpora, commonly called ‘treebanks’, play an important role in empirical linguistics as well as in machine learning methods in natural language processing. After a brief summarization of several treebank annotation of different language, we proposed a new annotation scheme for Chinese treebank in this paper. Under this scheme, every Chinese sentence will be annotated with a complete parse tree, where each non-terminal constituent is assigned with two tags. One is the syntactic constituent tag, which describes its external functional relation with other constituents in the parse tree. The other is the grammatical relation tag, which describes the internal structural relation of its sub-components. These two tag sets consist of 16 and 27 tags respectively. They form an integrated annotation for the syntactic constituent in a parse tree through top-down and∗本项研究得到国家自然科学基金(项目号:69903007和60173008)、国家973基金(项目号:G1998030507,G1998030501A-03)、国家高技术研究发展863计划(项目号:2001AA114040)资助。
对外汉语初级阶段语块构建研究共3篇对外汉语初级阶段语块构建研究1对外汉语初级阶段语块构建研究随着全球化进程不断加速,汉语不再只是中华民族的语言,越来越多的外国人开始学习汉语。
而对于外语学习者来说,语块的掌握是有效地学习语言的重要手段之一,因为语块是一定意义上的语言最小单位,掌握了语块,外语学习者可以更快地识别和掌握语言规律,从而迅速提高语言表达能力。
因此,对于对外汉语初级阶段语块构建的研究,具有重要的意义。
一、语块的概念语块又称为词块(phrase),是一个汉语语言单元,是汉语语言表达中最常用、最自然的单位,它由几个字组成,构成了一个有语法意义的整体,具有固定的形式和语法功能。
语块是词汇和语法的综合体现,是形式上的固定词组,先于语法规则,而后者则是通过整合固定的词块形成的。
二、语块的特点1. 固定性汉语中的语块是固定的,它们不是通过单词拼接来组成的,而是具有固定的格式和结构。
例如:“早上好”、“下午好”、“晚上好”等,在汉语中是固定的问候语,不能随意替换其中的单词位置。
2. 具有特定意义语块不同于单个词语,它具有固定的短语和句型,能够传达特定的意义。
例如:“一点儿也不”、“不但……而且……”等语块,在传达语义的同时,也传达了特定的语言信息。
3. 具有语法功能语块不仅有固定的语法形式,而且还能遵循一些特定的语法规则,例如主谓宾语结构、定语从句等等。
因此,外语学习者在掌握语块的同时,也能够更好地理解和运用汉语语法规则。
三、对外汉语初级阶段语块的构建1. 基础语块的掌握在对外汉语初级阶段,外语学习者需要掌握一些最基础、最常用的语块,例如问候语、日常交流用语等等。
这些语块语法简单、常用频繁,掌握它们有助于外语学习者更快地进入汉语语境之中,从而更好地理解和运用汉语语言。
2. 语块的分类和归纳对外汉语初级阶段,外语学习者需要了解不同类型的语块,并对它们进行分类和归纳。
例如表示时间、表示数量、表示原因等等语块都有自己的特点和构成方法,通过对这些语块的分类和归纳,外语学习者可以更好地理解和记忆汉语语言规律。
第23卷 第5期2009年9月中文信息学报JOU RNAL OF CH INESE INFORM AT ION PROCESSIN GV ol.23,No.5Sep.,2009文章编号:1003-0077(2009)05-0053-09基于语义组块分析的汉语语义角色标注丁伟伟,常宝宝(北京大学计算语言学研究所,北京100871)摘 要:近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。
该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。
在新的方法中,语义角色标注的流程不再是传统的/句法分析)))语义角色识别)))语义角色分类0,而是一种简化的/语义组块识别)))语义组块分类0流程。
这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。
同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。
通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。
通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。
关键词:计算机应用;中文信息处理;语义角色标注;语义组块分析;条件随机域;序列标注中图分类号:T P391 文献标识码:AC hinese Semantic Role Labeling Based on Semantic C hunkingDING Weiwei,CHAN G Baobao(Institute of Computational Ling uistics,P eking U niver sity,Beijing 100871,China)Abstract:In recent years,the Chinese SRL (semantic ro le labeling )has a roused the intensiv e att ention.M any SRLsy stems have been built on the par sing tr ees,in w hich the constituents of the sentence str ucture are identified and then classif ied.In contrast,this paper establishes a semantic chunking based method which chang es the SRL task from the traditional /parsing -semantic ro le ident ificatio n -semantic ro le classificatio n 0pr ocess into a simple /semant ic chunk identification -semantic chunk classificatio n 0pipeline.T he semantic chunking,w hich is named after the syn -tactic chunking,is used to identify the semantic chunk,namely the arg uments of the v erbs.Based on the semant ic chunking result,the Chinese SR L can be changed into a sequence labeling pr oblem instead of the classificatio n prob -lem.W e a pply the co nditional r andom fields to the pr oblem and g et bet ter perfo rmance.A long w it h the remo val o f the parsing stage,the SRL task avoids the dependence o n parsing,which is alwa ys t he bottleneck both of speed and pr ecision.T he ex per iments hav e sho wn that the outper for ms of our appro ach pr evio usly best -r epo rted methods on Chinese SRL with an impressive time reduction.We also show that the pr oposed method w o rks much better on go ld wo rd seg mentat ion and P OS tag ging than o n the automatic r esults.Key words:co mputer application;Chinese info rmatio n pr ocessing ;semant ic ro le labeling;semantic chunking ;con -ditional r andom fields;sequence labeling收稿日期:2008-08-28 定稿日期:2008-10-09基金项目:国家自然科学基金资助项目(60303003);国家社会科学基金资助项目(06BYY 048)作者简介:丁伟伟(1985)),男,硕士生,主要研究方向为自然语言处理;常宝宝(1971)),男,副教授,主要研究方向为自然语言处理。
对外汉语口语语块研究述评引言语块是语言中的重要组成部分,它是一种固定的、连贯的语言单元,具有特定的语法和语义功能。
对外汉语口语语块研究作为中国对外汉语教学的一个重要领域,受到了广泛的关注和研究。
本文将对外汉语口语语块的研究进行述评并提出一些见解。
一、对外汉语口语语块的定义语块是指在交际中经常使用的具有语法功能和语义功能的固定的词语组合。
它是语言的基本组成部分,具有一定的稳定性和连贯性。
对外汉语口语语块是指在对外汉语交际中经常使用的固定词语组合,包括常用的问候语、感谢语、道歉语、表扬语、建议语等。
对外汉语口语语块的研究,旨在帮助学习者更好地理解和运用这些固定的词语组合,提高他们的口语表达能力和交际能力。
对外汉语口语语块可以根据其语法功能和语义功能进行分类。
按照语法功能的分类,可以分为主谓语块、宾补语块、时间状语块、地点状语块、方式状语块等。
按照语义功能的分类,可以分为问候语块、感谢语块、道歉语块、表扬语块、建议语块等。
这些分类有助于学习者更好地理解和掌握口语语块,并将其运用到实际的交际中去。
对外汉语口语语块的研究方法主要包括语料库研究、实验研究和调查研究。
语料库研究是通过收集大量口语语料,分析其中的语块使用情况,总结出常用的口语语块。
实验研究是通过设计实验,测试学习者对口语语块的掌握和运用情况。
调查研究是通过问卷调查和访谈调查,了解学习者对口语语块的认识和需求。
这些研究方法相互结合,可以全面地了解口语语块的使用情况和学习者的需求,为口语教学提供科学依据。
对外汉语口语语块的教学策略应该注重实践性和交际性。
教师应该引导学习者通过大量的口语交际实践,积累和掌握口语语块。
教师可以设计各种口语交际活动,让学习者在实际的交际中运用口语语块,提高他们的口语表达能力和交际能力。
教师还可以结合学习者的实际需求,设计个性化的口语语块教学方案,提高口语语块的学习效果和实际运用能力。
研究成果声明本人郑重声明:所提交的学位论文是我本人在指导教师的指导下进行的研究工作获得的研究成果。
尽我所知,文中除特别标注和致谢的地方外,学位论文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得北京理工大学或其它教育机构的学位或证书所使用过的材料。
与我一同工作的合作者对此研究工作所做的任何贡献均已在学位论文中作了明确的说明并表示了谢意。
特此申明。
签名:日期:关于学位论文使用权的说明本人完全了解北京理工大学有关保管、使用学位论文的规定,其中包括:①学校有权保管、并向有关部门送交学位论文的原件与复印件;②学校可以采用影印、缩印或其它复制手段复制并保存学位论文;③学校可允许学位论文被查阅或借阅;④学校可以学术交流为目的,复制赠送和交换学位论文;⑤学校可以公布学位论文的全部或部分内容(保密学位论文在解密后遵守此规定)。
签名:日期:导师签名:日期摘要在信息化的社会,人们越来越感受到计算机给生活带来的方便和快捷,越来越感受到网络给生活带来的及时和便利。
但是人们已经不满足于呆板的信息化处理,而需要更为人性化的、更为有效的各种信息。
在自然语言处理的各种应用中,包括信息检索、问答系统、机器翻译等,都迫切需要解决一个问题--理解,所以如何理解句子或文本的意思成为一个值得研究的课题。
文本蕴含关系的识别研究就是针对该类问题提出的。
本课题尝试使用基于词语重叠和机器学习相结合的方法对文本的蕴含关系进行判断识别。
在进行本研究前,我们首先按照规范化的格式收集并整理了一定量的语料库,一个语料就是一个<T,H>文本对。
在使用基于词语重叠的方法和使用机器学习的方法之前都首先需要对文本进行预处理,包括分词、无关信息过滤等。
并且最终测试是把基于词语重叠的方法不能判别的部分交由SVM分类器进行判别。
使用基于词语重叠的方法简单易行。
就是看文本T和假设文本H共有的词语占H中的词语的百分比,超过某个阈值我们认为是蕴含关系。
使用机器学习的方法主要是对文本相似度进行判别,还包括字词重叠,各种距离计算等。
中文句法树分析中的句法标注技术研究随着自然语言处理技术的日益发展,中文句法树分析技术已成为自然语言处理领域的热门研究方向之一。
中文句法树分析旨在将一句中文文本转化为一棵树状结构,以便计算机能够更好地理解并处理这段文本。
在中文句法树分析中,句法标注技术起着至关重要的作用。
句法标注是一种将单词标注为其所属于的句法类别的技术,包括名词、动词、形容词等等。
句法标注技术能够为句法分析提供必要的信息和指导,从而提高分析的准确性和效率。
在中文句法树分析中,采用的主要方法是依存句法分析。
依存句法是一种考虑语言中单词之间直接依存关系的句法分析方法。
该方法将一句话中的所有词语看作节点,并且将它们之间的关系视为有向边,构成一个有向图。
其中,每个节点代表一个单词,每一条边代表两个单词之间的依存语法关系。
在依存句法分析中,句法标注是一个必不可少的步骤。
因为对于同一个单词,其所表示的意义和语法功能会随着句子结构的不同而发生变化。
例如,在汉语中,“打”这个词可以既表示动词,又可以表示副词。
如果不进行句法标注,则无法准确地分析句子结构和语义。
中文句法标注技术主要分为字典匹配法和基于机器学习的方法两种。
字典匹配法是一种通过比对词性词典来进行的句法标注方法。
在进行分析时,系统会根据已有的词性词典对单词进行标注,然后根据规则对标注结果进行修正和优化。
这种方法简单高效,但是对于新词难以进行处理。
基于机器学习的句法标注方法则是近年来句法标注技术的主流研究方向。
该方法通过训练模型来自动标注单词的句法类别。
该方法首先需要构建训练数据集,然后利用一定的机器学习算法,如隐马尔可夫模型、条件随机场等,对数据集进行训练,最终得到一组较为准确的句法标注模型。
在实际运用中,可以利用训练好的模型对新的中文文本进行标注和分析。
总之,句法标注技术是中文句法树分析的重要环节。
采用适当的句法标注方法可以提高分析的准确性和效率,为中文语言处理的发展提供必要的支持和指导。
汉语不完全运动性失语症患者语块识别定量与定性研究作者:李美霞谢媛傅洁来源:《北京科技大学学报(社会科学版)》2015年第05期〔摘要〕研究采用定量与定性结合的研究方法,考察了汉语不完全运动性失语症患者语块识别能力以及造成他们语块识别能力低下的原因。
研究发现:(1)汉语不完全运动性失语症患者语块识别能力严重缺损,但患者语块听辨和视辨无显著差异;(2)患者语块识别能力缺损主要表现在转喻、隐喻、携带有态度意义的固定短语(成语、惯用语),以及具有否定意义的固定搭配的识别上;(3)患者识别名词词组类语块的能力与正常人差异不大;(4)造成患者语块识别能力低下的原因有两方面:(1)语块复杂的语法、逻辑及语义结构增加了患者的认知加工负担;(2)患者认知能力或概念整合能力受损使得语块识别任务难以完成。
该研究有助于我们进一步探究大脑损伤与语块结构的关联,补充和完善语言学相关理论,寻找如何将语块和失语症患者康复相结合的路径①。
〔关键词〕不完全运动性失语;语块识别;定量;定性〔中图分类号〕H0〔文献标识码〕A〔文章编号〕1008-2689(2015)05-0016-06一、引言Osgood & Miron[1](1)指出,不完全运动性失语是指“大脑第二和第三部分额叶受损而引起的部分语言障碍”。
语块则是指“日常使用的套话以及多少具备相对固定的句法和语篇结构的各种口头或书面话语”[2](145)。
在国内,失语症与语块作为两个平行的领域在各自展开研究。
失语症的研究可分为两大类,一类主要从总体上综述国内外失语症研究的现状[3][4],另一类则以具体的某类失语症为切入点进行研究,如失语症的各种障碍阐述[5][6][7],失语症的神经心理机制研究[8]。
语块的研究涉及外语和汉语界。
外语界的研究主要集中在以下若干方面,如语块研究进展综述[9],语块与学习者二语习得及教学研究[10][11],语块的心理加工机制分析[12]等。
中文词性标注中异构数据问题研究的开题报告一、选题背景和意义随着自然语言处理技术的发展,词性标注作为一项基础任务被广泛应用于自然语言处理领域,如机器翻译、文本分类、信息检索等。
词性标注的目的是为每个词汇赋予词性,方便后续的语言处理和分析。
然而,由于中文的复杂性,中文词性标注存在着许多挑战,其中之一即是异构数据问题。
异构数据问题指的是在标注数据中出现的同一词义所对应的词性不一致的现象,这会导致词性标注的误差率上升和模型性能下降。
针对这一问题,研究者们提出了各种方法和技术,但是目前仍缺乏系统的研究。
因此,本文将从中文词性标注异构数据问题的角度出发,研究这一问题的存在原因、表现形式、对词性标注的影响以及解决方法等问题,旨在提高中文词性标注的准确性和效率,为中文自然语言处理的发展做出一定的贡献。
二、研究内容和方法1. 研究现状分析:综述当前中文词性标注中异构数据问题的相关研究和成果,并归纳总结其中的不足和挑战。
2.数据分析与预处理:收集中文词性标注数据,对其进行预处理,分析异构数据的存在原因和表现形式。
3. 异构数据识别算法设计:基于机器学习方法,设计一种异构数据识别算法,通过对数据的特征抽取和模型训练,实现对异构数据的自动识别和分类。
4. 异构数据处理策略研究:探讨并设计一种合理的异构数据处理策略,包括对数据的修正和调整,以及模型的优化和改进等。
5. 实验评估和分析:使用不同的评价指标对异构数据识别和处理算法进行实验评估,分析识别和处理结果的准确性、效率和鲁棒性,并与已有研究成果进行对比分析。
三、预期成果本文的研究成果主要有以下预期结果:1. 对中文词性标注中异构数据问题的现状和挑战进行深入分析,明确该问题的存在原因和危害。
2. 提出一种方法和技术,对中文词性标注中异构数据进行自动识别和分类,有效提高词性标注的准确性和效率。
3. 基于实验评估和对比分析,验证所提方法和技术的有效性和可行性,为中文词性标注中异构数据问题的解决提供参考。
现代汉语介词短语边界识别研究
王立霞;孙宏林
【期刊名称】《中文信息学报》
【年(卷),期】2005(19)3
【摘要】汉语中介词结构右边界歧义是汉语结构歧义中最突出的现象之一,这给汉语的句法分析带来了很大的困难.本文研究的目标是:在不引进复杂的句法分析的前提下实现介词短语边界的自动识别,期望其作为句法分析预处理的一部分为句法分
析提供一定的帮助.本文对汉语中最常用的介词"在"进行了实验,封闭测试和开放测
试的准确率分别达到97%和93%.与前人的同类研究相比,准确率有了较大的提高,
解决了过去遗留的一些问题.
【总页数】7页(P80-86)
【作者】王立霞;孙宏林
【作者单位】北京语言大学,北京,100083;北京语言大学,北京,100083
【正文语种】中文
【中图分类】TP391
【相关文献】
1.现代汉语介词短语补语的划界问题浅析 [J], 李玲玉
2.现代汉语介词短语状补易位现象研究 [J], 张苗苗
3.试论"V不及物+NP"结构的生成机制
——兼议现代汉语"V+介词短语"结构 [J], 李昕妍
4.试论“V不及物+NP”结构的生成机制--兼议现代汉语“V+介词短语”结构 [J],
李昕妍
5.基于统计的介词短语边界识别研究 [J], 张坤丽;韩英杰;昝红英;袁应成
因版权原因,仅展示原文概要,查看原文内容请购买。
基于自学习的汉语开放域命名实体边界识别付瑞吉;秦兵;刘挺【期刊名称】《智能计算机与应用》【年(卷),期】2014(000)004【摘要】命名实体识别是自然语言处理领域的一个重要任务,为许多上层应用提供支持。
本文主要研究汉语开放域命名实体边界的识别。
由于目前该任务尚缺乏训练语料,而人工标注语料的代价又太大,本文首先基于双语平行语料和英语句法分析器自动标注了一个汉语专有名词语料,另外基于汉语依存树库生成了一个名词复合短语语料,然后使用自学习方法将这两部分语料融合形成命名实体边界识别语料,同时训练边界识别模型。
实验结果表明自学习的方法可以提高边界识别的准确率和召回率。
%Named entity recognition is an important task in the domain of Natural Language Processing,which plays an im-portant role in many applications.This paper focuses on the boundary identification of Chinese open -domain named enti-ties.Because the shortage of training data and the huge cost of manual annotation,the paper proposes a self -training ap-proach to identify the boundaries of Chinese open -domain named entities in context.Due to the lack of training data,the paper firstly generates a large scale Chinese proper noun corpus based on parallel corpora,and also transforms a Chinese dependency tree bank to a noun compound training corpus.Subsequently,the paper proposes a self -training -based ap-proach to combine the two corpora and train a model to identify boundaries of named entities.The experiments show the proposed method can take fulladvantage of the two corpora and improve the performance of named entity boundary identifi-cation.【总页数】5页(P1-4,8)【作者】付瑞吉;秦兵;刘挺【作者单位】哈尔滨工业大学计算机科学与技术学院,哈尔滨 150001;哈尔滨工业大学计算机科学与技术学院,哈尔滨 150001;哈尔滨工业大学计算机科学与技术学院,哈尔滨 150001【正文语种】中文【中图分类】TP391.12【相关文献】1.主动学习与自学习的中文命名实体识别 [J], 钟志农;刘方驰;吴烨;伍江江2.基于自学习的汉语开放域命名实体边界识别 [J], 付瑞吉;秦兵;刘挺;3.基于含边界词性特征的中文命名实体识别 [J], 邱莎;王付艳;申浩如;段玻;阿圆;丁海燕4.基于条件随机域的生物命名实体识别 [J], 彭春艳;张晖;包玲玉;陈昌平5.基于感知器的生物医学命名实体边界识别算法 [J], 胡俊锋;陈浩;陈蓉;谭斌;于中华因版权原因,仅展示原文概要,查看原文内容请购买。
结合实体边界线索的中文命名实体识别方法
黄蓉;陈艳平;扈应;黄瑞章;秦永彬
【期刊名称】《计算机工程与应用》
【年(卷),期】2024(60)6
【摘要】命名实体识别作为信息抽取领域的一个基础任务,能为机器翻译、关系抽取等下游任务提供有效支撑,具有重要的研究意义。
针对中文命名实体识别方法中存在的实体边界模糊的问题,提出了一种结合实体边界线索的命名实体识别模型,模型由边界检测、线索生成、实体分类三个模块组成。
利用边界检测模块识别实体边界。
在线索生成模块中依据边界信息生成实体跨度,得到带边界线索标签的文本序列,使模型通过边界线索标签感知句子中的实体边界,学习实体边界和上下文的语义依赖特征。
将带有边界线索标签的文本序列作为实体分类模块的输入,使用双仿射机制增强标签之间的语义交互,并结合双仿射机制与多层感知机的共同预测作为实体识别的结果。
该模型在ACE2005中文数据集和Weibo数据集上的F1值分别达到了90.47%和73.54%,验证了模型对中文命名实体识别的有效性。
【总页数】8页(P199-206)
【作者】黄蓉;陈艳平;扈应;黄瑞章;秦永彬
【作者单位】贵州大学公共大数据国家重点实验室;贵州大学计算机科学与技术学院
【正文语种】中文
【中图分类】TP391
【相关文献】
1.融合全局词语边界特征的中文命名实体识别方法
2.结合实体关联标注器的中文命名实体识别模型
3.结合实体标签的中文嵌套命名实体识别
4.道路预防性养护方法分析
5.联合实体边界检测的命名实体识别方法
因版权原因,仅展示原文概要,查看原文内容请购买。
基于深度学习的中文命名实体边界识别算法张子豪;李文敬;李双【期刊名称】《南宁师范大学学报(自然科学版)》【年(卷),期】2024(41)1【摘要】为了解决中文命名实体边界识别产生歧义和识别不准确的问题,提出了基于深度学习的中文命名实体边界识别算法。
对以“字”和“词”的中文实体边界识别方法存在的缺陷进行分析,根据句子中命名实体的位置编码原理,对每个命名实体的首尾位置添加标签,以划分每个实体的边界,同时用标签表示命名实体之间的关系,提出了基于位置标注的中文命名实体识别的词汇信息融合方法,并引入注意力机制对词汇信息融合模块进行改进。
利用深度学习的优势,将深度学习与词汇信息融合相结合,构建基于深度学习的中文命名实体词汇信息融合模型和基于深度学习的中文命名实体边界识别算法。
该算法在Resume等数据集上进行对比实验和消融实验,查准率为95.94%,查全率为96.46%,F1值为96.58%。
实验结果表明,该算法与Lattice等算法相比,准确率、查准率、F1值分别提高了1.13%、2.35%、2.12%。
该算法在解决目前中文命名实体识别存在的边界识别不准确和存在歧义的问题上更优。
【总页数】6页(P82-87)【作者】张子豪;李文敬;李双【作者单位】南宁师范大学计算机与信息工程学院;南宁师范大学物流管理与工程学院;上海师范大学信息与机电工程学院【正文语种】中文【中图分类】TP18;TP391.1【相关文献】1.基于深度学习的中文命名实体识别综述2.面向中文电子病历文书的医学命名实体识别研究——一种基于半监督深度学习的方法3.基于深度学习的中文命名实体识别最新研究进展综述4.基于分割注意力与边界感知的中文嵌套命名实体识别算法5.基于深度学习的中文命名实体快速识别研究因版权原因,仅展示原文概要,查看原文内容请购买。
融合词典信息和句子语义的中文命名实体识别王谭;陈金广;马丽丽【期刊名称】《计算机与现代化》【年(卷),期】2024()3【摘要】受益于深度学习技术的蓬勃发展,命名实体识别任务的性能也得到了进一步的提升。
然而,基于深度学习网络的模型的优秀性能严重依赖于大量的标注样本的支持,在缺少标注样本的小数据集上难以充分挖掘深层次信息,导致识别效果不佳。
基于以上问题,本文提出一种融合词典信息和句子语义的中文命名实体识别模型LS-NER。
首先,将字符在词典中匹配到的潜在词作为先验词汇信息供模型学习,应对中文分词问题。
然后,将用于计算文本相似度的带有语义信息的句子嵌入并应用到命名实体识别任务中,帮助模型从相似的句子中寻找相似实体。
最后,设计基于注意力机制思想的特征融合方式,使模型能够充分学习句子嵌入带来的语义信息。
实验结果表明,本文模型在小数据集Resume和Weibo上应用均达到了不错的性能,在未增加其他外部信息的前提下,句子语义能帮助模型学习到更深层次的特征,比未添加句子信息的模型的F1分数分别高出0.15个百分点和2.26个百分点。
【总页数】5页(P24-28)【作者】王谭;陈金广;马丽丽【作者单位】西安工程大学计算机科学学院【正文语种】中文【中图分类】TP391【相关文献】1.基于动态词典匹配的语义增强中文命名实体识别算法2.融合语义及边界信息的中文电子病历命名实体识别3.词典信息分层调整的中文命名实体识别方法4.融合字词语义信息的猕猴桃种植领域命名实体识别研究5.FCG-NNER:一种融合字形信息的中文嵌套命名实体识别方法因版权原因,仅展示原文概要,查看原文内容请购买。
汉语中“的”字短语右边界的识别
肖春;周经野
【期刊名称】《湘潭大学自然科学学报》
【年(卷),期】1999(21)2
【摘要】“的”字是现代汉语中的高频词.“的”字的作用主要是用来构成短语,我们称之为“的”字短语,它是现代汉语中最常见的短语.“的”字短语造成了汉语句子中丰富的层次和复杂的语义结构.汉语句子中很多的歧义结构也是由“的”字短语引起的.因此正确地分析“的”字短语的结构对于汉语句法分析和汉语理解是很重要的.要分析“的”字短语的语义结构必须首先识别出句子中的“的”字短语.当然,当“的”字以词的形式出现在句子中时,这个句子中就出现了一个“的”字短语.可是这个“的”字短语的右边界在那里呢?如何让计算机能够正确地识别出它的右边界呢?这个问题却迄今未见有文献涉及.该文对此进行了研究并提出了研究交提出了识别“的”字短语边界的算法.
【总页数】5页(P138-142)
【关键词】自然语言处理;语义结构;汉语;的字短语;右边界
【作者】肖春;周经野
【作者单位】湘潭大学计算机科学系
【正文语种】中文
【中图分类】TP391
【相关文献】
1.基于分类回归树CART的汉语韵律短语边界识别 [J], 钱揖丽;荀恩东
2.基于简单名词短语的汉语介词短语识别研究 [J], 桑乐园;黄德根
3.现代汉语介词短语边界识别研究 [J], 王立霞;孙宏林
4.基于神经元网络的汉语短语边界识别 [J], 奚晨海;孙茂松
5.汉语"的"字短语和韩国语"(翜)"字短语对比 [J], 崔美艳
因版权原因,仅展示原文概要,查看原文内容请购买。
第33卷 第2期2019年2月中文信息学报JOURNAL OF CHINESE INFORMATION PROCESSINGVol.33,No.2Feb.,2019文章编号:1003-0077(2019)02-0017-09中文句法异构蕴含语块标注和边界识别研究金天华1,姜姗1,于东1,2,赵美倩1,刘璐1(1.北京语言大学信息科学学院,北京100083;2.北京语言大学语言资源高精尖创新中心,北京100083)摘 要:文本蕴含是自然语言处理的难点,其形式、类型复杂,知识难以概括。
早期多利用词汇蕴含和逻辑推理知识识别蕴含,但该方法反对特定类型的蕴含有效。
近年来,利用大规模数据训练深度学习模型的方法在句级蕴含关系识别任务上取得优异性能,但模型不可解释,尤其是无法标定引起蕴含的具体语言片段。
该文研究文本蕴含成因形式,归纳为词汇、句法异构、常识和社会经验三类,并以句法异构蕴含为研究对象。
针对上述两个问题,提出句法异构蕴含语块的概念,定义其边界识别任务。
该文制定句法异构蕴含语块标注规范,建立标注数据集。
在此基础上,分别建立基于规则和基于深度学习的模型,探索句法异构蕴含语块的自动识别方法。
实验结果表明,该文提出的深度学习模型能有效发现蕴含语块,为下一步的研究提供可靠的基线方法。
关键词:文本蕴含;句法异构;语块标注中图分类号:TP391 文献标识码:AChinese Chunked-based Heterogeneous EntailmentParser and Boundary IdentificationJIN Tianhua1,JIANG Shan1,YU Dong1,2,ZHAO Meiqian1,LIU Lu1(1.College of Information Science,Beijing Language and Culture University,Beijing 100083,China;2.Beijing Advanced Innovation Center for Language Resources,Beijing Language andCulture University,Beijing 100083,China)Abstract:Textual entailment(RTE)is a challenging issue for natural language processing.This paper proposes tocategorize the textual entailment into three tyes:lexical entailment,chunked-based heterogeneous entailment andcommon-sense entailment.Focused on the concept of chunked-based heterogeneous,we further present a chunk an-notation standard and a labeled dataset.Then we explore the rule-based model and the deep learning model respec-tively for the automatic detection of the chunk entailments.The experimental results show that the deep learningmodel adopted in this paper can discover the entailment fragments effectively.Keywords:textual entailment;syntactic heterogeneous;chunks-labeling收稿日期:2018-09-29 定稿日期:2018-10-20基金项目:北京语言大学语言资源高精尖创新中心项目(TYR17001J);国家社会科学基金(16AYY007);中央高校基本科研业务费专项资金(北京语言大学梧桐创新项目:17PT05)0 引言文本蕴含定义为一对文本之间的有向推理关系[1],其中蕴含前件记作P(premise),蕴含后件记作H(hypothesis)。
文本蕴含识别(recognizing tex-tual entailment,RTE)是基于语义理解,对两个句子之间的蕴含和矛盾关系做出判断的任务。
文本蕴含作为语义理解的基础任务,可以建立起不同文本之间的语义推理关系网,促进关系识别、事件抽取、自动文摘等任务的发展,同时在问答系统、文本挖掘、阅读理解、信息检索等应用领域发挥关键作用。
文本蕴含识别早期的研究工作[2-4]多从词汇蕴含角度出发,探索近义词、上下位词、整体和部分等词汇关系在文本蕴含识别中的应用。
然而单纯词汇蕴含并不能完全涵盖文本蕴含的所有范畴。
目前对文本蕴含成因的定量研究仍处于初步阶段。
另一方面,近年来,随着SICK[5]、SNLI[6]、MultiNLI[7]等数中文信息学报2019年据集的提出,用机器学习方法建立end-to-end模型判断整句的句法蕴含关系成为研究热点[8-10]。
此类模型可以有效判断整句级别的蕴含关系,但无法确定引起蕴含的关键语块位置,其结果缺乏可解释性,因而大大削弱了其应用价值。
针对第一个问题,本文将蕴含成因归纳为词汇蕴含、句法异构蕴含、常识和社会经验三种类型。
我们翻译并校对了SNLI数据集中的3 766条蕴含句对数据,由人工对其蕴含成因类型进行标注,其中词汇蕴含仅占31.5%,说明词汇蕴含只是蕴含的一种类型。
常识和社会经验占比为29.1%,由于常识的概念模糊,包含的信息粒度大,因而不在本文讨论范围内。
标注结果中,句法异构导致的蕴含占比最多,达到占39.4%,故本文以此为研究对象。
所谓句法异构蕴含,是指通过语言的位移、添加、删除、替换等手段[11]对P的形式进行有选择的筛选和强调,得到H、P和H的句法变化,使得它们在语义上具有蕴含关系,则P和H是句法异构蕴含。
如下文T1、T2的两组例句就是句法异构蕴含。
值得一提的是,句法异构蕴含与复述有本质区别。
句法异构蕴含不追求语义信息的完整性和一致性。
分析发现,句法异构蕴含会保留或概括P中需要强调的、不可省略的部分,而删除不需要强调的部分。
例如,T1的H省略了P的地点状语“在蓝色卡车旁边”,突出强调了动词性谓语“拍摄”,这两句话具有句法异构蕴含关系。
T2的H省略了P的谓语“拍摄”和宾语“电影”,而H的谓语和宾语是由P的地点状语“在蓝色卡车旁边”充当。
P和H是句法异构的,它们之间也具有句法异构蕴含关系。
T1:P:一群人在蓝色卡车旁边拍摄电影。
H:一群人在拍摄电影。
T2:P:一群人在蓝色卡车旁边拍摄电影。
H:一群人在蓝色卡车旁边。
本文研究导致蕴含现象的句法异构类型,通过观察大量蕴含句对,分析归纳得出以下结论:句法异构类型分为结构变化和省略变化;结构变化又分为成分抽取、从句抽取、语序变化;省略变化分为省略修饰语和省略中心语。
针对第二个问题,本文需深入语料内部确定引起整句级别蕴含关系的关键语块,我们认为这些关键语块可以被称为句法异构蕴含语块。
语块的概念最早由Skehan提出[12],指兼具词汇和句法特征的半固定的语言结构。
在本文中,句法异构蕴含语块是P和H中句法成分或句法结构不同,且具有蕴含关系的部分。
蕴含语块可以是句中充当句法成分的词、短语,甚至是整个单句或者复句中的某个小句。
例如“香甜的苹果—苹果”“漫长的夜晚—夜晚”都属于从“adj+的+n”到“n”的变化,那么“adj+的+n”和“n”就分别是P和H的句法异构蕴含语块。
显然,句法异构蕴含语块的确认依赖于蕴含成因的研究。
从机器学习角度来说,句法异构蕴含语块的识别问题可以转化为边界识别问题。
本文主要采用深度学习模型,处理整合P和H的蕴含信息用于识别蕴含边界下标。
受Wang[13]的启发,我们利用match_LSTM计算获得包含P和H蕴含信息的表示向量,作为Ptr-Net的输入,进而寻找蕴含边界。
本文首先介绍国内外蕴含类型研究,在此基础上针对句法异构蕴含现象进行分析总结,归纳得到句法异构蕴含类型;接着介绍我们在蕴含语块标注方面的工作,从标注结果归纳得到一套简单有效的规则系统,并将该规则系统与深度学习模型应用于语块边界自动识别,分析比较两者在实验上的有效性,并对论文工作进行总结和展望。
1 相关工作现有的文本蕴含数据集都是为解决文本蕴含问题而开发的,并没有专门研究蕴含类型成因的数据集。
早期文本蕴含评测RTE-1至RTE-3[14-16]及SciTail[17]将文本蕴含视为二分类任务,句子对之间只存在蕴含和中立两种关系。
近年来的大规模数据集,如SNLI、MultiNLI等,把文本蕴含关系分为“蕴含”“矛盾”“中立”三种,以供学界研究文本蕴含的整体类型。
截止本文写稿期间,我们尚未看到单独讨论蕴含成因类型的研究和讨论句子内部导致蕴含关系的语言片段的研究。
在英文研究领域,Ido Dagan和Oren Glick-man[18]从宏观角度把英语蕴含关系分成五类:Ax-ion rule(公理),Reflexivity(自反性),Monotone ex-tension(单调性扩张),Restrictive extension(限制性扩张),Transitive Chaining(传递链)。
这些概念较为抽象,不便理解,在具体标注过程中难以实践。
在中文研究领域,RITE-3任务针对中文语料提出了19类蕴含现象和9类矛盾现象[19],包含了近义词、反义词、上下位词等词汇类别和从句、时态等句法类别。
任函[20]提出了面向汉语文本推理的语言现象标注类别,包含了20个类别的语言现象体812期金天华等:中文句法异构蕴含语块标注和边界识别研究系,同样包含了同义词(近义词)、上下位词、反义词等词汇类别,该类别体系以词汇为主,句法特征的内容不多,仅有一个结构变化,较为笼统。
以上研究是从语言学角度对蕴含类型进行区分,没有考虑数据的实际情况,容易出现某些类别数据稀疏的情况。
因此,本文将数据处理和蕴含类型相结合,利用现有数据集,深入语料寻找导致蕴含关系的语言片段,探究蕴含现象成因。
2 句法异构蕴含成因研究我们根据汉语句法特点把句法异构蕴含的成因归纳成两类:一,结构变化:成分抽取、小句抽取、语序变化;二,省略变化:省略修饰语、省略中心语。
这两个类别既可以独立存在,也可以同时存在。
句法异构蕴含成因类型汇总如表1所示。
表1 句法异构蕴含成因类型成因例句说明结构变化语序变化P:三个女人和一个小女孩在和小狗玩。