浅层语义分析
- 格式:pdf
- 大小:262.25 KB
- 文档页数:9
自然语言处理的语义分析与语义理解自然语言处理(Natural Language Processing, NLP)是人工智能领域的一个重要分支,致力于让计算机能够更好地理解和处理人类的语言。
而语义分析与语义理解是NLP中的两个核心任务,目的是从文本中提取出具体的语义信息,使计算机能够更深入地理解语言的含义,进而进行相关的处理和判断。
语义分析是一种以分析句子或文本的意思为目标的技术。
它主要包括了词法分析、句法分析和语义角色标注三个步骤。
词法分析是将文本切分成一个个单词,同时识别出不同单词之间的词性。
句法分析则是研究句子的结构和组成成分之间的关系,一般通过解析句法树来实现。
语义角色标注则是对句子中的名词、动词等进行标注,使计算机能够理解它们在句子中扮演的不同角色。
通过这些步骤,语义分析能够将句子中的词语和结构转化为计算机能够处理的形式,为后续的任务奠定基础。
语义理解是在语义分析的基础上,进一步理解和抽取句子或文本的语义信息。
它主要包括了命名实体识别、关系抽取和语义关联等处理。
命名实体识别是指从文本中识别出具有特定意义的实体,如人名、地名等。
关系抽取则是从文本中提取出实体之间的关系,如"张三是李四的朋友"中的关系是"朋友"。
而语义关联主要是通过分析句子或文本中的语义关系,找出它们之间的相似性或相关性。
这种处理可以帮助计算机更好地理解句子的含义,从而进行更进一步的应用。
语义分析与理解在自然语言处理中有着广泛的应用。
首先,在机器翻译中,语义分析与理解能够帮助计算机更好地理解源语言句子的含义,从而更准确地翻译成目标语言。
其次,在智能客服中,通过对用户问题的语义分析与理解,计算机可以更准确地理解用户的意图,提供更精确的回答。
再者,在信息检索中,语义分析与理解能够帮助计算机理解用户输入的查询意图,从而更好地匹配相关的文档或网页。
最后,在情感分析中,语义分析与理解能够捕捉句子或文本中的情感信息,帮助计算机判断其情感倾向。
中文语义处理刘挺车万翔哈尔滨工业大学计算机学院信息检索研究室1 引言语义是指词语的意义(词义)以及在句子中词语意义是如何相互结合以形成句子意义(句义)的。
我们先举一个例子,通过与语法的比较来说明什么是语义。
(1)红吃了一个他苹果。
(2)他吃了一个红喜悦。
(3)他吃了一个红苹果。
语法关心的是词语如何排列形成正确的句子,并决定每个词语在句子中充当的结构角色。
句子(1)的语法完全混乱了,无法理解;句子(2)语法是正确的,但“喜悦”是精神层面的事情,不能用颜色来限定,而且“吃”和“喜悦”也无法构成语义搭配关系,因此这个句子在句法上通顺,但是不能表达正确的语义。
句子(3)语法语义语用都通。
那么什么是词语的意义,什么又是句子的意义呢?作为计算机领域的研究者,我们更关心语义直接给出可操作的解释。
一个词在词典中可能有多个意思,比如“吃”有“吃食物”的意思,还有“吃掉棋子”的意思。
如果能够正确地判定一个词在某个特定的上下文中属于哪个意思,就认为我们识别了该词的意思,这就是词义消歧(Word Sense Disambiguation,简称WSD)。
一个句子,在我们识别了句子中每个词的意思之后,进而识别各词义之间的关系,把这个句子转换成一种逻辑表示形式(如一阶谓词),我们就认为分析出了句子的意思。
在句义方面目前的研究热点集中在浅层语义分析阶段,如语义角色标注(Semantic Role Labeling,简称SRL)上。
从理论上说,语义处理是让机器理解语言的关键,从应用上讲,语义处理是机器翻译、信息抽取和精准搜索的基石。
当前,在国际自然语言处理领域,语义处理已成为研究的热点。
2007年春,第四届国际语义评测研讨会SemEval-2007举行评测,这次评测包括19个任务,吸引了100多支队伍,超过125个单独的系统参加,体现出国际学术界对语义处理的高度关注。
本文受篇幅和主题的限制,将主要介绍中文语义处理,探讨存在的问题,供业内同行参考,而较少谈论英语等其他语言的情况,但介绍中文语义处理,并不限于大陆的情况,因为境外也有一些学者在做中文方面的研究。
自动浅层语义分析车万翔,刘挺,李生(哈尔滨工业大学计算机学院信息检索实验室,哈尔滨 150001)E-mail: {car, tliu, lisheng}@摘要全自动的语义分析一直是自然语言理解的主要目标之一。
通过深层语义分析,可以将自然语言转化为形式语言,从而使计算机能够与人类无障碍的沟通。
为达此目的,人们已经进行了多年的努力,然而目前取得的效果并不理想。
浅层语义分析是对深层语义分析的一种简化,它只标注与句子中谓词有关的成份的语义角色,如施事、受事、时间和地点等。
其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。
语义角色标注是浅层语义分析的一种实现方式,具有定义清晰,便于评价的优点。
本文描述了浅层语义分析现有的语料库资源,各种分析方法,以及我们的工作等。
并提出了对该任务一些难点问题的解决方案和对浅层语义分析发展的一个初步展望。
关键词:自然语言理解;浅层语义分析;语义角色标注;Shallow Semantic ParsingWanxiang Che, Ting Liu, Sheng Li(Information Retrieval Lab, School of Computer Science and Technology, Harbin Institute of Technology, Harbin150001)Abstract: Automatic semantic parsing is one of the main tasks for the natural language understanding. The natural language sentences can be translated into formal language by deep semantic paring. Consequently computer and human beings can communicate with each other freely. In order to achieve the dream, people have done lots of efforts for many years. However the results are not up to much. Shallow semantic parsing is a simplified form of deep semantic parsing. It only labels the constituents with semantic roles which have direct relation with the predicate in a sentence. The semantic roles include Agent, Patient, Temporal, Locative and so on. In addition, it can give great support to many NLP applications, such as information extraction, question and answering, machine translation and so on. Semantic role labeling (SRL) is one kind of shallow semantic paring. It is currently a well defined task with a substantial body of work and comparative evaluation. In the paper, we investigate the corpus for SRL, the paring methods, and our previous work. At last, some proposals to solving the difficulties in shallow semantic parsing and some future work are given.Kerwords: Natural language understanding; Shallow semantic parsing; Semantic role labeling0.引言所谓语义分析,指的是将自然语言句子转化为反映这个句子意义(即句义)的某种形式化表示。
nlp六个理解层次案例自然语言处理(NLP)涉及多个理解层次,下面我将为你提供六个案例,涵盖了NLP在不同层次上的应用:1. 词法分析(Lexical Analysis),在这一层次上,NLP被用于分析文本中的词汇。
例如,情感分析就是一个词法分析的案例,它可以帮助企业了解客户对其产品或服务的感受。
通过分析顾客在社交媒体上的评论,情感分析可以识别出积极、消极或中性的情绪,帮助企业调整营销策略或改进产品。
2. 句法分析(Syntactic Analysis),这一层次上的案例涉及理解句子的结构和语法。
一个典型的案例是问答系统,它可以理解用户提出的问题,并从文本中提取出答案。
通过句法分析,系统可以理解问题的语义结构,从而更准确地回答用户的问题。
3. 语义分析(Semantic Analysis),在语义分析层次上,NLP被用于理解文本的含义和语境。
一个案例是信息检索系统,它可以根据用户的查询理解文档的语义,并返回相关的搜索结果。
语义分析可以帮助系统更好地理解用户的意图,提高搜索结果的准确性。
4. 语篇分析(Discourse Analysis),在这一层次上,NLP被用于理解文本之间的逻辑关系和连贯性。
一个案例是自动摘要生成,它可以从长篇文章中提取出关键信息,生成简洁的摘要。
通过语篇分析,系统可以理解文本之间的逻辑关系,帮助用户更快地获取所需信息。
5. 语用分析(Pragmatic Analysis),在语用分析层次上,NLP被用于理解文本的语用学特征,如指代和推理。
一个案例是对话系统,它可以理解用户的指代和推理,更自然地进行对话。
通过语用分析,系统可以更好地理解用户的意图,提供更智能的交互体验。
6. 情感分析(Sentiment Analysis),最后一个案例是情感分析,它可以帮助企业了解客户对其产品或服务的感受,从而调整营销策略或改进产品。
情感分析可以识别出文本中的情感倾向,帮助企业更好地理解客户的需求和反馈。
中文语义角色标注研究概述南京师范大学文学院陈菜芳1摘要:语义角色标注是实现浅层语义分析的一种方式,在问答系统、机器翻译和信息抽取等方面得到了成功地应用,是目前自然语言理解领域中比较热门的一个研究方向。
本文介绍了中文语义角色标注语料资源、中文语义角色标注发展现状以及对中文语义角色标注未来工作进行了展望。
关键词:浅层语义分析语义角色标注资源语义角色标注0 引言语义角色的自动标注是对句子中谓词所支配的语义角色进行自动标注,是对句子进行浅层语义分析的一种方法。
语义角色标注技术在大规模语义知识库的构建、问答系统、机器翻译和信息抽取等领域都有着广泛的应用,其深入的研究对自然语言处理技术的整体发展有着重要意义。
下面主要从三个方面来介绍中文语义角色标注研究状况:首先,介绍相关的中文语义角色标注语料资源;其次,描述了中文语义角色标注的发展现状;最后,对中文语义角色标注未来的工作进行展望。
1 中文语义角色标注语料资源语义角色标注离不开语料资源的支持。
英语较为知名的语义角色标注资源有FrameNet、PropBank和NomBank等。
中文语义角色标注语料资源主要是从英语语义角色标注语料资源的基础上发展起来或参照其建设的。
Chinese Proposition Bank(CPB)同英文PropBank基本类似。
在CPB中,总共定义了20多个角色,只对每个句子中的核心动词进行了标注,所有动词的主要角色最多有6个,均以Arg0~Arg5和ArgM为标记,其中核心的语义角色为Arg0~5六种,其余为附加语义角色,用前缀ArgM表示,后面跟一些附加标记来表示这些参数的语义类别。
它几乎对Penn Chinese Treebank中的每个动词及其语义角色进行了标注,国内大多数语义角色标注研究都是基于此资源。
中文Nombank是在英文命题库(Proposition Bank)和Nombank的标注框架上进行扩展,对中文名词性谓词的标注。
自然语言处理技术的原理及应用自然语言处理(Natural Language Processing,NLP)是计算机科学领域的一项研究,旨在让计算机能够理解和处理自然语言文本。
自然语言是指人类日常交流所使用的语言,包括中文、英文、法文等多种语言。
NLP技术的应用范围拓宽了计算机在文字处理方面的能力,帮助人们更加高效地处理信息、交流和沟通。
本文将介绍NLP技术的原理及应用。
一、自然语言处理技术的原理NLP技术主要包括语言模型、语法分析、语义分析和机器翻译等模块。
语言模型是基于统计学习理论的自然语言处理技术,其目的是研究一种语言在出现某一个单词时,下一个单词出现的概率。
尤其是N-gram模型,通过运用统计技术概率推断出文本中单词之间的关系,从而达到模拟语言流程的目的。
语法分析是自然语言处理技术中的重要环节之一,其目的是对自然语言文本中的语法结构进行分析。
语法分析主要包括词法分析和句法分析两个环节。
其中,词法分析是将句子中的单词逐个识别出来,并去掉无关的单词,以获取句子的关键内容。
而句法分析则是对词法分析得到的单词进行语法解析和语义分析,包括分析句子中单词之间的依赖关系和语法结构。
语法分析技术对后续的文本处理至关重要。
语义分析是指对自然语言文本的意思和推理能力进行分析的技术。
语义分析的核心思想是通过对文本进行多维度理解,抽取相关信息,从而获取文本的内涵和外延。
可以将语义分析分为浅层语义和深层语义两个层次。
浅层语义着重于文本中词汇的词义分析和关系的挖掘,而深层语义则更加注重文本理解的深层次逻辑、推理和世界知识的结合,尤其是针对命名实体的自动识别。
机器翻译是利用计算机技术将一种语言的句子自动翻译成另一种语言的句子,是自然语言处理技术的重要应用。
机器翻译算法包括基于规则的翻译、基于统计学习的翻译和神经网络的翻译。
其中,神经网络的翻译技术受到广泛的关注和应用,它通过构建多层神经网络模型,从而提高翻译的准确性和效率。
舆情监控管理系统方案专业整理网络舆情监测系统解决方案一、背景概述随着互联网的快速发展,网络舆情监测已成为企业、政府等各个领域的必备工具。
网络舆情监测系统可以帮助用户快速、准确地获取关于自己及相关话题的信息,及时发现并解决潜在的危机。
二、建设必要性网络舆情监测系统的建设是企业、政府等各个领域应对网络舆情的必要措施。
通过建设网络舆情监测系统,可以有效地掌握网络舆情动态,及时发现并解决潜在的危机,保护企业、政府等各个领域的声誉。
三、建设目标本方案旨在建设一套高效、稳定、易用的网络舆情监测系统,实现以下目标:1.快速准确地采集网络舆情信息;2.智能化地处理信息,提高处理效率;3.全面分析舆情信息,提供科学决策支持;4.直观展示舆情信息,方便用户了解舆情动态。
四、核心技术本方案采用以下核心技术:1.数据采集技术:通过多种方式采集网络舆情信息,包括网络爬虫、RSS订阅等。
2.自然语言处理技术:对采集到的信息进行分词、情感分析等处理,提高信息处理效率。
3.机器研究技术:通过机器研究算法对舆情信息进行分类、聚类等处理,提高舆情信息的分析效率和准确度。
4.可视化技术:通过图表、地图等方式直观展示舆情信息,方便用户了解舆情动态。
五、系统架构本方案采用分布式架构,包括数据采集、数据处理、数据存储、数据展示等模块。
1.数据采集模块:采用多种方式采集网络舆情信息,包括网络爬虫、RSS订阅等。
2.数据处理模块:对采集到的信息进行分词、情感分析等处理,提高信息处理效率。
3.数据存储模块:采用分布式数据库存储数据,提高系统的可扩展性和可靠性。
4.数据展示模块:通过图表、地图等方式直观展示舆情信息,方便用户了解舆情动态。
六、工作流程本方案的工作流程如下:1.数据采集:通过多种方式采集网络舆情信息。
2.数据处理:对采集到的信息进行分词、情感分析等处理。
3.数据存储:将处理后的数据存储到分布式数据库中。
4.数据展示:通过图表、地图等方式直观展示舆情信息。
半监督学习和主动学习相结合的浅层语义分析
浅层语义分析是一种语言分析技术,它挖掘语句中的语义信息,从而实现文本
自动理解,以便更好地在后处理中使用数据和知识。
目前,浅层语义分析主要有两种主要学习方法:一种是基于半监督学习的浅层语义分析,这种方法主要是利用
已标记的文本信息来挖掘分类模型,然后再借助未标记的文本信息,对获得的模型进行调优获得更准确的分类。
另一种是基于主动学习的浅层语义分析,这种方法主要是利用已标记的文本信息来指导机器进行有意义的学习,以获得更准确的分类模型。
将这两种方法进行结合,就可以获得非常准确而丰富的浅层语义���析结果,它能够在一定程度上减少训练速度,因为主动学习可以帮助系统准确找到正确的分类模型,从而大大缩减了训练时间。
同时,这种结合也能够有效减少模型的精度,因为半监督学习可以利用大规模文本数据加以大规模优化,从而使模型的精度得到进一步提高。
结合这两种方法的浅层语义分析具有容易训练、高准确率、能够有效挖掘语义
信息等优点,被用于各种应用中,比如自动文本分类、检索服务、聊天机器人以及情感分析等等,都能获得良好的结果。
伴随着技术在不断更新,深度语义分析也能发挥更大的作用,从而提高应用的效率和准确率,并逐步替代传统的浅层语义分析。
作者简介及博士学位论文中英文摘要论文题目:融合多种谓词信息的语义角色标注方法研究作者简介:杨海彤,男,1986年1月出生,2011年9月师从于中国科学院自动化研究所宗成庆研究员,于2016年7月获博士学位。
中文摘要语义角色标注是一种自然语言处理领域的浅层语义分析技术。
它以句子为单位,分析句子中的谓词与其相关成分之间的语义关系,进而获取句子所表达语义的浅层表示。
由于语义角色标注可以提供较为简洁、准确、有益的分析结果,因此近年来受到了学术界的普遍重视,并已经成功地应用到信息抽取、自动问答、机器翻译等任务中。
在具体的实现中,语义角色标注以句子中的谓词为核心,分析句子中的其它成分与谓词之间的相互关系,因此谓词在句子的语义表达中处于核心的支配地位,其它成分均为谓词服务。
但在现有的大多数研究工作中,谓词的作用仅仅体现在论元分类时作为一种特征,这显然与谓词在谓词―论元结构中的支配地位相悖。
因此,本文的研究工作主要围绕如何深入挖掘谓词信息来改善现有的语义角色标注系统展开,本文重点关注了三种谓词信息:谓词先验信息、多谓词信息和双语谓词互补信息。
为合理利用这三种信息,本文提出了以下方法:1. 全局的语义角色标注生成式模型句子中的谓词与它的语义角色组成了一个统一的整体,相互之间存在着紧密的联系。
然而现有的语义角色标注系统却忽视谓词和语义角色之间的联系,每个候选论元的标注过程均独立进行,导致谓词与论元之间的关系也被割裂开来。
但是,谓词既有一定的共性,比如对每个谓词来讲核心论元均不重复出现,又有自己独有的特性,比如谓词“销往”总是伴随一个地点论元,这些现象表明了谓词与语义角色之间的紧密联系。
本文把这些联系看作是谓词的先验信息,合理地利用谓词的先验信息有利于提升语义角色标注系统的性能。
为融入谓词的先验信息,本文用一个新颖的概念来表达谓词和论元之间的联系,并在此基础上提出了一种全局的语义角色标注生成式模型进行求解。
实验结果表明,该方法可以有效地处理谓词与论元之间的联系,充分挖掘谓词本身的特性,使得语义角色标注系统的性能有显著的提升。
自动浅层语义分析车万翔,刘挺,李生(哈尔滨工业大学计算机学院信息检索实验室,哈尔滨 150001)E-mail: {car, tliu, lisheng}@摘要全自动的语义分析一直是自然语言理解的主要目标之一。
通过深层语义分析,可以将自然语言转化为形式语言,从而使计算机能够与人类无障碍的沟通。
为达此目的,人们已经进行了多年的努力,然而目前取得的效果并不理想。
浅层语义分析是对深层语义分析的一种简化,它只标注与句子中谓词有关的成份的语义角色,如施事、受事、时间和地点等。
其能够对问答系统、信息抽取和机器翻译等应用产生推动作用。
语义角色标注是浅层语义分析的一种实现方式,具有定义清晰,便于评价的优点。
本文描述了浅层语义分析现有的语料库资源,各种分析方法,以及我们的工作等。
并提出了对该任务一些难点问题的解决方案和对浅层语义分析发展的一个初步展望。
关键词:自然语言理解;浅层语义分析;语义角色标注;Shallow Semantic ParsingWanxiang Che, Ting Liu, Sheng Li(Information Retrieval Lab, School of Computer Science and Technology, Harbin Institute of Technology, Harbin150001)Abstract: Automatic semantic parsing is one of the main tasks for the natural language understanding. The natural language sentences can be translated into formal language by deep semantic paring. Consequently computer and human beings can communicate with each other freely. In order to achieve the dream, people have done lots of efforts for many years. However the results are not up to much. Shallow semantic parsing is a simplified form of deep semantic parsing. It only labels the constituents with semantic roles which have direct relation with the predicate in a sentence. The semantic roles include Agent, Patient, Temporal, Locative and so on. In addition, it can give great support to many NLP applications, such as information extraction, question and answering, machine translation and so on. Semantic role labeling (SRL) is one kind of shallow semantic paring. It is currently a well defined task with a substantial body of work and comparative evaluation. In the paper, we investigate the corpus for SRL, the paring methods, and our previous work. At last, some proposals to solving the difficulties in shallow semantic parsing and some future work are given.Kerwords: Natural language understanding; Shallow semantic parsing; Semantic role labeling0.引言所谓语义分析,指的是将自然语言句子转化为反映这个句子意义(即句义)的某种形式化表示。
即将人类能够理解的自然语言转化为计算机能够理解的形式语言,做到人与机器的互相沟通。
对句子进行正确的语义分析,一直是从事自然语言理解研究的学者们追求的主要目标。
然而,限于目前的技术水平,深层的语义分析很难做到。
人们目前更关心“浅层语义分析(Shallow Semantic Parsing)”,一种简化了的语义分析方式。
它不考虑时态信息,例如“他将来北京。
”与“他来北京了。
”,虽然时态并不相同,但是浅层语义表示是相同的,同为:“来(他,北京)”。
同时,浅层语义分析也不考虑谓词改变但语义不变的情况,例如“他出生于1969年3月18日。
”与“他的生日是1969年3月18日。
”,虽然它们的语义相同,但是浅层句法分析的表示结果并不一样,需要根据具体的应用进行更深入的处理。
最后,浅层语义分析不考虑人、物的指代等情况。
语义角色标注(Semantic Role Labeling)是浅层语义分析的一种实现方式,具有分析任务定义明确,便于评价等优点。
该方法并不对整个句子进行详细的语义分析,而只是标注句子中的一些成份为给定谓词(动词、名词等)的语义角色(参数),这些成分作为此谓词框架的一部分被赋予一定的语义含义,例如“[委员会Agent][明天Tmp]将要[通过V][此议案Patient]。
”其中,“通过”为谓词,“委员会”、“此议案”和“明天”分别是其施事、受事和发生的时间。
这句话也可以表示成:[明天Tmp] [委员会Agent]将要[通过V][此议案Patient]。
[明天Tmp] [此议案Patient]将要被[委员会Agent] [通过V]。
[此议案Patient] [明天Tmp]将要被[委员会Agent] [通过V]。
……这些句子虽然形式不同,但是它们的含义是一样的,也就是说谓词“通过”的各个参数相同。
进行语义角色标注的基础技术,如词性标注、句法分析、命名实体识别、统计机器学习等目前已经比较成熟。
同时其在问答系统、信息抽取、机器翻译等领域有着广泛的应用12 3。
以问答系统为例,语义角色标注指明某一活动发生的时间、地点等语义角色,自然的可以对这些类问题进行回答。
因此目前语义角色标注引起了越来越多从事自然语言理解研究和应用的学者们的重视。
本文在接下来的部分首先介绍目前较为成熟的语义角色标注语料库以及这些语料库各自的特点;接着介绍了国际上相关的评测;然后,我们给出了目前进行语义角色标注的一些方法,以及我们的工作;最后,展望了今后语义角色标注技术的发展趋势。
1.语料资源要想进行语义角色标注,需要好的语料资源的支持。
目前,英语较为知名的浅层语义分析资源为FrameNet45、PropBank67和NomBank89。
其中,U.C.Berkeley开发的FrameNet以框架语义10为标注的理论基础对英国国家语料库进行标注。
它试图描述一个词汇单元(动词和部分名词以及形容词)的框架,同时也试图描述这些框架之间的关系。
PropBank是UPenn在Penn TreeBank句法分析的基础上,标注的浅层语义信息。
与FrameNet不同的是,PropBank只对动词(非系动词)进行标注,相应的被称作目标动词。
与FrameNet 相比,PropBank 基于Penn TreeBank 手工标注的句法分析结果,因此标注的结果几乎不受句法分析错误的影响,准确率较高;而且它几乎对Penn TreeBank 中的每个动词及其语义角色进行了标注,因此覆盖范围更广,可学习性更强。
与PropBank 标注Penn TreeBank 中的动词做谓词不同,NomBank 标注了其中的名词作谓词的情况,参数的类别和表示同PropBank 是一样的。
例如:名词短语“John’s replacement Ben ”和“Ben’s replacement of John ”中,名词replacement 便是谓词,Ben 是ARG0,表示替代者,John 是ARG1表示被替代者。
除英语外,许多其它语言也建立了各自的语义角色标注库,例如:SALSA 11是德语版的FrameNet ;Prague Dependency Treebank 12项目进行了大量的句法和语义标注(捷克语),甚至包括指代消解的标注等;Chinese PropBank 13以及Chinese NomBank 14分别是Upenn 基于Chinese Penn TreeBank 15标注的,和PropBank 以及NomBank 对应的,并且动词和名词作谓词的汉语语义角色标注资源。
2.语义角色标注评测2.1评价方法在语义角色标注中,通常采用信息检索中使用的F-Score 来评价系统的性能,定义为:Recall Precision Recall *Precision *2Score F +=− 其中Precision 是准确率,Recall 是召回率,定义分别为:总数分类器预测为语义角色个数正确标注为语义角色的=Precision ,数测试数据中语义角色总个数正确标注为语义角色的=Recall 2.2国际评测对于语义角色标注,国际上曾经举行过三次评测,分别为Senseval-316 以及CoNLL(Conference on Computational Linguistics Learning)会议主办的SRL(Semantic Role Labeling) Share Task 200417以及200518。
其中Senseval-3是以FrameNet 为训练和测试语料;而CoNLL Shared Task 则是以PropBank 为语料库。
2004年来自Colorado University 的Hacioglu 等人19,采取以短语为标注单元,语义角色识别和分类分步进行的策略,使用SVM 算法在不使用全局特征的条件下,获得了最好的标注结果,测试集合的F-Score 达到了69.49%;2005年来自UIUC 的Koomen 等人20使用SNoW 分类器,综合多种深层句法分析的输出结果,加上使用整数线性规划(Integer Linear Programming)的后处理方法,取得了最好的成绩,测试集合的F 值达到了79.44%。