基于最大熵原则的汉语语义角色分类
- 格式:pdf
- 大小:346.16 KB
- 文档页数:8
国家自然科学基金(61003160)、863计划(2011AA01A207)和中国科学院西部行动计划项目(KGZD-EW-501)资助收稿日期: 2013-06-15; 修回日期: 2013-09-25; 网络出版时间:北京大学学报(自然科学版)Acta Scientiarum Naturalium Universitatis Pekinensisdoi: 10.13209/j.0479-8023.2014.021基于最大熵的汉语篇章结构自动分析方法涂眉† 周玉 宗成庆中国科学院自动化研究所模式识别国家重点实验室, 北京100190; † 通信作者, E-mail: mtu@摘要 在标有复句逻辑语义关系的清华汉语树库上, 研究汉语篇章语义片段自动切分以及篇章关系的自动标图1 汉语中逻辑关系的例子Fig.1 An example of Chinese rhetorical relationship2013-11-08 09:26网络出版地址:/kcms/detail/11.2442.N.20131108.0926.001.html北京大学学报(自然科学版)2的片段之间形成转折关系, 然后它们连接起来再与跨度3形成连贯关系。
最近20年, 随着互联网和计算机技术的高速发展, 依赖于篇章分析和理解的应用不断涌现, 如基于篇章的自动文摘、自动问答以及自动翻译等, 日益凸显出研究篇章分析的重要性和急迫性。
以汉英机器翻译为例, 输入图1中的汉语文本, 由Google在线翻译系统得到的翻译结果为: 1) Although thepopulation ofFijiare very differentbet- ween the two countries; 2) but have much in common;3) with good conditions forthe development of frien- dlycooperationand infrastructure。
基于最大熵的中文词语情感分析研究作者:王磊来源:《计算机时代》2018年第12期摘; 要:情感词在文本情感分析中处于举足轻重的地位,词语情感倾向的不确定性会受到词语上下文环境的影响。
针对词语上下文环境,提出一种基于最大熵模型的词语情感倾向分析方法,从词语上下文中提取词语特征、词语关系特征、词语语义特征和词语情感特征,采用最大熵模型来识别词语的情感倾向,并利用平滑技术解决特征稀疏问题。
同时,利用词语与句子之间的情感联系,进一步消除词语情感倾向的不确定性。
实验结果表明,该方法在词语情感倾向识别上取得了令人满意的效果。
关键词:情感分析; 最大熵; 语义特征; 情感倾向中图分类号:TP391; ; ; ; ; 文献标志码:A; ; ;文章编号:1006-8228(2018)12-07-05Abstract: Emotion words with sentiment polarity play important roles in text sentiment analysis. Uncertainties of sentiment polarity of words are affected by their contexts. In light of these contexts,a method is put forward in this paper to analyze sentiment polarity of words based on maximum entropy models. Features of words, relationships of words, semantic features and emotional characteristics of words are extracted from contexts. Then, sentiment polarity of words is identified by maximum entropy models, and problems concerning sparse features are solved by smoothing techniques. In the meantime, uncertainties of sentiment polarity of words are further eliminated by emotional connections between words and sentences. Experimental results show that this method achieves satisfactory effects in recognizing sentiment polarity of words.Key words: sentiment analysis; maximum entropy; semantic feature; sentiment polarity0 引言信息技术的发展使得人类交流方式发生了巨大改变,越来越多的用户正不断通过互联网相互交流,从而获取个人所需信息。
基于最大熵模型的中文词与句情感分析研究*董喜双,关毅,李本阳,陈志杰,李生哈尔滨工业大学,哈尔滨,150001dongxishuang@, guanyi@, libenyang012566@, ruoyu_928@,lisheng@摘要:本文将研究焦点对准喜、怒、哀、惧四类情感分析问题,重点解决中文词、句的情感分析问题。
将词的情感分析处理为候选词情感分类问题。
首先通过词性过滤获得候选词,进而根据特征模板获取候选词情感特征,然后应用最大熵模型判断候选词情感类别,最后应用中性词典、倾向性词典、复句词表、否定词表过滤候选情感词分类错误得到情感词集合。
句的情感分析首先根据情感词典和倾向词典提取词特征,并采用规则提取词序列特征,然后采用最大熵模型对句子进行情感分类。
在COAE2009评测中词与句情感分析取得较好结果。
关键词:情感分析;情感极性;最大熵;分类;Sentiment Analysis on Chinese Words and Sentences Based on Maximum Entropy ModelDong Xi-Shuang, Guan Yi, Li Ben-Yang, Chen Zhi-Jie, Li ShengHarbin Institute of Technology, Harbin 150001dongxishuang@, guanyi@, libenyang012566@, ruoyu_928@,lisheng@Abstract: This paper presents a method to analyze sentiments on Chinese words and sentences, where the sentiments include happy, angry, sad, and fear. In the case of words, sentiment analysis was processed as the sentiment classification of candidate words. The candidate words were firstly obtained by POS filtering, then Maximum Entropy (ME) model was adopted to judge sentiment categories of the words, which sentiment features were gained with feature templates. Finally, errors in the word classification would be removed through filtering with a neutral lexicon, a sentiment polarity lexicon, a connective word list of complex sentences, and a negative word list. In the case of sentences, word features in sentences were extracted on the basic of the sentiment lexicon and the sentiment polarity lexicon, and word sequence features were extracted by rules while processing sentiment analysis on sentences, then ME model was used to classify the sentences. Good performance of sentiment analysis was gained in COAE 2009.Keywords: Sentiment Analysis, Sentiment Polarity, Maximum Entropy, Classification1 引言情感分析的主要任务为识别文本对某一事物的观点[1]。
基于最大熵模型的中文实体关系识别研究中文实体关系识别一直是自然语言处理领域中的一个重要研究方向。
实体关系识别是指从文本中抽取出实体之间的关系,并将其划分为不同的类别。
例如,在一篇新闻报道中,我们可以通过实体关系识别的技术来确定某个公司是否收购了另一个公司,两家公司之间是否存在控股关系等等。
在实体关系识别中,最大熵模型(ME)是一种非常受欢迎的机器学习算法。
相比于传统的统计学习模型,ME模型在处理文本分类等问题上具有较高的准确率和泛化性能。
如何用最大熵模型来实现中文实体关系识别呢?首先,我们需要将自然语言文本中的每个词标注为一个实体,并确定它们之间的关系。
这一过程可以通过选定合适的特征来实现。
特征可以是字符级别的、词级别的,还可以考虑词性、依存句法等方面。
假设我们的训练数据中有一个包含两个实体的文本片段:“阿里巴巴收购盒马鲜生”。
我们可以将其中的“阿里巴巴”和“盒马鲜生”标注为实体,同时将它们之间的关系标注为“收购”。
接着,我们可以提取出与这两个实体相关的特征,例如:•“阿里巴巴”和“盒马鲜生”是否出现在同一个句子中;•“阿里巴巴”和“盒马鲜生”之间是否存在物理距离;•“阿里巴巴”和“盒马鲜生”是否属于同一类实体(如企业、人物等);•“收购”这个词是否出现在“阿里巴巴”和“盒马鲜生”之间。
然后,我们使用最大熵模型对这些特征进行训练,并得到一个用于分类的模型。
在实际应用中,最大熵模型的优点非常明显。
首先,它可以处理非常复杂的文本特征,从而提高了模型的准确率和泛化性能。
其次,最大熵模型可以处理大规模的数据集,并且针对数据集的维度不会产生过拟合的问题。
当然,最大熵模型也存在一些限制和挑战。
一个重要的问题是如何选定合适的特征集,这需要对语言和领域有相当充分的理解和经验。
此外,最大熵模型的训练结果在一定程度上依赖于训练数据的质量和规模。
总的来说,基于最大熵模型的中文实体关系识别研究已经取得了非常不错的进展。
基于最大熵模型的文本分类技术研究近年来,随着互联网信息时代的到来,数据的爆炸式增长成为了大数据时代面临的一个突出问题。
数据积累到一定阶段后,数据量的增长导致数据处理效率低下,而传统的人工分类方式又已经无法满足需求。
因此,研究基于最大熵模型的文本分类技术成为了一个热点话题。
最大熵模型是一种基于概率模型的机器学习算法,具有很强的自适应性和泛化能力。
最大熵文本分类算法的主要原理是将文本特征上的信息熵最大化,从而得到最优的分类模型。
一、最大熵文本分类算法的原理最大熵模型中的“最大熵”意味着选取条件下的不确定性最大。
最大熵模型的关键在于熵(Entropy)和信息增益(Information gain)。
熵是信息理论中的一个概念,指的是不确定性的度量。
而信息增益则是指通过一个特征的使用,引起原本不确定性的下降的程度。
最大熵文本分类将文本分为若干类别,通过一定的特征提取和特征选择,将每个文本转化为一个特征向量。
特征向量中的每个分量对应于一个特征属性,取值为一定的实数。
在分类模型学习过程中,需要确定一个分类器,使得分类器可以准确分类新出现的文本。
而分类器的效果好坏,取决于特征的选取和分类的模型选择两个方面。
二、最大熵文本分类算法的实现过程最大熵模型是一种典型的概率模型,分类器的学习即是根据训练集通过极大似然估计来估计模型参数。
最大熵模型的参数是由条件概率分布得到的,学习的目标就是寻求一个最优的条件概率分布,使得该分类器的正确率最高。
在实际应用中,将一个文本转化为特征向量后,可以用贪心算法对于文本进行分类。
具体而言就是对于每个文本进行判断,利用当前模型估计其所有类别的概率,并将概率最大的类别视为其所属类别。
三、最大熵文本分类算法的应用与优缺点最大熵文本分类算法可以广泛应用于垃圾邮件过滤、商品推荐、舆情分析等领域。
在处理海量数据中的文本分类问题时,最大熵文本分类算法具有以下优点:首先,最大熵模型基于特征选择,可以提高文本分类效果。
基于隐最大熵原理的汉语词义消歧方法张仰森;黄改娟;苏文杰【期刊名称】《中文信息学报》【年(卷),期】2012(026)003【摘要】该文针对最大熵原理只能利用上下文中的显性统计特征构建语言模型的特点,提出了采用隐最大熵原理构建汉语词义消歧模型的方法.在研究了《知网》中词语与义原之间的关系之后,把从训练语料获取的文本上下文中的词语搭配信息转换为义原搭配信息,实现了基于义原搭配信息的文本隐性语义特征提取方法.在结合传统的上下文特征后,应用隐最大熵原理进行文本中多义词的词义消歧.实验结果表明,采用文中所提方法对十个多义动词进行词义消歧,正确率提高了约4%.%We present a new approach to Chinese word sense disambiguation based on latent maximum entropy prin-ciple( LME), which is different from Jaynes' maximum entropy principle that only use the context statistical characteristics to construct language model. After studying the relationship between the word and the sememe in Hownet, we convert the word collocation that obtained from the context of training corpus into the sememe collocation, and realize the extraction of text Latent semantic features based on sememe collocations. Combined with the traditional context features, the latent maximum entropy principle is applied to disambiguate polysemy words. Experimental results show that the method proposed improves the accuracy by about 4% in the sense disambiguation of 10 polyse-mous verbs word.【总页数】7页(P72-78)【作者】张仰森;黄改娟;苏文杰【作者单位】北京信息科技大学智能信息处理研究所,北京100192;北京信息科技大学智能信息处理研究所,北京100192;北京信息科技大学智能信息处理研究所,北京100192【正文语种】中文【中图分类】TP391【相关文献】1.基于最大熵模型的汉语词义消歧与标注方法 [J], 张仰森2.基于最大熵原理的汉语词义消歧 [J], 陈笑蓉;秦进3.汉语复句中基于依存关系与最大熵模型的词义消歧方法研究 [J], 李源;翟宏森;刘凤娇;黄文灿;杨梦川4.一种基于语义搭配的汉语词义消歧方法 [J], 陈佳;罗振声5.基于义原关系的多策略汉语词义消歧方法 [J], 车超;金博;滕弘飞;屈福政因版权原因,仅展示原文概要,查看原文内容请购买。
基于最大熵模型的汉语词性标注研究的开题报告一、课题背景和意义随着自然语言处理技术的不断发展和应用,对汉语的语言分析需求也日益增长,其中词性标注是其中一个重要的语言分析任务。
词性是指词语所具有的语法范畴和语义类别,词性标注是指给定一个句子,将句子中的每个词语标记出其所属的词性类别,是文本处理、信息检索、语音识别等领域的基础技术之一。
目前,汉语词性标注已经成为NLP领域中的研究热点之一,常常作为其他任务的前置处理,如命名实体识别、文本分类、信息抽取等。
而最大熵模型由于其高效性、准确性和较好的可解释性,已被广泛应用于自然语言处理中,包括词性标注、命名实体识别、文本分类等任务。
无论是在学术界还是工业界,最大熵模型都是自然语言处理中的重要技术之一。
本研究旨在探究基于最大熵模型的汉语词性标注算法,提高该算法的标注准确率,为汉语自然语言处理的研究和应用提供技术支持。
二、研究内容和方法本研究将采用最大熵模型对汉语句子进行词性标注,具体研究内容包括:1. 研究最大熵模型的基本原理及其在词性标注中的应用。
2. 研究汉语词性标注中的特征选取方法和特征模板设计,探究不同特征组合对词性标注效果的影响。
3. 实现基于最大熵模型的汉语词性标注算法,并与其他词性标注算法在不同数据集上进行比较和分析。
具体的研究方法包括:1. 阅读汉语词性标注相关文献,并了解最大熵模型的基本原理和应用情况。
2. 针对汉语词性标注中的特征选取和特征模板设计问题,分析现有算法中采用的特征和模板,结合最大熵模型特性,提出适用于汉语词性标注的特征选取和特征模板设计方法。
3. 根据上述方法,开发基于最大熵模型的汉语词性标注算法,并使用不同数据集进行测试和评估。
三、预期成果和意义本研究的预期成果包括:1. 提出适用于汉语词性标注的特征选取和特征模板设计方法,用以改进现有的词性标注算法,并提高算法的准确率和鲁棒性。
2. 实现基于最大熵模型的汉语词性标注算法,并通过实验验证其效果。
收稿日期:2003-07-16;修订日期:2003-09-23 基金项目:国家自然科学基金资助项目(69975008);国家973规划资助项目(G1998030507) 作者简介:林红(1966-),女,福建仙游人,工程师,主要研究方向:中文信息处理、数据分析; 苑春法(1946-),男,河北曲阳人,教授,主要研究方向:中文信息处理、信息抽取; 郭树军(1968-),男,河北邯郸人,副高级工程师,主要研究方向:数据分析和挖掘.文章编号:1001-9081(2004)01-0014-03基于最大熵方法的汉语词性标注林 红1,苑春法2,郭树军1(1.河北省气象局省气象台,河北石家庄050021; 2.清华大学计算机科学与技术系,北京100084)(linhong78426@ )摘 要:最大熵模型的应用研究在自然语言处理领域中受到关注,文中利用语料库中词性标注的上下文信息建立基于最大熵方法的汉语词性系统。
研究的重点在于其特征的选取,因为汉语不同于其它语言,有其特殊性,所以特征的选取上与英语有差别。
实验结果证明该模型是有效的,词性标注正确率达到97.34%。
关键词:语言模型;最大熵模型;词性标注中图分类号:TP182;TP391.1 文献标识码:AA Chinese Part of Speech T agging MethodB ased on Maximum Entropy PrincipleL IN Hong 1,YUAN Chun 2fa 2,GUO Shu 2jun(1.Hebei Meteorological Observatory ,Hebei Meteorological B ureau ,S hijiaz huang Hebei 050021,China ;2.Depart ment of Com puter Science and Technology ,Tsinghua U niversity ,Beijing 100084,China )Abstract :A lot of researches have been made on the application of the maximum entropy modeling in the natural lan 2guage processing during recent years.This paper presents a new Chinese part of speech tagging method based on maximum entropy principle because Chinese is quite different from many other languages.The feature selection is the key point in this system which is distinct from the one used in English.Experiment results have shown that the part of speech tagging accura 2cy ratio of this system is up to 97.34%.K ey w ords :language model ;maximum entropy ;part of speech tagging1 引言目前汉语的词性标注基本上采用二元语法模型[1]和三元语法的隐马尔可夫模型,它们虽然也都有较好的标注效果,但由于预测信息的不足,对词性标注,特别是未登录词的词性标注精度影响很大,在上述模型中一般对未登录词的词性采用猜测(如猜测为名词)的方法。
最大熵模型算法在文本分类中的应用文本分类是指将文本按照其主题、内容等分类归纳的过程,是信息检索和自然语言处理中非常重要的一项任务。
在海量数据和信息的时代,自动文本分类成为一种必不可少的技术。
最大熵模型是文本分类中常用的一种方法,本文将介绍最大熵模型算法以及它在文本分类中的应用。
一、最大熵模型算法的原理最大熵模型算法是一种统计学习方法,在文本分类中广泛应用。
其原理是基于最大熵原理,即对于已知的样本数据,保持不可知的部分的信息熵最大。
最大熵模型的推导过程非常复杂,这里不做介绍,感兴趣的读者可以查阅相关资料。
最大熵模型算法将文本分类问题转化为一个数学模型,即给定一个文本,如何判断其属于哪个类别。
在建立模型时,需要首先选取一些特征,然后根据训练数据,计算每种特征与每个类别之间的相关性,并得到一个权重值。
最后,根据权重值,对一些未知样本进行分类。
二、最大熵模型算法在自然语言处理中被广泛应用,尤其是文本分类方面。
下面介绍一些常见的文本分类场景。
1. 新闻分类新闻分类是将新闻按照类别进行分类,如体育、军事、财经等。
最大熵模型可以对新闻文本进行特征提取,然后由模型判断其属于哪个类别。
如果训练数据足够丰富,就可以得到较高的分类准确率。
2. 情感分析情感分析是对文本中所表达的情感进行分类,如积极、消极、中性等。
最大熵模型可以通过对语义特征的提取和挖掘,对文本中的情感进行分析和分类。
例如,可以从某个句子中提取关键词或词语,然后根据这些关键词或词语的语义,判断其所表达的情感。
3. 舆情分析舆情分析是对社会热点事件进行情感分析,并对事件的走向进行预测。
最大熵模型可以通过对大众对某个事件的态度进行分析,对事件的发展趋势进行预测和判断。
例如,可以对网站上的评论进行分析和分类,从而得出大众对某个事件的态度和看法。
三、最大熵模型算法的优缺点最大熵模型算法有如下优点:1. 最大熵模型能够在多种特征下进行处理,有很好的通用性。
2. 可以选择不同的特征组合,以适应不同的应用场景,具有灵活性。
第22卷 第6期2008年11月中文信息学报J OU RNAL OF CH IN ESE IN FORMA TION PROCESSIN GVol.22,No.6Nov.,2008文章编号:100320077(2008)0620020207基于最大熵原则的汉语语义角色分类丁伟伟,常宝宝(北京大学计算语言学研究所,北京100871)摘 要:语义角色标注是近些年来兴起的自然语言处理的一个新的研究领域。
与英语方面的研究相比,汉语方面的工作还不是很充分。
该文在参考已有工作的基础上,基于最大熵原则,对汉语语义角色标注中的一个方面———语义角色分类进行了深入的研究。
在提出了一些新的特征之后,该文还充分利用了语义角色之间的相关性,提取语义角色的上下文特征,从而提高标记的准确率;此外,通过对不同特征的单独研究,笔者发现了不同特征取得最优值时的窗口大小差别很大。
发现这一现象后,笔者设计了一种基于贪心策略的选择算法,对不同的特征选择不同的窗口大小,使得标记结果进一步提高。
在综合采用了以上的策略之后,笔者的汉语语义角色分类系统可以达到95.00%的准确率,比前人有较为显著的提升。
从而证明了笔者的方法是有效的。
关键词:计算机应用;中文信息处理;语义角色分类;最大熵;特征;上下文;窗口;贪心策略中图分类号:TP391 文献标识码:AMaximum E ntropy 2B ased Semantic Role Classif icationDIN G Wei 2wei ,CHAN G Bao 2bao(Institute of Computational Linguistics ,Peking University ,Beijing 100871,China )Abstract :The semantic role labeling (SRL )is a new research area of natural language processing in recent pared to the study in English ,Chinese SRL is still in its infancy stage.In this paper ,we focus on the semantic role classification (SRC ),one key step of SRL.Besides introducing some new features ,we also explore the inter 2dependence of the semantic roles.We employ the context features to improve the performance of the semantic role classification.And a greedy algorithm is designed to select the different windows of the context for different feature templates ,since the highest performance can be achieved with different window sizes for different feature templates.In the experiments ,the precision of our SRC system can achieve 95.00%,proving the validness of our approach.K ey w ords :computer application ;Chinese information processing ;semantic role classification ;maximum entropy ;features ;context ;window ;greedy 2strategy收稿日期:2008206205 定稿日期:2008209202基金项目:国家自然科学基金资助项目(60303003);国家社会科学基金资助项目(06B YY048)作者简介:丁伟伟(1985—),男,硕士生,主要研究方向为自然语言处理;常宝宝(1971—),男,副教授,主要研究方向为自然语言处理。
1 引言语义角色标注(Semantic Role Labeling ),又称浅层语义分析(Shallow Semantic Parsing ),指的是分析句子的论元结构,即标记出句子中某个动词的所有论元,属于语义分析任务。
之所以称为浅层语义分析,是因为该任务并不涉及深层次的语义分析和计算。
语义角色标注起始于Dan G ildea 和DanJ uraf sky [1],他们的实验所用语料是Berkeley 大学开发的FrameNet [2]。
在此之后,语义角色标注这个任务逐渐得到了国际的关注,这体现为两个方面:一方面是语料的不断丰富。
在FrameNet 之后,宾州大学在树库的基础上完成了英文PropBank [3],并有与之相关的VerbNet [4]等配套语义词典的构建;另一方面是出现了一些相关的国际评测。
CoNLL 2004[5]和CoNLL 2005[6]都包含了语义角色标注的6期丁伟伟等:基于最大熵原则的汉语语义角色分类任务。
每次都有多家单位的参加,他们方法各不相同,对这个问题有着比较好的研究。
语料的构建和评测的出现使语义角色标注的研究呈现出蓬勃的发展势头。
依据研究方法的不同,大致可以分为两条道路,一个是以Pradhan等[7]为代表的基于特征的方法,另一个是以Mo schiti等[8],Zhang等[9]为代表的基于核函数的方法。
相比较英语上的研究,中文语义角色标注的工作既开展比较晚,研究得也不是很充分。
最早进行研究的是Sun等[12],由于在当时还没有中文方面的专门语料,所以他们只是人工标记了包含某些动词的一些语料,并在这些语料上进行研究。
虽不成系统,但是毕竟是一个有意义的开端。
后来,伴随着中文PropBank[13]的构建,Xue Nianwen开始了比较系统的中文语义角色标注的工作,并得出了一些很有意思的结论,比如:语义角色识别和语义角色分类所采用的特征是有区别的。
这些工作不仅对中文的语义角色标注很有意义,也对英文的语义角色标注有所启发。
国内对汉语语义标注的研究最早起始于刘挺等[10],于江德[11]等,不过他们的研究重点仍然集中在英文的语义角色标注之上,实验的语料是CoNLL22005的评测语料。
刘怀军等[14]针对汉语进行了语义角色标注的研究工作,目前也还主要局限在语义角色分类,没有一个公开的完整的语义角色标注系统。
此外还有吕德新等[15],他们的研究集中在特定句式,系统考察了疑问句问点论元的标注。
不过总的来说,与英文上的工作相比,汉语语义角色标注方面的研究比较少,相关的文章也不是很多。
在目前的研究中,语义角色标注任务通常由两个阶段组成:前一个阶段是挑选出句法树上可能充当动词论元成分的节点,这是语义角色识别。
后一个阶段的任务是对识别出来的节点进行分类,具体判断出是指定动词的哪类论元,这是语义角色分类。
这样的区分使得语义角色标注任务得到合理分解,处理的复杂性得到一定的简化。
本文的研究集中在汉语语义角色标注第二个阶段———汉语语义角色分类。
工作建立在句法分析和语义角色识别结果正确的基础上,这样的做法与前人相同。
本文组织方式如下:第二节是对中文Propo sition Bank(以下简称PropBank)的简单介绍。
第三节是语料的预处理。
第四到第六节是主要内容,其中包括特征选择,如何利用论元的上下文特征提高分类准确率,以及如何设计贪心策略来选择特征窗口大小。
第七节是有关的实验和结果、与前人研究结果的对比。
第八节是展望。
2 中文Proposition B ank简介中文Propo sition Bank(以下简称中文Prop2 Bank)是宾州大学仿照英文PropBank制作的中文语义角色标注语料库。
它主要由两个资源构成: 1.语义角色标注语料。
2.动词框架。
其中资源1是PropBank的主要内容,具体标记了动词和其论元成分在中文TreeBank中的位置;资源2是一个支持性的内容,类似于词典,标记了所有出现在PropBank中的动词的子语类框架。
中文PropBank是在中文TreeBank的基础上添加了一个语义角色标注层,标记出来动词和对应论元在TreeBank中的位置。
图1是PropBank中的一个例子(cht b_433.fid第1句):图1 PropBank的一个例子在这个例子中,核心动词是“利用”。
“利用”只有一个子语类框架,这个子语类框架包含两个论元成分:“利用(别人或物)的(人或物)”和“被利用的(人或物)”,分别对应原型施事和原型受事,在PropBank中标记为arg0和arg1。
在图1中,“宁波港”是“利用的”,“外资”是“被利用的”。
除了原型施事和受事,在这个例子中还有一个论元成分“多渠道”,它是一个副词性的论元成分,表示“利用”的方式,标记为“argM2ADV”,其中“argM”是论元标记,“ADV”是一个二级的功能标记,二级标记在PropBank中还有很多,比如“MN R”(方式),“TM P”(时间)等。
中文PropBank的构建,其理论基础是连接理论。
这个理论集中阐述了语义层面的角色如何实现为语法层面的句子成分,依据这一理论,很自然地会让人想到如何使用一种类似求逆的过程依据句子结12中文信息学报2008年构得出“谓词—论元”结构。
无论是语义角色的识别还是分类,都是在句法分析树上进行的,可以被看作是一个节点分类的问题。
从某种程度上说,中文PropBank这个语料决定了我们的方法论。
3 语料的预处理PropBank是在TreeBank的基础上进行标注。
Treebank中的句法标注主要依据的是转换—生成理论,故而在标记中包含了大量由于移位(movement)而造成的空语类(null categories)。
空语类的存在,使得移位的句法成分往往和其对应的空语类同时充当某个动词的同一个论元成分。
此外,目前的句法分析器在句法分析结果中是不包含空语类的。
这使得自动句法分析和人工标注的句法树结构不一致,从而使在其基础上生成的语义角色分类的结果不具备可比性。
综合以上两个原因,在我们的工作中,空语类全部被删除了。
既然是语义角色分类,那么首先要解决的是有多少个类的问题。
中文PropBank的理论基础是Dowty的语义角色原型理论,标记可以分为两级:一级标记是arg024,argM,共计6个。