当前位置:文档之家› 基于语义组块分析的汉语语义角色标注

基于语义组块分析的汉语语义角色标注

基于语义组块分析的汉语语义角色标注
基于语义组块分析的汉语语义角色标注

第23卷 第5期2009年9月

中文信息学报

JOU RNAL OF CH INESE INFORM AT ION PROCESSIN G

V ol.23,No.5Sep.,2009

文章编号:1003-0077(2009)05-0053-09

基于语义组块分析的汉语语义角色标注

丁伟伟,常宝宝

(北京大学计算语言学研究所,北京100871)

摘 要:近些年来,中文语义角色标注得到了大家的关注,不过大多是传统的基于句法树的系统,即对句法树上的节点进行语义角色识别和分类。该文提出了一种与传统方法不同的处理策略,我们称之为基于语义组块分析的语义角色标注。在新的方法中,语义角色标注的流程不再是传统的/句法分析)))语义角色识别)))语义角色分类0,而是一种简化的/语义组块识别)))语义组块分类0流程。这一方法将汉语语义角色标注从一个节点的分类问题转化为序列标注问题,我们使用了条件随机域这一模型,取得了较好的结果。同时由于避开了句法分析这个阶段,使得语义角色标注摆脱了对句法分析的依赖,从而突破了汉语语法分析器的时间和性能限制。通过实验我们可以看出,新的方法可以取得较高的准确率,并且大大节省了分析的时间。通过对比,我们可以发现在自动切分和词性标注上的结果与在完全正确的切分和词性标注上的结果相比,还有较大差距。关键词:计算机应用;中文信息处理;语义角色标注;语义组块分析;条件随机域;序列标注中图分类号:T P391 文献标识码:A

C hinese Semantic Role Labeling Based on Semantic C hunking

DING Weiwei,CHAN G Baobao

(Institute of Computational Ling uistics,P eking U niver sity,Beijing 100871,China)

Abstract:In recent years,the Chinese SRL (semantic ro le labeling )has a roused the intensiv e att ention.M any SRL

sy stems have been built on the par sing tr ees,in w hich the constituents of the sentence str ucture are identified and then classif ied.In contrast,this paper establishes a semantic chunking based method which chang es the SRL task from the traditional /parsing -semantic ro le ident ificatio n -semantic ro le classificatio n 0pr ocess into a simple /semant ic chunk identification -semantic chunk classificatio n 0pipeline.T he semantic chunking,w hich is named after the syn -tactic chunking,is used to identify the semantic chunk,namely the arg uments of the v erbs.Based on the semant ic chunking result,the Chinese SR L can be changed into a sequence labeling pr oblem instead of the classificatio n prob -lem.W e a pply the co nditional r andom fields to the pr oblem and g et bet ter perfo rmance.A long w it h the remo val o f the parsing stage,the SRL task avoids the dependence o n parsing,which is alwa ys t he bottleneck both of speed and pr ecision.T he ex per iments hav e sho wn that the outper for ms of our appro ach pr evio usly best -r epo rted methods on Chinese SRL with an impressive time reduction.We also show that the pr oposed method w o rks much better on go ld wo rd seg mentat ion and P OS tag ging than o n the automatic r esults.

Key words:co mputer application;Chinese info rmatio n pr ocessing ;semant ic ro le labeling;semantic chunking ;con -ditional r andom fields;sequence labeling

收稿日期:2008-08-28 定稿日期:2008-10-09

基金项目:国家自然科学基金资助项目(60303003);国家社会科学基金资助项目(06BYY 048)

作者简介:丁伟伟(1985)),男,硕士生,主要研究方向为自然语言处理;常宝宝(1971)),男,副教授,主要研究方向为自然语言处理。

1 引言

语义角色标注(Semantic Role Labeling ),其主

要任务是分析句子的/谓词)论元0结构,即标记出

句子中某个动词的所有论元。语义角色标注对自然语言处理领域的很多任务都有帮助,比如问答系统

(Narayanan [1]等)、信息抽取(Surdeanu [2]等)和机器

中文信息学报2009年

翻译(Bo as[3])等。

语义角色标注的研究最早开始于Dan Gildea 和Dan Jurafsky[4],他们的实验所用语料是Berke-ley大学开发的FrameNet[5]。在FrameNet之后,宾州大学在树库的基础上完成了英文Pro pBank[6]。之后,语义角色标注这个任务逐渐得到了国际的关注,众多的经验主义方法被应用到语义角色标注之中,并且取得了很好的结果,例如Carreras[7-8]等, Mo schitti[9],Pradhan[10]等,Zhang[11]等。

中文语义角色标注的工作开展较晚,研究得也不是很充分。最早进行研究的是Sun[12]等,由于在当时还没有中文方面的专门语料,所以他们只是人工标记了包含某些动词的一些语料,并在这些语料上进行研究。虽不成系统,但是毕竟是一个有意义的开端。后来,伴随着中文PropBank[13]的构建, Xue Nianw en开始了比较系统的中文语义角色标注的工作(Xue N ianew en[14-15]等),并得出了一些很有意思的结论,比如:语义角色识别和语义角色分类所采用的特征是有区别的。这些工作不仅对中文的语义角色标注很有意义,也对英文的语义角色标注有所启发。

中国国内对语义角色标注的关注最早起始于刘挺[16]等,于江德[17]等,这些研究的重点仍然集中在提升英文的语义角色标注的性能,实验的语料是Co NLL-2005的评测语料。汉语方面的研究有刘怀军[18]等,他们对汉语语义分类也进行了系统的研究。此外,还有一些语料建设方面的成果,例如袁毓林[19]。不过目前,国内对于汉语语义角色标注的研究还主要局限在语义角色分类方面,完整的语义角色标注研究还不多见。总的来说,与英文方面的工作相比,汉语语义角色标注方面的研究仍处在开始阶段。

在以前的研究中,一个完整的语义角色标注系统通常由两个阶段组成:前一个阶段是挑选出句法树上可能充当动词论元成分的节点,这是语义角色识别。后一个阶段的任务是对识别出来的节点进行分类,具体判断出是指定动词的哪类论元,这是语义角色分类。语法树可以是人工标注的,也可以是句法分析器自动分析的结果。语义角色标注可以看作是句法树上的节点的分类问题。CoNLL-2004评测选择了另一个思路,将语义角色标注的工作建立在浅层语法分析之上,不再对树上节点进行分类,而是利用分析出来的语法组块进行语义角色标注,希望利用相对更准确些的组块分析结果提升语义角色标注准确率,绕过分析准确率相对较差的完全句法分析。

H aciog lu[20]等曾经进行过类似的工作,他们在英文上进行了基于词的语义角色标注,他们称之为语义论元组块分析。不过他们的工作是在FrameNet基础上,并且使用的特征是直接从浅层语法分析借鉴而来,没有体现出来语义角色标注是语义分析问题的特点。语法组块和语义角色之间不存在对应关系。相对于语法组块来说,能够充当语义角色的成分长度变化很大,并且非常依赖于句子中的主要动词。所以,该系统的性能即使在语义标注任务产生的早期也并不算高,他们的工作只应该被看作是一个较为简单的起点。

本文在前人工作的基础上,将语义角色标注的任务分为两个阶段:语义组块的识别和语义组块分类。直接在词的基础上进行语义角色的识别和分类。在每个部分都充分提取反映中文语义角色标注任务特点的独特特征,希望借此提高系统的准确率。本文以下部分是这样组织的:第二部分是介绍中文PropBank,第三部分是具体介绍语义组块分析,第四部分介绍了实验的设置和特征模板的选择,数据和实验在第五部分。最后是结论与展望。

2中文Proposition Bank

中文Pro position Bank(以下简称中文Pro p-Bank)是宾州大学建设的中文语义角色标注语料库。它主要由两个资源构成:1)语义角色标注语料。2)动词框架。其中资源1是Pro pBank的主要内容,具体标记了动词和其论元成分在中文Tree-Bank中的位置;资源2是一个支持性的内容,类似于词典,标记了所有出现在PropBank中的动词的子语类框架。

中文PropBank是在中文TreeBank的基础上添加了一个语义角色标注层,标记出动词和对应论元在Tr eeBank中的位置。图1是Pro pBank中的一个例子(chtb_433.fid第1句)。

在这个例子中,核心动词是/提供0。/提供0只有一个子语类框架,这个子语类框架包含三个论元成分:/提供者0,/被提供物0,分别对应原型施事和原型受事,在PropBank中标记为ar g0和arg1。此外还有一个与事成分,在PropBank中标记为arg2。在图1中,/保险公司0是/提供者0,/保险服务0是/被提供物0。/三峡工程0则是与事成分,是服务的

54

5期丁伟伟等:基于语义组块分析的汉语语义角色标注

接受者。

图1 Pr opBank 的一个例子

除了原型施事和受事,在这个例子中还有另一类论元成分。/截至目前0表示/提供0的时间信息,标记为/ar gM -T MP 0,其中/argM 0是论元标记,/TM P 0是一个二级的功能标记,同类的论元成分在该句中还有/已0,它被标记为/ar gM -ADV 0,表示了一个与时间有关的成分。此外,二级标记在Pro p -Bank 中还有很多,比如/MNR 0(方式),/TM P 0(时间)等。

PropBank 中出现的语义角色可以分为两大类,核心论元和非核心论元。前一个又可以分为施事、受事、与事等多种论元,由于PropBank 中的论元划分依据的是Do w ty 的原型理论,所以施事、受事等角色包括的范围都是很广的。非核心论语又可以按照功能分出小类,比如上面的ADV 、MNR 、T MP 等就是其中的小类。

传统的语义角色标注系统包括中文PropBank 的构建,它们的理论基础是连接理论。这个理论集中阐述了语义层面的角色如何实现为语法层面的句子成分,依据这一理论,很自然地会让人想到如何使用一种类似求逆的过程依据句子结构得出论元结构。但是,如果我们跳出这一理论,我们会发现语义角色标注的目标还是去确定句子中的哪些部分(语义组块)是论元成分,语法分析只是一种手段,而不是目的。我们完全可以抛开句法分析的步骤,直接去句子中定位论元的位置,据此本文提出了一种新的方法,即语义组块分析的方法。

3 语义组块分析

语义组块分析得名于与语法组块分析的相似性。论元可以是词,可以是词组。我们可以将论元的识别、分类看作是一种特殊的组块的发现与分类,

为了表示与传统的语法组块之间存在的区别,我们称之为语义组块。相应地,我们将语义组块的识别和定性称为语义组块分析。

基于语义组块分析的语义角色标注系统可以分为三个步骤:

1)将一句话按照其中包含的动词数量复制相同多的拷贝,每一个拷贝中的目标动词都只有一个。

2)识别拷贝的句子中的语义组块,即论元。3)对识别出来的语义组块进行分类,即分配一个语义角色的类标记。

之所以要先将句子按照动词数量进行复制,是因为句子中不同动词的论元可能存在着重叠,例如:

(1)中国建筑业对外开放呈现新局面1

这个句子中包含两个动词,一个是/开放0,一个是/呈现0。这两个动词分别有其不同的论元结构,如(1a)和(1b):

(1a)[arg 1中国建筑业][arg 2对外][f1开放]呈现新局面。

(1b)[arg0中国建筑业对外开放][f1呈现][arg 1新局面]。

从这两个例子中,我们可以发现动词/开放0的受事/中国建筑业0与/呈现0的施事/中国建筑业对外开放0之间是重叠的。如果不将不同动词分开,语义组块的分析会比较困难。

下面仍然以句1为例,具体说明一下语义组块分析的步骤。我们首先将这个句子复制为两个,如下:

(1a .)中国建筑业对外开放呈现新局面

(1b .)中国建筑业对外开放呈现新局面其中(1a .)中的目标谓词是/开放0,(1b .)中的

55

1

这个句子摘自中文TreeBank ctb_004.fid.

中文信息学报2009年

核心谓词是/呈现0。之后我们对两个句子分别进行语义组块分析,以(1a.)为例,词语/呈现0、/新0、/局面0都不是/开放0的论元,/中国建筑业0、/对外0分别是目标动词/开放0的arg1,arg2。故而我们的语义组块分析的流程应该是:在复制的句子(1a.)中,识别出来/中国建筑业0、/对外0分别是一个组块。其他的词语不是。然后对识别出来的组块进行分类,看这个组块是动词的何种性质的论元。

语义组块分析包含语义组块的识别和分类,下面将分别加以介绍。

3.1语义组块识别

从实现的功能上来看,语义组块识别相当于传统方法中句法分析和语义角色识别两步。语义组块识别的目的是确定句子中的哪些部分是该句中目标谓词的可能的语义角色。

语义组块识别是一个序列标注的问题。首先我们需要确定应该采用何种序列的表示法。常用的序列表示法有IOB和start/end。本文将会对各种表示法进行比较,看在语义组块识别这个问题上,哪种表示法能够取得更好的效果。

IOB表示法可以分为IOB1,IOB2,IOE1, IOE2四种。IOB1最早出现于Ram shaw[21]等,后来Sang[22]等在其之上进行改造,提出了其余三种不同的表示法。四种表示法大同小异,相同点是:其中的/I0代表当前词在一个组块中,/O0代表的是当前的词不在任意一个组块中。不同点是四种表示法对组块的开始或者(不是并且)结束的表达方式不同。具体如下:

IOB1B代表当前词是紧跟前一个组块的新组块的开始。非紧邻的新组块开始标记为I,IOE1与之类似。

IOB2B代表当前词是一个组块的开始。

IOE1E代表当前词是一个组块的终结,当这个组块后门紧跟着另一个组块时。

IOE2E代表当前词是一个组块的终结。

start/end是另一个类型的表示法,最早出现于Uchimo to et al.[23]1。该表示法表达得更为细致,共有五种符号:B,I,E,O和S。这五种符号表示的意义是:

B当前词是一个组块的开始。

I当前词在一个组块内部。

E当前词是一个组块的终结。

O当前词不在任意一个组块中。

S当前词是一个组块,该组块只有一个词。3.2语义组块分类

语义组块的分类与传统方法中的语义角色分类基本一样。在这个阶段,前一个阶段识别出来的语义组块分别被分配不同的语义角色。但是由于没有了树结构,很多在之前的对语义角色分类的研究中被证实有用的特征无法获得,使得我们必须想办法提取更多的特征来获得较高的分类准确率,这在第四部分得到了体现。

4基于语义组块分析的汉语语义角色标注

4.1数据

本文使用的数据是中文Pro pBank,版本1.0 (LDC序列号:),该数据库标记了中文T reeBank 5.1中的标号为001到931的文件,共标记了4865个动词的37183个论元结构。

经过我们的分析,中文PropBank1.0还存在不少的问题。大概有以下两种:

1)PropBank与T reeBank之间存在不一致。由于这两个语料库不是同时构建,两者之间存在着一些不对应。例如在PropBank中记录着T reeBank 中的某个节点是主要谓词,可是Tr eeBank中的相应位置却根本不是谓词。

2)同一句话论元结构有问题。比如Prop-Bank1.0中的第一个文件的第一个句子/上海浦东开发与法制建设同步0,就存在着问题。/同步0既是arg1,同时是主要动词。这显然是不合理的。

对有上述两种问题的句子,我们一律删除。

PropBank中的文件,我们进行如下划分进行本文的实验。训练集语料648个文件(chtb_081--chtb_899),测试集语料72个文件(chtb_001--chtb _041,chtb_900--chtb_931),开发集语料40个文件(chtb_041--chtb_080)。这个语料的设置与文献[15]相同,与文献[14]不是完全相同。

4.2分类器

由于在序列标注上具有优势,本文选择了条件随机场作为分类器。CRF++o开源工具包实现了

56

1oKudo and M ats umoto(2001)[24]后来对这种表示法进行了

一些细小的改造,本文采用的是他们改造后的表示法。

https://www.doczj.com/doc/098611904.html,/projects/crfpp/

5期丁伟伟等:基于语义组块分析的汉语语义角色标注

LBFSG参数估计办法。

CRF++工具包区别了两个类型的特征。一个称作U nig ram特征,一个是Big ram特征,区别是构建特征时是否包含前一个输出。Bigram可以产生更多的特征但是效率较低。在本文中,我们综合利用了两种特征。

对于语义组块分类,我们使用了CRF++作为分类器,这是因为动词的论元之间存在着一定的依赖关系。这种关系体现为:

同一类型的论元在一个动词的论元结构中一般只能出现一次。

论元的出现是有顺序的,例如一般而言,在非被动句中,主语位置上是原型施事比是原型受事的可能性大得多。

在英文上的实验已经证明了这一点[25]。所以本文也使用CRF++用于语义组块分类,希望可以利用论元之间的相互关系,提高标注的准确率。

4.3语义组块识别使用的特征模板

与传统的方法不同,基于语义组块分析的语义角色标注系统不需要句法分析。这在提高了系统的效率同时,也给特征的选择带来了一定困难。传统方法中句法相关的特征,比如路径,动词子语类框架等都无法使用。这使得我们必须多利用词一级的特征。对于语义组块识别,我们采用了以下的特征模板。

Unigram特征模板:

目标谓词每个句子中的目标谓词。

距离当前词和目标谓词之间相隔词语数量。包含正负号来区别当前词是在谓词之前(+)还是之后(-)。

词-1(0,+1)前一个(当前,后一个)词。

词性-1(0,+1)前一个(当前,后一个)词的词性。

是否目标谓词-1(0,+1)前一个(当前,后一个)词是否是目标谓词。如果是,则特征为/Y0,否则为/N0。

词性序列前部0,词性序列中部0,词性序列后部0当前词和动词将一个句子中所有的词的词性构成的序列分为三个部分,我们称其为词性序列前部,中部,后部,0指的是当前词,下面出现的1和-1分别指当前词的后一个词和前一个词。对于词性序列的每一个部分,我们不是直接使用,而是加以简化处理,策略是将重复出现的模式省略,比如词性序列的一个部分是/N-V-N-V-N-V-N0,其中/N-V0组合重复出现了3次,我们只保留一个,最后的形式是/N-V-N0。通过这样的处理,我们将序列进行简化,避免数据稀疏,同时有助于利用序列之间的相似性。

词性序列前部+1,词性序列中部+1,词性序列后部+1与上面的相似,这里的前部,中部,后部是后一个词与目标谓词把一个句子分隔出来的三个部分。

词性序列前部-1,词性序列中部-1,词性序列后部-1这里的三个部分是前一个词与目标谓词把一个句子分隔出来的三个部分。

间隔标点数量当前词和目标谓词之间相隔的标点符号的数量,包括逗号,分号,冒号等。

间隔动词数量当前词和目标谓词之间相隔的动词的数量。

Bigram Feature Templates:

词-1/词0/词+1前一个词、当前词、后一个词的组合特征。

动词-1/动词0/动词+1动词-1、动词0、动词+1构成的复合特征。动词-1(0,+1)这一模板提取特征是前一个(当前,后一个)词,当这个词是动词。否则提取的特征是NU LL。

动词词性-1/动词词性0/动词词性+1动词词性-1、动词词性0、动词词性+1构成的复合特征。动词词性-1(0,+1)这一模板提取特征是前一个(当前,后一个)词的词性,当这个词是动词时。否则提取的特征是NU LL。

动词向量-1/动词向量0/动词向量+1动词向量-1、动词向量0、动词向量+1构成的复合特征。动词向量-1(0,+1)提取的特征是前一个(当前,后一个)词与动词之间的词性序列中包含的各类动词的数量构成的向量。在中文Tr eeBank中动词共有四种:VV,V A,V C和VE。如果这四类动词出现的频次分别是1,2,0,3,则该模板提取的特征是向量(1,2,0,3)。这个特征在我们使用北京大学的标记体系的时候略有不同,因为北京大学标记体系与中文T reeBank词性标记集不同。T reeBank 中的动词对应于北京大学标记体系中的动词、形容词和区别词。所以如果采取北京大学标记集的时候,该模板提取出来的向量只有三维。例如词性序列中间出现的动词、形容词和区别词的次数分别是2,3,0,则提取的该特征是(2,3,0)。

音节数-1/音节数0/音节数+1汉语的韵律

57

中文信息学报2009年

往往会很有用,在这里我们也使用了词的音节数这一韵律特点。这个特征是前一个、当前、后一个词的音节数的复合特征。

距离/目标谓词距离和目标谓词的组合特征。

动词矩阵0/目标谓词动词矩阵0和目标谓词的组合特征。

间隔动词数量/目标谓词间隔动词数量和目标谓词的组合特征。

当前词语义类/目标谓词当前词的语义类与目标谓词的复合特征。

当前词/当前词词性/目标谓词当前词、当前词的词性和目标谓词的复合特征。

当前词/当前词词性/距离/是否目标谓词0

当前词、当前词的词性、距离、是否目标谓词0的复合特征。

前一个输出/当前输出前一个输出和当前输出的复合特征。

4.4语义组块分类使用的特征模板

Unigram特征模板:

首词/尾词首词和尾词的组合特征。

前词/前词词性前词、前词词性的复合特征。

Bigram特征模板:

首词语义组块内部的第一个词。

首词词性首词的词性。

尾词语义组块内部的最后一个词。

尾词词性尾词的词性。

前词语义组块之前的一个词。

前词词性前词的词性。

后词语义组块之后的一个词。

后词词性后词的词性。

长度语义组块的长度,即内部包含了多少个词。

距离语义组块与目标谓词的距离,即中间相隔多少个词。

前后关系语义组块是在目标谓词前还是后。

目标谓词语义类目标谓词的语义类,提取自北京大学计算语言所的5现代汉语语义词典6,如果没有则为NU LL。

尾词语义类语义组块尾词的语义类。

目标谓词句子中的目标动词。

中间词序列识别出来的语义组块中间的词语构成的序列,不包含语义组块的首词和尾词。如果语义组块只有两个词,则该模板提取的特征是NU LL。

中间词性序列与中间词序列相对应,是语义组块中间的词语的词性构成的序列。如果语义组块只有两个词,则该模板提取的特征是NU LL。

词性序列中部0这个特征模板与语义组块识别过程中的同名特征模板相同。

谓词框架简单表达式动词子语类框架简单表达式与文献[15]中提到的Frame一致。如动词/保持0有两种子语类框架,第一种包含三个核心论元,是arg0,arg1,arg2;第二种包含两个论元,是arg0, arg1。那么其子语类框架简单表达式是:C3C2。

谓词框架复杂表达式动词子语类框架复杂表达式是将动词所有子语类框架都连结起来构成的表达式。例如动词/保持0的子语类框架复杂表达式是:C0_1C0_1_2。

前一个输出/当前输出前一个输出和当前输出的复合特征。

4.5分词和词性标注

本文中的语义角色标注系统起点是已经完成了分词和词性标注的语料。这样的语料有以下两个来源。

第一个是我们采用了手工标注的结果,这个结果提取自中文T reeBank5.1。我们去除了中文T reeBank中的树结构信息,只保留了切分和标注信息。采用手工标注的结果,保证了切分和标注的正确性,可以将精力集中在语义角色标注上,因为汉语的分词和词性标注也是一个很有挑战的问题。

第二个为了说明我们的系统在实际情况下的运行情况,我们也采用了一些分词和词性标记工具。我们实现了文献[16]中提到的系统进行分词和词性标注,并且在实验的训练集上进行训练。该工具在测试集上的切分准确率是95.90%,召回率是95.64%,F值是95.77%;标注的准确率是90.16%。

另外,为了说明系统对标记集的依赖性,我们还采用了文献[27]中提到的切分和标注工具,并且采用了三种不同的词性划分标准,包含的标记数量分别是48,105,300。这三种标记系统依据的标准是北京大学的词性标注规范。我们希望借此考察不同的标记体系和标记精细程度对语义组块分析的影响。不过由于没有准确的性能数据,因而两个分词和词性标注系统的结果缺乏严格的可比性,仅具有

58

5期丁伟伟等:基于语义组块分析的汉语语义角色标注

一定的参考价值。

5实验结果

实验中CRF++的参数设置是频率阈值为2,去掉了那些出现次数只有一次的特征,以减少偶然性。C值为拟合度,取值为5.7。

表1是在手工标注的语料上采用不同的表示法的标注准确率。从中我们可以看出,使用star t/end 表示法要比IOB表示法效果更好。对IOB的4种不同表示法来说,IOB2、IOE2要比IOB1、IOE1的标记效果更好。这似乎说明了,对标注节点分类越细致,区别越明显,对语义角色标注的帮助越大。

此外,单就语义组块分类这个过程来说,虽然相比较传统的语义角色分类,少了很多可以利用的树结构的信息,但是它的准确率却没有什么降低。对于这五种表示法识别出来的语义组块,再进行语义组块分类的准确率都在94.1%以上,相比较Xue[15]中的94.1%的语义角色分类准确率,两者差别不大。表2是在自动分词和词性标记进行语义组块分析的结果。尽管使用北京大学标记集和中文树库标记集两者使用的方法并不完全相同,不过结果仍然是可比的。从中我们可以看出来,使用中文Tree-Bank比使用北京大学标记集效果好。在北京大学300词性的标记集上取得的效果与中文T reeBank 上的效果最接近,也并未超过。对词性数量不同的北京大学标记集进行考察,我们可以发现,进行自动切分和词性标注时采用的词性数量越多,标记的准确率越高。这也是可以理解的,词性越细致,揭示出词的语法、语义上的信息也就更充分,可以给语义角色标注提供更多的有用信息。

一般来说,对于序列标注问题,长度增长往往意味着识别难度的加大。识别的准确率会下降很快。但是在语义组块识别中,似乎并不是这样。图2展示了组块长度与标记效果之间的关系,图中的20代表的是长度大于等于20的组块。我们可以从中看出,在组块长度低于9的时候,标记的F值从80%以上迅速下降到60%左右。而组块长度超过9之后,F值在0.6左右波动。这种现象的出现在很大程度上是因为长度很长的组块在数量上比较有限,而且其中一大部分的分布都集中于一些比较特殊的动词。比如动词/说0、/说明0、/表明0等。这些动词后跟随的很长的词串,往往就是论元成分。这给语义组块的识别和分类带来了便利。

表1在手工切分标注的测试集上的实验结果

语义组块识别分类总计召回率准确率F值准确率F值

I OB169.49%78.09%73.54%94.17%69.25%

I OB271.48%78.45%74.80%94.25%70.50% IO E170.42%77.53%73.81%94.19%69.52% IO E272.30%79.53%75.74%94.10%71.27%

st art/end73.58%81.00%77.11%94.20%72.64%表2在自动切分标注的测试集上的实验结果(使用start/end表示法)

语义组块识别分类总计

召回率准确率F值准确率F值北京大学48标记集59.68%75.84%66.79%89.16%59.55%北京大学105标记集61.95%75.81%68.18%92.41%63.01%北京大学300标记集61.42%76.10%67.97%92.98%63.20%中文T reeBank标记集61.57%74.71%67.51%94.05%63.49%

另外,为了说明我们的方法的有效性,需要与别的系统进行对比。表3就显示了与相关系统的比较情况。本文的数据设置与文献[15]是完全相同的,与文献[14]略有不同,虽不具严格可比性,但结果差异仍有参考价值。从表3中可以看出来,在手工标记的切分和词性标注上,本文系统的效果要略高些,

59

中文信息学报2009

图2组块长度与标记效果相关关系

但是在自动切分和词性标注语料上,本文的系统与之前的系统仍然是可比的。而且这种差距某种程度上是由于分词和词性标注工具的不同造成的。Xue[14]等采用了一个基于最大熵的分词、标注、句法分析一体化的分析器进行分词和词性标注;Xue[15]则采用了两种方案,一个与Xue[15]等相同,另一个则是将基于最大熵的一体化分析器的分词结果拿出来,使用Bikel Parser进行词性标注和句法分析。表4中的Xue[15]的数据是后一个方案的数据,因为第一个方案与Xue[14]等相同,效果也不如第二个。这些系统都没有提供分词和词性标注的数据,所以无法判别本文的系统与这两个系统在分词和词性标注上的性能是否存在较大区别。

此外,还需要说明的是我们在基于语义组块的方法上产生了与基于句法分析的方法可比较的结果,这一点似乎是与前人关于语义标注中语法分析的重要性的结论(Carreras[8]等,Punyakanok[27]等)相矛盾的。不过这种情况的出现可以从以下两个方面来解释。首先,Carreras等人的研究成果都是基于英文的而非中文。从分析准确率来看,中文的句法分析器相较于英文逊色许多,错误的分析对语义角色标注的负面影响是很大的,这使得使用基于句法分析的方法进行语义角色标注效果不好。其次,本文不同于基于语法组块的方法,提出了语义组块的概念,使组块分析直接面向语义角色标注。语义组块识别直接依赖于特定动词,有利于充分提取与语义角色标注相关的特征,这使得基于语义组块方法避免了传统的基于语法组块方法中由于句法组块分析和语义角色标注脱节(例如组块边界和语义角色边界不一致)带来的弊端,提高了标注的准确率。

表3与相似系统的比较

文献[14]文献[15]本系统

手工

标记

P N/A79.5%76.31%

R N/A65.6%69.31%

F N/A71.9%72.64%

自动

标记

P67.0%74.5%70.26%

R56.4%59.6%57.90%

F61.3%66.2%63.49%此外,我们对比了自己的方法与传统的基于句法分析的方法在时间消耗上的区别。我们修改了Collins句法分析器的源代码使之可以进行汉语的句法分析,采用的是Co llins句法分析模型1,实验环境是Pentium Dua-l Co re3.0GH z,2G内存,标注的语料是我们的测试集,耗费时间对比如表4所示。

表4时间消耗的比较

基于句法分析的方法语义组块的方法

220小时17秒

从表4的对比我们可以看出,由于基于语义组块分析的方法去除了语法分析的步骤,大大节省了分析的时间,使系统更为实用。

6结论与展望

在本文中,我们构建了一个基于语义组块分析的中文语义角色的系统。和以前对语法树上的节点进行分类不同,我们把语义角色标注问题当作是一个序列标注问题,直接对语义角色进行识别和分类。这个新的系统获得了较高的准确率,同时由于去除了语法分析这个非常耗费时间的步骤,系统得以极大地节省了时间。而时间耗费的降低会使得语义角色标注系统更加实用,尤其是处理的语料非常大,比如是数以万计的网页的时候。

Carreras[7-8]等揭示出来语法分析是语义角色标注中对系统标注准确率影响最大的一个因素。具体到汉语上的情况,语法分析的影响就更大了。文献[15]揭示出在语法分析完全正确的情况下,英语和汉语上的语义角色标注准确率差不多,但是如果将自动句法分析的结果引入之后,汉语的语义角色标注性能就大大低于英语。本文提出的语义组块分析方法提供了一个去除句法分析影响的途径。另外对于汉语上来说,另一个比较现实的问题是可用的

60

5期丁伟伟等:基于语义组块分析的汉语语义角色标注

句法分析器并不是很多。

基于语义组块分析的语义角色标注系统目前还没有表现出对基于句法分析的方法的优越性,未来的可能的一个发展方向是提取更多的特征以提高系统的性能,其他的自然语言处理任务比如命名实体识别,语法组块分析以及更多的语言资源可能会提供很大的帮助。

除了上面提到的发展方向,思考如何将基于语义组块分析的方法与基于句法分析的方法结合起来可能是很有意义的。这两个方法都各有自己的优缺点,基于语义组块分析的方法速度快,不需要语法分析的结果,但是能提取的特征比较有限。基于句法分析的方法可以提取更多的有意义的特征,但是极大地受制于语法分析的准确率。一个可能的结合点是利用语义组块分析去除不充当论语成分的词,从而让句子结构简单化。句法分析器在短句子上分析效果更好,而且更节省时间。利用这一策略,或者可以提高语义角色标注的准确率。

参考文献:

[1]S.N ar ayanan and S.Har abag iu.Q uestio n answer ing

based o n semant ic str uctur es[C]//Pro ceedings of t he

20th Internatio nal Conference o n Co mputational L in-

guistics,Genev a,Sw itzerland.2004.

[2]M.Sur deanu,S.H arabagiu,J.Williams,and P.

A arseth.U sing pr edicate-ar gument st ruct ur es for in-

for mation ext ractio n[C]//Pr oceeding s of the41st A n-

nual M eet ing of t he Association f or Computat ional L in-

guistics,Ann A rbor,M ichig an.2003.

[3]H. C.Boas.Biling ual Fr ameNet dictionar ies fo r ma-

chine translat ion[C]//Pro ceedings o f L REC2002,

L as Palmas,Spain.2002.

[4] D.Gildea, D.Jurafsky.A utomatic labeling of seman-

tic ro les[J].Co mputatio na l L ing uistics,2002,28(3):

245-288.

[5] F.C.Baker, C.J.Fillmo re,and J.B.Lo we.T he

Ber keley F rameN et project[C]//Pr oceeding s of t he

17th internatio nal conference o n Co mputational ling uis-

tics,M o nt real,Canada.1998:86-90.

[6]P.K ing sbur y and M.Palmer.Fr om T reeBank to

P ropBank[C]//Pr oceeding s of the3r d Inter national Conference on L anguag e Resources and Ev aluation

(L R EC-2002),Las P almas,Spain.2002.

[7]Carr eras X,M rques L.Int roduct ion to the co nl-l2004

shared task:Semantic r ole labeling[C]//Pro ceedings

of Co NL L-2004,Bo ston,M A,U SA,2004:89-97. [8]Carr eras X,M rques L.Int roduct ion to the co nl-l2005

shar ed task:Semant ic ro le labeling[C]//Pr oceeding s

of CoN L L-2005,2005.

[9] A.M o schitt i.A Study on Co nv olut ion K ernels for

Shallo w Statist ic Parsing[C]//P ro ceedings of the42nd

M eet ing of t he A ssociatio n for Com putatio nal L inguis-tics,Bar celona,Spain,2004:335-342.

[10]S.Pradhan,K.Haciog lu,V.K rug ler,W.War d,

J.H.M art in, D.Jurafsky.Suppo rt vector learning

for semant ic arg ument classificatio n[J].M achine

L earning Journal,2005,60(1-3),11-39.

[11]M.Zhang,W.Che, A.T.AW, C.L.T an,G.

Zhou,T.L iu,S.Li,A Gr ammar-driven Co nv olu-

tion T ree K ernel fo r Semantic Ro le Classification

[C]//Pro ceeding s o f the45th A nnual M eeting o f the

A sso ciatio n of Computat ional L ing uistics(A CL.

07),Pr ague,Czech Republic,2007.

[12]H.Sun, D.Jurafsky.Sha llo w Semantic Par sing o f

Chinese[C]//P roceeding s of the H L T/N A A CL,

2004.

[13]N.Xue,M.P almer.A nno tating the Pr opositions in

the P enn Chinese T r eebank[C]//Pr oceeding s of the

2nd SIG HA N Wo rkshop on Chinese Languag e Pr o-

cessing,Sappo ro,Ja pan.2003.

[14]N.Xue,M.Palmer.A uto matic semantic ro le labe-

ling fo r Chinese verbs[C]//19th Inter national Jo int

Conference o n Ar tificial Intellig ence.Edinbur gh,

Scotland.2005:1160-1165.

[15]N.Xue.Semantic Role L abeling of Chinese P red-i

cat es[J].Computatio nal L ing uist ics,2008,34(2):

225-255.

[16]刘挺,车万翔,李生.基于最大熵分类器的语义角色

标注[J].软件学报,2007,18(3):565-573.

[17]于江德,樊孝忠,庞文博,余正涛.基于条件随机场的

语义角色标注[J].东南大学学报,2007,23(3):361-

364.

[18]刘怀军,车万翔,刘挺.中文语义角色标注的特征工

程[J].中文信息学报,2007,21(1):79-84.

[19]袁毓林.语义角色的精细等级及其在信息处理中的

应用[J].中文信息学报,2007,21(4):10-20. [20]K.Hacio g lu and W.War d.T ar get wo rd det ection

and semant ic ro le chunking using suppo rt vector ma-

chines[C]//Pr oceeding s of the H uman Lang uag e

T echno lo gy Co nfer ence of the N or th A merican Cha p-

ter o f the A sso ciatio n for Computatio nal L inguistics.

Edmo nto n,Canada.2003.

[21]L. A.R amshaw,M.P.M arcus.T ext chunking u-

sing tr ansfo rmation-based lear ning[C]//Pr oceeding s

of the3rd Wo rksho p o n V er y L arg e Co rpor a.1995.

[22] E. F.Sang,T.K im,J.Veenst ra.Repr esenting

tex t chunks[C]//Pr o ceeding s of the38th A nnual

(下转第74页)

61

中文信息学报2009年

[5]Y U EN R aymond W.M.,CH AN T erence Y.W.,LA I

T o m B.Y.et al.M or pheme-based deriv atio n of bipo-

lar semantic or ientation of Chinese w ords[C]//Pr oc.

O f t he20th International Co nfer ence on Co mputational L inguistics(COL IN G-2004),Geneva,Sw itzerland.

2004:1008-1014.

[6]朱嫣岚,闵锦,周雅倩,等.基于H ow N et的词汇语义

倾向计算[J].中文信息学报,2006,21(1):14-20. [7]徐琳宏,林鸿飞,杨志豪.基于语义理解的文本倾向

性识别机制[J].中文信息学报,2007,21[1]:96-100.

[8]王根,赵军.中文褒贬义词语倾向性的分析[C]//第

三届学生计算语言学研讨会论文集.沈阳.2006:81-

85.

[9]张伟,刘缙,郭先珍.学生褒贬义词典[M].中国大百科

全书出版社.2004.

[10]史继林,朱英贵.褒义词词典[M].四川:四川辞书出

版社.2005.

[11]杨玲,朱英贵.贬义词词典[M].四川:四川辞书出版

社.2005.

[12]王素格.基于Web的评论文本的情感分类问题研究

[D].博士论文.上海:上海大学.2008.

(上接第61页)

M eeting of the Association for Co mputatio nal L in-

g uistics,H ong K o ng,China.1999.

[23]K.U chimoto,Q.M a,M.M urat a,H.Ozaku,and

H.Isahara.N amed Entit y Extr action Based o n A

M ax imum Entro py M odel and T r ansfor matio n Rules

[C]//P ro ceedings of the38th A nnual M eeting of t he

Associat ion for Co mputational L inguistics,H ong

Ko ng,China.2000.

[24]T.K udo,and Y.M atsumo to.Chunking w ith Sup-

por t V ector M achines[C]//P roceeding s of Second

M eeting o f No rth A merican Chapter of the A ssocia-

t ion fo r Computational L ing uistics,Pittsburg h,

U SA.2001.

[25]Z.P.Jiang,J.L i,H.T.N g.Semant ic A rg ument

Classificatio n Explo iting A rg ument Inter dependence

[C]//P ro ceedings of19th Int er national Joint Co nfer-

ence on A rtificial Intellig ence,Edinburg h,Scot land,

2005:1067-1072.

[26]H.T.N g and J.K.Lo w.Chinese P art-O f-Speech

T ag g ing:O ne-A t-A-T ime O r A l-l A t-Once?Wo rd-

Based Or Char acter-Based?[C]//Pro ceedings of the

Conference o n Empir ical M etho ds in N atur al Lan-

guag e Pro cessing.Barcelo na,Spain.2004.

[27]H.Duan,X.Bai, B.Chang,S.Y u.Chinese wo rd

segmentatio n at P eking U niver sity[C]//Pr oceeding s

o f the second SIG H AN w or kshop on Chinese lan-

guag e pr ocessing.Sappo ro,Japan,2003:152-155.

[28]V.P unyakanok, D.Rot h,W.Y ih.T he impo rtance

o f sy nt act ic par sing and infer ence in semant ic r ole la-

beling[J].Co mputatio na l L ing uist ics,2008,34(2):

257-287.

74

对现代汉语词义的新认识

浅谈词义的主观性 —对词义定义的再认识 摘要:“词义”的概念历来都让人难以把握,在中国,对现代汉语词义的研究可以说是很成熟了,古今中外,无数的学者定义过词义,让人遗憾的却是没有任何一个定义是让人完全信服的。词义的定义中通常只体现了词义的“客观性”,忽视了“主观性”这一性质。然而主观性在词义形成的过程中起着不可小觑的作用。本文综合利用现代汉语词义研究的成果,借鉴中外语言学界的意义理论,主要从词义的内容和性质出发谈及主观性及其在词义中的地位,进一步分析词义和思维的关系,对词义的定义进行思考。 关键词:主观性;词义;现代汉语;意义;思维; 要准确地定义词义,我们首先得深入的了解词义和思维的关系、词义的内容、词义的性质以及词义的功用。只有掌握了这几个部分以后,我们才能对词义有完整真实的概念,目前中国的学者对词义的定义主要还是体现了词义与思维的关系,很少涉及到其他的内容,甚至忽视了一些很重要的内容,并不能完整地反映出来词义的全部面貌。比如,王德春在《普通语言学》中认为:语义是语言的意义内容,他把语音形式表现出来的语言和言语的所有内容包括在内,是客观现实在人脑中的概括反映,是语言的重要组成部分。这个定义涉及到的词义的内容,主要还是和概念相关的词汇意义,更多的还是强调了词义和思维的关系。正如张先亮、聂志平在《语言学概论》中谈到:语义是通过语言形式表现出来的社会群体对现实事物现象的认识和反映。这个定义实则也是强调的思维关系。 通过查找资料,我们可以发现在各种词汇学理论的著作中,“词义”的定义似乎都如出一辙,几乎“词的意义内容就是词义”这样一个看似简单精练,实则并不完善界定就这样被我们义无反顾地接受了。葛本仪先生在《现代汉语词汇学》(2000)中说到“可以说词的意义内容就是我们所说的词义”,然后进一步解释了词的意义内容包括词汇意义、语法意义、色彩意义。不同的学者对这个意义内容的理解是不一样的,比如苏新春在《汉语词义学》(2008)中,把词的意义内容分为了表层义、深层义、语法义、文化义。符淮青先生对词义的界定几乎和葛本仪先生一致。王军在《汉语词义系统研究》中认为词义的内容主要包括表层规

现代汉语词汇全部作业答案

【第一次作业】 题目:“铁路”是词,“铁锅”是词组。 正确答案:正确 题目:一个多义词的各个义项,可以分别与不同的词构成反义关系。 正确答案:正确 题目:关联性联系形成的新义是词的比喻义。 正确答案:错误 题目:“啤酒”“芭蕾舞”是合成词。 正确答案:正确 题目:词的本义又叫基本义,是词的最初意义。 正确答案:错误 题目:叠音词属于合成词中的一类,如"莽莽”"姥姥”。 正确答案:错误 题目:“虚义语素”是指“子、儿、”等无具体词汇意义的词缀。 正确答案:错误 题目:“找茬儿”中的“茬儿”是单纯词。 正确答案:错误 题目:固定语在结构、意义、作用上有自己的特点,但仍是词汇的组成部分。 正确答案:正确 题目:“鼓掌”“睡觉”都是离合词。 正确答案:正确 题目:语素在构词中的特殊变异主要表现之一是语素义变得模糊。 正确答案:正确 题目:构词能力强是基本词汇与一般词汇的共同特点。 正确答案:错误 题目: MTV、WTO都是带字母的词语。 正确答案:错误 题目:一个多义词的各个义项,可以是词义,也可以是语素义。 正确答案:正确 题目:由于成语意义的整体性特点,构成成语的语素义直接相加不能显示成语的整体义。

正确答案:错误 题目:同音词即声、韵、调相同或相近的词。 正确答案:错误 题目:同义词是概念义与附属义完全相等的词。 正确答案:错误 题目:常用词可以是基本词汇中的词,也可以是一般词汇中的词 正确答案:正确 题目: "摩托车”是半译音半译义外来词 正确答案:正确 题目:词都有概念义,同时也有附属义。 正确答案:错误 【第二次作业】 1、简答四音节的成语是怎样形成的? 答:①成语绝大多数是四音节的,有一部分后来成为成语的词语,原来就是四音节的。如"一息尚存”,出自《朱子全书?论语》:"一息尚存,此志不容少懈,可谓远矣。”"一息尚存”指生命的最后阶段。 ②但大多数成语为四音节,有一个逐渐发展的过程。这同汉语语言片断双音节化有关相当关系。双音同双音结合,是现代汉语的一个主要节奏倾向,而绝大多数成语都用了这种节奏。各种长短不同的词语形成四音节的成语的原因有四个方面: (1)选取原句中最能概括全句或全段意义的成分组成成语。 (2)用四字概括事情、故事、寓言等的主要内容。 (3)省略句中虚词而成。 (4)增加成分(多为虚词或重义成分)于原句而成。 2、简答语素在构词中的特殊变异主要有哪些表现? 答:(1)语素义完全消失。这指的是某个语素原有的意义在它构成的一些词中完全没有表现,词义完全由另一语素表示,例如"国家”中之"家”,"忘记”中之"记”的意义完全消失了。 (2)语素义模糊。这指的是某些语素原有的意义在其构成的某些词中完全没有表现,但词义又并非完成由另一语素表示,因此不能说这个语素完全没有意义,却又不能说词义减去另一语素的意义等于这个语素新获得之义。这里语素的意义是模糊的。例如"捣蛋”中之"蛋”,"电池”中之"池”在这里的意义是模糊的。 3、简答同义词产生的最主要途径是什么? 答:(1)新旧词并存可以构成同义词,如:文法——语法,母音——元音等; (2)标准语和标准语吸收的方言词可以构成同义词,如:馒头——馍,玉米——棒子等;(3)外来语词和本民族语词可以构成同义词,如:幽默——诙谐,海洛因——白面儿等;(4)外来语言的译音词和意译词也可以构成同义词,如:公尺——米,连衣裙——布拉吉等;同义词产生的最主要的原因是随着社会生产、社会生活的发展、思想的发展,语言的词

现代汉语词语比较

语言学里的几组词语比较 “差点没”和“差点”的区别何在? 一位学汉语的韩国人曾问中国老师:[考大学]差点没考上,差点考上。这两个句子的意思显然有差别,一是考上了,二是没考上。——但是,[活太多]差点没累死,差点累死。这两个句子的意思显然无差别,都是没有死。同样是“差点没”和“差点”,为什么效果不同? 差点没累死是“差点没把我累死”的省略,很大程度上是一种虚拟,也就是说是不可能存在的。 差点没考上,就不一样了. 我是这样理解的,在“差点,差点没”后的那个词是自己希望达到的,那么意思就有差别,比如“我上次四级考试差点就优了”,表示惋惜。 而“我上次四级差点没优啊!”表示好险优了。而“差点,差点没”后跟的是和自己愿望不符合的东西,句意就相同了。 差点后面加上趋势是向上的事物时,表示与此趋势相反;差点后面加上趋势是向下的事物时,表示与此趋势相同 "有点”和“一点”的比较 “一点”和“有点”在表义上有相同点,即都表示“略微,稍微”,但两者在表义和用法上有不同之处,大致规律如下: 1,如果需要修饰谓语动词或形容词时,需要在动词、形容词前用“有点”作状语,如果需要补充说明谓语动词或形容词时,需要在V/A后用“一点”作补语。(V/A 表动词或形容词) 2,当一个句子具有请求、劝告、命令、催促、对比、比较等意思的时候,一般要在V/A后面用“一点”作补语 3,否定句的V/A不能用“一点”作补语;而要用“有点”作状语 4,陈述句一般也要用“有点”做V/A的状语 5,有时候,V/A既可以用“有点”作状语,也可以用“一点”作补语,此时,是用哪个要看具体语言环境 eg:(1)酒一口一口吞下去,心头好象有点活泼起来了。(鲁迅《在酒楼上》) (2)我的汉语水平有点提高。 (1)可以说成“心头好象活泼一点了”;(2)可以说成“水平提高一点了。” 在这些句子里,用“有点”和“一点”所表示的意思是一样的,但是语气不完全相同 接受“和“接收“的区别是怎么解释? 1 我《接受+接收-》了他的礼物 2 我接受+ 接收- 了他的感情 3 信号接受- 接收+ 到了 4 这个学校接受+ 接收+ 外国留学生 5 他的条件我不能接受 从上面例子我觉得他们有两点区别 第一接受是在客观上收到和主观上同意接收是客观上收到不强调主观 第二接受连接的宾语多是感情和看得见的事物接收的是虚拟的象信息,汇款之类 方位词“里边”和“里”如何区分 答1:主要是具体使用上的区别,特别是在做词语的语法功能上的区别时。如:“里面很宽敞”,就不能说成“里很宽敞” 答2:我觉得里边是名词里是副词,前者做主语宾语后者只能做补语 答3:里跟在别的名词后构成方位短语之后,整体作句子的主宾,里边是复合方位词,可单独做句子的主宾 现代汉语中的近义词该如何比较辨析呢?请说说分析方法!比如:一样和同样

最新现代汉语词汇教案

第三节现代汉语词汇 词汇是一切语言文字学习的基础,我们看到中外语言的学习都是从词汇开始的,比如说汉语在最初的学习阶段是要求组词,英语是要求去默写它的单词。实际是看到了词汇学习的重要性,只有夯实了基础,才能真正掌握一门语言。 一、词的意义 从词的意义的多少来划分:词分为———单义词和多义词。 1.单义词: 顾名思义,是指只有一项词义的词。 再根据词的指向范围和对象来分,词可以分为以下几类: a.专有名词:鲁迅、北京、中国等 b.一般名词:人、自行车、椅子等 c.人称代词、数量词:她、一、二等。 ——专有名词的指示对象是唯一的,而一般名词可以指示的对象范围很广,所揭示的也只是这类事物的一般特征,这是两者的区别。 2.多义词: (1)多义词:是指具有两个或两个词义以上的词。 一般来讲,一个语言发展的历史越悠久,文化积淀越深厚,它所拥有的一些词的内涵,使用范围也就越广。因此多义词是语言发展变化的必然产物,汉语中的大多数词就是多义词。 比如在我们书上80页,说到“脸”,刚开始的时候,只是指人的头的前部,从前额到下巴这一块。后来随着语言的发展,就慢慢发展了“情面、面子”这样一些意义出来了。(关于“打”,打仗、打架、打气、打水、打酱油、打官司)要识别这些多义词的具体含义,需要放在具体的语境中去。 (2)多义词各义项的联系 按照一般的规律来讲,多义词的各种义项的产生,都是围绕着一个最基本、最主要的意义为核心来进行的。大体来讲是首先有基本意义,然后才产生转义。 ①本义: a.多义词的基本意义是指:一个词最主要、最常见的意义。 ——我们一般学习某一种语言最容易掌握的,也是一个词的最基本意义,而且这个基本意义是不要特别的语境提示,也能清晰地辨别出来的。 例如,以书上80页,“火候”为例,它最基本的词义是: “火力的大小和时间的长短”,发展到最后才是用来比喻“人的修养程度的深浅”,或者是用来比喻“一个最关键的时刻”。 b.本义与原义的辨析: “原义”:是指原初本义。 ——大多数的情况下,一个多义词的最本的意义,往往是它的原初意义;但是,随着语言的发展,一个词的基本意义可能会偏离它最初的原初意义。 以“兵”为例:

[之美,汉语,修辞]论汉语谚语的修辞之美

论汉语谚语的修辞之美 1 前言 人们在谈话和表达想法的时候经常会用到汉语谚语,例如:不听老人言,吃亏在眼前,这是长辈们以他们的经验给我们讲道理而我们却不听的时候经常会用到的无奈之语;当我们经历了漂泊,终于回到自己的家里,就会感叹金窝银窝,不如咱家的狗窝。谚语是历史上长期流传,表达民俗,含有深刻社会经验的简练形象的语句。它是人类语言普遍存在的一种熟语形式。谚语中一部分出自典籍或民间性的作品,但大部分是历代人民群众的生活经验的总结,在民间口耳相传。 谚语内容丰富、运用广泛,存在于我们的日常生活中的方方面面,例如:有关饮食保健的谚语:桃养人,杏伤人,李子树下埋死人有关行走坐卧的谚语:只要迈开两脚,哪愁千里迢迢有关衣食的谚语:人是衣裳马是鞍有关时令节气的谚语:二月二,三月三,清明寒食过三天有关医药卫生的谚语:伤筋动骨一百天教人勤奋学习的谚语:书到用时方恨少有关农事的谚语就更多了:人误地一时,地误人一年、庄稼一枝花,全靠肥当家等等。 谚语有其独特的审美特征,例如风格美、音乐美、对称美、修辞美等。本文就汉语谚语的几种常见的修辞手法比喻、比拟、夸张、对比等,结合人们日常生活中常用的汉语谚语的例子来展示其修辞之美。 语言学家郭绍虞先生在论及汉谚语时说:谚语在民众艺术上所以有留存的余地,与其说由于它的内容幽玄深邃,不如说它形式的奇峭警拔,与运用各种修辞手段、巧妙地遣词造句有密切的联系。语言接受文化模式、文化传统的影响和制约,运用修辞手段,调度语言元素表达对事理的认识和态度,当然也离不开文化模式和文化传统的影响和制约。汉民族思维能力很强,尤其擅长具象思维,喜欢在万事万物之间发现某种联系,甚至包括非逻辑的联系,进行联想和想象。这样的思维倾向形成汉民族审美观念:就是以形象为美、含蓄为美。比喻、起兴、借代、比拟、象征等修辞手段的运用都表现了汉民族的这种思维模式,所以这些修辞手段在汉谚语中显得特别活跃。 2 汉语谚语修辞之美的表现手法 2.1 精彩的比喻 比喻就是打比方,用本质不同又有相似点的事物描绘事物或说明道理的辞格,也叫譬喻。它能贴切生动地表达抽象复杂的事物,浅显通俗地说明深奥难懂的道理,在谚语中,运用方式多样。有的是明喻,出现本体、喻体和比喻词犹、若、好像、好比、如同、仿佛、一样、一般等等;有的只有本体和喻体,没有比喻词,是暗喻;有的只有喻体而不出现比喻的对象,是借喻;有语句层面的比喻也有意义层面的比喻。比如:①困难像弹簧,看你强不强,你弱它就强,你强它就弱。②病来如山倒,病去如抽丝。③田是崽,水是娘。④灯不拨不亮,理不辨不明。⑤尺有所短,寸有所长。⑥杀鸡焉用牛刀。 以上运用了比喻手法的谚语中,例①、②是明喻,本体分别是困难和病来、病去,喻体分别是弹簧和山倒、抽丝。比喻词分别用了像和如。例①把困难比作弹簧,告诉我们对待困

语言学 语汇和语义答案

测 试 试 卷(第五章 语汇和语义) 测试时间: 2010——2011学年度第二学期第十五周 测试对象: 2009 级 汉语言文学 专业 课程: 语言学概论 考试时量: 100分钟 考试方式:闭卷 一、填空:11分 1、汉语的姐姐、妹妹,英语用( )表示,汉语的叔叔、伯伯、舅舅、姨父、姑父,英语用( )表示。 2、多义词有多项意义,最初的那项意义叫( ),离开上下文人们就能知道的那项意义叫( ),例如“老”有“年纪大”、“经常”、“过去的”等意义,“年纪大”是( ),其余的是( )。(本义 中心义 中心义 派生义) 3、( )( )( )是词义概括性的三个重要的表现形式。(一般性 模糊性 全民性) 4、派生义的产生方式主要有( )和( )两种。(隐喻 换喻) 二、判断:6分 1、“红”和“白”,“男”和“女”都是相对反义词。( × ) 2、反义词可分为相对反义和绝对反义两类。例如“生”与“死”是相对反义词。( × ) 3、英语单词pen 本意是指羽毛,派生意是指钢笔,这种词义引申方式是换喻。( √ ) 4、基本词汇具有一般性、模糊性和全民常用性三个特点。( × ) 5、同义词“little-small ”的意义差别是感情色彩不同。( √ ) 6、一个词最初的意义就是这个词的中心意义。( × ) 三、单项选择:8分 1、词义具有模糊性特点,( )组词语的意义不具有模糊性。( ) A .运动 学习 射击 B .伟大 渺小 早晨 C .白天 晚上 中午 D .快乐 悲伤 非常 2、下列各组词都属于基本词的是( ) A .map cut cap really B .dear cut cap really C .miss classroom TV D .make look do get 3、一般说来,新词、古词、方言词、行业词和外来词等( )。 A .属于一般词汇 B .属于基本词汇 C .有的属于基本词汇,有的属于一般词汇 D .有时属于基本词汇,有时属于一般词汇 4、同义词"抢劫"和"抢夺"的区别是( A )不同。 A .词义轻重不同。 B .感情色彩不同。 C .风格色彩不同。 D .语法功能不同。 四、术语解释:22分 1、同义词 2、本义和派生意义 词的有历史可查的最初的意义是本义,它是产生其他意义的基础;由本义衍生出来的意义是派生意义。 3、反义词 4、隐喻和换喻 是词义引申的两种方式。隐喻反映的是不同现实现象之间的相似关系。换喻反映的是两类现实现象之间存在着某种相关关系,这种相关关系在人们的心目中经常出现而固定化,因而可以用指称甲类现象的词去指称乙类现象。 5、义素 义素是词义的最小的语义构成成分,又叫语义特征。例如“男子”是由“人”+“男性”+“成年”等义素构成的,这些义素合起来来,是“成年男性”,这就是“男子”这个词的意义。 6、多义词和单义词 7、基本词汇和一般词汇 词汇体系中,标志着与人们世世代代的日常生活有密切关系的事物的词以及表示事物关系的常用虚词的总汇,是词汇中的主要部分,具有全民常用性、稳固性、能产性等特点。 语言词汇中除了基本词汇以外的词构成语言的一般词汇,它的主要特点是:不是全民常用的;或者虽然在短期内为全民所常用,但不稳固,容易发生变化;一般没有构词能力或者构词能力比较弱。 五、简答:25分 1、举例说明基本词汇的特点。 基本词汇有以下三个特点: 1)全民常用性。基本词汇里的词表示的都是一些最常见的现实现象和基本概念。例如汉语中的“水、饭、菜、睡、衣服、车、吃、走、看、听、大、热、高、新”等; 2)稳固性。基本词汇中的词大多是自古就有的,历史悠久,人们世世代代都在使用,不容易发生变化。例如汉语三千年前的甲骨文中已经有了“牛、马、鸡、酒、日、月、雨、风、大、小”等词,这些词自古至今都是常用的; 3)构词能力强,是构成新词的基础。例如“火”,可以组成“火车、火箭、炮火、烈火、火红”等。 2、什么是词义的全民性?为什么词义具有全民性的特点? 词义的全民性指词义反映的现实现象是全社会成员共同认知的,没有阶级之分,没有阶级性。 词义的全民性是由语言作为人类最重要的交际工具这一社会职能决定的。语言没有阶级性,一视同仁地为全社会成员服务,词义作为语言要素的组成部分,当然也不可能有阶级性。 院(系):___________级别:_________ 专业(班次):____ ___学号:______ ____姓名:______ (请考生将上述信息按规定要求填在密封线以上的栏目中,未按要求填写的试卷作废) -----------------------------试----------------------卷-----------------密---------------封----------------线---------------------

现代汉语中的类固定词语浅析

现代汉语中的类固定词语浅析 类固定词语是一些准凝固性的四字格短语。类固定词语与成语既有区别又有联系,具有以下几个特征:总体结构形式框架固定;语型意义复杂,但个体意义较为单一;构词能力强;部分有成语化趋势;语型数量庞大。在整个汉语词汇系统中,类固定词语的比率相当高,对类固定词语进行研究具有重要意义。 标签:类固定词语成语语型 一、成语和类固定词语的研究概况 类固定词语是相对于成语的概念提出来的。成语是汉语中很有特色的词汇成分,学者们进行了大量的研究。1958年,马国凡先生最早出版了研究成语的专著《成语简论》。一般研究汉语词汇的著作都对成语有所研究,如符淮青的《现代汉语词汇》、武占坤与王勤合著的《现代汉语词汇概要》和葛本仪的《现代汉语词汇学》等都有对成语的论述;另外,一般高等院校的汉语教材也都有成语一节,如黄伯荣、廖序东主编的《现代汉语》等。学者们在研究成语的同时,往往忽视汉语词汇体系中的另一种语言现象,即类固定词语。近些年来才有学者注意到这一语言现象,胡明扬在《语言学概论》中曾提到部分成语的不固定现象;齐沪扬在《修辞学习》上发表的《有关类固定短语的问题》开始正式对类固定词语的问题加以研究。张斌在其主编的教材《现代汉语》及著作《现代汉语语法十讲》中对此也有论述。但目前学界对类固定词语的研究远不如对汉语成语的研究那样深入。本文试对类固定词语的研究提一些粗浅的看法,以就教于方家。 二、类固定词语的特征 成语是汉语词汇中非常独特的部分,黄伯荣、廖序东主编的《现代汉语》中把它定义为“是一种相沿习用具有书面语色彩的固定短语”,把它的特征概括为:第一,意义具有整体性,即成语的意义往往并非其构成成分的简单相加,而是在其结构成分的意义基础上进一步概括出来的整体意义;第二,结构的凝固性,即成语的构成成分和结构形式都是固定的,不能任意变动词序或抽换、增减其中的成分。类固定词语是相对于成语的概念提出来的。张斌在其主编的教材《现代汉语》中,把类固定词语界定为:“类固定词语主要是指一些准凝固性的四字格短语,当然,也可以包括一些非四字格的固定格式。”我们赞同这一定义。类固定词语的特征与成语有相似性,但更多的是相异性。 我们把类固定词语的特征概括为以下几点: (一)总体结构形式框架固定 在结构上,类固定词语中的一部分成分是固定的,不能改变的,如大量存在的“没A没B”式,其中“没”和“没”是不变的,而A、B位置的词可以是适合语境的任意一个词,例如:

谚语研究综述_陈成

M 2013.10谚语研究综述 □陈 成 摘 要:进入21世纪之后,人们开始运用对比语言学、认知语言学、心理语言学等现代语言学的理论和方法研究谚语。研究内容涉及汉语谚语的本体研究、汉语谚语与其他民族谚语(主要是英语)的对比研究和有关对外汉语教学中的谚语研究,但缺乏对汉语谚语的社团性的系统研究。 关键词:谚语 汉语谚语 谚语社团 汉语谚语十分丰富, 谚语的定义至少有八九种。据温端政(1985)所讲,谚语有广义和狭义之分。狭义的谚语只包括以说明事理、传授知识和经验为目的的俗语。温端政在《汉语语汇学》(2005)中进一步把谚语定义为“非二二相乘的表述语”。其要点是:谚语是汉语语汇的组成部分;谚语是表述性的语言单位,这是谚语区别于歇后语和惯用语的主要特征;谚语是非二二相承的表述语,这是谚语区别于表述性成语的形式特征。本文中的谚语指狭义的谚语。 现代的谚语研究始于20世纪上半叶。按照温端政(2000)的观点,可分为四个时期。 一、20世纪初到新中国成立前的谚语研究 20世纪初到新中国成立前,谚语研究的代表人物有郭绍虞、薛诚之等。郭绍虞《谚语的研究》(1921)认为广义谚语太宽泛,首次主张把狭义谚语作为讨论对象。杜同力《关于谚语的报告和说明》(1925)涉及谚语的方方面面,但讨论的问题不够集中,也不够深刻。曹伯韩《谈谚语》、陈以德《从谚语的搜集整理谈到口头语的语汇》和王国栋《谚语的搜集和整理》从谚语的搜集整理中看到某些问题进行研究。王顺德《北夏农谚研究》从地方性谚语这一角度去研究农谚的意义、性质和功用。薛诚之《谚语的探讨》(1936)最先提出谚语是一种语言形式,属于民俗学的范畴。 这一时期的研究观注把谚语同其他容易混淆的语言形式,特别是格言、歇后语、歌谣等进行比较,指出其间的异同;另一个特点是注重口语调查,到人民群众中收集第一手的资料。但这时并未把谚语研究纳入语言学的研究范畴,影响了研究的科学水平。 二、新中国成立到改革开放前的谚语研究 新中国成立到改革开放前,谚语研究的主要著作有马国凡《谚语的特点》(1960),杨欣安《成语与谚语的区语研究侧重于特点、分类和内容等方面,把谚语作为“熟语”的一种,自觉运用语言学的观点和方法进行研究。 三、新时期的谚语研究 新时期谚语研究进入鼎盛时期,研究范围广泛。主要著作有武占坤、马国凡《谚语》(1980)、王勤《谚语歇后语概论》(1980)、孙维张《汉语熟语学》(1989)和温端政《谚语》(2000)。在广度上,注重谚语的语用研究,包括谚语的社会功能、语用作用、修辞作用,以及规范化等方面的研究,展现了谚语研究的广阔领域。在深度上,对谚语的性质,除了多方面探讨其内容形式上的特点外,还注意探讨更有概括力的本质特点。另外,谚语语义研究开始受到学者们的重视。 此外郁福敏、郭珊莲《英汉习语对比》(1999)和蒋晶《英汉习语的文化观照与对比》(2000)从跨文化差异角度对汉、英谚语进行了对比研究。 四、新世纪的谚语研究 新世纪对汉语谚语本体的研究也在不断地深化和扩展。何学威、陈素萍《论谚语的形式美》(2003)论述了汉语谚语的精悍凝练美、均衡对称美、回环反复美、声律和谐美、多样统一美。罗圣豪《论汉语谚语》(2003)指出由于个人主义的兴起,西方谚语逐渐消亡,而汉语谚语能够经久不衰的原因;同时从内容和形式两个方面,对汉语谚语的历史与定义作了概述。沈怀兴《汉语谚语中意合法的运用》(2004)对几部谚语集子和谚语词典进行考察,发现汉语复句谚语中95%以上是用意合法创造的,并从汉语社会的文化特质、历史变化、汉民族语言习惯、汉语特点等角度分析了其原因。江源源《从系统功能角度解读汉语谚语》(2011)讨论了谚语在“表达概念功能、人际功能、语篇功能”三个方面的独特性。侯璞《谚语的语篇功能》(2012)提出“谚语语篇块”的概念,论述了谚语语篇块的信息结构、内部衔接、内部连贯、篇章分布及语用功能。 理论?综述

现代汉语词汇作业答案

现代汉语词汇》 1、简答四音节的成语是怎样形成的? 答:①选取原句中最能概括全句或全段意义的成分组成。如:乘风破浪(愿乘长风,破万里浪。)②用四字概括事情、故事、寓言等的主要内容。如:狐假虎威 ③省略句中虚词成分。如:后来居上(后来者居上)④增加成分。如:短兵相接(车错毂兮短兵接) 2、简答语素在构词中的特殊变异主要有哪些表现? 答:(1)语素义完全消失 如“国家、忘记、窗户”的“家、记、户” (2)语素义模糊 如“牲口、打尖、淡水”的“口、尖、淡” 3、简答同义词产生的最主要途径是什么? 答:①新旧词并存构成同义词(母音一元音)②标准语和标准语吸收的方言词构成同义词(玉米一棒子) ③外来语词和和本族语词构成同义词(幽默一诙谐)④外来语言的音译词和意译词构成同义词(公尺一米) 4、简答谚语有哪些主要类型。 答:(1)农谚(2)气象谚(3)讽颂谚(4)规诫谚(5)风土谚(6)生活常识谚(7)修辞谚例略 5、简答基本词汇与一般词汇的关系? 答:①基本词汇中的词派生的词,构成的新词,绝大多数属于一般词

汇②一般词汇中有些词随着社会生活的发展,具有了基本词汇的特点,进入基本词汇③随着社会生活的发展,某些基本词汇的词所代表的概念在社会 生活中已不重要,即变为一般词汇的词 6、简答同义词与反义词各有什么作用。答:同义词的作用:(1)增强语 言的精确性 (2)增强语言的表现力反义词的作用:(1)表示不同事物现象的对立(2)表示同一事物现象在不同关系上的对立(3)帮助构成双音词、成语7、简答成语的整体义表现为哪三种情况。 答:(1)成语的整体义是语素义直接相加。(2)成语整体义同语素义的联系是人赋予的,约定俗成的。(3)比喻义是成语的意义。 8、举例阐述成语和谚语的特点与区别? 答:①成语书面语性强,谚语口语性强②成语比谚语更定型化③成语在运用中相当于词,谚语多数可** 成句或** 于句外。 9、举例论述离合词与述宾结构词组的区别。答:名词并入与汉语的述宾式离合词都是由名词性成分和动词性成分组成的一个整体,有可分可合的句法特点, 但二者性质不同.通过比较可以发现, 前者是共时平面的句法规则,后者是历时的词汇化的产物, 要区别对待. 10、举例论述上下位词在语言中出现的情况。答:正上下位词是上下位概念关系的词, 如“人”和“男人”“女人”, “鱼”和“带鱼”“鲤鱼” , “植物”和“苹果”“小麦”等, 从上下位词在语言中存在的情况和它的作用来看, 上下位词是值得深入探讨的。先谈上下位词在语言中出现的情

汉英谚语语言特点相似性的比较

汉英谚语语言特点相似性的比较 08级对外汉语班陈桂平学号2008034103 摘要:谚语来源于生活,是民族历史语言文化的高度浓缩和集中体现。本文分析了汉英谚语在语音、语法和语义方面的相似之处,有助于对谚语的学习与研究,并能更好地了解中西方文化的内涵。 关键词:汉英谚语;语言特点;相似性;比较 谚语是民间广泛流传运用的剪短并含有劝告或借鉴意义的语句。不止是汉语有谚语,英语也有。我们接触到过的,如“少壮不努力,老大徒伤悲”“Practice makes perfect”等,都是为我们熟悉的。谚语本是来源于生活的,它以简洁通俗、生动准确的语言综合概括多种生活现象,科学地总结生产、生活经验,具体形象地说明普遍真理,蕴含着丰富的寓意和哲理,是人类智慧的共同结晶。汉英两种语言历史悠久,包含着大量的谚语。两种谚语在语音、语法和语义上有许多相似之处。 一、汉英谚语的语音对比 谚语之所以能迅速而持久地为民众所接受,其中一个原因是其音律和谐,读起来琅琅上口,使人容易记忆。在这一点上,汉英谚语具有明显的相似之处。(一)重复 英汉两种谚语在语音上有一种相同的表现形式,即重复。重复作为一种修辞手段,包括重复某一个词,也包括重复某一元音,从而达到强调强调的效果。1、词汇的重复 (1)汉语例句 种瓜得瓜,种豆得豆。 在这条谚语中,汉字“瓜”出现重复,旨在强调“任何的收获都来源于自己的努力”。 (2)英语例句 Diamond cut diamond.(强中自有强中手)。

在这条谚语中,单词“diamond”重复两次。旨在强调“在你的同行中还有更强大的对手”。 2、音韵的重复 (1)汉语例句 踏破铁鞋无觅处,得来全不费功夫。 这句中的“处”和“夫”,重复了韵母u。 (2)英语例句 Learn to creap before you leap.(先学跑,后学走) 这个例句中的“creap”和“ leap”,重复了「i:p」。 通过对比,我们发现,无论是汉语谚语还是英语谚语,在语音上都通过重复出现相通的词或者韵律来达到音韵美的效果。 (二)韵律 1、前后押韵 (1)汉语例句 ①师傅领进门,修行在个人。 ②又要马儿跑,又要马儿不吃草。 在这两条谚语中,两个例句的前后都押韵。①句有相同的韵母「en」,②句有相同的韵母「ao」。 (2)英语例句 ①No pains,no gains.(不劳无获) ②East or west,home is the best.(金窝银窝不如自己的狗窝)。 在这两条英语谚语中,两个例句前后的词都押韵。①②句末尾都含有发音相同的单词组合一构成押韵。 3、双句对仗 汉英谚语在句式搭配上有个共同点——双句对仗。这种句式主要是前后两部分,结构整齐对称,音节数目相等,在语感和视觉上都给人美的感受。 (1)汉语例句 ①只要功夫深,铁杵磨成针。 ②良药苦口利于病,忠言逆耳利于行。

词语之间的几种语义联系

词语之间的几种语义联系 自从“现代语言学之父”、世界最著名的语文学家索绪尔于本世纪初提出“语言是一个符号系统”的观点以来,词语之间的系统联系一直是语言学家关注的焦点之一。特别是近几十年来,词语之间的语义联系越来越受到语言学家重视,围绕词语之音的语义联系问题,语言学家提出了一系列重要的新理论、新方法和新概念,如语义场理论、义素分析法等等。传统语言学只注意到词语之间的同义关系和反义关系,而实际上词语之间还有许多别的重要的语义关系。有些语义关系已被语言学家发掘出来了,还有一些则有待于进一步发掘。这里谈谈除了同义反义关系之外的几种重要的语义聚合关系,并谈谈他们在词语解释中的作用。 一、上下义关系 上下义关系是词语之间语义上的包含与被包含的关系,凡是一个词语的全部语义(概念意义)包括在另一个词语的语义之中,这两个词语就构成上下义关系。上下义关系就是逻辑学上的属种关系,具有属种关系的一组词就是上下义词,其中表示属概念的词是上义词,表示种概念的词是下义词,如:“笔-钢笔”、“人-男人”、“听-偷听”、“销售-批发”、“红-粉红”、“白-雪白”等等。其中“笔”是“钢笔”的上义词,“钢笔”是“笔”的下义词。其余依此类推。 上下义词都有属种关系,没有属种关系的词不是上下义词,如构成整体与部分关系的词就不是上下义词,如“中国-北京”、“衣服-衣襟”、“森林-树”、“船-船队”都不是上下义词。表示等级关系的词也不是上下义词,如“博士-硕士”、“处长-科长”、“年-月”都不是上下义词。因为这些词语之间并没有逻辑上的属种关系。 上下义词具有包容性,上义词的所指范围包容下义词所指范围,可以进入“乙是甲”的格式,但不能反过来说“甲是乙”。如可以说“钢笔是笔”,但不能说“笔是钢笔”。从逻辑上讲,如果乙真,则甲必真;如果乙假,则甲或真或假。如,“这是钢笔”为真,那么“这是笔”必真;若“这是钢笔”为假,那么,“这是笔”可能是真的,也可能是假的。 上下义词具有相对性,甲词是乙词的上义词,乙词又可能是丙词的上义词。如“枪”是“武器”的下义词,又是“手枪”的上义词。 由于上下义词还具有传递性,若甲词是乙词的上义词,乙词是丙词的上义词,那么甲词也是丙词的上义词。反之亦然,如“人”是“男人”的上义词,“男人”是“老汉”的上义词,那么“人”也是“老汉”的上义词。 由于上下义词具有传递性,因此上下义词的上下义关系有远有近。具有最邻近的上下义词,就是直接上下义词,其他上下义词就是间接上下义词,如“人-男人”就是直接上下义词,“人-老汉”就是间接上下义词。 上下义关系是词语之间的重要语义关系,我们平常解释词语,给概念下定义,常常要利用词语之间的上下义关系,构成“属加种差定义”。如“钢笔是笔头用金属制成的笔。”“石雕是在石头上雕刻形象、花纹的艺术。”这种“属加种差定义”是最常见的定义方式。 二、总分关系 总分关系是词语之间语义上的整体与部分的关系。如果一个词语所指的事物属于另一个词语所指事物的一个构成部分,这两个词语之间就构成总分关系。具有整体部分关系的一组词是总分词,其中表示整体的词是总义词,表示部分的词是分义词,如“中国-上海”、“大学-系”、“房子-客厅”、“教学楼-教室”、“ 身体-头”、“鞋子-鞋底”、“四季-春天”、“森林-树”、“船队-船”等等。其中“中国”是“上海”的总义词,“上海”是“中国”的分义词。其余依此类推。总分词中分义词所指对象是总义词所指对象的构成部分,可以进入“乙是甲的一部分”的格式。如“上海是中国的一部分”。 总分词与上下义词有类似之处,都可进入“甲包括乙”的格式。但上下义词之间是属与种的关系,可以进入“乙是甲”的格式,总分词之间是整体与部分的关系,不能进入“乙是

关于现代汉语词语的语法功能分类

关于现代汉语词语的语法功能分类 俞士汶 北京大学计算语言学研究所 1.信息处理用现代汉语词语分类体系 在朱德熙先生的语法理论的指导下,北大计算语言学研究所与中文系合作,经过几年的研究,提出了一个服务于语言信息处理的现代汉语词语分类体系,并将数以万计的词语实际进行了归类,与此同时还按类详细描述了每个词语的多种语法属性,初步建成了“现代汉语语法电子词典”,另外对数十万字的语料进行了切分和词性标注。这就又进一步检验了词类划分的科学性与可操作性。这到如此规模和如此浓度的汉语语言工程实践可能是罕见的。 本文介绍现代汉语词语分类体系、分类的理论基础,并以若干词类例详细介绍具体的划类准则。 现代汉语的词分以下18个基本词类,括号中的拉丁字母是各个词类的代码。 名词(n),时间词(t),处所词(s),方位词(f),数词(m),量词(q),区别词(b),代词(r),动词(v),形容词(a),状态词(z),副词(d),介词(p),连词(c),助词(u),语气词(y),拟声词(o),叹词(e)。 这些基本词类可以合并为较大的词类。名词、时间词、处所词、方位词、数词、量词统称为体词,动词、形容词、状态词统称为谓词。有一部分代词属于体词,另一部分代词属于谓词。体词、谓词、区别词和副词又合称为实词。介词、连词、助词、语气词合称虚词。实词与虚词是汉语两大词类。此外还有拟声词与叹词,它们游离于这两大词类之外。 自然语言处理的常规技术要求庆自然语言处理系统中配备一部电子词典。对于计算机来说,可以认为作为电子词典的登录项的语言单位是“词”。基本中大部分肯定是语言学家认同的词,这也就是暗示了其中一部分不能看作“词”。从计算机处理实际文本的需要出发,从提高计算机处理效率的角度考虑,词典中另外包含了以下7类语言成分: 前接成分(h):阿,老,非,超,单 后接成分(k):儿,子,性,员,器 语素字(g):民,衣,失,遥,郝 非语素字(x):鸳,批,蚣 成语(i):接部就班,八拜之交 习用语(l):总而言之,由此可见 简称略语(j):三好,全总 前4类是比“词”更小的单位,不成词。这些成分的数量是有限的,只要电子词典的规模允许,应当尽可能地将这些成分全部收入。后3类是比“词”更大的单位,词典中只能收一部分使用频率高的。本文将电子词典中登录的各种语言万分笼统地叫做“词语”。

英汉谚语语言文化特色对比分析

一、谚语概述 (一)定义 谚语是民间文学的一种,是群众经验的提炼。他反映了人民的生活和思想,具有广泛的通俗性、生动的口语化等特点。[1](P101-104)据《牛津高阶英汉双解词典》注英语谚语的定义为:Short well-known saying that states a general truth or gives advice.而虽然现代对有关谚语的研究很广,但在学术上,有关汉语谚语还没有一个权威的定义。朱介凡先生在其《中国谚语论》中说:“谚语是风土民性的常言,社会公道的议论,深思众人的经验和智慧,精辟简白,喻说讽劝,雅俗共赏,流传纵横。”而武占坤、马国凡在《谚语》中道:“谚语是通俗简练,生动活泼的韵语或短句,它经常以口语的形式,在人民中间广泛地沿用和流传,是人民群众表现实际生活经验的一种现成话。”由武占坤主编的《中国谚语集成·河北卷》中说:“谚语是靠群众口碑流传的艺术魂宝,它虽然只是词组,形式极为短小,但却凝练得像百炼的精金,纯净得如晶莹的钻石,生动得似潺潺的流水,风格质朴,韵味清新,满身泥土香,一派民族气。” 由上文关于英汉谚语定义的界定,可以总结出英汉谚语都具有广泛的流传性,以说知识、讲道理为主,且大都以短句的形式出现。 (二)内容 在内容上,英汉谚语都可以划分为三大类:讽喻、劝民和传播常识。 讽喻谚语是谚语的重要种类。这类谚语产生于政治斗争和社会生活等其它复杂环境中,其内容主要是扶正祛邪、激浊扬清。如: 1)The words of a dying man are good words. (人之将死,其言也善。) 2)What is near red becomes red;what is near black becomes black.(近朱者赤,近墨者黑。) 3)不会有不思念马群的马匹,不会有不怀念祖国的壮士。 4)大浪当前,不可抛桨;大敌当前,不能弃抢。 英汉谚语中最主要部分,是劝民谚。这类谚语富有哲理,教人学善,做好事,成为一个有益于社会和人民的德才兼备的人才。如: 1)Failure teaches success.(失败为成功之母。) 2)If one studies very hard when young,he will become a very useful man when old.(幼有所学,老有 英汉谚语语言文化特色对比分析 冯建民许丽红 (烟台南山学院公共外语教学部,山东龙口265713) 摘要:谚语是人类文化中最古老、最有价值的语言表达形式之一,是人民群众用来表达他们在生产和生活中的经验启发和感想的各民族文化的结晶。谚语作为习语的一种,是语言和文化的结晶,它是特定区域的人们对日常生产生活经验教训的总结和概括,一般精练短小,但具有鲜明的民族文化特色。并且,谚语的特色受到各民族生存环境、生活习惯、民族语言、宗教信仰等因素的影响。 关键词:英汉谚语;语言对比;文化对比 收稿日期:2009-5-11 作者简介:冯建民(1979~),男,汉族,本科,助教,黑龙江省黑河人,烟台南山学院公共外语教学部,研究方向:英语教学。 许丽红(1982~),女,汉族,本科,助教,吉林省松原人,烟台南山学院公共外语教学部,研究方向:英语教学。

现代汉语词义组合分析——以名词非自由义为例

现代汉语词义组合分析 ——以名词非自由义为例? 王惠 新加坡国立大学中文系 chswh@https://www.doczj.com/doc/098611904.html,.sg 摘要:随着语言研究的深入以及语言应用需求的推动,词义组合分析成为当今语言学中一个备受关注的前沿课题。本文的主要工作是在4300余个名词(以义位为单位)的语法属性描写基础上,首次明确定义了现代汉语名词自由义和非自由义的划分标准,并详细刻画其在组合中所受到的语法限制、搭配限制,探讨词义特征与词的组合能力之间复杂的制约关系。目的是为大规模的汉语词义组合分析探索出一条路子。 关键词:词汇语义学 词义组合分析 自由义 非自由义 汉语名词 A Grammatical Study on Restricted Meaning of Chinese Nouns Wang Hui National University of Singapore, Singapore 117570 Abstract: The research on Lexical Semantics, especially the syntagmatic study of lexical meaning has great theoretical and practical significance. Along with the development of Linguistics and motive force from Applied Linguistics, it has attracted more and more linguists’ attention all over the world since the 80s of the 20th century. This paper focuses on the large-scale and in-depth syntagmatic analysis of nominal meaning in Mandarin Chinese. Based on a comprehensive investigation of more than 4,300 noun senses, a distinction criterion between the Free meaning and Unfree meaning is put forward, and their syntactic behaviors and semantic constrains in sentences are also described in detail. The results indicate that there is close correlation between lexical meaning and its distribution, which will advance the research of Chinese semantics in general and provide a solid basis for Chinese lexicography and grammar description. Key words:Lexical Semantic, Syntagmatic Analysis, Restricted Meaning, Unrestricted meaning, Chinese Nouns ?本项研究得到新加坡国立大学学术研究基金(编号:R -102- 000 - 029 - 112) 与中国语言文字应用“十五”科研项目(编号:YB105-51)的资助,谨致谢意。

现代汉语词义辨析(考研)

1.“嗜好”一般用作名词,“爱好”除做名词外还可以做动词。 2.“嗜好”是指习惯成癖的爱好,因此,语义比“爱好”重,而且常含有贬义。“爱护”“爱抚”与“爱戴”这三个词词义相近,但存在差异,是不能混用的。“爱护”指爱惜并保护,指人时常用于上对下,如老师爱护学生、要爱护年轻一代;指物时,可以是具体事物,也可以是抽象事物,如爱护公物、爱护集体荣誉。“爱抚”指疼爱抚慰,如母亲爱抚地给女儿梳妆。“爱戴”的意思要高一层,指敬爱并拥护,只指人不指物,常用于下对上,大多用于对领袖,如老一辈无产阶级革命家受到人民的爱戴;也可用于对有名望、有突出贡献的人,如有突出贡献的专家、学者和科学家受到人民的爱戴。对一般领导不能用“爱戴”,只能用“爱护”,如尊重领导、爱护领导。 1.描写环境时,“平静”着重在没有动乱;“安静”着重没有声响。 2.描写人物时,多用“平静”,如“心情平静”;“安静”为安稳,如“安静的小姑娘”。都指没有声音,没有吵闹和喧哗。“安静”重在稳定,有使安稳平静下来的意思,它有一个由喧闹到安静下来的过程。而“宁静”重在平和,一般多指环境或心情平和安静,它描述的是一种很安静的状态或气氛。“宁静”是高于“安静”的一种情境,除了指环境外,更多的时候是指一种心情上的安宁,是人们追求的不受外界干扰的有质量的生活境界。而“安静”多指环境没有声音或吵闹。“安静”的使用范围要比“宁静”大一些。 “安详“指神态平静、从容稳重。“祥”指吉利,如“祥云、祥端、发祥”。“慈祥”形容老年人的态度神色和蔼安详。“祥和”指气氛而言。注意“安详、慈祥、祥和”的写法。 前者指使人或事物有着落,安放。后者指有条理,有先后的处理。 前者指宽解、安慰;后者指心情安适(或用作使动)。 1.介词,都有表示动作行为的根据和凭借的意思. 2.“按照”可用于口语或书面语,适用范围较广,有时可以和“说来”“来说”搭配;“依照”是书面词语,多用于法律条文、军政文告中 1.“安分”指守纪律,不胡作非为; 2.“本分”安于现状,不提出过分的要求,不进行非分的活动。“守本分”“安分守己”不能互换。 “黯然”,指“阴暗的样子”,也用来指“心里不舒服,情绪低落的样子”。“暗然”的“暗”有“光线不足、黑暗”的意思。“岸然”指“严肃的样子”。 “解脱”是不及物动词,不能带宾语;“摆脱”是及物动词,可以带宾语。 陈设:(动词)摆设。摆设:(名词)指供欣赏的艺术品/徒有其表而毫无用处的东西。 前者指花招,蒙蔽人的手法。后者指不正当的手段(贬义重)。 1.相同之处是,如“颁发命令”也为“发布命令”,意义用法相似。差别是,如“中央向硬骨头六连颁发嘉奖令”,着重受奖励者;“中央发布通令,嘉奖全体军人”,是让全军人知道这次嘉奖的命令。 2.使用范围差别“发布新闻”,不说“颁发新闻”;“颁发证书”,不说“发布证书”。 颁布:公布(法令条例,大的正规性文件)。公布:(法令、文告、团体的通知)公开发布。

相关主题
文本预览
相关文档 最新文档