当前位置:文档之家› 汉语词法分析和句法分析技术综述

汉语词法分析和句法分析技术综述

汉语词法分析和句法分析技术综述
汉语词法分析和句法分析技术综述

第一届学生计算语言学研讨会(SWCL2002)专题讲座

汉语词法分析和句法分析技术综述

刘群

北京大学计算语言学研究所

中国科学院计算技术研究所

liuqun@https://www.doczj.com/doc/432313428.html,

引言

本文主要介绍一些常用的汉语分析技术。

所谓语言的分析,就是将一个句子分解成一些小的组成部分(词、短语等等)并了解这些部分之间的关系,从而帮助我们把握这个句子的意义。

语言的研究,一般而言存在四个层面:词法层、句法层、语义层和语用层。

同样,语言的分析也存在四个层面:词法分析、句法分析、语义分析和语用分析。

本文主要介绍汉语的词法分析和句法分析技术。这两种技术是汉语分析技术的基础,而且已经发展得比较成熟。文中也会少量提及语义层面和语用层面的一些问题,但不会做深入的探讨。

汉语是一种孤立语(又称分析语),与作为曲折语和黏着语的其他一些语言相比,汉语在语法上有一些特点,仅仅从形式上看,这种特点主要体现在以下几个方面:

1. 汉语的基本构成单位是汉字而不是字母。常用汉字就有3000多个

(GB2312一级汉字),全部汉字达数万之多(UNICODE编码收录汉字20000多);

2. 汉语的词与词之间没有空格分开,也可以说,从形式上看,汉语中没有“词”

这个单位;

3. 汉语词没有形态上的变化(或者说形态变化非常弱),同一个词在句子中

充当不同语法功能时,形式是完全相同的;

4. 汉语句子没有形式上唯一的谓语中心词。

这些特点对汉语的分析造成了一定的影响,使得汉语分析呈现出和英语(以及其他一些语言)不同的特点。

不过也不能过分夸大这种不同。我认为,那种以为汉语完全不同于英语,因此有必要重新建立一套分析体系的想法是没有道理的。从现有的研究看,汉语分析所使用的技术和其他语言分析所使用的技术并没有本质的不同,只是应用方式上有所区别(主要体现在词法分析方面)。而且从应用的效果看,没有证据表明,这些技术用来分析汉语比用来分析英语效果更差。

本文结合我们自己的一些工作,比较全面的介绍一下汉语词法分析和句法分析中所使用的各种技术。

1 汉语词法分析

前面说过,汉语在形式上,并没有“词”这一个单位,也就是说,汉语的语素、词、短语、甚至句子之间(词也可以直接成句,称为独词句),都没有明确的界限。

这是不是说,汉语就没有必要做词法分析,可以直接做句法分析呢?

实际并不是这样。因为如果这样做的话,会导致句法分析的搜索空间急剧膨胀,以致无法承受。实际上,根据我们的统计,未定义词在汉语中真实文本中所占的比例并不大,可见绝大部分词都是可以在词典中找到的,如果这些词都要从头开始分析,势必给句法分析带来太多的负担。

不过汉语的词法分析与英语(或其他屈折型语言)的词法分析有很大不同。就英语来说,采用确定的有限状态自动机就已经能基本解决问题,而对于汉语词法分析来说,需要更为复杂的计算工具。就问题的复杂性而言,我认为汉语的词法分析大致相当于英语的词法分析和基本短语分析之和。

1.1 汉语词法分析的任务

汉语词法分析包括一下几个任务:

1. 查词典

2. 处理重叠词、离合词、前后缀

3. 未定义词识别

a) 时间词、数词处理

b) 中国人名识别

c) 中国地名识别

d) 译名识别

e) 其他专名识别

4. 切分排歧

5. 词性标注

1.2 数据结构:词图(Word Graph)

对于一个汉语句子,如果把两个汉字之间的间隔作为结点,把一个汉语词作为连接两个结点的有向边,那么我们就可以得到一个无环有向图:

根据这个数据结构,我们可以把词法分析中的几种操作转化为:

1. 给词图上添加边(查词典,处理重叠词、离合词和前后缀);

2. 寻找一条起点S到终点E的最优路径(切分排歧);

3. 给路径上的边加上标记(词性标注);

1.3 词典查询与重叠词、离合词和前后缀的处理

词典查询主要考虑分词词典的数据结构与查询算法的时空消耗问题。

在词典规模不大的时候,各种词典查询算法对汉语词法分析的效率整体影响并不大。不过当词典规模很大时(几十万到上百万数量级),词典查询的时空开销会变得很严重,需要详细设计一个好的词典查询算法。

(孙茂松,2000)一文比较详细的总结了汉语词法分析中使用的几种词典查询算法。(Aho&Corasick,1990)提出的算法(简称AC算法)实现了一种自动机,可以在线性的时间里用一组关键词去匹配一个输入字符串,(Ng&Lua, 2002)一文对AC算法中提出的自动机(实际上就是一种词典索引的组织方式)进行了改进,可以快速实现输出汉语句子的多种切分候选结果。对词典查询算法感兴趣的同学可以去查阅这几篇文章,这里不再做详细的介绍。

汉语重叠词的重叠方式有很强的规律,处理起来并不困难。例如汉语的双字形容词的重叠现象主要有三种:AABB、ABAB、A里AB。遇到这种形式的词,只要还原成词语原形AB并查词典即可。

汉语词的前后缀不多,处理也不困难,通过简单的规则,即可这里不做介绍。

离合词的处理稍微复杂一些。现在一般的词法分析器都没有对离合词进行处理,仅仅把分开的离合词作为两个词对待,实际上这样做是不太合理的。离合词中,通常有一个语素的自由度比较差,可以通过这个语素触发,在一定的上下文范围内查找另一个语素,即可发现离合词。

1.4 不考虑未定义词的切分排歧

1.4.1 切分歧义的分类

不考虑未定义词的切分排歧问题,也就是我们一般说的切分问题。

一般把切分歧义分为两种结构类型:交集型歧义(交叉歧义)和组合型歧义(覆盖歧义)。

交集型歧义(交叉歧义):“有意见”:我对他有意见。总统有意见他。

组合型歧义(覆盖歧义):“马上”:我马上就来。他从马上下来。

其中交集型歧义占到了总歧义字段的85%以上。

实际语料中出现的情况并不都这么简单,有时会出现非常复杂的歧义切分字段。例如:

公路局正在治理解放大道路面积水问题

其中“治理”“理解”“解放”“放大”“大道”“道路”“路面”“面积”“积水”都是词,考虑到这些单字也都可以成词,这就使得这个句子可能的歧义切分结果非常多。

1.4.2 切分排歧算法概述

这里我们介绍几种最主要的歧义切分算法:

1. 全切分:全切分算法可以给出一个句子所有可能的切分结果。由于全切

分的结果数随着句子长度的增加呈指数增长,因此这种方法的时空开销

非常大;

2. 最大匹配:从左到右或从右到左,每次取最长词,得到切分结果。分为

前向最大匹配、后向最大匹配和双向最大匹配三种方法。很明显,最大

匹配法无法发现组合型歧义(覆盖歧义),对于某些复杂的交集型歧义(交

叉歧义)也会遗漏;

3. 最短路径法:采用动态规划方法找出词图中起点到终点的最短路径,这

种方法比最大匹配法效果要好,但也存在遗漏的情况;

4. 交叉歧义检测法:(王显芳,2001-1)给出了一种交叉歧义的检测方法,

可以快速给出句子中所有可能的交叉歧义切分结果,对于改进切分的效

率非常有效;

5. 基于记忆的交叉歧义排除法:(孙茂松,1999)考察了一亿字的语料,发

现交集型歧义字段的分布非常集中。其中在总共的22万多个交集型歧义

字段中,高频的4,619个交集型歧义字段站所有歧义切分字段的59.20%。

而这些高频歧义切分字段中,又有4,279个字段是伪歧义字段,也就是说,实际的语料中只可能出现一种切分结果。这样,仅仅通过基于记忆的方

法,保存一种伪歧义切分字段表,就可以使交集型歧义切分的正确率达

到53%,再加上那些有严重偏向性的真歧义字段,交集型歧义切分的正

确率可以达到58.58%。

6. 规则方法:使用规则排除切分标注中的歧义也是一种很常用的方法。规

则的形式定义可以非常灵活,如下所示:

@@ 的话(A+B, AB)

CONDITION FIND(R,NEXT,X) {%https://www.doczj.com/doc/432313428.html,at=~w} SELECT 1

CONDITION FIND(L,NEAR,X) {%X.yx=听|相信|同意} SELECT 1

CONDITION FIND(L,NEAR,X) {%X.yx=如果|假如|假设|要是|若|如若} SELECT 2

OTHERWISE SELECT 1

可以看到,通过规则可以在整个句子的范围内查找对于排歧有用的信

息,非常灵活。规则方法的主要问题在于知识获取。如果单纯依靠人来

写规则,无疑工作量太大,而且也很难总结得比较全面。也可以通过从

语料库学习的方法来获取规则,如采用错误驱动的基于转换的学习方

法。

7. n元语法:利用大规模的语料库和成熟的n元语法统计模型,可以很容易

将切分正确率提高到很高的正确率。(王显芳,2001-2)和(高山,2001)都说明,使用三元语法,在不考虑未定义词的情况下,就可以将切分的

正确率提高到98%以上。

8. 最大压缩方法:(Teahan et. al. 2000)提出了一种基于最大压缩的汉语分

词算法。这是一种自适应的算法,其基本思想是,首先用一个标注语料

库进行训练,在实际标注过程中以最大压缩比为指导来决定切分方式。

这种方法的主要优点是其自适应的特定,可以切分出一些词典中没有出

现的词。

上面这些方法中,前四种方法不需要人工总结规则,也不需要语料库;规则方法需要人工总结规则,比较费时费力;其他几种方法需要大规模的切分语料库为训练的基础。好在目前这种语料库已经可以得到,如(俞士汶等, 2000)。

1.4.3 n 元语法

从上面的介绍可以看到,在有大规模语料库切分语料库的情况下,采用简单的n 元语法,就可以使切分正确率达到相当高的程度。所以我们在这里简单介绍一下n 元语法在汉语分词中的应用。首先简单介绍一下n 元语法的原理。

n 元语法的作用之一,是可以预测一个单词序列出现的概率。n 元语法假设一个单词出现的概率分布只与这个单词前面的n-1个单词有关,与更早出现的单词无关。这样,为了描述这个概率分布,我们需要使用一个n 维数组,这个数组中每一维长度为单词的个数m ,这个数组中元素的个数为m n ,其中元素的

含义为:在单词串后面出现单词的概率,

也就是。 n i i i a ...21)...12?n i w 121...?n i i i w w w n i w |(1n i i i w w w p 假设我们的单词表中有50,000个单词,如果我们使用一元语法,就是说,假设每个单词出现的频率与其他单词无关,那么所使用的参数实际上就是每个单词出现的词频,参数个数等于50,000。如果我们使用二元语法,就是说,假设每个单词出现的频率只与上一个单词相关,那么所使用的参数就是一个单词后面出现另外一个单词的转移概率,参数个数为50,000×50,000。如果采用三元语法,参数的个数将是50,000的三次方。实际上,由于很多的单词序列在实际的语料库中并不会出现,所以实际上有效的参数数量会少的多。不过,如果这些在训练语料中没有出现的单词序列出现在测试文本中,会导致该文本的预测概率为0。为了避免这种情况,我们就要采用某种策略将这些为概率为0的单词序列赋予一个很小的猜测值,这种策略叫做数据平滑。由于数据稀疏问题的大量存在,数据平滑在任何一种统计模型中都是必须采用的。数据平滑有很多种技术,这里不再一一介绍。

n 元语法是一种非常成熟的语言模型,而且在自然语言处理中被证明是非常有效的。Internet 上有现成的n 元语法的源代码可以下载(如The CMU-Cambridge

Statistical Language Modeling toolkit )

,而且即使自己编写,也并不太复杂。 我们的实验表明,仅仅使用一元语法(也就是仅使用词频信息),切分的正确率就可以达到92%以上。

1.4.4 基于n 元语法的切分排歧方法

前面我们说了,所谓切分排歧过程,可以看作从词图中选择一条最优路径的过程。利用n 元语法,我们可以对任何一条路径进行概率评分:

)...|()...()...(111121+??=?∏=n i i l

n i i n l w w w p w w p w w w p

算法可采用动态规划方法实现。算法的时间开销与句子长度成正比。

1.5 未定义词识别

汉语中,由于词与词之间没有形式上的边界,而且绝大多数的汉字都可以独立成词,因此未定义词的识别问题非常严重。

1.5.1 时间词、数词处理

由于时间词、数词的组成规律性较强,识别起来比较简单。一般采用一个简单的确定性有限状态自动机即可。例如采用下面的有限状态自动机可以识别年份:

“公元”“公元前”

1.5.2 中国人名、中国地名、译名和其他专名的识别

中国人名是未定义词中最常见,也是比较容易识别的一类,因为中国人名的姓名用字都有比较强的规律。中国地名的规律性稍差一些。译名的用字非常集中,不过短译名比较容易和其他类型的未定义词混淆。其他专名主要包括组织机构名、企业商标字号等等,这些专名的用字分布也有一定规律,但规律性不是很强,目前识别准确率都不高。

这些类型的未定义词识别,仅仅使用规则方法很难达到好的效果,一般都要进入统计方法。我们这里仅以中国人名为例说明这些类型未定义词的识别方法。有关中国人名识别的研究已经很多:(李建华,2000)、(孙茂松, 1995)、(张俊盛,1992)、(宋柔,1993)等。所使用的方法包括规则加统计的方法和纯统计的方法。其中(孙茂松,1995)一文对中国人名用字的分布有比较详细的统计结果。

这里我们主要介绍我们自己使用的一种采用隐马尔可夫模型(HMM)的中国人名识别方法(Zhang et al.,2002,张华平等,2002),我们称之为“基于角色标注的中国人名自动识别方法”。在我们的词法分析系统中,这种方法达到了很好的效果。

1) 人名识别的输入输出

人名识别的输入是一个已经经过粗切分的句子,只是其中的未定义词都没有被识别出来,如:

馆内陈列周恩来和邓颖超生前使用过的物品注意,这个粗切分结果可能是有错误的,如这个句子就把超生合并成了一个词。

在通过中国人名识别程序后,应该把句子中“周恩来”和“邓颖超”这两个人名识别出来。

2) 隐马模型

关于隐马模型,我们这里不再做详细的介绍,只给出一个直观的解释。感兴趣的同学可以取参考(Rabiner,1989)和(翁富良,1998)。隐马模型作为一种简单而有效的数学工具,在自然语言处理、语音识别、生物信息学很多领域得到了广泛的应用。后面我们将要介绍的词性标注,也要使用隐马模型这个工具。隐马模型目前已经发展得非常成熟,在网上也能找到完整的带源代码的软件工具(如HMM Toolkit)。

我们这里以词性标注问题为例,对隐马模型给出一个直观的解释。

隐马模型要解决的问题,就是对于一个单词串(句子),要给这个单词串中的每一个单词做一个标记(例如单词的词性)。并假设从统计规律上说,每一个词性的概率分布只与上一个词的词性有关(也就是一个词性的二元语法),而每一个单词的概率分布只与其词性相关。

如果我们已经有了一个已经标记了词性的语料库,那么我们就可以通过统计得到以下两个矩阵(实际上还有一个初始词性概率分布矩阵):

词性到词性的转移概率矩阵:A = {a ij},a ij = p(X t+1 = q j |X t = q i)

词性到单词的输出概率矩阵:B = {b ik},b ik = p(O t = v k | X t = q i)

这里q1,…,q n是词性集合,v1,…,v m是单词的集合。

对于词性标注问题而言,转移概率矩阵中的一个元素a ij含义的就是上一个词的词性为q i时,下一个词的词性为q j的概率;输出概率矩阵中的一个元素b ik 的含义就是对于一个词性q i来说,对应的词语为v k的概率。

在有了这两个矩阵之后,对于任何一个给定的观察值序列(单词串),我们总可以通过一个Viterbi算法,很快得到一个可能性最大的状态值序列(词性串)。算法的复杂度与观察值序列的长度(句子中的单词个数)成正比。对于Viterbi 算法,我们这里不再详细描述。

3) 中国人名识别中的角色定义

通过上面的介绍我们可以看到,隐马模型处理的问题就是一个标注问题,也就是给一个单词串中的每一个单词做一个标注的问题。

对于词性标注问题而言,这个标注就是词性。

对于中国人名识别问题,我们要标注的是这个单词在人名识别中充当的角色。

我们定义的角色如下表所示:

编码意义例子

B 姓氏张华平先生

C 双名的首字张华平先生

D 双名的末字张华平先生

E 单名张浩说:“我是一个好人”

F 前缀老刘、小李

G 后缀王总、刘老、肖氏、吴妈、叶帅

K 人名的上文又来到于洪洋的家。

L 人名的下文新华社记者黄文摄

M 两个中国人名之间的成分编剧邵钧林和稽道青说

U 人名的上文和姓成词这里有关天培的壮烈

V 人名的末字和下文成词龚学平等领导,邓颖超生前

X 姓与双名的首字成词王国维、

Y 姓与单名成词高峰、汪洋

Z 双名本身成词张朝阳

A 以上之外其他的角色

4) 语料库的训练

隐马模型的训练需要标记好的语料库。由于这里的标记是我们自己定义的,显然没有现成的语料库可用。不过这个问题并不难解决。由于我们已经有了《人民日报》的切分标记语料库,这个语料库中所有词都标注了词性,其中人名也有专门的标记(nr),我们设计了一个半自动转换程序,只需要很少的人工干预,就可以将《人民日报》语料库的词性标记转换为我们设定的中国人名角色标记。

5) 人名的识别

通过语料库的训练,我们可以得到中国人名识别的隐马模型(三个个概率矩阵)。这样,对于输入的任何一个粗切分结果,我们都可以进行中国人名的角色标注。

为了解决人名与其上下文组合成词的问题,在人名识别之前,我们要对角色U(人名的上文和姓成词)和V(人名的末字和下文成词)进行分裂处理。相应地分裂为KB、DL或者EL。然后,我们在得到的角色序列中寻找一些特定的模式:{BBCD, BBE, BBZ, BCD, BEE, BE, BG, BXD, BZ, CD, EE, FB, Y, XD},凡是匹配成功的序列,我们都认为是一个人名。

以前面的句子为例,我们得到的标注结果(分裂后)就是:

馆/A 内/A 陈列/K 周/B 恩/C 来/D 和/M 邓/B 颖/C 超/D 生/L 前/A

使用/A 过/A 的/A 物品/A

通过模式匹配,得到两个成功的模式(都是BCD),对应的人名就是“周恩来”和“邓颖超”。

6) 实验结果

我们利用两个月的《人民日报》语料进行初步的测试,结果如下表所示:类别封闭测试语料1封闭测试语料2 开放测试语料

来源

均为《人民日报》98年1月

98年2月

1日-20日

98年2月

20日-28日

语料库大小(字节) 8,621K 6,185K 2,605K

实际人名数 13360 7224 2967

识别出的人名数 17505 10929 4259

正确识别的人名数 13079 7106 2739

准确率 74.72%

65.02 64.32% 召回率 97.90%

98.37% 92.32% F值84.75% 78.29% 75.81% 需要说明的是,我们这里的测试是在完全真实的语料环境下进行的。如果仅

对12,507个含人名的句子重新进行识别测试实验,无论是封闭测试还是开放测试,准确率、召回率均超过92%以上。因为这种方法下,排除了原来没有人名的句子被识别出人名的错误情况。另外,由于我们的实验规模比已有的一些类似工作的规模都要大得多,其实验结果的可信度也更高。

我们的实验结果中,召回率比较高,而准确率较低,这也对我们的整个词法分析是有利的。由于人名识别只是整个词法分析过程的一个阶段,错误识别出的人名在后续的过程中还有可能被排除掉,但被忽略掉的人名在后续过程中却不可能被重新发现。众所周知,召回率和准确率是互相矛盾的。高召回率、低识别率对于整个词法分析过程是有利的。

1.6 考虑未定义词的切分排歧

前面介绍的切分排歧方法,都没有考虑到未定义词问题。如果把未定义词的因素考虑进来,切分排歧算法应该如何调整呢?

前面我们介绍了,采用n 元语法,我们可以从一个词图中选取一条最优路径,作为最好的分词结果。其中,n 元语法的参数可以事先从语料库中训练得到。在未定义词词识别以后,词图中加入了新识别出来的未定义词。不过,由于未定义词可能是语料库没有出现的,无法事先得到未定义词的n 元语法参数。

我们采用的做法是:把每一种类型的未定义词(如中国人名、中国地名等)作为同一个词进行n 元语法的参数估计。在实际计算词图中的一条路径的概率评分时,除了要利用n 元语法的概率评分之外,还要乘上句子中每一个未定义词在该类未定义词中出现的概率。也就是评分函数修改如下:

∏∏∏==+??=?=T t l s ts n i i l n i i n l t

t Type w p w w w p w w p w w w p 11111121))(|()...|()...()...(

其中,Type(t),t=1…T ,表示T 种类型的未定义词,w 为句子中识别出

来的类型为Type(t)的l t tl t w ...1))t 个未定义词。其中可以由前面的未定义词识别算法得到。

(|(t Type w p ts 1.7 词性标注

词性标注也是研究得比较充分的一个课题。

总体上说,汉语的词性标准和英语的词性标注在方法上没有明显的不同。 在有大规模标注语料库的情况下,很多方法(特别是统计方法)都可用于解决词性标注问题,而且结果通常也都很好。我们这里不一一列举,只给出常用的两种方法:

1. 隐马模型(HMM ):前面已经介绍了;

2. 错误驱动的基于转换的规则方法(TBL ):这是一种从语料库中学习规则的方法,由于篇幅所限,这里不做详细介绍;

我们使用《人民日报》标注语料库,采用隐马模型,也得到了很好的结果。

1.8 词法分析的流程

大家可以看到,词法分析是一个很复杂的过程,其中有很多子任务,而这些子任务又是互相交织在一起的。作为一个完整的词法分析程序,应该如何组织这个过程?子任务之间又应该如何衔接呢?

在具体实现上,各个子任务的顺序并没有明确的规定,例如,前后缀的处理可以在查词典阶段进行,也可以在未定义词识别阶段进行;人名识别可以在查词典之前进行(基于字的模型),也可以在查词典以后进行(基于词的模型),切分和标注可以分别进行,也可以同时进行(高山,2001)。

不过,根据我们的经验,我们在这里提出几条原则,应该说对整个词法分析流程的设计有一定的指导意义:

1. 采用一致的数据结构(如词图),有利于各个阶段之间的衔接。这个数据

结构应该有一定的冗余表达能力,能够同时表示多种切分标注的结果;

2. 每一个阶段最好能输出几个候选结果,有些歧义现象在某一个阶段无法排

除,可能在下一阶段却很容易解决,提供多个候选结果,有利于总体上减

少错误率;

3. 如果采用统计模型,应该尽量在各个统计模型之间建立一定的联系,也就

是前面得到的概率评分值能在后面的阶段中有效的利用起来,最理想的是

建立统一的概率模型,可以得到总体最优的结果。

在我们的系统中,我们采用的词法分析流程如下所示:

1. 查词典,重叠词处理;

2. 数词、时间词、前后缀处理;

3. 粗切分(采用基于词一元语法,保留多个结果);

4. 未定义词识别(采用基于角色标注的隐马模型,识别中国人名、中国地

名、译名、其他专名);

5. 细切分(采用基于词的二元语法,利用PCFG计算未定义词概率,输出

多个结果);

6. 词性标注(采用隐马模型,输出一个或多个结果)。

我们开发的系统ICTCLAS通过大规模的开放测试,实际切分正确率在97%以上,标注正确率约为95%。该系统的源代码可以在自然语言处理开放平台(https://www.doczj.com/doc/432313428.html,)下载。

2 汉语句法分析

词法分析的作用是从词典中划分出词,而句法分析的作用是了解这些词之间的关系。所以,句法分析的输入是一个词串(可能含词性等属性),输出是句子的句法结构。

就句法分析所面临的问题而言,汉语和英语及其他语言,都没有太大的不同。二者所采用的技术也都大体一致。

2.1 形式语法体系

句法分析一般都依赖于某种语法体系。语法体系的形式丰富多彩,各种语法

形式都有各自的特点。这里简要介绍几种典型的语法形式,主要目的是让读者对语法形式的多样性有一个直观的感受。

不同的语法体系产生的句法结构形式不尽相同。最常见也最直观的句法结构形式是句法树。其他主要的形式有依存关系树(依存语法、范畴语法)、有向图(链语法)、特征结构(HPSG、LFG)等等。

2.1.1 乔姆斯基层次体系

所谓乔姆斯基层次体系(Chomsky Hierarchy),指的是乔姆斯基定义的四种形式语法,这四种语法,这四种语法所产生的语言依据包含关系构成了严格的层次体系。

乔姆斯基层次体系第一次严格地描述了形式语法、语言和自动机之间的关系,在数学、计算机科学和语言学建立起了一道沟通的桥梁。

在乔姆斯基的语法层次体系中,一共定义了四种层次的形式语法,这四种语法可统称为短语结构语法(PSG)。一个PSG形式定义如下:

一个PSG是一个四元组:{ V, N, S, P }, 其中V是终结符的集合(字母表),N是非终结符的集合,S∈N是开始符号,P是重写产生式规则集。

乔姆斯基语法层次体系中的四种语法形式具体说明如下:

层级 语法 识别自动机 产生式规则形

例子

0型 不受限短语结构语法 图灵机 α -> β

1型 上下文敏感语法 线性有界自动机αAβ -> αγβa n b n c n 2型 上下文无关语法 下推自动机 A -> γa n b n

3型 正规语法 有限状态机 A -> aB

A -> a

a*

一个PSG所接受的语言就是由开始符号S通过P中的规则所可以导出的所有终结符串的集合。乔姆斯基四种形式语法所导出的语言具有以下关系:

0型语法

1型语法

2型语法

3型语法

正规语法的语法形式最严格,生成的语言最简单,分析起来也最容易(时间复杂度是线性的),可以用有限状态自动机进行分析。有限状态自动机现在广泛

应用于各种语言的词法分析中。由于有限状态自动机的高效性,也有人使用它来进行句法分析(见后面部分分析的介绍),甚至有人用来做机器翻译(Alshawi et al.,2000)。

上下文无关语法虽然不足以刻划自然语言的复杂性,但由于其形式简单,分析效率高(多项式时间复杂度),实际上是句法分析中使用最广泛的一种语言形式。我们后面将要介绍的句法分析算法大多也都是基于上下文无关语法的。

上下文敏感语法分析的时间复杂度是非多项式的(NP问题),而0型文法的分析甚至不是一个可判定性问题(实际上是一个半可判定问题),所以这两种语法形式在实际中都无法得到应用。

2.1.2 乔姆斯基的形式句法理论

乔姆斯基的形式语法理论不仅是现代计算机科学的基础之一,也为语言学的研究打开了一个暂新的局面,对自然科学和社会科学的很多领域都产生了深远的影响,被称为“乔姆斯基革命”,在科学史上具有里程碑式的重要地位。

乔姆斯基的形式语法理论是一个不断演变、不断发展的过程。在1957年,乔姆斯基提出了“转换生成语法理论(TG)”,1970年代,发展成为“标准理论”,在1981年,乔姆斯基又提出了“管辖-约束理论(GB)”,1992年,提出了“最简方案(MP)”。

乔姆斯基的形式语法理论有一个核心思想,就是“普遍语法”的思想。他认为人有先天的语言习得机制,生来就具有一种普遍语法知识,这是人类独有的生理现象。人类各种语言之间共性(原则)是主要的,语言之间的个性(参数)是次要的。因此乔姆斯基后期的语言学理论(GB以后)又称为“原则+参数”的语言学理论。

乔姆斯基早期的转换生成语法还比较简单,后来乔姆斯基语法理论越来越复杂,使得形式化的工作变得非常困难。所以现在计算语言学领域的研究中,已经很少有人采用乔姆斯基的形式语法体系。不过乔姆斯基的形式句法理论在语言学界还是很有生命力的,因为它确实可以解释很多其他理论很难解释的语言现象。

2.1.3 中心词驱动的短语结构语法(HPSG)和词汇功能语法(LFG)

HPSG和LFG属于非乔姆斯基阵营的语法理论中比较有生命力的两种。

他们与乔姆斯基语法理论的本质差别在于没有转换规则(乔姆斯基后期的理论中又称为α-移动),没有浅层结构和深层结构的区别。

从计算机实现的角度看,这两种理论都采用了特征结构这种形式来表达复杂的语言学知识并采用合一算法进行规则的推导。与乔姆斯基的语法理论不同,这两种语法理论都又很好的可实现性。因此这两种理论的发展一直和计算机的结合非常紧密。

有关这两种语法的详细资料,可到互联网上查询相应网站。

LFG:Stanford:https://www.doczj.com/doc/432313428.html,/lfg/

Essex: https://www.doczj.com/doc/432313428.html,/LFG/

HPSG:https://www.doczj.com/doc/432313428.html,/

下面仅通过几个图示简单介绍一下LFG,使读者对LFG有一个直观的映像。

在LFG中,一个句子的结构除了用一棵句法树(c-structure),还用一个特征结构(f-structure)来刻划这个句子的各种句法特征,如下图所示:

相应的,LFG的规则(包括词典中的词条)除了通常的短语结构规则形式外,还附带一些合一表达式,如下图所示(↑其中表示父结点的特征结构,↓表示本结点的特征结构):

2.1.4 依存语法

依存语法也是一种使用非常广泛的语法形式。

与短语结构语法(PSG)的最大不同在于,依存语法的句法结构表示形式不是一棵句法层次结构的句法树,而是一棵依存树:依存树上的所有结点都是句子中的词,没有非终结符结点。例如句子“我喜欢看古典小说”的依存结构如下图所示:

可以看到,在依存关系树中,丢失了句子中词与词之间的顺序关系。

应该说,依存语法并不是一种严格定义的语法形式。依存语法没有明确定义的规则形式。也没有明确规定依存关系是否要加上标记。实际的应用系统中,一般都会给依存关系加上句法或语义的标记。

1970年,美国计算语言学家J. 罗宾孙(J. Robinson)提出了依存语法的4条公

理:

1. 一个句子只有一个成分是独立的;

2. 句子中的其它成分直接从属于某一成分;

3. 任何一个成分都不能从属于两个或两个以上的成分;

4. 如果成分A直接从属于成分B,而成分C在句子中位于A和B之间,

那么,成分C或者从属于A,或者从属于B,或者从属于A和B之间

的某一成分。

这四条公理比较准确界定了一个依存树所要满足的条件,得到了依存语法研究者的普遍接受。

2.1.5 链语法

链语法由美国CMU计算机学院的Daniel Sleator和美国Columbia Uiversity (的Davy Temperley共同提出,最早的文章是1991年的一个技术报告,题目是“Parsing English with a Link Grammar”。

链语法的网址是:https://www.doczj.com/doc/432313428.html,/link。

链语法词典中的词条如下图所示:

上面的一些词组成的一个句子通过句法分析得到下面的结构:

链语法的一个显著特点是分析的结果不是一棵句法树,而是一个有向图。

链语法的另一个特点是没有句法规则,只有几条简单的原则,用于规定句法成分之间互相结合的方式。链语法的语法知识都存放在词典中。

链语法的网站上提供了链语法分析器的完整源代码。

2.1.6 范畴语法

范畴语法语法的特点在于,把句法分析的过程变成了一种类似分数乘法中进行的“约分”运算。

举一个简单的例子:我喜欢红苹果。

在词典中,句子中的几个词分别表示为:

我:N

喜欢:N/S\N

红:N/N

苹果:N

句法分析的过程表现为:

红+苹果:N/N + N => N

喜欢+红苹果:N\S/N + N => N\S

我+喜欢红苹果:N+N\S => S

和链语法一样,在范畴语法中,也没有规则,只有几条简单的原则,规定范畴之间如何进行“约分”,所有的语法信息都表现在词典中。

范畴语法在现在的形式语义学理论中有很重要的作用。

范畴语法的网站是:https://www.doczj.com/doc/432313428.html,/ai/CG/。

2.2 句法分析算法

句法分析的过程就是将小的语法成分组合成大的语法成分的过程。虽然各种语法的形式相差很大,不过在句法分析的过程中采用的分析算法都是类似的(也有少数语法有自己特有的句法分析算法)。

2.2.1 常见的分析算法

常见的句法分析算法包括:

1. 自顶向下分析算法;

2. 自底向上分析算法;

3. 左角分析算法;

4. CYK算法;

5. Marcus确定性分析算法;

6. Earley算法;

7. Tomita算法(GLR算法);

8. Chart算法;

等等。

这些算法都有各自的优缺点和适用的场合,由于篇幅关系,我们难以一一介绍。

目前应用得最为广泛的句法分析算法是Tomita算法和Chart算法。

Tomita算法是传统的LR分析算法的一种扩展,所有又被称为Generalized LR (GLR)算法。和LR算法一样,GLR算法也是一种移进-规约(Shift-Reduce)算法。GLR算法对传统LR算法的改进主要体现在:

1) GLR分析表允许有多重入口(即一个格子里有多个动作),这样就克服

了传统LR算法无法处理歧义结构的缺点;

2) 将线性分析栈改进为图分析栈处理分析动作的歧义(分叉);

3) 采用共享子树结构来表示局部分析结果,节省空间开销

4) 通过节点合并,压缩局部歧义。

对于Tomita算法,我们这里不做详细的介绍。我们主要介绍的是Chart分析算法。实际上,Chart分析算法是非常灵活的,通过修改Chart算法中的分析策略,很容易模拟很多种形式的其他算法,例如自顶向下的分析算法、自底向上的

分析算法和左角分析算法等等。这也是Chart分析算法得到广泛应用的原因之一。

2.2.2 Chart算法

1) 一个简单的文法

算法的介绍,最直观的做法莫过于通过一个例子来说明。我们这里也不例外。

考虑一个句子1:我是县长派来的。

词典中的词条有:

(1) R ?我

(2) N ?县长

(3) V ?是 | 派 | 来

所使用的规则为:

(1) S ? NP VP

(2) NP ? R

(3) NP ? N

(4) NP ? Sφ的

(5) VP ? V NP

(6) Sφ? NP VPφ

(7) VPφ? V V

其中Sφ、VPφ分别表示带空位的S和VP,这里大家可以不必管它的含义,只要把Sφ和VPφ分别看成两个独立的短语类型即可。

2) Chart数据结构

Chart(有人译为线图)是Chart算法中最重要的数据结构。

与前面介绍的词图表示法有点类似,线图是把词与词之间的间隔作为结点,把词和短语当作连接结点的边。于是这个句子可以用词图表示为:

这个图上,我们不仅标出了每条边的标记,还标出了产生该边的规则。

注意:“我是县长”和“我是县长派来的”都是句子。

1这里借用了白硕2001(计算语言学教程讲义)中的例子,特此向白硕研究员表示感谢。

3) 活跃边与非活跃边

我们注意到,“我是县长”和“我是县长派来的”都是由规则S ? NP VP 生成的,而且其中“NP ”都是对应同一个结点(“我”)。也就是说,这两次规则使用的过程中,有一个冗余的操作:将规则右部的第一个结点NP 与同一个结点(“我”)进行匹配。如果规则很多,Chart 的结构很复杂,这种冗余是很严重的。那么,我们能不能消除这种冗余操作呢?答案是可以。在Chart 算法中,将边分为两种,一种叫做非活跃边,就是上图中我们已经见过的这种边。另一种叫做活跃边,用于记录一条规则部分被匹配的情形。于是,规则S ? NP VP 生成结点“我是县长”的匹配过程可以记录为两条活跃边和一条非活跃边:

记录方式 边状态 匹配程度 起点 终点 对应词串 <0,0, S ?.NP VP>活跃 S ? .NP VP 0 0 <0,1, S ?NP. VP>活跃 S ? NP. VP 0 1 我 <0,3, S ?NP VP.>非活跃 S ?

NP VP. 0 3 我是县长

其中“匹配程度”用规则中加入句点来表示,其中句点的位置表示规则已经匹配成功的位置(从左边开始)。用Chart 表示如下:

S ?4) 日程表(Agenda )

在Chart 算法中,还有一个重要的数据结构,称为“日程表(Agenda )”。 Chart 分析的过程就是一个不断产生新的边的过程。但是每一条新产生的边并不能立即加入到Chart 中,而是要放到日程表(Agenda )中。

日程表(Agenda )实际上是一个边的集合,用于存放已经产生,但是还没有加入到Chart 中的边。日程表(Agenda )中边的排序和存取方式,是Chart 算法执行策略的一个重要方面(后面将要介绍)。

5) Chart 算法的基本流程

Chart 算法就是一个由日程表驱动的不断循环的过程:

(1) 按照初始化策略初始化日程表(Agenda );

(2) 如果日程表(Agenda )为空,那么分析失败;

(3) 每次按照日程表组织策略从日程表(Agenda )中取出一条边;

(4) 如果取出的边是一条非活跃边,而且覆盖整个句子,那么返回成功;

(5) 将取出的边加入到Chart 中,执行基本策略和规则调用策略,将产生

的新边又加入到日程表(Agenda)中;

(6) 返回第(2)步。

这个算法流程当中,各项基本策略都是可以调整的,通过调整这些策略,可以得到不同的分析算法。下面我们主要介绍如果通过调整这些策略来改变分析算法。

6) 初始化策略

Chart分析算法开始执行以前,要先将日程表(Agenda)初始化。对于自底向上和自顶向下的分析算法,要采用不同的初始化策略:

自底向上分析的规则调用策略:

(2) 将所有单词(含词性)边加入到日程表(Agenda)中。

自顶向下分析的规则调用策略:

(1) 将所有单词(含词性)边加入到日程表(Agenda)中;

(2) 对于所有形式为:S?W的规则,产生一条形式为<0, 0, S?.W>的边,

并加入到日程表(Agenda)中;

7) 基本策略

在Chart算法中,边是逐条被加入到Chart中的。每一条边在被加入到Chart 中时,都要执行以下基本策略:

(1) 如果新加入一条活跃边形式为:

那么对于Chart中所有形式为:的非活跃边,生成一条形式为的新边,并加入到日程表(Agenda)中;

(2) 如果新加入一条活跃边形式为:

那么对于Chart中所有形式为:的活跃边,生成一条形式为的新边,并加入到日程表(Agenda)。

上面A、B为非终结符,W1、W2、W3为终结符和非终结符组成的串,其中W1、W2允许为空,W3不允许为空。

8) 规则调用策略

自底向上的分析和自顶向下的分析中,要使用不同的规则调用策略:

自底向上分析的规则调用策略:

如果要加入一条形式为的边到Chart中,

那么对于所有形式为B?C W2的规则,产生一条形式为的边加入到日程表(Agenda)中。

自顶向下分析的规则调用策略:

如果要加入一条形式为的边到Chart中,

那么对于所有形式为B?W的规则,产生一条形式为的边,并加入到日程表(Agenda)中。

9) 日程表组织策略

通过日程表组织的不同策略,可以分别实现深度优先和广度优先等句法分析策略:

深度优先的日程表组织策略:

将日程表按照堆栈的形式,每次从日程表中取出最后加入的结点;

广度优先的日程表组织策略:

将日程表按照队列的形式,每次从日程表中取出最早加入的结点;

10) 细节处理

前面的讨论中忽略了两个细节,在实现一个系统时应该考虑到:

(1) 考虑到可能通过多种途径生成一条完全相同的边,所以每次从日程表

(Agenda)中取出一条新边加入Chart时,要先检查一下Chart中是否已

经有相同的边,如果有,那么删除这条边,直接进入下一个循环;

(2) 为了生成最后的句法结构树,每一条边中还应该记录其的子句法成分所

对应的边。

11) 例子

下面我们按照自底向上的初始化策略和规则调用策略以及深度优先的日程表组织策略,给出上述例句(“我是县长派来的”)的分析过程(略)。

12) 讨论

通过上面的介绍,大家可以看到,Chart分析算法是一种非常灵活的分析算法,通过修改分析过程中的一些具体策略,Chart分析算法可以模拟很多种其他句法分析算法。

如果你有兴趣,完全可以自己尝试修改这些策略,以实现新的句法分析算法。

另外,(白硕&张浩,2002)中,把Tomita算法中“向前看(look ahead)”的思想结合到Chart分析算法中,提出了一种“角色反演算法”,可以减少Chart 分析算法中垃圾边的数量而又不影响最后的分析结果,提高分析的效率。

2.2.3 基于统计的句法分析算法

随着统计方法在NLP中的复兴,各种统计的句法分析算法也开始得到广泛的研究,并取得了很大的进展。

纯粹基于规则的句法分析算法有以下缺点:

1. 歧义问题:如何总众多的歧义结构中选择合理的结构?规则方法无法给

出满意的答复;

2. 鲁棒性问题:对于不符合语法的句子,规则方法无法给出满意的猜测;

3. 规则冲突问题:规则增加时规则之间的冲突变得非常严重,规则调试非

常困难,后面的规则往往会抵消前面规则的作用,使得系统总体效果无

法改善。

由于基于统计的概率句法分析算法都需要句法树库作为训练数据(无指导的统计句法分析算法也有人尝试过,效果非常糟糕),这使得句法树库的建设成为了实现统计句法分析算法的前提。好在现在已经开始有了一些这种语料库,如LDC提供的英语和汉语句法树库。其中汉语的句法树库规模较小,含10万汉语词语,约4千个汉语句子,主要的数据来源是新华社新闻稿。

下面我们我们先介绍统计句法分析方法的两种类型的模型,然后介绍几种典型的统计的句法分析算法:

1) 分析模型与语言模型

任何统计模型,最基本的都是一个归一性假设。

统计句法分析的两类模型的区别就在于归一性假设上。

在分析模型中,假设对于任何一个句子,其所有的可能的分析树的概率之和为1:

∑=t G s t P where G s t P 1),|(),,|( ),|(max arg ^G s t P t t =

其中,G 表示该分析模型,s 表示一个句子,t 表示该句子的一种可能的分析结果(句法树)。

而在语言模型中,假设从一种语言中推导出的所有句子结构(句法树)的概率为1,而一个句子的概率为其所有可能的句子结构(句法树)的概率之和: ∑∈=})(:{1)(L t yield t t P

∑∑

===t s t yield t t P t s P s P })(:{)(),()( ),(max arg )(),(max arg )|(max arg ^s t P s P s t P s t P t t t t ===

初看上去,好像分析模型比较符合我们的推理过程。不过,在实际的研究工作中,语言模型应用更多。因为实现的时候,分析模型需要正例和反例同时进行训练,这在处理上比较困难。而语言模型只需要即可进行训练。从已有的研究工作看,语言模型的效果也更好一些。 2) 统计句法分析的评价标准

在统计句法分析研究中,一般使用以下几个参数作为评价标准:

标记正确率(Labeled Precision ) parse proposed in ts constituen of number parse proposed in ts constituen correct of number LP =

标记召回率(Labeled Recall ) parse treebank in ts constituen of number parse proposed in ts constituen correct of number LR =

交叉括号数(Crossing Brackets )

parse treebank the in t constituen a with boundaries t constituen violate which ts constituen of number CB =

所谓交叉括号数,就是与标准语料库中发生边界冲突的结点数目,类似于汉

现代汉语语法的五种分析方法

现代汉语语法的五种分析方法

现代汉语语法的五种分析方法 很有用,请好好学习之。 北语之声论坛专业精华转贴 现代汉语语法的五种分析方法是语法学基础里 很重要的一个内容,老师上课也会讲到,我在这 里把最简略的内容写在下面,希望能对本科生的专业课学习有所帮助 详细阐释中心词分析法、层次分析、变换分析法、语义特征分析法和语义指向分析的具体内涵:一. 中心词分析法: 分析要点: 1.分析的对象是单句; 2.认为句子又六大成分组成——主语、谓语(或述语)、宾语、补足语、形容词附加语(即定语)和副词性附加语(即状语和补语)。 这六种成分分为三个级别:主语、谓语(或述语)是主要成分,宾语、补足语是连 带成分,形容词附加语和副词性附加语是附加成分; 3.作为句子成分的只能是词; 4.分析时,先找出全句的中心词作为主语和谓

语,让其他成分分别依附于它们; 5.分析步骤是,先分清句子的主要成分,再决定有无连带成分,最后指出附加成分。 标记: 一般用║来分隔主语部分和谓语部分,用══标注主语,用——标注谓语,用~~~~~~标注宾语,用()标注定语,用[ ]标注状语,用< >标注补语。 作用: 因其清晰明了得显示了句子的主干,可以一下子把握住一个句子的脉络,适合于中小学语文教学,对于推动汉语教学语法的发展作出了很大贡献。 还可以分化一些歧义句式。比如:我们五个人一组。 (1)我们║五个人一组。(2)我们五个人║一组。 总结:中心词分析法可以分化一些由于某些词或词组在句子中可以做不同的句子成分而造成的歧义关系。 局限性: 1.在一个层面上分析句子,

层次性不强; 2.对于一些否定句和带有修饰成分的句子,往往难以划分; 如:我们不走。≠我们走。 封建思想必须清除。≠思想清除。 3. 一些由于句子的层次关系 不同而造成的歧义句子无法分析; 如:照片放大了一点儿。咬死了猎人的狗。 二. 层次分析: 含义: 在分析一个句子或句法结构时,将句法构造的层次性考虑进来,并按其构造层次逐层进行分析,在分析时,指出每一层面的直接组成成分,这种分析就叫层次分析。 朱德熙先生认为,层次分析不能简单地将其看作是一种分析方法,而是应当看做一种分析原则,是必须遵守的。(可以说说为什么) 层次分析实际包含两部分内容:一是切分,一是定性。切分,是解决一个结构的直接组成成分到底是哪些;而定性,是解决切分所得的直接组成成分之间在句法上是什么关系。

汉语语用研究概述_王道英

汉语语用研究概述 王道英 (上海市徐汇区业余大学,上海200032) [关键词]语用学;语法;语义;语境;篇章 [摘要]随着句法、语义研究的深入,语用学独特的解释能力已越来越多地引起人们的注意。本文主要从语用学的产生与发展、语用学的引进,探索适合于汉语的语用学理论,以及从语境、语篇的角度等方面对汉语语用研究做了较为全面的介绍和简要的评述。 [中图分类号]H03[文献标识码]A[文章编号]1003-7365(2003)04-0046-07 The Survey of Chinese Pragmatic Studies WANG Dao-ying (Shanghai Xuhui Community College,Shanghai200032) Key words:pragmatics;grammar;semantics;context;tex t Abstract:As the further studies on sy ntax and semantics w ent on,the unique feature of prag matics at-tracts more and more people.s attention.This paper attem pts to survey the Chinese pragmatic studies in follow ing aspects:the orig in and development of pragmatics,the introduction of pragmatics to Ch-i na,apply ing pragmatic theory to Chinese,and individual field and the pragmatic studies in tex t and context.Meanw hile,w e make a brief comment on it. k1引言 传统语法分析研究的语料是孤立的句子,可以是自造的,也可以是经过一番剪裁改编的实例。分析的注意力集中在类型的异同上。研究的对象是静态的、脱离语境的成品(陈平1987)。因此,在以往的句法和语义研究中,很多问题都不能得到圆满的解释。语用学结合语境研究动态的语言,在很多方面有其独特的解释力,已越来越多地引起人们的注意。 k2语用学的产生与发展 /语用学0(pragm atics)这个术语由美国哲学家莫里斯(M orris)1938年在他的5符号理论基础6(Foundations of the T heory of Signs)一书中首先提出。他指出符号学(semiotics)包括三个部分:句法学(syntactics or syntax)、语义学(se-mantics)和语用学(prag matics)。语用学研究的是/符号和解释者的关系0(1938),后又易为/研究符号的来源、用法及其在行为中出现时所产生的作用0(1946)。莫里斯对符号学的划分得到哲学家和逻辑学家卡纳普(R.Carnap)的支持。50年代中期至70年代初期,语用学的研究取得了重大进展。语言哲学家巴尔-希勒尔(Bar-Hi-l lel)1954年提出的指引词语(indexical expres-sions)是语用学的具体研究对象;英国哲学家奥斯汀(Austin)提出的言语行为理论(Theory of Speech Act)(由J.C.Urmson1962年整理成书),美国哲学家塞尔(J.Searle)1969的5言语行 1 o[作者简介]王道英,女,上海师范大学语言研究所2000级博士研究生,主要从事语用研究。 本文在写作过程中,承蒙导师范开泰的悉心指导,特此致谢。

汉语句法分析方法的嬗变

汉语句法分析方法的嬗变 综述:我国古代就有学者对语言进行研究,但我们的研究更多的是音韵、文字等方面,而语法一直是我们研究的弱点,我国的语法研究起步晚,可以说是以《马氏文通》为起点,它奠定了汉语传统语法学的基础。不难发现,我国的语法研究深受西方语言法学研究的影响,当然关于句法分析的研究也是如此。关于汉语句法分析的研究,从20世纪80年代初以来,一直都没有停止过,先后出现了中心词分析法与层析分析法相结合的方法、变换分析法、语义特征分析法、配价分析法、语义指向分析法等汉语句法分析方法。 摘要: 汉语是一门简单而又复杂的语言,为了让我们更好地了解汉语,语言学家想出了一些方法来解释说明语言中的种种现象,我们称之为“句法分析法”。经过许多学者的努力,到目前已经有不少的研究成果了。众多学者站在不同的专业角度研究出了不同的分析方法来解释语言现象。如层次分析法、变换分析法、语义特征分析法、配价分析法等。那关于汉语句法分析的研究进行了这么多年,其中历经了哪些演变?结合所学知识,我对此做了以下分析。 关键词:句法分析、演变、汉语、作用 正文: 汉语是一门简单而又复杂的语言,为了让我们更好地了解汉语,语言学家想出了一些方法来解释说明语言中的种种现象,我们称之为“句法分析法”。所谓句法分析就是指对句子中的词语语法功能进行分析,比如“我来晚了”,这里“我”是主语,“来”是谓语,“晚了”是补语。迄今为止,众多学者已经研究出了许多不同的分析方法来解释语言现象,从句子成分分析法、层次分析法、变换分析法、语义特征分析法、配价分析法到语义指向分析法,句法分析逐步走上兼顾形式和意义的道路,可以说句法分析在自然语言处理领域中具有十分重要的地位。 句子成分分析法(也叫中心词分析法)是我国语言研究中最早使用的一种句法分析法,黎锦熙在《新著国语文法》中首次提出了“六大句子成分说”,为句子成分分析法的产生奠定了基础。对于这句子成分分析法,我们比较熟悉。所谓句子成分分析法是从句法结构的关系意义出发,对句子的成分功能或作用分析的方法,即用各种方法标出基本成分(主语、谓语、宾语)和次要成分(定语、状语、补语)。这种分析方法,分析的对象是句子,认定句子有六个大的句子成分,即所谓的主语、谓语、宾语、定语、状语、补语。在一个句子中,做句子成分的原则上都只能是词,而且分析时,应该先找出全句的中心词作为主语和述语,再看述语是哪一种动词,决定它后面有无连带成分宾语或补足语,最后指出句中所有的附加成分——形容性附加语和副词性补足语。 句子成分分析法的优点是:第一,容易找出句子的脉络;第二,可以分析由中国特色的句子,如兼语句。但是它只能分析单句中的主谓句,不能分析单句中的非主谓句,不能分析复句,也无法分析句组;分析歧义句的能力差,忽视了句子的层次性。 句子成分分析法被语言教学界广泛接受和使用,中小学教学一般采用这种方法来给学生进行句法分析。它对推动汉语教学语法的发展做出了很大的贡献。 在句子成分分析法之后,又一句子分析法出现在我国的语言界——层次分析法。它是美国著名语言学家布龙菲尔德在20世纪30年代提出的一种语言分析方

现代汉语研究概述

第一讲现代汉语研究概述 1.2现代汉语研究概述 20世纪中国语言学由于马建忠的《马氏文通》的问世,可以说是我国现代科学意义上的语言学的发展历史。汉字的研究一直占有很重要的位置。30年代,唐兰先生强调“文字的形体研究”,他的《古文字学导论》标志着的汉字学的建立。近二三十年还加强了对汉代以后,现代汉字以前的文字的研究,特别是俗字的整理和研究,并形成了汉字学的一个新分支——现代汉字学。70年代末以来由于各种因素的推动,汉语音韵学的研究进入了一个鼎盛的时期。这一时期的训诂学也有了一定的发展,该时期训诂学的基本任务是解释文献字词。汉语语法研究也进入了鼎盛时期。下面主要从语法、语音、词汇、语用、对外汉语教学交叉学科等方面进行简要的说明。 1.2.1现代汉语语法方面: 在20世纪的一百年里,我国语言学的发展中要属汉语语法学的发展最快,成果最显著。汉语语法研究是从古代汉语语法开始的,《马氏文通》是一部古代汉语语法研究专著。但从黎锦熙《新著国语文法》这第一部白话文语法著作于1924年问世以来,现代汉语语法研究一直是本世纪汉语语法研究的主流。40年代出现了20世纪前半叶现代汉语语法研究的鼎盛时期,王力的《中国现代汉语》和《中国语法理论》,吕叔湘的《中国文法要略》,高名凯的《汉语语法论》是该时期的代表作都采用了“三品说”(丹麦叶斯柏森《语法哲学》首品——

主语、宾语、中心语,次品——谓语、定语,末品——状语、补语)。当今世界语言学领域普遍关注和运用的一些语法思想和分析方法,如“动词中心说”、“语义格”、“动词配价”、“范畴论”、“语用分析”、“变换分析”、“篇章分析”等等,在这一时期的著作中都有体现,只是没有上升到理论层面加以论述和阐释。(如朱德熙著作中的动词的“向”,就相当于“价”)新中国成立后,吕叔湘和朱德熙合著的《语法修辞讲话》起到了“匡谬正误”的作用。语法知识的普及大大促进了现代汉语语法的教学与研究工作。与此同时,随着赵元任的《北京口语语法》(李荣译)一书的翻译出版,美国描写语言学理论方法开始影响着现代汉语语法的研究。这个时期(50-60年代)的语法一直停留在词语和句子成分的充当上。 古代汉语语法的研究,自《马氏文通》以后,还有以王力(50年代)为代表的研究古代汉语为主的语法学家。他开创了汉语语法研究的历时研究,这为汉语语法史研究奠定了基础。80年代后,古代汉语语法研究有了可喜的变化。不论在研究队伍、研究方法、研究理念都有了明显的变化。如“要有明显的时代观点,语料不可古今杂糅”、“必须注重语法的系统性,要从语法系统去思考问题”、“要注意吸取各种语言学理论中有利于古代汉语语法研究的东西”、“加强专书、断代语法研究”以及“既要有定性分析,又要有定量分析”等,开展了语法化的研究,出现了一批较好的研究成果。 近代汉语语法研究始于20年代末,黎锦熙和吕叔湘分别发表了很多研究近代汉语“把”字结构和个别代词、量词、虚词的研究。黎

现代汉语句法分析中的变换分析法

现代汉语句法分析中的变换分析法 摘要:对变换分析法在汉语语法学界的发展运用作较全面的分析阐述并对变换现象加以分类,分析变换的方法和原则,阐明变换的作用,归纳分析这方面的研究成果,也指出了变换分析的局限性。关键词:变换分析;句法分析;汉语 我们想要认识和了解语言,就要对其作深一层的分析,要了解其中的规则,句法分析就是必不可少的。从句法的角度来解释说明种种语言现象,就称之为“句法分析”。句法分析经历了长时间的发展,逐渐形成了句子成分分析法、层次分析法、变换分析法、语义特征分析法、配价分析法、语义指向分析法等多种方法。 首先一般比较熟悉的是句子成分分析法,它可以让人一下子把握住一个句子的脉络,但它不大关注语法结构的层次性。由于它的这一局限性,便出现了层次分析法,层次分析法将句法结构的层次性考虑进来,按其构造层次逐层进行分析,但它不能揭示句法结构内部的实词之间的语义结构关系,特别是歧义。要揭示这种隐含在句子里边的实词与实词之间的语义结构关系,就得寻求新的分析手段,于是变换分析法就又适应这种需要而产生了,成为最易于和普遍运用的一种方法。 一、什么是变换分析法 关于变换的思想,早在1942年出版的吕叔湘的《中国文法要略》一书里就有了。之后,吕叔湘在《中国文法要略》中讨论了句子和词组相互转换的问题,但未具体展开。50年代,海里斯和乔姆斯基

分别在结构语言学和生成语法的框架下展开了转换的研究。而继海里斯之后,在中国朱德熙先生在变换分析上作出了重要的贡献。在《语法讲义》中,朱先生充分运用了变换分析的方法来解释许多层次分析法不能解决的问题,在分化歧义句式、层次切分、判断词类以及分化语义角色等方面都发挥了重要作用意义。 变换分析法是通过移位、添加、删除、替换等方法来考察具有内在联系的不同句法结构之间联系的一种分析方法,即按照一定的规则,把甲句变成乙句。它是根据句法格式的相关性,是两种结构不同的句式之间根据依存关系的变换。目的是通过变换分辨句法结构的异同,看清句子结构的特点。朱德熙先生首先提出变换分析法,并在国内最早运用这种理论进行实践。例如: a台上坐着主席团可以转换为: a1主席团坐在台 b 操场上放着电影b1 操场上正在放电影 这两组例句都是“处所名词+动词+助词+名词”,是相同的结构,但在语义关系上还存在区别。 具体的来看,变换分析法可以分为两类来更清楚地加以认识:(1)当句法同义时 1.我打破了杯子。 可变换为: a、杯子被我打破了。 c、我把杯子打破了。 虽然转换成不同的句子格式,但是施事受事都未发生变化,意思

现代汉语语法的句法分析

《现代汉语语法研究》第三讲现代汉语语法的句法分析这里的句法是指语法的句法结构平面。词语与词语按照一定的方式组合起来,构成一定的句法结构,对句法结构进行分析,就是句法分析。在这一讲里,我们主要讲三个问题: 1、句法结构的结构类型 2、句法结构的结构成分 3、句法结构的分析一、句法结构的结构类型1、句法结构的分类词语与词语按照一定的方式组合起来,构成一定的句法结构。根据构成句法结构的词语的性质和结构方式,我们可以把句法结构分成不同的类型。由实词与实词构成的句法结构,根据实词与实词之间不同的结构方式分为不同的类。主要有:联合结构、偏正结构、动宾结构、中补结构、主谓结构、连动结构、兼语结构、同位结构、方位结构、量词结构。由实词与虚词构成的句法结构,根据虚词的标志特征分为不同的类。主要有:“的”字结构、介词结构、比况结构、“所”字结构这些不同的结构,从结构形式上讲又可以分为两类:复合式和附加式。(1)、复合式由实词与实词构成的句法结构,其中联合结构、偏正结构、动宾结构、中补结构、主谓结构、连动结构、兼语结构、同位结构是复合式。 ①偏正结构由修饰语和中心语两部分组成,一前一后。如:“他的哥哥”“明天回来”②动宾结构两部分构成,前一部分是动词,后一部分是动词涉及的对象。例如:“考大学”“想念亲人”③中补结构

两部分组成,后一部分补充说明前一部分,中补短语的中心语通常是谓词性词语,如:“跑得快”(中心语为动词)“好得很”(中心语为形容伺)④主谓结构两部分组成,前一部分是主语,是被陈述的对象,后一部分是谓语,是陈述前一部分的。如:⑤兼语结构由一个动宾短语和一个主谓短语套叠而成,动宾短语的宾语兼作主谓短语的主语。如:⑥连动结构由不止一个动词性词语连用,隐含同一个主语,各部分之间没有关联词语,没有语音停顿,也没有联合,偏正、主谓、补充等关系,这样的短语叫连动短语。如:⑦联合结构由两个或两个以上的部分组成,各部分之间具有并列、顺承、选择、递进等关系。如:“城市乡村”“我和你”⑧同位结构两部分组成,这两部分从不同的方面称说同一个人或物。构成同位的两项词语必须是两个不同的词语,而且必须是复指关系,即在同一个句法位置上指同一个对象。如:“古城西安”、“通讯员小王”。(2)、附加式由实词与虚词构成的句法结构都是附加式的,由实词与实词构成的方位结构、量词结构也可看成附加式。①方位结构由方位名词附加在其他词或短语的后面组成,表示处所,范围或时间。如:“教室里”“操场上”“整洁的房间里”“毕业前”“前进中”“会议结束之前””吃完饭后”②量词结构由数词或代词加上量词组成,如:“一个”“五次”“这件”“那位”③“的”字结构由结构助词“的”

现代汉语语法分析的五种方法

北语之声论坛专业精华转贴 现代汉语语法的五种分析方法是语法学基础里很重要的一个内容,老师上课也会讲到,我在这里把最简略的内容写在下面,希望能对本科生的专业课学习有所帮助 详细阐释中心词分析法、层次分析、变换分析法、语义特征分析法和语义指向分析的具体内涵: 一. 中心词分析法: 分析要点: 1.分析的对象是单句; 2.认为句子又六大成分组成——主语、谓语(或述语)、宾语、补足语、形容词附加语(即定语)和副词性附加语(即状语和补语)。 这六种成分分为三个级别:主语、谓语(或述语)是主要成分,宾语、补足语是连 带成分,形容词附加语和副词性附加语是附加成分; 3.作为句子成分的只能是词; 4.分析时,先找出全句的中心词作为主语和谓语,让其他成分分别依附于它们; 5.分析步骤是,先分清句子的主要成分,再决定有无连带成分,最后指出附加成分。 标记: 一般用║来分隔主语部分和谓语部分,用══标注主语,用——标注谓语,用~~~~~~标注宾语,用()标注定语,用[ ]标注状语,用< >标注补语。 作用: 因其清晰明了得显示了句子的主干,可以一下子把握住一个句子的脉络,适合于中小学语文教学,对于推动汉语教学语法的发展作出了很大贡献。 还可以分化一些歧义句式。比如:我们五个人一组。 (1)????????我们║五个人一组。 (2)????????我们五个人║一组。 总结:中心词分析法可以分化一些由于某些词或词组在句子中可以做不同的句子成分而造成的歧义关系。 局限性:

1.????????在一个层面上分析句子,层次性不强; 2.????????对于一些否定句和带有修饰成分的句子,往往难以划分; 如:我们不走。≠我们走。 封建思想必须清除。≠思想清除。 3.????????一些由于句子的层次关系不同而造成的歧义句子无法分析; 如:照片放大了一点儿。???咬死了猎人的狗。 二. 层次分析: 含义: 在分析一个句子或句法结构时,将句法构造的层次性考虑进来,并按其构造层次逐层进行分析,在分析时,指出每一层面的直接组成成分,这种分析就叫层次分析。 朱德熙先生认为,层次分析不能简单地将其看作是一种分析方法,而是应当看做一种分析原则,是必须遵守的。(可以说说为什么) 层次分析实际包含两部分内容:一是切分,一是定性。切分,是解决一个结构的直接组成成分到底是哪些;而定性,是解决切分所得的直接组成成分之间在句法上是什么关系。 基本精神: 1.????????承认句子或句法结构在构造上有层次性,并在句法分析上严格按照内部的构造层次 进行分析; 2.????????进行分析时,要明确说出每一个构造层面的直接组成成分;3.????????分析时只管直接成分之间的语法结构关系,不管间接成分之间的语法结构关系或句 法结构中实词与实词之间的语义结构关系; 优越性: 1.????????注意到了句子构造的层次性; 如:??他??刚??来???????我们??便宜??他了 ?????│ │__│?????????│???│___│

汉语语法研究参考文献

著作部分 北京大学中文系1955、1957级语言班《现代汉语虚词例释》商务印书馆1982年 曹逢甫《主题在汉语中的功能研究——迈向语段分析的第一步》语文出版社 1995年 陈爱文《汉语词类研究和分类试验》北京大学出版社 1986年 陈建民《现代汉语句型论》语文出版社1986年 储泽祥《现代汉语方所系统研究》华中师范大学出版社1997年 方经民《汉语语法变换研究——理论、原则、方法》(日本)白帝社1998年 范晓(主编)《汉语的句子类型》书海出版社1998年 傅雨贤周小兵《现代汉语介词研究》中山大学出版社1997年 傅雨贤《现代汉语语法学》广东高等教育出版社 1988年 高更生王红旗等《汉语教学语法研究》语文出版社 1996年 龚千炎《汉语的时相时制时态》商务印书馆 1995年 龚千炎《中国语法学史》语文出版社 1997年 郭志良《现代汉语转折词语研究》北京语言文化大学出版社1999年 侯学超《现代汉语虚词词典》北京大学出版社1998年 胡明扬(主编)《词类问题考察》北京语言文化大学出版社 1996年 胡裕树范晓《动词研究综述》山西高校联合出版社 1996年 林玉山《汉语语法学史》湖南教育出版社 1983年 李临定《现代汉语动词》中国社会科学出版社 1990年 李临定《现代汉语句型》商务印书馆1986年 李珊《现代汉语被字句研究》北京大学出版社1994年 刘月华《趋向补语通释》北京语言文化大学出版社 1998年 李子云《汉语句法规则》安徽教育出版社 1991年 陆俭明《八十年代中国语法研究》商务印书馆 1993年 陆俭明马真《现代汉语虚词散论》北京大学出版社1985年 吕冀平《汉语语法基础》商务印书馆 2000年 吕淑湘《汉语语法分析问题》商务印书馆 1979年 吕叔湘《汉语语法论文集》(增订本)商务印书馆 1984年

汉语词法分析和句法分析技术综述

第一届学生计算语言学研讨会(SWCL2002)专题讲座 汉语词法分析和句法分析技术综述 刘群 北京大学计算语言学研究所 中国科学院计算技术研究所 liuqun@https://www.doczj.com/doc/432313428.html, 引言 本文主要介绍一些常用的汉语分析技术。 所谓语言的分析,就是将一个句子分解成一些小的组成部分(词、短语等等)并了解这些部分之间的关系,从而帮助我们把握这个句子的意义。 语言的研究,一般而言存在四个层面:词法层、句法层、语义层和语用层。 同样,语言的分析也存在四个层面:词法分析、句法分析、语义分析和语用分析。 本文主要介绍汉语的词法分析和句法分析技术。这两种技术是汉语分析技术的基础,而且已经发展得比较成熟。文中也会少量提及语义层面和语用层面的一些问题,但不会做深入的探讨。 汉语是一种孤立语(又称分析语),与作为曲折语和黏着语的其他一些语言相比,汉语在语法上有一些特点,仅仅从形式上看,这种特点主要体现在以下几个方面: 1.汉语的基本构成单位是汉字而不是字母。常用汉字就有3000多个 (GB2312一级汉字),全部汉字达数万之多(UNICODE编码收录汉字20000多); 2.汉语的词与词之间没有空格分开,也可以说,从形式上看,汉语中没有“词” 这个单位; 3.汉语词没有形态上的变化(或者说形态变化非常弱),同一个词在句子中 充当不同语法功能时,形式是完全相同的; 4.汉语句子没有形式上唯一的谓语中心词。 这些特点对汉语的分析造成了一定的影响,使得汉语分析呈现出和英语(以及其他一些语言)不同的特点。 不过也不能过分夸大这种不同。我认为,那种以为汉语完全不同于英语,因此有必要重新建立一套分析体系的想法是没有道理的。从现有的研究看,汉语分析所使用的技术和其他语言分析所使用的技术并没有本质的不同,只是应用方式上有所区别(主要体现在词法分析方面)。而且从应用的效果看,没有证据表明,这些技术用来分析汉语比用来分析英语效果更差。 本文结合我们自己的一些工作,比较全面的介绍一下汉语词法分析和句法分析中所使用的各种技术。

汉语语法研究参考文献2

汉语语法研究参考文献 论文部分 一、词类 刘丹青《从汉语特有词类问题看语法的宏观研究》《江苏社会科学》1991年第2期 陆俭明《关于汉语词类的划分》《语法研究入门》吕淑湘等著马庆株编商务印书馆1999年 马庆株《影响词类划分的因素和汉语词类定义的原则》《语法研究和探索》(五)语文出版社1991年 文炼《词语之间的搭配关系》《中国语文》1982年第1期 文炼《与分类有关的几个问题》《汉语学习》1993年第3期 邢福义《词类问题的思考》《语法研究和探索》(五)语文出版社1991年 徐枢《兼类和处理兼类时遇到的一些问题》《语法研究和探索》(五)语文出版社1991年 杨成凯《词类的划分原则和谓词“名物化”》《语法研究和探索》(五)语文出版社1991年 尹斌庸《汉语词类的定量研究》《中国语文》1986年第6期 张伯江《词类活用的功能解释》《中国语文》1994年第5期 张连生《词性确定的原则和方法》《东北师范大学学报》(哲社版)1992年第4期 朱林清《论词类的语法功能及词性的确定》《南京师范大学学报》(社科版)1985年第4期 TOP 二、名词 陈宁萍《现代汉语名词类的扩大——现代汉语动词和名词分界限的考察》《中国语文》1987年第5期 廖秋忠《空间方位词和方位参考点》《中国语文》1990年第1期 邵敬敏《论名词的动态性及其鉴测方法》《汉语学习》2001年第6期 邢福义等《时间词“刚刚”的多角度考察》《中国语文》1990年第1期 袁毓林《现代汉语名词的配价研究》《中国社会科学》1992年第3期 袁毓林《一价名词的认知研究》《中国语文》1994年第4期 张谊生《名词的语义基础及其功能转化与副词修饰名词》《语言教学与研究》1996年第4期 TOP 三、动词 邓守信《汉语动词的时间结构》《语言教学与研究》1985年第4期 郭锐《汉语动词的过程结构》《中国语文》1993年第6期 刘月华《动词重叠的表达功能及可重叠动词的范围》《语法研究和探索》(二)北京大学出版社1984年 范晓《及物动词和不及物动词的区分及其再分类》《中国语言学报》(四)商务印书馆1991年 马庆株《时量宾语和动词的类》《中国语文》1981年第2期

对外汉语教学语法 汉语句法分析

汉语句法分析 所谓句法分析,是指从句法的角度来解释和说明种种语言现象。 1、外面摆着花。 2、外面演着戏。 词类序列相同,都是“处所短语+动词+着+名词”,但是人们明显感到二者不同。 谦虚点儿! 高点儿! 骄傲点儿! 伟大点儿! 团长了!博士了!老夫老妻了! 士兵了!实习生了!孩子了! 开车的司机 开车的工具 从句法角度来解释和说明种种语言现象,这就是句法分析。 一、中心词分析法(句子成分分析法) (一)句子成分分析法的原则: 1、分析的对象是单句。

2、认定一个句子有六大句子成分。 3、作句子成分的原则上都只能是词。 4、分析时,先找出全句的中心词主语和述语(即谓语),让其他成分分别依附于它们。 这些工人立刻修好了一座桥。 工人修。 (二)句子成分分析法的优点: 可以让人一下子把握住一个句子的脉络。尤其是用它来分析一个长单句,更能显示出它这方面的优越性。 我国首次升空的“神州——3号”模拟载人飞船经过264个小时在太空运行之后按照原先预订的时间安全、准确地返回原先计算好的我国西北某地区的地面。 (三)中心词分析法的局限性 1、不能显示句子结构的层次性。 他昨天从北京来。 2、破坏了句子成分的整体性。 3、分化歧义的能力差 我们五个人一组。

人 我们 照片放大了一点儿。 中心词分析法为什么会有这样的局限性呢?原因是中心词分析法在分析过程中不大关注语法结构的层次性。 二、层次分析法 在分析句子或句法结构时,将句法构造的层析性考虑进来,并按照其构造层次逐层进行分析,在分析时,指出每一层面的直接组成成分,这种分析就叫层次分析。 (一)层次分析法的合理性 从表面上看,一个句子或者句法结构是词的线性序列,其实句子或句法结构里词与词之间结合的松紧度是不一样的,词和词的组合有着层次的透景。 他刚来。 他刚来 他刚来 刚来 (二)层次分析法的内容 一是切分 一是定性

近代汉语语法史研究综述

近代汉语语法史研究综述 《近代汉语语法史研究综述》 第十三章比较句 《马氏文通》将古代汉语的比较句分为平比、差比、极比三种。 平比差比极比 平比者,凡象静字以比两端差比者,两端相较有差也。极比者,言将所以比之象推至无轩轾而适相待者也。於其极也。 例:且君子之交淡如水,小人例:季氏富於周公。(论语?先例:诸子中胜最贤。(史记?平之交甘若醴。(庄子?山木) 进) 原君列传) 一、差比句 1.1差比句词序的历史变化 太田辰夫的观点: 古代汉语的差比句用“A—形容词—介词—B”式,A、B代表两个比较项,可用于古代汉语差比句式的介词有“于、过、如、似”。——《中国语历史文法》“于”最常用,从古代一直用到唐代。 “过”见于唐代。 “如”本来用于平比句,从唐代起转为表示差比。 “似”在唐代产生,用得比“如”多。 现代汉语差比句用“A—介词—B—形容词”式,介词用“比”,由动词发展而来,唐代“比”处于由动词虚化为介词的过程中,有些句子还有“比较、比拟”的意思,如: 若比李三犹自胜。(白居易诗) 但有的例子已经可以看作差比句,如:

色比琼浆犹嫩。(郎士元诗) 古代汉语和现代汉语差比句的不同: 1、词序不同:古代汉语差比句中形容词在两个比较项中间,现代汉语差比句中形容词在两个比较项后。 2、古代汉语差比句不能用副词或补语说明差别程度,但是唐代以后情况有所改变。 如:眼见的泪点儿更多如他那秋夜雨。(潇湘雨,3折) 总的来说,古代汉语差比句中一般只用一个形容词表示比较结果,不能说明差别的程度。现代汉语差比句则以用副词,后助形容词,补语等更细致地表示差比为特征。如: 我这枝笔比刀子还快哩。(救孝子,2折)——现代汉语差比句 贝罗贝的观点: 将现代汉语比较句结构概括为:X+比较词(comparative)+Y(+adverb)+比较结果(dimension)”。X和Y是两个比较项。贝罗贝把比较分为三级:比较级(superiority)、等同 级(equal)、相差级(inferior)。比较级大致与差比相当,现代汉语中比较词用“比”。等同级大致与平比相当,现代汉语用“跟……一样……”或“有……那么……”表示。贝罗贝与太田辰夫对差比句的不同看法是:“似、若、如”并非产生于唐代。 贝罗贝明确指出汉语差比句式发生较大变化是在宋元时期。这一时期古代汉语差比式“X+形容词+於/过+Y”的使用少了,而以前用于表示平比的“X+形容词+如/似+Y”式则用来表示差比。如: (17)东风寒似夜来些。(贺铸:浣溪沙)

现代汉语语法分析第一节层次分析

第一节层次分析 1.1句法结构的层次性和层次分析 1、句法结构的层次性: 一个句子或是句法格式表面上看是线性排列,内部有一种层次的透景。(松紧程度不一样) 如:他刚来。(这三个词内部的松紧程度不一样。“刚”和“来”关系紧密,“他”和“刚”关系疏远,“刚”和“来”先组合,再和“他”组合) 2、结构的三个特点: *整体性(作为一个结构,一定具有整体性。) *可分割性(作为一个结构,一定可以被分割成多个部分。) *有规则性(一个结构作为一个整体,一定是由好几部分组成的,这好几个部分组合的时候,它是按照一定规则组成的。) 如:形声字:形+声,再+字(“形声字”这个词,不是一些语素随便凑成,而是按一定规则组成的。)【有两个以上语素组合时,其内部一定有层次结构。】 *音节也是有层次的,如:天[tian55] 这个音节也是有层次的: 声调——超音段成分 声母+韵母——音段成分 韵母——韵头+韵部(韵基) 韵基——韵腹(主要元音)+韵尾 【由此,我们可以说的宽泛一点,这叫语言的层次构造,这种构造,是语言的基本特性。不论是语音、词汇、句子都有这样的层析构造问题。】 3、层次分析:在分析一个句子,或是句法结构的时候,将句法构造的层次性考虑进来,并按其构造层次,逐层进行分析,在分析时,指出每一层面的直接组成成分,并说明直接组成成分之间的关系。这种分析手段就是层次分析。 如:他刚来 “他刚来”的直接组成成分:他+刚来主谓 谓语“刚来”的直接组成成分:刚+来状中 4、层次分析包含两个内容: 二他所写的文章怎么切分? 切分:怎样断句 定性: 层次分析的三种主要表示方法:从小到大、框式、树型图: 5、怎么切分? 同一结构如何切分 例句:他所参观的工厂。 名词性偏正结构定中 他所参观? 他所参观的工厂 他所参观的工厂会导致他和工厂有领属关系 所以他所参观的工厂 他所参观怎么分析? 他参观

现代汉语语法的五种分析方法

现代汉语语法的五种分析方法现代汉语语法的五种分析方法是语法学基础里很重要的一个内容,老师上课也会讲到,我在这里把最简略的内容写在下面,希望能对2017汉硕考研学生的专业课学习有所帮助 详细阐释中心词分析法、层次分析、变换分析法、语义特征分析法和语义指向分析的具体内涵:了解更多的汉硕考研信息、资料加丹丹老师Q。依旧义乌散散刘思伊尔 一.中心词分析法: 分析要点: 1.分析的对象是单句; 2.认为句子又六大成分组成——主语、谓语(或述语)、宾语、补足语、形容词附加语(即定语)和副词性附加语(即状语和补语)。 这六种成分分为三个级别:主语、谓语(或述语)是主要成分,宾语、补足语是连 带成分,形容词附加语和副词性附加语是附加成分; 3.作为句子成分的只能是词; 4.分析时,先找出全句的中心词作为主语和谓语,让其他成分分别依附于它们; 5.分析步骤是,先分清句子的主要成分,再决定有无连带成分,最后指出附加成分。 标记: 一般用║来分隔主语部分和谓语部分,用══标注主语,用——标注谓语,用~~~~~~标注宾语,用()标注定语,用[]标注状语,用<>标注补语。 作用: 因其清晰明了得显示了句子的主干,可以一下子把握住一个句子的脉络,适合于中小学语文教学,对于推动汉语教学语法的发展作出了很大贡献。 还可以分化一些歧义句式。比如:我们五个人一组。 (1)我们║五个人一组。 (2)我们五个人║一组。 总结:中心词分析法可以分化一些由于某些词或词组在句子中可以做不同的句子成分而造成的歧义关系。 局限性:

1.在一个层面上分析句子,层次性不强; 2.对于一些否定句和带有修饰成分的句子,往往难以划分; 如:我们不走。≠我们走。 封建思想必须清除。≠思想清除。 3.一些由于句子的层次关系不同而造成的歧义句子无法分析; 如:照片放大了一点儿。咬死了猎人的狗。 二.层次分析: 含义: 在分析一个句子或句法结构时,将句法构造的层次性考虑进来,并按其构造层次逐层进行分析,在分析时,指出每一层面的直接组成成分,这种分析就叫层次分析。 朱德熙先生认为,层次分析不能简单地将其看作是一种分析方法,而是应当看做一种分析原则,是必须遵守的。(可以说说为什么) 层次分析实际包含两部分内容:一是切分,一是定性。切分,是解决一个结构的直接组成成分到底是哪些;而定性,是解决切分所得的直接组成成分之间在句法上是什么关系。 基本精神: 1.承认句子或句法结构在构造上有层次性,并在句法分析上严格按照内部的构造层次 进行分析; 2.进行分析时,要明确说出每一个构造层面的直接组成成分; 3.分析时只管直接成分之间的语法结构关系,不管间接成分之间的语法结构关系或句 法结构中实词与实词之间的语义结构关系; 优越性: 1.注意到了句子构造的层次性; 如:他刚来我们便宜他了 ││__│││___│ │___││_____│

第二讲现代汉语语法研究层次分析法

第二讲层次分析法 2.1 句子成分分析及其局限 句子成分分析法又叫中心词分析发。要点大致如下: (一)以单句为分析对象。 (二)句子有六大成分——主语、述语(谓语)(主要成分);宾语、补足语(黎锦熙,如“他成了班长 ..”“他 们请我做报告 ...”)(连带成分);形容词性附加语(今天的定语)、副词性附加语(状语和补语)(附加成分)。 (三)句子成分原则上只能是词。 (四)分析手续:先找出全句主要成分主语和述语,再决定述语后有无连带成分宾语或补语,最后指出句中所有的附加成分。 句子成分分析发的优点:可以让人一下子把握住句子的脉络。在分析长句时,更能显示其优越性:(1)我国首升空的“神州-3号”模拟载人飞船经过

264个小时在太空运行之后按照原先预定的时间安全、准确地返回原先计算好的我国西北某地区的地面。 句子成分分析法的局限性: 第一:离了枝叶,主干不成立或站不住,或不是原句子的意思。 (2)他贪图安逸。 (3)于福的老婆是小晴的娘.。 第二:离了枝叶,主干虽能成立,但意思发生了变化。 (4)我们都不懂。(我们懂) (5)祥林嫂死了当家人。(祥林嫂死了) (6)不合格的党员清除了。(党员清除了) 第三:不能有效分化歧义。 (7)照片放大了一点。(“放得不是很大”,“放得过于大了”) (8)我也去上海。

第四:不利于发现某些词语的用法特点。 (9)a.我们白白浪费了几个小时。*b.我们白浪费了几个小时。 2.2 句法构成的层次性 一个句子或句法结构总是按一定的句法规则一层一层地进行组合的。例如: (10)他刚到。 “刚”跟“他”不发生直接的关系,“刚”先跟“到”构成修饰关系,然后“刚到”一起再跟“他”构成主谓关系。这种构造特性一般称为“句法构造的层次性”。 2.3 关于层次分析法 层次分析,实际包含两个方面,一是切分,一是定性。切分解决一个结构的直接组成成分到底是哪些(从哪儿切分);定性解决切分所得的直接成分之间在句法上是什么关系。(张三吃苹果/ 张三吃苹果(主谓?述宾?)) 切分一般用画线法,也用树结构;定性一般用阿拉伯数字标示,再加简明的文字说明。 (11)他抽烟。 a 他抽烟 b 他抽烟 c 他抽烟 1 __1_ __2___ 1 2

汉语介词语法化研究综述

汉语介词语法化研究综述 语法化理论进入中国后,介词研究进入全新阶段。据目前研究,介词语法化研究主要呈现以下几个特点:第一,普通话研究成果多,方言研究不充分且停留在比较其与普通话不同的层面;第二,双音介词、框式介词研究集中于普通话层面,方言双音介词、框式介词研究少;第三,汉语方言介词语法化研究较少。 标签:介词方言语法化综述 20世纪90年代中期,语法化理论引入中国。沈家煊(1994)在《“语法化”研究综观》一文中提到了“到”“被”“在”等介词的语法化,并提出语法化研究的两条路子与九条原则。孙朝奋(1994)同年发表《<虚化论>评介》,介绍国外语法化研究的最新情况。刘坚、曹广顺、吴福祥(1995)发表《论诱发汉语词汇语法化的若干要素》一文,提出句法位置、语义变化、语境及重新分析是四种诱发汉语词汇语法化的要素。以上三篇文章构成我国语法化研究的指导性理论,对汉语语法化研究产生引领性作用。随后,沈家煊(1998)又介绍了国外最新语法化理论著作《演变而来的语法》,明确表示赞同此书作者的观点,认为弄清语法标记形成的历史过程不是最终目的,最终目的是要弄清词义虚化机制。 语法化指导性理论建立后,介词语法化研究如雨后春笋般兴起,主要包括以下几个方面。 一、介词语法化动因与机制 动因与机制问题一直是介词研究的重点。尽管目前学界对于“动因”与“机制”问题的认识存在诸多分歧,但都不外乎回答动词为什么能够虚化为介词及怎样虚化为介词这两个问题。 石毓智(1995)分析汉语介词衍生的原因,认为汉语介词的衍生与连动结构的时间一维性有关。时间的发展只有通过运动变化才能为人所感知,它又是从过去到现在再到将来一维地向前流逝,那么在计量它时,如果同一时间内发生多种多样的运动变化,只能选取其中的一个来计算。 刘坚、曹广顺、吴福祥(1995)提出,诱发汉语实词虚化的因素有四种,即句法位置的改变、词义的变化、语境的影响和重新分析,并讨论了汉语“把”字句与“被”字句的产生机制。 金昌吉(1996)谈到介词来源问题时,赞同徐通锵提出的“结构的不平衡是变异之源”的观点,认为用“结构——有序状态的变异——结构”这一公式可以解释介词的虚化问题,并分析了“把”字句、“被”字句、“比”字句的形成。 洪波(1998)不同意石毓智的观点,他认为时间的一维性对于汉语介词的衍生只起间接作用,即它使得汉语介词所从来的那些动词在句法结构中的某些句法

现代汉语语法的五种分析方法

现代汉语语法的五种分析方法 很有用,请好好学习之。 北语之声论坛专业精华转贴 现代汉语语法的五种分析方法是语法学基础里很重要的一个内容,老师上课也会讲到,我在这里把最简略的内容写在下面,希望能对本科生的专业课学习有所帮助 详细阐释中心词分析法、层次分析、变换分析法、语义特征分析法和语义指向分析的具体内涵: 一. 中心词分析法: 分析要点: 1.分析的对象是单句; 2.认为句子又六大成分组成——主语、谓语(或述语)、宾语、补足语、形容词附加语(即定语)和副词性附加语(即状语和补语)。 这六种成分分为三个级别:主语、谓语(或述语)是主要成分,宾语、补足语是连 带成分,形容词附加语和副词性附加语是附加成分; 3.作为句子成分的只能是词; 4.分析时,先找出全句的中心词作为主语和谓语,让其他成分分别依附于它们; 5.分析步骤是,先分清句子的主要成分,再决定有无连带成分,最后指出附加成分。 标记: 一般用║来分隔主语部分和谓语部分,用══标注主语,用——标注谓语,用~~~~~~标注宾语,用()标注定语,用[ ]标注状语,用< >标注补语。 作用: 因其清晰明了得显示了句子的主干,可以一下子把握住一个句子的脉络,适合于中小学语文教学,对于推动汉语教学语法的发展作出了很大贡献。 还可以分化一些歧义句式。比如:我们五个人一组。 (1)我们║五个人一组。 (2)我们五个人║一组。 总结:中心词分析法可以分化一些由于某些词或词组在句子中可以做不同的句子成分而造成的歧义关系。

局限性: 1.在一个层面上分析句子,层次性不强; 2.对于一些否定句和带有修饰成分的句子,往往难以划分; 如:我们不走。≠我们走。 封建思想必须清除。≠思想清除。 3. 一些由于句子的层次关系不同而造成的歧义句子无法分析; 如:照片放大了一点儿。咬死了猎人的狗。 二. 层次分析: 含义: 在分析一个句子或句法结构时,将句法构造的层次性考虑进来,并按其构造层次逐层进行分析,在分析时,指出每一层面的直接组成成分,这种分析就叫层次分析。 朱德熙先生认为,层次分析不能简单地将其看作是一种分析方法,而是应当看做一种分析原则,是必须遵守的。(可以说说为什么) 层次分析实际包含两部分内容:一是切分,一是定性。切分,是解决一个结构的直接组成成分到底是哪些;而定性,是解决切分所得的直接组成成分之间在句法上是什么关系。 基本精神: 1.承认句子或句法结构在构造上有层次性,并在句法分析上严格按照内部的构造层次进行分析; 2.进行分析时,要明确说出每一个构造层面的直接组成成分; 3.分析时只管直接成分之间的语法结构关系,不管间接成分之间的语法结构关系或句法结构中实词与实词之间的语义结构关系; 优越性: 1.注意到了句子构造的层次性; 如: 他刚来我们便宜他了 │ │__│││___│ │___││_____│

相关主题
文本预览
相关文档 最新文档