编译原理-第二章解读
- 格式:ppt
- 大小:649.00 KB
- 文档页数:16
第二章文法和语言本章讲述目前广泛使用的上下文无关文法。
即用上下文无关文法作为程序设计语言语法的描述工具。
阐明语法的一个工具是文法。
本章将介绍文法和语言的概念。
本章重点:上下文无关文法及其句型分析中的有关问题。
第一节文法的直观概念当我们表述一种语言时,无非是说明这种语言的句子,如果语言只含有有穷多个句子,则只需列出句子的有穷集就行了,但对于有无穷句子的语言来讲,存在着如何给出它的有穷表示的问题。
以自然语言为例,人们无法列出全部句子,但是人们可以给出一些规则,用这些规则来说明(或者定义)句子的组成结构,比如:“我是大学生”。
是汉语的一个句子。
汉语句子可以是由主语后随谓语而成,构成谓语的是动词和直接宾语,我们采用EBNF来表示这种句子的构成规则:〈句子〉∷=〈主语〉〈谓语〉〈主语〉∷=〈代词〉|〈名词〉〈代词〉∷=我|你|他〈名词〉∷=王明|大学生|工人|英语〈谓语〉∷=〈动词〉〈直接宾语〉〈动词〉∷=是|学习〈直接宾语〉∷=〈代词〉|〈名词〉“我是大学生”的构成符合上述规则,而“我大学生是”不符合上述规则,我们说它不是句子。
这些规则成为我们判别句子结构合法与否的依据。
一旦有了一组规则以后,我们可以按照如下方式用它们去推导或产生句子。
我们开始去找∷=左端的带有〈句子〉的规则并把它表示成∷=右端的符号串,这个动作表示成:〈句子〉⇒〈主语〉〈谓语〉,然后在得到的串〈主语〉〈谓语〉中,选取〈主语〉或〈谓语〉,再用相应的规则∷=右端代替之。
比如,选取了〈主语〉,并采用规则〈主语〉∷=〈代词〉,那么得到:〈主语〉〈谓语〉⇒〈代词〉〈谓语〉,重复做下去,我们得到句子:“我是大学生”的全部动作过程是:〈句子〉⇒〈主语〉〈谓语〉⇒〈代词〉〈谓语〉⇒我〈谓语〉⇒我〈动词〉〈直接宾语〉⇒我是〈直接宾语〉⇒我是〈名词〉⇒我是大学生符号⇒的含义是,使用一条规则,代替⇒左边的某个符号,产生⇒右端的符号串。
显然,按照上述办法,不仅生成“我是大学生”这样的句子,还可以生成“王明是大学生”,“王明学习英语”,“我学习英语”,“他学习英语”,“你是工人”,“你学习王明”等几十个句子。
现代编译原理--第⼆章(语法分析之LR(1)) (转载请表明出处)前⾯已经介绍过LL(1),以及如何使⽤LL(1)⽂法。
但是LL(K)⽂法要求在看到K个字母的情况下必须做出预测,这相⽐于LR(K)⽂法⽽⾔就逊⾊很多。
LR(K)⽂法的定义是:从左⾄右分析,最右推导,超前查看K个单词。
先看⼀个例⼦,来对LR⽂法有个⼤致的印象。
以上就是使⽤LR⽂法对源码进⾏分析的例⼦。
注意到在LR⽂法中只有三个动作:移进,规约和接受,这三个动作也是通过查表来得到的。
任何时候如果都是唯⼀确定这三个动作中的⼀个,我们就能让LR⽂法正确的运⾏。
为了更好的理解LR(K)⽂法,我们先介绍以下最简单的LR(0)⽂法。
因为动作是根据表来确定,所以,表的构建依然是我们构建的重点,先来看看⼀个表的最终形式: ⾸先要说明的是,构建这张表的时候,我们使⽤到了状态机,⾏标就代表状态。
列标由两部分组成,分别是终结符,和⾮终结符。
s代表移进,r代表规约,g代表跳转,a代表接受,他们后⾯跟着的数字,除了r以外,都是状态的标号,只有r后⾯的数字指的时规约到第⼏个产⽣式。
所有空的地⽅都代表出现错误。
可见在⾮终结符下只有跳转。
为了构建这个表,我们⾸先构建状态机。
我们从⼀个基本的⽂法开始,⽂法如下: 我们向产⽣式中添加⼀个点,形成这种形式,称为项。
这个点的位置告诉我们当前在状态是什么。
点每移动⼀次,我们跳转⼀个状态。
点前⾯的字符串表⽰我们已经读取的历史,点后⾯的字符串表⽰我们希望得到的。
也就是这种表达⽅式,既可以展望未来,也可以回顾过去。
上⾯这个起始项中,我们希望得下⼀次得到⼀个S⾮终结符,可以看出1和2产⽣式是S的等价形式,如果我们得到1和2产⽣式的右部,我们就相当于得到了⾮终结符S,所以,我们的起始状态为: 我们称第⼀个产⽣式为核⼼项,其他为普通项。
这个状态我们称为状态1,所有的状态都是由这个状态中每个项的点的移动得到的。
例如,状态1吃掉⼀个终结符x时,状态1的第⼆个项中的点要向右移动⼀位。