编译原理 形式语言
- 格式:ppt
- 大小:1.36 MB
- 文档页数:90
编译原理形式语言编译原理是计算机科学与技术领域中的一门重要课程,它研究的是将高级语言程序转换为计算机可以理解和执行的可执行代码的过程。
在学习编译原理的过程中,我们必然要涉及到形式语言的概念。
形式语言是指用来描述计算机语言、编程语言、自然语言或者其他领域中的形式系统的语言。
形式语言可以分为四种类型:无限制文法、上下文有关文法、上下文无关文法和正则文法。
这四种类型的文法按照规则严格程度从高到低依次排列,其中无限制文法最为灵活,正则文法最为严格,限制最多。
无限制文法(Unrestricted Grammar)是最灵活最强大的文法类型,也是图灵机的模型之一、它的产生式规则形式可以是 A -> α,其中 A是一个非终结符号(可以通过其他规则推导出其他符号或者字符串),α 是一个终结符符号或非终结符符号的有限序列。
无限制文法没有任何限制,可以描述任意的形式语言。
上下文有关文法(Context-Sensitive Grammar)是介于无限制文法和上下文无关文法之间的一种文法类型。
它的产生式规则形式可以是αAβ -> αγβ,其中α、β、γ 是终结符号或非终结符号的有限序列,A 是一个非终结符号。
上下文有关文法要求产生式规则中的左右上下文必须匹配。
上下文有关文法可以描述一些复杂的结构,但与无限制文法相比,它的限制更多一些。
上下文无关文法(Context-Free Grammar)是应用最广泛的一种文法类型,它的产生式规则形式可以是 A -> α,其中 A 是一个非终结符号,α 是一个终结符号或非终结符号的有限序列。
上下文无关文法的产生式规则没有左右上下文的限制,只要符合规则形式即可。
上下文无关文法广泛应用于编译器的语法分析阶段,例如语法分析器常采用的 LL(1) 文法和 LR(1) 文法。
正则文法(Regular Grammar)是最严格、最受限制的一种文法类型,它的产生式规则形式可以是 A -> aB 或 A -> a,其中 A 和 B 是非终结符号,a 是终结符号。
第2章形式语言基础2.2 设有文法G[N]: N -> D | NDD -> 0 | 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9(1)G[N]定义的语言是什么?(2)给出句子0123和268的最左推导和最右推导。
解答:(1)L(G[N])={(0|1|2|3|4|5|6|7|8|9)+} 或L(G[N])={α| α为可带前导0的正整数}(2)0123的最左推导:N ⇒ ND ⇒ NDD ⇒ NDDD ⇒ DDDD ⇒ 0DDD ⇒ 01DD ⇒ 012D ⇒ 0123 0123的最右推导:N ⇒ ND ⇒ N3 ⇒ ND3 ⇒ N23 ⇒ ND23 ⇒ N123 ⇒ D123 ⇒ 0123268的最左推导:N ⇒ ND ⇒ NDD ⇒ DDD ⇒ 2DDD ⇒ 26D ⇒ 268268的最右推导:N ⇒ ND ⇒ N8 ⇒ ND8 ⇒ N68 ⇒ D68 ⇒ 2682.4 写一个文法,使其语言是奇数的集合,且每个奇数不以0开头。
解答:首先分析题意,本题是希望构造一个文法,由它产生的句子是奇数,并且不以0开头,也就是说它的每个句子都是以1、3、5、7、9中的某个数结尾。
如果数字只有一位,则1、3、5、7、9就满足要求,如果有多位,则要求第1位不能是0,而中间有多少位,每位是什么数字(必须是数字)则没什么要求,因此,我们可以把这个文法分3部分来完成。
分别用3个非终结符来产生句子的第1位、中间部分和最后一位。
引入几个非终结符,其中,一个用作产生句子的开头,可以是1-9之间的数,不包括0,一个用来产生句子的结尾,为奇数,另一个则用来产生以非0整数开头后面跟任意多个数字的数字串,进行分解之后,这个文法就很好写了。
N -> 1 | 3 | 5 | 7 | 9 | BNB -> 1 | 2 | 3 | 4 | 5 | 6 | 7 | 8 | 9 | B02.7 下面文法生成的语言是什么?G1:S->ABA->aA| εB->bc|bBc G2:S->aA|a A->aS解答:B ⇒ bcB ⇒ bBc⇒ bbccB ⇒ bBc⇒ bbBcc ⇒ bbbccc……A ⇒εA ⇒ aA ⇒ aA ⇒ aA ⇒ aaA ⇒ aa……∴S ⇒ AB ⇒ a m b n c n , 其中m≥0,n≥1即L(G1)={ a m b n c n | m≥0,n≥1} S ⇒ aS ⇒ aA ⇒ aaS ⇒ aaaS ⇒ aA ⇒ aaS ⇒ aaaA ⇒aaaaS ⇒ aaaaa ……∴S ⇒ a2n+1 , 其中n≥0即L(G2)={ a2n+1 | n≥0}2.11 已知文法G[S]: S->(AS)|(b)A->(SaA)|(a)请找出符号串(a)和(A((SaA)(b)))的短语、简单短语和句柄。
第2章形式语言1.试分别构造产生下列语言的文法:(1){a n#b n|n≥0}∪{c n#d n|n≥0};(2)任何不是以0打头的所有奇整数所组成的集合。
答:(1) 对应文法为G(S)=({S,X,Y},{a,b,c,d,#}, {S→X, S→Y, X→aXb|#, Y→cYd|# },S)(2) G(S)=({S,A,B,I,J},{0,1,2,3,4,5,6,7,8,9},{S→J|IBJ, B→0B|IB|ε, I→J|2|4|6|8, J→1|3|5|7|9},S)2.对于下列的文法S→AB|c A→bA|a B→aSb|c试给出句子bbaacb的最右推导。
答:S=>AB=>AaSb=> Aacb=>bAacb=>bbAacb=>bbaacb3.已知文法G[S]: S->(AS)|(b)A->(SaA)|(a)请找出符号串(a)和(A((SaA)(b)))的短语、简单短语和句柄。
答:因为S 不能⇒ (a), 所以(a)不是文法的句型。
没有短语、直接短语和句柄。
因为S ⇒(AS) ⇒(A(AS)) ⇒(A((SaA)S)) ⇒(A((SaA)(b))),所以(A((SaA)(b)))是文法的句型。
短语:(A((SaA)(b))),((SaA)(b)),(SaA),(b)直接短语:(SaA),(b)句柄:(SaA)S( A S )( A S )( S a A ) ( b )4.试描述由下列文法所产生的语言的特点:(1)S→10S0 S→aA A→bA A→a(2)S→aSS S→a答:(1) 本文法构成的语言集为:L(G)={(10)n ab m a0n|n,m≥0}。
(2)由L(G)={a2n-1|n≥1}可知,该语言特点是:产生的句子是奇数个a。
附加题:试证明文法S→AB|DC A→aA|a B→bBc|bc C→cC|c D→aDb|ab为二义性文法。
《编译原理》第2章文法和语言的形式定义编译原理是计算机科学中的一门重要课程,它研究的是将高级程序语言翻译成机器语言的方法和技术。
在编译原理中,文法和语言的形式定义是非常重要的概念,本文将围绕这个主题展开详细的讨论。
第2章《文法和语言的形式定义》主要介绍文法和语言的概念、应用及其形式定义的方法。
文法是描述语言结构和语法规则的形式化产物,而语言则是文法所描述的符号集合。
在编译原理中,我们需要通过形式定义的方式来描述和理解程序语言的结构和规则。
下面将对文法和语言的形式定义进行详细解释。
1.文法的定义文法是由产生式(Production)组成的四元组(G,N,P,S),其中:-G:表示文法-N:表示非终结符集合,即一组可以推导出或展开的符号。
-T:表示终结符集合,即不再进行推导或展开的符号。
-P:表示产生式规则集合,是一组指定如何生成目标符号串的规则。
-S:表示一个特殊的非终结符,称为开始符号或起始符号,表示文法的初始状态。
文法的定义可以采用两种形式:巴科斯-诺尔范式(Backus-Naur Form,BNF)和扩充背景文法表达式(Extended Backus-Naur Form,EBNF)。
BNF是最常用的文法定义方法,它使用产生式规则来描述语言的结构和规则。
2.产生式的定义产生式规定了如何用一个符号串替换或展开另一个符号串。
一个产生式由一个非终结符和一个由非终结符和终结符组成的字符串组成。
例如,产生式A->BC,表示用符号串BC替换非终结符A。
产生式可以有多个产生式体,每个产生式体之间使用“,”符号分隔。
例如,产生式A->B,C,表示非终结符A可以被替换成非终结符B或C。
产生式体中可以使用如下符号:-终结符:表示语法中不再与其他符号进行推导的符号,如数字、运算符、关键字等。
-非终结符:表示语法中可以被进一步推导的符号。
-空串:表示不产生任何字符的特殊终结符。
-ε:表示空串。
3.语言的定义语言是符合一些特定文法规则的所有符号串的集合。
第一章编译程序是一种程序,它把高级语言编写的源程序翻译成与之在逻辑上等价的机器语言或汇编语言的目标程序。
一个高级语言程序的执行通常分为两个阶段,即编译阶段和运行阶段。
如果编译生成的目标程序是汇编语言形式,那么在编译与运行阶段之间还要添加一个汇编阶段.解释程序也是一种翻译程序,它将源程序作为输入,一条语句一条语句地读入并解释执行。
解释程序与编译程序的主要区别是:编译程序是将源程序翻译成目标程序后再执行该目标程序,而解释程序则是逐条读出源程序中的语句并解释执行,即在解释程序的执行过程中并不产生目标程序。
编译过程源程序符串进行扫描和分解,个具有独立意义的单词;语法分析的任务的基础上,根据语言的语法规则(号串中识别出各种语法单位并进行语法检查;和中间代码生成阶段的任务来描述这种语义即生成中间代码;优化的任务高效(节省时间和空间)的目标代码;的任务定机器上的机器语言程序或汇编语言程序,实现最终的翻译工作。
自编译:用某种高级语言书写自己的编译程序。
交叉编译:指用A机器上的编译程序来产生可在B机器上运行的目标代码。
自展:首先确定一个非常简单的核心语言L0,然后用机器语言或汇编语言书写出它的编译程序T0:再把语言L0扩充到L1,此时有L0 L1,并用L0编写L1的编译程序T1(即自编译)。
移植:指A机器上的某种高级语言的编译程序稍加改动后能够在B机器上运行.第二章对程序设计语言的描述是从语法、语义和语用3个因素来考虑的。
所谓语法是对语言结构的定义;语义是描述了语言的含义;语用则是从使用的角度去描述语言。
形式化的方法:用一整套带有严格规定的符号体系来描述问题的方法。
标识符:以字母打头的字母数字串字母表:是元素的非空有穷集合。
字符:字母表中的元素称为符号,或称为字符。
可以是字母、数字和其他符号。
符号串:符号的有穷序列。
前缀:指从末尾删除0个或多个符号后得到的符号串.后缀:指从开头删除…。
(同上)符号串的运算:符号串的连接、集合的乘积、符号串的幂运算、集合的幂运算、集合A的正闭包A+与闭包A*形式语言:字母表上所有的字符按照某种规则所组成的集合。