2-词法分析

格式：pdf
大小：402.10 KB
文档页数：104

下载文档原格式

编译原理(2)词法_2(NFA、DFA的确定化和化简)

西北农林科技大学本科教程
第 3 讲
主讲教师：赵建邦
本讲目标

第二章《词法分析》2.3-2.5节

2.3 2.4 2.5
正规表达式与有限自动机简介正规表达式到优先自动机的构造词法分析器的自动生成

重点掌握

有限自动机理论有限自动机的构造、确定化和化简
第二章词法分析
2.1 2.2
• DFA是一个五元组，Md＝ (S, ∑, f, s0 , Z) ，其中： (1) S是一个有限状态集合，它的每个元素称为一个状态 (2) ∑是一个有穷字母表，它的每个元素称为一个输入字符 (3) f是一个从S×∑至S的单值映射，也叫状态转移函数 (4) s0∈S 是唯一的初态 (5) Z S 是一个终态集
J中的每一个状态经过任意条 ε通路得到ε_CLOSURE(J) =
4
Ia= {5,6,2,3,8,4,7}
2.4

正规表达式到有限自动机的构造
2.4.2：NFA的确定化（子集法）
(1) 构造一张转换表，第一列记为状态子集I，对于不同的符号
(a∈Σ)，在表中单设一列Ia ； (2) 表的首行首列置为ε_CLOSURE(s0)，其中s0为初始状态； (3) 根据首行首列的I，为每个a求其Ia 并记入对应的Ia 列中，如果此Ia 不同于第一列中已存在的所有状态子集I，则将其
si
r1 r2 r1 *
sj sj
si
si
sj
si
2.4
正规表达式到有限自动机的构造
例2.6 对给定正规表达式 b*(d|ad)(b|ab)+ 构造其NFA M [解答] 先用R+=RR*改造正规表达式 b*(d|ad)(b|ab)+ = b*(d|ad)(b|ab)(b|ab)* 按照正规式从左到右构造NFA： b X ε 1 ε 2 a 3

第2章词法分析-sxw

2.3.1 正规表达式与正规集
正规表达式是典型的词法规则描述工具.
正规式也称正则表达式. 正规表达式(regular expression)是说明单词的模式(pattern)的一种重要的表示法(记号),是定义正规集的数学工具.我们用以描述单词符号.下面是正规式和它所表示的正规集的递归定义.
第2章词法分析
程序语言中使用的标识符是一个以字母开头的字母数字串,如果字母用letter表示,数字用digit表示, 则标识符可表示为 letter (letter∣digit)* 其中,letter与 (letter∣digit)*的并置表示两者的连接;括号中的"∣"表示letter或digit两者选一;"*" 表示零次或多次引用由"*"标记的表达式; (letter∣digit)*是letter∣digit的零次或多次并置,即表示一长度为 0 , 1 , 2 , … 的字母数字串 ; letter (letter∣digit)*表示以字母开头的字母数字串,也即标识符集.letter (letter∣digit)*就是表示标识符的正规式, 而标识符集就是这个正规式所表示的正规集.
第2章词法分析
retract ( ); c=reserve ( ); if (c==0) { buildlist ( );
/*扫描指针回退一个字符*/
/*将标识符登录到符号表中*/
return (id,指向id的符号表入口指针); } else return (保留字码,null); break;
第2章词法分析
x i y
j
k
图2–2 不同输入字符的状态转换
第2章词法分析

自然语言处理的词法分析与句法分析

自然语言处理的词法分析与句法分析自然语言处理是人工智能领域的一个重要分支，旨在使计算机能够理解和处理人类语言。

其中，词法分析和句法分析是自然语言处理的两个主要任务。

词法分析负责将一段文本分解成单词或词素，而句法分析则对文本的语法结构进行分析和解析。

本文将详细介绍词法分析和句法分析的基本概念、方法和应用。

一、词法分析1. 概念和任务词法分析是自然语言处理中的一个基础任务，主要目标是将一段文本拆分成一个个单词或词素。

词法分析可以看作是自然语言处理中最初的处理环节，在很大程度上决定了后续处理任务的难度和准确性。

具体而言，词法分析的任务包括以下几个方面：（1）分词：将连续的文本流分成一个个独立的单词。

分词在汉语处理中尤为重要，因为汉语中没有像英语中的空格来明确标识词之间的边界。

（2）词性标注：对每个单词进行词性标注，即确定它的词性类别（如名词、动词、形容词等）。

词性标注常常需要结合上下文语境进行判断。

（3）词干提取：将一个单词的派生形式还原为它的词干或原型形式。

例如，“running”和“ran”都可以还原为“run”。

2. 方法和技术（1）规则法：基于规则的词法分析方法依靠人工定义的词法规则和规则库进行分析。

这种方法简单直观，易于理解和实现，但对规则的编写需要大量的人工劳动，并且规则难以适应复杂多变的语言现象。

（2）统计法：统计法通过学习大量的语料库数据，利用统计模型来进行词法分析。

常见的统计模型包括隐马尔可夫模型（Hidden Markov Model，HMM）、最大熵模型（Maximum Entropy Model，MEM）、条件随机场（Conditional Random Field，CRF）等。

统计法的优点是能够自动学习语言规律，适应性较好，但需要大量的训练数据和计算资源。

（3）深度学习法：深度学习方法基于神经网络，通过多层的神经网络结构来进行词法分析。

典型的深度学习模型包括循环神经网络（Recurrent Neural Network，RNN）、长短期记忆网络（Long Short-Term Memory，LSTM）等。

常见的两类程序设计语言处理程序

常见的两类程序设计语言处理程序一、编译型语言处理程序1. 编译型语言的定义编译型语言是指在程序运行之前需要经过编译器将源代码转化为机器语言的一种程序设计语言。

编译型语言的处理程序主要包括以下几个步骤：2. 词法分析词法分析是编译型语言处理程序的第一步，主要将源代码划分为一个个单词，也称为词法单元。

词法分析器会根据编程语言的语法规则，将代码中的关键字、标识符、操作符等进行识别和分类。

3. 语法分析语法分析是编译型语言处理程序的第二步，主要是对词法单元进行语法分析，判断代码的语法是否符合语言规范。

语法分析器会根据语法规则构建语法树，以便后续的语义分析和代码生成。

4. 语义分析语义分析是编译型语言处理程序的第三步，主要是对代码的语义进行分析和检查。

语义分析器会检查代码中的语义错误，如类型不匹配、未声明的变量等，并生成相应的错误提示。

5. 代码生成代码生成是编译型语言处理程序的最后一步，主要是将经过词法分析、语法分析和语义分析的代码转化为目标机器的机器语言。

代码生成器会根据目标机器的特性和指令集，生成相应的机器码。

6. 优缺点分析编译型语言处理程序的优点包括编译后的代码执行速度快、占用系统资源少等。

然而，编译型语言的缺点是开发周期相对较长，对于程序的修改和调试比较麻烦。

二、解释型语言处理程序1. 解释型语言的定义解释型语言是指在程序运行时逐行解释执行的一种程序设计语言。

解释型语言的处理程序主要包括以下几个步骤：2. 词法分析解释型语言的词法分析与编译型语言的词法分析类似，都是将源代码划分为一个个词法单元。

3. 语法分析解释型语言的语法分析与编译型语言的语法分析类似，都是对词法单元进行语法分析，判断代码的语法是否符合语言规范。

4. 解释执行解释型语言的解释执行是指在程序运行时逐行解释执行代码。

解释器会将代码转化为一个个可执行的指令，并逐行执行。

5. 优缺点分析解释型语言处理程序的优点包括开发周期短、对程序的修改和调试比较方便等。

第二章词法分析

8
单词种别表示单词的种类， (1) 单词种别表示单词的种类，是语法分析所需要的信息。析所需要的信息。一个语言的单词符号如何划分种类、一个语言的单词符号如何划分种类、分为几类、如何编码都属于技术性问题，几类、如何编码都属于技术性问题，主要取决于处理上的方便。决于处理上的方便。通常让每种单词对应一个整数码，通常让每种单词对应一个整数码，这样可最大限度地把各个单词区别开来。最大限度地把各个单词区别开来。
6
(4) 运算符：如 “ +” 、 “ − ” 、 “ * ” 、 /”、 >”、 <”等 “/”、“>”、“<”等。 (5) 界符：在语言中是作为语法上的分界符界符：号使用的，号使用的，如“ ， ”、 “ ；” 、 “（ ” 、 “ ） ” 等。一个程序语言的保留字、一个程序语言的保留字、运算符和界符的个数是确定的，的个数是确定的，而标识符或常数的使用则不限定个数。不限定个数。
24
终态一般对应一个return( 语句。终态一般对应一个return( )语句。 return意味着从词法分析器返回到调用段 return意味着从词法分析器返回到调用段一般指返回到语法分析器。，一般指返回到语法分析器。
图2–4 含有分支或回路的状态示意 (a) 含分支的状态；(b) 含回路的状态含分支的状态i；含回路的状态i
(3,’if’) (1,指向的符号表入口) 指向i (1,指向i的符号表入口) (4,’=’) (2,’5’) (3,’then’) (1,指向的符号表入口) 指向x (1,指向x的符号表入口) (4,’:=’) (1,指向的符号表入口) 指向y (1,指向y的符号表入口) (5,’;’)

实验2 词法分析

实验2 词法分析（4学时）实验要求：1. TEST语言的单词符号有：标识符：字母打头，后接字母数字,识别出的标识符用ID标记。

保留字（它是标识符的子集）：if,else,for,while,do,int,write,read，识别出的保留字直接用该保留字标记。

无符号整数：由数字组成，用NUM标记。

分界符：+、-、*、/、（、）、；、，>、<、{、}、!等单分界符，直接用单分界符标记。

>=、<=、!=、==等双字符分界符，直接用双分界符标记。

注释符：用/*….*/括起为了从源程序字符流中正确识别出各类单词符号，相邻的标识符、整数或保留字之间至少要用一个空格分开。

TEST语言的各类单词符号的正则文法规则如下：<ID>∷=<letter>|ID<letter>|ID<digit><NUM>∷=<digit>|NUM <digit><letter>∷= a|b|…|z|A|B|…|Z<digit>∷=1|2|…|9|0<singleword>∷=+|-|*|/|=|（|）|{|}|：|，|；|＜|＞|!<doubleword>∷=＞=|＜=|！=|==<commend_first>∷=/*<commend_last>∷=*/2、修改TESTscan（）程序，添加其余符号的处理。

1、AAA.test内容：= + - * / < > ( ) [ ] { } ; : ' " , == >= <= !=if else for while do int read write 358 aaa输出BBB.test的内容为：if else for while do int read write 358 aaaif else for while do int read write NUM ID这部分实验要求同学理解单词符号。

实验2词法分析程序

GDOU-B-11-112广东海洋大学学生实验报告书（学生用表）
实验名称实验2:词法分析程序课程名称编译原理课程号16242211 学院(系) 数计学院专业计算机科学与技术班级计科
学生姓名学号实验地点科425 实验日期
一、实验目的
（1）通过完成词法分析程序，了解词法分析的过程。

（2）掌握分析程序的设计和实现过程。

二、实验内容及步骤
对实验1的输出文件进行词法分析。

词法分析程序从左到右读入源程序的字符流，把字符串形式的源程序分割成一个个单词符号，即基本保留字、标识符、常数、运算符、界符五大类。

在识别出一个单词同时验证其词法正确性之后，词法分析程序将此单词以及其相关属性进行保存。

三、程序分析
四、源代码
五、测试结果
六、实验小结
成绩指导教师日期
注:请用A4纸书写，不够另附纸。

第页，共页
1。

词法分析实验报告(实验一)

编译原理词法分析实验报告软工082班兰洁200831104044一、实验内容二、实验目的三、实验预期四、程序规定五、实验原理●程序流程图●判别浮点功能扩展流程图●状态转换图六、程序代码与浮点判别功能扩展七、测试用例●扩展功能测试用例；●普通功能测试用例八、输出结果九、实验心得一、实验内容：词法分析：1、识别简单语言的单词符号；2、识别关键字、标识符、数字、运算符等。

并扩展浮点识别功能。

二、实验目的调试词法分析程序，加深对词法分析原理的理解，掌握编写简单词法分析程序的一般步骤。

三、实验预期结果：经过调试源代码程序，程序能够成功运行编译，对输入的简单字符串，能够别关键字、标识符、数字、运算符等，并且给出单词符号的对应编码。

四、程序规定：1、关键字："function","if","then","while","do","endfunc"；2、算术运算符：”+”,”-”,”*”,”/”,”=”；3、关系运算符："<" ">" "<=" ">=" "==" "!="；4、界符："(" ")" ";" "#"；5、标识符规定以字母开头,字母均为小写；6、空格和换行符跳过；7、单词对应编码：十、实验原理：输入串--------------------〉词法分析程序————————〉单词符号串输入：字符串以#结束。

输出：单词的二元组(syn，token/sum)程序流程图分析浮点数功能扩展部分流程图：shuzi()函数状态转换图六、程序代码：备注：红色字体部分为程序功能的功能扩展，使程序能够分析浮点数！我把浮点数的syn设置为80！/*词法分析源代码*/#include<stdio.h>#include<string.h>scaner();char prog[80],token[8];char ch;int syn,p,m,n,sum;char * rwtab[6]={"function","if","then","while","do","endfunc"}; int i=0,k,c,sumint,f;char fenshu[80],sum1[80];double sumf=0,fudian;int shuzi(){if(ch>='0' && ch<='9')syn=80;elsesyn=-2;return syn;}main(){p=0;printf("\n please input string :\n");do{scanf("%c",&ch);prog[++p]=ch;}while(ch!='#');p=0;do{scaner();switch(syn){ case 11:printf("\n(%d,%d)",syn,sum);break;case -1:printf("\n error");break;case 80:printf("\n(%d,%f)",syn,fudian);break; default:printf("\n(%d,%s)",syn,token);}}while(syn!=0);}scaner(){for(n=0;n<8;n++)token[n]=NULL;//if(1+2!=3)ch=prog[++p];while(ch==' ' || ch=='\n')ch=prog[++p];//跳过空格if(ch>='a' && ch<='z'){m=0;while(ch>='a' && ch<='z' || ch>='0' && ch<='9') {token[m++]=ch;//token[0]=f,m=1ch=prog[++p];}token[m]='\0';ch=prog[--p];syn=10;for(n=0;n<6;n++){if(strcmp(token,rwtab[n])==0){syn=n+1;break;}}}elseif(ch>='0' && ch<='9'){c=p;k=0;do{ sum1[k]=ch;ch=prog[++c]; //ch取后一个数字k++;shuzi();//这个函数用来分析浮点数的整数部分是否已经输入到数组里f=syn;} while(f==80)if(ch=='.'){for(n=0;n<k;n++){sumint=sumint*10+sum1[n]-'0';} //计算整数部分i=0;do{ch=prog[++c];fenshu[i]=ch;i++;shuzi();//这个函数用来分析浮点数的小数部分是否已经输入到数组里} while(syn==80);sumf=0;for(k=i-2;k>=0;k--){sumf=sumf*0.1+(fenshu[k]-'0')*0.1;} //计算浮点数的小数部分fudian=sumint+sumf; //浮点数计算syn=80;p=--c;}else{ch=prog[p];//若是整数，ch等于原来的值 sum=0;while(ch>='0' && ch<='9'){sum=sum*10+ch-'0';ch=prog[++p];}ch=prog[--p];syn=11;}}elseswitch(ch){case'<':m=0;token[m++]=ch;ch=prog[++p];if(ch=='='){syn=22;token[m++]=ch;}elseif(ch=='>'){syn=21;token[m++]=ch;}else{syn=20;ch=prog[--p];}break;case'>':m=0;token[m++]=ch;ch=prog[++p];if(ch=='='){syn=24;token[m++]=ch;}else{syn=23;ch=prog[--p];}break;case'=':m=0;token[m++]=ch;ch=prog[++p];if(ch=='='){syn=25;token[m++]=ch;}else{syn=18;ch=prog[--p];}break;case'!':m=0;token[m++]=ch;ch=prog[++p];if(ch=='='){syn=22;token[m++]=ch;}else{syn=-1;p--;}break;case'+':syn=13;token[0]=ch;break;case'-':syn=14;token[0]=ch;break;case'*':syn=15;token[0]=ch;break;case'/':syn=16;token[0]=ch;break;case';':syn=26;token[0]=ch;break;case'(':syn=27;token[0]=ch;break;case')':syn=28;token[0]=ch;break; case'#':syn=0;token[0]=ch;break;default:syn=-1;}}七、测试用例：补充：功能扩展测试用例：八、程序输出结果：功能扩展测试用例输出结果用例一：用例二：用例三：普通功能测试用例显示结果九、实验心得通过编译原理实验一词法分析实验，使得自己对词法分析的流程有了更深刻的了解，虽然源代码并非由自己设计，但是在调试程序的过程中，尤其是进行测序功能扩展的过程中，想了很多种办法，终于找到了最合适的方法，而且还进行了代码的优化，这个过程虽然有时有些枯燥，但是更多时候是欣喜的，不仅复习了c语言的许多内容，并且有了更深的理解。

第2章词法分析-编译原理及实践教程(第3版)-黄贤英-清华大学出版社

=> 0 >
1=
2
>
3=
4
其他
Hale Waihona Puke 其他6*5*
识别>、>=、>>、>>=四个单词的状态转换图
数值型常量的识别
0～9
1～9
=> 0
1
其他
* 2
0
十进制整型数
=> 0
0～7 0 3 其他 4 *
八进制整型数
=> 0 0
0～9
0～9 |a～f
|a～f |A～F
3 x/X 5 |A～F 6 其他 7 *
十六进制整型数
字母或数字
* 0 字母 1 其它 2
识别标识符的转换图
一个状态图可用于识别一定的字符串，大多数程序设计语言的单词符号都可以用转换图来识别。
字母或数字
* 0 字母 1 其它 2
识别过程是：从初始状态0开始，若读入一个字母，转入1状态，若再读入字母或数字，仍处于1状态，否则转向2状态，结束一个标识符的识别过程。状态上的*表示多读入一个符号。
错误处理程序
源程序
词
语
语
法
法
义
分
分
分
析单析语
器
词记
器
法单
析器
语法单
中间代码生成器
中间代
代码优化
器
中间代
目标代码生成
器
目标代码
号
位
位
码
码
表格管理程序
2.1 词法分析器概述
• 功能：
源程序
词法分析程序 Token串语法分析程序

编译原理教程课后习题答案第二章

第二章词法分析2.1 完成下列选择题：(1) 词法分析器的输出结果是。

a. 单词的种别编码b. 单词在符号表中的位置c. 单词的种别编码和自身值d. 单词自身值(2) 正规式M1和M2等价是指。

a. M1和M2的状态数相等b. M1和M2的有向边条数相等c. M1和M2所识别的语言集相等d. M1和M2状态数和有向边条数相等(3) DFA M(见图2-1)接受的字集为。

a. 以0开头的二进制数组成的集合b. 以0结尾的二进制数组成的集合c. 含奇数个0的二进制数组成的集合d. 含偶数个0的二进制数组成的集合【解答】(1) c (2) c (3) d图2-1 习题2.1的DFA M2.2 什么是扫描器？扫描器的功能是什么？【解答】扫描器就是词法分析器，它接受输入的源程序，对源程序进行词法分析并识别出一个个单词符号，其输出结果是单词符号，供语法分析器使用。

通常是把词法分析器作为一个子程序，每当词法分析器需要一个单词符号时就调用这个子程序。

每次调用时，词法分析器就从输入串中识别出一个单词符号交给语法分析器。

2.3 设M=({x,y}, {a,b}, f, x, {y})为一非确定的有限自动机，其中f 定义如下：f(x,a)={x,y} f {x,b}={y}f(y,a)=Φ f{y,b}={x,y}试构造相应的确定有限自动机M ′。

【解答】对照自动机的定义M=(S,Σ,f,So,Z)，由f 的定义可知f(x,a)、f(y,b)均为多值函数，因此M 是一非确定有限自动机。

先画出NFA M 相应的状态图，如图2-2所示。

图2-2 习题2.3的NFA M 用子集法构造状态转换矩阵，如表表2-1 状态转换矩阵1b将转换矩阵中的所有子集重新命名，形成表2-2所示的状态转换矩阵，即得到 M ′=({0,1,2},{a,b},f,0,{1,2})，其状态转换图如图2-3所示。

表2-2 状态转换矩阵将图2-3所示的DFA M ′最小化。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

oct 0(0|1|2|3|4|5|6|7)(0|1|2|3|4|5|6|7)*
– 十进制：(DEC,value)
dec (1|…|9)(0|1|…|9)*|0
– 十六进制：(HEX,value)
hex 0x(0|1|…|9|a|…|f|A|…|F) (0|1|…|9|a|…|f|A|…|F)*
0-9 1 19 1-9 0 5 other h 6 * 11 other th
武汉大学国际软件学院
38
状态转换图
• 十六进制：(HEX，value)
– hex 0x(0|1|…|9|a|…|f|A|…|F|) (0|1|…|9|a|…|f|A|…|F|)*
0-9,a-f,A-F 1 0 7 x 8 0-9,a-f,A-F 9 other * 10
武汉大学国际软件学院
5
单词符号
• 单词符号的形式
– 按照最小的语义单位设计 – 表示为二元组： (单词种别，属性值)
武汉大学国际软件学院
6
单词符号
• 单词符号的种别
– 各种关键字、各种运算符、各种界符 – 常数 – 其他标识符
• 属性值——单词符号的特征或特性
– 常数的值、标识符的名字等 – 保留字、运算符、界符的属性值可以省略

空集和仅包含空符号串的集合{}也是语言。语言上的运算：并、连接和闭包。
武汉大学国际软件学院
14
基本定义
• 字母表(alphabet p )：一个非空的有穷集合
– 字母(letter):字母表中的元素，也称符号 (character)
• 例：不同的字母表
– = {a, b} – = {a, , b, , c, , d, , …, , z} – = {0, 1}
武汉大学国际软件学院 36
状态转换图
• 八进制：(OCT，值）
– oct 0(0|1|2|3|4|5|6|7)(0|1|2|3|4|5|6|7)*
0-7 1 0 2 0-7 3 other 4 *
武汉大学国际软件学院
37
状态转换图
• 十进制：(DEC，值）
– dec (1|…|9)(0|1|…|9)*|0
S aA|a A= (a|d)*(a|d) A
A xB A xA|y A x
B y A y
S aA|a A (a|d)A| (a|d)
S = a(a|d)*(a|d)|a ( | ) ( | )|
S = a(a|d)* ( | )
29
武汉大学国际软件学院
3)正规定义
• 为了表示方便，对字母表上的正规式进行命名，即进行如下的正规定义 • 例3.1的正规定义（Pascal语言的标识符集合） – letter A|B|…|Z|a|b|…|z digit 0|1|…|9 ( | g )* id letter(letter|digit)
1
x y
2 3
33
武汉大学国际软件学院
状态转换图识别单词
• 状态转换图识别（或接收）一定的字符串
1) 从初态出发； 2) 读入一个字符； 3) 根据当前字符选择转入下一状态； 4) 重复2), 2) 3)直到无法继续转移
• 当前读入的字符是单词的界符时，若当前状态是终止状态，则说明读入的字符组成了一个单词；否则，说明输入不符合词法规则。
武汉大学国际软件学院
……
31
思考
• • • • 以01结尾的二进制串能被5整除的十进制整数包含偶数个0且偶数个1的二进制串没有重复出现的数字的数字串
武汉大学国际软件学院
32
4）单词的识别
• 状态转换图(transition diagram) ：有向图
– 结点：代表状态，用圆圈表示 – 箭弧：连接状态 – 弧标记：标记（输入字符）表示在弧始结点状态下可能出现的输入字符或字符类 – 包含有限个状态，并有初态和终态。

武汉大学国际软件学院
18
正规表达式

正规式： letter (letter|digit)*
|表示“或” *表示Kleene闭包直接并列表示连接

正规式表示为r，相应的正规集表示为L(r)
武汉大学国际软件学院
19
正规表达式和正规集

设是一个字母表 (1) 是上的正规式，则L() = {} ； (2) 是上的正规式，则L() = = { }； (3) 对于a，a是正规式，则L(a) = {a} ； (4) 如果r和s是上的正规式，分别标识L(r)和L(s) (r)|(s) 是正规表达式，表示为L(r) L(s)； (r)(s)是正规表达式，表示为 L(r)L(s)； ( )*是正规表达式，表示为 (L(r)) (r) (L( ))*
8
词法分析器——独立程序
• 词法分析器可以作为一个子程序，也可以作为一遍独立的扫描来设计。 • 词法分析是编译过程中的一个阶段，在语法分析前进行。也可以和语法分析结合在一起作为一遍，由语法分析程序调用词法分析程序来获得当前单词供语法分析使用。
武汉大学国际软件学院
9
词法分析器——独立程序
• 划分词法分析和语法分析的原因：
武汉大学国际软件学院 34
状态转换图识别单词
• 一个状态转换图可以识别（或接收）一定的字符串例：识别标识符的状态图
向前指针必须回退一个字符
字母或数字 0 字母 1 其他
2 * return(ID, value)
武汉大学国际软件学院
35
状态转换图
• 例：C语言无符号整数的识别
– 八进制：(OCT,value)
武汉大学国际软件学院
11
实现中考虑的问题
• • • • 缓冲区的处理，超前搜索，缓冲区的大小关键字的处理，符号表的实12
单词的表示和识别
《编译技术及应用》武汉大学国际软件学院
13
记号的描述

字母表是一个有限符号的集合。字符串是字母表中符号的有穷序列。语言是字母表上任意一个字符串集合。
武汉大学国际软件学院 16
正规文法

(续 )
给定正规文法：G = (VN, VT, S, P) 正规文法所描述的是VT上的正规集
武汉大学国际软件学院
17
2)正规表达式(Regular (R l Expression) E i )

例：标识符的文法描述
约定：用digit表示数字：0,1,2,…,9 用letter表示字母：A,B,…,Z,a,b,…z , , , , , , 表示集合：{letter}{letter, digit}*
• 一次或多次重复：+
– (0|1)(0|1)* = (0|1)+
• 任意字符：.
– .*b.* 表示所有包含了至少一个b的串
• 字符范围: …和– a|b|…|z表示小写字母 – [a [a-z] z]表示小写字母
• 不在给定集合中的任意字符：~
– ～(a|b)表示非a和b的字符
• 可选的子表达式：?
武汉大学国际软件学院
30
正规定义
• 为了表示方便，对字母表上的正规式进行命名，即进行如下的正规定义： – d1 r1 d2 r2 dn rn 其中，每个di都是一个名字,且各不相同，每个ri是{d1… dii-1 1}的符号上的正规表达式（限制ri中只含有和在它之前定义的名字）。
武汉大学国际软件学院 24
正规式和正规集
• 若两个正规式r1和r2所表示的正规集相同, 则说r1和r2等价,写作r1=r2。
– 例： r1= ab， r2 = ba r1= b(ab) , r2 =(ba)b r1= (ab) , r2 =(ab)
武汉大学国际软件学院
25
正规表达式的扩展
– 二者的分离可以简化编译器的设计； – 提供编译器的效率，可以使用更高效的专门技术实现词法分析器； – 增强编译器的可移植性。与设备相关的特征及语言的字符集的特殊性的处理可以被限制在词法分析器中。
武汉大学国际软件学院
10
单词符号的识别
• 超前搜索在对单词进行识别时，向前多扫描几个字符，直到可以确定单词的词性为止。例：1 DO99K = 1, 10 2 DO99K O = 1.10
正规式和正规集

例: 令 = {0, 1}
正规式r
0*10* *1* ()* 0*0|1*1|0|1 (0|)(1|) *
正规集L(r)
{w|w恰好有一个1} {w|w至少有一个1} {w|w是偶长度的字符串} {w|w以相同的字符开始和结束} {, 0, 0 1, 1 01} { }
符号表 Token 源程序词法分析程序 get t token t k 语法分析程序
武汉大学国际软件学院
4
单词符号
• 单词符号的形式
– 关键字：程序语言定义的具有固定意义的标识符 – 标识符：表示各种名字，如变量名、数组名等 – 常数：表示为整型、实型等类型的常数 – 运算符：如+, -, *, /等 – 界符：如逗号、分号、括号，/ /*，*/ /等
武汉大学国际软件学院
27
正规式和正规文法

正规文法与正规式等价
对任何正规文法，存在定义同一语言的正规式

对任何正规式，存在生成同一语言的正规文法

武汉大学国际软件学院
28
正规文法和正规式
文法产生式规则1 规则2 规则3
S aA|a A aA | dA| a|d
正规式 A = xy A = x*y A = x|y
武汉大学国际软件学院 7
单词符号序列
• 例：while (i >= j) i--;

2-词法分析

合集下载

编译原理(2)词法_2(NFA、DFA的确定化和化简)

第2章词法分析-sxw

自然语言处理的词法分析与句法分析

常见的两类程序设计语言处理程序

第二章词法分析

实验2 词法分析

实验2词法分析程序

词法分析实验报告(实验一)

第2章词法分析-编译原理及实践教程(第3版)-黄贤英-清华大学出版社

编译原理教程课后习题答案第二章

文档推荐

最新文档

2-词法分析

合集下载

编译原理(2)词法_2(NFA、DFA的确定化和化简)

第2章 词法分析-sxw

自然语言处理的词法分析与句法分析

常见的两类程序设计语言处理程序

第二章 词法分析

实验2 词法分析

实验2词法分析程序

词法分析实验报告(实验一)

第2章 词法分析-编译原理及实践教程(第3版)-黄贤英-清华大学出版社

编译原理教程课后习题答案第二章

文档推荐

最新文档

第2章词法分析-sxw

第二章词法分析

第2章词法分析-编译原理及实践教程(第3版)-黄贤英-清华大学出版社