LEX和YACC入门

格式：ppt
大小：613.50 KB
文档页数：27

下载文档原格式

Lex和Yacc从入门到精通（ＰＤＦ）

Lex和Yacc从入门到精通熊春雷Abstract在开发程序的过程中经常会遇到文本解析的问题，例如：解析C语言源程序，编写脚本引擎等等，解决这种文本解析的方法有很多，一种方法就是自己手动用C或者 C++直接编写解析程序，这对于简单格式的文本信息来说，不会是什么问题，但是对于稍微复杂一点的文本信息的解析来说，手工编写解析器将会是一件漫长痛苦而容易出错的事情。

本系列文档就是专门用来由浅入深的介绍两个有名的Unix工具Lex和Yacc，并会一步一步的详细解释如何用这两个工具来实现我们想要的任何功能的解析程序，为了方便理解和应用，我会在该系列的文章中尽可能的采用具体可行的实例来加以阐释，而且这种实例都是尽可能的和具体的系统平台无关的，因此我采用命令行程序作为我们的解析程序的最终结果。

1、环境配置篇开发Lex和Yacc程序最需要的程序就是lex和yacc了，如果你是Unix或者Linux系统，则系统自带了这两个工具，无需安装，不过值得说明的是GNU/Linux下面的Lex是flex，而Yacc则是bison。

另外需要的就是一个C/C++语言编译器，由于我们采用的是GNU的 lex和yacc，所以，理所当然的我们就使用GNU的编译器了，如果是Unix或者Linux系统，那么编译器应该已经安装了。

在这里我重点讨论的是Windows系统环境下的Lex和 Yacc程序的开发，至于为什么选择Windows系统作为开发平台，则是为了尽可能的让初学者容易入门。

1.1．必备工具言归正传，首先列举Windows平台下面Lex和Yacc开发环境所需要安装的程序：1.Lex(flex.exe)和Yacc(bison.exe)环境2.C/C++编译器1.2．flex和bison值得说明的是，flex.exe和bison.exe是UnxUtils包中的文件，已经将许多 Unix/Linux平台的程序都移植到了Windows平台，可以直接到UnxUtils网站下载，下载解压缩之后在系统的PATH环境变量中增加UnxUtils所有的exe文件所在的目录，使得DOS命令行可以直接搜索到flex.exe和bison.exe，除此之外还需要从网络上下载 bison需要的bison.simple和bison.hairy两个文件，并且还要分别设置环境变量 BISON_HAIRY指向bison.hairy，BISON_SIMPLE指向bison.simple。

信息管理与信息系统专业所学科目及推荐教材

信息管理与信息系统专业教材1高等数学高等数学是大家进入大学遇到的第一门数学类课程，该课程与高中数学相比，在难度上有较大层次上的提高，所以入学同学一不小心就落下了，并且对它产生了畏惧感，希望大学新生能克服这样的畏惧感，勇敢的解决高数问题，因为后面还要学好多数学类的基础课程，虽然对就业没有多大的帮助，但是对大学成绩影响较大，希望重视，尤其打算考研的朋友们。

我个人认为高数的学习方法就是一般理工科的学习方法，大家在高中如何学好数学，物理，化学的，就按照类似的办法去学习高数就行了，简言之，就是多做题，多总结题的类型就好了。

推荐教材：《高等数学（第五版）》-同济大学出版参考书目：《高等数学习题全解指南》高等教育出版社（同济·四、五版）介绍：此书好比是高等数学教材的官方参考书，主要是以讲解教材上的例题和课后习题为主，出错率比较低，是一本基础型教参。

《高等数学全真课堂上下册合订本》学苑出版社出版《高等数学教与学参考》西北工业大学出版社以上两本教材均适合基础和提高型的学习，其中贯穿了往年的考研试题，使得想考研的同学可以早做准备，并且由于多以考研题或变形题为主，所以出错率和试题的严密科学性比较强，不会误导学生。

2线性代数线性代数是一门较特殊的课程，其中贯穿的数学思想方法和高等数学有些差别，同高中数学可以说是一点关系都没有，所以大家会感觉有些生疏，其实还是多做题多总结就是了，还有就是千万不能开始就懈怠，否则后期考试复习的时候比较难补上推荐教材：《工程数学-线性代数同济大学数学教研室编著》高等教育出版社参考书目《最新线性代数教与学参考》中国致公出版社我只用过这一种，感觉还行，同样适用于基础和提高的同学使用。

习题丰富，讲解精炼。

3 C语言C 语言本身的重要性不能说是很大，但是对于初入大学的大部分学生来说，第一次接触的编程语言应该就是C语言了，所以学好C语言的作用应该在于认识编程语言的共性，总结编程语言的思想和方法，打好学习编程语言的基础是更重要的。

Win7下lex 与 yacc的安装配置

Win7下lex 与yacc的安装配置前言初学lex与yacc，不知所以然。

完全找不到北，看了好几次的lex与yacc介绍，仍然不懂这究竟为何物，受尽了种种折磨，差点以头抢地而。

故而整理此文，以便后者，顺便感谢本文结尾处的三位大神，正因为他们，才有了此文。

lexLex 是一种生成扫描器的工具。

扫描器是一种识别文本中的词汇模式的程序。

一种匹配的常规表达式可能会包含相关的动作。

这一动作可能还包括返回一个标记。

当Lex 接收到文件或文本形式的输入时，它试图将文本与常规表达式进行匹配。

它一次读入一个输入字符，直到找到一个匹配的模式。

如果能够找到一个匹配的模式，Lex 就执行相关的动作（可能包括返回一个标记）。

另一方面，如果没有可以匹配的常规表达式，将会停止进一步的处理，Lex 将显示一个错误消息。

yaccYacc 代表Yet Another Compiler Compiler。

Yacc 的GNU 版叫做Bison。

它是一种工具，将任何一种编程语言的所有语法翻译成针对此种语言的Yacc 语法解析器。

借助lex和yacc，我们可以很容易地开发出所谓的编译器。

linux下有很多很方便的小工具，linux系统已经自带有扫描器(flex)与解释器(bison)。

幸运的是这些小工具一般都有windows 的版本。

现在我就简单说一下如何在windows下安装这些小工具。

首先下载下载flex和bison。

网址分别是/packages/flex.htm和/packages/bison.htm。

仅需下载setup文件即可，然后安装。

安装时，设定路径最好不要是在Program Files文件夹里面，因为文件夹名字带空格会影响以后的使用。

可如此：安装在c:\gnuwin32下面。

其次由于我们使用的flex和bison都是GNU的工具，所以为了方便，采用的C/C++编译器也采用GNU的编译器GCC，当然我们需要的也是Windows版本的GCC了。

3.5节语法分析的自动生成-编译原理及实践教程(第3版)-黄贤英-清华大学出版社

％％
• 第二节是文法记号的声明，一般以%start S 的形式说明文法的开始符号，用%token
辅助过程
IF、DO、…、ID、… 的形式说明记号。记号被YACC赋予了不会与任何字符值冲突的
数字值
• 数据类型、全局变量
等遵循C语言的定义， %{
可包含预处理语句等，需要用%{和%}括起来
#include<stdio.h> %}
的最受欢迎的语法分析生成器
• Jflex——是一个Java的词法/语法分析生成器
• Jison ——JavaScript解析器。Jison 将一个上下文无关语
法作为输入，输出对应的JavaScript代码，类似Yacc
• Grammatica——C#和Java的语法剖析器生成器。相对于
其它一些类似的工具如yacc和ANTLR有了更好的改进：创建了更好的注释和易读的源代码/拥有错误自动恢复并能够详述错误信息/支持语法、词法测试与调试.
– YACC在对源文件进行编译时，将对所有的单词和非终结符进行编码，并用该编码建立分析表和语法分析器。单词的编码原则是：字符单词使用其对应的ASCII码，有名单词则由分析器进行编码。用户在对有名单词进行命名时，一定要注意不要和使用该单词名的C源程序中已有的宏名相同，否则在编译该C模块时是会产生宏定义冲突的。
由Johnson等人在美国Bell实验室研制开发
• yacc生成的编译器主要是用C语言写成的语法解析
器（Parser），需要与词法分析器Lex一起使用，再把两部份产生出来的C程序一并编译。
• yacc本来只在Unix系统上才有，GNU 版叫做 Bison。
现在已普遍移植到Windows及其他平台。

从lexyacc说到编译器（二）：flex的使用

从lexyacc说到编译器（二）：flex的使用二、flex的使用看了第一篇的关于正则表达式的说明后,下面我们就来通过它,使用flex这个词法分析工具来构造我们的编译器的词法分析器.关于lex的教程应该是很多,这里我就简单地介绍一下,然后着重后面的lex和yacc的配合使用以及其技巧.所以,如果你不看了后还是不太明白lex或者yacc的使用,请你自己上网去查查,这方面的教程是很多的.我知道的一篇常见的就是Yacc 与 Lex 快速入门Lex 与 Yacc 介绍它的作者就是Ashish Bansal.Flex就是fast lex的意思.而lex就是Lexical Analyzar的意思.flex 可以在cygwin或者gnupro中找到.它是unix的一个工具,属于GNU 组织产品.网上也可以找到单独可以在windows下用的版本.我们一般把我们的词法扫描程序要扫描的一些单词(token)用正则表达式写好,然后作为lex的输入文件,输入命令flex xxx.l(xxx.l就是输入文件),lex经过处理后,就能得到一个名字叫lex.yy.c的C源代码.这个C源代码文件,就是我们的词法扫描程序.通常lex为我们生成的词法分析器的C源代码都是十分复杂而且庞大的,我们一般根本不会去查看里面的代码(放心好了,flex这个东西不会出错的)下面让我们看看几个我已经使用过的几个lex输入文件.这是一个前段时间我为GBA上的一个RPG游戏写的脚本引擎所使用的lex输入文件(部分)例2.1%{/* need this for the call to atof() below */#include <stdio.h>#include <stdlib.h>#include <math.h>#include "globals.h"%}digit [0-9]number ("-"|"+")?{digit}+hexnumber "0x"({digit}|[a-fA-F])+letter [a-zA-Z]identifier ({letter}|_)({number}|{letter}|_)* newline [\n]whitespace [ \t]+string \"[^"]*\"comment "#"[^#]*"#"%%{string} { return VM_STRING; } "Logo" { return VMIN_LOGO; } "FaceIn" { return VMIN_FACEIN; } "FaceOut" { return VMIN_FACEOUT; } "LoadTile" { return VMIN_LOAD_TILE; } "CreateRole" { return VMIN_CREATE_ROLE; } "ReleaseRole" { return VMIN_RELEASE_ROLE;} "CreateMap" { return VMIN_CREATE_MAP; } "ReleaseMAP" { return VMIN_RELEASE_MAP;} "ShowBitmap" { return VMIN_SHOWBITMAP; } "CreateDialog" { return VMIN_CREATE_DIALOG; }"ReleaseDialog" { return VMIN_RELEASE_DIALOG;}"Fight" { return VMIN_FIGHT; }"Delay" { return VMIN_DELAY; }"PressA" { return VMIN_PRESS_A; }"PressB" { return VMIN_PRESS_B; }"PressR" { return VMIN_PRESS_R; }"PressL" { return VMIN_PRESS_L; }"PressStart" { return VMIN_PRESS_START; }"PressSelect" { return VMIN_PRESS_SELECT;}{number} { return VM_NUMBER; }{whitespace} { /* skip whitespace */ }{identifier} { return VM_ID; }{newline} ;. ;%%int yywrap(){return 1;}这里的lex输入文件一共有三个部分,用%%分开.第一部分中的%{和}%中的内容就是直接放在lex输出C代码中的顶部.我们通过它可以来定义一些所需要的宏,函数和include一些头文件等等.我的这个lex输入文件中也没什么特别的东西,就是常规的C源文件的include头文件%{/* need this for the call to atof() below */#include <stdio.h>#include <stdlib.h>#include <math.h>#include "globals.h"%}第一部分中,除了前面的%{和}%包含的部分,下面的就是正则表达式的定义.看了第一篇的正则表达式,这样你就能够在这里派上用场了.让我们来看看我这里定义的正则表达式:digit [0-9]number ("-"|"+")?{digit}+hexnumber "0x"({digit}|[a-fA-F])+letter [a-zA-Z]identifier ({letter}|_)({number}|{letter}|_)*newline [\n]whitespace [ \t]+string \"[^"]*\"comment "#"[^#]*"#"digit就不用说了,就是0-9的阿拉伯数字定义,第一篇文章中也举了这个例子.number就是digit的1到无限次的重复,再在其前面加上”+”和”-“符号.注意:“a”: 即使a是元字符,它仍是字符a\a: 当a是元字符时候,为字符aa?: 一个可选的a,也就是说可以是a,也可以没有aa|b: a或b(a): a本身[abc]: 字符a,b或c中的任一个[a-d]: a,b,d或者d中的任一个[^ab]: 除了a或b外的任何一个字符.: 除了新行之外的任一个字符{xxx}: 名字xxx表示的正则表达式这里需要特别说明的就是newline [\n]newline就是新行,这里我使用了[]把\n换行号括起来.因为如果我直接用\n表示的话,那么按照上面的规则,那就会看成\和n两个字符,所以我使用了[\n].有些时候newline也被写成[\n]|[\r\n].因为在文本文件中,一般换行一次,那么就是一个\n(0xA),可是在二进制文件中,换行有时候又是\r\n(0xD,0xA)一共两个字符号.第二部分就是定义扫描到正则表达式的动作.这些动作其实就是C代码,它们将会被镶嵌在lex输出的C文件中的yylex()函数中.上面的例子的动作其实十分平常,就是返回一个值.我们在外部使用这个lex为我们生成C代码的时候,只需要使用它的int yylex()函数.当我们使用一次yylex(),那么就会自动去扫描一个匹配的正则表达式,然后完成它相应的动作.这里的动作都是返回一值,那么yylex就会返回这个值.通常默认yylex返回0时候,表示文件扫描结束,所以你的动作中最好不要返回0,以免发生冲突.当然,动作中也可以不返回一值,那么yylex就会完成这个动作后自动扫描下一个可以被匹配的字符串,一直到扫描到文件结束.当扫描到一个可以被匹配的字符串,那么这个时候,全局变量yytext 就等于这个字符串请大家一定记住这些正则表达式的顺序.如果出现一个字符串,可以同时匹配多个正则表达式,那么它将会被定义在前面的正则表达式匹配.所以我一般把字符串string定义在最前面.如果文件中的字符没有被lex输入文件中任何一个字符匹配,那么它会自动地被标准输出.所以大家一定要记住在每个正则表达式处理完毕后,一定要加上{newline}和.这两个正则表达式的动作.好,让我们看看lex为我们输出C文件中提供一些常量Lex 变量例2.2这是<<编译原理与实践>>书中配套的源代码的lex输入文件.大家可以参考一下,作者为它自己定义的一个Tiny C编译所做的词法扫描器./****************************************************//* File: tiny.l *//* Lex specification for TINY *//* Compiler Construction: Principles and Practice *//* Kenneth C. Louden *//****************************************************/%{#include "globals.h"#include "util.h"#include "scan.h"/* lexeme of identifier or reserved word */char tokenString[MAXTOKENLEN+1];%}digit [0-9]number {digit}+letter [a-zA-Z]identifier {letter}+newline \nwhitespace [ \t]+%%"if" {return IF;} "then" {return THEN;} "else" {return ELSE;} "end" {return END;} "repeat" {return REPEAT;} "until" {return UNTIL;} "read" {return READ;} "write" {return WRITE;} ":=" {return ASSIGN;} "=" {return EQ;} "<" {return LT;} "+" {return PLUS;} "-" {return MINUS;} "*" {return TIMES;} "/" {return OVER;} "(" {return LPAREN;} ")" {return RPAREN;} ";" {return SEMI;} {number} {return NUM;} {identifier} {return ID;}{newline} {lineno++;} {whitespace} {/* skip whitespace */} "{" { char c;do{ c = input();if (c == EOF) break;if (c == ‘\n‘) lineno++;} while (c != ‘}‘);}. {return ERROR;}%%TokenType getT oken(void){ static int firstTime = TRUE;TokenType currentToken;if (firstTime){ firstTime = FALSE;lineno++;yyin = source;yyout = listing;}currentToken = yylex();strncpy(tokenString,yytext,MAXTOKENLEN); if (TraceScan) {fprintf(listing,"\t%d: ",lineno); printToken(currentToken,tokenString);}return currentT oken;}这里有点不同的就是,作者用了另外一个getToken函数来代替yylex作为外部输出函数.其中getToken里面也使用了lex默认的输出函数yylex(),同时还做了一些其它的事情.不过我建议大家不要像作者那样另外写自己的结果输出函数,因为在后面,需要和yacc搭配工作的时候,yacc生成的语法分析程序只认名字叫yylex()的词法结果输出函数.if (firstTime){ firstTime = FALSE;lineno++;yyin = source;yyout = listing;}其中的yyin,yyout,source,listing都是FILE*类型.yyin就是要lex 生成的词法扫描程序要扫描的文件,yyout就是基本输出文件(其实我们通常都不用yyout,即使要生成一些输出信息,我们都是自己通过fprintf 来输出)."{" { char c;do{ c = input();if (c == EOF) break;if (c == ‘\n‘) lineno++;} while (c != ‘}‘);}其中,作者的这个Tiny C是以{}来包括注释信息.作者并没有写出注释信息的正则表达式,但是它可以通过检索“{”,然后用lex内部函数input()一一检查 { 后面的字符是不是 } 来跳过注释文字.(C语言的/* */注释文字正则表达式十分难写,所以很多时候我们都用这种方法直接把它的DFA(扫描自动机)写出来).本文就是通过简单地举出两个比较实际的例子来讲解flex输入文件的.再次说明,如果你是第一次接触lex,那么请看看前面我推荐的文章,你可以在IBM的开发者网上查到.下一篇关于yacc于BNF文法的说明也是如此.请大家先参考一下其它标准的教程.。

编译原理之lex,yacc学习

编译原理之lex,yacc学习写在前⾯的⼏句废话最近在项⽬的过程中接触了lex 和 yacc，他们可以帮助我们来实现⾃⼰的领域语⾔。

最典型的应⽤就是可以帮助我们来实现⾃定义测试脚本的执⾏器。

但是，这⾥也有⼀个限制，就是测试脚本要做的基本事情必须有现成的C语⾔库来实现，否则就做不到了；如果基本的操作是⽤java来做的，那么还可以⽤Antlr，这⾥不对Antlr做详细介绍。

lex是什么？教科书上把lex的作⽤的作⽤叫做“词法分析 lexical analysis ”，这个中⽂叫法⾮常让⼈看不明⽩（叫做“符号提取”更合适），其实从它的英⽂单词lexical上来看他的意思其实是⾮常清楚的。

lexical，在webster上的解释是：of or relating to words or the vocabulary of a language as distinguished from its grammar and construction。

指的是：⼀种语⾔中关于词汇、单词的，与之相对的是这种语⾔的语法和组织这么来看的话 lexical analysis 的作⽤就应该是语⾔中的词汇和单词分析。

事实上他的作⽤就是从语⾔中提取单词。

放到编程语⾔中来说，他要做的事情其实就是提取编程语⾔占⽤的各种保留字、操作符等等语⾔的元素。

所以他的另外⼀个名字scanner其实更形象⼀些，就是扫描⼀个⽂本中的单词。

lex把每个扫⾯出来的单词叫统统叫做token，token可以有很多类。

对⽐⾃然语⾔的话，英语中的每个单词都是token，token有很多类，⽐如non(名词)就是⼀个类token，apple就是属于这个类型的⼀个具体token。

对于某个编程语⾔来说，token的个数是很有限的，不像英语这种⾃然语⾔中有⼏⼗万个单词。

lex⼯具会帮我们⽣成⼀个yylex函数，yacc通过调⽤这个函数来得知拿到的token是什么类型的，但是token的类型是在yacc中定义的。

lex与yacc快速入门

lex与yacc快速⼊门第⼀节、lex和yacc是什么？ lex 代表 lexical analyzar（词法分析器），yacc 代表 yet another compiler compiler（编译器代码⽣成器）。

lex和yacc在UNIX下分别叫flex和bison. 可以搜索到很多介绍flex&bison的⽂章，但这类⽂章对初学者来说不太容易看懂。

我们举个简单的例⼦来理解lex和yacc：在linux下，有很多系统配置⽂件，⼀些linux下的软件也有配置⽂件，那么程序是如何读取配置⽂件中的信息的呢？先⽤到lex词法分析器，读取配置⽂件中的关键词（后⾯说到的token标记其实可看做关键词）；然后把关键词递交给yacc，yacc对⼀些关键词进⾏匹配，看是否符合⼀定的语法逻辑，如果符合就进⾏相应动作。

上⾯举的例⼦是分析配置⽂件内容的，当然可分析其他⽂件内容，或者制作编译器等。

第⼆节、⼀个简单的lex程序。

1、程序代码。

来看⼀个简单的lex程序，代码见下⾯，这段lex程序的⽬的是：输⼊⼏⾏字符串，输出⾏数，单词数和字符的个数。

1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25/******************************************** Name : test.l* Date : Mar. 11, 2014* Blog : /lucasysfeng/* Description : ⼀个简单的lex例⼦,输⼊⼏⾏字符串，* 输出⾏数，单词数和字符的个数。

*******************************************//* 第⼀段 */%{int chars = 0;int words = 0;int lines = 0;%}/* 第⼆段 */%%[a-zA-Z]+ { words++; chars += strlen(yytext); } \n { chars++; lines++; }. { chars++; }%%/* 第三段 */main(int argc, char **argv){yylex();printf("%8d%8d%8d\n", lines, words, chars);}程序中yytext是lex变量，匹配模式的⽂本存储在这⼀变量中。

编译原理实践yacc(sql查询语句解析)_概述说明

编译原理实践yacc(sql查询语句解析) 概述说明1. 引言1.1 概述本篇文章旨在介绍编译原理实践中使用Yacc工具对SQL查询语句进行解析的过程。

编译原理是计算机科学中的重要研究领域，主要涉及将高级语言转化为低级的机器语言，以便计算机能够理解和执行。

通过使用编译原理中的概念和技术，可以大大简化复杂语法的分析和解析过程，提高程序开发的效率。

1.2 文章结构本文共分为五个部分，每个部分都有其特定的内容和目标：- 引言：介绍本篇文章的背景和目的。

- 编译原理实践yacc：阐述编译原理及介绍Yacc工具在该领域中的应用。

- SQL查询语句解析过程：详细讲解SQL查询语句的基本结构、词法分析过程以及语法分析过程。

- Yacc工具的使用和配置：指导读者如何安装Yacc工具，并演示如何编写Yacc 源文件以及生成解析器代码并进行运行。

- 结论与展望：总结全文内容并提供未来可能的拓展方向。

1.3 目的本文目的在于通过对编译原理和Yacc工具在SQL查询语句解析中的应用进行介绍，帮助读者更好地理解编译原理的相关概念，并掌握使用Yacc工具进行语法分析和解析的方法。

通过实践演示和案例讲解，读者能够学会配置和使用Yacc 工具，并将其应用于自己感兴趣的领域。

以上为“1. 引言”部分内容的详细描述，请结合实际情况进行参考与调整。

2. 编译原理实践yacc2.1 什么是编译原理编译原理是计算机科学领域的一个重要分支，研究如何将高级程序语言转换为机器语言。

它涉及到编程语言的词法分析、语法分析和代码生成等多个方面。

通过编译原理，我们可以了解程序如何被解释和执行，从而能够更好地设计和优化程序。

2.2 Yacc介绍Yacc（Yet Another Compiler Compiler）是一款用于生成语法解析器的工具。

它是由AT&T贝尔实验室的Stephen C. Johnson在20世纪70年代开发的，并成为Unix操作系统环境下广泛使用的编译器工具之一。

Lex和Yacc解释程序实现方法

ＬＩＵＬｉ —ｎａ，ＹＡＮＧＣｈｕｎ —ｈｕｉ，ＺＨＡＮＧ —Ｊｉｎｇ
（１・Ｔｈｅ４７ｔｈＲｅｓｅａｒｃｈ，础ｅｏｆＣｈｉｎａＥｌｅｃｔｒｏｎｉｃｓＴｅｃｈｎｏｌｏｇｙＧｒｏｕｐＣｏｒｐｏｒａｔｉｏｎ，Ｓｈｅｎｙａｎｇ１１００３２，Ｃｈｉｎａ
中图分类号：ＴＮ４７
文献标识码：Ｂ
文章编号：１００２— ２２７９（２０１３）０１— ００３８— ０３
ＴｈｅＡｃｃｏｍｐｌｉｓｈＭｅｔｈｏｄｏｆＬｅｘａｎｄＹａｃｃＡｎａｌｙｓｉｓＰｒＯｇｒａｍ
ｓｏｕｒｃｅｐｒｏｇｒａｍｉｎｔｏｂｅｓｔｏｂｊｅｃｔｃｏｄｅＣ，ｅｔｃ．，ａｒｅｕｓｅｄｗｉｄｅｌｙ．Ｔｈｅｙｈａｖｅｍａｎｙａｄｖａｎｔａｇｅｓｓｕｃｈａｓｅａｓｙ
１引言
计算机程序输入通常有一些特定的结构，每一个计算机程序的输入都会被定义成可接受的“ 输入
语言” 。输入语言可以是复杂的可编程语言，也可以是简单的数字。但是，输人工具总是会受到不同程度的限制，使用起来十分困难，而且经常是伴随着
ｌｉｎｇｐｒｏｇｒａｍａｎｄａｎａｌｙｓｉｓｐｒｏｇｒａｍ，ｗｈｉｃｈｈａｖｅｂｅｅｎｕｓｅｆｕｌａｎｄｓｔａｎｄａｒｄＵＮＩＸｐｒｏｒａｇｍａｌｒｅａｄｙ．ＬｅｘａｎｄＹａｃｃ，ｉｎｃｌｕｄｉｎｇｔｅｘｔｓｅａｒｃｈｉｎｇｐｒｏｇｒａｍｓｅａｒｃｈｉｎｇｆｒｏｍｔｈｅｉｎｐｕｔｉｆｌｅ，ａｎｄｃｏｍｐｉｌｉｎｇｐｒｏｇｒａｍｔｒａｎｓｌａｔｉｎｇ

Lex与Yacc

|…
进行前执行。
| n { 语义动作n } | 没有{…},则使用缺省的语义动作
; 产生式结束用分号标记
语义动作是C的语句序列（在一对{}中间），可以引用声明段中定义的C变量、宏等，还可以使用yacc的伪变量。
规则段（续）
－yacc中的伪变量（类型缺省为整型）
$$ - 产生式左部非终结符的“值”
向前匹配。如果在匹配的模版中的“/”后跟有后续表达式，只匹配模版中“/”前面的部分。如：如果输入 A01，那么在模版 A0/1 中的 A0 是匹配的。将一系列常规表达式分组。
7
常规表达式举例
常规表达式
含义
joke[rs]
匹配 jokes 或 joker。
A{1,2}shis+ 匹配 AAshis, Ashis, Ashiss, Ashisss。
yywrap()
这一函数在文件（或输入）的末尾调用。如果函数的返回值是1，就停止解析。因此它可以用来解析多个文件。代码可以写在第三段，这就能够解析多个文件。方法是使用 yyin 文件指针（见上表）指向不同的文件，直到所有的文件都被解析。最后，yywrap() 可以返回 1 来表示解析的结束。
FILE* 类型。它指向记录 lexer 输出的位置。缺省情况下，yyin 和 yyout 都指向标准输入和输出。
yytext 匹配模式的文本存储在这一变量中（char*）。
yyleng 给出匹配模式的长度。
yylineno 提供当前的行数信息。（lexer不一定支持。）
14
Lex 函数
yylex() 这一函数开始分析。它由 Lex 自动生成。
$i - 产生式右部第i个文法符号的“值”

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

用 %% 符号隔开。第一部分和最后一个部分是宿主语言代码。中间是由一系列规则构成，
LEX 将这些规则翻译为词法分析器。每一个规则依次包含一个正则表达式以及该正则表达式得到匹配时要运行的一些代码。
任何没有得到匹配的文本则简单地拷贝到标准输出。
2020/5/13
6
三、LEX程序设计
LEX正规表达式（1）
expression: value '+' value { System.out.println("Matched a '+' expression.\n"); }
2020/5/13
23
四、YACC程序设计
类似于 LEX, YACC 也有一套变量和函数可供用户来进行功能扩展。
YYSTYPE 定义了用来将值从 lexer 拷贝到解析器或者 YACC 的 yylval （另一个 YACC 变量）的类型。默认的类型是 int 。由于字符串可以从
的值。
2020/5/13
26
四、LEX与YACC结合
2020/5/13
27
public static void main(String args[]) {
int n = 1;
mylexer lexer = new mylexer();
if (lexer.yycreate(null)) {
n = lexer.yylex();
}
System.out.println("word count = "+lexer.wordCount);
两个百分号标记指出了 LEX程序中这一段的结束和三段中第二段的开始。
10
三、LEX程序设计
宿主语言和 LEX 的全局声明
声明包括变量，常量和正规表达式，第一段中我们可以增加宿主语言变量声明。 %{ /********************** mylexer.l ********/ %} %name mylexer
Components 是根据规则放在一起的不同的终端和非终端符号。如果匹配特定序列的话 Components 后面可以跟随要执行的动作。
2020/5/13
25
四、YACC程序设计
例如：
param : NAME EQ NAME {
System.out.printf("\tName:%s\tValue(name):%s\n", $1,$3);}
lexer (LEX)一般返回这些标记。所有这些标记都必须在 YACC 声明中进行说明。
2020/5/13
20
四、YACC程序设计
终结符号和非终结符号
终结符号: 代表一类在语法结构上等效的标记。终结符号有三种类型：
命名标记: 这些由 %token 标识符来定义。按照惯例，
它们都是大写。
字符标记: 字符常量的写法与 Java 相同。
LEX和YACC入门
LEX和YACC介绍实验工具 Parser Generator LEX程序设计 YACC程序设计
2020/5/13
1
一、LEX和YACC介绍
LEX :Lexical Analyzar，是一种生成扫描器的工具。
YACC :Yet Another Compiler Compiler，是语法分析器生成工具
将一系列常规表达式分组。
2020/5/13
8
三、LEX程序设计
LEX正规表达式举例
正规表达式
含义
joke[rs]
匹配 jokes 或 joker。
A{1,2}shis+ A[b-e]+ ([0-9])+
匹配 AAshis, Ashis, Ashiss, Ashisss。匹配在 A 出现位置后跟随的从 b 到 e 的所有字符中
变量、一个加号或者一个数字
都可以是一个表达式。管道字符（|）表明可供选择。lexer
生成的符号称为终结符（ terminals）或者记号（ tokens）。从它们装配而来的内容称为非终结符（nonterminals）。所以，在这个例
子中，NUMBER 是一个终结符；lexer 正是生成这种结果。相反，value 是一个非终结符，
here*/ } %%
模式匹配规则形式：
p1
{ 动作1}
p2
{ 动作2}
…
…
pn
{ 动作n}
2020/5/13
13
三、LEX程序设计
宿主语言代码段
LEX 编程的第三段，也就是最后一段，覆盖了宿主语言的函数声明（有时是主函数）。LEX 有一套可供使用的函数和变量。其中之一就是 yywrap。一般来说，yywrap() 的定义如下例。
如同 LEX一样, 一个 Yacc 程序也用双百分号分为三段。它们是：声明、语法规则和宿主语言代码。
声明 %% 语义规则 %% 辅助函数
2020/5/13
19
四、YACC程序设计
Java与YACC 声明
Java声明可能会在定义动作中使用的类型和变量，导入 Java包等。
每个YACC声明段声明了终结符号和非终结符号（单词符号）的名称，还可能描述操作符优先级和针对不同符号的数据类型。
2020/5/13
11
三、LEX程序设计
// class members {
int wordCount = 0; /*保存统计出来的字数 */ } chars [A-Za-z] numbers ([0-9])+ delim [" "\n\t] whitespace {delim}+ words {chars}+ %%
LEX 和 YACC 是一对配对工具。 LEX 将文件分解为成组的“记号（token）”，即单词符号。 YACC 接受成组的记号，并将它们装配为高层次的结构，即句子。
2020/5/13
2
二、实验工具 Parser Generator
LEX
YACC
2020/5/13
代码产生支撑函数
3
二、实验工具 Parser Generator
字符串标记 : 写法与 Java 的字符串常量相同。例如，
"<<" 就是一个字符串标记。
非终结符号：按照惯例，它们都是小写。如：file 是一个非终结符号而 NAME 是一个终结符号。
2020/5/13
21
四、YACC程序设计
2020/5/13
这意味着表达式可以是几种格
式中的任意一种；例如，一个
17
四、YACC程序设计
用YACC创建语法分析器的步骤
YACC源程序 myyacc.y
YACC编译器
myyacc.java
myyacc.java
java编译器
myyacc.class
Mylex输出的单词符号序列
2020/5/13
Java myyacc
语义动作执行结果
18
四、YACC程序设计
的 1 个或多个。
1个或多个数字，即：数字(number)
[A-Za-z]
任意字符，即：字符(chars)
""
一个空格，即：空格(blank)
(chars)+
1个或多个 chars
(字符)+(数字|字符)* 变量(variable)
2020/5/13
9
三、LEX程序设计
宿主语言和 LEX 的全局声明
方法是使用 yyin 文件指针（见上表）指向不同的文件，直到所有的文件都被解析。最后，yywrap() 可以返回 1 来表示解析的结束。
yyless(int n)
这一函数可以用来送回除了前n 个字符外的所有读出标记。
yymore() 这一函数告诉 Lexer 将下一个标记附加到当前标记后。
2020/5/13
lexer 拷贝，类型可以被重定义为 char[]。
2020/5/13
24
四、YACC程序设计
Yacc 语法规则
Yacc 语法规则具有以下一般格式： result: components { /* action to be taken in Java*/
}; 在这个例子中，result 是规则描述的非终端符号。
三、LEX程序设计
用LEX建立词法分析程序的过程
LEX源程序 mylex.1
mylex.java
LEX 编译器
java编译器
mylex.java mylex.class
输入流
2020/5/13
Java mylex
单词序列
5
三、LEX程序设计
LEX源程序由三部分组成：
声明
%% 词法规则
%% 辅助过程
第一段中我们可以增加宿主语言变量声明。
%{ int wordCount = 0; /*保存统计出来的字数 */
%} chars [A-Za-z] numbers ([0-9])+ delim [" "\n\t] whitespace {delim}+ words {chars}+ %%
2020/5/13
System.exit(n);
}
2020/5/13
14
三、LEX程序设计
int yywrap() {
return 1; }
2020/5/13
15
三、LEX程序设计
LEX变量
LEX 有几个函数和变量提供了不同的信息，可以用来编译实现复杂函数的程序。下表中列出了一些变量和函数，以及它们的使用。 yyin Inputstream类型。初始化为System.in。可设置 yyout outputstream类型。初始化为System.out。可设置

LEX和YACC入门

合集下载

Lex和Yacc从入门到精通（ＰＤＦ）

信息管理与信息系统专业所学科目及推荐教材

Win7下lex 与 yacc的安装配置

3.5节语法分析的自动生成-编译原理及实践教程(第3版)-黄贤英-清华大学出版社

从lexyacc说到编译器（二）：flex的使用

编译原理之lex,yacc学习

lex与yacc快速入门

编译原理实践yacc(sql查询语句解析)_概述说明

Lex和Yacc解释程序实现方法

Lex与Yacc

文档推荐

最新文档

LEX和YACC入门

合集下载

Lex和Yacc从入门到精通（ＰＤＦ）

信息管理与信息系统专业所学科目及推荐教材

Win7下lex 与 yacc的安装配置

3.5节 语法分析的自动生成-编译原理及实践教程(第3版)-黄贤英-清华大学出版社

从lexyacc说到编译器（二）：flex的使用

编译原理之lex,yacc学习

lex与yacc快速入门

编译原理实践yacc(sql查询语句解析)_概述说明

Lex和Yacc解释程序实现方法

Lex与Yacc

文档推荐

最新文档

3.5节语法分析的自动生成-编译原理及实践教程(第3版)-黄贤英-清华大学出版社