词法分析
- 格式:ppt
- 大小:515.00 KB
- 文档页数:126
自然语言处理中的词法分析与句法分析词法分析(Lexical Analysis)是指将一个句子或文本切分成一个个独立的词(Token)的过程。
在自然语言处理中,词法分析主要包括以下几个步骤:1.分词(Tokenization):将文本切分成词。
例如,将句子“我爱自然语言处理”切分成["我", "爱", "自然语言处理"]。
分词可以使用规则、统计方法或机器学习方法进行。
2.词性标注(Part-of-Speech Tagging):为每个词标注其词性。
例如,将词语“自然语言处理”标注为“名词短语”,将词语“爱”标注为“动词”。
词性标注可以使用规则、统计方法或机器学习方法进行。
3.词形还原(Lemmatization):将每个词还原为其基本形式。
例如,将动词的各种时态和语态还原为原形。
词形还原通常使用规则或基于词典的方法。
句法分析(Syntactic Analysis)是指对一个句子的结构进行分析,包括短语结构分析和依存关系分析。
句法分析的目标是确定句子中各词之间的语法关系。
在自然语言处理中,句法分析主要包括以下几个步骤:1.短语结构分析(Phrase Structure Parsing):根据语法规则,将句子分解成短语(Phrase)。
短语结构分析可以使用基于规则的方法(如上下文无关文法)或基于统计的方法(如基于机器学习的方法)。
2.依存关系分析(Dependency Parsing):确定句子中词与词之间的依存关系。
依存关系表示词与词之间的句法关系,如主谓关系、动宾关系等。
依存关系分析可以使用基于规则的方法或基于统计的方法。
词法分析和句法分析是自然语言处理中两个重要的步骤。
词法分析解决了单词划分和词性标注的问题,为后续的句法分析提供了基本的信息。
句法分析则进一步对句子的结构和语法关系进行了深入分析,为理解句子的意义和进行更高级的语义分析奠定了基础。
1.词法分析分为三部分学习:(1)词法分析程序的设计(2)词法分析器的手工构造(3)词法分析程序的自动构造工具(LEX)词法分析有双重含义:(1)立法:规定单词形成的规则(2)执法:根据构词规则识别输入序列2.词法分析程序的功能:源程序——词法分析器——单词序列扫描器的任务:(1)组织源程序的输入(2)识别单词,转化为内部表示(3)删除注释、空格及无用符号(4)查填符号表(5)检查词法错误3.程序语言单词的分类:(1)关键字(保留字)(2)标识符:用来表示各种名字(3)字面常数(字面量)要区别字面量与常量(4)运算符(5)分界符4.词法分析器的输出(词类编码,单词自身的属性值)词法分析输出的是TOKEN字,并填写符号表,TOKEN和符号表示不同的。
因此,一般将词法分析器识别出的序列称为记号流。
源程序——>词法分析——>符号表、TOKEN字、错误信息词类编码原则:关键字一字一码:常数一类一码;标识符一类一码;界符和算符一符一码。
关键字、算符、界符,它们的此类编码就可以表示其完整的信息,因此其单词自身属性为空。
对于标识符,属性填符号表的入口指针;对常数,属性填常数表的入口指针。
5.词法分析器有三种工作方式:P17(1)作为语法分析器的子程序(2)词法分析器进行单独的一遍扫描(3)与语法分析器并行工作:上述两种均是串行工作方式,效率不够高。
改让词法分析器和语法分析器以生产\消费的形式并行工作(队列,流水线的方式工作)。
6.为了构造词法分析器,要研究构词法,每种词类的构词模式,识别它的数学模型——有穷自动机。
7.手工构造识别单词的DFA:对于每一种单词(关键字,标识符,整数)都要分别构造识别其的DFA。
编写词法分析程序:根据画出的状态转换图构造词法分析程序,每个状态对应一段程序,完成到达此状态的工作;词法分析程序的控制程序模拟状态转换图的状态转换。
8.单词的结构用正规式描述:9.正规式——>NFA——>DFA——>min DFA用LEX建立词法分析程序的过程:LEX源程序lex.l——>LEX编译器——>Lex.yy.c——>C编译器——>a.out输入流——> a.out——>单词序列10.产生和识别单词的规则称为模式按照某个规则或模式识别出的元素称为记号(token)而单词是指被识别出的元素自身的值11.词法分析器是编译器中唯一与源程序打交道的部分,可以认为是整个编译器的预处理器。
戴新宇南京大学计算机科学与技术系Outline词法分析的作用词法单元的规约(正则表达式) 词法单元的识别(状态转换图) 有穷自动机词法分析器生成工具及设计词法分析器作用词法分析是读入源程序的输入字符、将它们组成词素,生成并输出一个词法单元序列,每个词法单元对应于一个词素。
常见的做法是:由语法分析器调用,需要的时候不断读取、生成词法单元可以避免额外的输入输出在识别出词法单元之外,还会完成一些不需要生成词法单元的简单处理,比如删除注释、将多个连续的空白字符压缩成一个字符等。
词法分析和语法分析通常,将编译过程的分析划分成两个阶段的原因: 简化编译器的设计,任务分解提高编译器的效率增强编译器的可移植性词法分析相关概念词法单元(Token):包含单元名(Token-name)和可选的属性值(attribute-value) 单元名是表示某种词法单位抽象符号。
语法分析器通过单元名即可确定词法单元序列的结构。
词素(Lexeme)源程序中的字符序列,它和某类词法单元的模式匹配,被词法分析器识别为该词法单元的实例。
模式(Pattern)词法单元的词素可能具有的形式。
可以用正则表达式来表示。
词法单元示例词法单元的属性一个模式匹配多个词素时,必须通过属性来传递附加的信息。
属性值将被用于语义分析、代码生成等阶段。
不同的目的需要不同的属性。
因此,属性值通常是一个结构化数据。
词法单元id的属性词素、类型、第一次出现的位置、…词法单元示例(名和属性值)词法分析器的构造实现两种方法:基于词法单元的词法结构图或其它描述,手工编写代码扫描输入中的每个词素,并返回识别到的词法单元信息。
使用词法分析器生成工具(如lex flex)。
给出描述词素的模式,利用工具编译为具有词法分析器功能的代码。
高效且简单。
正则表达式一种描述词素模式的重要表示方法Outline词法分析的作用词法单元的规约(正则表达式) 词法单元的识别(状态转换图) 有穷自动机词法分析器生成工具及设计相关概念字母表:一个有限的符号集合二进制{0,1}ASCIIUnicode典型的字母表包括字母、数位和标点符号串:字母表中符号组成的一个有穷序列 串s的长度|s|空串ε,长度为0的串语言:给定字母表上一个任意的可数的串的集合 语法正确的C程序的集合,英语,汉语相关概念(2)和串有关的术语(banana)前缀:从串的尾部删除0个或多个符号后得到的串。
词法分析的名词解释词法分析是编译器设计中的重要环节之一,也是理解和分析程序语言的起点。
本文将对词法分析这一概念进行深入解释,从定义、作用、步骤等角度进行论述。
一、定义词法分析,又被称为扫描器或词法扫描器,是编译器中的一个阶段,其目的是将程序代码转化为一个个有意义的单词或记号(Token),并为之分配相应的词法单元。
换言之,词法分析就是将输入的字符序列分割成一个个有独立含义的单元。
二、作用词法分析的作用是为编译器对程序进行后续处理提供基础。
在编译器的工作流程中,词法分析是首个执行的步骤,它负责将源代码按照语法规则进行单词划分,方便后续步骤对程序结构和语义的分析。
词法分析的作用主要有以下几个方面:1. 标记化:将程序代码划分为有限个词法单元,为后续处理提供便利;2. 错误检测与恢复:识别出非法的单词或字符序列,并提供错误处理机制,如给出错误提示或忽略错误部分,保证程序的正常处理;3. 符号表生成:收集并存储程序中出现的标识符、常量等信息,为语义分析和中间代码生成提供数据支持。
三、步骤词法分析的步骤主要包括以下几个阶段:1. 去除空白符和注释:将程序代码中的空格、制表符、换行符等无实际意义的字符过滤掉,并将注释部分剔除;2. 词素划分(Lexical Analysis):将程序代码划分为一个个词法单元,将其按照事先定义好的语法规则进行拆分和识别;3. 执行模式匹配(Pattern Recognition):根据已定义的正则表达式或有穷自动机,将词法单元与模式进行匹配;4. 记号生成(Token Generation):为每个词法单元生成记号,并为之分配相应的词法单元;5. 错误处理(Error Handling):对于识别出的非法单词或字符序列,触发错误处理机制,如错误提示或忽略错误部分。
四、常见的词法单元类型词法单元是指词法分析的最小单位,也即程序代码中有独立含义的最小单元。
在编程语言中,常见的词法单元类型包括以下几种:1. 标识符(Identifier):代表程序中的变量名、函数名等标识符;2. 关键字(Keyword):具有特殊含义的固定标识符,用于表示特定语法结构或功能;3. 常量(Constant):固定值的表示,包括整数、浮点数、字符串等;4. 运算符(Operator):用于进行各种运算操作的符号,如加号、减号、乘号等;5. 界符(Delimiter):用于界定语法结构的符号,如括号、分号、逗号等。