新版自然语言处理导论课复习提纲课件.doc
- 格式:doc
- 大小:25.50 KB
- 文档页数:2
自然语言处理导论教学大纲及教案一、课程简介本课程旨在介绍自然语言处理(Natural Language Processing,NLP)的基本概念、原理和技术,帮助学生了解和掌握NLP领域的最新进展和应用。
本课程将结合理论与实践,培养学生对NLP问题的分析和解决能力。
二、教学目标1. 了解自然语言处理的定义和研究范围;2. 掌握自然语言处理的常见任务和技术方法;3. 熟悉自然语言处理的应用领域和发展趋势;4. 培养学生的编程能力和实验设计能力。
三、教学内容第一章:自然语言处理概述- 自然语言处理的定义和基本任务- 自然语言处理的历史发展和应用场景- 自然语言处理的挑战和研究方法第二章:文本预处理与文本表示- 文本预处理的基本任务和技术方法- 词袋模型和TF-IDF模型- 词向量和文本向量表示方法第三章:中文分词与词性标注- 中文分词的基本任务和技术方法- 中文分词的评价指标和应用场景- 词性标注的概念和算法第四章:文本分类和情感分析- 文本分类的基本原理和方法- 情感分析的定义和应用领域- 基于机器研究和深度研究的文本分类方法第五章:信息抽取和命名实体识别- 信息抽取的任务和方法- 命名实体识别的定义和应用场景- 基于统计和规则的信息抽取方法第六章:问答系统和对话系统- 问答系统的基本原理和构成要素- 对话系统的定义和挑战- 基于知识库和神经网络的问答系统设计方法四、教学方法- 授课方式:理论讲解和案例分析相结合- 实践环节:编程实践和小组项目设计- 学生评价:作业和实验报告五、教学评估- 平时成绩:出勤、课堂参与和作业完成情况- 期中考试:理论知识的考核- 期末项目:结合课程内容进行实际应用设计六、参考教材1. 《自然语言处理综论》曹晨阳,机械工业出版社2. 《自然语言处理入门》 Jacob Eisenstein,清华大学出版社3. 《Python自然语言处理》皮耶罗-莫迪亚尼,机械工业出版社以上为《自然语言处理导论》的教学大纲及教案,仅供参考。
“自然语言处理导论”课(语言知识部分)要点詹卫东 北京大学中文系 2018-11第1讲 第一部分 语言与语言学概述第二部分 汉语的构词法与中文文本自动分词中的问题1. 如何认识我们人类的自然语言?(1)语言的功用: 交际工具、思维工具 (语言是知识的载体)(2)语言的外在形式:有声语言(听觉系统)、书面语言(视觉系统)、体态语/手势语(视觉系统)(3)语言的内在性质:符号性(任意、理据)、结构性(离散、线性、层次、组合、聚合) → 稳定与变异2. 语言学:关于语言的知识系统观念变迁:(1)看作法律的语言学 → (2)看作生物学的语言学 → (3) 看作化学的语言学 → (4)看作数学的语言学 核心内容:(1)句法学 (2)语义学 (3)语用学两个任务:(1)观察语言现象(知其然) (2)解释语言现象(知其所以然)3. 汉语构词法:基本单位:语素(词根、词缀、词尾) 构词模式(17种):单纯词(7)、合成词(复合6、重叠2、附加2)造词形式:仿词、缩略、词语变形/语言游戏 (新词涌现:各类网络新词,合音、译音、谐音、拼音、缩略……) 词的内部层次(语素组)4. 中文文本自动分词中的问题词的定义(语法学定义、词典定义type 、语料库定义token )分词歧义(交集型歧义,组合型歧义),交集型歧义链长未登录词(专名、领域词/术语、新词、非汉语词/字母词)第2讲 汉语的句法结构系统与词类划分1. 词类划分的目的:词类(聚合关系) → 构建/表述语法系统(组合关系)2. 词类划分的依据: 意义、形态、句法功能√ 如何确定句法功能的框架?3. 现代汉语词类划分的具体操作:汉语的基本句法结构系统:主谓、述宾、述补、状中、定中、连谓、联合、的字、地字、所字、介宾、方位、数量 词类的层级划分与各类的鉴别标准(20个词类) 4. 词类划分中的若干问题(1)词的同一性:词形、词音、词义(2)词的多功能性(3)词的临时功能(活用)(4)词的兼类(5)词类的相对性 * 5. 现代汉语语法信息词典 词类 + 属性特征描述 (面向人的词类划分体系 vs. 面向计算机的词性标记集+特征描述)第3讲句法分析1. 句法分析任务:句法结构知识(语法模型)+ 分析算法(在语法模型中寻找正确的“树”)2. 句法结构的形式表示模型:上下文无关文法,依存文法3. 句法结构歧义:外显型歧义-内含型歧义真歧义-准歧义-伪歧义4. 句法分析算法:CYK算法、Earley算法、LR算法、GLR算法……5. 现代汉语句法结构系统:常规结构(每类结构的特点,包括成分间关系、形式特点)短语(词组)结构分析的原则:成分独立;功能约束;意义一致;系统普适非常规结构:易位、插入、省略第4讲语义分析1. 语义分析任务:给出句子的语义表示:谓词逻辑表达式、语义网络、概念依存图、框式图组合性原则(principle of compositionality): 词义+结构义2. 词汇语义:语义特征集、语义分类树、语义关系网基于词典释义的语义特征分析、基于句法格式等义变换的语义特征分析配价/论元结构理论、框架语义、生成词库论3. 语义知识与句法分析的融合特征结构、合一运算(Unification)、加入了合一运算的CYK算法第5讲语篇分析1.篇章的连贯性衔接手段:代词回指、零形回指、词语关联、结构关联、语义关联2.篇章结构分析篇章层级结构与篇章单元之间的关系(Rhetorical Structure Theory,RST:23种)Penn Chinese Discourse Treebank(11种)中文复句内部小句间关系(14种)3. 篇章指代分析指代语言成分(人称代词、反身代词、零形成分)指代实物(直指)面称/背称通指/专指语段中心成分理论(Centering Theory)forward-looking center / backward-looking center / preferred centerCentering transition state: continue / retain / smooth shift / rough shift附:自然语言理解中的语用因素指示语理论(deixis)会话含义理论(conversational implicature: Grice’s theory of implicature)言语行为理论(speech act)话语结构的语用分析(conversational structure)。
“自然语言处理导论”课复习提纲
上半部分(参考材料:课程讲义)
第1讲绪论:什么是自然语言处理(NLP)
1.请举例说明自然语言和人工语言有哪些差异。
2.请举例说明语言知识与自然语言处理之间的关系。
第2讲中文文本的自动分词
3.计算机对中文文本进行自动分词的困难主要有哪些?
4.请概括说明最大匹配法分词和最大概率法分词的基本思想。
二者是什么关系?
5.分词质量的常用评价指标主要有哪些?
第3讲词性标注方法
6.请举例说明汉语的基本句法结构类型有哪些,各类结构的主要特点是什么。
7.请举例说明汉语的主要词类有哪些,各类词的特点是什么。
8.请概述用隐马尔可夫(HMM)模型进行词性标注的基本思想是什么。
9.请概述韦特比算法(Viterbi)的主要过程。
10.请概述基于转换的错误驱动的词性标注方法的主要思想及其处理流程。
第4讲汉语的句法结构分析(上)
11.什么是有限状态文法,上下文无关文法,两种文法的区别是什么。
12.自底向上的句法分析与自顶向下的句法分析的区别是什么。
13.Earley算法。
14.Tomita算法。
Tomita算法对LR算法的主要改进是什么。
第5讲汉语的句法结构分析(下)
15.请举例说明句法结构歧义有哪些不同的类型。
16.什么是特征结构?请举例说明如何运用特征结构表达自然语言知识。
17.什么是合一运算(Unification)?请举例说明如何运用合一运算表达自然语言知识。
18.请概述如何在Earley算法中融入合一运算。
第6讲语义分析*
19.请举例说明自然语言中形式和意义之间的对应关系有哪些情况。
20.义素分析法。
21.配价分析法。
22.请举例说明如何利用语义知识来帮助消除句法结构分析中的歧义。
*不在考题范围内但属于本课程应掌握的知识内容。
下半部分
参考材料:Steven Bird, Ewan Klein and Edward Loper. 2009. Natural Language Processing with Python. O’Reilly Media.
参见教学网页中对各章节的具体说明。
特别说明,期末考试第8章第1、2、3、4节及第6章第4、5、6节不作要求。
在复习中,注意区分熟悉1、了解2等不同层次的要求。
1对涉及的NLTK包及Python语言,掌握其核心的编程技能,对琐碎的细节并不做要求。
2对涉及的NLTK包及Python语言,知道其常识的编程知识,对琐碎的细节并不做要求。