第四章 语料库与词汇知识库
- 格式:pdf
- 大小:298.96 KB
- 文档页数:67
第四章知识表示•概述•表示方法第四章知识表示方法•概述•表示方法概述•人工智能研究中最基本的问题之一–在知识处理中总要问到:“如何表示知识?”,“知识是用什么来表示的?”。
怎样使机器能懂,能对之进行处理,并能以一种人类能理解的方式将处理结果告诉人们。
–在AI系统中,给出一个清晰简洁的描述是很困难的。
有研究报道认为。
严格地说AI对知识表示的认真、系统的研究才刚刚开始。
概述•知识的定义(难以给出明确的定义只能从不同侧面加以理解)–F e i g e nb a u m:知识是经过消减、塑造、解释和转换的信息。
–B e r n s t e i n:知识是由特定领域的描述、关系和过程组成的。
–H a y e s-r o t h:知识是事实、信念和启发式规则。
–知识库的观点:知识是某领域中所涉及的各有关方面的一种符号表示。
概述•知识的种类–事实性知识:采用直接表示的形式如:凡是猴子都有尾巴–过程性知识:描述做某件事的过程如:电视维修法–行为性知识:不直接给出事实本身,只给出它在某方面的行为如:微分方程、(事物的内涵)……..概述•知识的种类……..–实例性知识:只给出一些实例,知识藏在实例中。
–类比性知识:即不给出外延,也不给出内涵,只给出它与其它事物的某些相似之处如:比喻、谜语–元知识:有关知识的知识。
最重要的元知识是如何使用知识的知识,如何从知识库中找到想要的知识。
概述•知识的要素–事实:事物的分类、属性、事物间关系、科学事实、客观事实等。
(最低层的知识)–规则:事物的行动、动作和联系的因果关系知识。
(启发式规则)。
–控制:当有多个动作同时被激活时,选择哪一个动作来执行的知识。
(技巧性)–元知识:高层知识。
怎样实用规则、解释规则、校验规则、解释程序结构等知识。
概述•知识表示的定义–知识表示研究用机器表示知识的可行性、有效性的一般方法。
–知识表示是理智推理的部分理论。
–知识表示是有效计算的载体–知识表示是交流的媒介(如语义网络)概述•选取知识表示的因素–表示范围是否广泛–是否适于推理–是否适于计算机处理–是否有高效的算法–能否表示不精确知识–能否模块化知识和元知识能否用统一的形式表示是否加入启发信息过程性表示还是说明性表示表示方法是否自然总之………概述•选取知识表示的因素………..总之,人工智能问题的求解是以知识表示为基础的。
第四章语义和语用第四章语义和语用第一节、词汇和词义一、词和词汇〔教材P120〕一种语言中所有的词和成语等固定用语的总汇就是该语言的词汇。
一种语言只有一个词汇,但包含的词和固定用语可以多到几十万个。
词汇是一个系统,就聚合关系而言,包含多种不同的类聚。
根据词在词汇系统中所占的地位和所发挥的作用不同,有根本词汇和一般词汇之分。
根本词汇是词汇中最主要的、生存最久、通行最广、构成新词和组词能力最强的那一局部。
它和语法一起构成语言的根底,表达了语言特点的本质。
汉语中根本词汇里的词,表达的都是与人们世世代代的日常生活关系非常密切的事物,包括自然现象、人体器官、肢体部位、亲属关系、时间、方位、数目、某些劳开工具、农产品、家畜、家禽、某些言行、动作、变化、性质、状态以及称代等。
见教材P121。
全民常用,稳固,有构词能力可以说是根本词汇的词的主要特点。
为什么?根本词汇里面的词虽然稳固,在语言的开展中也有被逐渐替换的。
如现代汉语的“脚〞古代叫“足〞,“眼〞叫“目〞、“船〞是“舟〞,“足〞“目〞“舟〞应该属于古代汉语的根本词汇,现在被同样具有悠久历史的“脚〞“眼〞“船〞代替。
这类被代替的古词不再作为独立的词使用,但大多数仍以词根的身份参与后起词语的构成。
所以尽管词汇中的新旧交替,新陈代谢在经常进行,但词汇的核心,构词的材料是非常稳固的,这就保证了交际的连续进行。
一般词汇:语言词汇中除了根本词汇以外的词构成语言的一般词汇。
新词、历史词、古语词、方言俚语词、外来词、行业用词、科技术语、社会习惯用语、专名等。
主要特点:不是全民常用的,或者虽然在短时期内为全民所常用,但不稳固,一般没有构词能力或构词能力比拟弱。
一般词汇包含的词,数量大,成分杂,变化快。
从语言运用和开展的角度看,根本词汇是语言词汇中主要的、根底的、稳固的局部,而一般词汇那么是语言词汇中流动的局部,它随着社会的开展而迅速得到丰富和充实。
区分根本词汇和一般词汇,对于研究语言的历史〔如词语的双音节化等〕,进行语文教学〔一般词汇中大量的词语以根本词为材料构成〕,都有积极的作用。
陆国强词汇学讲稿第四章第四章词的语义特征语义特征(semantic features)是对人类经验的一种抽象概括,属于元语言(metalanguage),用来描写任何语言的语义,正如语音用区别性特征(distinctive features)来描写任何语言的音素。
它们都是在语言中普遍存在的(language universal)。
例如,对名词的描述,可以从是人或非人、有生命或无生命、男性或女性、成年或非成年、抽象或具体等范畴进行语义分析。
如英语中bachelor一词就具有以下几个语义特征:[Human],[Adult][Male],[Concrete],[Unmarried]。
这种分析方法称为成份分析法(componential analysis)。
印刷或书写时通常把语义特征置于方括弧或圆括弧中,有时用大写字母表示。
语义特征常可用对分法(binary opposition)进行描述。
某词项具有语义特征A,就记作[+A],不具有语义特征A,就记作[-A]。
现试用对分语义特征(binary semantic features)[±Male],[±Adult],[±Human] 描写以下词项:man ( + Male, + Adult, + Human)woman ( —Male, + Adult, + Human )boy ( + Male, —Adult, + Human)girl ( — Male, — Adult, + Human)bullock ( + Male, + Adult, —Human)cow ( —Male, + Adult, —Human)进行对分法分析,要抓住不同名词之间典型的区分性特征。
例如上述一类词与book ,dictionary,chair等词的区别性特征是[±Animate]。
又如boy,chair,dictionary 等词与hope,thought,problem 等词的区别性特征是[±Concrete]。
分词有人把文本解析比喻成人体的消化过程,输入食物,分解出有用的氨基酸和葡萄糖等。
这部分处理从整段的文本中解析出有意义的词语。
1.1 中文分词因为中文文本中词和词之间不像英文一样存在边界,所以中文分词是一个专业处理中文信息的搜索引擎首先面对的问题。
英语、法语和德语等西方语言通常采用空格或标点符号将词隔开,具有天然的分隔符,所以词的获取简单。
但是中文、日文和韩文等东方语言,虽然句子之间有分隔符,但词与词之间没有分隔符,所以需要靠程序切分出词。
另外,除了可以用于全文查找,中文分词的方法也被应用到英语手写体识别中。
因为在识别手写体时,单词之间的空格就不很清楚了。
1.1.1查找词典算法(机械分词法)在讨论查找词典方法之前,首先看看文本方式的词典格式:滤波器n 0堵击v 0稿费n 7神机妙算i 0开设vn 0 v 32每行一个词,然后是这个词可能的词性和语料库中按这个词性出现的次数。
存储基本词性相关信息的类如下:public class POSInf {public short pos=0; //词性public int freq=0; //词频public String seCode = null; //词的语义编码}在基于词典的中文分词方法中,词典匹配算法是基础。
使用的词典规模往往在几十万词义上。
为了保证切分速度,需要选择一个好的查找词典算法。
本节介绍词典的Tire树组织结构及词典的最大长度查找方法等。
(早期的结构是倒排索引)在一个三叉搜索树(TernarySearchTrie)中,每一个节点包括一个字符,但和数字搜索树不同,三叉搜索树只有三个指针,一个指向左边的树,一个指向右边的树,还有一个向下,指向单词的下一个数据单元。
三叉搜索树是二叉搜索树和数字搜索树的混合体。
它有和数字搜索树差不多的速度但是和二叉搜索树一样只需要相对较少的内存空间。
单词的读入顺序对于创建平衡的三叉搜索树很重要,但对于二叉搜索树就不是太重要。
语料库和数据管理的知识,例如数据清洗、数据存储和数据查询语料库(Corpus)是指大量的文本数据集合,通常用于自然语言处理(NLP)和文本分析领域。
在进行语料库处理时,涉及到数据清洗、数据存储和数据查询等任务。
数据清洗(Data Cleaning):数据清洗是指对语料库中的数据进行整理、清理和修复,以确保数据质量和可用性。
这包括以下一些任务:1. 去除噪音:删除或修复语料库中的错误、拼写错误或其他形式的噪音。
2. 标记化:将文本分割成单词或其他语言单位的过程,通常通过分词器(Tokenizer)来完成。
3. 去除停用词:删除常见但没有实际信息的词语,如“的”、“是”等。
4. 词干提取和词形还原:将单词转化为其基本形式,以减少词汇的复杂性。
5. 处理缺失数据:处理语料库中可能存在的缺失或不完整的数据。
数据存储(Data Storage):语料库的存储涉及选择适当的数据结构和数据库系统,以方便后续的查询和分析。
常见的存储方式包括:1. 文本文件:简单的文本文件,如CSV(逗号分隔值)或JSON(JavaScript对象表示法)文件。
2. 数据库:使用关系型数据库(如MySQL、PostgreSQL)或非关系型数据库(如MongoDB)进行存储,便于查询和索引。
3. 分布式存储系统:针对大规模语料库,可能会使用分布式存储系统,如Hadoop HDFS或云存储服务。
数据查询(Data Querying):一旦语料库存储在合适的地方,就可以进行数据查询和检索。
常见的查询任务包括:1. 检索:根据关键词、短语或其他条件检索语料库中的文本。
2. 过滤:根据特定条件过滤语料库中的文本数据。
3. 分析:对语料库进行统计、文本挖掘或其他分析操作。
4. 聚合:将语料库中的数据聚合到可视化或报告中。
以上这些任务涵盖了在语料库和数据管理中进行数据清洗、存储和查询的主要方面。
这些任务通常需要深入理解数据处理和数据库管理的基本原理。
第四章语法三、分析题1、用层次分析法分析下列句法结构。
(1)夕阳把远山照得通红主语谓语状语中心语介宾述补(2)热爱人民的周总理1)热爱人民的周总理动宾定中2)热爱人民的周总理定中动宾2、变换下列句子,使其具有句法同义关系。
(1)我打破了杯子。
1)我打破了杯子。
——我把杯子打破了。
——杯子被我打破了。
——杯子我打破了。
——杯子我把它打破了。
——我打破的是杯子。
——杯子是我打破的。
……2)我打破了杯子。
——我没有打破杯子。
3)我打破了杯子。
——我打破了杯子了么?(2)我们找到了小王。
1)我们找到了小王。
——小王我们找到了。
——小王被我们找到了。
——我们把小王找到了。
——小王是我们找到的。
——我们找到的是小王。
—2)我们找到了小王。
——我们没有找到小王。
3)我们找到了小王。
——我们找到了小王了?3、用变换方法区分下列句法多义的句子。
(1)关心的是他母亲。
——被关心的人是他母亲——关心人的是他母亲(2)虚构故事吓坏人——虚构故事把人吓坏了——虚构的故事用来吓唬坏人(3)咬死猎人的狗——狗咬死了猎人——猎人的狗被咬死了(4)鸡不吃了——鸡不吃食物了——我们不吃鸡了5、用变换的方法辨析下列结构之间的差别。
(1)在池子里洗衣服--在池子里养金鱼*把衣服洗在池子里——把金鱼养在池子里*洗衣服洗到池子里——养金鱼养到池子里这说明“池子里”仅仅是“洗衣服”这个行为的处所,但不必然是“衣服”的处所;与此相反,“池子里”既是“养金鱼”的处所,也是“鱼”的处所。
(2)在黑板上写字——在教室里写字——在火车上写字字写在黑板上——?字写在教室里?——字写在火车上(人呆)在黑板上写字——(人呆)在教室里写字——(人呆)在火车上写字以上变换说明:(1)“黑板上”是“字”的处所,不必然是动作行为发生的处所;(2)“教室里”是“写字”的行为发生的处所,但不必然是“字”的处所;(3)“火车上”既是“写字”行为的处所,也可以是“字”的处所。