第6章信息检索与服务
- 格式:ppt
- 大小:706.00 KB
- 文档页数:73
第6章人工智能及其应用1、人工智能是研究计算机模拟人的某些感知能力、思维过程和智能行为(如学习、推理、思考、规划等)的学科。
2、智能问答系统主要包括常见问题解答(FAQ)、问题理解、信息检索、文档库、答案抽取五大模块。
3、问题理解模块该模块主要实现计算机理解用户的问题,确定问题的关键词和问题的类型,为后面的信息检索和答案提供服务。
问题理解模块的实现过程一般包括问题预处理、问题分类、关键词提取和关键词扩展等。
其中,问题分类主要确定问题的类别,以方便信息检索和答案抽取。
问题理解模块主要运用的技术有分词、同义词词典、分类方法等。
4、信息检索模块该模块主要从互联网或者知识库中找到与问题相关的文档作为答案提取的原材料。
信息检索的方法一般有两种,一种是直接利用搜索引擎检索信息;另一种是建立特定的知识库,然后根据知识库建立索引模块,从而可以方便、快速地找到相关文档,并根据特点的排序算法对文档进行排序。
信息检索模块运用的技术主要包括查询扩展、语料库的构建技术、词汇索引、文档排序等。
5、文档库模块文档库用于存放专家提供的知识,其内部含有大量某个领域的常识性知识和专家水平的知识与经验总结,且能够利用专家的知识和解决问题的方法来处理该领域问题。
6、答案抽取模块该模块主要利用问题的类型构建相应的答案抽取策略,从信息检索后的文档中对排序靠前的文档进行答案的定位和输出,所用技术主要有答案抽取模板的制定、模式匹配、聚类等。
7、图灵测试是指测试者在与被测试者(一个人和一台机器)隔开的情况下,通过一些装置(如键盘)向被测试者随意提问。
问过一些问题后,如果被测试者有超过70%的答复不能使测试者确认出哪个是人、哪个是机器,那么这台机器就通过了测试,并被认为具有人类智能。
8、人工智能发展大致分为三个阶段。
第一阶段(20世纪50-80年代)刚刚诞生,符号主义快速发展。
第二阶段(20世纪80年代-90年代末)专家系统快速发展,数学模型有重大突破。
第一章信息检索概论思考题:1.什么是信息?简述信息的特点和分类?我们认为,信息是事物或事物之间不确定性的量度,即负熵。
掌握的信息越多,所需认识的事情的确定性就会越少。
信息由信源,信宿和信道(载体)构成。
信息的特点:(1)客观真实性:客观、真实是信息的最重要的本质特性(2)普遍性:信息是物质的普遍属性,物质是具有普遍性,所以信息也拥有该特性(3)针对性:信息的作用和价值可以随着接受者的不同而不同(4)传递性:过程:信息源(信息的发出者)——>编码—>信道(载体)—>译码—>信宿(信息的接收者)信息源:是信息的发出者信宿:是信息的接收者信息的传播是双向的,多维的。
信息源和信宿是相对的,也是可以相互转换的。
信道:就是在传播过程中,编码经过的物理通道(5)时效性:指信息发出、接收到利用的时间间隔及效率,也包括信息的本身更新速度。
客观物质不断的变化,反映事务的运动状态和运动方式的信息也会发展变化一般而言,随着时间的推移,信息的价值会逐渐减少也有反例:如考古信息(恐龙、古钱币),年代越久,使用价值越大衡量信息的时效性参数不只是时间参数,还有地理环境(6)可转换性:信息可以从一种形态转换成另一种形态(7)可处理性(可识别性):可以通过人们的感觉器官所感知,也可以通过仪表、器械来检测进而予以识别。
(8)可共享性:指同一内容的信息可以在同一时间里被若干个用户使用,此时信息载体本身的信息量不会被磨损、消失信息的类型:(1)按信息表现形式划分,可分为文字信息,图象信息,数值数据信息,语音信息。
▪文字信息:文字是人们为了实现信息交流、通信联系所创造的一种约定的形象符号。
▪图象信息:图象(形)是一种视角信息,它比文本信息直接,易于理解。
如,一幅画、一部电影。
▪数值数据信息:数值数据是“信息的数字形式”或“数字化的信息形式”。
▪语音信息:人讲话实际是大脑的某种编码形式的信息转换成的语言信息的输出,是一种最普遍的信息表现形式。
第一章信息资源的概述一.传统信息资源的概述1.概念与特征2.类型:(1)一类文献:原始文献(2)二类文献:对一类文献的加工整理,报道揭示一类文献,提供的是一类文献的线索和地址(书目,索引,文献)(3)三类文献:来源于一类文献,有丰富的权威的资料,可以解决各种问题。
如:百科全书,字典,词典,手册,年鉴,名录二.数字信息资源1.与传统信息资源相比具有的特征:(1)以多媒体为内容特征(2)内容复杂多样(3)更新速度快,时效性强(4)利用不受时空限制(5)具备检索系统(6)具备全方位的动态的信息服务功能2.数字信息资源的类型:(1)按性质和功能划分:a)一次文献:原始文献b)二次文献:参考数据库,搜素引擎,网资,导航等。
c)三次文献:元搜素引擎(关于搜素引擎的搜素引擎)(2)按载体划分:光盘,网络数据库,联机检索系统(三)主要数字信息资源1.参考型数据库:包含各种数据信息的来源和属性的数据库。
包括:书目数据库,索引数据库,文献数据库2.全文数据库:收录有原始文献全文的数据库3.事实数据库;直接提供原始文献的数据库,分为数值数据库,指南数据库,术语数据库4.电子图书5电子报纸6.搜索引擎/分类指南7.网络学术资源学科导航:对各类信息资源进行筛选整理之后,按学科属性对其进行分类、组织。
第二章信息检索概述一.信息检索:信息检索就是利用一定的检索工具,运用一定的检索技术和方法查找信息的过程。
二.信息检索的原理1.利用计算机进行信息检索的前提和基础是信息的组织和贮存。
没有贮存就没有检索对象。
2.信息的组织与贮存就是数据库的建立过程。
在这一过程中,系统对收集到的信息进行概念分析(即找出能够表达主题的关键词),然后赋予其特征标识(这一过程也叫对信息内容进行标引),并按特定的编排方法将其组织起来,形成有序的具有可检性特征的数据库。
3.计算机进行信息检索的原理就是指用户和检索人员将能够表达其信息需求的检索式提交给检索系统,检索系统即自动将检索式与系统中的信息进行匹配,凡是信息特征标识和逻辑组配关系与用户检索式一致的,既未命中内容。
信息检索与利用练习题及答案(总20页)--本页仅作为文档封面,使用时请直接删除即可----内页可以根据需求调整合适字体及大小--第一章概说综合练习一、填空题1、文献信息资源,在载体形式上,包括纸质文献和电子资源。
2、一次文献是依据作者本人的研究或研制成果创作的文献,即通常所说的“原始文献”、“第一手资源”。
一次文献在形态上具有多样性,在内容上具有原创性,在出处上具有分散性。
3、二次文献是按一定的方法对一次文献进行整理加工,以使之有序化而形成的文献,主要包括目录、索引、文摘等。
二次文献通常又被称为“检索性文献”、“线索性文献”。
4、三次文献是对大量相关文献进行综合分析而形成的评述研究性文献,如综述、述评等。
三次文献在内容上具有综合性,在功效上具有参考性。
5、传统的文献检索工具体系由印刷版工具书构成。
6、电子化的检索工具是以数据库的形式出现的,数据库类型有数值型数据库、事实型数据库、文献型数据库。
7、部首法首创于东汉时期著名学者许慎的《说文解字》。
8、在现有的电子版检索工具中,检索词主要有两大类:字段词和任意词以数值型数据库、事实型数据库和书目数据库出现的电子版检索工具,检索词是字段词。
以全文数据库出现的电子版检索工具,检索词可以是“任意词”。
9、“循环衍生法”包括定义衍生法、语素衍生法、语境衍生法。
10、现有的中文电子版检索工具一般都设有高级检索功能,较多地使用的检索技术是布尔逻辑检索、截词检索和位置检索,体现出的检索特点是组配检索、模糊检索和限定检索。
11、逻辑“与”(and)符号表示为“*”。
表示“同时包含”关系。
逻辑“或”(or)符号表示为“+”。
表示“分别包含”关系。
逻辑“非”(not)符号表示为“-”。
表示“排除其他”关系。
12、中文检索引擎的检索方式主要有两种:一是分类方式,二是关键词方式。
13、文献信息资源的引证标注有3种情况:注释、引文出处、参考文献。
14、文后参考文献著录的国家标准是1987年5月《文后参考文献著录规则》15、文后参考文献列表可以采用“顺序编码制”,也可以采用“著者——出版年制”。
信息检索第一章信息检索的基础理论第一节基础概念一、信息概述(一)信息的定义:信息指的是事物的存在方式和运动状态,是对客观世界中各种事物变化和特征的反映,是客观事物之间相互作用和联系的表征,是客观事物经过感知或认识后的再现。
世界三大基本要素:信息物质能量(二)信息的特征1.客观性①信息来源于物质,又不是物质本身;它从物质的运动中产生出来,又可以脱离物质相对独立地存在。
②信息业来源于精神世界,但又不限于精神的领域。
③信息是具体的,并且可以被人所感知、提取、识别,可以传递、存储、变换、显示、检索和利用。
2.普遍性3.可存储性4.可传递性5.扩散性6.共享性7.时效性(三)信息的功能1.经济功能①运用信息可以使非资源转化为资源创造财富。
②使用信息取代劳动力、资金、材料等资源创造财富,实现经济效益倍增。
③直接让信息作为商品在市场流通中创造财富。
④通过信息进行科学决策,减少失误,创造财富。
2.管理与协调功能5M资源:人、财、物、设备、管理办法信息的管理与协调功能在组织活动中的作用:①传递整个组织的运行目的,有效管理5M资源。
②调节和控制物质流和能源流的数量、方向和速度。
③传递外界对系统的作用,保持组织的内部环境稳定。
3.选择和决策功能4.研究与开发功能二、知识1.知识的概念:知识是人类社会实践经验的总结,是人的主观世界对于客观世界的概括和如实反映,是人类对自然界、人类社会以及思维方式与运动规律的认识。
2.知识的类型①显性知识和隐性知识。
②实体知识和过程知识。
③核心知识和非核心知识。
三、情报1.情报的概念:情报是具有特定传递对象的特定知识货有价值的信息。
2.情报的特征①动态性②按特定的方式传递③为特定目的服务的④常常有一定的时效性和机密性3.情报的类型零次情报:私人笔记、手稿、设计草图、会议记录、口头言论等。
一次情报:调查报告、研究报告、科学论文、专利说明书、会议文献、专著等。
二次情报:书目、索引、文摘等三次情报:综述、专题评论、年度总结、研究进展报告、数据手册、专业年鉴等。