当前位置:文档之家› 信息检索与数据挖掘2019371

信息检索与数据挖掘2019371

《大数据时代下的数据挖掘》试题及答案要点

《海量数据挖掘技术及工程实践》题目 一、单选题(共80题) 1)( D )的目的缩小数据的取值范围,使其更适合于数据挖掘算法的需要,并且能够得到 和原始数据相同的分析结果。 A.数据清洗 B.数据集成 C.数据变换 D.数据归约 2)某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖 掘的哪类问题?(A) A. 关联规则发现 B. 聚类 C. 分类 D. 自然语言处理 3)以下两种描述分别对应哪两种对分类算法的评价标准? (A) (a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。 (b)描述有多少比例的小偷给警察抓了的标准。 A. Precision,Recall B. Recall,Precision A. Precision,ROC D. Recall,ROC 4)将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(C) A. 频繁模式挖掘 B. 分类和预测 C. 数据预处理 D. 数据流挖掘 5)当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数 据相分离?(B) A. 分类 B. 聚类 C. 关联分析 D. 隐马尔可夫链 6)建立一个模型,通过这个模型根据已知的变量值来预测其他某个变量值属于数据挖掘的 哪一类任务?(C) A. 根据内容检索 B. 建模描述 C. 预测建模 D. 寻找模式和规则 7)下面哪种不属于数据预处理的方法? (D) A.变量代换 B.离散化

C.聚集 D.估计遗漏值 8)假设12个销售价格记录组已经排序如下:5, 10, 11, 13, 15, 35, 50, 55, 72, 92, 204, 215 使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱子内? (B) A.第一个 B.第二个 C.第三个 D.第四个 9)下面哪个不属于数据的属性类型:(D) A.标称 B.序数 C.区间 D.相异 10)只有非零值才重要的二元属性被称作:( C ) A.计数属性 B.离散属性 C.非对称的二元属性 D.对称属性 11)以下哪种方法不属于特征选择的标准方法: (D) A.嵌入 B.过滤 C.包装 D.抽样 12)下面不属于创建新属性的相关方法的是: (B) A.特征提取 B.特征修改 C.映射数据到新的空间 D.特征构造 13)下面哪个属于映射数据到新的空间的方法? (A) A.傅立叶变换 B.特征加权 C.渐进抽样 D.维归约 14)假设属性income的最大最小值分别是12000元和98000元。利用最大最小规范化的方 法将属性的值映射到0至1的范围内。对属性income的73600元将被转化为:(D) A.0.821 B.1.224 C.1.458 D.0.716 15)一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年 级110人。则年级属性的众数是: (A) A.一年级 B.二年级 C.三年级 D.四年级

信息检索与利用题集及答案》

《信息资源检索与利用100题集及答案》 姓名:陈晨 学号:110803021101 班级:11级材料一班 第一章绪论 1.简述科技文献检索的意义。 答:人们无论学习、工作,还是进行科学研究,都离不开文献的检与利用。具体来说,科技文献检索 具有以下六个方面的意义:(1)有利于大学生信息素养的培育;(2)有利于复合性、开拓性人才的培养;(3)有利于促进智力资源的开发利用,推动社会进步与发展;(4)有利于帮助研究人员继承和借鉴前人的 成果,避免重复研究和走弯路;(5)有利于节省研究人员查找文献的时间,提高科研效率;(6)有利于为决策提供科学依据。 2.信息、知识、情报、文献的概念是什么? 答:(1)信息是被反映事物属性的再现。信息不是事物本身,而是由事物发出的消息、指令、数据等 所包含的内容。 (2)知识是人类认识的成果和结晶,是人类在认识和改造世界的社会实践中获得的对事物本质的认识。 (3)情报是人们在一定时间内为一定目的而传递的具有使用价值的知识或信息。 (4)文献是各种知识或信息载体的总称。其由知识信息内容、载体材料和记录方式三要素组成。 3.试述科技文献检索的定义及作用。 答:所谓科技文献检索,是指文献资料的查找与获得。其作用是检索者利用检索工具按照文献编排特 点,采取一定的途径、方法和步骤迅速、准确地查获自己所需要的文献资料,便于学习、工作和进行科学研 究。 4.科技文献有什么特点? 答:现代科技文献的发展具有以下明显特点:(1)数量急剧增长;(2)内容交叉重复;(3)文献出版分散;(4)文献失效加快;(5)文献语种增多;(6)文献载体电子化,文献传播网络化。 5.试述一、二、三次文献的概念?它们之间的关系如何? 答:(1)一次文献是作者在科学研究、教学和生产实践中以自己的研究成果为依据创作而成的文献, 又称一级文献或原始文献; (2)二次文献是文献情报人员将大量分散的、无序的原始文献进行筛选、整理、报道和组织所形成的 文献,又称二级文献或检索性文献; (3)三级文献是利用二级文献的线索,系统地检索出一批相关文献,并对其内容进行综合、分析、研 究和评述而编写出来的文献,又称三级文献或参考性文献。 关系:从一次文献到二次文献、三次文献是一个由博到约、由分散到集中、由无须到有序、由有序到 有机的结构化、系统化的程。 6.文献有哪些属性? 答:(1)知识信息性;(2)物质实体性;(3)人工记录性;(4)动态发展性。 7.文献的功能有哪些? 答:(1)存储知识信息;(2)传递知识信息;(3)教育与娱乐功能。 8.科技文献出版的种类有哪些?

信息检索与利用期末复习

《信息检索与利用》考试题型说明: 一、判断题(1×10) 二、单选题(1×20) 客观题要涂答题卡。 三、填空题(2×5) 四、简答题(12×3) 五、实践题(12×2) 信息检索与利用客观复习题 一、判断题 1.在构建关键词时,我们尽量不要用自然语言,而要从自然语言中提炼关键词。 (对) 2.在信息检索时查询词表述准确是获得良好搜索结果的必要前提。(对) 3.目前的搜索引擎能很好的处理自然语言。(错) 4.用户可以通过Google图书搜索在线阅读任何一本搜索到的图书。(错) 5.二次检索是指在第一次检索结果不符合要求时,重新选择检索条件再次进行检 索。(错) 6.解决读者需求的无限性和馆藏的有限性的矛盾,唯一有效的方法就是在图书馆 间建立合作机制,实现资源共享。(对) 7.关键词语言的最大优点是能用计算机进行自动抽词标引,它适合于计算机自动 编制各种类型的词索引。(对) 8.信息素养由信息意识、信息能力、信息道德三个方面内容构成,其中,信息道 德是前提,信息能力是保证,信息意识是准则。(错) 9.搜索引擎与普通网站不同的是提供一个包含搜索框的页面,它不是一个WWW网 站。(错)

10.用搜索引擎google检索专利和期刊的全文比用中国国家知识产权局专利数据 库、《维普中文科技期刊数据库》等数据库的查全率和查准率都要高。(错)11.GB/T 16159-1996,汉语拼音正词法基本规则[S].北京:中国标准出版社, 1996.该文献类型为标准文献。(对) 12.在搜索引擎中输入“项目管理”和输入““项目管理””检索结果是不一样 的。(对) 13.在搜索引擎中常用的截词符是星号“*”,通常使用右截断。如输入comput*, 将检索出computer、computing、computerized等词汇。(对) 14.通用搜索引擎,如google、baidu、bing、yahoo,并不能囊括所有的网页。(对) 15.不同类型的搜索引擎对同一个主题进行搜索会得到不同的结果。(对) 16.一次文献是指原始创作,即作者以本人的研究成果为基本材料而创作(或撰写) 的文献,主要包括期刊论文、专利说明书、会议论文、科技报告和学位论文等。 (对) 17.从一次文献、二次文献到三次文献,是文献从无序到有序、从无组织到系统化 的过程。(错) 18.题录、目录属于一次文献;期刊论文属于二次文献。(错) 19.关键词和主题词都是表征文献实质性内容的词汇,前者是经过词表规范的,后 者是未经过词表规范的自由词。(错) 20.利用某个图书馆的书刊目录查询系统(OPAC),可以了解该图书馆收藏有哪些印 刷型图书和期刊。(对) 21.截词检索相当于用逻辑“或”扩展检索的范围,可以提高检索的查全率。(对) 22.将“红外线”扩展成“远红外线”和“近红外线”运用了上下位概念扩展法。 (对)、

数据挖掘与预测分析

数据挖掘是一个多学科交叉研究领域,它融合了数据库技术、人工智能、机器学习、统计学、知识工程、面向对象方法、信息检索、高性能计算以及数据可视化等最新技术的研究成果。数据挖掘是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。预测分析可帮助用户评审和权衡潜在决策的影响力。可用来分析历史模式和概率,预测未来业绩并采取预防措施。 数据挖掘的含义是广泛的,每个人有每个人不同的体会,每个人有每个人的见解。但这些体会、见解是有许多共通之处的,从而可以归纳出数据挖掘的技术定义以及商业定义:从技术角度,数据挖掘(Data Mining)就是从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的但又是潜在有用的信息和知识的过程。它是涉及机器学习、模式识别、统计学、人工智能、数据库管理及数据可视化等学科的边缘学科。由于每个人的思维方式不同,这个定义可以被解读为以下几个层次:①数据源必须是真实的、大量的、含噪声的;②发现的是用户感兴趣的知识;③发现的知识要可接受、可理解、可运用;④这些知识是相对的,是有特定前提和约束条件的,在特定领域中具有实际应用价值。 预测是大数据的核心,数据挖掘之后的预测分析无疑成为开拓市场的重要环节。预测分析是一种统计或数据挖掘解决方案,包含可在结构化和非结构化数据中使用以确定未来结果的算法和技术。可为预测、优化、预报和模拟等许多其他用途而部署。预测分析和假设情况分析可帮助用户评审和权衡潜在决策的影响力。可用来分析历史模式和概率,以预测未来业绩并采取预防措施。这种级别的分析可以为规划流程提供各种信息,并对企业未来提供关键洞察。不仅可提供预测分析,使用户可以执行高级分析、发布并与更广泛的用户群交流。还可以提供

大数据时代的数据挖掘

大数据时代的数据挖掘 大数据是2012的时髦词汇,正受到越来越多人的关注和谈论。大数据之所以受到人们的关注和谈论,是因为隐藏在大数据后面超千亿美元的市场机会。 大数据时代,数据挖掘是最关键的工作。以下内容供个人学习用,感兴趣的朋友可以看一下。 智库百科是这样描述数据挖掘的“数据挖掘又称数据库中的知识发现,是目前人工智能和数据库领域研究的热点问题,所谓数据挖掘是指从数据库的大量数据中揭示出隐含的、先前未知的并有潜在价值的信息的非平凡过程。数据挖掘是一种决策支持过程,它主要基于人工智能、机器学习、模式识别、统计学、数据库、可视化技术等,高度自动化地分析企业的数据,做出归纳性的推理,从中挖掘出潜在的模式,帮助决策者调整市场策略,减少风险,做出正确的决策。 数据挖掘的定义 技术上的定义及含义 数据挖掘(Data Mining )就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。这个定义包括好几层含义:数据源必须是真实的、大量的、含噪声的;发现的是用户感兴趣的知识;发现的知识要可接受、可理解、可运用;并不要求发现放之四海皆准的知识,仅支持特定的发现问题。 与数据挖掘相近的同义词有数据融合、人工智能、商务智能、模式识别、机器学习、知识发现、数据分析和决策支持等。 ----何为知识从广义上理解,数据、信息也是知识的表现形式,但是人们更把概念、规则、模式、规律和约束等看作知识。人们把数据看作是形成知识的源泉,好像从矿石中采矿或淘金一样。原始数据可以是结构化的,如关系数据库中的数据;也可以是半结构化的,如文本、图形和图像数据;甚至是分布在网络上的异构型数据。发现知识的方法可以是数学的,也可以是非数学的;可以是演绎的,也可以是归纳的。发现的知识可以被用于信息管理,查询优化,决策支持和过程控制等,还可以用于数据自身的维护。因此,数据挖掘是一门交叉学科,它把人们对数据的应用从低层次的简单查询,提升到从数据中挖掘知识,提供决策支持。在这种需求牵引下,汇聚了不同领域的研究者,尤其是数据库技术、人工智能技术、数理统计、可视化技术、并行计算等方面的学者和工程技术人员,投身到数据挖掘这一新兴的研究领域,形成新的技术热点。 这里所说的知识发现,不是要求发现放之四海而皆准的真理,也不是要去发现崭新的自然科学定理和纯数学公式,更不是什么机器定理证明。实际上,所有发现的知识都是相对的,是有特定前提和约束条件,面向特定领域的,同时还要能够易于被用户理解。最好能用自然语言表达所发现的结果。n x _s u x i a n g n i n g

信息检索与利用(本科)试题及答案

文件检索 1、个人信息源又称为( B )。 A、文献信息源 B、口头信息源 C、生物信息源 D、实物信息源 2、文献是记录有知识的( A)。 A、载体 B、纸张 C、光盘 D、磁盘 3、下列哪种文献属于一次文献(A)。 A、期刊论文 B、百科全书 C、综述 D、文摘 4、下列哪种文献属于二次文献( D )。 A、专利文献 B、学位论文 C、会议文献 D、目录 5、下列哪种文献属于三次文献( C )。 A、标准文献 B、学位论文 C、综述 D、文摘 6、下列选项中属于连续出版物类型的选项有( A )。 A、人民日报 B、学位论文 C、科技期刊 D、会议文献 7、下列选项中属于特种文献类型的有( A )。 A、学位论文 B、图书 C、科技期刊 D、标准文献 8、纸质信息源的载体是( D) A、光盘 B、缩微平片 C、感光材料 D、纸张 9、《中国图书分类法》(简称《中图法》)将图书分成( A ) A 5大部分22个大类 B 5大部分26个大类 C 6大部分22个大类 D 6大部分26个大类 10、《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在( A )类目下查找。A、S类目 B、Q类目 C、T 类目 D、R类目 11、使用逻辑“与”是为了( B) A、提高查全率 B、提高查准率 C、减少漏检率 D、提高利用率 12、使用逻辑“或”是为了(A ) A、提高查全率 B、提高查准率 C、缩小检索范围 D、提高利用率 13、利用文献末尾所附参考文献进行检索的方法是( C ) A、倒查法 B、顺查法 C、引文追溯法 D、抽查法 14、至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为(A )。 A、数据库 B、记录 C、字段 D、文档 15、广义的信息检索包含两个过程(B ) A、检索与利用 B、存储与检索 C、存储与利用 D、检索与报道 16、要查找李平老师所发表的文章,首选途径为(A ) A、著者途径 B、分类途径 C、主题途径 D、刊名途径 17、狭义的专利文献是指(C ) A、专利公报 B、专利目录 C、专利说明书 D、专利索引 19、政府出版物主要包括两大类型的文献( B ) A、专利与标准 B、行政文件与科技文献 C、图书与期刊 D、档案与标准 20、ISBN是( B )的缩写A、国际标准刊号 B、国际标准书号 C、连续出版物代码 D、国内统一刊号 二、多选题(20分,每题2分) 1、文献的构成要素( A B C )A、信息内容 B、载体材料 C、信息符号 D、纸、光盘 2、下列各项哪些属于文献( A B C ) A、图书、期刊 B、光盘、磁盘 C、光盘数据库 D、纸张 3、期刊论文的外部特征有( A B C D ) A、文献题目 B、著者 C、文献出处 D、主题词 4、图书的外部特征有( A B C D ) A、分类号 B、著者 C、书名 D、出版社 5、检索词包括规范化词和非规范化词,下列选项中属于规范化词的有( A C D )。 A、叙词 B、标题词 C、关键词 D、主题词 6、著者(责任者)途径主要是通过( A B )进行检索。 A、著者索引 B、专利权人索引 C、主题索引 D、号码索引 7、以文献的外部特征为检索途径的有( B C D ) A、主题途径 B、分类途径 C、题名途径 D、责任者途径 8、信息检索按其检索手段划分,可以分成( A C ) A、计算机检索 B、文献检索 C、手工检索 D、全文检索 9、世界三大农业数据库是指( A B D ) A、CABI B、AGRIS C、EBSCO D、AGICOLA 10、印刷型检索工具常用的三种途径是(A B D) A、著者途径 B、分类途径 C、主题途径 D、刊名途径

《信息检索与利用》期末复习1

《信息检索与利用》期末复习 试题题型 一、填空题(每空3分,共15分) 二、选择题(每题3分,共30分) 三、判断题(每题3分,共30分) 四、简答题(共25分) 1.(12分) 2.(13分) 复习题 第一章信息资源检索基础知识 一、填空题 1.___________________________是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。信息 2.___________________________是在改造客观世界的实践中获得的对客观事物存在和运动规律的认知和总结,是人的大脑通过思维重新组合的系统化的信息的集合。知识 3.___________________________是人们用来解决特定问题所需要的、经过激活过程活化了的具有使用价值的知识或信息。情报 4.___________________________是在存储检索利用或传递记录信息的过程中,可作为一个单元处理的,在载体内、载体上或依附载体而存有信息或数据的载体。文献 5.___________________________是指在国内外学术或非学术会议上发表的论文或报告。会议文献 6.___________________________是高等院校和科研机构的毕业生为获取各级学位在导师指导下撰写和提交和科学研究、科学实验的书面报告。学位论文 7.___________________________是对文献内容和形式特征进行选择和记录的过程。著录8.___________________________是指特定的数值型数据为对象的检索。数据检索 9.___________________________是指以特定的事实为目标的检索。事实检索 10.事实与数据检索工具主要依靠各类___________________________完成各种数据或事实的查询。参考工具书 11.按照结构原理,信息检索语言可以分为_____________________、____________________、

最新信息检索与利用试卷及答案

一、单项选择题(30分) 1.( B )的主要功能是检索、通报、控制一次文献,帮助人们在较短时间内获取较多的文献信息。7 A.零次文献B.二次文献C.一次文献D.三次文献 2.一次文献、二次文献、三次文献是按照( A )进行区分的。7 A.加工深度B.原创的层次C.印刷的次数D.评论的次数 3.从文献的( B )角度区分,可将文献分为印刷型、缩微型等。6 A.内容公开次数B.载体类型C.出版类型D.公开程度 4.具有固定名称、统一出版形式和一定出版规律的定期或不定期的连续出版物,称为( D )。8 A.图书B.会议文献C.学位论文D.期刊 5.( A )类型的专业文献出版周期最短、发行量最大、报道最迅速及时,成为多数论文发表渠道。8 A.期刊B.报纸C.会议文献D.专利 6.在公开出版物中,当前的(C )反映的信息内容可能最新。8 A.学位论文B.标准文献C.期刊论文D.报纸文献 7.当我们需要对陌生知识作一般了解时,我们可先参考( C )文献。8 A.专利B.报告C.图书D.标准 8.利用文献后面所附的参考文献进行检索的方法称为( A )。31 A.追溯法B.直接法C.抽查法D.综合法 9.中国图书馆图书分类法的分类号采用了( A )体系。34 A.拼音字母+数字B.英语字母+数字C.全部拼音字母D.全部数字 10.( B )是以报道文献出版或收藏信息为主要功能的工具。 A.题录B.索引C.文摘D.目录 11.按照顺序表述文献检索常用的五个步骤是( D )。32 A.明确要求和分析课题,选择检索系统,获取原文,确定检索途径和检索策略,实施检索以及调整检索策略B.明确要求和分析课题,获取原文,确定检索途径和检索策略,实施检索以及调整检索策略,选择检索系统C.明确要求和分析课题,实施检索以及调整检索策略,选择检索系统,获取原文,确定检索途径和检索策略D.明确要求和分析课题,选择检索系统,确定检索途径和检索策略,实施检索以及调整检索策略,获取原文12.图书分类法中,类名之间的上下位关系反映了学科概念之间的( A )关系。34 A.包含B.排斥C.延伸D.相容 13.图书分类法中,类名之间的同位类关系一般反映了学科概念之间的( B )关系。34 A.包含B.排斥c.延伸D.相容 14.分类途径是按照文献信息所属的学科门类,利用( D )进行检索的途径。29 A.学科名称B.专业名称C.分类号及其分类名D.A、B、C均可 15.如果希望查找“对用后均法进行数据处理的讨论”这个课题相关的文献,较好的检索词应该是( C )。36 A.后均法,进行,数据处理B.后均法,数据处理C.后均法,进行,数据处理,讨论D.用,后均法,进行,数据处理 16.如果希望查找“对宋词韵律的美学思考”这个课题相关的文献,较好的检索词应该是(A )。36 A.宋词,韵律,美学,思考B.宋词,韵律,美学C.宋词,美学,思考D.宋词,韵律,思考 17.逻辑“与”算符是用来组配( D )。41

文献检索期末考试卷

《信息检索与利用》试题(本科) 一、单项选择题(每题1.5分,共30分) 1. 人类社会的三大资源是(A ) (A)物质、能源、信息(B)物质、人力、资本 (C)物质、能源、管理(D)信息、管理、人力 2. 就信息与物质、能量的关系而言( D ) (A)信息是一种物质(B)信息是一种物质,同时具有一定的能量(C)信息是一种能量(D)信息既非物质,也非能量 3. 信息论的创始人是( D ) (A)美国数学家哈特莱(B)美国数学家维纳 (C)中国数学家华罗庚(D)美国数学家香农 4.信息资源的本质特征是( B ) (A)依附性与可传递性(B)知识性与共享性 (C)共享性与价值不定性(D)可传递性与共享性 5. 如果分别以检索词a、b、c在某数据库的关键词字段进行检索都能得到相

应的检索结果,结果不为0,下面哪个检索式表示检索结果数最少( A )(A)a and b and c (B)a and b or c (C)a or b or c (D)a or b and c 6. 根据加工深度来划分文献,学位论文属于( B ) (A)零次文献(B)一次文献 (C)二次文献(D)三次文献 7. CNKI 是以下哪一种称谓的简称( C ) (A)清华同方(B)重庆维普 (C)中国知识基础设施(D)中国期刊全文数据库 8. 扩大检索范围的方式是(B ) (A)使用“逻辑与”(B)使用“逻辑或” (C)使用“逻辑非”(D)使用优先运算符 9. 下列能够检索图书信息的数据库是(D ) (A)维普《中文科技期刊数据库》(B)万方数据资源系统 (C)人大复印报刊资料全文数据库(D)超星数字图书馆 10. 下列属于一次文献的正确答案是( C ) (A)专刊说明书、索引、文摘刊物(B)期刊论文、私人笔记、百科

大数据处理技术的总结与分析

数据分析处理需求分类 1 事务型处理 在我们实际生活中,事务型数据处理需求非常常见,例如:淘宝网站交易系统、12306网站火车票交易系统、超市POS系统等都属于事务型数据处理系统。这类系统数据处理特点包括以下几点: 一就是事务处理型操作都就是细粒度操作,每次事务处理涉及数据量都很小。 二就是计算相对简单,一般只有少数几步操作组成,比如修改某行得某列; 三就是事务型处理操作涉及数据得增、删、改、查,对事务完整性与数据一致性要求非常高。 四就是事务性操作都就是实时交互式操作,至少能在几秒内执行完成; 五就是基于以上特点,索引就是支撑事务型处理一个非常重要得技术. 在数据量与并发交易量不大情况下,一般依托单机版关系型数据库,例如ORACLE、MYSQL、SQLSERVER,再加数据复制(DataGurad、RMAN、MySQL数据复制等)等高可用措施即可满足业务需求。 在数据量与并发交易量增加情况下,一般可以采用ORALCERAC集群方式或者就是通过硬件升级(采用小型机、大型机等,如银行系统、运营商计费系统、证卷系统)来支撑. 事务型操作在淘宝、12306等互联网企业中,由于数据量大、访问并发量高,必然采用分布式技术来应对,这样就带来了分布式事务处理问题,而分布式事务处理很难做到高效,因此一般采用根据业务应用特点来开发专用得系统来解决本问题。

2数据统计分析 数据统计主要就是被各类企业通过分析自己得销售记录等企业日常得运营数据,以辅助企业管理层来进行运营决策。典型得使用场景有:周报表、月报表等固定时间提供给领导得各类统计报表;市场营销部门,通过各种维度组合进行统计分析,以制定相应得营销策略等. 数据统计分析特点包括以下几点: 一就是数据统计一般涉及大量数据得聚合运算,每次统计涉及数据量会比较大。二就是数据统计分析计算相对复杂,例如会涉及大量goupby、子查询、嵌套查询、窗口函数、聚合函数、排序等;有些复杂统计可能需要编写SQL脚本才能实现. 三就是数据统计分析实时性相对没有事务型操作要求高。但除固定报表外,目前越来越多得用户希望能做做到交互式实时统计; 传统得数据统计分析主要采用基于MPP并行数据库得数据仓库技术.主要采用维度模型,通过预计算等方法,把数据整理成适合统计分析得结构来实现高性能得数据统计分析,以支持可以通过下钻与上卷操作,实现各种维度组合以及各种粒度得统计分析。 另外目前在数据统计分析领域,为了满足交互式统计分析需求,基于内存计算得数据库仓库系统也成为一个发展趋势,例如SAP得HANA平台。 3 数据挖掘 数据挖掘主要就是根据商业目标,采用数据挖掘算法自动从海量数据中发现隐含在海量数据中得规律与知识。

信息检索与利用考试试题

《信息检索与利用》课程考试试题 目的:检验主要理论要点和实际操作技术。 方式:开卷考试。 一、多选题(每题1分,合计10分) 1.下面哪些属于二次文献(BCD )。 A.手册; B.文摘; C.目录; D.题录. 2.针对不同时间要求的文献应使用不同的文献类型,就最新的文献信息而言,例如近一两个月的文献信息,应该使用(BD )。 A.图书; B.期刊或报纸; C.专利; D.互联网. 3.在计算机检索中,同一概念的同义词扩展方法有(A )等。 A. 学名或俗名; B.简称和全称; C.上位和下位; D.术语和代码. 4.概念(AB )之间属于上下位关系。 A.家用电器与电视机 B.局域网与LAN C.计算机与电脑 D.硅酸盐与陶瓷 5. 概念(A )之间属于同一概念的扩展关系。 A. 乙醇与酒精; B.手机与移动电话; C.fiber与fibre; D.因特网与局域网。 6. ( A D )的基本作用是扩大检索范围,增加命中篇数,提高查全率。 A. 逻辑“或”; B.优先算符; C. 逻辑“与”; D.截词 7. (BC )的基本作用是缩小检索范围,减少命中篇数,提高查准率。 A. 逻辑“或”; B.优先算符; C. 逻辑“与”; D.逻辑“非” 8. 从概念之间的关系和检索策略的常识判断,(AD )是符合逻辑的。 A.世界贸易组织OR WTO; B. 世界贸易组织AND WTO; C.bank OR company ; D. bank AND company. 9.通过谷歌(Google)查得的结果过多,可通过(ABCD )方法,优化检索结果。 A.词组检索; B.字段限定; C.增加同义词; D.使用优先算符. 10. 如果检索结果过少,查全率很低,需要调整检索范围,此时,调整检索策略的方法有( BEF )等。 A. 用逻辑“与”或者逻辑“非”增加限制概念;B.用逻辑“或”或截词增加同族概念; C. 用字段算符或年份增加辅助限制; D. 用“在结果中检索”增加限制条件.E.找出词干的上位词; F.在词干相同的单词后使用截词符”?”

《信息检索与利用》试题(本科)

《信息检索与利用》试题(本科) 姓名武音池学号W871714220003 专业林学 一、单项选择题(每题1.5分,共30分) 1. 人类社会的三大资源是(A ) (A)物质、能源、信息(B)物质、人力、资本 (C)物质、能源、管理(D)信息、管理、人力 2. 就信息与物质、能量的关系而言( D ) (A)信息是一种物质(B)信息是一种物质,同时具有一定的能量 (C)信息是一种能量(D)信息既非物质,也非能量 3. 信息论的创始人是( D ) (A)美国数学家哈特莱(B)美国数学家维纳 (C)中国数学家华罗庚(D)美国数学家香农 4.信息资源的本质特征是( B ) (A)依附性与可传递性(B)知识性与共享性 (C)共享性与价值不定性(D)可传递性与共享性 5. 如果分别以检索词a、b、c在某数据库的关键词字段进行检索都能得到相应的检索结果,结果不为0,下面哪个检索式表示检索结果数最少( A ) (A)a and b and c (B)a and b or c (C)a or b or c (D)a or b and c 6. 根据加工深度来划分文献,学位论文属于( B ) (A)零次文献(B)一次文献 (C)二次文献(D)三次文献 7. CNKI 是以下哪一种称谓的简称( C ) (A)清华同方(B)重庆维普 (C)中国知识基础设施(D)中国期刊全文数据库 8. 扩大检索范围的方式是(B ) (A)使用“逻辑与”(B)使用“逻辑或”

(C)使用“逻辑非”(D)使用优先运算符 9. 下列能够检索图书信息的数据库是(D ) (A)维普《中文科技期刊数据库》(B)万方数据资源系统 (C)人大复印报刊资料全文数据库(D)超星数字图书馆 10. 下列属于一次文献的正确答案是( C ) (A)专刊说明书、索引、文摘刊物(B)期刊论文、私人笔记、百科全书(C)会议论文、科技报告、期刊论文(D)字典、手册、年鉴 11. 以下四种信息检索语言中,不受《词表》控制的是( D ) (A)标题词语言(B)元词语言 (C)叙词语言(D)关键词语言 12. 下述各项中,影响数据库质量的是(D ) (A)检索式是否正确(B)检索者是否正确分析检索课题 (C)检索词的选择质量(D)数据库的信息量 13.以下哪个不是纸质文献的记录手段( D ) (A)手写(B)油印(C)胶印(D)雕刻 14. 国际标准书号是( A ) (A)ISBN (B)ISSN (C)CABI (D)CNKI 15.我国专利法规定,发明专利的保护期限为( D ) (A)专利权人终身享有(B)30年 (C)10年(D)20年 16. 下列标引中属于内容特征描述的是(C ) (A)著者标引、篇名标引(B)文献来源标引、著者工作单位标引(C)分类标引、主题标引(D)文献类型标引、语种标引 17. 利用引文追溯法检索文献是指(C ) (A)利用数据库查找相关文献的方法 (B)利用手工检索刊物查找相关文献的方法 (C)利用文献所附的参考文献查找相关文献的方法 (D)利用Internet查找相关文献的方法 18. 文献记录中的ISSN号是属于( B )

信息检索与利用试卷及答案1

信息检索与利用试卷及答案1

信息检索期末试卷 班级物流1081 姓名吴新华学号1081508130 一、单项选择题(30分) 1.( B )的主要功能是检索、通报、控制一次文献,帮助人们在较短时间内获取较多的文献信息。7 A.零次文献B.二次文献C.一次文献D.三次文献 2.一次文献、二次文献、三次文献是按照( A )进行区分的。7 A.加工深度B.原创的层次C.印刷的次数D.评论的次数 3.从文献的( B )角度区分,可将文献分为印刷型、缩微型等。6 A.内容公开次数B.载体类型C.出版类型D.公开程度 4.具有固定名称、统一出版形式和一定出版规律的定期或不定期的连续出版物,称为( D )。8 A.图书B.会议文献C.学位论文D.期刊5.( A )类型的专业文献出版周期最短、发行量最大、报道最迅速及时,成为多数论文发表

渠道。8 A.期刊B.报纸C.会议文献D.专利 6.在公开出版物中,当前的(C )反映的信息内容可能最新。8 A.学位论文B.标准文献C.期刊论文D.报纸文献 7.当我们需要对陌生知识作一般了解时,我们可先参考( C )文献。8 A.专利B.报告C.图书D.标准 8.利用文献后面所附的参考文献进行检索的方法称为( A )。31 A.追溯法B.直接法C.抽查法D.综合法 9.中国图书馆图书分类法的分类号采用了( A )体系。34 A.拼音字母+数字B.英语字母+数字C.全部拼音字母D.全部数字 10.( B )是以报道文献出版或收藏信息为主要功能的工具。 A.题录B.索引C.文摘D.目录 11.按照顺序表述文献检索常用的五个步骤是( D )。32

信息检索与利用

从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,抽取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为()语义分析 数据挖掘 知识发现 智能搜索 标准答案:数据挖掘 2. 世界上使用最广泛的主题词表是()《工程标题词表》 《工程与科学主题词表》 《美国国会图书馆标题表》 《汉语主题词表》 标准答案:《美国国会图书馆标题表》 3. ( )反映的是信息的确定度,指的是符号与其他符号的关系。语法信息 语义信息 语用信息 全信息

标准答案:语法信息 4. ()是最早出现的一种主题法。元词法 叙词法 关键词法 标题法 标准答案:标题法 5. 具有各种工具书的功能,被称为“工具书之王”的是()。字典 词典 手册 年鉴 百科全书 标准答案:百科全书 6. 一个检索系统如果对用户来说,取得信息比不取得信息更伤脑筋和麻烦的话,那么这个系统通常就不会得到利用。这一表述通常称为()。布拉德福定律 齐普夫定律

马太效应 罗宾汉效应 穆尔斯法则 标准答案:穆尔斯法则 7. 从检索系统中检出来的无关文献量与系统中无关文献总量之比称之为(),它与专指度存在互补关系。查全率 新颖率 错检率 覆盖率 标准答案:错检率 8. 在学术论文的构成要素中,最能反映学术继承性的是()。引论 参考文献 正文 文摘 结论

标准答案:参考文献 9. 信息检索研究的核心内容是()检索课题分析 制定检索策略 检索技术 检索方法 标准答案:制定检索策略 10. 通过研究两个或两个以上变量之间的相关关系对未来进行预测的一种信息分析方法称为()推理分析 聚类分析法 回归分析法 因子分析法 标准答案:回归分析法 二判断题1. 分类检索语言是指直接采用描述文献主题内容的语词作为检索标识,以字顺为排检途径,并通过参照系统等方法揭示词间关系的一种检索语言。()错 对

信息检索与利用期末考试

《信息检索与利用·计算机》期末考试试题 一、单选题(20分,每题1分) 1、个人信息源又称为( C)。 A、文献信息源 B、口头信息源 C、生物信息源 D、实物信息源 2、文献是记录有知识的( A )。 A、载体 B、纸张 C、光盘 D、磁盘 3、下列哪种文献属于一次文献( A )。 A、期刊论文 B、百科全书 C、综述 D、文摘 4、下列哪种文献属于二次文献( D )。 A、专利文献 B、学位论文 C、会议文献 D、目录 5、下列哪种文献属于三次文献( C )。 A、标准文献 B、学位论文 C、综述 D、文摘 6、下列选项中属于连续出版物类型的选项有( A )。 A、人民日报 B、学位论文 C、科技期刊 D、会议文献 7、下列选项中属于特种文献类型的有( A )。 A、学位论文 B、图书 C、科技期刊 D、标准文献 8、纸质信息源的载体是( D) A、光盘 B、缩微平片 C、感光材料 D、纸张 9、《中国图书分类法》(简称《中图法》)将图书分成( A ) A 5大部分22个大类 B 5大部分26个大类 C 6大部分22个大类 D 6大部分26个大类 10、《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在( A )类目下查找。 A、S类目 B、Q类目 C、T 类目 D、R类目 11、使用逻辑“与”是为了( B) A、提高查全率 B、提高查准率 C、减少漏检率 D、提高利用率 12、使用逻辑“或”是为了( A ) A、提高查全率 B、提高查准率 C、缩小检索范围 D、提高利用率 13、利用文献末尾所附参考文献进行检索的方法是(C) A、倒查法 B、顺查法 C、引文追溯法 D、抽查法 14、至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合,称为( A )。 A、数据库 B、记录 C、字段 D、文档 15、广义的信息检索包含两个过程( B ) A、检索与利用 B、存储与检索 C、存储与利用 D、检索与报道 16、要查找李平老师所发表的文章,首选途径为( A ) A、著者途径 B、分类途径 C、主题途径 D、刊名途径 17、狭义的专利文献是指( C ) A、专利公报 B、专利目录 C、专利说明书 D、专利索引 18、中国国家标准的代码是( A ) A、GB B、CB C、ZG D、CG 19、政府出版物主要包括两大类型的文献( B ) A、专利与标准 B、行政文件与科技文献 C、图书与期刊 D、档案与标准 20、ISBN是( B )的缩写

信息检索与利用(期末考试题)

《信息检索与利用·农业》试题 姓名申秀军学号w320206220257 专业会计学 一、单选题(20分,每题1分) 1、个人信息源又称为(B )。 A、文献信息源 B、口头信息源 C、生物信息源 D、实物信息源 2、文献是记录有知识的(A)。 A、载体 B、纸张 C、光盘 D、磁盘 3、下列哪种文献属于一次文献( A )。 A、期刊论文 B、百科全书 C、综述 D、文摘 4、下列哪种文献属于二次文献( D )。 A、专利文献 B、学位论文 C、会议文献 D、目录 5、下列哪种文献属于三次文献( C )。 A、标准文献 B、学位论文 C、综述 D、文摘 6、下列选项中属于连续出版物类型的选项有( A )。 A、人民日报 B、学位论文 C、科技期刊 D、会议文献 7、下列选项中属于特种文献类型的有( D )。 A、学位论文 B、图书 C、科技期刊 D、标准文献 8、纸质信息源的载体是(D) A、光盘 B、缩微平片 C、感光材料 D、纸张 9、《中国图书分类法》(简称《中图法》)将图书分成( A) A 5大部分22个大类 B 5大部分26个大类 C 6大部分22个大类 D 6大部分26个大类 10、《中国图书分类法》(简称《中图法》)是我国常用的分类法,要检索农业方面的图书,需要在(A)类目下查找。 A、S类目 B、Q类目 C、T 类目 D、R类目

11、使用逻辑“与”是为了(B) A、提高查全率 B、提高查准率 C、减少漏检率 D、提高利用率 12、使用逻辑“或”是为了(A) A、提高查全率 B、提高查准率 C、缩小检索范围 D、提高利用率 13、利用文献末尾所附参考文献进行检索的方法是( C ) A、倒查法 B、顺查法 C、引文追溯法 D、抽查法 14、至少由一种文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合, 称为(A)。 A、数据库 B、记录 C、字段 D、文档 15、广义的信息检索包含两个过程(B ) A、检索与利用 B、存储与检索 C、存储与利用 D、检索与报道 16、要查找李平老师所发表的文章,首选途径为( A ) A、着者途径 B、分类途径 C、主题途径 D、刊名途径 17、狭义的专利文献是指(C ) A、专利公报 B、专利目录 C、专利说明书 D、专利索引 18、中国国家标准的代码是( A ) A、GB B、CB C、ZG D、CG 19、政府出版物主要包括两大类型的文献(B ) A、专利与标准 B、行政文件与科技文献 C、图书与期刊 D、档案与标准 20、ISBN是( B)的缩写 A、国际标准刊号 B、国际标准书号 C、连续出版物代码 D、国内统一刊号 二、多选题(20分,每题2分) 1、文献的构成要素( ABC) A、信息内容 B、载体材料 C、信息符号 D、纸、光盘 2、下列各项哪些属于文献( AC ) A、图书、期刊 B、光盘、磁盘 C、光盘数据库 D、纸张 3、期刊论文的外部特征有( ABC ) A、文献题目 B、着者 C、文献出处 D、主题词 4、图书的外部特征有( BCD )

数据挖掘考试题库(1)

1.何谓数据挖掘?它有哪些方面的功能? 从大量的、不完全的、有噪声的、模糊的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为数据挖掘。相关的名称有知识发现、数据分析、数据融合、决策支持等。 数据挖掘的功能包括:概念描述、关联分析、分类与预测、聚类分析、趋势分析、孤立点分析以及偏差分析等。 2.何谓粒度?它对数据仓库有什么影响?按粒度组织数据的方式有哪些? 粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒度影响存放在数据仓库中的数据量的大小,同时影响数据仓库所能回答查询问题的细节程度。按粒度组织数据的方式主要有: ①简单堆积结构 ②轮转综合结构 ③简单直接结构 ④连续结构 3.简述数据仓库设计的三级模型及其基本内容。 概念模型设计是在较高的抽象层次上的设计,其主要内容包括:界定系统边界和确定主要的主题域。 逻辑模型设计的主要内容包括:分析主题域、确定粒度层次划分、确定数据分割策略、定义关系模式、定义记录系统。 物理数据模型设计的主要内容包括:确定数据存储结构、确定数据存放位置、确定存储分配以及确定索引策略等。在物理数据模型设计时主要考虑的因素有: 存取时间、空间利用率和维护代价等。 提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、引入冗余、生成导出数据、建立广义索引等。 4.在数据挖掘之前为什么要对原始数据进行预处理? 原始业务数据来自多个数据库或数据仓库,它们的结构和规则可能是不同的,这将导致原始数据非常的杂乱、不可用,即使在同一个数据库中,也可能存在重复的和不完整的数据信息,为了使这些数据能够符合数据挖掘的要求,提高效率和得到清晰的结果,必须进行数据的预处理。 为数据挖掘算法提供完整、干净、准确、有针对性的数据,减少算法的计

相关主题
文本预览
相关文档 最新文档