网络信息检索与利用2
- 格式:ppt
- 大小:324.50 KB
- 文档页数:41
网络信息检索与利用一、名词解释题:网络信息资源:是将文字、图像、声音、动画等各种形式的信息,以数字化形式存储并借助计算机与网络通讯设置发布,收集、组织、存储、传递、检索和利用信息资源。
www:信息检索数据库:是至少有一个文档组成并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合。
联机检索:指用户利用计算机联合通过通讯网络与世界各地的信息检索系统联机,从检索系统的数据库中查找出所需信息的过程。
它允许用户以智能机对话,联机会话,这样交互的方式直接访问检索系统及数据库、检索是实时在线进行。
查全率:是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。
查准率:是指检出文献中合乎需要的文献的数量占检出文献的全部数量。
关键词:关键词又称自由词,它属于自言语言范畴。
关键词是直接来自文献本身,能够反映文献主题概念,具有实际检索意义的词语。
以搜索引擎为代表的基于关键词的检索工具能够利用全文索引技术。
布尔逻辑检索:又称布尔代数是指使用,and,or,not等运用符,查找含有某种词语特定主配形式的网页。
搜索引擎:是一个可以用文件名查找文件的系统。
元搜索引擎:是一种基于搜索引擎的网络检索工具。
它是将多个搜索引擎集合在一起,通过一个统一的检索界面接收并处理用户的查询提问。
在进行检索时调用一个或者多个独立搜索引擎的数据库。
桌面元搜索引擎:顾名思义,桌面元搜索引擎不是通过网上调用方式在线使用,而是直接在用户的计算机上进行,相当于用户自己拥有一个元搜索引擎,所以称之为桌面元搜索引擎。
All-in-One式元搜索引擎:又称搜索引擎元目录,它将主要的搜索引擎集中起来,并按类型或检索问题等编排组织成目录帮助导引用户根据检索需求来选择适用的搜索引擎。
联合书目数据库:联合目录是揭示报道若干个文献收藏单位的文献入藏情况,汇总若干个单位馆藏的书目信息的目录。
参考信息:是指人名、地名、机构、事件、统计数据等一类数据,事实信息,是人们的工作研究和日常生活中经常要查考、引用的信息。
信息检索技术与利用信息检索技术与利用一、信息检索技术简介信息检索技术是指通过计算机系统对大量文献或数据进行搜索和筛选,以便用户快速获取所需信息的技术。
其主要应用于互联网搜索引擎、数据库查询以及文献检索等领域。
二、信息检索技术的基本原理1.建立索引为了快速地查找到所需信息,首先需要对文献或数据建立索引。
这个过程包括对文本内容进行分词、去除停用词、统计词频等操作,最终生成一个包含关键词及其出现次数的索引表。
2.查询处理当用户输入查询请求后,系统会对其进行处理。
这个过程包括分析查询语句、提取关键词、构建查询表达式等操作。
最终生成一个能够匹配到相关文献或数据的查询结果。
3.排序算法在得到匹配结果后,需要将其按照相关性排序。
这通常使用TF-IDF算法来实现。
该算法将文档中每个词的重要性评估为该词在文档中出现的频率与所有文档中出现该词的频率之比,并根据此评估值对文档进行排序。
三、常见的信息检索技术1.全文检索全文检索是指对文本内容进行完整的搜索和匹配。
它可以快速地找到包含查询关键词的文档,并按照相关性进行排序。
全文检索常用于互联网搜索引擎、电子邮件系统、博客等领域。
2.元数据检索元数据检索是指对文档的属性信息进行搜索和匹配。
这些属性包括标题、作者、日期等。
元数据检索通常用于图书馆系统、数据库查询等领域。
3.语义检索语义检索是指通过分析查询语句的意思,而不只是关键词,来寻找相关文档或数据。
这种技术需要对自然语言处理有深入的了解,并且需要大量的人工标注数据来训练模型。
四、信息检索技术的应用1.互联网搜索引擎互联网搜索引擎是信息检索技术最广泛的应用之一。
通过对互联网上的网页进行全文检索,并使用复杂的排序算法,可以为用户提供准确和有用的搜索结果。
2.电子商务平台电子商务平台需要对大量商品信息进行管理和搜索。
通过建立商品分类体系和属性标签,并使用元数据检索技术,可以帮助用户快速地找到所需商品。
3.医学文献检索医学文献检索是指对大量医学文献进行搜索和筛选,以便医生和研究人员快速获得所需信息。
第一次作业一、填空题1、1984、信息意识、获取文献信息2、形成全民学习、终身学习的学习型社会3、自然、社会、客观性、普遍性、无限性、扩充性、转换性4、知识性、传递性、针对性5、知识内容、信息符号、载体材料、记录方式6、印刷型、缩微型、视听型、电子型、零次、一次、二次、三次7、ISBN、10、-、组号、出版社号、书序号、检验位二、名词解释1、P4情报:就是指为了解决一个特定问题从一定文献资料中提取或经过传递获得的知识。
2、P4知识:是人类通过信息对自然界、人类社会及思维方式与运动规律的认识与概括,是人的大脑通过思维重新组合和系统化了的信息,是信息中最有价值的部分。
3、P5文献:信息本身是看不见的,要使存在于客观世界的信息保留下来并加以传播和利用,就必须使信息依附在某种载体上,文献就是这种载体的主要表现形式。
4、P1信息意识:即人的信息敏感程度,是人们对自然界和社会的各种现象、行为、现论观点等从信息的角度理解、感受和评价。
5、P2信息能力:是指人获取信息、加工处理信息和利用信息的能力。
6、P6一次文献:依据作者本人的研究或研制成果创作的文献,即通常所说的“原始文献”、“第一手资料”。
7、P7教科书:系统归纳和阐述某学科现有知识和成果的教学用书。
8、P7工具书:供查找和检索信息和知识用的图书。
9、P9期刊:指采用统一名称,定期或不定期出版的汇集许多个某著者论文的连续出版物。
三、简答题1、P1信息意识的评价内容:(1)对信息科学的认识;(2)对信息的社会作用、经济价值的认识(3)对特定信息需求的自我识别;(4)能充分、准确地表达出对特定信息的需求。
P3信息道德的评价内容:(1)了解国家在信息及信息技术方面制定的相关政策、法律、道德规范;(2)在获取、使用信息资源时能遵守法规以及约定俗成的一些规则;(3)了解知识产权中的“合理使用”的规定,尊重原作;(4)了解影响信息资源的社会和政治问题。
2、P4从信息、知识和情报的定义可以看出,信息无处不在,信息的范围最大,信息中被人们认识的部分成为知识,而知识中被人们用来解决问题的部分成为情报。
信息检索与利用的名词解释信息检索与利用是指通过特定的工具和技术,从大量的信息中准确地获取所需的信息,并将其应用到实际问题中。
在当今信息爆炸的时代,信息检索与利用成为了人们获取知识和解决问题的重要手段。
本文将对与信息检索与利用相关的重要名词进行解释。
一、信息检索信息检索是指通过各种信息存储介质和检索系统,根据用户需求,从大规模信息资源中查找并提供相关信息的过程。
它包括了信息需求分析、检索策略制定、检索行为和结果评价等阶段。
信息检索的目标是根据用户的需求,准确地找到相关的信息。
1. 查询查询是用户通过检索系统输入的查找信息的指令或问题。
查询可以是关键词、短语甚至一整个句子。
合理构建查询是信息检索的关键,它决定了检索结果的准确性和全面性。
2. 检索系统检索系统是用来存储和组织大量信息资源,并为用户提供检索服务的系统。
它们通常由索引、搜索引擎、检索算法和用户接口等部分组成。
常见的检索系统包括网络搜索引擎、图书馆信息系统和企业内部知识库等。
3. 信息过滤信息过滤是通过自动化的方式,根据用户的兴趣和关注点,从大规模信息中筛选出符合用户需求的内容。
信息过滤可以根据各种条件和规则进行,例如关键词、时间范围、作者等。
它通过过滤无用信息,提供用户可能感兴趣的内容。
二、信息利用信息利用是将检索到的信息应用到实际问题中解决问题或产生价值的过程。
信息利用是信息检索的延伸和发展,它强调将获得的信息应用到实际场景中,以满足用户的具体需求。
1. 信息处理信息处理是将获取的信息进行整理、分析和加工的过程。
它包括信息的分类、筛选、归纳和汇总等操作,以便用户更好地理解和利用信息。
2. 知识发现知识发现是通过对大规模信息的分析、挖掘和模式识别,从中发现新的知识和规律的过程。
它利用数据挖掘、机器学习和人工智能等技术,从信息中抽取价值,用于决策支持和创新等领域。
3. 信息可视化信息可视化是通过图表、图形和其他视觉化方式,将信息呈现给用户,以提高信息的理解和交流效果。
一、名词解释(5x4=20分)1.截词检索:是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。
检索中,计算机会将所有含有相同部分标识的记录全部检索出来。
截词符一般用“?”或“*”表示,但不同的数据库中有所差别。
2.信息检索:信息检索(Information Retrieval)是指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。
3.查准率:是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。
4.查全率:是指检出的文献数量占数据库中全部相关文献数量的比例。
5.引文索引:是一种将科技期刊、专刊、专题丛书等文献资料所发表的论文后所附的参考文献的作者、题目、出处等项目,按照引证与被引证的关系进行排列而编制的索引。
二、简答(5x6=30分)1.查找国内外学位与会议论文分别有哪些数据库?每类中分别举2个英文数据库(包括全称、简称与中译)和1个中文数据库。
(1)国内外的学位论文数据库包括索引与摘要数据库和全文数据库,如CALIS的《学位论文库》,万方数据资源系统《中国学位论文数据库》,CNKI的《优秀硕博士论文数据库》,美国博硕士论文库PQDD(ProQuest Digital Dissertations),美国学位论文网络数字图书馆NDLTD (Networked Digital Library of Thesis and Dissertations)等。
(2)会议论文数据库包括:会议论文索引与摘要,如CALIS会议论文数据库,万方数据资源系统《中国学术会议论文数据库》,OCLC会议数据库——《在会议上提交的文章索引》(Papers First),《会议出版物索引》(Proceedings),Web of Knowledge的会议录引文索引CPCI(Conference Proceedings Citation Index)。
2.布尔逻辑检索的主要运算符有哪些?它们各代表什么含义?请分别举一例说明。
1填空filetype:+百度site:link:+电子图书文献或文摘中含有“机械”,并且关键词中含有CAD或CAM超星数字图书馆CAJViewer2选择DCAAD3判断全对4简答1. 我们经常用搜索引擎查找资料,试说明全文搜索引擎的工作原理。
(P53)答:全文搜索引擎的工作原理可以分为三个部分:从互联网上抓取信息(信息采集)、建立索引数据库(信息组织)、在索引数据中搜索排序后提供检索服务(信息查询服务)。
(1)抓取网页。
(2)处理网页。
(3)提供检索服务。
2. 简述CNKI中全文数据库的检索使用。
(P103)答:中国期刊全文数据库提供了初级检索、高级检索、专业检索、分类检索和期刊导航等5种检索途径。
登录中国期刊全文数据库检索系统后,系统默认的检索界面即为初级检索界面。
例举初级检索的检索步骤如下:(1)选择检索项。
(2)输入检索词。
(3)选择匹配模式。
(4)限定时间和刊物范围。
(5)选择查询范围。
(6)结果排序方式。
(7)检索。
(8)多项单词逻辑组合检索。
(9)二次检索。
5作品1. 利用Google搜索HTTP的含义。
Http(Hyper Text Transfer Protocol)是一种传递信息的方式,英文的意思是超文本传输协议。
http就是Internet语言TCP/IP协议包中的一个“方言”。
我们通常说的TCP/IP其实是以TCP和IP这两个协议为代表的一组协议,其中包括 Http和Ftp等一大批重要的协议。
这里的www表示我们访问的地方是Internet上的一个WWW站点,其实这个站点就是一台计算机,只过它装了些特殊的软件让世界上所有的人都能访问它。
这样的计算机一般被称为WWW服务器。
---------------------------以上作品题及简答题自己书上及网上查到的,不知道对错,大家自己对下书。
第一章1.信息检索(information retrieval)是指将新鲜一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程.全称又叫信息存储于检索(information storage and retrieval).狭义的信息检索则仅指从信息集合中找出所需信息的过程.信息检索的分类:A根据检索手段的不同,可分为:手工检索、光盘检索、联机检索和网络检索。
(网络检索式信息检索的发展方向,因而本书以网络检索为主)。
B根据检索对象形式的不同,可分为:①文献信息检索:是以文献(包括题录、文摘和全文)为检索对象的检索。
②数值型信息检索:是以数值或数据为对象的一种检索,包括文献中的某一数据、公式、图表,以及某一物质的化学分子式等,数据检索分为数值型和费数值型。
③事实型信息检索:是以某一客观事实为检索对象,查找某一事物发生的时间地点及过程的检索,其检索结果主要是客观事实或为说明事实而提供的相关资料。
2.检索语言是把信息的存储与检索联系起来,把标引人员与用户联系起来,以便取得共同理解,实现交流的语言. 目前使用的检索语言包括:人工语言(分为主题语言和分类语言)和自然语言(可以为那些不懂人工语言的网络用户提供极大的便利).3.数据库是“至少由一个文档组成,并能满足某一特定目的或某一特定数据处理系统需要的一种数据集合”. (通俗)数据库就是在计算机存储设备上按一定方式存储的相互关联的数据集合。
数据库是计算机技术与信息检索技术相结合的产物,是现代重要的信息资源,也是信息检索的重要资料来源.根据载体不同可分为:联机数据库(online database),光盘数据库(CD-ROM database)和网络数据库(networked database).根据内容与功能可划分为:指南数据库(directory database),交易(执行)数据库(transactional database),全文数据库(full text database),书目数据库(bibliographic database),字(词)典数据库(dictionary database),数值数据库(numeric database)与统计数据库(statistical database)和图像数据库(image database).4.检索词是用户或检索人员给出的字,词,字符或短语,用于查找含有它们的记录.检索式也称检索提问表达式,是要求系统执行的检索语句.检索策略是就一个问题检索一个或多个数据库所输入的全部检索式的集合,是为满足信息需求所制定的一系列检索式.5.查全率(recall ratio)与查准率(precision ratio)是检索质量的两个重要的评价指标.查全率是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例.查准率是指检出文献中合乎需要的文献数量占文献全部数量的比例.6.布尔逻辑检索的主要运算符是:①逻辑”与”,用AND(或*)表示.②逻辑”或”,用OR(或+)表示.③逻辑”非”,用NOT(AND NOT,BUT NOT)(或-)表示.7.邻近检索:又称位置算符检索,文献记录中词语的相对次序或位置不同,所表达的意思可能不同,而同样一个检索表达式中词语的相对次序不同,其表达的检索意图也不一样.位置算符检索是用一些特定的算符来表达检索词与检索词之间的关系,并且可以不依赖叙词表而直接使用, ,BDS拥有的国内信息库主要有:中国国防科技信息、中国军工报、网上新闻库、国防科技成果综合推广库、现代军事、中国工程院士学术报告、国防科技简讯、国内成果交流库、国防科技报告中文馆藏库、国防科技中文文摘库、中国经济信息库、中国科技期刊题录库、中国专利文摘库。