信息检索工具
- 格式:docx
- 大小:86.01 KB
- 文档页数:10
检索工具名词解释检索工具是指用于在信息系统中查找、获取和筛选信息的软件或硬件工具。
它们帮助用户快速而准确地在大量数据中找到所需的信息。
在当代信息爆炸的时代,大量的信息被创建、存储和传播,因此如何高效地检索所需信息成为一个重要的问题。
检索工具通过提供各种功能和技术来帮助用户解决这个问题。
首先,检索工具通常提供关键字搜索功能。
用户可以在搜索框中输入关键字,然后工具会根据关键字在数据库中匹配相关的信息,并返回给用户。
这种搜索方式通常是最常见和最直接的方法,但在大规模的数据集中可能会面临精确匹配和不准确结果的挑战。
其次,一些高级检索工具还支持布尔逻辑搜索。
用户可以使用逻辑运算符(如AND、OR、NOT)来组合多个关键字,以更精确地定义搜索条件。
这样的功能可以帮助用户排除不相关的信息,同时保留符合其需求的结果。
此外,一些检索工具还提供过滤和排序功能,使用户能够根据特定的条件对搜索结果进行筛选和排序。
例如,用户可以根据时间、地点、作者或其他特定属性对搜索结果进行过滤,以便更快地找到所需的信息。
还有一些检索工具提供搜索建议和自动补全功能。
当用户输入搜索关键字时,工具会根据已有的数据和用户的搜索历史提供相关的建议和完成。
这样可以减少用户的输入工作量,同时也可以帮助用户发现一些可能有意义但未考虑到的关键字。
最后,一些高级检索工具还提供语义搜索功能。
这种功能可以理解用户的搜索意图,而不仅仅是简单地匹配关键字。
它通过分析搜索关键字的语义和上下文来提供更准确和相关的搜索结果。
综上所述,检索工具通过各种功能和技术帮助用户在大量信息中快速准确地找到所需的信息。
随着技术的不断发展和进步,检索工具也在不断演进和改进,以满足用户对信息检索的不断增长的需求。
标准的检索工具
一些常见的标准检索工具包括:
1. 搜索引擎:如Google、Bing、百度等,用户可以通过输入关键词来获取相关信息。
2. 图书馆目录:图书馆提供的系统,用于查找图书、期刊、论文等资源。
3. 学术搜索引擎:如Google Scholar、Web of Science、Scopus 等,主要用于查找学术文献和学术资源。
4. 数据库:包括各种专业领域的数据库,如PubMed(生物医学)、IEEE Xplore(工程技术)、EBSCOhost(多学科领域)等。
5. 元搜索引擎:如Zotero、EndNote等,可以同时搜索多个数据库并整合结果。
6. 社交媒体搜索:如Twitter、Instagram、微博等,用于查找特定的社交媒体内容。
7. 文件管理工具:如Windows的文件搜索功能、Mac的Spotlight 等,用于在本地计算机上快速查找文件和文件夹。
8. 专业领域的检索工具:根据特定领域的需求,有一些定制化的检索工具,如化学领域的Reaxys、生物信息学领域的BLAST等。
这只是一些常见的标准检索工具,还有许多其他工具适用于特定的搜索需求。
三大检索工具(SCI、EI、ISTP)一.三大检索工具及相关数据库介绍'1.三大检索工具简介科技部下属的“中国科学技术信息研究所”从1987 年起,每年以国外四大检索工具SCI 、ISTP 、Ei、ISR 为数据源进行学术排行。
由于ISR(《科学评论索引》) 收录的论文与SCI 有较多重复,且收录我国的论文偏少因此,1993年起不再把ISR 作为论文的统计源。
而其中的SCI 、ISTP 、Ei 数据库就是图书情报界常说的国外三大检索工具。
SCI ,即《科学引文索引》,是自然科学领域基础理论学科方面的重要期刊文摘索引数据库。
它创建于1961 年,创始人为美国科学情报研究所所长Eugene Garfield(1925.9.15).利用它,可以检索数学、物理学、化学、天文学、生物学、医学、农业科学以及计算机科学、材料科学等学科方面自1945 年以来重要的学术成果信息;SCI 还被国内外学术界当做制定学科发展规划和进行学术排名的重要依据。
ISTP ,即《科学技术会议录索引》,创刊于1978 年,由美国科学情报研究所编制,主要收录国际上著名的科技会议文献。
它所收录的数据包括农业、环境科学、生物化学、分子生物学、生物技术、医学、工程、计算机科学、化学、物理学等学科。
从1990-2003 年间,ISTP 和ISSHP( 后文将要讲到ISSHP) 共收录了60 ,000 个会议的近300 万篇论文的信息。
Ei,即《工程索引》,创刊于1884 年,由Elsevier Engineering Information Inc. 编辑出版。
主要收录工程技术领域的论文(主要为科技期刊和会议录论文) ,数据覆盖了核技术、生物工程、交通运输、化学和工艺工程、照明和光学技术、农业工程和食品技术、计算机和数据处理、应用物理、电子和通信、控制工程、土木工程、机械工程、材料工程、石油、宇航、汽车工程等学科领域。
2.与三大检索工具相关的其它数据库介绍SSCI,即《社会科学引文索引》,创刊于1969 年,收录数据从1956 年至今;是社会科学领域重要的期刊文摘索引数据库。
⼏种常⽤信息检索⼯具简介中国知⽹(CNKI)简介:是国家知识基础设施(National Knowledge Infrastructure,NKI),由于1998年提出。
是以实现全社会知识资源传播共享与增值利⽤为⽬标的信息化建设项⽬,由、发起,始建于1999年6⽉。
地位:采⽤并具有国际领先⽔平的技术,建成了世界上全⽂信息量规模最⼤的"",并正式启动建设《》及CNKI,通过产业化运作,为全社会知识资源⾼效共享提供最丰富的知识信息资源和最有效的知识传播与数字化学习平台。
提供以下检索服务:⽂献检索、数字检索、翻译助⼿、图形搜索维普科技期刊:简介:维普⽹,原名“维普资讯⽹”,是所建⽴的⽹站,该公司是中⽂期刊数据库建设事业的奠基⼈。
⽬前已经成为中国最⼤的综合⽂献数据库。
从1989年开始,⼀直致⼒于对海量的报刊数据进⾏科学严谨的研究、分析,采集、加⼯等深层次开发和推⼴应⽤。
地位:站陆续建⽴了与⾕歌学术搜索频道、百度⽂库、百度百科的战略合作关系。
⽹站⽬前遥遥领先数字出版⾏业发展⽔平,数次名列中国出版业⽹站百强,并在中国图书馆业、情报业⽹站排名中。
经过多年的商业运营,维普⽹已经成为全球著名的中⽂专业信息服务⽹站,以及中国最⼤的综合性⽂献服务⽹站。
检索服务:分类检索万⽅数据库:简介:万⽅数据库是由万⽅数据公司开发的,涵盖期刊、、论⽂、学术成果、学术会议论⽂的⼤型地位:和齐名的中国专业的学术数据库。
其开发公司——万⽅数据股份有限公司是国内第⼀家以信息服务为核⼼的股份制⾼新技术企业,是在互联⽹领域,集信息资源产品、信息增值服务和信息处理⽅案为⼀体的综合信息服务商。
检索服务:浏览格式检索、专项信息检索、⾃由检索X-MOL化学资讯平台:简介:由北京衮雪科技有限公司创办,对化学⼯作者免费开放。
衮雪科技创⽴于2006年,⽬前拥有⼀个近百⼈的团队,团队80%以上成员拥有化学、⽣物学、药学等领域的硕⼠或博⼠学位。
一.三大检索工具及相关数据库介绍1.三大检索工具简介科技部下属的“中国科学技术信息研究所”从1987 年起,每年以国外四大检索工具SCI 、ISTP 、Ei、ISR 为数据源进行学术排行。
由于ISR(《科学评论索引》) 收录的论文与SCI 有较多重复,且收录我国的论文偏少因此,1993年起不再把ISR 作为论文的统计源。
而其中的SCI 、ISTP 、Ei 数据库就是图书情报界常说的国外三大检索工具。
SCI ,即《科学引文索引》,是自然科学领域基础理论学科方面的重要期刊文摘索引数据库。
它创建于1961 年,创始人为美国科学情报研究所所长Eugene Garfield(1925.9.15).利用它,可以检索数学、物理学、化学、天文学、生物学、医学、农业科学以及计算机科学、材料科学等学科方面自1945 年以来重要的学术成果信息;SCI 还被国内外学术界当做制定学科发展规划和进行学术排名的重要依据?ISTP ,即《科学技术会议录索引》,创刊于1978 年,由美国科学情报研究所编制,主要收录国际上著名的科技会议文献。
它所收录的数据包括农业、环境科学、生物化学、分子生物学、生物技术、医学、工程、计算机科学、化学、物理学等学科。
从1990-2003 年间,ISTP 和ISSHP( 后文将要讲到ISSHP) 共收录了60 ,000 个会议的近300 万篇论文的信息。
Ei,即《工程索引》,创刊于1884 年,由Elsevier Engineering Information Inc. 编辑出版。
主要收录工程技术领域的论文(主要为科技期刊和会议录论文) ,数据覆盖了核技术、生物工程、交通运输、化学和工艺工程、照明和光学技术、农业工程和食品技术、计算机和数据处理、应用物理、电子和通信、控制工程、土木工程、机械工程、材料工程、石油、宇航、汽车工程等学科领域。
2.与三大检索工具相关的其它数据库介绍SSCI,即《社会科学引文索引》,创刊于1969 年,收录数据从1956 年至今;是社会科学领域重要的期刊文摘索引数据库。
三大著名检索工具索引介绍:1. SCI:科学引文索引(Science Citation Index)美国科技信息研究所(ISI--Institute for Scientific Information)挑选了3300 种核心期刊,为其编制索引并收入 SCI。
SCI 所涵盖的学科超过 100个,主要涉及以下领域:农业、生物及环境科学;工程技术及应用科学;医学与生命科学;物理学及化学;行为科学。
所收资料每年以60万条新记录及 900 万条以上引文参照的速度增长。
2. EI:工程索引(Engineering Index)是工程技术领域的综合性检索工具,由美国工程信息中心编辑出版,它囊括世界范围内工程的各个分支学科,如:土木工程、能源、环境、地理和生物工程;电气、电子和控制工程;化学、矿业、金属和燃料工程;机械、自动化、核能和航空工程;计算机、人工智能和工业机器人。
3. ISTP:国际会议录索引(Index to Scientific & Technical Proceedings)ISTP201 0年已为CPCIC-S[Conference Proceedings Citation Index - Science]是由ISI公司出版的重要数据库之一,它专门收录世界各种重要的自然科学及技术方面的会议,包括一般性会议、座谈会、研究会、讨论会、发表会等的会议文献,所收会议达1100多种,涉及学科基本与SCI相同。
与三大检索工具相关的其它数据库:1. SSCI:社会科学引文索引(Social Science Citation Index)收录全球1400 种主要的社会科学期刊论文,共涉及 50 种学科领域,具体包括社会科学及行为科学、人类学、考古学、商业、财政、经济、教育、地理历史、图书馆学与情报学、法律、语言、政治、行销、统计、都市发展等。
每年平增加1 2.5 万条记录,它除了能检索文章被引用的情况外,同时还可以揭示原文中所有的考文献,并据此获得一批相关文献。
列出三种文献检索工具类型和五种参考工具书类型文献检索工具是研究者和学生在进行科学研究和学术写作过程中常用的工具。
它们可用于搜索和查找相关的学术文献和信息资源。
下面将介绍三种常见的文献检索工具类型。
1.图书馆数据库:图书馆数据库是大学图书馆或专业图书馆提供的在线搜索平台,用于查找图书、期刊、报纸、学位论文、技术报告等各类文献资源。
常见的图书馆数据库包括ProQuest、JSTOR、ScienceDirect、PubMed等。
这些数据库覆盖了广泛的学科领域,并提供高质量的学术资源。
用户可以通过关键词搜索、作者搜索、主题搜索等方式,快速定位到所需的学术文献。
2.学术搜索引擎:学术搜索引擎是专门为学术研究者提供的搜索工具,可以搜索全文、期刊文章以及其他学术资源。
学术搜索引擎通过爬取各类学术网站和数据库的内容,构建自己的索引库,用户可以通过输入关键词来进行检索。
常见的学术搜索引擎包括Google学术、Microsoft学术、百度学术等。
它们提供了强大的搜索功能,并且还能够显示文献的被引次数、相关文章、作者信息等,帮助用户更好地了解和使用文献资源。
3.学科专业数据库:学科专业数据库是为特定学科领域而设计的文献检索工具,其收录了该领域的核心期刊、会议论文、专利、技术报告等资源。
学科专业数据库能够提供更加精确和全面的文献搜索结果,帮助研究者深入探索学科前沿。
例如,化学领域的专业数据库有美国化学会(ACS)数据库、维普化学数据库;生物学领域的专业数据库有生物学文摘数据库(BIOSIS Previews)、基因检索数据库(GenBank)等。
参考工具书是指在研究和学习过程中用于查找信息和解决问题的工具书籍。
下面将介绍五种常见的参考工具书类型。
1.百科全书:百科全书是一种系统、全面地收录和阐述知识的工具书,它涵盖了各种学科专业和常识性的知识。
百科全书一般按字母顺序排列内容,并提供详细的解释和相关的辅助资料。
常见的百科全书有《中国大百科全书》、《世界大百科全书》等。
检索工具的含义及类型
检索工具是指一类能够帮助用户快速找到所需信息的工具。
其主要作用是通过对信息进行索引或分类,使得用户可以在海量信息中快速定位到自己所需的内容。
根据其功能和用途,检索工具可以分为以下几种类型:
1. 搜索引擎:搜索引擎是一种通过关键词匹配来寻找网页的工具。
现代搜索引擎不仅可以搜索文本内容,还可以搜索图片、视频、新闻等类型的信息。
2. 数据库检索工具:数据库检索工具是一种可以帮助用户在数据库中查找信息的工具。
它可以根据用户的检索条件,搜索出符合条件的数据,并按照一定的方式进行排列。
3. 全文检索工具:全文检索工具是一种可以对大量文本进行全面搜索的工具。
它可以对包含关键词的文本进行分析,找出与关键词相关的信息,并在搜索结果中进行高亮显示。
4. 元搜索工具:元搜索工具是一种可以同时搜索多个搜索引擎的工具。
它可以将多个搜索引擎的搜索结果集成在一起,为用户提供更全面的搜索结果。
总之,检索工具是现代信息时代的必备工具,不同类型的检索工具具有不同的特点和优势,用户应该根据自己的需求选择适合自己的工具。
- 1 -。
常用的信息检索工具随着互联网的发展,信息爆炸式增长,如何快速、准确地获取所需信息成为了人们关注的焦点。
信息检索工具应运而生,它们可以帮助我们在海量的信息中快速找到所需的内容。
本文将介绍几种常用的信息检索工具。
1. 百度百度是国内最大的搜索引擎,拥有海量的网页、图片、视频等资源。
用户可以通过输入关键词来搜索相关内容,百度会根据关键词的相关度和网页的权重等因素进行排序,将最相关的结果展示在前面。
此外,百度还提供了知道、文库、贴吧等多个子产品,用户可以在这些平台上获取更加专业、深入的信息。
2. 谷歌谷歌是全球最大的搜索引擎,其搜索算法被认为是最为先进的。
谷歌的搜索结果不仅包括网页、图片、视频等资源,还可以搜索新闻、地图、学术论文等内容。
此外,谷歌还提供了Gmail、Google Drive、Google Translate等多个产品,用户可以在这些平台上进行邮件、文档、翻译等操作。
3. 必应必应是微软公司推出的搜索引擎,其搜索结果包括网页、图片、视频、新闻等内容。
必应的搜索结果页面设计简洁、美观,用户可以通过滑动鼠标滚轮来查看更多的搜索结果。
此外,必应还提供了必应翻译、必应地图等多个产品,用户可以在这些平台上进行翻译、地图导航等操作。
4. 搜狗搜狗是国内知名的搜索引擎,其搜索结果包括网页、图片、视频、新闻等内容。
搜狗的搜索结果页面设计简洁、清晰,用户可以通过左侧的分类标签来快速筛选所需的内容。
此外,搜狗还提供了搜狗输入法、搜狗浏览器等多个产品,用户可以在这些平台上进行输入、浏览等操作。
5. 360搜索360搜索是国内知名的搜索引擎,其搜索结果包括网页、图片、视频、新闻等内容。
360搜索的搜索结果页面设计简洁、美观,用户可以通过左侧的分类标签来快速筛选所需的内容。
此外,360搜索还提供了360安全浏览器、360杀毒软件等多个产品,用户可以在这些平台上进行浏览、杀毒等操作。
总结以上是几种常用的信息检索工具,它们都有各自的特点和优势。
常用的信息检索工具一、介绍信息检索工具是帮助用户从海量的数据中快速找到所需信息的软件或系统。
随着互联网的发展,我们面临的信息爆炸现象越来越严重,不使用工具进行信息检索几乎是不可能完成的任务。
本文将介绍几种常用的信息检索工具,帮助您找到适合自己的工具。
二、搜索引擎搜索引擎是最常用的信息检索工具之一,它通过建立庞大的索引库和复杂的搜索算法,帮助用户从互联网上找到所需的信息。
以下是几个常用的搜索引擎:1.Google:作为全球最知名的搜索引擎,Google提供了强大的搜索功能和丰富的搜索结果。
它的搜索算法非常精准,用户可以通过搜索关键词获取与之相关的相关网页、图片、新闻等信息。
2.百度:作为中国最大的搜索引擎,百度在本土市场有着巨大的用户群体。
与Google类似,百度也提供了强大的搜索功能,用户可以快速找到所需的信息。
3.Bing:Bing是微软推出的搜索引擎,它在搜索结果的呈现方式上与其他搜索引擎有所不同,更注重图像和多媒体的展示,提供了独特的搜索体验。
三、学术搜索工具学术搜索工具是专门针对学术研究领域的信息检索工具,它们更加注重学术论文、期刊等学术资源的检索。
以下是几个常用的学术搜索工具:1.Google 学术:与Google搜索相比,Google学术更加注重学术资源的检索。
用户可以通过在搜索框中输入关键词,快速找到相关的学术论文、研究报告等。
2.百度学术:百度学术是百度推出的学术搜索引擎,它提供了学术论文、学位论文、会议论文等学术资源的检索和下载功能,方便用户进行学术研究。
3.谷歌学术镜像:由于某些原因,谷歌学术在中国访问不便。
为了解决这个问题,一些学者和开发者创建了谷歌学术的镜像站点,用户可以通过这些站点访问谷歌学术的资源。
四、专业数据库专业数据库是面向特定领域的信息检索工具,它们通常提供了更加详细、专业的资源。
以下是几个常用的专业数据库:1.PubMed:PubMed是生命科学领域的重要数据库,收录了大量关于医学、生物学等方面的文章和文献。
浅谈信息检索工具————————————————————————————————作者:————————————————————————————————日期:2摘要文章由信息检索的分析和发展状况出发,阐述了一些常用的信息检索工具和相关技术。
然后对常用的信息检索工具做了一个简要的评价,并由此讨论了信息检索工具的现状和发展趋势。
关键词:信息检索工具、技术、评价标准、发展趋势AbstractPost by information retrieval and analysis of development, and expounds a number of commonly used information retrieval tools and related technologies.Then used the information retrieval tools to do a brief evaluation, and then discuss the status of information retrieval tools and trends.Keywords: information retrieval tools, techniques, evaluation criteria, trends第一章信息检索分析及发展状况步入21世纪,人们对信息检索的完备、准确、快捷会有更加严格的要求和期盼,与时俱进、不断完善的信息检索技术将得到越来越广泛的应用,信息的检索与访问方式无疑将发生深刻的变化。
然而网上的信息浩如烟海,一个搜索引擎很难收集全所有主题的网络信息,即使信息主题收集得比较全面,由于主题范围太宽,很难将各个主题都做得精确又专业,使得检索结果中出现太多无用的信息。
如何在浩瀚的信息海洋中准确、方便、快速地找到自己所需的信息,成了一个迫切需要解决的问题。
信息检索主要是指信息的表示、存储、组织和访问,即根据用户的查询要求,从信息数据库中检索与之有关的信息资料。
信息检索的目的是获取所需信息,而这要基于比较完善的检索工具和技术。
1.1从传统检索到信息分析目前,随着信息检索技术的发展,信息检索已经由手工检索、计算机检索发展到了网络化、智能化、认知化阶段,这一阶段的信息检索平台具备了初步的信息分析功能,从而使传统检索信息向信息分析层次发展。
例如,在ISIWeb of Science检索平台上,当某一主题的检索结果出来后,检索者还可以利用该平台提供的信息分析功能,对检索结果从以下几个方面进行深入分析:①按照论文发表时间进行分析,了解不同时间阶段课题研究的状态;②按照国家分析,了解该领域的主要研究国家以及国内该领域研究情况;③按照机构分析,了解领域的主要研究机构;④按照作者分析,了解该领域的核心研究人员;⑤按照来源期刊分析,了解该领域研究论文发表的重点期刊以及对某刊物收录论文情况进一步了解;⑥按照学科进行分析,了解该课题涉及哪些学科领域以及对感兴趣学科进行更深入的分析。
很显然,通过对检索结果从6个方面进行深入分析,将使读者对检索结果作进一步的深入了解。
1.2信息检索的发展状况信息检索经过先组式索引检索、穿孔卡片检索、缩微胶卷检索发展到计算机信息检索。
计算机信息检索大致可分为脱机检索、联机检索、国际联机检索、光盘检索、超文本的网络检索几个阶段。
目前,以文献单元描述体结构为基础、手工检索方式为主导的传统文献检索已发展到以信息单元组织结构为基础、网上浏览式信息查询方式的信息检索,计算机信息检索呈现联机检索、光盘检索以及网络检索多元并存的格局,面对用户群体、互相竞争、互相融合,谋求个性化基础上的共同发展。
如下表所示,传统检索技术和网上检索技术无论是在检索策略还是在检索手段上都发生了本质的变化。
传统检索技术与网上检索技术的比较传统检索技网上检索技术术概念模型布尔逻辑概率推理、空间向量前期处理赋词、自动抽词超文本标记语言、标准通用标记语言文档结构顺/ 倒排文档超文本链接访问方式单向检索双向交互式检索后期处理文字编辑用输出方式输出结果第二章信息检索工具及相关技术2. 1 网上检索工具及相关技术为了快速、有效地获得信息,人们非常注重信息检索工具及相关技术的研究。
现在,因特网上著名的搜索引擎有Yahoo 、Alto vista 、Infoseek和Lycos等;中文搜索引擎有Sohoo (搜狐) 、Robot(若比邻)等。
搜索引擎是Internet上提供公共检索服务的Web网站,它是新一代信息检索工具。
搜索引擎的关键技术主要是“自动跟踪技术”和“指引库”。
目前,网上检索工具正向多语种化、综合化、专业化方向发展,已出现元检索工具(即检索工具的检索工具),对选择和评估更新检索工具有着不可替代的作用,多元搜索引擎(集成式的搜索引擎) 具有去重功能,对检索结果进行统一的相关评估,能实现搜索引擎间的优化组合,通过电子邮件向用户随时提供网上信息。
检索界面简洁、易学易用,检索结果格式清晰、内容充实、数据更新及时,检索所提供的网页链接可靠。
2.1文本检索与多媒体检索按照检索的信息形式,信息检索分为文本检索和多媒体检索。
即使在文本信息检索领域,全文本和超文本检索技术的作用和重要性也正在超越二次文献文本信息的检索。
文本检索现在比较实用的技术是全文检索和自然语言检索。
全文检索采用对全部文本内容建立索引信息的方法实现对海量文本信息的秒级查询。
自然语言检索是指使用文献作者和文摘提要的编写者原来使用的语言,利用计算机进行自动标引(或少量人工干预)和自动检索文献的方法,包括文本检索、关键词检索、自然语言和自然语言与人工语言并用的检索方法。
目前面向中文的全文检索已是一种成熟的技术,得到了广泛的应用。
自然语言检索方面也取得了进展,主要问题集中在中文语词的切分技术上。
2.2多媒体信息检索的关键技术对多媒体信息检索早期的方法是基于文本描述(即对多媒体信息添加文本说明) ,现在主要研究基于内容的多媒体检索技术。
基于内容的检索指根据媒体和媒体对象的内容语义及上下文联系进行检索,它利用图像处理、模式识别、计算机视觉、图像理解等学科中的一些方法作为部分基础技术,首先进行特征抽取,再计算其相似性。
多媒体文档不同于文本文档只有单一的线性结构关系,收录一个多媒体文档,首先要对其进行内容和结构分析,提取多媒体文档的视听、语义和结构特征,作为用户浏览和检索的依据,同时为自适应的网络传输、互动式操作提供基本依据。
目前,计算机识别技术的不成熟,以及不存在通用、高效的算法已成为多媒体基于内容检索技术发展的障碍。
对多媒体内容的分析、自动摘要、索引和查询方法的研究已取得较大的进步。
为解决多媒体数据的检索问题,除了可以分别利用基于关键字和基于内容等检索方法各自的优势外,还可以通过相关反馈技术(Relevant Feedback)、语义传播技术( SemanticPropagation)以及交互学习技术(Interactive Learn2ing)把这两种方法有机地结合起来,从而大幅度地提高检索系统的检索效率。
第三章信息检索工具的评价随着互联网上各种信息的急剧增长, 网络信息检索工具的地位越来越重要, 搜索引擎的数量、种类有了长足的发展, 特别是随着网上中文信息日益增多, 网络中文检索工具应运而生, 它们为广大用户快速、准确地查询与获取网上中文信息创造了便利的条件。
面对众多的网络信息检索工具, 为了帮助用户有效的选择, 也为了对检索工具的改进和完善提供参考, 下面将探讨信息检索工具的评价标准。
3.1传统评价指标体系遇到的困难对传统的信息检索系统进行评价时,主要的性能评价指标包括信息收录范围、查全率、查准率、响应时间、输出方式、新颖率、用户友好程度等。
因特网的出现使信息环境发生了变化,传统的检索性能评价指标在对新兴的网络检索工具进行评价时遇到了很大的困难。
首先,在网络信息环境下,响应时间在相当大的程度上取决于用户使用的通讯设备、网络的拥挤程度等外部因素。
就算是同一检索工具,在不同时间检索同一课题,其响应时间也会不一样,实际上该指标无太大实际意义。
其次,真实的查准率和查全率在网络环境下也很难获得。
真实的查全率,即检索出的相关文献量和文献空间中所有相关文献量的比率,对整个因特网的文献空间来说是很难计算的,甚至连估算都困难。
因为网上的信息是瞬息万变的,今天存在的信息,明天就可能不在了,同时又会出现更多的新的信息,而且至今对因特网上存在的信息量的准确估算都没有公认的说法。
要计算或者估算查全率,就意味着要检验检索工具返回的所有检索结果,这在数量上可能成千上万。
并且,要知道整个文献空间的相关文献量也是不可能的。
真实查准率,即检索出相关文献的数量和检索出的文献总量的比率,也是很难计算的。
因为对于命中结果数太大的检索课题来说,相关性判断的工作量极大,不具有现实可操作性。
再次,新颖率这个指标在网络环境下也不再是问题了。
因为因特网上的信息更新的速度很快,以新闻尤甚,与学术科研有关的信息也不会在网上存在很长时间,因此检索到的信息基本上都是新颖的。
新颖率这个指标也没有很大意义。
3.2 关于新的检索性能评价指标的讨论为了解决传统的检索性能评价指标体系遇到的困难,有必要对原有的评价指标体系做一些修正,形成新的体系,以适应新的信息环境的要求。
如前所述,响应时间、新颖率、查全率和查准率等传统评价指标在全新的网络信息环境下都遇到了前所未有的困难。
但是数据库的收录范围、输出格式的灵活性、数据更新频率和用户界面友好程度等传统评价指标则因为很好地适应了新环境而得以保留。
此外,出现了链接的可靠性这样的新的评价指标。
但是,查准率和查全率一直是评价信息检索系统检索性能的最有说服力的指标,也是最应该保留的评价指标。
查全率在网络环境下遇到的困难:●整个网络空间的文献总量难以计算;●整个网络空间中和检索课题相关的文献量更加难以计算;●很多时候,检出文献中的相关文献量的计算要花费巨大的人力和物力成本。
也就是说,在网络信息环境下,计算真实查全率不具有现实可操作性。
从另一个角度来说,在网络信息环境下,进行全面的回溯检索的现实可操作性也不大,因为网络上的信息是动态存在的。
网络信息动态存在的特性决定了网络信息环境下的信息检索只能求新而不能求全。
如果要进行全面的回溯检索,则要求助于DIALOG这样专业的联机情报检索系统。
在这种情况下,查准率似乎是更必要的检索评价指标。
前面已经讨论过,网络信息环境下的真实查准率是难于计算的。
因为有的检索命中记录数太多,有时候可以多至成千上万,其相关性判断的工作量极其巨大。
因此,有必要寻求一种可操作的替代办法。
比较成功的一种计算查准率的替代方法是两位美国研究人员H.Vernon Leighton和JaideepSrivastava 提出的“相关性范畴”概念和“前X 命中记录查准率”。