信息检索可视化模型
- 格式:doc
- 大小:24.00 KB
- 文档页数:2
信息检索中的检索模型比较分析信息检索是指用户在面对大量信息时,通过使用一定的检索模型和技术方法,从中找到对自己有用的信息。
在信息爆炸的时代,信息检索变得非常重要和必要。
在进行信息检索时,使用不同的检索模型可以对用户的需求有不同的体现和处理方式。
因此,本文将比较分析信息检索中常见的检索模型,包括布尔模型、向量空间模型和概率模型。
首先,布尔模型是信息检索中最简单和最早的一种模型。
它使用布尔运算符(AND、OR、NOT)来表达检索的需求。
布尔模型的优点是逻辑简单,可以精确地描述用户的需求,使得检索结果更加准确。
然而,布尔模型的缺点也很明显,即无法对文本进行有关键词排名和排序,只能返回文档是否与查询匹配的结果。
由于信息检索系统中文档数量庞大,使用布尔模型检索的结果可能会非常庞杂,给用户带来困扰。
其次,向量空间模型是一种基于向量空间的检索模型。
该模型将文档和查询都表示为向量,并计算它们之间的相似度来判断文档与查询的相关性。
向量空间模型的优点在于可以对检索结果进行排序和排名,使得结果更加合理和有序。
此外,向量空间模型还可以使用权重来表示文档中关键词的重要程度,从而进一步提高检索的准确性。
然而,向量空间模型也存在一些问题,例如需要对文档和查询进行向量表示,需要对文档中的关键词进行权重计算,这些都需要消耗大量的计算资源和时间。
最后,概率模型是一种基于统计学概率的检索模型。
它通过计算文档与查询之间的相关性概率来进行检索。
概率模型的优点在于可以通过统计学方法来估计查询与文档之间的相关性概率,从而更好地处理查询的需求。
此外,概率模型还可以使用反馈机制来进一步提高检索的准确性。
然而,概率模型也存在一些问题,例如需要对文档集合进行训练,需要估计相关性概率,这些都需要大量的计算资源和大规模的文档集合。
综上所述,信息检索中的检索模型比较分析主要包括布尔模型、向量空间模型和概率模型。
布尔模型逻辑简单,可以精确地描述用户的需求,但无法对检索结果进行排序和排名;向量空间模型可以对检索结果进行排序和排名,但需要对文档和查询进行向量表示和权重计算;概率模型可以通过统计学方法估计查询与文档的相关性概率,但需要大量的计算资源和训练集合。
一、 引言随着全球通信技术、互联网技术、人工智能等大数据技术的快速发展,大众越来越偏向使用网络作为获取信息的渠道和喜欢把网络当成学习和交流的工具,移动智能阅读设备性能不断地提升,推进智能化、移动化和服务化的社会建设也越来越深入,数字智能化也成为当今社会人类生活中不可少的环节。
当计算机技术启蒙时,科学研究人员就在不断地创新,尝试着将计算机技术应用到数字人文领域中[1]。
中国引进数字人文技术已弹指10年有余。
国际上数字人文的发展已经有很丰富的成果,数字人文项目建设的蓬勃发展直接推动了中国数字人文发展步伐[2],但数字人文不是一个新的领域,随着计算机软件技术的不断更新发展,现如今研究数字人文领域已变得十分广泛。
数字人文的概念具有包容性与演进性的基本特点,有时也被称为人文计算。
数字人文是数字技术与人文科学张力性的结合,它是针对计算与人文科学之间的交叉领域进行学习、研究、发明以及创新的一门学科,但它又是一门交叉学科,它的研究涉及到对互联网信息的研究、分析、识别等综合技术,它致力于如何利用媒体来影响人文科学。
从大学图书馆事业发展的角度谈个性化服务[2],就是以读者为中心,在研究读者的兴趣爱好、专业和习惯的基础下,根据读者的个性化需要,向读者推荐基于其需求和爱好的个性化图书,来满足读者需求而开展的信息服务。
个性化服务模式打破了传统的被动式服务模式,主动开展以满足读者个性化需求为目的的全方位服务。
对那种渴望精准定位、针对所学专业性强和根据自己具体所研究课题和研究方向成果需求需要的个性化师生而言,大学图书馆就要充分利用数字人文平台的个性化资源,来开展主动性定位的个性化服务,满足读者数字人文需求下的全方位服务。
二、刊物数字信息检索功能的发展给读者带来的便利数字信息检索广义上讲是指用数字技术,将各类信息按一定的方式进行采集、加工处理存储起来,并根据信息用户的需要找出有关的信息过程的一种新型模式。
这种新型模式被各行各业看作是一种即将发出变革的新力量,包括高校图书馆在内,都希望通过大数据的共享、跨界、快捷、开发等资源来创造更多的价值。
第一章信息检索概述信息检索(IR):将信息按一定的方式组织和存储起来,并根据用户的需要找出有关信息的过程。
信息素养:人们在解答问题时利用信息的技术和技能。
信息检索与文献检索的主要区别:文献检索是以获取文献信息为目的的检索,信息检索是收集,组织,存储一定范畴的信息,并根据用户需求查询文献中的信息或知识单元,比文献检索更深入。
信息检索的分类:1、根据检索手段不同可分为1)手工检索2)光盘检索3)联机检索4)网络检索 2根据检索对象形式不同可分为文本检索、数值检索、音频与视频检索。
信息检索的原理:通过对大量的分散无序的文献信息进行收集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储和检索这两个过程所采用的特征标识达到一致,以便有效的获得和利用信息源。
存储是检索的基础,检索是存储的目的。
信息检索语言是人们在加工、存储和检索信息时用来描述信息内容喝信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。
信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。
其物理结构:是信息检索所用的硬件资源、系统软件以及信息资源集合(数据库)的总和。
信息检索语言的主要目的:把存储和检索联系起来,把标引人员和用户联系起来,以便取得共同理解,实现交流。
信息检索的历史:最早的信息检索主要依靠信息分类。
1手工检索 2机械信息检索。
3脱机批处理检索是计算机初期使用的一种检索系统 4联机检索 5光盘检索 6 网络信息检索后四者统称为计算机信息检索信息检索的三个经典模型:1布尔模型 2向量空间模型 3概率模型1浏览型模型:扁平式模型、结构导向模型、超文本模型 2检索型模型:结构化模型、基于内容的检索型模型。
信息检索模型是信息检索的核心。
信息检索系统:是具有信息存储和信息查询功能的一类服务设施。
信息检索系统按功能划分5种类型:文献检索系统DRS、数据库管理系统DBMS、自动问答系统QAS、管理信息系统MIS、决策支持系统DSS.信息检索物理结构1计算机硬件2软件3数据库信息检索的逻辑结构是指系统所包括的功能模块或子系统及其相互关系。
信息检索检索向量空间模型一:算法描述在文本挖掘、搜索引擎应用中,文本的特征表示是挖掘工作的基础,它对文本进行预处理,抽取代表其特征的元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。
向量空间模型(VectorSpaceModel)是近年来应用较多的文本特征表示方法之一,它是由GerardSlaton等人在1958年提出并发展起来的,是一个关于文献表示的统计模型,具有较强的可计算性和可操作性,已经被广泛地应用于文本检索、自动文摘、关键词自动提取、文本分类和搜索引擎等信息检索领域的各项应用中,并且取得了较好的效果。
文献(document):泛指各种机器可读的记录,可指一篇文章或一个网页,也称为文档。
项(term):亦称索引项,是用来标引被检索内容的关键词等。
项的权重(termweight):对于有n个不同的项的系统,文献D=(t1,t2,,,tn),项tk(1[k[n)常常被赋予一个数值Wk,表示它在文献中的重要程度,称为项tk的权重。
相似度(Similarity):指两个文档内容相关程度的大小。
确定权重的方法是运用TF-IDF公式,即Wik=tfik/dfk=tfik*idfk,其中tf ik 为特征项Tk在文档Di中的出现频率,称为项频率; dfk则是文档集D中出现特征项Tk 的文档的数量,称为文档频率; idfk为dfk的倒数,称为反转文档频率。
相似度是一个函数,它给出两个向量之间的相似程度。
常用的方法有:内积(Inner Product)、余弦(Cosine)。
对于二值向量, 内积是查询式中的词项和文档中的词项相互匹配的数量;对于加权向量, 内积是查询式和文档中相互匹配的词项的权重乘积之和。
余弦相似度计算两个向量的夹角,余弦相似度是利用向量长度对内积进行归一化的结果。
二:数据描述建立10至15个文件,输入文档集,以供检索。
三:算法参数文件、项的权重、tf ik、dfk、idfk、相似度四:实验流程1.输入文档集;2.计算词项的特征权重;3.输入要查询的内容;4.计算余弦相似度;5.根据相似度排序,找出相似的文档。
信息检索可视化模型
【摘要】对信息检索可视化的背景进行介绍,对如何建立信息检索可视化模型进行阐述分析,并对评价信息检索可视化模型进行简单介绍。
【关键词】信息检索;可视化模型;模型评价
一、信息检索可视化的背景
可视化技术是指利用计算机图形学、图像处理技术和人机交互技术,将数据转换成图形或图像在屏幕上显示出来,并进行交互处理的理论、方法和技术。
信息检索可视化是数据可视化技术在信息检索领域的应用,信息用户通过图形界面与网络信息检索系统进行交互,评价检索过程中每次检索结果,优化提问或查询,从而提高查全率和查准率。
另外,信息检索可视化里还有语义框架,用以阐明概念的关系,解释全景概览、模式,并减轻系统与用户间交互的难度。
这些都使得信息检索具有一个数据挖掘、信息探究、知识发现的过程。
二、建立信息检索可视化模型的步骤
1.确定信息检索可视化模式。
确定信息检索可视化模式将会影响可视化的原始资源和数据。
整个数据集可以是BQ(browsing and query searching)或BO模式的资源。
若采用QB(query searching and browsing)模式则必须先建立一个信息检索系统并将系统得到的检索结果作为原始输入数据。
BQ和BO模式的原始输入数据都是静态的,而QB模式的则是动态的。
QB模式由于其动态特性可能会要求不断更新其在视觉空间中的可视形状。
QB模式中得到的相关对象数目可能会比BQ和BO模式都要少。
2.选定显示对象。
选定显示对象的意思是从数据集中选出要在可视空间中进行可视化的对象。
在数据集合中,可能会有大量条目都被认为需要在可视空间中显示,如在书目数据库中的文件、关键字、日期,或是作者,或是Internet中的网页、用户、服务器。
从中选出的对象应该对于数据集、用户和将来的信息检索有意义。
3.属性的提取一个对象是由一组属性来描述的。
这些属性不仅定义了对象的特性,也决定了它在视觉空间中的位置。
因此,从对象中提取属性是一个重要而必须的阶段。
选中的属性应是有代表性的,可以应用到所有对象,并且可以揭示对象基本的重要检索特性。
提取的属性既可以是同类的,也可以是不同类的。
它们应该和信息检索可视化环境的语义结构是一致的,并且是可测量的。
属性提取的结果通常用对象一属性矩阵来描述。
4.可视空间的结构设计。
可视空间的结构设计指的是决定一个可视空间的维数,并定义其坐标系的坐标轴。
可视空间的维数可以是一维的、二维的或是三维的。
为了利用空间结构的优点,大部分信息检索可视化模型都是采用二维或是三维的。
坐标系可以是直角坐标、极坐标或是平行坐标。
其中,直角坐标系的运用最为广泛。
5.定义可视语义框架。
定义一个可视化语义框架至关重要,因为它要定义一个结构,在这个结构中投影对象,形成聚集信息,形成模式,论证内部结构和执行交互。
一个语义框架将定义一个有效的显示区域并且假设所有对象在这个区域中构建。
定义好的语义框架若对于普通用户太抽象,可以用一种特殊的形式表现和呈递,以帮助用户理解。
6.将对象按语义框架投影。
将对象按语义框架进行投影是整个步骤的核心部分。
它决定了每个对象在视觉空间中的最终位置,也就是数据集的最终视觉构成。
很显然,投影算法是由可视空间的坐标系和语义框架决定。
在不同的信息可视化模型中投影算法也会有不同表现形式。
从这个意义上来讲,可视化模型能更灵活地控制对象。
投影过程可以反复进行也可以一次进行,在反复进行中通过反复调整以找到对象的最佳位置。
因此,由迭代算法产生的对象位置并非唯一的。
7.信息检索中交互手段的发展。
毫无疑问,静态视觉构成能为用户提供丰富的信息,然而,交互式信息检索工具将会让信息探究和知识发现变得更高效。
有许多成熟的交互技术能被用于支持可视空间中的浏览。
用这些交互工具,用户可以随意浏览从单个对象的详细内容,到兴趣区的局部上下文信息以及数据集的全景概览。
提问搜索查询应当被整合到信息检索可视化环境中,以满足搜索特定信息的需求。
三、评价信息检索可视化模型
开发一个信息检索可视化模型的最后一步就是评价。
通过评价,检查可视化环境中的对象、提取的属性、定义的坐标系、设计的语义框架以及开发的视觉信息检索方法是否具有一致性,是否无缝合成;数据是否显示充分,清晰准确,是否全面表达了重要属性和原始数据集中的突出关系;可视化展示是否有意义,可翻译,可解释;交互式信息检索方法是否较好地整合到可视化环境等。
四、结论
当今计算机强大的图形处理能力已使得这种复杂的信息检索可视化展示成为可能。
因此,用于信息组织、表示、解释和检索,并且具有直观性与交互性的新的信息可视化方法能够洞察数据集内部,获取丰富的数据关联和数据内容,挖掘数据特点。
这种信息检索可视化方法使得人们能够充分发挥自己的灵活性、创造力和想象力来搜寻信息。
参考文献:
[1]Jin Zhang(美).信息检索的可视化[M].科学出版社,2009-4.
[2]张会平,周宁,陈立孚.跨语言信息检索可视化研究[J].情报科学,2007-1.
[3]焦玉英,温有奎,陆伟等.信息检索新论[M].武汉大学出版社,2008-8.。