当前位置:文档之家› 用户信息检索中相关性反馈模型研究

用户信息检索中相关性反馈模型研究

用户信息检索中相关性反馈模型研究
用户信息检索中相关性反馈模型研究

用户信息检索中的相关性反馈模型研究

摘要:本文提出一种通过获取用户建立和更新信息相关反馈模型的思想。通过观察用户在浏览web 页面时所采取的动作来获取反馈信息,利用检索算法将用户信息量化,并利用这些信息建立与更新用户模型。一方面用户对检索结果的评价输入到用户模型上,另一方面,检索系统通过学习跟踪用户信息并优化用户模型。

关键词:信息检索相关性反馈用户需求

中图分类号:g203 文献标识码:a 文章编号:1674-098x(2012)09(c)-0050-02

当今进入了信息时代,随着网络技术与智能技术不断创新计算机应用环境,网上关键词不能按需要进行扩检、缩检或作相关检索,从而达不到理想的检索效果,目录型网络信息检索分类处理跟不上信息扩张的速度且类目难以统一组织。高质量的信息检索需要用户提供准确的兴趣描述,然而面对今天浩如烟海的信息,信息技术领域的一个热点问题就是如何帮助用户高质量地检索,以获取真正有用的信息,这样可以节省科研时间,提高工作效率,同时避免重复研究,加快科技创新的速度,充分挖掘分析信息从而制定高明的市场谋略。近年来,各种学者研究出基于各种检索模型下的反馈方法,均已成为当前能够产生实效的新研究课题。

1 相关性反馈概念和原理

信息检索的种类有许多种,但对于任何一种方法,其根本内容都是一样的,即检索项与标引项的匹配问题。对事先组织好的文档,

信息检索相关性

近十年我国信息检索相关性研究现状分析——基于共词分析的视角 摘要:相关性是信息检索领域的核心研究的内容之一,对其进行深入研究将有助于提高信息检索的效率,推动信息检索的研究。本文将通过共词分析的方法,利用知识图谱对其进行可视化分析研究。 关键词:信息检索;相关性;共词分析 前言 相关性一直以来都是信息检索领域的核心研究内容之一,其概念的起源可以追溯到17世纪的早期图书馆用户认识到查找相关信息的问题。但由于客观原因,相关性只是作为一种朦胧意识停留在人们头脑中,直到20世纪20年代少数学者Lotka(1926)、Zipf(1949)、Urquhart (1959)、Price(1965)才陆续从各个领域开始了相关性的研究工作。在信息科学界Saracevic 认为Bradford是最先使用相关性一词的学者。其在20世纪30年代发表的《文献的混沌状态》一文中首次提出“主题相关”的概念。而此后关于“相关性”的探讨并未引起学界更大范围的关注。直到1958年国际科学信息会议(ICSI)的召开,相关性(Relevance)才作为信息科学领域的一个重要概念被学术界认可。至此“相关性”逐渐成为信息科学尤其是信息检索领域经久不衰的研究课题,甚至知识交流学派的代表人物Saracevic认为信息科学之所以成为独立学科,而不再隶属于图书馆学或文献学的原因就在于它开展了相关性的研究也在于相关性能够解释科学交流中的诸多问题。足见“相关性”在信息科学中的重要地位。当前,各国学者已对信息检索的相关性问题展开了深入研究,本文将通过共词分析法,使用知识图谱对其进行可视化处理分析。 1.信息检索相关性基本概念 对信息检索相关性基本概念方面的研究工作始于20世纪50年代末,各国学者借助数学工具及各种概念提取方法从各个角度对“相关性”的含义及内容进行了深入剖析。而相关性的基本概念研究以1976年为边界经历了前后两个阶段第一阶段1959-1976的主要成果有Maron和Kuhns利用概率论定义相关性的概念,提出相关性并非只是简单的是/非选择问题。Rees认为相关性受文档所包含的信息概念的影响,认为相关信息是对用户原来所具备的知识而言有用的信息Goffman和Newill把相关性当成连接有效性的一种测度,并试图用数学方法证明相关性(Relevance)与关联性(Relation)之间具有等价关系。Saracevic 则建议从文档、词与文献引用等各种文献特征上来定义检索的相关性。Cooper利用数理逻辑给相关性做了一个明确的定义。Wilson则在Cooper研究的基础上对数理逻辑相关性描述做了进一步扩充,并将“情境相关性”的概念首次引入到相关性的研究中,这些成果成为第二阶段研究工作的基础。在第二阶段,1977年至今,由于相关性各领域研究成果的相继出现,使相关性的概念描述也呈现出许多新的时代特征。首先是从面向用户及认知方法的观点重新审视相关性,认为相关性是个多维的认知概念,在很大程度上依赖于用户个人对信息的理解以及信息需求的情境。相关性是一个动态的概念它依赖于信息与用户某一特定时间所需信息之间关系质量的评价,以用户的观点来看,相关性是个复杂的、系统的、可测度的概念。其次是一些学者试图给信息检索定义一个逻辑模型来理解相关性概念这项工作由Rijsbergen开创之后又吸引了众多学者的参与。 2.信息检索相关性共词分析 2.1数据收集处理 本文研究的数据收集是以中国知网(cnki)中文数据库中的期刊文献为基础,期刊来源为SCI、EI、CSSCI,以“信息检索”并含“相关性”作为主题进行检索,检索年限为2004年至2013年,共检索文献95篇。对其关键词进行统计分析,共有关键词202个,对其进行词频统计,将词频超过2次的关键词作为高频关键词,共有高频关键词42个(表1),本文的数据分析将基于这些高频关键词。

信息检索复习整理概述

一、什么是信息(Information)? 在西方英文中information一词有情报、资料、消息、报道之意,我国大陆曾译为情报或信息,后经国家有关部门核准,统一译成“信息”。在我国台湾、香港地区,该词被译为“资讯”。 信息是被反映物的属性再现,信息的属性在于表现它物。也就是说,信息不是事物的本身,而是由事物发出的消息、情报、指令、数据、信号中所包含的内容,是对客观世界中各种事物发出的特征、变化及其相互联系的最新反映。一切事物包括自然界和人类社会都会产生信息。一个完整的信息过程,包括信息的传递、接收、贮存、加工和利用。 2、信息具有以下特征: 1)普遍性 (2)时效性:信息在一定的时间内是有效的信息,在此时间之外就是无效信息。而且任何信息从信源传播到信宿都需要经过一定的时间,都有其时滞性。 (3)传递性 (4)可转换性:信息是可以由一种形态转换成另一种形态。信息一般有4种形态:数据、文本、声音、图像。这4种形态可以相互转化,例如,照片被传送到计算机,就把v图像转化成了数字。 (5)可再生性 (6)共享性:同一信源可以供给多个信宿,因此信息是可以共享的,且不因共享而减少(7)可识别性:信息是可以识别的,识别又可分为直接认别和间接识别,直接认别是指通过感官的识别,间接识别是指通过各种测试手段的识别。不同的信息源有不同的识别方法。(8)可存储性:信息是可以通过各种方法存储的。 二、信息检索 广义:将信息按一定的方式组织和存储起来,并根据用户需要找出相关文献的过程。其中包括存与取两个环节,存即信息存储,是对信息进行收集、标引、描述、及组织,并对其特征化表达集加以整序,形成信息检索工具或检索系统的过程。取即信息查找,是通过某种查询机制从检索工具或检索系统中查找出用户所需的特定信息或获取其线索的过程。 狭义:仅仅指信息查找的过程。即取的环节。 三、信息检索的发展 1、第一阶段:完全手工检索阶段 2、第二阶段:半机械检索系统-机电、光电检索系统的发展阶段 3、第三阶段:计算机检索系统的发展阶段 4、第四阶段:基于Internet 的网络化检索系统阶段 信息资源的分类: 1、信息源可分为自然信息源和社会信息源。 2、按信息资源所依附的载体划分(不用全背) (1)体裁信息资源:以人体为载体并能为他人识别的信息资源。按其表述方式又可分为口语信息源和体语信息源。口语信息源是人类以口头方式表述但未被记录下来的口语信息,如:谈话、讲课、讲演、讨论、唱歌等。体语信息源是以人的体态为载体表述出来的信息资源,如:表情、手势、姿态等方式表述的体语信息。 (2)实物信息资源:以实物为载体的信息资源。又分为自然实物信息源与人工实物信息源。如:化石、产品、样品等。 (3)文献信息资源:以文字、图形、符号、声频、视频等发生记录在各种载体上的知识和信息资源。 (4)网络信息资源:以网络为纽带连接起来的信息资源和以网络为主要交流、传递、存储

信息检索模型研究概述

信息检索模型研究概述 【摘要】随着信息量的日益增长,用户要在巨大的信息海洋中查找自己所需的信息就变得复杂,这就需要对信息进行相关性选择,以提高查询的检全率和检准率。为此,人们提出了一系列检索模型,本文介绍了这些检索模型以及在此基础上的发展。 【关键词】信息检索;检索模型;认知心理学;综述 一、引言 信息检索是寻找相关信息的过程,而检索过程始终都涉及相关性问题。相关性是信息需求内容与文献内容之间的一种关系,为了正确地解释检索过程,就必须给相关性一个合理的衡量。为此,人们提出了一系列检索模型,本文就讨论介绍了这些信息检索模型研究的进展。文中笔者将检索模型分为基于系统的检索模型、基于认知心理学的检索模型和基于本体的检索模型三大类。 二、基于系统的信息检索模型 在基于系统的检索模型中,可以分为逻辑模型、模糊模型、向量空间模型和概率模型。 1.逻辑模型及其发展 1957年,巴-希列尔(Y.Bar-Hille)提出布尔逻辑模型。布尔逻辑式构造简单,但其不易全面反映用户的需求,匹配标准存在某些不合理的地方,且检索结果不能按照用户定义的重要性排序输出,很难控制输出量的大小,对用户的素质有很高的要求。 为了克服传统布尔逻辑模型的一些缺陷,Waller和Kraft在1979年提出了加权布尔逻辑检索模型。加权布尔逻辑检索模型通过对标引词进行加权,解决了传统布尔逻辑检索模型的一些缺点,比如无法排序、不能区分检索词的重要程度,但同时也带来了一个问题,即布尔逻辑操作算符在不加权布尔逻辑查询情形下的许多算律(如交换律、结合律等)已不再成立。 在Waller和Kraft之后,Salton于1983年提出扩展布尔模型。扩展模型是传统布尔逻辑检索模型完全匹配的严格性和向量模型提问的无结构性的折中,在保持布尔逻辑检索的结构式提问的同时,也吸取了模糊检索和向量检索模型的长处。而且该模型中巧妙地引入了一个模型参数p,通过适当调节这个参数,Salton 模型可以分别表现为布尔模型、向量空间模型和模糊模型。 2.模糊模型及其发展 布尔模型和扩展的布尔模型主要是基于康托(Contor)的经典集合论,但经典集合论容不得模糊的概念,这对于信息检索过程中所存在的模糊性的解释造成一定的困难,用户对检索结果的满意程度也具有不确定性。为了解决这种模糊性引起的不确定问题,人们引入模糊集合理论来构建模糊集合模型。 模糊集合模型是基于美国自动控制专家扎得(L.A.Zadeh)的“模糊集合”理论,模糊检索将文献看成是与某提问在一定程度上相关,对于每一个标引词,都存在一个模糊的文献集合与之相关;对于某一给定的标引词,用隶属函数表示每一文献与该词相关的程度,即隶属度,其取值在[0,1]上。在模糊集合检索中,对于布尔模型的用户信息需求的处理通常是把表达用户需求的布尔逻辑式转换成析取范式的形式。基于模糊集合模型的检索结果是建立在文献集上的,且其隶属度就是文献集对用户提问的相关程度的模糊子集。但目前而言,还无法十分精

信息检索中的相关性研究_马芳

88888888888888888888888888888888888888888 科技情报开发与经济 SCI -TECH INFORMATION DEVELOPMENT &ECONOMY 2009年第19卷第14期 Considerations about the Sustainable Development of Local Literature Work HE Wei-bing ABSTRACT :This paper expounds the concepts and connotations of the sustainable development and the local literature , points out some shortages existing in the current local literature work ,and puts forward some assumptions of realizing the sustainable development of the local literature work . KEY WORDS :library ;local literature work ;sustainable development [3]熊焰.地(市)县公共图书馆地方文献资源建设和利用研究[J ] .中国图书馆学报,2002(6):81.[4]黄桂凤.图书馆的地方文献资源开发利用[J ].图书馆杂志,2007(4):25. [5]贾立菲.谈地方文献的开发与利用[J ].中国图书馆学报,2006(6):104. [6]潘志强.区县图书馆地方文献工作探讨[J ].图书馆杂志,2007(8):46.(责任编辑:王永胜)──────────────── 第一作者简介:贺卫兵,男,1966年12月生,1988年毕业于江西大学(现为南昌大学)历史系,馆员,现任萍乡市图书馆副馆长,江西省萍乡市安源区昭萍西路2号,337000. 当数据检索的精确性被信息检索的不确定性所代替后,用 户的查询与检出文档的关系也就由匹配关系变为相关关系,因此相关性这一概念就突显出来,成了信息检索中的核心领域。相关性是信息检索乃至情报学中的一个重要的、关键的概念,这在中外的有关研究者中已经得到了共识。 1“相关性”的概说 信息检索本身就是一种相关性检索,而不是确定性检索,它不直接回答用户所提问题本身,而只是提供与解决问题有关的文献信息。在信息检索中,相关性主要是指检索系统针对用户的信息需求从文档集合中检出的文档与用户需求之间的一种匹配关系。检索相关性问题远比定义复杂得多,人们在决策过程中产生了信息需求,其中一部分是对数据的需求,而更多的是对某个主题文献的需求,而后者所对应的是一种相关性检索而非前者的确定性检索。 信息检索中相关性的研究主要有两个分支:一是以Mooers ,Taube ,Perry ,Salton 等为代表的来自计算机科学界,他们的研究主要围绕信息检索系统展开,包括系统的分析、设计、检索算法以及性能评估等,尤其是表征用户信息需求的查询表达式与文档的匹配算法和模型是核心的研究内容,他们被称为系统中心 学派。另一个是来自图书情报界, 他们的研究重点是用户或者检索中介在检索过程中的认知、交互以及情境等层面,被称为用户中心学派。因此,相关性概念也可以从这两个研究分支来划分:面向系统的相关性和面向用户的相关性。 (1)系统相关性学派。面向系统的相关性也称系统观的相关性,它包括两个方面:一是用户提交的查询与信息检索系统对该查询分析理解后形成的系统执行的检索表达式之间的匹配关系;二是检索出的文档与系统执行的检索表达式之间的匹配关系。 面向系统的相关性是查询表达式与文档内容的一致性匹配,是文档所涵盖的内容对查询表达式的适合程度,它的着眼点 主要是信息检索交互模型中的文档库、 检索表达式、匹配过程和检索输出。这种相关性明确定义了信息检索以及信息检索系统研究与发展的目标,简单明了,易于操作。 (2)用户相关性学派。面向用户的相关性主要研究用户以及用户或者检索中介与系统之间的关系,这种相关性是主观的、模 糊的。一方面, 人们对检索系统检索出的结果与用户的特定查询可以有多种“相关”方式;另一方面,不同的用户对同一检索结果的相关性判断存在差异。不同的用户对同一真实信息需求的感觉会有差异;同一用户就同一真实信息需求向不同信息检索系统所发出的查询会有一定程度的差异。 2相关性的影响因素 检索系统的工作过程包含存储和检索两个互逆的过程。检 索是存储的逆过程,对检索过程的分析,可以发现影响检索相关性的因素主要有: 文章编号:1005-6033(2009)14-0089-02 收稿日期:2009-03-10 信息检索中的相关性研究 马芳 (中山大学资讯管理系,广东广州,510275) 摘要:在信息检索中,相关性是一个关键性的概念。从相关性的动态、多维的内涵出 发,介绍了在信息检索中相关性的学派、影响因素及评价,总结了提高信息检索相关性的措施。关键词:信息检索;系统相关性;用户相关性中图分类号:G354文献标识码:A 89

计算机信息检索02139自考资料

第一章信息检索概述 1.信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。 2.根据检索手段的不同,信息检索可以分为手工检索、光盘检索、联机检索和网络检索。 3.信息检索的基本原理 通过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储,建立各种各样的检索系统,并通过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获得和利用信息源。 4.信息检索语言 信息检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。 5.五个信息检索阶段:手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索,后三 者统称为计算机信息检索。 6.与手工检索相比,计算机信息检索的特点表现在: (1)速度快、效率高,仅几分钟就可以从成千上万条记录中找到所需信息; (2)检索范围广,可以迅速而方便地浏览相关学科或主题的所有数据库中的记录,在 网络中,几乎每一台个人计算机都可以成为信息源; (3)检索不受时空的限制,只要拥有相应的软件和硬件设备,就可以在任何地方借助 光盘和通信网络查询所需信息。 7.信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译和 抽象,表述为某种数学公式,再经过演绎、推断、解释和实际校验,反过来指导信息检索实践。 信息检索的三个经典模型是:布尔模型、向量空间模型和概率模型。 8.信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。 9.信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。 10.数据库由字段、记录和文档构成。 11.根据载体的不同,数据库可分为:联机数据库、光盘数据库和网络数据库三种。 12.信息检索系统评价的核心是检索性能评价。 13.检索性能评价:根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进一 步完善检索工作的过程。 评价检索效果的最主要的指标:查全率和查准率。 14.查全率 查全率是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。 15.查准率 查准率是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。 第二章网络信息检索的方法与技术 1.布尔逻辑检索的主要运算符 布尔逻辑检索的主要运算符有:逻辑与(“AND”)、逻辑或(“OR”)、逻辑非(“NOT”)。 它们分别代表的含义是:(1)逻辑“与”。表示检索结果中必须包含所有的检索词;(2)逻辑“或”。表示检索结果中只要包含任何一个检索词即可;(3)逻辑非。表示检索结果中一定不能出现“NOT”后面的检索词。 2.邻近检索 邻近检索是用一些特定的算符来表达检索词与检索词之间的顺序和词间距的检索。 3.短语检索:短语用“”表示,检索出与“”内形式完全相同的短语,以提高检索的精度和准确度, 因而也有人称之为“精确检索” 4.截词检索 是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符一般用“?”或“*”表示,但不同的数据库中有所差别。 常用的截词检索方法有前截词、中间截词和后截词。 5.在信息检索过程中,为了提高查全率或查准率,需要将检索范围限制在特定的字段中,即字段限制 检索。 6.模糊检索:模糊检索是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、 下位词进行检索,以达到扩大检索范围、避免漏检的目的。

信息检索的概率模型-

信息检索的概率模型 一、综述 一、信息检索技术 由于以因特网为主体的信息高速公路的不断普及和发展,信息技术已经渗透到我们社会生活的各个角落,正以前所未有的速度和能力改变着我们的生活的工 作方式,我们真正处于一个“信息爆炸”的时代。一方面,因特网上面蕴含的海 量信息远远超过人们的想象;另一方面,面对信息的汪洋大海,人们往往感到束手无策,无所适从,出现所谓的“信息过载”和“信息迷向”的现象。于是一个 极富挑战性的课题:如何帮助人们有效地选择和利用所感兴趣的信息,尽量剔除不相关的信息。同时保证人们在信息选择方面的个人隐私权利?成为学术界和企 业界所十分关注的焦点。 随着在线文本的日益增多,其中包括新闻、电子杂志、电子邮件、技术报告、文档以及网上图书馆。如此众多的信息,仅仅依靠大脑来收集和整理所需要的信 息显然是不够的。所以,自动收集和整理所需要的各类信息成为信息产业面临新 的挑战和新的发展契机。根据不同的应用背景和不同的使用目的,信息处理技术已经演化信息检索、信息过滤、信息分类、问题回答等方向。 由于目前网上信息的表现形式大多数为文本,而且文本也是广大用户所习惯接收的形式。因此我们在下面主要讨论中文文本检索和相关的评价方案。 1、信息检索技术的发展 信息检索(Information Retrieval)是指信息按一定的方式组织起来,并根据 信息用户的需要找出有关的信息的过程和技术。狭义的信息检索就是信息检索过程的后半部分,即从信息集合中找出所需要的信息的过程。 信息检索起源于图书馆的参考咨询和文摘索引工作,从19世纪下半叶首先开始发展,至20世纪40年代,索引和检索成已为图书馆独立的工具和用户服务 项目。1945年,Vannevar Bush的论文《就像我们可能会想的……》第一次提出 了设计自动的,在大规模的存储数据中进行查找的机器的构想。这被认为是现在信息检索技术的开山之作。进入50年代后,研究者们开始为逐步的实现这些设 想而努力。在50年代中期,在利用电脑对文本数据进行检索的研究上,研究者 1

信息检索原理与技术考试大纲重点整理

信息检索原理与技术考试大纲重点整理

序移动,是一次、二次、三次文献信息的演变过程。对于“文献信息链”的研究,有利于从整体的角度了解文献信息的有序化、动态性特征,从而探索文献信息的产生、演变规律及其结构形态。 (1)信息检索:广义理解分为信息的存储与检索。信息的存储主要包括在某一专业领域范围内的信息选择的基础上对信息的内外特征进行描述、加工并使其有序化,形成信息集合。信息的检索是指借助一定的设备与工具,采用一系列方法与策略从信息集合中查询所需的信息。狭义的信息检索仅指该过程的后一部分。存储是检索的基础、检索是存储的反过程。信息检索的本质是用户的信息需求和一定的信息集合的匹配。 (2)信息检索系统:指为了满足用户的信息需求而建立的存储,经过加工了的信息集合,拥有一定的输入、匹配、输出的技术设备,提供一定的检索服务功能的一种相对独立的实体。 (3)信息检索入口:又称检索点或检索知识,是指用以标识信息的外部特征和内容特征的属性值的集合。检索知识包括主题词、分类号、著者、标题、机构、代码等。 (4)信息检索的一般原理:P7 (5)检索系统由物理构成(硬件、软件和数据库)和逻辑构成(文献与数据的选择与抽取子系统、词表子系统、标引子

系统、查询子系统、用户与系统交互子系统、匹配子系统)(6)检索工具的构成:编辑说明与凡例、分类表与主题表、正文、辅助索引、资料来源目录与附录。 (7)检索系统的功能:报道功能、存储功能、检索功能。(8)信息检索理论:标引理论、检索模型、检索结果的可视化。 (9)现代信息检索技术与方法:全文检索、多媒体检索、超文本及超媒体检索、联机检索、网络信息检索、智能检索、跨语言检索、跨平台检索。 第2章信息检索模型 (1)最初的信息检索模型是以数学知识为基础的原因:第一,数学是个有几千年历史的学科,被大家所熟知,并且通俗易懂。第二,人们的信息有很大的模糊性,甚至用文字不能表达,而文字具有很大程度的抽象性和概括性,这样就很容易表达出人们信息检索的需求,能够很方便快捷地组建信息检索模型。 (2)信息检索模型的类型:P18 (3)布尔检索模型:采用布尔代数和集合论的方法,用布尔表达式表示用户提问,通过对文献标识与提问式的逻辑运算来检索文献。 (4)布尔逻辑运算符:逻辑与(AND)、逻辑或(OR)、逻

信息检索检索 向量空间模型

信息检索检索向量空间模型 一:算法描述 在文本挖掘、搜索引擎应用中,文本的特征表示是挖掘工作的基础,它对文本进行预处理,抽取代表其特征的元数据,这些特征可以用结构化的形式保存,作为文档的中间表示形式。向量空间模型(VectorSpaceModel)是近年来应用较多的文本特征表示方法之一,它是由GerardSlaton等人在1958年提出并发展起来的,是一个关于文献表示的统计模型,具有较强的可计算性和可操作性,已经被广泛地应用于文本检索、自动文摘、关键词自动提取、文本分类和搜索引擎等信息检索领域的各项应用中,并且取得了较好的效果。 文献(document):泛指各种机器可读的记录,可指一篇文章或一个网页,也称为文档。 项(term):亦称索引项,是用来标引被检索内容的关键词等。 项的权重(termweight):对于有n个不同的项的系统,文献D=(t1,t2,,,tn),项 tk(1[k[n)常常被赋予一个数值Wk,表示它在文献中的重要程度,称为项tk的权重。 相似度(Similarity):指两个文档内容相关程度的大小。 确定权重的方法是运用TF-IDF公式,即Wik=tfik/dfk=tfik*idfk,其中tf ik 为特征项Tk在文档Di中的出现频率,称为项频率; dfk则是文档集D中出现特征项Tk 的文档的数量,称为文档频率; idfk为dfk的倒数,称为反转文档频率。

相似度是一个函数,它给出两个向量之间的相似程度。常用的方法有:内积(Inner Product)、余弦(Cosine)。 对于二值向量, 内积是查询式中的词项和文档中的词项相互匹配的数量;对于加权向量, 内积是查询式和文档中相互匹配的词项的权重乘积之和。 余弦相似度计算两个向量的夹角,余弦相似度是利用向量长度对内积进行归一化的结果。 二:数据描述 建立10至15个文件,输入文档集,以供检索。 三:算法参数 文件、项的权重、tf ik、dfk、idfk、相似度 四:实验流程 1.输入文档集; 2.计算词项的特征权重; 3.输入要查询的内容; 4.计算余弦相似度; 5.根据相似度排序,找出相似的文档。

几种信息检索模型比较解读

几种信息检索模型比较 摘要:对信息检索模型研究的主要内容和构建策略进行了描述,给出了几种常用的信息检索模型相关性算法,分析了它们的优缺点,并就存在的问题进行了探讨,总结了信息检索模型的研究现状和发展趋势。 关键词:信息检索模型;相关性;查询;搜索引擎 Abstract:This article described the main contents and the construction strategy of the models of information retrieval,demonstrated a lot of methods in common usages,which is to calculate the model of information retrieval.And in this article,the advantages and disadvantages were analyzed,the problems that is still existing have been researched.In addition,the current situation of this research and the development tendency of the model of information retrieval were deeply summarizad in this article. Keywords:Information retrieval models;Relativity;Inquiry;Search engine 当前,随着互联网的普及和网上信息的爆炸式增长,信息检索系统及其核心技术搜索引擎的性能和效率问题已成为人们研究和关注的焦点。影响一个搜索引擎系统的性能有很多因素,但最主要的是信息检索模型,其研究内容包括文档和查询的表示方法、评价文档和用户查询相关性的匹配策略、查询结果的排序方法和用户进行相关度反馈的机制。本文从研究文档与用户查询“相关性”匹配的角度出发,对信息检索模型研究的主要内容和构建策略进行了详细的描述,并给出了几种常用的信息检索模型相关性算法,分析了它们的优缺点及存在的问题,总结了当前信息检索模型的研究现状和发展趋势,其目的在于提高信息检索、查询的性能和效率。 一、构建信息检索模型的策略 当前,构建信息检索模型的主要策略有以下两个: (一)通用的信息检索模型

信息检索考试要点讲解

信息检索考试要点(Word版) 考试题型: 考试分试卷一,试卷二两部分, 试卷一:(客观题80分) (一)单选(20题,20分) (二)多选(20题,40分) (三)判断(20题,20分) 试卷二:(20分) (四)填空题(20空,10分) (五)实务题 1、写检索式(三题,6分) 2、调整检索策略(4分)

第一章绪论 信息素质:在信息化时代,人们认识、利用和创造信息的品质与素养,它是创新人才应具备的素质。 信息素质由信息意识、信息知识、信息能力和信息道德素质四部分构成。 信息:是自然界、人类社会以及思维活动中普遍存在的现象,是一切事物自身存在方式以及它们之间相互关系、相互作用等运动状态的表达。 信息具有客观性、时效性、共享性、价值性、传递性、开发性 知识:是人们在改造世界的实践中所获得的认识和经验的总和,是人的大脑通过思维重新组合的系统化的信息集合。 知识具有意识性、信息性、实践性、规律性、继承性、渗透性 情报:是为了解决一个特定的问题所需要的激活了、活化了的特殊知识或信息。 情报具有知识性、传递性和效用性三个基本属性。 文献:凡是记录有信息或知识的一切载体均为文献。 文献具有三个基本功能:存贮知识、传递信息和交流信息;四个基本要素:知识内容、记录符号、物质载体和记录手段。 文献信息资源类型划分标准: 一、按物质载体和记录形式划分

类型1)印刷型 载体纸张等 记录手段手写、印刷、打印、复印 种类图书、报刊、特种资料等 优点便于阅读及广泛流传,成本低 缺点存储密度低,所占空间大,保管耗较多人力物力,难于实现自动化 类型2)缩微型 载体感光材料 记录手段缩微拍摄 种类缩微平片、缩微胶卷、全息胶片 优点体积小,存储密度高,成本低,传递较为方便 缺点不能直接阅读,需要借助于缩微阅读机,存储要求较高 类型3)声像型 载体磁性、感光材料 记录手段机械装置输入 种类唱片、录音带、录像带、光盘等 优点高密度存储,直观、真切,图文并茂,制作快 缺点不能直接阅读,需要先进的技术设备,制作成本稍高

计算机信息检索02139自考资料

计算机信息检索02139自考资料

第一章信息检索概述 1.信息检索:指将信息按一定的方式组织和存储起来,并根据信息用户的需要找出有关信息的过程。 2.根据检索手段的不同,信息检索能够分为手工检索、光盘检索、联机检索和网络检索。 3.信息检索的基本原理 经过对大量的、分散无序的文献信息是进行搜集、加工、组织、存储,建立各种各样的检索系统,并经过一定的方法和手段使存储与检索这两个过程所采用的特征标识达到一致,以便有效地获 得和利用信息源。 4.信息检索语言 信息检索语言是人们在加工、存储和检索信息时用来描述信息内容和信息需求的词汇或符号及其使用规则构成的供标引和检索的工具。 5.五个信息检索阶段:手工检索、机械信息检索、脱机批处理检索、联机检索、网络信息检索,后 三者统称为计算机信息检索。 6.与手工检索相比,计算机信息检索的特点表现在: (1)速度快、效率高,仅几分钟就能够从成千上万条记录中找到所需信息; (2)检索范围广,能够迅速而方便地浏览相关学科或主题的所有数据库中的记录,在网络中,几乎每一台个人计算机都能够成为信息源; (3)检索不受时空的限制,只要拥有相应的软件和硬件设备,就能够在任何地方借助光盘和通信网络查询所需信息。 7.信息检索的模型:就是运用数学的语言和工具,对信息检索系统中的信息及其处理过程加以翻译 和抽象,表述为某种数学公式,再经过演绎、推断、解释和实际校验,反过来指导信息检索实践。 信息检索的三个经典模型是:布尔模型、向量空间模型和概率模型。 8.信息检索系统是具有信息存储和信息查询功能的一类信息服务设施。 9.信息检索系统是信息检索所用的硬件资源、系统软件以及信息资源集合的总和。 10.数据库由字段、记录和文档构成。 11.根据载体的不同,数据库可分为:联机数据库、光盘数据库和网络数据库三种。 12.信息检索系统评价的核心是检索性能评价。 13.检索性能评价:根据一定的评价指标对实施信息检索活动所取得的成果进行客观科学评价,以进 一步完善检索工作的过程。 评价检索效果的最主要的指标:查全率和查准率。 14.查全率 查全率是指检出文献中合乎需要的文献数量占数据库中存在的合乎该需要的所有文献的比例。 15.查准率 查准率是指检出文献中合乎需要的文献数量占检出文献全部数量的比例。 第二章网络信息检索的方法与技术 1.布尔逻辑检索的主要运算符 布尔逻辑检索的主要运算符有:逻辑与(“AND”)、逻辑或(“OR”)、逻辑非(“NOT”)。 它们分别代表的含义是:(1)逻辑“与”。表示检索结果中必须包含所有的检索词;(2)逻辑“或”。 表示检索结果中只要包含任何一个检索词即可;(3)逻辑非。表示检索结果中一定不能出现“NOT” 后面的检索词。 2.邻近检索 邻近检索是用一些特定的算符来表示检索词与检索词之间的顺序和词间距的检索。 3.短语检索:短语用“”表示,检索出与“”内形式完全相同的短语,以提高检索的精度和准确度, 因而也有人称之为“精确检索” 4.截词检索 是指在检索标识中保留相同的部分,用相应的截词符代替可变化部分。检索中,计算机会将所有含有相同部分标识的记录全部检索出来。截词符一般用“?”或“*”表示,但不同的数据库中有所差别。 常见的截词检索方法有前截词、中间截词和后截词。 5.在信息检索过程中,为了提高查全率或查准率,需要将检索范围限制在特定的字段中,即字段限 制检索。 6.模糊检索:模糊检索是指使用某一检索词进行检索时,能同时对该词的同义词、近义词、上位词、

相关主题
文本预览
相关文档 最新文档