现代信息检索导论 王斌 计算所 课件 lecture6-tfidf
- 格式:pptx
- 大小:701.62 KB
- 文档页数:68
现代信息检索了解信息检索发展历史,文献的载体形式与等级结构,检索工具的类型与特点;掌握信息检索的基本概念及其研究对象,检索工具的组成以及检索工具的编制方法;重点掌握各种类型的检索工具、检索工具的质量评价标准、信息检索的基本原理与检索工具检索效率的评价指标。
第一章信息检索导论1.1信息检索及其研究对象1.2.1 信息检索的基本类型1 文献检索2 数据检索3 事实检索1.2.2 信息检索的研究内容1 有关检索语言的研究2 有关检索系统的研究3 有关检索策略的研究4 有关检索服务的研究1.2.3 信息检索的特性1 信息检索的相关性2 信息检索的不确定性3 信息检索的逻辑性1.2科技文献及其类型1.3.1 按照物质载体形式和记录手段☺1 印刷型2 缩微型3 机读型4 声像型1.3.2 按照文献中信息量1 一次文献2 二次文献3 三次文献1.3.3 按其它划分按文献的知识内容,可分为医学文献、化学文献、数学文献等。
按流通范围,科技文献又有公开,内部和保密之分,我国大致分为:公开、限国内、内部、保密几种。
按出版类型,包括科技图书、科技期刊、专利文献、科技报告、会议文献、政府出版物、学位论文、标准文献、产品样本及其它十大类。
1.3检索工具与类型1.4.1 编制检索工具的内容1 文献著录2 文献标引3 索引组织1.4.2 文献著录1 著录规则2 我国文献著录的国家标准3 著录项目与格式1.4.3 检索工具的类型检索工具的种类很多,从总体上可分为手工检索工具和机械检索工具两大类(以下简称为”手检”和”机检”)。
手工检索工具,是人直接参与检索过程所使用的检索工具,如书本式、卡片式检索工具;机械检索工具,是利用力学、光学和电子学原理,按照人们的要求,自动检索的工具,如机械穿孔卡片系统、光电检索系统和计算机检索系统等。
1.4.4 目录性检索工具目录是图书或其它单独出版的资料的系统化记载及内容的揭示(的清单或清册)。
目录多按“种”或“件”(如一本图书、一件专利等)报导,按类编排,强调有具体的收藏单位,一般不附索引,对文献的著录比较简单,与题录相近,只记述这些出版物的外部特征,如书名、卷数、作者、出版年月、版本号、出版社名称、页数等,但有的附有十分简单明了的内容摘要。
1、习题6-10tf-idf = tf * idfcar的tf-idf值在三篇文档中分别为:Doc1:27*1.65=44.55;Doc2:4*1.65=6.6;Doc:24*1.65=39.6;auto的tf-idf值在三篇文档中分别为:Doc1:3*2.08=6.24;Doc2:33*2.08=68.64;Doc:0*2.08=0;insurance的tf-idf值在三篇文档中分别为:Doc1:0*1.62=0;Doc2:33*1.62=53.46;Doc:29*1.62=46.98;best的tf-idf值在三篇文档中分别为:Doc1:14*1.5=21.0;Doc2:0*1.5=0;Doc:17*1.5=25.5;2、习题6-19所用公式:wf = 1+logtf t,d, tf t,d>00, ot erwiseidf=log Ndf归一化:12+12+1.3012=1.9221/1.922 = 0.521301/1.922 = 0.677最后的相似度结果为:1.56+1.558=3.1183、习题7-2胜者表是提出的一种更快获取得分较高文档的一种方法,基本思路是考虑r篇的tf值。
但在实际应用中,还应考虑到文档长度以及用户对搜索结果的关注程度等因素,并希望只关注那些不仅相关度高并且权威度也大的文档。
如果只根据tf值来选取最后的结果文档,很可能导致的情况是,搜索结果和查询虽然相关,但会有文档长度过长且不是用户想得到的结果的问题。
因此在考虑到全局的情况下,引入了g(d)和tf-idf来对胜者表进一步扩展和精确。
这样高分文档更可能在倒排索引的前期出现。
4、习题7-85、习题8-8b. 系统1的返回结果中相关文档比较集中,靠前两个,靠后两个。
系统2的返回结果中相关文档比较分散。
系统1比系统2获得较高的MAP值。
排名靠前的相关文档对MAP值影响较大,相关文档位置越靠前,系统能获得越高的MAP值。