lecture6-tfidf 信息检索导论王斌 PPT 课件第6章

格式：pptx
大小：699.07 KB
文档页数：68

下载文档原格式

信息检索概论PPT课件

期刊
Chun,Lu,and n, “Dynamic Analysis of Clamped Laminated Curved Panels” Composite Structures 30.4. (1995):389-396
ISSN 的含义（International Standard Serial Number）
第一章信息检索概论
内容简介
1.1 信息素养教育 1.2 文献信息的基本概念 1.3 文献信息的类型与特点 1.4文献信息的分布规律
1.1信息素养
Information Literacy
也称信息素质或信息文化，是全球一体化、全球信息化大环境下需要人们具备的一种基本能力。
信息素养这一概念是美国信息产业协会主席保罗·泽考斯基（Paul Zurkowski）于1974年在提出的。
【实例】在《EBSCO》数据库的期刊论文著录格式如下： China Investment：Which Way To Profit? By： Wang Yong ； Chen Wen．Beijing Review，11/6/2003，Vol．46 Issue 45，p10，4p， 1c；(AN 11588866)
3.图书类型阅读用书：包括教科书、专著、文集等。参考工具书：是供人们释疑解难、翻检查考的出
版物。
【实例】《中国大百科全书》、《四库全书》、《古今图书集成》、《大英百科全书》
检索用书：是以图书形式刊行的书目、题录、文摘等，是供人们查找一定范围内信息线索的出版物。
【实例】《四库全书总目提要》、《中国国家书目》、《全国总书目》、《全国新书目》
report,
Sci-Tech
proceedings (Pro.) specification

信息检索课件

综合性图书水利工程
自然科学
N O
P
TP TQ TS TU TV
哲学马列
历史、地理文学艺术语言文教、科学、体育经济军事政治、法律社会科学总论哲学马列主义、毛泽东思想社会科学 A B C D E F G H J I K
标准二
高效获取所需信息
信息源分布（图书馆、网络资源、专业协会、研究机构等）选用恰当的调查研究方法信息检索系统中利用有效方法和检索策略（如关键词、相关术语、规范化语言、逻辑算符、命令语言）

标准三
能客观、审慎地评估信息与信息源

概括信息源的适用性评价和比较信息的可靠性、权威性、时效性综合主要观点的逻辑统一、可查实性
标准的种类

标准按内容可分为：
（1）基础标准（２）产品标准（３）方法标准

按范围分：
（１）国际标准（２）地区标准（３）国家标准（４）专业标准（５）企业标准

按成熟程度分：
（１）正式标准（２）试行标准（３）推荐标准（４）标准草案我国国家标准代号为GB(汉语拼音GUO BIAO缩写)，中间是标准顺序号；最后是此项标准颁布的年代。如： GB—8— 1989，即为1989年颁布的第8号国家标准。 ISO是由国际标准化组织制定的国际标准。
标准四
个人或作为群体的一员能有效地利用信息以完成特定的任务
应用信息创造成果、完成项目（如完成课题报告、学位论文等）为实现成果和目标修正学习过程选用最有力的交流媒体和形式

标准五
获取与使用信息要符合道德与法律规范
识别并研究印刷型、电子型信息环境的隐私和安全免费和收费信息知识产权、版权合适的文献格式，引用格式等

信息检索课件汇总全书电子教案完整版课件(最新)

1.1.4 文献的分类
1．文献按其出版形式分类（1）图书（Book）（2）期刊（Periodical）（3）会议论文（Conference Paper）（4）专利文献（Patent Document）（5）科技报告（Sci-Tech Report）（6）标准（Standard）（7）学位论文（Dissertation）（8）技术档案（Technical Records）
1.2 计算机信息检索基础
1.2.4 计算机信息检索的原理
1．计算机信息存储过程 2．计算机信息检索过程
1.2 计算机信息检索基础
1.2.5 计算机信息检索系统的构成
1．计算机硬件 2．软件 3．数据库（1）参考数据库。（2）源数据库。 4．通信网络
1.2 计算机信息检索基础
1.2.6 计算机信息检索的基本技术
二次检索
3.2 万方数据知识服务平台
3.2.1 快速检索
二次检索结果
3.2 万方数据知识服务平台
3.2.2 Leabharlann 级检索高级检索页面3.2 万方数据知识服务平台
2.1.2 Internet信息资源的特点
1．信息源丰富 2．信息内容多样性 3．信息表现形式多样化 4．信息时效性 5．信息交互性 6．信息关联性 7．信息的开放性 8．免费信息资源丰富 9．信息组织的局部有序性与整体无序性
2.1 Internet信息资源及其组织方式
2.1.3 Internet信息资源及检索方法
2.2 Internet信息资源检索工具
2.2.3 阅读软件的安装和使用
1．Acrobat Reader的安装与启动 2．Acrobat Reader的基本操作（1）打开文件。（2）阅读文件。（3）选择和复制文件。 3．CAJViewer的安装与启动 4．CAJViewer的基本操作

《信息检索导论》PPT课件

出正确的决策。
编辑课件ppt
22
1.1 信息素养与信息检索
一、信息、信息社会与信息素养二、信息检索教学的主要意义三、信息检索教学的基本内容
编辑课件ppt
23
三、信息检索课程的基本内容
1、信息检索的基本知识：文献、情报、知识、信息的概念；不同文献类型的特点；专业文献概况及主要收藏单位；情报与 Information Literacy对科学活动及个人知识增殖的作用；文献检索的意义和作用。
⑴ 信息共享实现的条件在于信息对于物质依附性的相对性，即同一信息可以采用多种相同的或不同的物质载体及其运动形式构成。
⑵ 信息共享的基础在于信息存在的普遍性和信息价值的非对称性。信息产品的使用价值是一个点集或面，其价值和使用价值具有非对称性；而物质产品的使用价值在同一时刻仅为一个点，且遵循等值交换原则。
有害信息：指对社会发展和信息用户有消极和阻碍作用的不真实或庸俗、媚俗的信息，主要有虚假信息和色情信息等。
编辑课件ppt
21
二、信息检索教学的主要意义
1、一个平台：培养信息意识，提高自学能力和独立研究能力。
1992年国家教委高教司在《文献检索课教学基本要求》的通知中指出：“文献检索课是培养学生掌握利用图书文献/情报检索，不断提高自学能力和科研能力的一门科学方法课。”
17
1 以认识主体为依据对信息进行的划分
客观信息，是指对事物不加判断的如实和公正的报道，即关于认识对象的信息。
主观信息，一般是依据事实和分析，阐明个人对论题的观点和见解，是经过思维主体加工的信息。
编辑课件ppt
18
2 以信息的生成领域对信息进行的划分
自然信息，非生命物质的自然信息，是无机界事物属性及事物之间内在联系的表征。自然信息是融合式的、特殊的、弥漫的。

信息检索教程(第三版)PPT6

3.2.1 概念逻辑
２．概念逻辑方法检索语言在表达各种概念及其相互关系时，普遍地应用了概念逻辑的原理，有效地利用了
“概念的划分与概括”和 “概念的分析与综合”这两种逻辑方法来建立自己的结构体系。（１）概念的划分与概括（分类）即利用概念内涵由反映事物本质属性的概念因素构成，概念因素的增加或减少可以形成新的
之间相互交叉渗透和综合而形成的新知识领域很困难，也难以反映客观实际中多维的知识空间结构。
3.3.2 体系分类法
（三）主要体系分类法介绍目前，国内常见的体系分类法有《中国人民大学图书馆图书分类法》，简称《人大
法》，初版于１９５３年；《中国图书馆分类法》，简称《中图法》，初版于１９７５年，名为《中国图书馆图
１．标引信息内容特征及某些外表特征，保证不同标引人员表达信息的一致性２．对内容相同及相关的文献信息加以集中或揭示其相关性３．使信息的存储集中化、系统化、组织化，便于检索人员按照一定的排列次序进行有
序化检索检索语言将表达成千上万个信息主题概念的全部信息标识排列成一个有序的系统。排列
信息标识的方法主要有三种： ①分类排列法，用于号码标识系统； ②字顺排列法，用于语词标识系统和代码标识系统； ③分类和字顺结合的排列法，即先按照分类排，再按字顺排，用于语词标识系统（如分
3.1.3 检索语言的分类
２．描述文献内容特征的检索语言描述文献内容特征的语言指主要依据文献内容特征而形成的检索语言，这是检索语言研究的核心部分，具体有分类语言、主题语言和代码语言。
3.1.3 检索语言的分类
（二）按结构或原理，可分为分类语言、主题语言、代码语言和引文语言分类语言用分类号来表达各种概念，将各种概念按学科性质进行分类和系统编排。分

信息检索教程第六章

第六章网络信息检索
本章的主要内容为：网络信息系统及网络信息资源的特征、网络信息检索的原理与方法、常用的网络信息检索工具、网络信息检索技巧和专业性信息的网络检索。
1
第一节网络信息系统及网络信息资源的特征
一、Internet网络信息系统

TCP/IP协议

DN域名和IP地址
全球资源定位器URL
17
(一)Google()
Google的核心技术称为PageRank(TM)，它是Larry Page和Sergey Brin在斯坦福大学开发的一套用于网页评级的系统。该系统以PageRank 技术为基础，这项技术可以确保将搜索结果首先呈现给用户。Google使用一组独特的硬件和软件，制造出了一部超网页的数量每天正以相关搜索拼音提示

12
(三)自动索引程序
自动索引程序robot广泛搜集网络信息资源数据，经过一系列判断、选择、标引、分类等处理后形成供检索用的数据库，并以Web页面的形式向用户提供有关的资源导航、目录索引以及检索界面。
13
二、搜索引擎的运作和检索
(一)搜索引擎技术的运作

发现并搜集网页信息

对信息进行提取并建立索引库

15
(二)搜索引擎的检索方法

简单搜索(Simple Search) 词组搜索(Phrase Search)

高级搜索(Advanced Search)
16
三、万维网搜索引擎
万维网搜索引擎(Web Search Engines)的主体是全文搜索引擎(Full text Search Engine)，具有代表性的全文搜索引擎是 Google、 AlltheWeb、AltaVista、Ink站的信息，建立索引数据库，并在用户检索时予以匹配响应，然后按一定的排列顺序将结果返回给用户。这里重点介绍四大擎

信息检索教程第6章网络信息检索

有目前世界上最大的中文信息库，并且还在以每天几十万页的速度快速增长。使用高性能的“网络蜘蛛”程序自动在Internet中搜索信息。能在极短的时及个性化的各种检索需求。的服务产品• 前程无忧
– 前程无忧是国内第一个集多种媒介资源优势的专业人力资源服务机构，已成为中国占有领导地位的专业招聘网站。 – 网站目标有两大部分：致力于为积极进取的白领阶层和专业人士提供更好的职业发展机会；同时，网站致力于为企业搜寻、招募到最优秀的人
是大势所趋。
(1) IPv4
目前，我国大部分上网用户使用的都是IPv4地址，IPv4
使用32位地址，因此最多可能有232个网络地址。一般的
书写法为4个用小数点分开的十进制数，每段数字范围为0
～255，段与段之间用句点隔6是IETF（Internet Engineering Task Force，互联网工程任务组）设
6.3 常用网站介绍
目录：
6.3.1
教育类网站
求职招聘类网站
6.3.2
6.3.3
医学健康类网站
其他网站
6.3.4
6.3.1 教育类网站
• 教育网站是专门提供教学、招生、学校宣传、教材、教学资源共享等的网站。各大学校和教育部门、机构都有自己的网站。 • 一般情况下教育网站的后缀域名是edu，代表教育的意思，也有部分域名是以com/cn/net作为域名后缀。
第6章网络信息检索
目录：
6.1 6.2
Internet应用基础
网络搜索引擎
6.3
6.4 6.5 6.6 6.7
常用网站介绍
学术论坛介绍开放存取资源小结习题
6.2 网络搜索引擎
6.2.1 搜索引擎 6.2.2 6.2.3 学术6.1 Internet应用基础

《信息检索导论》课件

未来发展方向
人工智能技术在信息检索中的应用
自然语言处理、图像识别和深度学习等技术将被应用于信息检索领域。
信息检索领域的研究热点
如可解释性、个性化推荐和区块链技术等将成为未来信息检索研究的热点。
总结
信息检索的意义
改善人们获取信息的方式，为人们提供更快速的信息服务。
目前的研究状况
信息检索领域的研究涵盖了多个方向，包括模型、算法和应用等。
3
用户界面
提供搜索框和界面展示，最直接的与用户交互的方式。
检索性能评价
1 评价指标
如准确率、召回率、F值和MAP等，用于评估检索系统的效果。
2 评价方法
如离线评估、在线评估和交互式评估，来评价检索系统的性能。
检索应用
检索引擎• 谷歌搜索 • 搜索 • 必应搜索应用案例
• 企业文献管理系统 • 网络社交媒体搜索 • 学术期刊检索服务
向量空间模型
一种基本的信息检索模型，使用向量表示文档和查询，适合大规模文本数据。
BM25模型
一种基于统计的信息检索模型，以链接分析算法为基础，比传统检索模型更有效。
检索系统组成与工作流程
1
检索系统组成
包括爬虫、索引器、查询处理器和用户界面。 → 建立索引 → 处理查询 → 返回结果。
《信息检索导论》课件
本课件将介绍信息检索的基础概念和应用，了解信息检索的意义和未来趋势。
什么是信息检索
定义
信息检索是从大量非结构化和半结构化的数据中获取相关信息的过程。
应用领域
信息检索被广泛应用于各种领域，如Web搜索、数字图书馆、数字档案等。
检索模型
传统检索模型
如布尔模型、向量空间模型和概率模型，检索效果受到诸多限制。

lecture2-dictionary 信息检索导论王斌 PPT 课件第2章

现代信息检索
词条归一化(Normalization)成词项
将文档和查询中的词归一化成同一形式：
U.S.A. 和 USA
归一化的结果就是词项，而词项就是我们最终要索引的对象可以采用隐式规则的方法来表示多个词条可以归一成同一词项，比如
剔除句点
U.S.A., USA USA
字：李明天天都准时上班
索引量太大，查全率百分百，但是查准率低，比如查“明天” 这句话也会出来
词：李明天天都准时上班
索引量大大降低，查准率较高，查全率不是百分百，而且还会受分词错误的影响，比如上面可能会切分成：李明天天都准时上班，还有：他和服务人员照相
提纲
❶ ❷ ❸
上一讲回顾文档词项

通常做法+非英语处理
英语
❹
❺
跳表指针
短语查询
17
现代信息检索
词条和词项
TOKENS AND TERMS
现代信息检索
词条化(Tokenization)
输入: ―Friends, Romans and Countrymen‖ 输出: 词条(Token)
state-of-the-art: co-education lowercase, lower-case, lower case ?
San Francisco: 到底是一个还是两个词条？
如何判断是一个词条？
现代信息检索
词条化中数字的处理
3/20/91 Mar. 12, 1991 55 B.C. B-52 PGP 密钥：324a3df234cb23e (800) 234-2333

《信息检索导论》课件2

学习网站
信息检索博客、谷歌学术、 ACM Digital Library等。
深入学习建议
参加信息检索领域的相关研讨会和学术会议，与专家交流并进行实践项目。
《信息检索导论》PPT课件
欢迎来到《信息检索导论》PPT课件，本课程将介绍信息检索的基础概念、技术和实践案例，让你深入了解该领域的关键知识和应用。
课程介绍
课程目标
掌握信息检索的基本理论和技术，学习如何构建高效的检索系统。
课程内容
包括信息检索的定义、流程、模型与评价指标等重要概念。
课程安排
第一部分：信息检索基础第二部分：信息检索技术第三部分：实践案例分析第四部分：进一步学习资源
信息检索基础
1 信息检索定义
信息检索是一种从大规模的信息集合中找到最相关的信息的过程。
2 信息检索流程
包括用户需求分析、查询处理、倒排索引构建和结果展示等步骤。
3 检索模型与评价指标
常用的模型包括布尔模型、向量空间模型和概率检索模型。评价指标有精确率、召回率和F1值。
信息检索技术
文本预处理
包括分词、去除停用词和词干提取等技术，以便更好地处理查询和文档。
倒排索引
一种高效的索引结构，用于快速定位包含特定词项的文档。
查询处理与展示
针对用户查询进行解析和扩展，同时通过界面展示与查询相关的文档。
实践案例分析
检索引擎案例
探索传统搜索引擎如Google和百度背后的信息检索技术和算法。
社媒体搜索案例
了解如何从社交媒体平台如 Twitter和Facebook中检索有用的信息。
电子商务搜索案例
研究电商平台如Amazon和淘宝如何实现快速准确的商品搜索。

信息检索概论课件

信息检索概论课件
1. 信息概论
• 1．2信息的特性
(7) 可共享性与物质、能量不同，信息没有排他性，它可以共享。
信息检索概论课件
1. 信息概论
• 1．3 信息的作用
（1）信息是人类认识客观世界及其发展规律的基础
人类的认识器官，包括感觉器官和思维器官，对各种渠道的信息进行接收，并通过思维器官将已收集到的大量信息进行鉴别、筛选、归纳、提炼、存贮而形成不同层次的感性认识和理性认识。
第一章信息检索概论
• 1. 信息概论 • 1．2信息的特性
（1）普遍性信息是事物运动的状态和状态变化的方式(本体论，的反映—认识论)，因此，只要有客观事物的存在，只要客观事物在不断地运动，就会有它们运动的状态和状态变化的方式，也就存在着信息，所以信息是普遍存在的，信息具有普遍性。（2）传递性信息在事物之间的相互联系必定在信息流动中发生。信息的传递性表现在人与人之间的消息交换，人与机器、机器与机器之间的信息交换，动物与植物的信号交换。信息的传递和流通过程是一个重复使用的流通过程，在这一过程中，信息的占有者不会因传递信息而失掉信息，一般说来，也不会因多次使用而改变信息的自身价值。
• 3 信息源
3． 1 信息源的类型信息源的类型可依不同的标准划分如下：
3．1 . 3 按信息表现形式划分可以划分为文字信息、图像信息、数值数据信息和语音信。
其中数值数据信息是“信息的数字形式”或“数字化的信息形式”。狭义的“数据”是指有一定数值特性的信息，如统计数据、测量数据以及计算机中区别于程序的计算数据。广义的数据是指在计算机网络中存储、处理、传输的二进制数字符编码，文字信息、图像信息、语言信息以及从自然界直接采集的各种自然信息等均可转换为二进制数码，网络中的数据通信、数据处理和数据库等就是广义的数值数据信息。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

排序式检索
❸
❹ ❺
词项频率
tf-idf权重计算向量空间模型
23
现代信息检索
二值关联矩阵
Anthony Julius and Caesar Cleopatra
ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER ... 1 1 1 0 1 1 1 1 1 1 1 0 0 0
28
现代信息检索
课堂练习
计算下列查询-文档之间的Jaccard系数 q: [information on cars] d: “all you’ve ever wanted to know about cars” q: [information on cars] d: “information on trucks, information on planes, information on trains” q: [red cars and red trucks] d: “cops stop red cars more often”
授课人：王斌
/~wangbin
*改编自”An introduction to Information retrieval”网上公开的课件，地址 /IR-book/ 1
提纲
❶ ❷
上一讲回顾
排序式检索
❸
❹ ❺
词项频率词项频率
→ 0 个结果 – 太少
在布尔检索中，需要大量技巧来生成一个可以获得合适规模结Βιβλιοθήκη 的查询15现代信息检索
排序式检索

排序式检索可以避免产生过多或者过少的结果大规模的返回结果可以通过排序技术来避免只需要显示前10条结果不会让用户感觉到信息太多
前提：排序算法真的有效，即相关度大的文档结果会排在相关度小的文档结果之前
21
现代信息检索
Paul Jaccard(1868-1944)
瑞士植物学家，ETH教授
1894年毕业于苏黎世联邦理工学院ETH(出过包括爱因斯坦在内的21位诺贝尔奖得主)
1901年提出Jaccard Index即 Jaccard Coefficient概念
22
提纲
❶ ❷
上一讲回顾
ANTHONY BRUTUS CAESAR CALPURNIA CLEOPATRA MERCY WORSER ... 157 4 232 0 57 2 2 73 157 227 10 0 0 0
The Hamlet Tempest
0 0 0 0 0 3 1 0 2 2 0 0 8 1
Othello
Macbeth ...
19
现代信息检索
Jaccard系数的计算样例
查询 “ides of March”
文档 “Caesar died in March”
JACCARD(q, d) = 1/6
20
现代信息检索
Jaccard系数的不足
不考虑词项频率，即词项在文档中的出现次数罕见词比高频词的信息量更大，Jaccard系数没有考虑这个信息没有仔细考虑文档的长度因素本讲义后面，我们将使用 (即余弦计算) 来代替 |A ∩ B|/|A ∪ B| ，前者进行的长度归一化
9
现代信息检索
ϒ编码
将G 表示成长度(length)和偏移(offset)两部分偏移对应G的二进制编码，只不过将首部的1去掉例如 13 → 1101 → 101 = 偏移长度部分给出的是偏移的位数比如G=13 (偏移为 101), 长度部分为 3 长度部分采用一元编码: 1110. 于是G的ϒ编码就是将长度部分和偏移部分两者联接起来得到的结果。
The Hamlet Tempest
0 0 0 0 0 1 1 0 1 1 0 0 1 1
Othello
Macbeth ...
0 0 1 0 0 1 1 1 0 1 0 0 1 0
每篇文档可以看成是一个二值的向量 ∈ {0, 1}|V|
24
现代信息检索
非二值关联矩阵(词频)
Anthony Julius and Caesar Cleopatra
tf-idf权重计算向量空间模型
2
提纲
❶ ❷
上一讲回顾
排序式检索
❸
❹ ❺
词项频率词项频率
tf-idf权重计算向量空间模型
3
现代信息检索
Heaps定律
词汇表大小M 是文档集规模T的一个函数图中通过最小二乘法拟合出的直线方程为： log10M = 0.49 ∗ log10T + 1.64 于是有： M = 101.64T0.49 k = 101.64 ≈ 44
可变字节(VB)码
被很多商用/研究系统所采用变长编码及对齐敏感性(指匹配时按字节对齐还是按照位对齐)的简单且不错的混合产物设定一个专用位 (高位) c作为延续位(continuation bit) 如果间隔表示少于7比特，那么c 置 1，将间隔编入一个字节的后7位中否则：将低7位放入当前字节中，并将c 置 0，剩下的位数采用同样的方法进行处理，最后一个字节的c置1 （表示结束）
18
现代信息检索
第一种方法: Jaccard系数
计算两个集合重合度的常用方法令 A 和 B 为两个集合 Jaccard系数的计算方法:
JACCARD (A, A) = 1
JACCARD (A, B) = 0 如果 A ∩ B = 0
A 和 B 不一定要同样大小 Jaccard 系数会给出一个0到1之间的值
10
现代信息检索
Reuters RCV1索引压缩总表
11
现代信息检索
本讲内容
对搜索结果排序(Ranking) : 为什么排序相当重要？词项频率(Term Frequency, TF): 排序中的重要因子 Tf-idf 权重计算方法: 最出名的经典排序方法向量空间模型(Vector space model): 信息检索中最重要的形式化模型之一 (其他模型还包括布尔模型和概率模型)
29
提纲
❶ ❷
上一讲回顾
排序式检索
❸
❹ ❺
词项频率
tf-idf权重计算向量空间模型
30
现代信息检索
文档中的词频 vs. 文档集中的词频
除词项频率tf之外，我们还想利用词项在整个文档集中的频率进行权重和评分计算
31
现代信息检索
罕见词项所期望的权重
罕见词项比常见词所蕴含的信息更多考虑查询中某个词项，它在整个文档集中非常罕见 (例如 ARACHNOCENTRIC). 某篇包含该词项的文档很可能相关于是，我们希望像ARACHNOCENTRIC一样的罕见词项将有较高权重
33
现代信息检索
文档频率(Document frequency, df)
对于罕见词项我们希望赋予高权重对于常见词我们希望赋予正的低权重接下来我们使用文档频率df这个因子来计算查询-文档的匹配得分文档频率指但是出现词项的文档数目
34
现代信息检索
idf 权重
dft 是出现词项t的文档数目 dft 是和词项t的信息量成反比的一个值于是可以定义词项t的idf权重:
12
提纲
❶ ❷
上一讲回顾
排序式检索
❸
❹ ❺
词项频率
tf-idf权重计算向量空间模型
13
现代信息检索
排序式检索(Ranked retrieval)
迄今为止，我们主要关注的是布尔查询
文档要么匹配要么不匹配
对自身需求和文档集性质非常了解的专家而言，布尔查询是不错的选择对应用开发来说也非常简单，很容易就可以返回1000多条结果然而对大多数用户来说不方便大部分用户不能撰写布尔查询或者他们认为需要大量训练才能撰写合适的布尔查询大部分用户不愿意逐条浏览1000多条结果，特别是对Web 搜索更是如此
词项 calpurnia animal sunday fly under the dft idft
1 100 1000 10,000 100,000 1,000,000
6 4 3 2 1 0
36
现代信息检索
32
现代信息检索
常见词项所期望的权重
常见词项的信息量不如罕见词考虑一个查询词项，它频繁出现在文档集中 (如 GOOD, INCREASE, LINE等等) 一篇包含该词项的文档当然比不包含该词项的文档的相关度要高但是，这些词对于相关度而言并不是非常强的指示词于是，对于诸如GOOD、INCREASE和LINE的频繁词，会给一个正的权重，但是这个权重小于罕见词权重

b = 0.49
4
现代信息检索
Zipf定律
反映词项的分布拟合度不是太高，但是今本反映词项的分布规律：高频词少，低频词多。
5
现代信息检索
将整部词典看成单一字符串 (Dictionary as a string)
6
现代信息检索
单一字符串方式下按块存储
7
现代信息检索
对间隔编码
8
现代信息检索
14
现代信息检索
布尔搜索的不足: 结果过少或者过多
布尔查询常常会倒是过少(=0)或者过多(>1000)的结果查询 1 (布尔与操作): [standard user dlink 650]
→ 200,000 个结果 – 太多
查询2 (布尔与操作): [standard user dlink 650 no card found]
(其中N 是文档集中文档的数目) idft 是反映词项t的信息量的一个指标实际中往往计算[log N/dft ]而不是 [N/dft ] ，这可以对idf 的影响有所抑制值得注意的是，对于tf 和idf我们都采用了对数计算方式

lecture6-tfidf 信息检索导论王斌 PPT 课件第6章

合集下载

信息检索概论PPT课件

最新课件信息资源检索教程

信息检索课件

信息检索课件汇总全书电子教案完整版课件(最新)

最新信息检索课件教学讲义ppt课件

《信息检索导论》PPT课件

信息检索教程(第三版)PPT6

信息检索教程第六章

信息检索教程第6章网络信息检索

《信息检索导论》课件

lecture2-dictionary 信息检索导论王斌 PPT 课件第2章

《信息检索导论》课件2

信息检索概论课件

文档推荐

最新文档

lecture6-tfidf 信息检索导论 王斌 PPT 课件 第6章

合集下载

信息检索概论PPT课件

最新课件信息资源检索教程

信息检索课件

信息检索课件汇总全书电子教案完整版课件(最新)

最新信息检索课件教学讲义ppt课件

《信息检索导论》PPT课件

信息检索教程(第三版)PPT6

信息检索教程第六章

信息检索教程 第6章 网络信息检索

《信息检索导论》课件

lecture2-dictionary 信息检索导论 王斌 PPT 课件 第2章

《信息检索导论》课件2

信息检索概论课件

文档推荐

最新文档

lecture6-tfidf 信息检索导论王斌 PPT 课件第6章

信息检索教程第6章网络信息检索

lecture2-dictionary 信息检索导论王斌 PPT 课件第2章