4.1.2 信息检索技术
❖ 信息检索过程始于用户输入一个查询字符串,该字 符串是信息需求的形式化表示。在信息检索中,一 个查询字符串可以识别出数据库中多个文档,这些 文档的相关性可能不同。
三种经典信息检索(IR)模型 :
布尔模型 统计模型 适量空间模型
❖ 布尔模型:文档被表示成关键词集合,查询被表示 关键词的成布尔表达式(And, Or, Not),其输出是 文档的相关与否,而没有匹配或排名。
❖ 算法要分析的另外一个要素是页面与其它页 面的的链接方式。通过分析页面如何相互链 接,搜索引擎就能决定页面的主题(假如被 链接页面的关键词相似于原页面的关键词) 和页面是否被认为是重要的 。
❖ 基于链接分析的算法,提供了一种衡量网页 质量的方法:独立于语言、独立于内容。
1 PageRank算法
❖ 统计模型:把文档表示成关键词集合(无序),被取 样的单词相互独立,根据词频对文档进行排序。
❖ 矢量空间模型:每个文档被表示成高维空间中的一 个矢量,查询也被表示成一个矢量,比较查询和文 档集合,找出最接近的文档组。大多数查询系统计 算数据库中文档匹配查询字符串的程度,并按排名 依次显示。计算方法有统计法、信息论法和概率法 等,这些方法大都基于矢量空间模型
“爬取”策略
❖ 将Web看作是一个有向图,搜集过程从给定 的起始url集合S开始,沿着网页中的链接, 按照一定的策略(先深/先宽/others)遍历。
❖ 这个过程象蜘蛛(spider)在蜘蛛网(Web) 上爬行(crawl)
维护URL
❖ 系统进行第一次全面的网页搜集之后,维护 相应的URL集合,以后的搜索基于此集合。
-主流搜索引擎
4.1.1 搜索引擎的工作原理
❖ 搜索引擎有两个重要组成部分,即离线部分 和在线部分。离线部分由搜索引擎定期执行, 包括下载网站的页面集合,并经处理把这些 页面转换成可搜索的索引。在线部分在用户 查询时被执行,根据与用户需求的相关性, 利用索引去选择候选文档并排序显示。