Web Search 近期历史
1995年博士生Larry Page开始学习搜索引擎设计,于 1997年9月15日注册了的域名,1997年底, 开始提供Demo。1999年2月,Google完成了从Alpha 版到Beta版的蜕变。Google公司则把1998年9月27日 认作自己的生日 Google在Pagerank、动态摘要、网页快照、多文档格 式支持、地图股票词典寻人等集成搜索、多语言支持、 用户界面等功能上的革新,象Altavista一样,再一次永 远改变了搜索引擎的定义 主要的进步在于应用链接分析根据权威性对部分结果 排序
智能Agent系统是指一种处于一定环境下包装的计 算机系统
它除了具有自治性、社会能力、反应能力和自发行为 还具有一般人类所有的知识、信念、意图和承诺等心智 状态,这使得智能Agent系统具有人类的社会智能
将Agent技术用于采集,像人一样感知用户的兴趣 变化,使得采集有更强的灵活性、适应性和自主 性 典型代表:InfoSpiders ,Letizia
Web搜索引擎系统组成
Web搜索引擎系统可以被分成以下四个 大的子系统:
Web数据采集系统 网页预处理系统 索引检索系统 检索结果排序系统
Web搜索引擎体系结构
小型的搜索引擎系统一般是集中式的结构
系统实现简单,花费的资源比较少 自身处理能力比较弱,能支持同时访问用户数量也比较小
Web Challenges for IR
数据的分布性:文档散落在数以百万计的不同服务 器上,没有预先定义的拓扑结构相连。 不稳定的数据高比例:许多文档迅速地添加或删除 (e.g. dead links). 大规模:网络数据量的指数增长,由此引发了一系 列难以处理的规模问题。 无结构和冗余信息:每个HTML页面没有统一的结 构, 许多网络数据是重复的,将近 30% 的重复网页. 数据的质量: 许多内容没有经过编辑处理,数据可 能是错误的,无效的。错误来源有录入错误,语法 错误,OCR错误等。 异构数据:多媒体数据(images, video, VRML), 语 言,字符集等.