搜索引擎垃圾网页检测模型研究
- 格式:pdf
- 大小:432.66 KB
- 文档页数:6
基于改进用户浏览行为个性化搜索引擎系统研究摘要:提出了一种改进用户浏览行为的用户兴趣模型,该模型综合考虑了用户对页面的浏览行为、用户的长期兴趣和短期兴趣。
将这种改进的用户兴趣模型应用于个性化搜索引擎系统中,详述了系统的基本框架、系统基本功能模块,开发了一个演示系统IUBPSES。
模拟实验显示:利用该改进用户兴趣模型的搜索引擎系统进行关键词搜索,其搜索效果优于当前主流搜索引擎系统。
最后,指出了需要改进和进一步研究方向。
关键词:用户浏览行为;个性化服务;搜索引擎;用户兴趣模型;IUBPSES系统0引言用户兴趣模型是存储用户的兴趣偏好、存储和管理用户的行为历史、存储学习用户行为的知识和进行相关推导知识的功能集合<sup>[1]</sup>。
近年来学者对个性化搜索引擎系统中的用户兴趣模型进行了广泛深入的研究,林国<sup>[2]</sup>分析了现有用户兴趣模型的不足,指出了用户兴趣模型的基本结构,提出了个性化搜索引擎中用户兴趣模型的工作过程。
刘东飞<sup>[3]</sup>提出了一种基于群用户兴趣模型的加权全局相关度查询排序算法,改进了搜索引擎的排序结果,为用户提供了较准确的搜索服务。
王微微<sup>[4]</sup>提出了一种基于用户行为的兴趣度模型,分析了用户的行为模式,结合用户的浏览内容发现用户兴趣。
刘文杏<sup>[5]</sup>根据用户的兴趣和喜好提出了一种挖掘用户兴趣的路径浏览模型和算法,使Web 服务器能更快地反馈信息,能够为用户提供更好的信息服务。
郝水龙<sup>[6]</sup>提出一种基于层次向量空间模型(VSM)的用户兴趣模型表示及更新处理机制,采用基于用户浏览行为来计算用户对网页的兴趣度,快速估计网页兴趣度。
郭力军<sup>[7]</sup>改进了基于RSS数据源的用户兴趣模型,模拟实验表明该改进的用户兴趣模型个性化程度较高,对用户兴趣更新及时、准确。
个性化搜索引擎技术研究摘要:个性化搜索引擎是一种用户驱动网页排名结果的优化方式。
基于本体和语义网,用户建模可以作出准确的查询结果,它包括:限定搜索方式、过滤搜索结果,以及成为搜索过程等3种方式。
因此,个性化搜索引擎用户模型可被视为用户驱动个性化搜索服务的模型。
研究结论是整合前人研究并且提出“用户行为(用户兴趣、用户偏好、用户查询记录)-用户文档(用户行为与关键词组)-用户建模(相关性算法与排名算法)-个性化服务”的新模型,可作为数字图书馆发展个性化搜索引擎的指引。
关键词:信息检索;信息搜索;信息搜寻行为; 用户参与;个性化数字图书馆1 技术:优化搜索引擎的方法1.1 用户建模限定搜索方式一个简单(或直接的)实现个性化搜索引擎的方式,就是在用户搜索之前,预设它们的用户兴趣(interest)或用户偏好(preferences)。
当用户登入系统后,系统在用户先前所指定的主题领域内,或者文献类型内,或者文献/网页发布时间内等,有范围地进行检索。
这是一般数字图书馆信息检索系统所采用的个性化系统模式。
目前,这种方式在个性化搜索引擎系统中的应用不多,但是具有两个重要趋势,值得数字图书馆参考。
(1)整合用户兴趣的表单、用户偏好的设定以及网页排名算法,进行个性化搜索服务。
具体技术线路为:结合经典的平面排名名单和搜索引擎,让用户通过选择具有层次结构的文件夹标签(主题),以交互方式查询,在浏览过程中进行知识提取、查询优化和搜索结果个性化。
这种服务模式与个性化数字图书馆相似,但是更着重用户在浏览过程中的二次查询、根据结果进一步查询,以及结合其它情报分析系统的辅助查询等设计。
可说是个性化数字图书馆的进化版本。
(2)从用户行为中,建立用户文档,将用户文档与领域本体(关键词组的关联设定)结合,进行个性化搜索服务。
具体技术线路为:分析用户的点击记录、估计用户兴趣建立本体、利用本体替代用户当前查询的词汇。
当计算用户兴趣以优化查询过程时,需要能够有效地识别用户喜好以及为每个用户建立一个配置文件,一旦这样的配置文件是可用的,还需要在众多查询相匹配方案中确定用户兴趣集。
序号项目名称项目概述1指纹身份识别认证系统指纹份识别系统采用指纹识别技术作为身份鉴别手段,配合功能强大的网络化系统管理平台,是一种高精度、智能化、网络化的防止非授权人员进入的认证系统,指纹识别技术是目前最方便、可靠、非侵害和价格便宜的解决方案。
指纹识别作为识别技术有着悠久的历史,这种技术通过分析指纹的全局特征和局部特征,从指纹中抽取的特征值可以非常的详尽以便可靠地通过指纹来确认一个人的身份。
平均每个指纹都有几个独一无二可测量的特征点,每个特征点都有大约七个特征,我们的十个手指产生最少4900个独立可测量的特征--这足够来确认指纹识别是否是一个更加可靠的鉴别方式。
2网络入侵异常检测系统实现一个基于分布式通信平台的入侵检测系统,将异常检测等入侵检测模块按网络层次分布到网络中的多个节点上去,提高系统的运行性能,加大系统所能监控的网络大小。
包括网络层异常检测技术,应用层异常检测技术,分布式入侵的攻击源反向追踪技术3匿名认证系统匿名认证研究,研究认证中用户身份信息的隐私保护,设计一种以用户属性为认证基点,既能体现隐私保护又能满足认证需求,同时具备追踪用户真实身份能力的隐私认证方法。
这一阶段解决用户申请服务时,服务方认证用户的匿名问题;4研究生学论文跟踪管理信息系统开发一套研究生学位论文预审、送审、跟踪、结果反馈的信息系统5图像缩略图处理FPGA设计在充分理解现存各种缩略图处理算法的基础上,设计一个适合FPGA的缩略图压缩系统。
6图像分类处理FPGA设计在充分理解现存各种图像分类处理算法的基础上,设计一个适合FPGA的图像分类系统。
7人像漫画处理8基于嵌入式的智能家居系统9高质量互联网社区识别技术社区是Web 最有价值的结构特征之一。
社区识别是Web 领域的热点研究课题,在许多实际应用中起着重要的作用。
现有的算法仅通过链接分析识别社区,求解质量偏低,不能满足实际应用的需求。
我们通过前期大量研究和分析工作得出结论:仅通过链接分析不可能精确识别社区。
向量空间检索技术在搜索引擎中的应用研究搜索引擎已经成为了人们获取信息的重要途径,其中搜索技术是其核心所在。
向量空间模型作为一种重要的文本检索技术应用到搜索引擎中,可以有效地解决大规模数据的存储和管理问题,提高用户检索效率和准确度。
一、向量空间检索技术简介向量空间模型是一种通过向量空间表示文本并比较文本相似度的模型。
该模型中的每个文本被表示为一个向量,由文档中的各个词项的频率构成。
这些向量可以用来计算文本之间的相似度,从而实现检索。
向量空间模型的主要优点是可以自动处理和分析文档内容,同时也可以自适应识别文档中的主题信息,优化搜索结果。
因此,在大规模信息检索的应用场景中被广泛采用。
二、向量空间在搜索引擎中的应用在搜索引擎中,向量空间模型可以用于计算文档之间的相似度,从而实现相似度排名,对用户查询的信息进行返回。
具体实现过程如下:1. 文本预处理在进行向量空间模型计算之前,需要对文本进行预处理,包括分词、去除停用词和标点符号等。
这些预处理步骤有助于优化文本向量表示,提高检索效果。
2. 向量空间表示将文本表示为向量是向量空间模型的主要特点,此过程也叫做特征表示。
向量的维度通常等于词汇表大小,每个维度表示一个词语在文档中出现的次数或者权重。
在实际应用中,也可以采用其他特征表示方法,如隐含狄利克雷分布 (LDA)。
3. 相似度计算计算用户查询矩阵和文档向量之间的相似度是检索机制的核心。
常用的相似度计算方法包括余弦相似度和欧氏距离等方法。
其中,余弦相似度通常更受欢迎,因为它不受向量长度的影响。
4. 结果返回计算出文档向量和用户查询矩阵的相似度之后,根据相似度值进行排序,并将结果返回给用户。
结果的排序依赖于相似度算法的选择和查询矩阵的构成。
三、向量空间检索技术的优点向量空间检索技术有以下主要优点:1. 高效性向量空间模型可以快速计算文本之间的相似度,极大地提高了搜索引擎的效率。
2. 精度高向量空间模型能够准确地抓取文本的主题信息,帮助用户获取准确匹配的搜索结果。
专题六:搜索引擎营销模拟练习解析一、填空题1.搜索引擎优化的基本目标是()、(),从搜索引擎中获得更多的免费流量,以及更好的展现品牌形象。
【答案】增加网页收录提高关键词排名【解析】本题考查搜索引擎优化的基本目标。
2.()是用户有明显的购买意向或者动作目的而搜索的关键词。
【答案】事务类关键词【解析】本题考查事务类关键词的定义。
3.()一般比目标关键词字数多,通常用于网站的()、内容页面和专题页面。
【答案】长尾词栏目页面【解析】本题考查长尾关键词的用法。
4.()是指搜索量极少的关键词,在大型网站中处理好此类关键词,其搜索流量也可以带来非常大的占比。
【答案】冷门关键词【解析】本题考查冷门关键词的地位。
5.影响点击量的因素主要是()。
【答案】关键词和创意【解析】本题考察搜索引擎漏斗模型。
二、选择题l.()的基本目标是增加网页收录、提高关键词排名,从搜索引擎中获得更多的免费流量,以及更好的展现品牌形象。
A.SEMB.SEOC.网络营销D.网上销售【答案】B【解析】本题考查搜索引擎优化的基本目标,搜索引擎优化的英文简写为SEO。
2.()一般为较短的主关键词,其搜索量非常大。
A. 热门关键词B. 冷门关键词C.一般关键词D. 长尾关键词【答案】A【解析】本题考查关键词的分类,关键词按照搜索热度分为热门关键词、冷门关键词和一般关键词。
3.以下不属于关键词挖掘方法的是()A.竞争对手网站B.搜索结果top10C.百度相关搜索D. 电话访问【答案】 D【解析】本题考查关键词挖掘的方法,关键词挖掘方法包括竞争对手网站、搜索结果top10、百度相关搜索、官方指数。
4.长尾关键词一般部署在()。
A.首页B.分类页C.标签页D.文章页【答案】D【解析】本题考查关键词的部署,文章页一般部署长尾关键词。
5.SEM漏斗模型的第三层是()A.展现量B.点击量C.访问量D.咨询量【答案】C【解析】本题考查搜索引擎营销(SEM)漏斗模型,该模型共有五层,从第一层到五层是展现量、点击量、访问量、咨询量、定单量。
计算机世界/2006年/6月/12日/第B12版技术专题搜索引擎是一种依靠技术取胜的产品,搜索引擎的各个组成部分,包括页面搜集器、索引器、检索器等,都是搜索引擎产品提供商进行比拼的着力点。
搜索引擎的工作机制章森王伟近几年,搜索引擎的商业化取得了巨大的成功,如著名搜索引擎公司Google、Yahoo(本文中提到Yahoo时,特指英文Yahoo)、百度等纷纷成功上市,引发了众多公司涉足于该领域,带动了人力、资本的大量投入,连软件巨人Microsoft公司也禁不住诱惑积极打造自己的搜索引擎。
但是,从性能上来说,目前的搜索引擎还不尽如人意,搜索返回的结果往往与用户的检索要求相去甚远,有效性还不是很高。
本文将对搜索引擎的工作原理及其实现技术进行分析,从中可以了解限制搜索引擎用户体验改善的因素到底有哪些。
搜索引擎的工作过程大型互联网搜索引擎的数据中心一般运行数千台甚至数十万台计算机,而且每天向计算机集群里添加数十台机器,以保持与网络发展的同步。
搜集机器自动搜集网页信息,平均速度每秒数十个网页,检索机器则提供容错的可缩放的体系架构以应对每天数千万甚至数亿的用户查询请求。
企业搜索引擎可根据不同的应用规模,从单台计算机到计算机集群都可以进行部署。
搜索引擎一般的工作过程是: 首先对互联网上的网页进行搜集,然后对搜集来的网页进行预处理,建立网页索引库,实时响应用户的查询请求,并对查找到的结果按某种规则进行排序后返回给用户。
搜索引擎的重要功能是能够对互联网上的文本信息提供全文检索。
搜索引擎通过客户端程序接收来自用户的检索请求,现在最常见的客户端程序就是浏览器,实际上它也可以是一个用户开发的简单得多的网络应用程序。
用户输入的检索请求一般是关键词或者是用逻辑符号连接的多个关键词,搜索服务器根据系统关键词字典,把搜索关键词转化为wordID,然后在标引库(倒排文件)中得到docID列表,对docID列表中的对象进行扫描并与wordID进行匹配,提取满足条件的网页,然后计算网页和关键词的相关度,并根据相关度的数值将前K篇结果(不同的搜索引擎每页的搜索结果数不同)返回给用户,其处理流程如图1所示。
鲁东大学学报(自然科学版) Ludong University Journal (Na tural Science Edition )2007,23(3):237—240 收稿日期262;修回日期22 作者简介高秀萍(8—),女,助理馆员,硕士,主要从事数字化图书馆研究,()5@y 基于Multi 2Agent 的智能信息检索系统模型研究高秀萍1,赵 伟2(鲁东大学,11图书馆,21网络中心;山东烟台264025)摘要:针对搜索引擎在信息检索过程中存在的缺陷,提出了一种基于M ulti 2Agent 的智能信息检索系统模型,并给出了该模型的结构、工作流程以及功能描述.该系统采用M ulti 2Agent 系统的体系结构和反馈机制,各个Agent 分工协作完成信息检索任务,体现了信息检索的智能化与个性化等特点,为实现高效智能信息检索开辟了新的途径.关键词:M ulti 2Agent ;智能信息检索;搜索引擎中图分类号:TP391 文献标识码:A 文章编号:167328020(2007)0320237204 信息时代,如何从浩如烟海的网络中获取所需要的信息成为一个难题,搜索引擎的出现在一定程度上给出了解决的路径.用户只需输入一些待查找信息的关键词,搜索引擎可迅速检索并将结果网页返回给用户.结果网页是指包含一些超级链接的网页,它们所指向的网站或网页可能包含用户所要查找的信息.目前,Yahoo,G oogle,百度等大型搜索引擎已为用户提供了信息检索功能,但搜索结果都不尽如人意.本文在分析了搜索引擎存在的问题后,提出了一种基于多Agent 的智能信息检索系统模型,可为更好地进行信息检索开辟新的途径.1 当前搜索引擎存在的问题 1)个性化能力差 现有的搜索引擎对所有用户都是一种模式,用相同的关键词查询得到的结果是一样的,即查询不涉及用户的背景知识和兴趣特征,没有对单个用户的浏览模式和浏览行为进行分析的功能,因而不具有提取用户兴趣和根据用户兴趣变化调整搜索策略的能力.简言之,目前的搜索引擎针对的是一般的共性用户,不能适应单个用户的查询需求. 2)信息搜索不准确 搜索引擎返回的检索结果中一般只包含文档的URL 、文献标题和摘要等少量附加信息.用户要在众多的检索结果中确定自己所需要的信息,必须逐个浏览,这是一项极其费时费力的工作.通常,用户只浏览检索结果的前3—5个页面的信息,而对于之后的页面很少浏览,为此,很难找到准确的信息. 3)信息覆盖不全 搜索引擎的发展速度远跟不上Web 的发展速度.文[1]研究表明,任何一个搜索引擎对网络信息的覆盖率都不超过16%.大量动态数据源(如新闻组、论坛等)的出现也使得传统搜索方案不再适用,大量有用信息存储在数据库中,通过程序动态显示,搜索引擎无法对此类数据源进行搜索. 4)信息相关性低 目前主要搜索引擎返回相关结果的比率不足45%[2],而且由于所采用的机制、算法与适用范围的不同,同一搜索请求在不同搜索引擎中查询结果的重复率不足34%[2]. 5)信息的有效性差 由于I nternet 的开放性及动态性,新信息在不断增加,旧信息在不断地更新,搜索引擎的更新和维护难以跟上信息源的发展变化,死链接或不可获得的网页链接经常出现在检索结果中,如何提供有效的能适应信息源变化的机制也是一个值得研究的课题. 6)用户与系统的交互过于简单 并不是所有的用户一开始都有一个较为明确的查询目标,一方面,由于缺乏良好的查询接口,用户不能准确地表达自己的查询请求,而搜索引擎又没有边查询边修正关键词的功能,用户无法通过不断细化或精确化查询词来达到准确表达自己需求的目的;另一方面,系统只负责将结果返回给用户,并:2007014:20070729:197E -m ai l tsg 0tnc .e du .cn.238 鲁东大学学报(自然科学版)第23卷 不关心用户对返回结果的选择或评价,不能充分利用用户的反馈信息来进一步提高系统性能.2 基于Multi2Agent的智能信息检索系统模型211 系统模型的体系结构 Multi2A gent技术是在分布式环境中,多个A2gent相互协作、相互通信共同完成某项任务,因此,它具有高度智能化、适应性强等特点.本文给出的基于Multi2Agent的智能信息检索系统模型设有界面Agent、预处理Agent、控制调度Agent、本地和远端搜索Agent及信息处理A gent(图1).所有Agent均由控制调度A gent统一调控来完成系统的功能,包括信息的检索和自动更新.图1 基于Multi2Agen t的智能信息检索系统模型212 系统模型的工作过程 基于Multi2Agent的智能信息检索过程主要包括以下三个阶段1 1)提交检索请求 界面Agent接收到用户提交的检索请求后,主动细化检索请求,并把细化后的结果交给预处理Agent. 2)规范化检索请求信息 预处理A gent接收到检索请求任务后,首先利用任务中关注领域、关键词、摘要等信息,到所有用户共有的知识库中查找曾利用过的相同领域、类似的关键词作为搜索条件的搜索案例.若在知识库中没有检索到所需案例,预处理Agent借助于Ont ology的相关知识[3],找出出现该关键词的各个领域以及在该领域下的关键词的含义.预处理Agent把搜索到的或者是经过Ontol ogy规范的信息提交给界面A2 ,与用户交互后,用户根据自己意图选择的信息再次反馈给预处理,由其把信息提交给控制调度 3)检索信息 (1)控制调度Agent接收到检索任务后,首先由本地搜索Agent搜索本地信息库和远端信息在本地的索引库,将检索到的信息反馈给界面Agent,界面Agent将信息以文档摘要的形式呈现给用户,供用户选择查看.(2)若本地搜索Agent没有检索到相关信息,则反馈给控制调度Agent的结果为空,此时,控制调度A2 gent派遣远端搜索Agent到I nte r net信息源上进行检索,这时分两种情况:一种情况是,远端搜索Agent到达的信息源有移动Agent平台,搜索A2 gent进行信息搜索处理,把搜索到的信息带回并存入临时文档库;另一种情况是,信息源上没有移动Agent平台,远端搜索Agent将在该信息源上获取页面信息并将其带回,存入临时文档库.(3)信息处理Agent将远端搜索Agent存放在临时文档库的信息进行压缩并存入本地信息库,以备将来其他用户使用;对存放的页面信息建立索引,格式化文档,保存到远端信息在本地的索引库中信息处理在信息库和索引库保存信息的同gentAgent Agent.. Agent 第3期高秀萍,等:基于Multi 2Agent 的智能信息检索系统模型研究239 时,把新文档信息反馈给界面Agent,界面Agent 与用户交互,完成整个检索过程. 为了提高信息检索效率,系统除了提供检索服务外,还提供信息的自动更新服务.控制调度Agent 并不总是等到用户提交检索请求时才派遣远端搜索Agent 到远程信息源上收集信息.首先,预处理Agent 定期从用户的检索申请以及所下载的文档中提取用户的偏好,统计出各个用户最关心的信息以及大多数用户关心的信息,然后把这些信息定时交给控制调度Agent,派遣远端搜索Agent 去搜索信息源上发生变化的信息,以更新本地信息库和远端信息在本地的索引库.213 系统中各个Agent 的功能描述 Agent 是指在分布式系统中持续自主地发挥作用的计算实体.系统中的各个Agent 具有通用的Agent 结构[4],这里只给出了界面Agent 和远端搜索Agent 的结构(图2,3),其他Agent 结构与界面Agent 结构相同.它们独立工作,分别承担不同的角色,互相协作共同完成检索任务. 1)界面Agent 不同用户的需求、偏好以及对计算机操作的熟练程度不同,需要提供有针对性的页面来保证信息输入的正确性与相关性,为此,设计界面Agent 作为一个中间件来连接用户和检索系统,根据用户需求提高系统的易用性和针对性,其结构如图2.界面A gent 的主要功能有,提供个性化的智能用户界面和提示,接受用户检索请求并细化之,提交用户检索请求给预处理A 2gent,保存用户简单文档文件,显示检索结果并反馈给用户.图2 界面Agent 的结构 2)预处理Agent 可能某些用户的检索请求具有很大的相关性或相似性,应该避免重复检索,以提高系统资源的利用率或减少检索时间,达到提高系统检索效率的目的;为了确保信息搜索的准确率和覆盖率,需要借助Ontol ogy 对检索信息进行分类、规范化描述等工作,因此,设置了预处理Agent .它的主要功能有,接受界面Agent 提交的检索请求;到知识库中查找相关或相似信息;借助Ont ol ogy 相关知识,对检索信息进行规范化处理;提交检索任务给控制调度Agent;从用户的检索申请以及下载的文档中提取用户的偏好;对检索到的异构数据进行统一格式化. 3)控制调度Agent 本文的检索系统为多Agent 的集中式体系结构,即Agent 之间的通信和控制模式的选取将影响到整个系统的性能.为了保持系统的一致性与协调性,实现资源的有效管理、控制和调度,设立了控制调度Agent .它是该系统的“司令部”,在系统中起核心作用其主要功能是,保存各的名称、通信地址、能力等状态信息;接收检索任务,在本地和远端搜索之间进行任务分配;协调整个系统的通信;收到检索结果并将其反馈给预处理Agent;定期派遣远端搜索Agent 到远端信息源上收集信息,更新本地信息库和远端信息在本地的索引库. 4)搜索Agent 系统实行信息检索类请求和信息收集类请求并行分布处理的方式,为此,设立了本地搜索Agent 和远端搜索Agent .本地搜索Agent 和系统中的其他Agent 有着相同的结构,远端搜索Agent 为移动Agent,它具有移动Agent 所具有的结构和特点[5](图3).接收到检索任务后,图3 远端搜索Agent 的结构图本地搜索和远端搜索独立进行,这样不用将大量的时间花费在网络传输上,节省了系统资源,提高了检索效率,同时保证了信息的即时性搜索2.Agent Agent.A240 鲁东大学学报(自然科学版)第23卷 gent 的主要功能是,接收检索任务,选择数据源;执行本地或远程搜索;带回搜索结果,过滤掉无法浏览的信息. 5)信息处理A gent 为了提高检索效率,减少信息搜索的网络传输量,设置了信息处理A 2gent .其主要功能是,调用相应的压缩算法对远端搜索Agent 带回存放在临时文档库的文档信息进行压缩,并把压缩的数据存入本地下载信息库;对存放在临时文档库的页面信息建立索引,格式化文档,存入到远端信息在本地的索引库;对远端搜索Agent 搜索到的新文档反馈给界面Agent ;对本地下载信息库进行管理,当新文档到来时,若发现下载信息库中的空间不足存储新文档,则删除长期未被使用的文档;对远端信息在本地索引库进行检索,定期根据本地用户的偏好取出所需的信息索引,同时根据原来已有的文档是否被删除来判断该信息索引删除与否. 系统中除了多个Agent 以外,还设置了知识库、Ont ology 库、本地信息库、远端信息在本地索引库以及临时文档库来存储相关信息.知识库主要存储用户I D 和E 2m ail 等个人信息、搜索案例(用户I D 、搜索I D 、属于的领域、关键词、返回的数据等)、用户偏好等;Ontol ogy 库存储领域集、关键词集以及本体的相关知识等;本地信息库和远端信息在本地的索引库主要存储远端搜索Agent 带回的并经过信息处理Agent 处理的搜索信息;临时文档库用来存储远端搜索Agent 从远端数据源搜索到的相关信息. 本文提出的检索系统模型采用了Multi 2Agent 系统结构及反馈机制,对接收到的检索请求,借助Ontol ogy 的相关知识进行领域分类和规范化描述,增强了语义匹配的准确性;信息检索时,系统设置了本地搜索Agent 和远端搜索Agent,在本地搜索没有发现结果时执行远端搜索,减少了信息在网络中的传输量,节省了网络资源;远端搜索主体为移动Agent,它支持低带宽和不可靠连接,能更好地适应复杂网络拓扑结构并能异步自动执行,提高了信息检索的效率和系统的可扩展性.Agent 的智能学习技术将用来改进搜索效率和提高搜索结果的相关性,在搜索结果成功地反馈给用户的同时,Agent 记录了用户的兴趣,并将其添加到知识库中,定期提取用户偏好,提高了系统的个性化服务水平.参考文献:[1] Kingnff A 1Comparing Search Engines[J ]1Co mputer,1997,30(4):117—118.[2] Selbe rg E,Et zioni O .M ulti 2Engine Search and Co mpa r 2is on U sing the Me taCra w l e r [C ]1Proc of the Fourth Wo rld W ide Web Conference ’95,Bo st on US A,1995.[3] Ont ol ogy .http://w ww .c sie.cyut .edu .t w /T AA I2002/T AA I 2002PDF /Pa ra llel%20Sessi on(A )/A5%20Agent /A5-6.pdf[E B /OL ],[2006-05-25].[4] 张维明.智能协作信息技术[M ].北京:电子工业出版社,2002:24—25.[6] 张云勇.移动Ag ent 及其应用[M ].北京:清华大学出版社,2002:7—33.S tudy on System M odel of In telli gen t I n form a t i onRetr i eva l Ba sed 2on M u lti 2Agen tG AO Xiu 2ping 1,ZHAO W ei 2(11Library,21Net w o rk Center;Ludong Un i versity,Yantai 264025,China)Abstrac t:Because of the li m ita ti on which exists in the inf or ma tion retrieva l p r ocess,it πs p r oposed tha t intelli 2gent infor m ati on r e trieval model based 2on Multi 2Agent .Its syste m structure,workflow,function descri p ti on are given too.The syste m adopts syste m str uc tur e and f eedback m echanis m ofMulti 2Agent syste m.Each Agent co 2operates to finish inf or ma tion r e trieval task,m anif e st the char acte ristics of intellectua lizati on and individuality f f ,T f z y ff 2y 1K y M 2;f ;(责任编辑 司丽琴)o in or m ation retrieval e tc .hisw ill p r ovide ne w appr oach or reali ing the highl e ective intelligent retriev a l s ste m research e wor ds:ulti Agent intelligent in or m ati on retrieva l search engine。
2011年1O月 第3O卷第5期 重庆文理学院学报(自然科学版)
Journal of Chongqing University of Arts and Sciences(Natural Science Edition) 0ct..2011
V01.30 No.5
搜索引擎垃圾网页检测模型研究 贾志洋 ,夏幼明 ,高 炜 ,王勇刚 (1.云南大学旅游文化学院,云南丽江674100;2.云南师范大学信息学院,云南 昆明650092)
[摘要]搜索引擎垃圾网页的检测已经成为近年来机器学习领域的研究热点.在对搜索引擎 垃圾网页及其使用的各种作弊技术进行介绍的基础上,针对各种垃圾网页检测模型进行综述, 分别介绍和分析基于网页内容特征的检测模型、基于链接结构的检测模型、结合网页内容特征 和链接特征的检测模型以及各种其它类型的检测模型,并对搜索引擎垃圾网页检测的未来研 究方向进行了展望. [关键词]搜索引擎;垃圾网页;垃圾网页检测;反作弊 [中图分类号]TP393.083 [文献标志码]A [文章编号]1673—8012(2011)05—0053—05
随着互联网各种网页数量爆炸式增长,用户 使用搜索引擎查找信息已经成为了最近几年信 息检索的主要方式.大多数网站管理者都希望他 们的网站在搜索引擎的搜索结果中排名靠前,很 多的网站管理者会采取合理的搜索引擎优化技 术(SEO) 11,通过在网页中提供给用户更多、更 有效的信息,以提升他们的网站在搜索引擎的搜 索结果中的排名.而有些网站则通过一些“不道 德”的方式来提升在搜索引擎的搜索结果中的排 名.更有甚者,为了吸引访问量,手动或自动地制 造一些网页.这些网页没有提供给用户任何有效 信息.这些网页是直接针对搜索引擎的,但是在 搜索引擎的搜索结果中获得了很高的排名,当用 户查询某些关键词的时候,就有可能访问这些搜 索引擎垃圾网页(Web Spare) . 搜索引擎垃圾网页导致的主要后果为:搜索 引擎检索结果质量下降,搜索引擎公司的资源的 消耗和用户体验的降低.为解决数量日益增长的 垃圾网页产生的各种问题,国内外学者对垃圾网 页及垃圾网页检测都进行了深人的研究.为方便 各国学者进行对比研究,Castillo C.等 组织志愿 者收集整理了WEBSPAM—Ul<2006垃圾网页集. WEBSPAM—UK2006于2006年5月开始,收集了 150 000个UK域名下的总计77 900 000个网页, 其中的垃圾网页都由志愿者手工挑选出,提供给 相关实验研究免费使用.大量的学者都使用WEB— SPAM—UK2006作为其实验样本集.
1 垃圾网页常见检测模型 国内外的学者提出了各种基于机器学习的 垃圾网页检测模型.大多数基于机器学习的垃圾 网页检测模型都将垃圾网页的检测视为一个二 元分类问题.它首先需要学习一个网页分类器, 这个网页分类器可以预测网页的类别:正常网页 或垃圾网页.其分类原理为:首先模拟搜索引擎 的网络爬虫从Web爬行一定数量的网页,然后 手工识别已下载的网页是否为垃圾网页.下载的 网页集被划分为训练网页集和测试网页集,根据 机器学习的算法,使用训练网页集学习分类器, 然后使用分类器对测试网页集中的每一个网页 进行分类预测,以测试分类器的分类效果 . 1.1 基于内容的垃圾网页检测模型 基于网页内容特征分析的垃圾网页检测模 型主要针对采用了关键词堆砌技术的垃圾网页, 其典型为Alexandros Ntoulas等 设计的垃圾网 页检测模型.Alexandros Ntoulas等根据正常网页 和垃圾网页的内容差别,对网页的内容特征进行 了提取,统计了数据集中网页的语言相关和语言
[收稿日期]2011—05—07 [基金项目]国家自然科学基金项目(60903131);云南省教育厅科学研究基金项目(2010Y108) [作者简介]贾志洋(1980一),男,吉林市人,讲师,硕士,主要从事信息检索方面的研究. 53 无关的各种内容特征,并根据统计结果分析可以 作为构建网页分类器的内容特征.为了检测网页 中是否采用了关键词堆砌等作弊技术,Alexan— dros Ntoulas等将数据集中的网页压缩并计算其 被压缩前后所占空间大小的比值,这个比值被称 为网页压缩率(Compression ratio)Ls J,并计算了 数据集中每个网页的压缩率,统计得出网页压缩 率的分布如图1 .从图l中可以观察到,网页 压缩率的分布服从正态分布,在2.0位置达到最 高点,在压缩率大于4.0时,网页是垃圾网页的 可能性大于70%,故网页压缩率为判定网页是否 作弊的一个较好的特征.除了网页压缩率特征 外,Alexandros Ntoulas等还统计分析了网页单词 数量、标题单词数量、单词平均长度、链接数量、 可视文本率、常用词出现率、n—gram相似度、网 页URL长度等内容特征.根据提取的网页内容 特征,然后将垃圾网页的检测看成一个二元分类 问题,基于C4.5决策树算法通过训练网页集学 习一个分类器,对测试网页集的网页的类别进行 预测.由于忽略了网页之间的链接关系,这种基 于网页内容的垃圾网页检测模型在检测关键词 堆砌类型的垃圾网页时具有较好的效果,而对链 接堆砌类型的垃圾网页检测效果则不佳,故此基 于内容特征的垃圾网页检测模型的准确率有限. 图1 网页压缩率的分布与垃圾网页 1.2基于链接结构的垃圾网页检测模型 大多数垃圾网页都采用了链接堆砌技术以 提高其在搜索结果中的排名.基于链接结构的垃 圾网页检测模型可以有效地检测此类垃圾网页. 这类垃圾网页检测模型都基于某一个假设:正常 网页只指向(被指向)正常网页或垃圾网页指向 (被指向)垃圾网页.这类算法的原理都很类似, 都是可信度(不可信度)传播算法,从一个已经 54 标定为可信(垃圾)网页的集合开始(种子网页 集),通过可信度或不可信度传播的原则对所有 的网页节点进行可信度和不可信度的计算,其中 经典模型为可信度正向传播的TmstRank算 法 . 1.2.1 TmstRank检测模型 TrustRank模型是PageRank" 算法的一个变 形,区别在于TrustRank算法从种子集合起始向 其他网页传播可信度,而PageRank算法在全局 根据链接信息进行PageRank值的计算.Trus— tRank算法的前提假设是:“可信网页的链接所 指向的网页通常也是可信网页”。。 .TmstRank算 法分为两个步骤: 第一步,它根据逆向PageRank计算的数值 向量,对所有节点进行从高到低的排序,挑选出 一定数量的PR值较高的网页节点,形成种子集 合,通过专家评测这些种子网页节点,把他们标 记为垃圾网页(spam)和可信网页(reputable).经 过人工评测后的种子集合才可以作为真正的种 子集合被TrustRank所使用.所有选出的种子节 点在评测后形成向量d,如公式(1) 所示. d㈩:f ,if pag 。Pu bl , (1) 【O.ifpage i is spam 第二步,为了利用PageRank的算法传播信 任值,需要对d进行归~化操作,如公式(2) 所示. d=d/l d I. (2) 然后将d替换为均一向量f ,利用同样的算 法进行迭代计算,直至算法收敛,TrustRank的计 算公式为。。 : t=(1一 )×T×t+ ×d. (3) 公式(3)中,t是TrustRank值向量,d偏向于 在种子集中的可信网页,而在PageRank算法中 随机跳转的向量元素皆为1/N.因为在网络中普 通的链接并不都具有可信任性,而TrustRank中 评测的可信网页所发出的链接常具有可信任性, 进而比PageRank算法更加的可靠,因为它利用 了人工评测的可信信息,并将这些信息通过链接 结构进行传播.与PankRank算法类似,TrustRank 的可信度进行可信度传播时采取了衰减和分裂 策略,即距离种子网页越远(从链接的层次考 虑),其从种子网页获取到的可信度就越小.假如 一个网页从种子网页集中的一个网页的出链接 获取到可信度IB,那么这个网页的出链接指向的 网页可以从这个网页获取到可信度为卢X ,这 种策略称之为可信度衰减(Trust dampening)。。 . 假如一个可信网页只有一个出链接,那么这个链 接指向的网页应具有较高的可信度;相反,如果
一个可信网页具有上百个出链接,那么这些链接 中的某一个就可能指向垃圾网页.这是基于这样
一个假设:“TrustRank算法在网页的可信度进行 传播的时候将自身的可信度分裂(Trust splitting). ” TrustRank可以有效地区分垃圾网页和可信 网页,因为它使用了人工评测的信息(种子网页 集),这些信息不容易被垃圾网页(制造者)所影 响.因此同PageRank相比,TrustRank通过种子 集合和链接结构能够赋予可信网页较高的Trus- tRank值,而给作弊节点较低的TrustRank值,从 而有效地检测作弊行为.但是TrustRank所依赖 的种子集合的质量和数量会对它的算法性能产 生影响.首先,如果种子网页集合的可信网页数 量比较小,或者其中可信网页的比例比较小,根 据TrustRank定义的衰减传播方法,种子网页集 合对于其他网页的影响会较小,因此就失去了 TrustRank算法的传播可信度的意义.此外,如果 种子网页集合只隶属于少数的话题或者领域, TmstRank的排序结果会把没有出现的话题和领 域的网页排名靠后,而提升那些同种子集中相同 话题或领域的网页.再次,如果网页集合中的网 页含有从可信网页到垃圾网页的链接,这样的种 子集合也不适用于做种子网页,因为它们不符合 可信网页指向可信网页的前提.TrustRank算法 的效率会依赖于种子集合的质量和数量,若要较 好地发挥TrustRank算法的垃圾网页检测效果, 就要能保证找到一个合适的种子集合.此外,此 类基于链接结构的迭代算法都具有类似的弱点, 即忽略了网页本身的内容信息,而且会对部分垃 圾网页造成误判.针对以上问题,Baoning Wu 等_8 提出了Topical TrustRank算法,其主要思想 是:首先使用主题信息将种子子集进行分类,然 后针对每个主题单独计算可信度.这一算法克服 了TrustRank的缺点. 1.2.2类TrustRank检测模型 BadRank 与Anti—TrustRank No 3检测模型 十分类似,皆为不可信度的传播算法.以 BadRank为例,BadRank基于这样一个假设:如 果一个网页的一个出链接指向了一个BadRank