第3章 搜索引擎性能评价
- 格式:doc
- 大小:33.00 KB
- 文档页数:13
搜索引擎的主要性能评价指标
根据建立搜索引擎评价指标体系的若干原则,我们认为可以建立以下搜索引擎主要性能评价指标,它包含以下几个部分:
1.搜索引擎索引库的相关评价指标索引数据库的构成是搜索引擎检索性能优劣的基础,由此我们把它摆在评价指标的第一部分来考虑。
搜索引擎索引库的评价指标应该包括索引标引数量、标引的文件种类、标引深度和更新频率等方面。
由于索引标引数量我们难以检测,可以通过本文后面提到的“相关查全率”来间接反映,故这里把它剔除。
索引标引深度内含几方面的内容,如全面索引或部分索引、是否考虑超文本的不同标记所表示的不同含义和是否收集页面中的超链接等,而且索引数据库标引的深度直接影响检索效果,所以我们把它细分为三方面。
2 .搜索引擎检索功能的相关指标搜索引擎检索功能的评价指标主要包括:基本检索、高级检索、目录式浏览检索和其他功能检索。
搜索引擎性能评价何晓艳;朱俊东【摘要】@@ 搜索引擎是当今网络信息检索的主要工具,它在满足人们从互联网上快速、准确、全面的获取信息的需求方面发挥了重要的作用.但是,由于各种搜索引擎所采用的技术和服务对象的不同,它们之间的各项性能差异很大.因此,通过对搜索引擎进行合理的评价,不仅有利于用户的选择与使用,而且有利于其本身的改进和发展.目前大多数评价方法主要以描述为主,通常只能对搜索引擎进行定性或部分定量描述,不能系统、全面的对不同搜索引擎进行综合评价.因此,建立搜索引擎综合评价体系,通过数学方法进行综合评价,具有较大的现实意义和应用前景.【期刊名称】《河北联合大学学报(医学版)》【年(卷),期】2010(012)002【总页数】2页(P279-280)【关键词】搜索引擎;评价指标体系;多级模糊综合评价【作者】何晓艳;朱俊东【作者单位】华北煤炭医学院信息中心,河北唐山,063000;华北煤炭医学院信息中心,河北唐山,063000【正文语种】中文【中图分类】G633.67搜索引擎是当今网络信息检索的主要工具,它在满足人们从互联网上快速、准确、全面的获取信息的需求方面发挥了重要的作用。
但是,由于各种搜索引擎所采用的技术和服务对象的不同,它们之间的各项性能差异很大。
因此,通过对搜索引擎进行合理的评价,不仅有利于用户的选择与使用,而且有利于其本身的改进和发展。
目前大多数评价方法主要以描述为主,通常只能对搜索引擎进行定性或部分定量描述,不能系统、全面的对不同搜索引擎进行综合评价。
因此,建立搜索引擎综合评价体系,通过数学方法进行综合评价,具有较大的现实意义和应用前景。
根据对搜索引擎基本结构、基本原理和主要功能的分析,我们把搜索引擎评价指标定义为索引构成、检索功能、检索效果、检索结果和用户交互五类[1,2]。
1.1 索引构成指标①标引数量 (万个)。
②标引范围 (种)。
标引范围由 FTP文件、WWW文件、Newsgroup文件、USENET文件和全文标引构成。
搜索引擎检索功能的性能评价研究搜索引擎作为现代社会获取信息的重要工具,其检索功能的性能直接影响着用户的信息获取体验。
随着互联网信息的爆炸式增长,搜索引擎检索功能的重要性日益凸显。
本文将介绍搜索引擎检索功能的基本概念、作用及其发展现状,并综述当前的性能评价研究现状、常用指标和评价方法,最后对比不同指标或评价方法的优缺点,分析其适用场景和应用前景,并提出未来发展方向。
搜索引擎检索功能是指搜索引擎通过一定的算法和策略,从互联网海量的信息中提取出与用户输入的关键词相关的有用信息。
这些信息可以是网页、图片、视频等多种形式。
搜索引擎检索功能的主要作用是帮助用户快速、准确地找到所需信息,提高信息获取的效率和准确性。
随着互联网信息的不断增加,搜索引擎检索功能的性能也面临着越来越大的挑战。
对于搜索引擎检索功能的性能评价研究,当前常用的指标包括准确率、召回率、F1得分、平均绝对误差等。
其中,准确率是指检索到的结果中与用户输入关键词相关的比例,召回率是指所有与关键词相关的结果中被检索到的比例,F1得分是准确率和召回率的调和平均数,平均绝对误差则反映了检索结果与真实结果之间的差异。
还有一些新的评价指标,如语义匹配度、用户满意度等,但这些指标的客观性较差,主观性较强。
评价方法方面,主要有基于排序的评价方法和基于分类的评价方法。
基于排序的评价方法是根据检索结果与用户输入关键词的相关程度对结果进行排序,将排在前面的结果视为更有用的结果。
常见的基于排序的评价方法有PageRank算法、BM25算法等。
而基于分类的评价方法则是将检索结果分为与关键词相关的类别和无关的类别,通过分类准确率等指标来评价检索结果的性能。
不同指标或评价方法都有其优缺点。
准确率和召回率是经典的指标,简单易懂,但无法全面反映检索结果的性能。
F1得分则在一定程度上解决了这个问题,但仍然存在一定的局限性。
平均绝对误差指标直观易懂,但计算复杂度较高且无法反映检索结果的全局性能。
搜索引擎的特点与评价标准一、搜索引擎的分类搜索引擎按其工作方式主要分为三种,分别是全文搜索引擎、目录索引类搜索引擎和元搜索引擎。
全文搜索引擎是名副其实的搜索引擎,国外具有代表性的有Google、Fast/AllTheWeb、AltaVista、Inktomi、Teoma、WiseNut等,百度(Baidu)目前所做的应该属于全文搜索引擎。
由于它们都是通过从互联网上提取的各个网站的信息(以网页文字为主)而建立的数据库中,检索与用户查询条件匹配的相关记录,然后按一定的排列顺序将结果返回给用户。
虽然百度拥有自己的检索程序,并自建网页数据库,搜索结果直接从自身的数据库中调用,但它们所能提供的信息绝大程度上由它所搜索的网站决定的。
评价标准及其局限性在搜索引擎的发展初期,人们对它的要求较低,只要它能把互连网上相关的网站搜出来,搜到的网站尽量多一点,无关的网站能少一点就能满足。
所以那时候,人们评测搜索引擎的方法是用几个关键词,测试对比它们的搜索速度、搜索数量和无关网站的多少。
简单说就是全、快、准。
而那时的搜索引擎技术大家差别不大,所以这样的评测方法是可行的。
此后,独特的搜索引擎技术此起彼伏,层出不穷,到现在明显处于战国时代。
但是,人们的评测方法却没多大变化,现在常见的评测还是简单的用几个关键词比较搜索速度、搜索结果数量和各自介绍的搜索准确性。
搜索引擎的评价标准与目前搜索引擎的发展状况并非完全吻合。
下面,我们就目前常用的评价指标进行分别介绍。
第一,搜索引擎的查全率。
既然是搜索引擎,当然比较搜索的范围就应该首当其冲。
但是,由于收录网页的数量都是各搜索引擎自己宣布的,未可全信,而同一个关键词的搜索结果却是显而易见的,所以一般的评测都以这个为准。
但以这个为准仍有很多不足之处,因为多数象样一点的搜索引擎都可以找出一批关键词来证明它的搜索结果是最全的。
因为网页索引数量虽然有大小,但robot和spider程序不同,索引范围和索引标准也不尽相同,在最大的搜索引擎上搜不到的有可能在小得多的搜索引擎上搜到。
搜索引擎检索功能的性能评价研究4-6 摘要Abstract 6-8 1 绪论12-60 1.1 选题意义12-13 1.2 搜索引擎研究文献13-24 1.2.1 搜索引擎研究的著作13-15 1.2.2 搜索引擎研究的论文15-22 1.2.3 搜索引擎研究的会议22-23 1.2.4 搜索引擎研究的科研项目23-24 1.3 搜索引擎评价研究现状24-58 1.3.1 搜索引擎评价研究的内容24-35 1.3.2 搜索引擎评价的研究方法35-43 1.3.3 搜索引擎评价指标体系及测试集43-54 1.3.4 搜索引擎评价研究的特点54-57 1.3.5 搜索引擎评价研究的不足57 1.3.6 搜索引擎评价研究的发展趋势57-58 1.4 研究方法和研究工具58-591.5 主要创新点59-602 基于相关性的搜索引擎检索功能评价体系60-85 2.1 搜索引擎的选取60-66 2.1.1 搜索引擎市场的变化60-61 2.1.2 搜索引擎的选取61-66 2.2 检索功能的选取66-71 2.3 检索式的选取71-77 2.3.1 检索式的构成71-74 2.3.2 检索式的选取方式74-75 2.3.3 检索式的确立75-77 2.4 相关性的评价指标77-82 2.4.1 网页的形式77-80 2.4.2 网页的内容80-82 2.5 检索结果排序的评价指标82-85 2.5.1 排列次序82-832.5.2 排序的稳定性83-853 搜索引擎检索功能性能的评价方法85-98 3.1 假设的提出85 3.2 相关性的评价方法85-94 3.2.1 检索式的描述86-88 3.2.2 相关性的表示方法88-893.2.3 相关性的计算方法89-903.2.4 数据采集方法90-943.2.5 数据分析方法943.3 检索结果排序的评价方法94-984 搜索引擎检索功能的检索效率评价98-1374.1 Google检索功能的检索效率评价98-1034.2 Yahoo!检索功能的检索效率评价103-1074.3 MSN/Live/Bing检索功能的检索效率评价107-1114.4 百度检索功能的检索效率评价111-1154.5 谷歌检索功能的检索效率评价115-1204.6 中英文搜索引擎检索效率比较分析120-1374.6.1 搜索引擎的题名检索效率120-1234.6.2 搜索引擎普通检索效率123-1264.6.3 搜索引擎短语检索效率126-1294.6.4 搜索引擎PDF检索效率129-1324.6.5 搜索引擎URL检索效率132-1375 搜索引擎检索功能的检索结果排序评价137-1555.1 Google检索结果排序评价137-1405.2 Yahoo!检索结果排序评价140-1435.3 MSN/Live/Bing检索结果排序评价143-1475.4 百度检索结果排序评价147-1505.5 谷歌检索结果排序评价150-1545.6 中英文搜索引擎检索结果排序质量比较154-1555.6.1 英文搜索引擎的检索结果排序质量比较1545.6.2 中文搜索引擎的检索结果排序质量比较154-1556 基于实证的中文搜索引擎优化策略155-1606.1 Web2.0对搜索引擎的影响1556.2 搜索引擎评价中发现的问题155-1576.3 中文搜索引擎优化对策157-160参考文献160-171读博期间参与的科研课题及发表的论文171-172致谢172-174Study on the Evaluation of Performance of Search Engines' Fea 【英文题名】tures【作者】费巍;【导师】彭斐章; 张进;【学位授予单位】武汉大学;【学科专业名称】图书馆学【学位年度】2010【论文级别】博士【网络出版投稿人】武汉大学【网络出版投稿时间】2010-09-03【关键词】搜索引擎; 信息检索; 评价; 相关性; 排序; 优化;【英文关键词】search engine; information retreieval; evaluation; relevance; ranking; optimization;【中文摘要】搜索引擎评价研究是信息检索领域研究的热点之一,网络信息和信息检索技术的发展推动了搜索引擎实践的发展。
信息资源开发与管理实验报告实验名称:检索性能评价姓名:** 学号:2016***** 专业:信息管理与信息系统班级:16***指导教师:**实验成绩:批阅教师签字:一、实验目的通过绘制P-R图、11点插值图和计算MAP比较百度和谷歌的检索性能,加强对单个查询检索性能评价方法的应用能力,进一步巩固和理解课堂中所学的信息检索性能评价方法。
二、实验内容与实验步骤(一)实验内容以百度、谷歌为例,在两个搜索引擎中输入同一个Query,并设定该Query的相关文档总数为*** 篇。
查看前20条返回的记过的相关性,对检索性能进行评价,并绘制P-R图、11点插值图,分别计算百度和谷歌的MAP。
(二)实验步骤1.复习信息检索评价方法原理及P-R图、11点插值图绘制方法,学习并掌握使用Excel绘制图表方法;2.在百度、谷歌中分别输入相同的检索词,统计前20个结果hit情况并计算对应的precision、recall值及11点对应的precision值;3.绘制P-R图、11点插值图,计算MAP;4.评价并比较谷歌和百度的检索性能。
三、实验环境1.操作系统:windows 72.软件:Excel2007四、实验过程与分析1.在百度和谷歌中输入检索词:tcp/ip协议工作原理,得到检索结果部分如下图1所示:2.用Excel分别统计不同搜索引擎前20个结果的hits、presicion、recall、和11点对应的值。
如图所示:3.绘制百度、谷歌P-R图并比较。
百度、谷歌P-R图分析:******************5.绘制百度、谷歌的11点插值图并比较检索性能。
百度、谷歌11点插值图分析:**************************6.分别计算百度和谷歌的MAP。
(1)百度MAP=(1/1+2/2+3/3+4/7+5/8+6/9+7/10+8/17+9/20)/20=(2)谷歌MAP=五、实验结果总结与思考。
第3章搜索引擎性能评价第3章搜索引擎性能评价搜索引擎的性能评价是性能改进的重要环节。
“实验”、“评价”、“改进”三者间的关系如下图所示。
搜索引擎系统评价? 客观、公平、全面。
? 借鉴信息检索的Cranfield 评价体系,结合互联网应用特点,总结出了一些评价方案。
搜索引擎评价与Cranfield 评价体系搜索引擎评价的角度? 商业市场角度:通过用户使用调查,获取评价数据,形成市场调查、行业发展、市场监测报告;? 学术研究角度,基于信息检索评价技术框架的搜索引擎性能评价。
信息检索评价? 检索效果(Effectiveness)、效率(Efficiency); ? 信息检索系统评价主要针对检索效果(Effectiveness)而非效率(Efficiency); 对搜索引擎系统的评价,也主要针对检索效果(Effectiveness)。
相关研究? 1955年,Kent提出了“准确率/召回率”的信息检索评价框架;? 20世纪50年代末到60年代,英国Cranfield 工程建立了基于查询样例集、正确答案集、语料库的评测方案。
其评价方法一般称为Cranfield方法框架。
1 Cranfield体系的三个环节:? 查询样例集合确定:抽取最能表示用户信息需求的一部分查询样例,构建一个规模恰当的集合;? 正确答案集合标注:针对查询样例集合,在语料库中寻找对应的答案;? 将查询样例集合、语料库输入检索系统,系统反馈检索结果,利用评价指标对检索系统结果和正确答案的接近程度进行评价,给出用数值表示的评价结果。
Cranfield体系的四个因素:? 语料库集合;? 查询样例集合;? 正确答案集合;? 评价指标。
使用Cranfield评价体系评价搜索引擎? 不需准备专门的语料库集合;? 对搜索引擎系统,语料库集合就是万维网数据的全体;? 搜索引擎可利用网页抓取子系统自行获取万维网数据。
? 需要构建查询样例集合、正确答案集合、评价指标。
查询样例集合构建定义:查询样例集合是评价搜索引擎性能时,模拟用户实际需求提出的查询(query)集合。
查询样例集合构建的三原则:真实性、代表性、信息需求表述的完整性。
1 查询样例集合构建的真实性构建查询样例集合时采用真实的搜索引擎用户查询? 反映用户的真实信息需求; 2 ? 保证评价的结果与用户的真实感受相吻合。
国内外的信息检索系统评测,重视查询样例集合真实性? 文本信息检索会议(TREC)采用微软Live 或Yahoo !等搜索引擎提供的真实查询样例;? 北京大学网络中心组织的搜索引擎与网络信息挖掘(SEWM )评测也采用了来自天网搜索引擎的真实查询样例。
获取真实的搜索引擎用户日志有困难,解决办法? 通过搜索引擎公开发布的用户行为日志样例来获取真实查询;? 借助搜索引擎提供的热门查询展示服务来获取真实的用户查询。
://// 具有足够的代表性吗? 2 查询样例集合构建的代表性代表性是指构建的查询样例集合要能够反映用户群体的查询偏好? 人力、物力资源的限制,构建的查询样例集合规模不能太大? 如何用少量的查询样例集合代表大多数用户的查询偏好?? 需分析搜索引擎用户查询频率的分布情况。
搜索引擎处理的用户查询数目十分庞大3 ? 2003年,谷歌每日处理的查询请求数达到亿个。
? 本书作者对某中文搜索引擎网站一个月内的部分查询日志进行了分析,结果表明,这部分查询日志的查询请求数达到了10多亿个。
这些数量庞大的查询请求并非两两不同,而是集中在若干个查询上。
? 作者分析的搜索引擎查询日志中,“百度”这一查询的查询请求次数就达18 万次以上。
? 观察查询频率的分布时发现,查询频率最高的一部分查询集中了大多数的用户查询请求。
? 查询日志涉及的独立查询数共1500万个,查询频度最高的10000个查询就集中了超过56%的用户查询请求。
? 说明搜索引擎查询频度的分布符合“二八定律”。
用户查询频率的分布规律的存在:? 使用高频查询样例集合代表大多数用户的查询请求;? “搜索风云榜”的存在,使得既具有合理性,也具有可行性。
缺点:查询样例集合构建没顾及查询频度低的用户查询。
最好,既控制好样例集合的规模,又保证各种查询频度的用户查询数据能够被采样到。
4 3 查询样例集合构建中信息需求表述的完整性搜索引擎交互方式“关键词查询+选择性浏览”特点、原因? 用户用简单的关键词作为查询提交给搜索引擎;? 用户希望少用键盘输人、多用鼠标点击进行交互;? 80%的英文用户,95%以上的中文用户不用“高级查询”功能;? 查询所包含的平均词数为个? 搜索引擎不是反馈检索目标页面,而是可能的检索目标页面列表;难以通过简单的关键词准确的理解用户的查询意图,只能将有可能满足用户需求的结果集合以列表的形式返回,无法提供准确的检索目标。
? 用户浏览列表,选择满足信息需求的内容、浏览。
搜索引擎用户信息需求的类别:导航类:用户检索时具有确定的检索目标页面,目的是查找某个已知存在的页面资源。
“清华大学本科招生网”:“导航类”信息需求信息类:用户检索时没有确定的检索目标页面,目的是查找与某个主题相关的信息。
“手足口病症状”:“信息类”信息需求。
事务类:用户检索时没有确定的检索目标页面,目的是查找与某个特定需求相关的资源。
“潜伏在线观看”:“事务类”信息需求例:同一个“魔兽争霸”查询请求,三种可能性都存在。
问题: 5? 同一个查询请求,有可能信息需求却截然不同。
? 这对搜索引擎处理用户查询造成了很大的困难;? 对构建查询样例集合的过程设置了障碍。
如果没有确定用户的信息需求,则无法准确地确定用户的查询目标页面。
解决的办法:( l)尽量选取信息需求描述得比较明确的用户查询。
? “清华大学本科招生网”:是明确的“导航类”信息需求; ? “潜伏在线观看”:是明确的“事务类”信息需求; ? “手足口病症状”:是“信息类”信息需求。
但应在满足“真实性”和“代表性”的前提下进行。
(2)对查询样例集合的信息需求类别加以规定。
TREC : Home Page Finding(主页查找)、Named Page Finding(命名网页查找)子任务是针对“导航类”信息需求设定的评测任务;Topic Distillation(主题提取)子任务则是针对“信息类”需求而设定的评测任务。
国内的SEWM 评测也沿袭了这一评测体系,将评测任务分为主题提取和导航搜索两个子任务。
( 3) 可以对每个查询的信息需求给予详细的描述。
构建查询样例集合时,不仅可以列出查询文本,而且还可以撰写对应查询的信息需求描述,以便在进行后续的目标页面集合构建时有章可循。
根据研究,导航类、信息类、事务类信息需求在用户使用搜索引擎行为中的比例约为20%、50%、30%,查询样例集合中相应信息需求样例的比例要符合这个比例关系。
6 正确答案集合构建定义:正确答案集合就是对应查询样例集合的目标页面集合。
Cranfield 评测方法中,正确答案是依照查询样例从语料库集合中标注出满足查询样例信息需求的文档。
查询样例网页对搜索引擎的性评价任务,语料库集合为全体万维网数据。
2002年,Web有100亿静态页面、1500亿动态页面。
TREC统计,在800万文档集合上,针对1个查询样例的正确答案评判,需9个人月。
那么对100亿静态页面进行针对一个查询样例的标注,需要一千个人年。
TREC的“结果池过滤技术”( pooling technology) (l)根据数据规模的大小,选择适当的查询结果集合规模N。
(2)对于某个查询样例Q,使用不同的待评测系统(T1,T2,…,Tn)对大规模文档集合进行检索,并分别得出各自的查询结果集合(RC1,RC2,…,RCn) ,其中| RCi |= N , ( i = 1,2,…,n)。
(3)构建结果池,pool = RC1 ∪RC2∪…∪RCn。
(4)对上述结果池中的结果进行标注,其中符合查询样例Q的信息需求的集合即为Q的正确答案集合。
搜索引擎评价指标7 传统信息检索系统的评价指标为“准确率/召回率”。
定义如下两个文档集合:Retrieved集合,待评测检索系统处理查询样例后返回的结果集合。
Relevant集合,正确答案集合。
准确率( Precision ,查准率)定义为:准确率衡量的是检索系统所返回的结果列表中正确答案的比例召回率(Recall ,查全率)定义为:召回率衡量的是正确答案集合中有多大比例的答案在检索系统返回的结果列表中。
检索系统的准确率、召回率同时都高:? 大部分正确答案被检索系统找到;? 返回的结果列表中非正确答案较少。
提高准确率与提高召回率,存在一定矛盾:8 搜索引擎性能评价中常用的评价指标。
1. 前n选精度( Precision at n , P@n ) 搜索引擎返回的结果序列前n位结果中正确答案的比例。
例: P@10= 表示在搜索引擎系统返回的前10篇结果文档中有4篇是正确答案。
于导航类信息需求对应的正确答案唯一,因此P @ n 指标通常用来评测信息类或者事务类查询的性能。
2. 前n选成功率( Success at n , S@n) 搜索引擎结果序列的前n篇结果文档中是否有正确答案。
例如S @ 10=1 :前10个结果中有某个结果是正确答案,可以满足用户需求。
S @ 10 =0:前10个结果中没有正确答案。
不存在S@10的数值既不为1,也不为0的情况。
3 首现正确答案排序倒数(Reciprocal Rank of First Correct Answer , RR) 定义:首现正确答案排序倒数是指检索系统返回的结果序列中第一个满足用户需求文档出现序号的倒数。
RR=1表示检索系统返回的结果中,第一个结果就满足用户需求。
RR通常用来评价导航类信息需求的性能,因为这类信息需求对应的查询样例只要有一个正确答案就可以满足用户需求。
9 例:下图的三个结果序列,正确答案出现的数目,以及除排名最靠前的正确答案之外的正确答案在结果序列中的排序都是一致的,其差别只在于首次出现的正确答案的结果排序。
“首现正确答案排序”分别为1、2、3 ,其对应的“首现正确答案排序倒数”分别为1、、。
4. 平均准确率(Average Precision , AP) 定义:平均准确率(AP)是指检索系统返回每一个正确答案文档时准确度的平均值10 例:下图两个结果序列,正确答案文档数目为 6 ,通过评价”前N位”结果构成的结果集合对应的”准确率/召回率”可以得到图中所示的准确率和召回率数值。
结果序列1中第1、3、4、5、6、10位为正确答案文档。
准确率的平均值:AP = (+ + ++ +)/6 = 结果序列2中第l、3、4、5、6位为正确答案文档。
AP = ( 1. 00 + + + + ) / 6 = 0. 68 “平均准确率”不仅考虑正确答案在结果序列中的排序情况,还考虑了结果序列返回的正确答案数目,因此,它是一个综合了准确率与召回率两方面的因素的评价指标。