信息检索-02信息检索评价

格式：ppt
大小：500.50 KB
文档页数：50

下载文档原格式

/ 50

信息检索系统的评价

信息检索系统的评价在当今信息爆炸的时代，信息检索系统成为了我们获取所需信息的重要工具。

无论是在学术研究、工作还是日常生活中，我们都离不开各种各样的信息检索系统，如搜索引擎、数据库检索平台等。

然而，并非所有的信息检索系统都能满足我们的需求，因此对其进行评价就显得至关重要。

一个好的信息检索系统应该具备准确性。

这意味着它能够返回与用户需求高度相关的结果。

比如，当我们在学术数据库中搜索某个特定的研究主题时，如果检索系统给出的大部分文献都与我们的研究主题紧密相关，那它在准确性方面就表现出色。

相反，如果检索到的结果包含大量不相关的内容，就会浪费我们的时间和精力去筛选。

检索系统的召回率也是一个重要的评价指标。

召回率指的是系统能够检索出的相关文档占所有相关文档的比例。

假设在一个特定的文档集合中，与我们的查询相关的文档共有 100 篇，而检索系统能够找到其中的 80 篇，那么它的召回率就是 80%。

较高的召回率能够确保我们不会错过重要的信息。

除了准确性和召回率，检索系统的响应时间也不容忽视。

在快节奏的现代生活中，我们希望能够迅速得到检索结果。

如果一个系统需要花费很长时间来处理我们的查询请求，那无疑会降低我们的使用体验。

想象一下，当你急需查找一份重要的资料，却因为检索系统的缓慢响应而焦急等待，这种情况是非常令人沮丧的。

检索系统的易用性同样关键。

它的界面设计应该简洁明了，操作流程应该简单易懂。

用户不需要花费大量的时间去学习如何使用该系统。

比如，搜索框的位置应该醒目，搜索选项的设置应该清晰直观，搜索结果的呈现方式应该易于浏览和理解。

对于多语言的支持也是评价一个信息检索系统的重要方面。

在全球化的背景下，我们可能需要检索各种语言的信息。

一个优秀的检索系统应该能够很好地处理多种语言的文本，提供准确的检索结果。

检索系统的更新频率也会影响其性能。

信息在不断地产生和变化，如果系统中的数据不能及时更新，那么我们检索到的可能就是过时的信息。

(网络信息检索)第6章信息检索性能评价

Elasticsearch
一个基于Lucene的开源搜索和分析引擎，提供了高性能、实时的全文搜索功能，广泛应用于日志分析、网站搜索等领域。
检索效率提高的实践案例
05
信息检索性能评价的挑战与未来发展
信息过载问题
01
信息过载是指用户在信息检索过程中面临的信息量过大、难以有效筛选的问题。
02
随着互联网信息量的爆炸式增长，信息过载问题愈发严重，给用户带来困扰。
查全率计算公式
查全率 = (检索到的相关文档数 / 全部相关文档总数) * 100%。
查全率评价
总结词
查准率是衡量信息检索系统准确性的一个重要指标。
查准率计算公式
查准率 = (检索到的相关文档数 / 所有检索出来的文档总数) * 100%。
详细描述
查准率是指检索系统返回的相关文档数与所有检索出来的文档总数的比值，它反映了检索系统筛选出相关文档的能力。
查询优化
利用多核处理器和分布式系统，提高信息检索的响应速度。
并行计算和分布式处理
检索效率优化方法
Solr
基于Lucene构建的开源搜索平台，提供了丰富的功能和可扩展性，适用于大型企业和互联网应用的信息检索需求。
Google Search
作为全球最大的搜索引擎，Google通过先进的算法和大规模分布式处理技术，实现了快速、准确的信息检索服务。
总结词
检索覆盖率是指信息检索系统能够检索到的与用户查询相关的文档数量。高检索覆盖率意味着系统能够从大量文档中筛选出更多与用户需求源、使用更全面的关键词、优化索引结构等。
总结词
为了提高检索覆盖率，信息检索系统需要不断扩大信息源，尽可能涵盖更多的文档和资源。同时，使用更全面的关键词和优化索引结构可以提高系统的查全率和查准率，从而提升检索覆盖率。

信息检索效果评价标准

信息检索效果评价标准信息检索是指通过计算机系统，根据用户的查询需求，从大规模的信息资源中快速地找到相关的信息并呈现给用户。

信息检索的效果评价标准是用于评估信息检索系统在返回结果时的准确性和用户体验的指标。

有效的评价标准可以帮助改进检索系统的性能，提高用户的满意度。

下面将介绍一些常用的信息检索效果评价标准。

1. 信息检索准确性信息检索准确性是评价系统检索结果与用户查询需求之间匹配程度的指标。

常用的准确性指标有：- Precision（精确率）：表示检索结果中相关文档的比例，计算公式为：Precision = Relevant Documents / Retrieved Documents。

- Recall（召回率）：表示检索结果中相关文档被检索出的比例，计算公式为：Recall = Relevant Documents / Relevant Documents in Collection。

- F-Measure（F值）：是综合Precision和Recall的度量指标，计算公式为：F-Measure = 2 * (Precision * Recall) / (Precision + Recall)。

2. 排序质量排序质量是评价信息检索系统返回结果的排序效果的指标。

常用的排序质量指标有：- Mean Average Precision（MAP）：表示所有查询的平均准确率，计算公式为：MAP = (1 / Q) * ∑(AP(q))，其中Q为查询的数量，AP(q)为查询q的准确率。

- Normalized Discounted Cumulative Gain（NDCG）：以用户划分的相关程度对结果进行评分，计算公式为：NDCG =DCG / IDCG，其中DCG为折损累积增益，IDCG为理想情况下的折损累积增益。

3. 用户满意度用户满意度是评价信息检索系统提供的用户体验的指标。

常用的用户满意度指标有：- Click-through Rate（CTR）：表示用户点击相关结果的比率，计算公式为：CTR = Clicked Documents / Retrieved Documents。

信息检索的评价范文

信息检索的评价范文信息检索的评价是指对信息检索系统进行评估和比较，以确定其在特定环境和任务下的性能和有效性。

评价旨在帮助用户选择合适的系统，并促进信息检索技术的改进和发展。

本文将从准确性、效率、用户满意度和创新性四个方面对信息检索的评价进行讨论。

准确性是衡量信息检索系统好坏的重要指标。

准确性反映了系统检索结果与用户查询意图的匹配程度。

一个准确性较高的信息检索系统能够通过有效的算法和模型对用户的查询进行准确匹配，并返回与用户需求最相符合的结果。

评估准确性通常使用一些指标，如查准率、查全率、F1值等。

查准率是指系统返回结果中相关文档所占的比例，查全率是指系统返回结果中相关文档所占的比例。

F1值综合考虑了查准率和查全率，是一个常用的评价指标。

在评价信息检索准确性时，需要使用一组已标记的数据来作为基准，进行结果的比对和分析。

除了准确性，信息检索系统的效率也是一个重要的评价指标。

效率体现了系统处理查询和返回结果所需的时间和资源消耗。

对于大规模的信息检索系统来说，提高检索效率对于用户体验和系统的可用性都是至关重要的。

常用的评价指标包括平均检索时间、平均处理查询的吞吐量、系统响应时间等。

评估系统效率的方法包括基准测试、性能测试和压力测试等，在真实环境中模拟系统的运行情况，以确定系统的性能表现和瓶颈。

用户满意度是评价信息检索系统的另一个重要方面。

信息检索系统应该能够满足用户的需求，并提供良好的使用体验。

用户满意度可以通过用户反馈的方式进行评价，如用户调查、用户体验测试等。

这些评价方法可以了解用户对系统的整体满意度、易用性、界面设计、功能完整性等方面的评价。

用户满意度的提高对于信息检索系统的用户增长和用户黏性具有重要的影响。

创新性是评价信息检索系统的另一个重要指标。

一个创新性较高的信息检索系统能够在算法、模型、界面设计等方面提供新颖和独特的解决方案。

创新的信息检索系统可以通过与传统的系统进行对比和比较来评价其价值和优势。

【大学课件】信息检索评价-PPT课件

docin/sundae_meng
2、信息利用
信息利用是信息调研的出发点和归宿。信息利用源于用户的信息需求，体现为对信息资源的选择性纳入。所谓信息利用，是指信息用户对信息吸收和运用的活动与过程。信息利用是信息获取、阅读、整理、研究等环节的延续，同时也是在信息获取、阅读、整理、研究等环节的基础上得到完成的。人类的各种社会活动是产生信息的主要源泉，而信息又对人类的各种社会活动起着积极的作用。随着社会信息化的进程，一方面人类对信息的依赖程度越来越高，信息深刻地影响着人们的思维方式、生产方式、工作方式和生活方式；另一方面，人类存贮和检索信息的能力也越来越强，信息作为一种取之不尽、用之不竭的特殊资源必将得以更为充分有效地利用。人们对信息利用的水平是人类社会文明程度的重要标志。
docin/sundae_meng
检准率
检准率.它是指系统在进行某一检索时，检出的相关文献量与检出文献总量的比率 ,是衡量信息检索系统精确度的尺度，它反映每次从该系统文献库中实际检出的全部文献中有多少是相关的。可用下式表示: 检准率 = [ 检出相关文献量 / 检出文献总量 ] × 100%
docin/sundae_meng
docin/sundae_meng
docin/sundae_meng
③信息调研的目的
信息调研是获取有效信息的手段。信息调研是为了开发高层次信息，提高信息利用率。信息调研是决策和研究具有科学性的基础和保证。
docin/sundae_meng
④信息调研的类型
信息调查研究的几种类型：探索性调研（非正式调研）描述性调研（正式调研）因果关系调研预测性调研。
信息检索评价
docin/sundae_meng

信息检索中的各项评价指标

信息检索中的各项评价指标信息检索评价是对信息检索系统性能（主要满⾜⽤户信息需求的能⼒）进⾏评估的活动。

通过评估可以评价不同技术的优劣，不同因素对系统的影响，从⽽促进本领域研究⽔平的不断提⾼。

信息检索系统的⽬标是较少消耗情况下尽快、全⾯返回准确的结果。

IR的评价指标，通常分为三个⽅⾯：（1）效率(Efficiency)—可以采⽤通常的评价⽅法：时间开销、空间开销、响应速度。

（2）效果(Effectiveness)：返回的⽂档中有多少相关⽂档、所有相关⽂档中返回了多少、返回得靠不靠前。

（3）其他指标：覆盖率(Coverage)、访问量、数据更新速度。

如何评价不同检索系统的效果呢？⼀般是针对相同的⽂档集合，相同的查询主题集合，相同的评价指标，不同的检索系统进⾏⽐较。

相关的评测系统有：（1）The Cranfield Experiments, Cyril W. Cleverdon, 1957 –1968 (上百篇⽂档集合)（2）SMART System,Gerald Salton, 1964-1988 (数千篇⽂档集合)（3）TREC(Text Retrieval Conference), Donna Harman, 美国标准技术研究所, 1992 -(上百万篇⽂档)，信息检索的“奥运会”信息检索的评价指标可以分为两类：（1）对单个查询进⾏评估的指标：对单个查询得到⼀个结果（2）对多个查询进⾏评估的指标（通常⽤于对系统的评价）：求平均⼀、单个查询的评价指标P&R召回率(Recall)=检出的相关⽂档数/相关⽂档数，也称为查全率，R∈[0,1]准确率(Precision)=检出的相关⽂档数/检出⽂档数，也称为查准率，P∈[0,1]假设：⽂本集中所有⽂献已进⾏了检查关于召回率的计算（1）对于⼤规模语料集合，列举每个查询的所有相关⽂档是不可能的事情，因此，不可能准确地计算召回率（2）缓冲池(Pooling)⽅法：对多个检索系统的Top N个结果组成的集合进⾏标注，标注出的相关⽂档集合作为整个相关⽂档集合。

信息检索系统的评价

用户访谈
通过与用户进行深入的交流，了解用户对信息检索系统的使用体验、问题与需求等方面的反馈。
客观评价法
1 2 3
查准率与查全率
通过比较信息检索系统返回的结果与实际需求的匹配程度，计算查准率与查全率等客观指标，评估系统的性能。
响应时间
测量信息检索系统对用户查询的响应时间，包括平均响应时间、最短响应时间等指标，评估系统的效率。
信息检索系统的评价
目录
• 信息检索系统概述 • 信息检索系统的评价标准 • 信息检索系统的评价方法 • 信息检索系统的评价实践 • 信息检索系统的发展趋势与挑战
信息检索系统概述
01
信息检索系统的定义
定义
信息检索系统是一种利用计算机技术、网络技术和信息处理技术，对大量信息进行收集、组织、整理和检索，以帮助用户快速、准确地获取所需信息的系统。
目的
信息检索系统的目的是提供高效、便捷的信息获取方式，满足用户的信息需求。
信息检索系统的分类
基于检索技术的分类
全文检索、关键词检索、元数据检索等。
基于数据源的分类
网络信息检索系统、数据库信息检索系统等。
基于应用场景的分类
学术信息检索系统、商业信息检索系统等。
信息检索系统的应用场景
学术研究
学者和学生在学术研究中使用信息检索系统查找学术论文、研究报告等资料。
商业决策
企业家和决策者在商业决策中利用信息检索系统获取市场信息、竞争对手情报等。
政府管理
政府机构利用信息检索系统收集民意、发布政策法规等。
个人生活
普通人在日常生活中使用搜索引擎查找各类信息，如新闻、购物、旅游等。
信息检索系统的评价
02
标准

信息检索系统的评价

信息检索系统的评价在当今信息爆炸的时代，信息检索系统成为了我们获取知识和信息的重要工具。

无论是在学术研究、商业决策还是日常生活中，我们都依赖于各种信息检索系统来快速准确地找到所需的信息。

然而，不同的信息检索系统在性能、功能和用户体验方面存在着巨大的差异。

因此，对信息检索系统进行科学、全面的评价是至关重要的。

信息检索系统的评价可以从多个方面入手。

首先，检索的准确性是最为关键的指标之一。

一个优秀的信息检索系统应该能够准确地理解用户的需求，并返回与需求高度相关的结果。

例如，当用户搜索“如何种植玫瑰花”时，系统返回的应该是关于玫瑰花种植方法、技巧、注意事项等方面的准确信息，而不是一些无关的或者模糊的内容。

检索的全面性也是不容忽视的。

系统不仅要能够找到相关的信息，还要尽可能涵盖所有相关的来源和类型。

比如，除了常见的网页、文献，还应该包括图片、视频、音频等多种形式的信息。

同时，对于一些较冷门或者特定领域的信息，也应该有一定的检索能力。

检索的速度也是影响用户体验的重要因素。

在这个快节奏的社会中，人们往往希望能够在最短的时间内获得所需的信息。

如果一个检索系统需要花费过长的时间来返回结果，用户很可能会失去耐心而选择其他的替代方案。

信息检索系统的易用性同样重要。

这包括界面的设计是否简洁明了、操作是否方便快捷、是否提供了清晰的检索提示和帮助等。

一个易于使用的系统能够让用户更快地上手，提高检索的效率。

另外，检索结果的排序和展示方式也会对用户的满意度产生影响。

合理的排序算法能够将最相关、最有价值的结果排在前面，让用户能够更快地找到关键信息。

同时，清晰、有条理的展示方式能够让用户更容易浏览和理解检索结果。

在评价信息检索系统时，还需要考虑其对不同类型用户的适应性。

不同用户群体可能具有不同的检索需求和习惯。

例如，专业研究人员可能更注重检索的准确性和深度，而普通大众可能更关注检索的便捷性和易用性。

因此，一个好的信息检索系统应该能够根据用户的特点和需求，提供个性化的服务和设置。

信息检索课程评价

信息检索课程是一门重要的课程，它旨在帮助学生掌握信息检索的基本原理、方法和技能，以便在日常生活和工作中能够有效地获取、评估和利用信息。

以下是对信息检索课程的一些评价：课程内容丰富，涵盖了信息检索的各个方面。

从基本的检索原理到高级的检索技术，从文本信息处理到图像和视频信息的处理，课程内容全面而深入。

学生可以了解到各种不同的信息检索方法和技巧，从而更好地适应不同的信息需求。

课程强调实践和应用。

信息检索不仅仅是一个理论课程，更是一个实践性的课程。

学生需要实际操作各种信息检索工具和系统，了解其功能、特点和操作方法。

通过实践和应用，学生可以更好地理解和掌握信息检索的技能。

课程能够帮助学生提高信息素养。

信息素养是现代社会中人们必备的素质之一，而信息检索课程正是提高信息素养的有效途径。

通过学习课程，学生可以了解到如何评估信息的真实性和可靠性，如何选择合适的检索工具来获取信息，如何整理和分析信息等。

这些技能不仅对学生的学术研究有帮助，也可以帮助他们更好地适应未来的工作和生活。

课程需要不断更新和改进。

随着信息技术和网络的发展，信息检索技术和工具也在不断变化和发展。

因此，课程需要不断更新和改进，以反映最新的技术和趋势。

同时，教师也需要不断学习和研究，以保持课程内容的先进性和实用性。

课程需要注重学生的个体差异。

由于学生的背景、兴趣和能力不同，因此课程需要注重学生的个体差异。

教师可以通过不同的教学方法和手段来满足不同学生的需求，例如分组讨论、案例分析、角色扮演等。

这样可以帮助学生更好地理解和掌握课程内容，同时也可以促进学生的交流和合作能力的发展。

总之，信息检索课程是一门非常重要的课程，它旨在帮助学生掌握信息检索的基本原理、方法和技能，以便在日常生活和工作中能够有效地获取、评估和利用信息。

通过学习课程，学生可以了解到各种不同的信息检索方法和技巧，提高自己的信息素养，更好地适应未来的工作和生活。

信息检索的评价

1 信息检索的评价指标
替代方法
除了信息检索的査全率和查准率以外，两位美国研究人员H. Vernon Leighton和 Jaideep Srivastava提出了一种计算查准率的替代方，即“相关性范畴”概念和“前X命中记录査准率”。这里对这两种方法进行简要的介绍。 (1) 相关性范畴相关性范畴是按照检索结果同用户需求的相关程度，把检索结果分别归入如下4个范畴。 •范畴0：重复链接，死链和不相关链接。 •范畴1：技术上相关的链接。 •范畴2：潜在有用的链接。 •范畴3：十分有用的链接。
1 信息检索的评价指标
1.3 查准率与查全率的关系
如果一个信息检索系统的查准、査全性能水平较低，那么在这样的系统中所进行的信息检索, 一般而言查准率和查全率都会比较低；但是，倘若一次检索的措施和手段相当理想，也可能达到较高的检索效率。反之，如果一个信息检索系统具有较高的性能水平，那么在这样的系统中所进行的信息检索，通常就容易实现较高的査全率和查全率；但是，倘若一次检索的措施和手段都相当差，就会得到较低的检索效率。例如，对于传统的联机检索系统和现代的搜索引擎，在查准、查全的性能水平上前者要比后者高得多。但这并不意味每一次检索的结果必定如此。在利用联机系统进行检索时，如果选词不合理、措施和手段不当，就不可能达到系统的性能水平。同样，在利用搜索引擎进行检索时，如果检索的措施和手段相当理想，完全可以超越系统的平均性能水平。
④ 计算P(20)的分母。如果返回的检索结果超过20条，那么分母就是所有的20条记录都相关时的权值之和，即3×20 +7×17 + 10 ×10 =279。如果返回的检索结果不超过20条，分母就需要进行一定的调整，以使计算结果更接近真实查准率。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

信息检索实验室
17
新的评价指标
随着测试集规模的扩大以及人们对评测结果理解的深入，更准确反映系统性能的新评价指标逐渐出现单值概括
信息检索实验室
单值概括（1）
已检出的相关文献的平均准确率
逐个考察检出新的相关文献，将准确率平均 Example 1. d123 •(1) 6. d9 •(0.5) 11. d38 2. d84 7. d511 12. d48 3. d56 •(0.66) 8. d129 13. d250 4. d6 9. d187 14. d113 5. d8 10. d25 • (0.4) 15. d3 • (0.3)
信息检索实验室 10
准确率和召回率
不相关
全部文本集合检索出的相关文本文本
检出且不相关
检出且相关
未检出且不相关未检出且相关未检出
相关
检出召回率(Recall)=检出的相关文档数/相关文档数准确率(Precision)=检出的相关文档数/检出文档数假设：文本集中所有文献已进行了检查
信息检索的评价
哈工大计算机学院信息检索研究室
2007
1
信息检索实验室
评价
评价一般是指评估某个系统的性能、某种产品的质量、某项技术的价值，或者是某项政策的效果等等信息检索评价则是指对信息检索系统的性能（主要是其满足用户信息需求的能力）进行评估的活动从信息检索系统诞生以来，对检索系统的评价就一直是推动其研究、开发与应用的一种主要力量
检索任务
批处理查询交互式查询
实验室环境下主要是批处理查询，具有良好的可重复性和可扩展性
信息检索实验室 7
在评价和比较检索系统的检索性能需要以下条件：
一个文档集合C。系统将从该集合中按照查询要求检出相关文档一组用户查询要求{q1, q2, …, qn}。每个查询要求qi描述了用户的信息需求对应每个用户查询要求的标准相关文档集{R1, R2,…, Rn}。该集合可由人工方式构造一组评价指标。这些指标反映系统的检索性能。通过比较系统实际检出的结果文档集和标准的相关文档集，对它们的相似性进行量化，得到这些指标值
信息检索实验室
8
相关性判断
在早期的检索实验集合中, 相关性判断是全方位的,就是说, 由专家事先对集合中每一篇文献与每一个主题的相关性做出判断。由于TREC 的文献集合如此庞大, 全方位的判断是不可行的。因此TREC相关性判断基于检索问题所来自的测试文档集合，并采用一种“pooling”的技术来完成。
R=10 and # relevant=4 R-precision=4/10=0.4
信息检索实验室
R=3 and # relevant=1 R-precision=1/3=0.33
20
单值概括（3）
准确率直方图
多个查询的R-Precision测度用来比较两个算法的检索纪录
RPA / B (i ) = RPA (i ) − RPB (i ) where RPA (i ) and RPB (i ) are R − precision values of retrieval algorithms A and B for the i − th query
(100%,10%) (precision, recall)
1. d123 • 2. d84 3. d56 • 4. d6 5. d8
(66%,20%)
信息检索实验室
(50%,30%)
6. d9 • 7. d511 8. d129 9. d187 10. d25 •
(40%,40%)
11. d38 12. d48 13. d250 14. d113 15. d3 •
Pi (r ) P(rNq
•Nq: the number of queries used •Pi(r): the precision at recall level r for the i-th query
15
多个查询下进行检索算法的比较
对多个查询，进行平均，有时该曲线也称为：查准率/查全率的值。如下为两个检索算法在多个查询下的查准率/查全率的值。
信息检索实验室
其它测度方法
调和平均值
F ( j) = 2 1 1 + r ( j ) p( j )
R(j): the recall for the j-th document in the ranking P(j): the precision for the j-th document in the ranking 2× P× R F= P+R
信息检索实验室
Bpref指标
只考虑对返回结果列表中的经过判断后的文档进行评价在相关性判断完整的情况下，bpref具有与MAP相一致的评价结果在测试集相关性判断不完全的情况下，bpref依然具有很好的应用这个评价指标主要关心不相关文档在相关文档之前出现的次数。具体公式为：
1 | n ranked higher than r | bpref = ∑ 1 − R r R
9
信息检索实验室
“pooling”方法有以下两个假设
假设绝大多数的相关文档都收录在这个文档池中没有进行判断的文档即未被认为是不相关的 “pooling”技术的具体操作方法是：针对某一检索问题，所有参与其检索试验的系统分别给出各自检索结果中的前K个文档（例如K=100），将这些结果文档汇集起来，得到一个可能相关的文档池“pool” 由检索评价专家进行人工判断，最终评判出每一文档的相关性
MRR是在RR的基础上对多个查询的RR结果取平均值。即对一个检索系统输入多个查询，分别得到每个查询的排序倒数，取平均即为MRR。计算公式如下：
1 ∑ rankq MRR = q =1 n
n
例如MRR=0.25就意味着检索系统平均在返回结果的第四个位置找到相关文档。然而RR评价是基于2元相关判断基础上的，因此RR与 MRR都不能区分一个高相关性的文档与低相关性文档之间的区别。
22
单值概括（4）
概括统计表
查询数检出的所有文献数量相关文献数应检出的相关文献数 ……
信息检索实验室
23
评价指标的不足
前面提到的一些评价指标，如R-准确率， MAP，P@10等，都只考虑经过pooling技术之后判断的相关文档的排序对判断不相关文档与未经判断的文档的差别并没有考虑而目前随着互联网的发展，测试集越来越大，由于相关性判断还基本上是人工判断，因此建立完整的相关性判断变得越来越难 24
信息检索实验室
4
相关性
相关性是一种主观评价
是不是正确的主题
输入：“和服”；输出：“···咨询和服务···” 由于分词错误，导致检索结果偏离主题
是否满足用户特定的信息需求 (information need) 时效性，是不是新的信息
输入：“美国总统是谁”；输出：“克林顿” 信息已经过时
权威性，是否来自可靠的信息源
(33%,50%)
13
一个查询的11个标准查准率
11个标准查全率水平所对应的查准率: 0%, 10%, 20%, …, 100%
p r 120 e 100 c 80 i 60 s i 40 o 20 n
interpolation
0
20
40
60
80
100
120
14
信息检索实验室
平均准确率
上述准确率召回率的值对应一个查询每个查询对应不同的准确/召回率曲线为了评价某一算法对于所有测试查询的检索性能，对每个召回率水平下的准确率进行平均化处理，公式如下：
信息检索实验室 27
RR排序倒数和MRR平均排序倒数
RR（Reciprocal Ranking）是第一个相关文档出现位置的倒数经常用于评价只找到一个相关文档的情况， RR值具体为1/r，其中r为第一个相关文档在结果中排序数如果检索结果中没有相关文档，那么RR值为0。
信息检索实验室
28
MRR（ Mean Reciprocal Ranking ）平均排序倒数
RPA/B=0:对于第i个查询，两个算法有相同的性能 RPA/B>0:对于第i个查询，算法A有较好的性能 RPA/B<0:对于第i个查询，算法B有较好的性能
信息检索实验室
21
单值概括（3-1）
1.5 1.0 0.5 0.0 -0.5 -1.0
8
1
2
3
4
5
6
7
8
9
10
2
-1.5
信息检索实验室
Query Number
25
信息检索实验室
举例
下面举个例子来说明bpref的性能，假设检索结果集S为： S ={D1 ,D2 ·,D3 * ,D4 * ,D5 ·,D6 ,D7 ·,D8 ,D9 ,D10 } 其中D2、D5 和D7是相关文档，D3 和D4为未经判断的文档。对这个例子来说， R=3; bpref= 1/3 [(1 -1/3) + (1 -1/3) + (1 -2/3)]
信息检索实验室 26
单一相关文档检索的评价
对于搜索引擎系统来讲，由于没有一个搜索引擎系统能够保证搜集到所有的网页，所以召回率很难计算，因而准确率成为目前的搜索引擎系统主要关心的指标。而当用户在使用Web搜索引擎的时候，用户常常在找到一个好的页面后就不再继续察看排序列表其他结果。只找出一个相关的文档的高准确率就是信息检索系统的一个重要任务
信息检索实验室
5
评价IR系统的困难
相关性不是二值评价，而是一个连续的量即使进行二值评价，很多时候也很难从人的立场上看，相关性是：
主观的，依赖于特定用户的判断和情景相关的，依赖于用户的需求认知的，依赖于人的认知和行为能力时变的，随着时间而变化

信息检索-02信息检索评价

合集下载

信息检索系统的评价

(网络信息检索)第6章信息检索性能评价

信息检索效果评价标准

信息检索的评价范文

【大学课件】信息检索评价-PPT课件

信息检索中的各项评价指标

信息检索系统的评价

信息检索系统的评价

信息检索课程评价

信息检索的评价

文档推荐

最新文档