26
单个查询评价指标(9) —不考虑召回率
Precision@N:在第N个位置上的正确率,对于搜 索引擎,考虑到大部分作者只关注前一、两页的结 果,P@10(系统对于查询返回的前10个结果的准确 率) , P@20 对大规模搜索引擎非常有效. 举例
NDCG:后面详细介绍。
多个查询评价指标(10)
返回
10
关于召回率的计算
对于大规模语料集合,列举每个查询的所有相关 文档是不可能的事情,因此,不可能准确地计算召 回率
缓冲池(Pooling)方法:对多个检索系统的Top N 个结果组成的集合进行标注,标注出的相关文档集 合作为整个相关文档集合。这种做法被验证是可行 的,在TREC会议中被广泛采用。
单个查询评价指标(8) —不考虑召回率
Bpref :Binary preference,2005年首次引入到TREC的Terabyte
任务中 只考虑对返回结果列表中的经过判断后的文档进行评价 在相关性判断完整的情况下,bpref具有与MAP相一致的评价结果 在测试集相关性判断不完全的情况下,bpref依然具有很好的应用 这个评价指标主要关心不相关文档在相关文档之前出现的次数。具 体公式为:
2. d84 3. d56 R=0.2, P=0.67 4. d6 5. d8
10. d25 R=0.4,P=0.4 15. d3 R=0.5, P=0.33
P-R曲线的例子
P-R曲线的插值问题
对于前面的例子,假设Rq={d3,d56,d129}
������ 3. d56 R=0.33,P=0.33;8. d129 R=0.66, P=0.25; 15. d3 R=1,P=0.2
1 | n ranked higher than r | bpref 1 R r R