17
查询结果处理
• 结果排序
• 用户评价
• 根据用户在查询结果中的点击来度量网站与关键字的相关 性
• 需要巨量的用户记录 • 跟踪较困难
• 同行评议
• 根据同行对文档质量的评价来度量网站与关键字的相关性
• 谁是同行? • Internet
2020/11/13
多媒体搜索引擎DriveHQ
18
查询结果处理
多媒体搜索引擎
查询结果处理
多媒体搜索引擎DriveHQ
查询结果处理
• 查询的特征
•短
• 英语:平均2.5词,80% < 3词
• 不精确
• “华师大” 你想要什么?
• 只使用简单语法
• 有几个用户懂布尔代数?
• 大多数查询将返回大量的结果
• “华师大”:174万
2020/11/13
多媒体搜索引擎DriveHQ
在1%文档中出现的词:D/Dt = 100 idft = log(100) > 0
2020/11/13
多媒体搜索引擎DriveHQ
9
查询结果处理
• 结果排序
• 2.tf-idf
• 用idf为权重的加权词频和
sq,d tft,didtf tq
文档中一个词的重要性
tt 1 fit 1 d ,tt 2 fi ft 2 d ,. tt n f . fi.t n d , f文档矢量
2020/11/13
多媒体搜索引擎DriveHQ
16
查询结果处理
• 结果排序
• 2.tf-idf
• “王婆卖瓜自卖自夸”
• 文档的优劣程度不可能通过文档本身来评价 • 通过文档本身的内容对文档排序的方法不可靠 • 谁可以评价文档的优劣?