文档集中的索引项
精选ppt
18
索引项的选择
这些索引项是不相关的 (或者说是正交的) ,形成一个 向量空间vector space
“计算机” “科学” “商务”
计算机科学文档集
该文档集中的全部重要词项
实际上,这些词项是相互关联的
当你在一个文档中看到 “计算机”, 非常有可能同时看到“科 学”
当你在一个文档中看到 “计算机”, 有中等的可能性同时看到 “商务”
索引项t(Term):指出现在文档中能够代表文档性质
的基本语言单位(如字、词等),也就是通常所指的
检索词,这样一个文档D就可以表示为D(t1,t2,…,tn), 其中n就代表了检索字的数量。
特征项权重Wk(Term Weight):指特征项tn能够代 表文档D能力的大小,体现了特征项在文档中的重要程
精选ppt
23
由索引项构成向量空间
2个索引项构成一个二维空间,一个文档可能 包含0, 1 或2个索引项
di = 0, 0 (一个索引项也不包含) dj = 0, 0.7 (包含其中一个索引项) dk = 1, 2 (包含两个索引项)
类似的,3个索引项构成一个三维空间,n个索 引项构成n维空间
信息检索模型
哈工大信息检索研究室 2007
精选ppt
1
这一部分将讲述
布尔模型,向量空间模型,扩展的布尔 模型
概率模型和基于语言模型的信息检索模 型的区别和联系
基于本体的信息检索模型和基于隐性语 义索引的信息检索模型
精选ppt
2
信息检索模型的概述
精选ppt
3
什么是模型?
模型是采用数学工具,对现实世界某种 事物或某种运动的抽象描述
文档表示 一个文档被表示为关键词的集合