Page 3
1、文本挖掘概述
传统的自然语言理解是对文本进行较低层次的理解, 主要进行基于词、语法和语义信息的分析,并通过词 在句子中出现的次序发现有意义的信息。
文本高层次理解的对象可以是仅包含简单句子的单个 文本也可以是多个文本组成的文本集,但是现有的技 术手段虽然基本上解决了单个句子的分析问题,但是 还很难覆盖所有的语言现象,特别是对整个段落或篇 章的理解还无从下手。
在完整的向量空间模型中,将TF和IDF组合在一起,形成 TF-IDF度量:TF-IDF(d,t)= TF(d,t)*IDF(t)
Page 24
基于相似性的检索
余弦计算法(cosine measure)
sim(v1, v2 )
v1 v2 v1 v2
根据一个文档集合d和一个项集合t,可以将每个文档表示
一种索引结构,包含两个哈希表索引表或两个B+
树索引表
文档表(document_table)
词表(term_table)
doc_ID
posting_list
term_ID
posting_list
Doc_1 Doc_2
┇
t1_1, ... ,t1_n
t2_1, ... ,t2_n ┇
Term_1 Term_2
将数据挖掘的成果用于分析以自然语言描述的文本, 这种方法被称为文本挖掘(Text Mining)或文本知识 发现(Knowledge Discovery in Text).
Page 4
文本检索应用实例
Page 5
文本检索过程
Page 6
文档检索基本步骤
Page 7
文本挖掘与数据挖掘的区别:
Page 17
2.2 文档检索方法