▐
▐
8.1.4文本挖掘与信息检索
▐
信息检索领域一般用查全率和查准率,对检索的效果进行 量化评价。信息检索主要解决文本的标引问题,使用倒排 文本数据结构来表示文本信息。为了提高信息检索的效率, 信息检索系统在不断添加新的功能,如文本分类、文本聚 类、自动摘要和主题词自动抽取等方法,使用户能够更加 方便地从不同途径准确地查找到所需信息。自动摘要能够 减轻用户测览相关文本所需的时间,使用户能够快速地掌 握相关文本中的内容。文本的自动分类和自动聚类能够根 据文本的内容信息将文本集合划分为不同的类或者簇,方 便用户查找所需信息。
8.2.2 Web的特点
Web是一个非常成功的基于超文本的分布式信息系统。Web 的特点如下:
1.庞大性。Web 为全球范围发布和传播信息提供了机会, 它允许任何人在任何地方任何时间传播和获取信息。由于 Web的开放性,使得WCb上的信息与日俱增,呈爆炸性增 长。
2.动态性。Web不仅以极快的速度增长,而且其信息还 在不断地发生更新。新闻、公司广告、股票市场、Web服 务中心等都在不断地更新着各自的页面。链接信息和访问 记录也在频繁更新之中。
▐
8.1.1文本挖掘概述
▐
文本挖掘涵盖多种技术 , 包括信息抽取 , 信息检索 , 自然语 言处理和数据挖掘技术。它的主要用途是从原本未经使用 的文本中提取出未知的知识,但是文本挖掘也是一项非常 困难的工作 , 因为它必须处理那些本来就模糊而且非结构 化的文本数据,所以它是一个多学科混杂的领域,涵盖了信 息技术、文本分析、模式识别、统计学、数据可视化、数 据库技术、机器学习以及数据挖掘等技术。文本挖掘在商 业智能、信息检索、生物信息处理等方面都有广泛的应用。 例如,客户关系管理,自动邮件回复,垃圾邮件过滤,自 动简历评审,搜索引擎等等。