数据挖掘与知识发现(讲稿12---文本挖掘)
- 格式:doc
- 大小:256.00 KB
- 文档页数:22
知识发现与数据挖掘2007-6-12宋利【摘要】本文介绍了知识发现及其数据挖掘的发展历史,数据挖掘常用技术及应用。
【关键词】知识发现,数据挖掘1、引言随着数据库技术的成熟和数据应用的普及,人类积累的数据量正在以指数速度迅速增长。
进入九十年代,伴随着因特网(Internet)的出现和发展,以及随之而来的企业内部网(Intranet)和企业外部网(Extranet)以及虚拟私有网(VPNVirtualPrivatenetwork)的产生和应用,将整个世界联成一个小小的地球村,人们可以跨越时空地在网上交换数据信息和协同工作。
这样,展现在人们面前的已不是局限于本部门,本单位和本行业的庞大数据库,而是浩瀚无垠的信息海洋,数据洪水正向人们滚滚涌来。
当数据量极度增长时,如果没有有效的方法,由计算机及信息技术来提取有用信息和知识,人们也会感到面对信息海洋像大海捞针一样束手无策。
据估计,一个大型企业数据库中数据,只有百分之七得到很好应用。
这样,相对于“数据过剩”和“信息爆炸”,人们又感到“信息贫乏”(Informationpoor)和数据关在牢笼中”(datainjail),奈斯伯特(JohnNaisbett)惊呼“Wearedrowningininformation,butstarvingforknowledge”(人类正被数据淹没,却饥渴于知识)。
面临浩渺无际的数据,人们呼唤从数据汪洋中来一个去粗存精、去伪存真的技术。
从数据库中发现知识(KDD)及其核心技术——数据采掘(DM)便应运而生了。
2、知识发现过程知识发现(KDD)是从数据中发现有用知识的整个过程;数据开采(DM)是KDD过程中的一个特定步骤,它用专门算法从数据中抽取模式(patterns)。
1996年,Fayyad、PiatetskyShapiror和Smyth将KDD过程定义为:从数据中鉴别出有效模式的非平凡过程,该模式是新的、可能有用的和最终可理解的。
《知识发现与数据挖掘》教学大纲Knowledge Discovery and Data Mining第一部分大纲说明1. 课程代码:1030812082. 课程性质:专业非学位课3. 学时/学分:20/24. 课程目标和任务:数据挖掘是一门新兴的交叉性学科,在很多重要领域,数据挖掘技术发挥着重要作用,如地球科学领域、矿业工程领域、生物工程工程、商业领域、金融和保险领域等。
本课程课程主要讲授数据挖掘技术的基本原理、方法、算法,具体包括:数据挖掘技术内涵、数据特征、聚类分析,关联规则分析、分类等,以及数据挖掘技术在地矿领域的应用。
通过本课程的学习,使研究生掌握数据挖掘技术的基本原理、方法和算法,了解数据挖掘技术的研究与应用热点、数据挖掘技术能够解决的问题和今后研究与应用的发展方向,以及如何利用数据挖掘技术解决实际问题。
5. 教学方式:课堂教学6. 考核方式:考查7. 先修课程:掌握一定的计算机基础知识9. 教材及教学参考资料:(一)教材:Pang-Ning Tan, Michael Steinbach and Vipin Kumar.《Introduction to Data Mining》,北京:人民邮电出版社,2006(二)教学参考资料:Jia-Wei Han and Micheline Kamber.《数据挖掘概念与技术》,北京:机械工业出版社,2003第二部分教学内容和教学要求第一章数据挖掘概述1.1 教学目的与要求重点讲解数据挖掘的起源、数据挖掘过程与功能,以及面临的主要问题。
1.2 教学内容理解和掌握数据挖掘的基本概念、数据挖掘过程以及数据挖掘功能;了解数据挖掘的应用和面临的问题;重点是对数据挖掘能够解决的问题和解决问题思路有清晰的认识。
1.2.1 什么是数据挖掘数据挖掘(Data Mining)就是从大量的、不完全的、模糊的、随机的实际应用数据中,提取隐含在其中的、事先不知道的但又是潜在有用的信息和知识的过程。
┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
1
第12章 文本数据挖掘与Web挖掘技术 第1节 文本挖掘概述 1.1 文本挖掘的出现 在现实世界中,我们面对的数据大都是文本数据,这些数据是由各种数据源(如新闻文章、研究论文、书籍、数字图书馆、电子邮件和Web页面等)的大量文档组成。所以,随着文档信息量的飞速增长,文本数据的数据量也急剧地增长。 文本数据是所谓的半结构化数据(Semi-Structure Data),它既不是完全无结构的也不是完全结构化的。如,文档可能包含结构字段,比如:标题、作者、出版日期、长度、分类等,也可能包含大量的非结构化的文本,如摘要和内容。 文本挖掘(Text Mining),国外有人称之为文本数据挖掘(Text Data Mining)和文本分析(Text Analysis)。文本挖掘一词大约出现于1998年4月在欧洲举行的第十届机器学习会议上,组织者 Kodratoff明确地定义了文本挖掘的概念,并分清它与“信息检索”的不同点和共同点。Kodratoff认为,文本挖掘的目的是从文档集合中搜寻知识,并不试图改进自然语言理解,并不要求对自然语言的理解达到多高水平,而只是想利用该领域的成果,试图在一定的理解水平上尽可能多地提取知识。因此,文本挖掘需要数据挖掘、语言学、数据库以及文本标引和理解方面的专家参与。 我国于1998年在国家重点基础研究发展规划(“973计划”)首批实施项目中,包括了文本挖掘的内容。
1.2 文本挖掘的基本概念 1、概念 文本挖掘是一个从大量文本数据中提取以前未知的、可理解的、可操作的知识的过程。文本数据包括:技术报告、文档集、新闻、电子邮件、网页、用户手册等。 文本挖掘对单个文档或文档集(如,Web搜索中返回的结果集)进行分析,从中提取概念,并按照指定的方案组织、概括文档,发现文档集中重要的主题。它除了从文本中提取关键词外,还要提取事实、作者的意图、期望和主张等。这 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
2
些知识对许多,如市场营销、趋势分析、需求处理等,都是很有用的。 2、任务 主要任务有: (1) 文本标引和短语提取,即在读取大量的非结构化文本时,应用自然语言处理技术提取文本,集中所有相关的短语。提取时要处理同义词和词义模糊现象。可以形象地把文本挖掘看作是一支荧光笔,它通读文本时高亮度显示有关的短语,这些短语放在一起就可以得到对文本的一个较好的理解。 (2) 概念提取(聚类),即对这些短语之间的关系,建立一个“词汇网”;将相关短语分组,并增强这些组中最重要的特征;最后得到的模式反映了该文本集中的主要概念。然后,通过提取出的概念集发现未知的知识。 (3) 可视化显示和导航。对挖掘得来的信息(词频、相关概率、时事性话题、地域依赖信息、时间序列等),可以从多个视角出发进行分析。 3、文本挖掘与数据挖掘
相似点在于:两者都处理大量的数据,都有归属到知识管理的知识发现领域中。 差别在于:许多经典的数据挖掘算法,如数值预测、决策树等都不太适用于文本挖掘,因为它们依赖于结构化的数据。而像概念关系分析等工作则是文本挖掘所独有的,如表所示。
文本挖掘与数据挖掘的区别 数据挖掘 文本挖掘 研究对象 用数字表示的、结构化的数据 无结构或者半结构化的文本 对象结构 关系数据库 自由开放的文本 目标 抽取知识,预测以后的状态 检索相关信息,提取意义,分类 方法 归纳学习、决策树、神经网络、粗糙集、遗传算法等 标引、概念抽取、语言学、本体 成熟度 从1994年开始得到了广泛应用 从2000年开始得到了应用
1.3 文本挖掘与信息检索 信息检索是文本挖掘相关的一个概念,但它与文本挖掘又是不同的两个概念。 信息检索是指从大量的文档集合C中,找到与给定的查询请求q相关的、恰当 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
3
数目的文档子集S的过程。区别主要表现在如下几个方面: (1)方法论不同 信息检索是目标驱动的,用户需要明确提出查询要求;而文本挖掘结果独立于用户的信息需求,是用户所无法预知的。
(2)着眼点不同 信息检索着重于文档中字与词和链接;而文本挖掘在于理解文本的内容和结构。
(3)目的不同 信息检索的目的在于帮助用户发现资源,即从大量的文本中找到满足其查询请求的文本子集;而文本挖掘是为了揭示文本中隐含的知识。
(4)评价方法不同 信息检索用查准率(Precision, 检索到的文档中的相关文档占全部检索到的文档的百分比)和查全率(Recall, 即被检索出的文档中的相关文档占全部相关文档的百分比)来评价其性能,要求尽可能多的检索出相关文档,同时不相关的文档尽可能少。而文本挖掘采用收益(Gain)、置信度(Certainty)、简洁性(Simplicity)等来衡量所发现知识的有效性、可用性和可理解性。
(5)使用场合不同 有时信息检索系统返回太多的结果以致用户无法一一浏览,有时用户没有明确的信息需求,有时用户希望发现文档集合中所具有的结构、趋势、含义,在这些场合下,就需要使用挖掘技术。 尽管文本挖掘是比信息检索层次更高的技术,但它并不是用来取代信息检索技术的,二者是相辅相成的。一方面,这两种技术各有所长,有各自适用的场合;另一方面,可以利用文本挖掘的研究成果来提高信息检索的精度和效率,改善检索结果的组织,使信息检索系统发展到一个新的水平。
第2节 文本特征表示与提取 2.1 文本特征的表示 与数据库中的结构化数据相比,文档具有有限的结构,或者根本就没有结构。即使具有一些结构,也是着重于格式,而非文档内容。不同类型的文档结构也不一致。 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ 装 ┊ ┊ ┊ ┊ ┊ 订 ┊ ┊ ┊ ┊ ┊ 线 ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊ ┊
4
此外,文档的内容是人类所使用的自然语言,计算机很难处理其语义。文本信息源的这些特殊性使得现有的数据挖掘技术无法直接应用于其上。这就需要对文本进行预处理,抽取其特征的元数据。这些特征可以用结构化的形式保存,作为文档的中间表示形式。 文本的特征指的是关于文本的元数据,分为: (1) 描述性特征,如文本的名称、日期、大小、类型等; (2) 语义性特征,如文本的作者、机构、标题、内容等; 一般,描述性特征易于获得,而语义性特征则较难得到。W3C(中国万维网联盟)近年来制定的XML(Extensible Markup Language, 可扩展标记语言)、RDF(Resource Description Framework, 一种用于描述Web资源的标记语言)等规范提供了对文档资源进行描述的语言和框架。在此基础上,可以从半结构化的文档中抽取作者、机构等特征。对于内容这个难以表示的特征,首先要找到一种能够被计算机所处理的表示方法。 矢量空间模型(VSM)是近年来应用较多且效果较好的表示文本特征的方法。在该模型中,文档空间被看作是由一组正交词条矢量所张成的矢量空间,每个文档d表示为其中的一个范化特征矢量: ))(,;);(,;);(,()(11dwtdwtdwtdVnnii
其中,it为词条项,)(dwi为it在d中的权值。it可以是d中出现的所有单词,也可以是d中出现的所有短条,从而提高内容特征表示的准确性。)(dwi一般被定义为it
在d中出现的频率)(dfit的函数,即))(()(dfdwiti。常用的有: (1)布尔函数
0)(00)(1dfdf
ii
tt
(2)平方根函数 )(dfit (3)对数函数 )1)(log(dfit
(4)TFIDF函数
)log()(itnNdfi