当前位置:文档之家› 数据挖掘中的文本挖掘的分类算法综述

数据挖掘中的文本挖掘的分类算法综述

数据挖掘中的文本挖掘的分类算法综述
数据挖掘中的文本挖掘的分类算法综述

数据挖掘中的文本挖掘的分类算法综述

摘要

随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。本文首先对数据挖掘进行了概述包括数据挖掘的常用方法、功能以及存在的主要问题;其次对数据挖掘领域较为活跃的文本挖掘的历史演化、研究现状、主要内容、相关技术以及热点难点问题进行了探讨;在第三章先分析了文本分类的现状和相关问题,随后详细介绍了常用的文本分类算法,包括KNN 文本分类算法、特征选择方法、支持向量机文本分类算法和朴素贝叶斯文本分类算法;;第四章对KNN文本分类算法进行深入的研究,包括基于统计和LSA降维的KNN文本分类算法;第五章对数据挖掘、文本挖掘和文本分类的在信息领域以及商业领域的应用做了详细的预测分析;最后对全文工作进行了总结和展望。

关键词:数据挖掘,文本挖掘,文本分类算法

ABSTRACT

With the development of Web 2.0, the number of documents on the Internet increases exponentially. One important research focus on how to deal with these great capacity of online documents. Text classification is one crucial part of information management. In this paper we first introduce the basic information of data mining, including the methods, contents and the main existing problems in data mining fields; then we discussed the text mining, one active field of data mining, to provide a basic foundation for text classification. And several common algorithms are analyzed in Chapter 3. In chapter 4 thorough research of KNN text classification algorithms are illustrated including the statistical and dimension reduction based on LSA and in chapter 5 we make some predictions for data mining, text mining and text classification and finally we conclude our work.

KEYWORDS:

data mining, text mining, text classification algorithms,KNN

目录

摘要 (1)

ABSTRACT (1)

目录 (1)

第一章数据挖掘概述 (3)

1.1 数据挖掘介绍 (3)

1.2 数据挖掘常用方法 (4)

1.3 数据挖掘的功能 (5)

1.4 数据挖掘的主要问题 (5)

第二章文本挖掘概述 (8)

2.1 文本挖掘介绍 (8)

2.1.1 文本挖掘的历史演化 (8)

2.1.2文本挖掘的定义 (8)

2.1.3文本挖掘的研究现状 (9)

2.2 文本挖掘主要内容 (9)

2.3 文本挖掘技术 (10)

2.3.1 数据预处理技术 (10)

2.3.2 数据挖掘分析技术 (11)

2.4 文本挖掘热点难点问题 (12)

第三章文本分类算法 (14)

3.1 文本分类概述 (14)

3.1.1 文本分类的研究现状 (14)

3.1.2 文本分类模型 (15)

3.1.3 文本分类面临的挑战 (17)

3.1.4 文本分类亟需解决的问题 (18)

3.2 常用文本分类算法 (18)

3.2.1 文本分类中的特征选择方法 (19)

3.3.2 支持向量机文本分类算法 (22)

3.3.3 朴素贝叶斯文本分类算法 (23)

第四章KNN文本分类算法研究 (27)

4.1 KNN文本分类算法介绍 (27)

4.2 基于统计的KNN文本分类算法研究 (27)

4.3 基于LSA降维的KNN文本分类算法研究 (30)

4.4 其他改进的KNN文本分类算法 (31)

第五章文本挖掘应用 (34)

5.1 数据挖掘应用 (34)

5.1.1 数据挖掘解决的典型商业问题 (34)

5.1.2 数据挖掘在市场营销的应用 (34)

5.1.3 数据挖掘在企业危机管理中的应用 (35)

5.2 文本挖掘应用 (37)

5.3 文本分类应用 (37)

第六章结论 (39)

参考文献 (40)

第一章数据挖掘概述

1.1 数据挖掘介绍

需要是发明之母。近年来,数据挖掘引起了信息产业界的极大关注,其主要原因是存在大量数据,可以广泛使用,并且迫切需要将这些数据转换成有用的信息和知识。获取的信息和知识可以广泛用于各种应用,包括商务管理,生产控制,市场分析,工程设计和科学探索等[1]。

数据挖掘出现于20世纪80年代后期,是数据库研究中一个很有应用价值的新领域,是一门交叉性学科,融合了人工智能、数据库技术、模式识别、机器学习、统计学和数据可视化等多个领域的理论和技术.数据挖掘作为一种技术,它的生命周期正处于沟坎阶段,需要时间和精力去研究、开发和逐步成熟,并最终为人们所接受。20世纪80年代中期,数据仓库之父W.H.In-mon在《建立数据仓库》(Building the Data Warehouse)一书中定义了数据仓库的概念,随后又给出了更为精确的定义:数据仓库是在企业管理和决策中面向主题的、集成的、时变的以及非易失的数据集合。与其他数据库应用不同的是,数据仓库更像一种过程—对分布在企业内部各处的业务数据的整合、加工和分析的过程。传统的数据库管理系统(database management system,DBMS)的主要任务是联机事务处理(on-line transaction processing,OLTP);而数据仓库则是在数据分析和决策方面提供服务,这种系统被称为联机分析处理(on-line analytical processing,OLAP).OLAP的概念最早是由关系数据库之父E.F.Codd于1993年提出的。当时,Codd认为OLTP已不能满足终端用户对数据库查询分析的需要,结构化查询语言(structured query language,SQL)对数据库进行的简单查询也不能满足用户分析的需求.用户的决策分析需要对关系数据库进行大量计算才能得到结果,因此Codd提出了多维数据库和多维分析的概念。

数据挖掘(Data Mining),就是从存放在数据库,数据仓库或其他信息库中的大量的数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平凡过程。数据挖掘,在人工智能领域,习惯上又称为数据库中知识发现(Knowledge Discovery in Database, KDD),也有人把数据挖掘视为数据库中知识发现过程的一个基本步骤。知识发现过程以下三个阶段组成:(1) 数据准备,(2)数据挖掘,(3) 结果表达和解释。数据挖掘可以与用户或知识库交互。

并非所有的信息发现任务都被视为数据挖掘。例如,使用数据库管理系统查找个别的记录,或通过因特网的搜索引擎查找特定的Web页面,则是信息检索(information retrieval)领域的任务。虽然这些任务是重要的,可能涉及使用复杂的算法和数据结构,但是它们主要依赖传统的计算机科学技术和数据的明显特征来创建索引结构,从而有效地组织和检索信息。尽管如此,数据挖掘技术也已用来增强信息检索系统的能力。

数据挖掘利用了来自如下一些领域的思想:(1) 来自统计学的抽样、估计和假设检验,(2) 人工智能、模式识别和机器学习的搜索算法、建模技术和学习理论。数据挖掘也迅速地接纳了来自其他领域的思想,这些领域包括最优化、进化计算、信息论、信号处理、可视化和信息检索。一些其他领域也起到重要的支撑作用。特别地,需要数据库系统提供有效的存储、索引和查询处理支持。源于高性能(并行)计算的技术在处理海量数据集方面常常是重要的。分布式技术也能帮助处理海量数据,并且当数据不能集中到一起处理时更是至关重要。因此,数

据挖掘被信息产业界认为是数据库系统最重要的前沿之一,是信息产业最有前途的交叉学科。

1.2 数据挖掘常用方法

利用数据挖掘进行数据分析常用的方法主要有分类、回归分析、聚类、关联规则、特征、变化和偏差分析、Web页挖掘等,它们分别从不同的角度对数据进行挖掘。

(1) 分类。分类是找出数据库中一组数据对象的共同特点并按照分类模式将其划分为不同的类,其目的是通过分类模型,将数据库中的数据项映射到某个给定的类别。它可以应用到客户的分类、客户的属性和特征分析、客户满意度分析、客户的购买趋势预测等,如一个汽车零售商将客户按照对汽车的喜好划分成不同的类,这样营销人员就可以将新型汽车的广告手册直接邮寄到有这种喜好的客户手中,从而大大增加了商业机会。

(2) 回归分析。回归分析方法反映的是事务数据库中属性值在时间上的特征,产生一个将数据项映射到一个实值预测变量的函数,发现变量或属性间的依赖关系,其主要研究问题包括数据序列的趋势特征、数据序列的预测以及数据间的相关关系等。它可以应用到市场营销的各个方面,如客户寻求、保持和预防客户流失活动、产品生命周期分析、销售趋势预测及有针对性的促销活动等。

(3) 聚类。聚类分析是把一组数据按照相似性和差异性分为几个类别,其目的是使得属于同一类别的数据间的相似性尽可能大,不同类别中的数据间的相似性尽可能小。它可以应用到客户群体的分类、客户背景分析、客户购买趋势预测、市场的细分等。

(4) 关联规则。关联规则是描述数据库中数据项之间所存在的关系的规则,即根据一个事务中某些项的出现可导出另一些项在同一事务中也出现,即隐藏在数据间的关联或相互关系。在客户关系管理中,通过对企业的客户数据库里的大量数据进行挖掘,可以从大量的记录中发现有趣的关联关系,找出影响市场营销效果的关键因素,为产品定位、定价与定制客户群,客户寻求、细分与保持,市场营销与推销,营销风险评估和诈骗预测等决策支持提供参考依据。

(5) 特征。特征分析是从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征。如营销人员通过对客户流失因素的特征提取,可以得到导致客户流失的一系列原因和主要特征,利用这些特征可以有效地预防客户的流失。

(6) 变化和偏差分析。偏差包括很大一类潜在有趣的知识,如分类中的反常实例,模式的例外,观察结果对期望的偏差等,其目的是寻找观察结果与参照量之间有意义的差别。在企业危机管理及其预警中,管理者更感兴趣的是那些意外规则。意外规则的挖掘可以应用到各种异常信息的发现、分析、识别、评价和预警等方面。

(7) Web页挖掘。随着Internet的迅速发展及Web 的全球普及,使得Web 上的信息量无比丰富,通过对Web的挖掘,可以利用Web 的海量数据进行分析,收集政治、经济、政策、科技、金融、各种市场、竞争对手、供求信息、客户等有关的信息,集中精力分析和处理那些对企业有重大或潜在重大影响的外部环境信息和内部经营信息,并根据分析结果找出企业管理过程中出现的各种问题和可能引起危机的先兆,对这些信息进行分析和处理,以便识别、分析、评价和管理危机。

1.3 数据挖掘的功能

数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下五类功能。

(1)自动预测趋势和行为

数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。

(2)关联分析

数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。

(3)聚类

数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统的模式识别方法和数学分类学。80年代初,Mchalski提出了概念聚类技术牞其要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面性。

(4)概念描述

概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。

(5)偏差检测

数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结果与参照值之间有意义的差别。

1.4 数据挖掘的主要问题

数据挖掘的主要问题,涉及挖掘方法、用户交互、性能和各种数据类型。这些问题介绍如下:

1. 数据挖掘技术和用户交互问题:这反映所挖掘的知识类型、在多粒度上挖掘知识的能力、领域知识的使用、临场即席挖掘和知识可视化。

a)挖掘数据库中不同类型的知识:由于不同的用户可能对不同类型的知识感兴

趣,数据挖掘应当涵盖范围很广的数据分析和知识发现任务,包括数据特征化、区分、关联与相关分析、分类、预测、聚类、离群点分析和演变分析(包括趋势和相似性分析)。这些任务可能以不同的方式使用相同的数据库,并需要开发大量数据挖掘技术。

b)多个抽象层的交互知识挖掘:由于很难准确地知道能够在数据库中发现什

么,数据挖掘过程应当是交互的。对于包含海量数据的数据库,首先应当使

用适当的抽样技术,进行交互式数据探查。交互式挖掘允许用户聚焦搜索模式,根据返回的结果提出和精炼数据挖掘请求。特别,类似于OLAP对数据立方体所做的那样,应当通过交互地在数据空间和知识空间下钻、上卷和旋转来挖掘知识。用这种方法,用户可以与数据挖掘系统交互,以不同的粒度和从不同的角度观察数据和发现模式。

c)结合背景知识:可以使用背景知识或关于所研究领域的信息来指导发现过

程,并使得发现的模式以简洁的形式在不同的抽象层表示。关于数据库的领域知识,如完整性约束和演绎规则,可以帮助聚焦和加快数据挖掘过程,或评估发现的模式的兴趣度。

d)数据挖掘查询语言和特定的数据挖掘:关系查询语言(如SQL)允许用户提

出特定的数据检索查询。类似地,需要开发高级数据挖掘查询语言,使得用户通过说明分析任务的相关数据集、领域知识、所挖掘的知识类型、被发现的模式必须满足的条件和约束,描述特定的数据挖掘任务。这种语言应当与数据库或数据仓库查询语言集成,并且对于有效的、灵活的数据挖掘是优化的。

e)数据挖掘结果的表示和可视化:发现的知识应当用高级语言、可视化表示或

其他表示形式表示,使得知识易于理解,能够直接被人们使用。如果数据挖掘系统是交互的,这一点尤其重要。这要求系统采用有表达能力的知识表示技术,如树、表、规则、图、图表、交叉表、矩阵或曲线。

f)处理噪声和不完全数据:存放在数据库中的数据可能反映噪声、异常情况或

不完全的数据对象。在挖掘数据规律时,这些对象可能搞乱分析过程,导致所构造的知识模型过分拟合数据。其结果是,所发现的模式的准确性可能很差。需要处理数据噪声的数据清理方法和数据分析方法,以及发现和分析异常情况的离群点挖掘方法。

g)模式评估即兴趣度问题:数据挖掘系统可能发现数以千计的模式。对于给定

的用户,所发现的许多模式都不是有趣的,因为它们表示常识或缺乏新颖性。

关于开发模式兴趣度的评估技术,特别是关于给定用户类,基于用户的信念或期望,评估模式价值的主观度量仍然存在一些挑战。使用兴趣度度量或用户指定的约束指导发现过程和压缩搜索空间是又一个活跃的研究领域。

2. 性能问题:这包括数据挖掘算法的有效性、可伸缩性和并行处理。

a)数据挖掘算法的有效性和可伸缩性:为了有效地从数据库的海量数据中提取

信息,数据挖掘算法必须是有效的和可伸缩的。换一句话说,数据挖掘算法在大型数据库中的运行时间必须是可预计的和可接受的。从数据库的知识发现角度,有效性和可伸缩性是数据挖掘系统实现的关键问题。上面讨论的挖掘方法和用户交互的大多数问题,也必须考虑有效性和可伸缩性。

b)并行、分布和增量挖掘算法:许多数据库的巨大规模、数据的广泛分布和一

些数据挖掘算法的计算复杂性是促使开发并行和分布式数据挖掘算法的因素。这种算法将数据划分成若干部分,并行处理,然后合并每部分的结果。

此外,有些数据挖掘过程的高开销导致了对增量数据挖掘算法的需要。增量算法与数据库更新结合在一起,而不必“从头开始”挖掘全部数据。这种算法增量地进行知识修改、修正和加强业已发现的知识。

3. 关于数据库类型的多样性问题:

a)关系的和复杂的数据类型的处理:由于关系数据库和数据仓库已经广泛使

用,为这样的数据开发有效的数据挖掘系统是重要的。然而,其他数据库可

能包含复杂的数据对象、超文本和多媒体数据、空间数据、时间数据或事务数据。由于数据类型的多样性和数据挖掘的目标不同,指望一个系统挖掘所有类型的数据是不现实的。为挖掘特定类型的数据应当构造特定的数据挖掘系统。因此,对于不同类型的数据,期望有不同的数据挖掘系统。

b)从异构数据库和全球信息系统挖掘信息:局域网和广域网(如因特网)连接

了许多数据源,形成了庞大的分布和异构数据库。从具有不同数据语义的结构化的、半结构化的和非结构化的不同数据源发现知识,对数据挖掘提出了巨大挑战。数据挖掘可以帮助发现多个异构数据库中的高层数据规律,这些规律多半难以被简单的查询系统发现,并可以改进异构数据库信息交换和互操作性能。Web挖掘发现关于Web内容、Web结构、Web 使用和Web动态情况的有趣知识,已经成为数据挖掘的一个非常具有挑战性和快速发展的领域。

以上问题是数据挖掘技术未来发展的主要需求和挑战。在近来的数据挖掘研究和开发中,一些挑战已经在一定程度上受到关注,并且现在认为是必需的,而另一些仍处于研究阶段。

第二章文本挖掘概述

2.1 文本挖掘介绍

2.1.1 文本挖掘的历史演化

数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。

一篇重要的关于文本挖掘的论文讲述在赫尔辛基大学进行的研究试验。因为出现越来越多的非结构化文本资源,他们将数据挖掘技术应用于文本资源这个小组成功地运用数据库中的知识发现技术( KDD) 。他们曾经发表了试图将数据挖掘技术直接应用于经过预处理的文本信息的论文。他们将预处理过程看作是一个至关重要的环节,从而有效地改变了数据挖掘依赖于文本最初是如何被处理的这一法则。沿着知识发现这条路,Feldman考虑使用信息抽取中最简单的形式来获取知识:通过为一篇文本建立一个有意义的概念集合来看清概念的层次结构,从而在文本和概念之间挖掘他们的关。这种方法主要应用领域就是文本分类,系统Document Explorer是目前比较先进的文本挖掘系统, 该系统构建于以上所提到的KDT 基础之上。Feldman 的Document Explorer 则用文本集合来创建数据库,然后基于概念图的数据挖掘技术。这套系统可以使用不同的模板来创建数据库以适应各种类型的文本集合,包括Web 文本。

从网上抽取信息来看,Etzioni着眼于将数据挖掘技术应用于互联网上大量的超文本资源。这大概是第一篇将数据挖掘技术应用于万维网上信息资源的文章,并将该技术命名Web 挖掘。近期Soderlan在从互联网上抽取信息的方面作了许多工作,利用自然语言处理技术从不同的html 资源来解释天气预报。应该说万维网上的数据已经成为文本挖掘的重要研究方向[2]。

2.1.2文本挖掘的定义

文本挖掘作为数据挖掘的一个新主题,引起了人们的极大兴趣,同时,它也是一个富于争议的研究方向,目前其定义尚无统一的结论,需要国内外学者开展更多的研究以便进行精确的定义。

一般来说,文本挖掘(Text Mining,TM)和文本数据库中的知识发现(Knowledge Discovery in Textual Database,简称KDT)被认为是具有相同含义的两个词,最早由Ronen Feldman 等人提出:The Process of extracting interesting Patterns from very large text collections for the purpose of discovering knowledge”。

在维基百科上文本挖掘是这样定义的,文本挖掘有时也被称为文字探勘、文本数据挖掘等,大致相当于文字分析,一般指文本处理过程中产生高质量的信息。高质量的信息通常通过分类和预测来产生,如模式识别。文本挖掘通常涉及输入文本的处理过程(通常进行分析,同时加上一些衍生语言特征以及消除杂音,随后插入到数据库中),产生结构化数据,并最终评价和解释输出。'高品质'的文本挖掘通常是指某种组合的相关性,新颖性和趣味性。典型的文本挖掘方法包括文本分类,文本聚类,概念/实体挖掘,生产精确分类,观点分析,文档摘要和实体关系模型(即,学习已命名实体之间的关系)。

2.1.3文本挖掘的研究现状

国外对于文本挖掘的研究开展较早,50 年代末,H.P.Luhn 在这一领域进行了开创性的研究,提出了词频统计思想用于自动分类。1960 年,Maron发表了关于自动分类的第一篇论文,随后,众多学者在这一领域进行了卓有成效的研究工作。研究主要有围绕文本的挖掘模型、文本特征抽取与文本中间表示、文本挖掘算法(如关联规则抽取、语义关系挖掘、文本聚类与主题分析、趋势分析)、文本挖掘工具等,其中首次将KDD 中的知识发现模型运用于KDT。

我国学术界正式引入文本挖掘的概念并开展针对中文的文本挖掘研究是从最近几年才开始的。从公开发表的有代表性的研究成果来看,目前我国文本挖掘研究还处在消化吸收国外相关的理论和技术与小规模实验阶段,还存在如下不足和问题:

1)没有形成完整的适合中文信息处理的文本挖掘理论与技术框架。目前的中文文本挖掘研究只是在某些方面和某些狭窄的应用领域展开。在技术手段方面主要是借用国外针对英文语料的挖掘技术,没有针对汉语本身的特点,没有充分利用当前的中文信息处理与分析技术来构建针对中文文本的文本挖掘模型,限制了中文文本挖掘的进一步发展[3]。

2)中文文本的特征提取与表示大多数采用“词袋”法,“词袋”法即提取文本高频词构成特征向量来表达文本特征。这样忽略了词在文本(句子)中担当的语法和语义角色,同样也忽略了词与词之间的顺序,致使大量有用信息丢失。而且用“词袋”法处理真实中文文本数据时,特征向量的维数往往是高维的,这将使挖掘算法效率大大降低。

3)知识挖掘的种类和深度有限,一般只是进行文本的分类、聚类或者信息抽取,而且针对开放语料的实验结果也不是很理想。

2.2 文本挖掘主要内容

存储信息使用最多的是文本,所以文本挖掘被认为比数据挖掘具有更高的商业潜力. 当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本数据挖掘. 事实上,最近研究表明公司信息有80 %包含在文本文档中。

(1) 文本分类

文本分类指按照预先定义的主题类别,为文档集合中的每个文档确定一个类别. 这样用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更容易、快捷. 目前,用于英文文本分类的分类方法较多,用于中文文本分类的方法较少,主要有朴素贝叶斯分类(Naive Bayes) ,向量空间模型(Vector Space Model) 以及线性最小二乘LLSF(Linear Least Square Fit)。

(2) 文本聚类

聚类与分类的不同之处在于,聚类没有预先定义好的主体类别,它的目标是将文档集合分成若干个簇,要求同一簇内文档内容的相似度尽可能的大,而不同簇之间的相似度尽可能的小。

(3) 文本结构分析

其目的是为了更好地理解文本的主题思想,了解文本所表达的内容以及采用的方式. 最终结果是建立文本的逻辑结构,即文本结构树,根结点是文本主题,依次为层次和段落。

(4) Web 文本数据挖掘

在Web 迅猛发展的同时,不能忽视“信息爆炸”的问题,即信息极大丰富而知

识相对匮乏. 据估计,Web已经发展成为拥有3 亿个页面的分布式信息空间,而且这个数字仍以每4~6 个月翻1 倍的速度增加. 在这些大量、异质的Web 信息资源中,蕴含着具有巨大潜在价值的知识. 人们迫切需要能够从Web 上快速、有效的发现资源和知识的工具。

文本挖掘目前面临的问题有挖掘算法的效率和可扩展性、遗漏及噪声数据的处理、私有数据的保护与数据安全性等[4]。

2.3 文本挖掘技术

文本挖掘不但要处理大量的结构化和非结构化的文档数据, 而且还要处理其中复杂的语义关系, 因此, 现有的数据挖掘技术无法直接应用于其上。对于非结构化问题, 一条途径是发展全新的数据挖掘算法直接对非结构化数据进行挖掘, 由于数据非常复杂, 导致这种算法的复杂性很高; 另一条途径就是将非结构化问题结构化, 利用现有的数据挖掘技术进行挖掘, 目前的文本挖掘一般采用该途径进行。对于语义关系, 则需要集成计算语言学和自然语言处理等成果进行分析。我们按照文本挖掘的过程介绍其涉及的主要技术及其主要进展。

2.3.1 数据预处理技术

预处理技术主要包括Stemming( 英文) / 分词( 中文) 、特征表示和特征提取。与数据库中的结构化数据相比, 文本具有有限的结构, 或者根本就没有结构。此外, 文档的内容是人类所使用的自然语言, 计算机很难处理其语义。文本信息源的这些特殊性使得数据预处理技术在文本挖掘中更加重要。

(1) 分词技术

在对文档进行特征提取前, 需要先进行文本信息的预处理, 对英文而言需进行Stemming 处理, 中文的情况则不同, 因为中文词与词之间没有固有的间隔符( 空格) , 需要进行分词处理。目前主要有基于词库的分词算法和无词典的分词技术两种。

基于词库的分词算法包括正向最大匹配、正向最小匹配、逆向匹配及逐词遍历匹配法等。这类算法的特点是易于实现, 设计简单; 但分词的正确性很大程度上取决于所建的词库。因此基于词库的分词技术对于歧义和未登录词的切分具有很大的困难。杨斌等在分析了最大匹配法的特点后, 提出了一种改进的算法。该算法在允许一定的分词错误率的情况下, 能显著提高分词效率, 其速度优于传统的最大匹配法。邹涛等采用了基于词典的正向逐词遍历匹配法, 取得了较好的效果。

基于无词典的分词技术的基本思想是: 基于词频的统计,将原文中任意前后紧邻的两个字作为一个词进行出现频率的统计, 出现的次数越高, 成为一个词的可能性也就越大, 在频率超过某个预先设定的阈值时, 就将其作为一个词进行索引。这种方法能够有效地提取出未登录词。

(2) 特征表示

文本特征指的是关于文本的元数据, 分为描述性特征( 如文本的名称、日期、大小、类型等) 和语义性特征( 如文本的作者、机构、标题、内容等) 。特征表示是指以一定特征项( 如词条或描述) 来代表文档, 在文本挖掘时只需对这些特征项进行处理, 从而实现对非结构化的文本处理。这是一个非结构化向结构化转换的处理步骤。特征表示的构造过程就是挖掘模型的构造过程。特征表示模型有多种, 常用的有布尔逻辑型、向量空间模型( Vector Space Model, VSM) 、概率型以及混合型等。W3C 近来制定的XML , RDF 等规范提供了对Web 文档资源进

行描述的语言和框架。

(3) 特征提取

用向量空间模型得到的特征向量的维数往往会达到数十万维, 如此高维的特征对即将进行的分类学习未必全是重要、有益的( 一般只选择2% ~5% 的最佳特征作为分类依据) , 而且高维的特征会大大增加机器的学习时间, 这便是特征提取所要完成的工作。

特征提取算法一般是构造一个评价函数, 对每个特征进行评估, 然后把特征按分值高低排队, 预定数目分数最高的特征被选取。在文本处理中, 常用的评估函数有信息增益( Information Gain) 、期望交叉熵( Expected Cross Entropy) 、互信息( Mutual Information) 、文本证据权( The Weight of Evidence for Text)和词频。

2.3.2 数据挖掘分析技术

文本转换为向量形式并经特征提取以后, 便可以进行挖掘分析了。常用的文本挖掘分析技术有: 文本结构分析、文本摘要、文本分类、文本聚类、文本关联分析、分布分析和趋势预测等。

(1) 文本结构分析

其目的是为了更好地理解文本的主题思想, 了解文本所表达的内容以及采用的方式。最终结果是建立文本的逻辑结构,即文本结构树, 根节点是文本主题, 依次为层次和段落。

(2) 文本摘要

文本摘要是指从文档中抽取关键信息, 用简洁的形式对文档内容进行解释和概括。这样, 用户不需要浏览全文就可以了解文档或文档集合的总体内容。

任何一篇文章总有一些主题句, 大部分位于整篇文章的开头或末尾部分, 而且往往是在段首或段尾, 因此文本摘要自动生成算法主要考察文本的开头、末尾, 而且在构造句子的权值函数时, 相应的给标题、子标题、段首和段尾的句子较大的权值, 按权值大小选择句子组成相应的摘要。

(3) 文本分类

文本分类的目的是让机器学会一个分类函数或分类模型,该模型能把文本映射到己存在的多个类别中的某一类, 使检索或查询的速度更快, 准确率更高。训练方法和分类算法是分类系统的核心部分。用于文本分类的分类方法较多, 主要有朴素贝叶斯分类( Native Bayes) 、向量空间模型、决策树、支持向量机、后向传播分类、遗传算法、基于案例的推理、K -最临近、基于中心点的分类方法、粗糙集、模糊集以及线性最小二乘( Linear Least Square Fit, LLSF) 等。

厉宇航等指出传统特征提取的方法是基于词形的, 并不考察词语的意义, 忽略了同一意义下词形的多样性、不确定性以及词义间的关系, 尤其是上下位关系。该文的方法在向量空间模型( VSM) 的基础上, 以“概念”为基础, 同时考虑词义的上位关系, 使得训练过程中可以从词语中提炼出更加概括性的信息, 从而达到提高分类精度的目的。

(4) 文本聚类

文本分类是将文档归入到己经存在的类中, 文本聚类的目标和文本分类是一样的, 只是实现的方法不同。文本聚类是无教师的机器学习, 聚类没有预先定义好的主题类别, 它的目标是将文档集合分成若干个簇, 要求同一簇内文档内容的相似度尽可能大, 而不同簇间的相似度尽可能小。Hearst 等人的研究已经证明了“聚类假设”, 即与用户查询相关的文档通常会聚类得比较靠近, 而远离与用户查询不相关的文档。

(5) 关联分析

关联分析是指从文档集合中找出不同词语之间的关系。Feldman 和Hirsh研究了文本数据库中关联规则的挖掘,提出了一种从大量文档中发现一对词语出现模式的算法, 并用来在Web 上寻找作者和书名的出现模式, 从而发现了数千本在Amazon网站上找不到的新书籍; Wang Ke等以Web 上的电影介绍作为测试文档, 通过使用OEM模型从这些半结构化的页面中抽取词语项, 进而得到一些关于电影名称、导演、演员、编剧的出现模式。

(6) 分布分析与趋势预测

分布分析与趋势预测是指通过对文档的分析, 得到特定数据在某个历史时刻的情况或将来的取值趋势。Feldman R等使用多种分布模型对路透社的两万多篇新闻进行了挖掘, 得到主题、国家、组织、人、股票交易之间的相对分布, 揭示了一些有趣的趋势。Wuthrich B等通过分析Web 上出版的权威性经济文章对每天的股票市场指数进行预测, 取得了良好的效果。

(7) 可视化技术

数据可视化( Data Visualization) 技术指的是运用计算机图形学和图像处理技术, 将数据转换为图形或图像在屏幕上显示出来, 并进行交互处理的理论、方法和技术。它涉及到计算机图形学、图像处理、计算机辅助设计、计算机视觉及人机交互技术等多个领域。国内外学者已经对信息可视化技术进行了大量的研究, 运用最小张力计算、多维标度法、语义分析、内容图谱分析、引文网络分析及神经网络技术, 进行了信息和数据的可视化表达[4]。

2.4 文本挖掘热点难点问题

显然,目标不同,文本挖掘的过程也不尽相同。但不论何种目标,都不可忽视如下几个方面的研究:

(1). 文本建模

向量空间模型,也称为“词袋”法,是目前文本处理的标准模式。简单讲,就是提取文本高频词构成特征向量来表达文本特征的方法,该方法有效描述了词一文档间的频率关系。面对复杂繁琐的自然语言文本,向量空间模型是目前最为简便有效的文本表示方法。

但向量空间模型建模方法最大的问题就是忽略了词在文本中承担的语法和语义上的作用,同时忽略了词与词之间的顺序关系,丢失了大量有用信息,从而减弱了高频词向量表达文本特征的可信度。

同时,向量空间模型在处理真实文本数据时形成的特征向量的高维性也严重影响了后续文本挖掘的效率和结果的准确性。

此外,建模前的文本预处理工作作为整个文本挖掘过程的基础尤为重要。而不同的语言的处理又常常不同。如何解决多语言混合如中英文混合情况下的文本处理和建模工作日益重要。同时,不同的语言有不同的切词处理方式。并且存在着大量多词同义、一词多义的现象。

(2). 特征降维

文本模型的高维特性制约了文本挖掘的效果。不论何种语种,由于语言本身的非结构特性以及建模后的高维特性,使得后续挖掘过程中都面临严重的效率问题。因此有效的降维是进行后续文本挖掘的重要一环。

目前的文本降维方法主要采用基于奇异值分解的潜在语义分析技术。该技术通过分析特征词之间的语义相关性来减少特征向量的维数,通过将词一文档的高维表示投影在低维潜在语义空间中,降低空间的维数,进而得到词一文档的不再

稀疏的低维表示。并且,由词袋模型在进行奇异值分解后得到的子空间不再是仅仅反映出词汇出现的频率和分布关系,而进一步揭示了词汇或文档之间的语义联系。

然而,基于奇异值分解的潜在语义分析技术有两大突出的问题:一是得到的分解矩阵具有正交的特性,导致无法更好的描述文本数据空间的特点,从而使得对降维后的子空间进行进一步的文本分析时结果并不准确。这一问题在面对大规模文本数据时显得更加突出。另一方面,由于潜在语义分析得到的分解矩阵存在负数,而难以直观地做出与实际情况一致的语义上的解释。

非负矩阵分解方法有效解决了上述问题。借鉴人类思维中“局部构成整体”的概念,非负矩阵分解将由词袋法构造的向量空间模型分解成两个非负、非正交的子矩阵,从而可以更有效的降维及进行进一步的聚类、分类分析。

(3). 挖掘算法的选择

模型创建成功并且进行了有效的降维处理之后,就可以进行具体的挖掘操作了。从狭义的角度理解,也可以说这部分才是真正的挖掘。而广义上来说,整个过程才一构成文本挖掘的全部过程。

文本挖掘算法并不是一个新的领域,通常就是数据挖掘方法在文本数据上的应用。因此多数挖掘方法来自机器学习、统计学习、自然语言处理、信息抽取、信息检索以及知识管理等领域,最终目标就是对建模后的文本数据进行分析和处理,找到其中潜在的有用信息。

根据不同的应用目标,挖掘出的知识种类不尽不同,由此可以对文本挖掘的技术和算法进行如下的分类:如根据发现关联规则、聚类、趋势、差异等知识的不同,分别对应不同领域的算法选择。

任何算法技术的研究和设计都离不开始实验的仿真和具体实例的验证。文本数据挖掘过程亦是如此。由于文本数据的复杂多样性,导致文本数据的挖掘过程相对其他结构化数据要复杂繁琐的多,对数据的敏感性更为严重,在很多情况下,面临对开放语料的实验结果不理想的问题。因此选择更好的评价方法,克服现有语料手工分类不准确带来的误差,以更好地对算法作出评价,同样重要。本文也将在后续仿真的具体过程中对所研究的方法进行有意义的评价。

(4). 模式的理解及可视化表达

多数文本挖掘应用实例的目标同数据挖掘类似,通常是要辅助用户的决策和判断,因此从用户的角度来看,文本挖掘所发现结果的可理解至关重要。而对于各种方法挖掘出的模式、规则等结果,提高其可理解性的解决方法通常有两种:一种是以生成人类易于理解的自然语言的方式进行呈现,如对文档进行摘要的方法;另一种方式则是以图形界面方式展示结果,通过提供相对少量的规则,利用计算机图形学、图像处理等可视化技术将结果更加直观的呈现给用户。

近年来,可视化技术作为展示结果的关键一环逐渐成为文本挖掘过程中日益重要的一个分支。大量的研究结合语义分析、内容图谱分析、最小张力计算、神经网络技术、多维标度法等数据分析和处理方法进行了结果的可视化表达[5]。

第三章文本分类算法

3.1 文本分类概述

3.1.1 文本分类的研究现状

文本分类的理论研究可以追溯到20世纪60年代初,其发展过程大致可以划分为三个阶段:

第一阶段是20世纪60年代前。在这一时期,主要是分类理论的研究,并将文本分类应用于信息检索。在这一时期,提出了很多经典文本分类的数学模型。如Maron和Kuhns提出概率标引(Probabilistic Indexing)模型,并将其应用于信息检索中;Salton提出利用向量空间模型(Vector Space Model, VSM)对文本进行描述等等。

第二阶段是20世纪80年代。这一阶段主要是采用传统的知识工程技术,根据专家提供的知识形成规则,手工建立分类器。这一时期,信息检索技术逐渐成熟应用,为文本分类提供了许多技术支持,最著名的信息检索系统是Salton的SMART系统。Rocchio在1971年也提出了在用户查询中不断通过用户的反馈来修正类权重向量,来构成简单的线性分类器。Van Rijsbergen提出了信息检索的评估标准如准确率、查全率等。

第三阶段是20世纪90年代以后。在这一时期,文本分类的主要特点是采用统计机器学习方法,自动建立分类器,学习和分类过程来自于机器对训练文本的自主学习,从而不需要领域专家的支持,不需要人工干预,而分类效率和准确率得以提高。如1992年,Lewis在他的博士论文中提出T标准数据集Reuters22173,并在此数据集上进行了实验测试;Yang Yiming对各种特征选择算法进行了分析比较,讨论了文档频率(Document Frequency, DF)、信息增益(Information Gain, IG),互信息(Multi-information, MI)和CHI等方法,结合KNN分类器,得出IG和CHI 方法分类效果相对较好的结论,对后来的研究起到了重要的参考作用。新加坡的Hwee Tou NG等人研究了用Perceptron Learning的方法进行文本分类,使用了一种树状的分类结构,其准确率达到73. 3%。

文本特征描述一般采用基于内容的向量空间模型表示。它是从文本中抽取信息来表示文本内容,并从大规模语料库中发现能表示文本类别的词汇,利用统计原理和文本在一些特征项集合上的分布规律,对文本进行分类。对文档分类来说,关键问题之一就是降维,降维技术是利用某种评价函数来保留这些具有分类能力和描述能力的特征词,过滤掉弱信息特征词,并提取出最少的、最能表达文章主题的词作为特征词汇。

文本分类是按照预先定义的主题类别,为文档集合中的每个文档确定一个类别。这样用户不但能够方便地浏览文档,而且可以通过限制搜索范围来使文档的查找更容易、快捷。文本分类可以在较大程度上解决目前文本以及网络上信息杂乱的现象,方便用户准确地定位所需的信息和分流信息。因此,文本自动分类己成为一项具有较大实用价值的关键技术,是组织和管理数据的有力手段,可被用于垃圾邮件过滤、邮件自动分类、网页搜索、网页分类、信息组织、信息推送、数字图书馆的数字化管理等领域中。

目前,分类器的构造方法有多种,主要有机器学习方法、基于规则的方法等。基于机器学习的英文自动分类己经取得了很好的成绩,如回归模型、K近邻、贝叶斯、决策树、推导规则、神经网络、支撑向量机等。

国外对文档分类技术的应用研究也己经开展了多年,其中较为成功的系统有麻省理工学院为白宫开发的邮件分类系统、卡内基集团为路透社开发的Construe 系统,Salton的SMART系统,Lewis采用了一个线性分类器,建立了OHSUMED,Reuters等标准的分类熟语料和统一的评价方法等。

国内在中文文本分类领域也进行了大量的研究,如中科院计算所的李晓黎、史忠植等人应用概念推理网进行文本分类,召回率达到94. 296,准确率达到99. 4960中国科技大学的范众等人在KNN, Bayes和文档相似性研究的基础上提出了一个超文本协调分类器,正确率接近80%,它的一个特色是适当考虑了HTML 文本中的结构化信息,并且将文本分类器和超文本结构信息分类器结合起来,从而达到更好的效果。但由于语料和评价方法各不相同,很难对它们做出严格的比较。在国内文本分类和过滤领域里,复旦大学黄营著等人设计的文本过滤系统很值得一提,它主要针对英文,能够通过特征抽取和伪反馈建立初始的过滤模板,并设置初始闲值,在过滤阶段,则根据用户的反馈信息自适应地调整模板和闭值,并且该系统在2000年举行的第9次文本检索会议(Text Retrieval Conference, TREC)的评测中取得了很好的效果,自适应过滤和批过滤的平均准确率分别为26. 596和31. 796,在来自多个国家的15个系统中名列前茅,获得自适应过滤第3名和批过滤第1名的好成绩。

关于文本分类算法KNN,目前,大多学者主要从三个方面进行改进,分别是减少训练样本的存储量、加快K个最近邻的搜索速度和调整K值的选择。当训练样本集过大时,为了减小计算开销,可以对训练文本进行编辑处理,即从原始训练样本集中选择最优的参考子集进行K个最近邻寻找,从而提高计算效率。这种途径主要的方法是Hart的Condensing算法、Wi1Son的Editing算法和Devijver的Multi-Edit算法,另外Kuncheva使用遗传算法在这方面也进行了一些研究。

有的学者是采用加快KNN搜索速度的算法,使之在尽量短的时间内找到K 个最近邻文本。在进行搜索时不是盲目迭代,而是采用一定的方法加快搜索速度或减小搜索范围,例如构造交叉索引表,利用匹配成功与否的历史来修改样本库的结构,使用样本和概念来构造层次或网络来组织训练样本。此类方法主要可分为三类:空间/数据分区方法、以扫描作为基础的方法和线性化方法。如香港中文大学的Wai Lam等人将KNN方法和线性分类器结合,取得了较好效果。

K值的选择主要有两种方法:(1)通过大量独立的测试数据、多个模型来验证最佳K值的选择;(2) K值可以事先确定,也可以动态变化,例如采用固定的距离指标,只对小于该指标的样本进行分析。本文针对KNN算法的样本数量不平衡的情况,提出对KNN算法进行优化,使K值能够自适应与文本分类规模[6]。

3.1.2 文本分类模型

大多数文本分类采用词袋( bags-of-words)表示法,即记录每个单词在文档中出现的次数,或仅记录出现与否。加入语义信息或语言信息对分类器的精度都提高不大13x1。分类算法一般基于“词袋”模型,即文档被看成是由相互无关的单词构成的词的集合,不考虑单词之间的上下文关系,单词出现的顺序,位置以及文章的长度等。统计出每个单词在每篇文档中出现的频率是进行算法建模的基础,统计所有单词在所有文档中出现的频率得到单词对于文档的词频统计矩阵。词频统计矩阵是文本分类算法建立分类器模型的数据基础,训练集通过文法分析统计出词频矩阵,矩阵中的某一元素就是某个单词在某篇训练文档中出现的频率。下面介绍建立文本分类器模型的过程。

第一步,对文档进行预处理过程。按照文本文档数据集(一般分目录放置文本文档)路径对所有训练文档扫描,分析出不同的单词。对待英文,文法分析的步骤为:按空格分出一各个单词,去掉其中禁用词,如the,that等,如果是第一次遇到的新词,就存入单词列表,也称词库,否则这个单词的统计次数加1,其中包括词干提取,如将played, playing变为play;还包括保存文档的文件名,类别等工作。此外,把算法运用到中文分类时,关键问题就是中英文的单词在句子中的出现方式不一样,对待中文要增加切词的工作。因为中文不象英文有空格将词与词区分开,中文文本中词与词之间没有明确的分隔标记,而是连续的汉字串。汉语中存在大量多义词,语义模糊,歧义性大,识别词的边界很难。常用的中文分词算法有:基于词表的分词,基于统计的分词,基于规则和基于统计相结合的分词。我们将采用基于词表匹配的分词方法,这种切分方法,需要语言资源(仅需一个词表,不需要任何词法、句法、语义知识)最少,程序实现简单。(后面的实验中,我们将中文的词法分析器代替原有的英文词法分析器,将词法分析模块插入到Rainbow系统中,得到需要的词频矩阵,测试不同的算法在分类中的性能。) 第二步,建立词频矩阵。预处理之后,将文章变为一个词集,单词也称为特征项或属性。把文档看成是一个词向量(word vector ),它的维数是所有不同的单词个数,词集中可以有数万个不同的单词。对于特定的文章,它包含的单词数一般从几百到几千,一篇文档对应一个词向量,而一个词也在不同的文档中出现,所有出现这个单词的文档构成了文档向量,所以整个文档与词集形成一个稀疏矩阵,矩阵中点的值就是单词在文档中出现的频率。在系统中,矩阵以二维链表的形式保存。

第三步,构造文本分类器。词频统计矩阵是算法建模的基础。在词频统计矩阵的基础上根据特定的算法构造分类器。主要任务是根据不同分类算法,计算词向量的权值。

词向量的权值按不同的算法有不同的计算方法和意义。在第一类算法中,权值按TFIDF公式计算,权值越大,表示这个词对文档越重要。TF(Term frequency)是词在文档中出现的次数,如果一个词在一篇文档中经常出现,那么说明这个词对文档具有代表性。如“计算机”这个词在计算机类的文档中出现的频率显然要高于政治类的文档。但如果一个单词在一篇文档中出现,但同时它也出现在很多文档中,则降低了这个单词的重要性,如“科学”在社会科学类与自然科学类的文档中都出现,对区别两类文档的帮助就不大,这就是反比文档频率IDF ( inverse document frequency)的作用。把两项相乘得到的权值,就代表了单词对文档的整体重要程度。

对于另一类概率算法,如纯粹贝叶斯算法,则通过词频统计矩阵计算每个词属于每个类的概率,权值越大,表示单词在这个类中出现的概率大,得到了词到类别的概率分布。贝叶斯算法认为新的文档满足建立的概率模型的单词的类概率分布,把文档中的单词在每个类上的概率按类相乘,由此计算出文档属于每个类别的概率。

最后,用分类器测试未分类文档。构造好分类器后,当对一篇测试文档分类时,首先利用建立的分类器模型给测试文档的词向量赋于相应的权值,然后由算法根据分类器和文档向量计算此文档的类别。

上面所提的两类算法代表了两种基本文本分类模型。一类是由TFIDF公式定义单词的权值,由cosine相似度距离公式计算样本点之间的相似度。一类是概率权值,计算单词在类别上的概率分布,然后求得文档属于每个类别的概率[7]。

3.1.3 文本分类面临的挑战

现在既是文本分类最为蓬勃发展的时代,又是其面临巨大挑战的时代:

1)文本分类处理内容日趋复杂化和多元化。随着时代的发展,文本分类和聚类技术发生了天翻地覆的变化。其“内涵”仍然涵盖有效地组织和管理文本信息,并快速、准确、全面地从中找到、分流、定位和形成用户所需要的信息等核心内容。但是其“外延”却极大的丰富处理对象己经由简单的纯文本对象,发展到包括web网页、邮件/讨论组、短信、即时通信、BBS论坛等等,不一而足。这使得从各式各样文本形式中抽取处理内容本身也成为了一门学问,即信息抽取(CIE: Information Extraction),受到人们的广泛关注。而且文本分类和聚类处理的对象也不再局限于文本领域,还逐渐和语音分类及检索,图像分类及检索,机器视觉/视频分类及检索等技术结合在一起,如通过语一文转换以及建立图像舰频的描述(profile)将语音、图像/视频分类及检索问题转换为文本分类及索问题。种种发展,均使得文本分类和聚类技术发生了质的变化,提升到前所未有的水平。同时也使得研究中遇到的一些老问题还没有得到解决时,新的问题又不断涌现,层出不穷。

2)海量信息处理。信息大爆炸,一方面使得人们很容易获取巨量的信息,使文本信息以前所未有的速度传播,发展。然而,事物总是有两面性的,另外一方面,这也使得如何处理这些海量数据成为了摆在人们面前的难题。这里的处理包含两个方面的含义:

第一,如何进行海量数据实时处理的问题。一般来说,现有的算法只是在中小数据集上显示出优势,大都是因为速度瓶颈无法成功应用于海量数据挖掘。而处理海量数据挖掘的算法一般来说精度都不高。如何达到速度和精度的折衷,需要进行深入的研究。

第二,如何进行无标签样本学习的问题。信息化使得我们能够轻松获得大量的信息(无标注背景信息),但是这些信息只是原始语料,一般来说,只有经过整理标注才能投入实际应用。而手工标注大量高质量的训练样本的工作是极端枯燥和代价巨大的。因此如何整合有标签数据和无标签数据的学习,成为了一个现实的问题。

3)人性化/个性化处理。我们无论是对文本进行分类和聚类,还是进行其它深层次的处理,其最终目的始终都要面对人的需求,因此人性化/个性化处理是大势所趋,不可避免。这里的人性化/个性化处理也包含两个方面的含义: 第一,如何开发增量式自适应更新的算法,跟踪捕获用户的需求。因为算法的开发一般面对的是通用的情况,即针对最一般的情况进行处理。而实际中碰到的总是具体的问题,如何使通用框架适合每个用户的需求,我们必须开发增量式自适应更新的算法,通过不断学习,跟踪捕获用户的需求。

第二,如何从更高的层次,即从“理解”的层次处理用户需求。具有理解并自动处理文本信息能力的机器,才算是智能文本信息处理机器,也才可以替代人类劳动者工作。这样,传统上人类劳动者依靠简单的“控制指令”来同机器合作的局面就可以大为改观,从而可以做到人和机器之间的合理分工和默契合作。这对于整个社会生产力和促进人类劳动者从自然力的束缚下获得越来越多的解放具有伟大的意义。

4)对更高处理精度的追求。对信息处理更高、更快、更强的追逐是人类永恒的追求。如何开发分类精度更高,更鲁棒,速度更快的文本和聚类技术,也是我们作为文本信息处理领域研究者的永恒追求。

3.1.4 文本分类亟需解决的问题

现代文本分类和聚类领域面临巨大的挑战,而且随着研究的深入,其中的一些深层次问题也逐渐暴露出来,其中的一些己成为本学科进一步发展的阻碍。但是,从另一个方面来看,它们也揭示了文本分类和聚类领域下一步应该着重研究的内容。

本文认为,目前函需解决以下几个问题:

1)设计出易于使用的工程化文本分类方法。文本分类工作缺少统一的理论框架,经验性成分相当高。虽然针对具体问题,可以迅速给出一般处理方法,但是如果要使得系统获得良好的性能,只能具体问题具体分析,通过大量费力耗时的实验摸索,确定出适合的处理模型、算法以及参数设置,其应用效果极大依赖于使用者的经验。即使采用同样的方法解决同样的问题,由于操作者不同,其结果很可能大相径庭。在实际应用中,操作者往往是缺乏文本处理经验的普通工程技术人员,如果没有易于使用的工程化文本分类处理方法,文本分类技术的应用效果将很难得到保证。

2)开发适用于海量信息处理的文本分类算法。这包含两个方面的问题:

第一,设计性能和效率兼备的海量数据的实时处理算法;

第二,充分利用无标签样本进行学习。通过整合有标签数据和无标签数据的学习,提升文本分类技术的应用性能。

3)提高文本分类技术的处理精度。一般来说,精度问题往往是文本分类处理技术从理论走向实际的最大障碍。因此开发分类精度更高,更鲁棒,速度更快的文本分类技术成为文本信息处理领域重要的研究目标。

4)将传统的文本聚类提升到理解的层次。文本聚类是“文本信息处理”领域的一个重要分支。文本信息处理的根本目标是使机器能够“一定程度上理解并自动处理”文本信息。而文本聚类的目的也不外乎是使机器能够在“一定程度上理解并自动组织”文本信息。换言之,处理只是手段,理解并自动组织才是目的。具有理解并自动处理文本信息能力的机器,才算是智能文本信息处理机器,也才可以替代人类劳动者工作。但是,如何使得使机器能够在“一定程度上理解并自动组织”文本信息。国内外关于这方面的研究,长期专注于“语法”层次的研究。如何从“语法”上升至“语义,,乃至“语用”的层次,最终达到对内容的理解,这仍然是研究者努力工作的方向[8]。

3.2 常用文本分类算法

文本自动分类是指将一篇文本自动指定到一个或几个预定义的文本类别中。文本分类在文本检索、信息获取、信息过滤、数据组织、信息管理及互联网上

的搜索都有十分广泛的应用, 有效地提高了信息服务的质量。研究表明, 公司信息有80%包含在文本文档中。所以, 文本自动分类及其相关技术的研究正日益

成为一项研究热点。目前较为著名的文本分类算法包括支持向量机(Support Vector Machine,SVM), K 近邻法(K- Nearest Neighbour,KNN), 朴素贝叶斯法(NaiveBayes,NB), 神经网络法(Neural Network,NNet), 线性最小二乘法( Linear Least Squares Fit,LLSF) 等。其中, 多数方法采用向量空间模型(Vector Space Model, VSM)表示文本, 即将文本表示成向量, 作为向量空间的一个点, 然后通过计算向量间的距离决定文本所属类别。VSM在表示方法上有巨大的优势, 在文本分类中被广泛使用。

3.2.1 文本分类中的特征选择方法

3.2.1.1 文本的特征表示

特征表示是指以一定特征项(如词条或描述)来代表文档[10]。在文本挖掘时只需要对这些特征项进行处理,即可实现对非结构化的文本的处理。这是一个非结构化向结构化转换的处理步骤。特征表示方法有很多种,常用的有布尔逻辑法、概率法、向量空间等。现有的绝大部分的文本分类器都是使用向量空间模型中的“词袋法”来表示文本。这种方法有一个关键的假设,就是文章中出现的词条的次序是无关紧要的,不考虑词条的位置信息以及文本结构,把文本看成是一系列无序词的集合。文本的特征就可以采用文本中的词条Token作为特征项。

表示文档内容的特征项,可以看成是一个n维的坐标系,权值

为对应的坐标值。所以每篇文档d可以映射成为特征空间的一个特征向量V(d)=()。

在所有的权值函数中,最常用的是前面两种,它们在特征空间中一般可以获得比较高的分类精度。这两个公式都基于以下的指导思想:在一个文本中出现次数很多的单词,在另一个同类文本中出现的次数也会很多,反之亦然。而且认为一个单词出现的额外文本频数越小,它区分不同类别文本的能力就越大。公式的表达式也可以看出词条重要性正比于词条的文档内频数,反比于文本集内出现该词条的文档频数。

3.2.1.2 文档预处理

进行文本特征选择以前可以先进行一些初始化的筛选,一般通用的做法有:(1)停用词表(stop-list)

将一些在文本中出现频率高但是含义虚泛的词放入停用词表。这些词在不同的语言环境有不同的表示。例如在英语中的a,an,the,this,for,at,on,中文中的“的,得,地,这,尽管,但是”等,保证出现在停用词表中的词不能选作文档特征。

(2)稀有词处理

有些词条在整个文档集中出现的频率都很低,它们也不适合作为文本的特征项。通过对文档集进行词条频率统计并设计一个词频阈值,只要是词条频度低于这个词频阈值的词就被删除。主要运用zip法则来删除低频词。

(3)单词归并

为了提高分类效果,采取单词归并和同义词归并的策略,把表达形式不同而含义相同的或是含义相似的词作为同一个词条处理。如英文中的football 和soccer,中文的“电脑”和“计算机”等。

(4)同根词处理

在英文中,还可以进行strip header 和Stemming 的操作来对文本进行初始化。例如:talker,talking,talked它们同属于一个词根talk。

3.2.1.3 文档特征选择

文本数据的半结构化甚至于无结构化的特点,使得用词袋法表示待测文档集时,特征向量会达到几万维甚至于几十万维。即使经过上述初始化筛选处理(使用停用词表、稀有词处理、单词归并以及同根词处理),还会有很多高维数的特征向量留下。高维的特征对分类机器学习未必全是至关重要的,有益的。高维的特性可能会大大增加机器学习的时间而仅产生与小得多的特征子集相关的学习

分类结果。因此,在进行文本分类中,特征选择显得至关重要。

特征选择的主要方法是利用有关数学工具降低模式维数,寻找最有效的特征构成较低维数的模式向量。统计学、模式识别和机器学习中都有许多进行特征选择的方法,一般分有filter方法和wrapper 方法两种,两种方法的过程如图,实际上它们并没有本质的差别,它们的不同仅仅在于filter方法采用一些度量指标来评价特征子集的优劣,而wrapper方法直接用学习算法的准确率作为评判的指标。

图3.2 filter方法和wrapper 方法示意图

特征选择主要用于排除确定的特征空间中那些被认为无关的或是关联性不大的特性。于是经常会使用特征独立性假设以简化特征选择,以达到计算时间和计算质量的折衷。因此,目前在对文本的特征空间所采取的特征选择算法一般是构造一个评价函数,对特征集中的每个特征进行独立的评估。这样每个特征都获得一个评估分,然后对所有的特征按照其评估分的大小进行排序,选取预定数目的最佳特征作为结果的特征子集。所以,选取多少个最佳特性以及采用什么评价函数,都需要针对某一个具体的问题通过试验来决定。

在文本分类的特征选择中的评估函数有文档频数(document frequency),信息增益(information gain),期望交叉熵(expected cross entropy),互信息(mutual information),文本证据权(the weight of evidence for text),几率比(odds ratio),单词权(term strength),其效果和原因分析如下:

(1) 文档频数(document frequency)

DFTxt(W)= 单词出现的文档数/训练集的文档总数

它是最简单的评估函数,其值为训练集合中此单词发生的文本数在总的文本数的概率。DF评估函数的理论假设是稀有单词要么不含有用信息,要么太少而不足以对分类产生影响,要么是噪音,所以可以删去。虽然它在计算量上比其它

数据仓库与及数据挖掘文本分类实验报告

2015-2016学年第1学期实验报告 课程名称:数据仓库与及数据挖掘实验名称:文本的分类 实验完成人: 姓名:学号:

日期: 2015年 12月 实验一:文本的分类 1.实验目的 1)掌握数据预处理的方法,对训练集数据进行预处理; 2)掌握文本建模的方法,对语料库的文档进行建模; 3)掌握分类算法的原理,基于有监督的机器学习方法,训练 文本分类器; 4)利用学习的文本分类器,对未知文本进行分类判别; 5)掌握评价分类器性能的评估方法 2.实验分工 独立完成 3.实验环境 基于Windows平台,使用eclipse开发。 4.主要设计思想 4.1实验工具介绍 Eclipse:一个开放源代码的/基于Java的可扩展开发平

台。就其本身而言,它只是一个框架和一组服务,用于通过插件组件构建开发环境。Eclipse最早是由IBM开发的,后来IBM将Eclipse作为一个开放源代码的项目发布。现在Eclipse 在https://www.doczj.com/doc/834119078.html,协会的管理与指导下开发。 4.2特征提取与表达方法的设计 在此次实验中,我考虑了CHI特征提取的方法来建立数据字典。详细步骤见5.3描述。根据CHI特征提取,最终建立成数据字典,数据字典记录在目录E:\DataMiningSample\docVector下的allDicWordCountMap.txt 文档中。 最终的特征向量表达方式为:文档类别标识_单词词频。如:alt.atheism_abstact 1.0。其中alt.atheism为此文本所属的类别,abstact为对应的单词,1.0为该单词的词频数。 4.3分类算法的选择 本次实验使用的是朴素贝叶斯分类算法,朴素贝叶斯法是基于贝叶斯定理与特征条件独立假设的分类方法。朴素贝叶斯分类器基于一个简单的假定:给定目标值时属性之间相互条件独立。即: Document) P(Document P(Category | | * nt) Category) )/P(Docume P(Category 朴素贝叶斯模型:

数据挖掘研究现状综述

数据挖掘 引言 数据挖掘是一门交叉学科,涉及到了机器学习、模式识别、归纳推理、统计学、数据库、高性能计算等多个领域。 所谓的数据挖掘(Data Mining)指的就是从大量的、模糊的、不完全的、随机的数据集合中提取人们感兴趣的知识和信息,提取的对象一般都是人们无法直观的从数据中得出但又有潜在作用的信息。从本质上来说,数据挖掘是在对数据全面了解认识的基础之上进行的一次升华,是对数据的抽象和概括。如果把数据比作矿产资源,那么数据挖掘就是从矿产中提取矿石的过程。与经过数据挖掘之后的数据信息相比,原始的数据信息可以是结构化的,数据库中的数据,也可以是半结构化的,如文本、图像数据。从原始数据中发现知识的方法可以是数学方法也可以是演绎、归纳法。被发现的知识可以用来进行信息管理、查询优化、决策支持等。而数据挖掘是对这一过程的一个综合性应用。

目录 引言 (1) 第一章绪论 (3) 1.1 数据挖掘技术的任务 (3) 1.2 数据挖掘技术的研究现状及发展方向 (3) 第二章数据挖掘理论与相关技术 (5) 2.1数据挖掘的基本流程 (5) 2.2.1 关联规则挖掘 (6) 2.2.2 .Apriori算法:使用候选项集找频繁项集 (7) 2.2.3 .FP-树频集算法 (7) 2.2.4.基于划分的算法 (7) 2.3 聚类分析 (7) 2.3.1 聚类算法的任务 (7) 2.3.3 COBWEB算法 (9) 2.3.4模糊聚类算法 (9) 2.3.5 聚类分析的应用 (10) 第三章数据分析 (11) 第四章结论与心得 (14) 4.1 结果分析 (14) 4.2 问题分析 (14) 4.2.1数据挖掘面临的问题 (14) 4.2.2 实验心得及实验过程中遇到的问题分析 (14) 参考文献 (14)

文献综述_数据挖掘

数据挖掘简介 数据挖掘的任务 数据挖掘的任务就是从实例集合中找出容易理解的规则和关系。这些规则可以用于预测未来趋势、评价顾客、评估风险或简单地描述和解释给定的数据。通常数据挖掘的任务包括以下几个部分: 数据总结目的是对数据进行浓缩,给出它的紧凑描述。传统的也是最简单的数据总结方法是计算出数据库的各个字段上的求和值、平均值、方差值等统计值,或者用直方图、饼图等图形方式表示。数据挖掘主要关心从数据泛化的角度来讨论数据总结。数据泛化是一种把数据库中的有关数据从低层次抽象到高层次上的过程。数据泛化目前主要有两种技术:多维数据分析方法和面向属性的归纳方法。 多维数据分析方法是一种数据仓库技术,也称作联机分析处理(OLAP,onLineAnalysisProeess)。数据仓库是面向决策支持的、集成的、稳定的、不同时间的历史数据集合。决策的前提是数据分析。在数据分析中经常要用到诸如求和、总计、平均、最大、最小等汇集操作,这类操作的计算量特别大。因此一种很自然的想法是,把汇集操作结果预先计算并存储起来,以便于决策支持系统使用。存储汇集操作结果的地方称作多维数据库。多维数据分析技术已经在决策支持系统中获得了成功的应用,如著名的SAS数据分析软件包、Businessobject公司的决策支持系统Businessobjeet,以及IBM公司的决策分析工具都使用了多维数据分析技术。 采用多维数据分析方法进行数据总结,它针对的是数据仓库,数据仓库存储的是脱机的历史数据。为了处理联机数据,研究人员提出了一种面向属性的归纳方法。它的思路是,直接对用户感兴趣的数据视图(用一般的SQL查询语言即可获得)进行泛化,而不是像多维数据分析方法那样预先就存储好了泛化数据。方法的提出者对这种数据泛化技术称之为面向属性的归纳方法。原始关系经过泛化操作后得到的是一个泛化关系,它从较高的层次上总结了在低层次上的原始关系。有了泛化关系后,就可以对它进行各种深入的操作而生成满足用户需要的知识,如在泛化关系基础上生成特性规则、判别规则、分类规则,以及关联规则等。数据挖掘的分类 数据挖掘所能发现的知识有如下几种: .广义型知识,反映同类事物共同性质的知识; .特征型知识,反映事物各方面的特征知识; .差异型知识,反映不同事物之间属性差别的知识; .关联型知识,反映事物之间依赖或关联的知识; .预测型知识,根据历史的和当前的数据推测未来数据; .偏离型知识。揭示事物偏离常规的异常现象。 所有这些知识都可以在不同的概念层次上被发现,随着概念树的提升,从微观到中观再到宏观,以满足不同用户、不同层次决策的需要。例如,从一家超市的数据仓库中,可以发现的一条典型关联规则可能是“买面包和黄油的顾客十有八九也买牛奶”,也可能是“买食品的顾客几乎都用信用卡”,这种规则对于商家开发和实施客户化的销售计划和策略是非常有用的。 数据挖掘的方法 数据挖掘并非一个完全自动化的过程。整个过程需要考虑数据的所有因素和其预定的效用,然后应用最佳的数据挖掘方法。数据挖掘的方法很重要。在数据挖掘的领域里.有一点已经被广泛地接受,即不管你选择哪种方法,总存在着某种协定。因此对实际情况,应该具体分析,根据累积的经验和优秀的范例选择最佳的方法。数据挖掘中没有免费的午餐,也没

数据挖掘算法综述

数据挖掘方法综述 [摘要]数据挖掘(DM,DataMining)又被称为数据库知识发现(KDD,Knowledge Discovery in Databases),它的主要挖掘方法有分类、聚类、关联规则挖掘和序列模式挖掘等。 [关键词]数据挖掘分类聚类关联规则序列模式 1、数据挖掘的基本概念 数据挖掘从技术上说是从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在的有用的信息和知识的过程。这个定义包括好几层含义: 数据源必须是真实的、大量的、含噪声的、发现的是用户感兴趣的知识, 发现的知识要可接受、可理解、可运用, 并不要求发现放之四海皆准的知识, 仅支持特定的发现问题, 数据挖掘技术能从中自动分析数据进行归纳性推理从中发掘出潜在的数据模式或进行预测, 建立新的业务模型帮助决策者调整策略做出正确的决策。数据挖掘是是运用统计学、人工智能、机器学习、数据库技术等方法发现数据的模型和结构、发现有价值的关系或知识的一门交叉学科。数据挖掘的主要方法有分类、聚类和关联规则挖掘等 2、分类 分类(Classification)又称监督学习(Supervised Learning)。监

督学习的定义是:给出一个数据集D,监督学习的目标是产生一个联系属性值集合A和类标(一个类属性值称为一个类标)集合C的分类/预测函数,这个函数可以用于预测新的属性集合(数据实例)的类标。这个函数就被称为分类模型(Classification Model),或者是分类器(Classifier)。分类的主要算法有:决策树算法、规则推理、朴素贝叶斯分类、支持向量机等算法。 决策树算法的核心是Divide-and-Conquer的策略,即采用自顶向下的递归方式构造决策树。在每一步中,决策树评估所有的属性然后选择一个属性把数据分为m个不相交的子集,其中m是被选中的属性的不同值的数目。一棵决策树可以被转化成一个规则集,规则集用来分类。 规则推理算法则直接产生规则集合,规则推理算法的核心是Separate-and-Conquer的策略,它评估所有的属性-值对(条件),然后选择一个。因此,在一步中,Divide-and-Conquer策略产生m条规则,而Separate-and-Conquer策略只产生1条规则,效率比决策树要高得多,但就基本的思想而言,两者是相同的。 朴素贝叶斯分类的基本思想是:分类的任务可以被看作是给定一个测试样例d后估计它的后验概率,即Pr(C=c j︱d),然后我们考察哪个类c j对应概率最大,便将那个类别赋予样例d。构造朴素贝叶斯分类器所需要的概率值可以经过一次扫描数据得到,所以算法相对训练样本的数量是线性的,效率很高,就分类的准确性而言,尽管算法做出了很强的条件独立假设,但经过实际检验证明,分类的效果还是

数据挖掘中分类技术应用

分类技术在很多领域都有应用,例如可以通过客户分类构造一个分类模型来对银行贷款进行风险评估;当前的市场营销中很重要的一个特点是强调客户细分。客户类别分析的功能也在于此,采用数据挖掘中的分类技术,可以将客户分成不同的类别,比如呼叫中心设计时可以分为:呼叫频繁的客户、偶然大量呼叫的客户、稳定呼叫的客户、其他,帮助呼叫中心寻找出这些不同种类客户之间的特征,这样的分类模型可以让用户了解不同行为类别客户的分布特征;其他分类应用如文献检索和搜索引擎中的自动文本分类技术;安全领域有基于分类技术的入侵检测等等。机器学习、专家系统、统计学和神经网络等领域的研究人员已经提出了许多具体的分类预测方法。下面对分类流程作个简要描述: 训练:训练集——>特征选取——>训练——>分类器 分类:新样本——>特征选取——>分类——>判决 最初的数据挖掘分类应用大多都是在这些方法及基于内存基础上所构造的算法。目前数据挖掘方法都要求具有基于外存以处理大规模数据集合能力且具有可扩展能力。 神经网络 神经网络是解决分类问题的一种行之有效的方法。神经网络是一组连接输入/输出单元的系统,每个连接都与一个权值相对应,在将简单的单元连接成较复杂的系统后,通过并行运算实现其功能,其中系统的知识存储于网络结构和各单元之间的连接权中。在学习阶段,通过调整神经网络的权值,达到对输入样本的正确分类。神经网络有对噪声数据的高承受能力和对未经训练数据的模式分类能力。神经网

络概括性强、分类精度高,可以实现有监督和无监督的分类任务,所以神经网络在分类中应用非常广泛。 在结构上,可以把一个神经网络划分为输入层、输出层和隐含层(见图4)。网络的每一个输入节点对应样本一个特征,而输出层节点数可以等于类别数,也可以只有一个,(输入层的每个节点对应一个个的预测变量。输出层的节点对应目标变量,可有多个)。在输入层和输出层之间是隐含层(对神经网络使用者来说不可见),隐含层的层数和每层节点的个数决定了神经网络的复杂度。 除了输入层的节点,神经网络的每个节点都与很多它前面的节点(称为此节点的输入节点)连接在一起,每个连接对应一个权重Wxy,此节点的值就是通过它所有输入节点的值与对应连接权重乘积的和作为一个函数的输入而得到,我们把这个函数称为活动函数或挤压函数。如图5中节点4输出到节点6的值可通过如下计算得到:

大数据时代的空间数据挖掘综述

第37卷第7期测绘与空间地理信息 GEOMATICS &SPATIAL INFORMATION TECHNOLOGY Vol.37,No.7收稿日期:2014-01-22 作者简介:马宏斌(1982-),男,甘肃天水人,作战环境学专业博士研究生,主要研究方向为地理空间信息服务。 大数据时代的空间数据挖掘综述 马宏斌1 ,王 柯1,马团学 2(1.信息工程大学地理空间信息学院,河南郑州450000;2.空降兵研究所,湖北孝感432000) 摘 要:随着大数据时代的到来,数据挖掘技术再度受到人们关注。本文回顾了传统空间数据挖掘面临的问题, 介绍了国内外研究中利用大数据处理工具和云计算技术,在空间数据的存储、管理和挖掘算法等方面的做法,并指出了该类研究存在的不足。最后,探讨了空间数据挖掘的发展趋势。关键词:大数据;空间数据挖掘;云计算中图分类号:P208 文献标识码:B 文章编号:1672-5867(2014)07-0019-04 Spatial Data Mining Big Data Era Review MA Hong -bin 1,WANG Ke 1,MA Tuan -xue 2 (1.Geospatial Information Institute ,Information Engineering University ,Zhengzhou 450000,China ; 2.Airborne Institute ,Xiaogan 432000,China ) Abstract :In the era of Big Data ,more and more researchers begin to show interest in data mining techniques again.The paper review most unresolved problems left by traditional spatial data mining at first.And ,some progress made by researches using Big Data and Cloud Computing technology is introduced.Also ,their drawbacks are mentioned.Finally ,future trend of spatial data mining is dis-cussed. Key words :big data ;spatial data mining ;cloud computing 0引言 随着地理空间信息技术的飞速发展,获取数据的手 段和途径都得到极大丰富,传感器的精度得到提高和时空覆盖范围得以扩大,数据量也随之激增。用于采集空间数据的可能是雷达、红外、光电、卫星、多光谱仪、数码相机、成像光谱仪、全站仪、天文望远镜、电视摄像、电子 显微镜、CT 成像等各种宏观与微观传感器或设备,也可能是常规的野外测量、人口普查、土地资源调查、地图扫描、 地图数字化、统计图表等空间数据获取手段,还可能是来自计算机、 网络、GPS ,RS 和GIS 等技术应用和分析空间数据。特别是近些年来,个人使用的、携带的各种传感器(重力感应器、电子罗盘、三轴陀螺仪、光线距离感应器、温度传感器、红外线传感器等),具备定位功能电子设备的普及,如智能手机、平板电脑、可穿戴设备(GOOGLE GLASS 和智能手表等),使人们在日常生活中产生了大量具有位置信息的数据。随着志愿者地理信息(Volunteer Geographic Information )的出现,使这些普通民众也加入到了提供数据者的行列。 以上各种获取手段和途径的汇集,就使每天获取的 数据增长量达到GB 级、 TB 级乃至PB 级。如中国遥感卫星地面站现在保存的对地观测卫星数据资料达260TB ,并以每年15TB 的数据量增长。比如2011年退役的Landsat5卫星在其29年的在轨工作期间,平均每年获取8.6万景影像,每天获取67GB 的观测数据。而2012年发射的资源三号(ZY3)卫星,每天的观测数据获取量可以达到10TB 以上。类似的传感器现在已经大量部署在卫 星、 飞机等飞行平台上,未来10年,全球天空、地空间部署的百万计传感器每天获取的观测数据将超过10PB 。这预示着一个时代的到来,那就是大数据时代。大数据具有 “4V ”特性,即数据体量大(Volume )、数据来源和类型繁多(Variety )、数据的真实性难以保证(Veracity )、数据增加和变化的速度快(Velocity )。对地观测的系统如图1所示。 在这些数据中,与空间位置相关的数据占了绝大多数。传统的空间知识发现的科研模式在大数据情境下已经不再适用,原因是传统的科研模型不具有普适性且支持的数据量受限, 受到数据传输、存储及时效性需求的制约等。为了从存储在分布方式、虚拟化的数据中心获取信息或知识,这就需要利用强有力的数据分析工具来将

基于机器学习的文本分类方法

基于机器学习算法的文本分类方法综述 摘要:文本分类是机器学习领域新的研究热点。基于机器学习算法的文本分类方法比传统的文本分类方法优势明显。本文综述了现有的基于机器学习的文本分类方法,讨论了各种方法的优缺点,并指出了文本分类方法未来可能的发展趋势。 1.引言 随着计算机技术、数据库技术,网络技术的飞速发展,Internet的广泛应用,信息交换越来越方便,各个领域都不断产生海量数据,使得互联网数据及资源呈现海量特征,尤其是海量的文本数据。如何利用海量数据挖掘出有用的信息和知识,方便人们的查阅和应用,已经成为一个日趋重要的问题。因此,基于文本内容的信息检索和数据挖掘逐渐成为备受关注的领域。文本分类(text categorization,TC)技术是信息检索和文本挖掘的重要基础技术,其作用是根据文本的某些特征,在预先给定的类别标记(label)集合下,根据文本内容判定它的类别。传统的文本分类模式是基于知识工程和专家系统的,在灵活性和分类效果上都有很大的缺陷。例如卡内基集团为路透社开发的Construe专家系统就是采用知识工程方法构造的一个著名的文本分类系统,但该系统的开发工作量达到了10个人年,当需要进行信息更新时,维护非常困难。因此,知识工程方法已不适用于日益复杂的海量数据文本分类系统需求[1]。20世纪90年代以来,机器学习的分类算法有了日新月异的发展,很多分类器模型逐步被应用到文本分类之中,比如支持向量机(SVM,Support Vector Machine)[2-4]、最近邻法(Nearest Neighbor)[5]、决策树(Decision tree)[6]、朴素贝叶斯(Naive Bayes)[7]等。逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,取得了很好的分类效果。 本文主要综述基于机器学习算法的文本分类方法。首先对文本分类问题进行概述,阐述文本分类的一般流程以及文本表述、特征选择方面的方法,然后具体研究基于及其学习的文本分类的典型方法,最后指出该领域的研究发展趋势。 2.文本自动分类概述 文本自动分类可简单定义为:给定分类体系后,根据文本内容自动确定文本关联的类别。从数学角度来看,文本分类是一个映射过程,该映射可以是一一映射,也可以是一对多映射过程。文本分类的映射规则是,系统根据已知类别中若干样本的数据信息总结出分类的规律性,建立类别判别公式或判别规则。当遇到新文本时,根据总结出的类别判别规则确定文本所属的类别。也就是说自动文本分类通过监督学习自动构建出分类器,从而实现对新的给定文本的自动归类。文本自动分类一般包括文本表达、特征选取、分类器的选择与训练、分类等几个步骤,其中文本表达和特征选取是文本分类的基础技术,而分类器的选择与训练则是文本自动分类技术的重点,基于机器学习的文本分来就是通过将机器学习领域的分类算法用于文本分类中来[8]。图1是文本自动分类的一般流程。

数据挖掘课程论文综述

海南大学 数据挖掘论文 题目:股票交易日线数据挖掘 学号:20100602310002 姓名: 专业:10信管 指导老师: 分数:

目录 目录 (2) 1. 数据挖掘目的 (3) 2.相关基础知识 (3) 2.1 股票基础知识 (3) 2.2 数据挖掘基础知识 (4) 2.2.2数据挖掘的任务 (5) 3.数据挖掘方案 (6) 3.1. 数据挖掘软件简介 (6) 3.2. 股票数据选择 (7) 3.3. 待验证的股票规律 (7) 4. 数据挖掘流 (8) 4.1数据挖掘流图 (8) 4.2规律验证 (9) 4.2.2规律2验证 (10) 4.2.3规律三验证 (12) 4.3主要节点说明 (14) 5.小结 (15)

1.数据挖掘目的 数据挖掘的目的就是得出隐藏在数据中的有价值的信息,发现数据之间的内在联系与规律。对于本次数据挖掘来说,其目的就是学会用clementine对股票的历史数据进行挖掘,通过数据的分析,找出存在股票历史数据中的规律,或者验证已存在的股票规律。同时也加深自己对股票知识的了解和对clementine软件的应用能力。为人们决策提供指导性信息,为公司找出其中的客户为公司带来利润的规律,如二八原则、啤酒与尿布的现象等。 2.相关基础知识 2.1 股票基础知识 2.1.1 股票 是一种有价证券,是股份公司在筹集资本时向出资人公开或私下发行的、用以证明出资人的股本身份和权利,并根据持有人所持有的股份数享有权益和承担义务的凭证。股票代表着其持有人(股东)对股份公司的所有权,每一股同类型股票所代表的公司所有权是相等的,即“同股同权”。股票可以公开上市,也可以不上市。在股票市场上,股票也是投资和投机的对象。对股票的某些投机炒作行为,例如无货沽空,可以造成金融市场的动荡。 2.1.2 开盘价 开盘价又称开市价,是指某种证券在证券交易所每个交易日开市后的第一笔买卖成交价格。世界上大多数证券交易所都采用成交额最大原则来确定开盘价。 2.1.3 收盘价 收盘价是指某种证券在证券交易所一天交易活动结束前最后一笔交易的成交价格。如当日没有成交,则采用最近一次的成交价格作为收盘价,因为收盘价是当日行情的标准,又是下一个交易日开盘价的依据,可据以预测未来证券市场行情;所以投资者对行情分析时,一般采用收盘价作为计算依据。

数据挖掘分类实验详细报告概论

《数据挖掘分类实验报告》 信息安全科学与工程学院 1120362066 尹雪蓉数据挖掘分类过程 (1)数据分析介绍 本次实验为典型的分类实验,为了便于说明问题,弄清数据挖掘具体流程,我们小组选择了最经典的决策树算法进行具体挖掘实验。 (2)数据准备与预处理 在进行数据挖掘之前,我们首先要对需要挖掘的样本数据进行预处理,预处理包括以下步骤: 1、数据准备,格式统一。将样本转化为等维的数据特征(特征提取),让所有的样 本具有相同数量的特征,同时兼顾特征的全面性和独立性 2、选择与类别相关的特征(特征选择) 3、建立数据训练集和测试集 4、对数据集进行数据清理 在本次实验中,我们选择了ILPD (Indian Liver Patient Dataset) 这个数据集,该数据集已经具有等维的数据特征,主要包括Age、Gender、TB、DB、Alkphos、Sgpt、Sgot、TP、ALB、A/G、classical,一共11个维度的数据特征,其中与分类类别相关的特征为classical,它的类别有1,2两个值。 详见下表: 本实验的主要思路是将该数据集分成训练集和测试集,对训练集进行训练生成模型,然后再根据模型对测试集进行预测。 数据集处理实验详细过程:

●CSV数据源处理 由于下载的原始数据集文件Indian Liver Patient Dataset (ILPD).csv(见下图)中间并不包含属性项,这不利于之后分类的实验操作,所以要对该文件进行处理,使用Notepad文件,手动将属性行添加到文件首行即可。 ●平台数据集格式转换 在后面数据挖掘的实验过程中,我们需要借助开源数据挖掘平台工具软件weka,该平台使用的数据集格式为arff,因此为了便于实验,在这里我们要对csv文件进行格式转换,转换工具为weka自带工具。转换过程为: 1、打开weka平台,点击”Simple CLI“,进入weka命令行界面,如下图所示: 2、输入命令将csv文件导成arff文件,如下图所示: 3、得到arff文件如下图所示: 内容如下:

数据挖掘分类算法比较

数据挖掘分类算法比较 分类是数据挖掘、机器学习和模式识别中一个重要的研究领域。通过对当前数据挖掘中具有代表性的优秀分类算法进行分析和比较,总结出了各种算法的特性,为使用者选择算法或研究者改进算法提供了依据。 一、决策树(Decision Trees) 决策树的优点: 1、决策树易于理解和解释.人们在通过解释后都有能力去理解决策树所表达的意义。 2、对于决策树,数据的准备往往是简单或者是不必要的.其他的技术往往要求先把数据一般化,比如去掉多余的或者空白的属性。 3、能够同时处理数据型和常规型属性。其他的技术往往要求数据属性的单一。 4、决策树是一个白盒模型。如果给定一个观察的模型,那么根据所产生的决策树很容易推出相应的逻辑表达式。 5、易于通过静态测试来对模型进行评测。表示有可能测量该模型的可信度。 6、在相对短的时间内能够对大型数据源做出可行且效果良好的结果。 7、可以对有许多属性的数据集构造决策树。 8、决策树可很好地扩展到大型数据库中,同时它的大小独立于数据库的大小。 决策树的缺点: 1、对于那些各类别样本数量不一致的数据,在决策树当中,信息增益的结果偏向于那些具有更多数值的特征。 2、决策树处理缺失数据时的困难。 3、过度拟合问题的出现。 4、忽略数据集中属性之间的相关性。 二、人工神经网络 人工神经网络的优点:分类的准确度高,并行分布处理能力强,分布存储及学习能力强,对噪声神经有较强的鲁棒性和容错能力,能充分逼近复杂的非线性关系,具备联想记忆的功能等。 人工神经网络的缺点:神经网络需要大量的参数,如网络拓扑结构、权值和阈值的初始值;不能观察之间的学习过程,输出结果难以解释,会影响到结果的可信度和可接受程度;学习时间过长,甚至可能达不到学习的目的。

文本数据挖掘及其应用

文本数据挖掘及其应用

文本数据挖掘及其应用 摘要:随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。本文首先对文本挖掘进行了概述包括文本挖掘的研究现状、主要内容、相关技术以及热点难点进行了探讨,然后通过两个例子简单地说明了文本挖掘的应用问题。 关键词:文本挖掘研究现状相关技术应用 1 引言 随着科技的发展和网络的普及,人们可获得的数据量越来越多,这些数据多数是以文本形式存在的。而这些文本数据大多是比较繁杂的,这就导致了数据量大但信息却比较匮乏的状况。如何从这些繁杂的文本数据中获得有用的信息越来越受到人们的关注。“在文本文档中发现有意义或有用的模式的过程"n1的文本挖掘技术为解决这一问题提供了一个有效的途径。而文本分类

技术是文本挖掘技术的一个重要分支,是有效处理和组织错综复杂的文本数据的关键技术,能够有效的帮助人们组织和分流信息。 2 文本挖掘概述 2.1文本挖掘介绍 数据挖掘技术本身就是当前数据技术发展的新领域,文本挖掘则发展历史更短。传统的信息检索技术对于海量数据的处理并不尽如人意,文本挖掘便日益重要起来,可见文本挖掘技术是从信息抽取以及相关技术领域中慢慢演化而成的。 1)文本挖掘的定义 文本挖掘作为数据挖掘的一个新主题引起了人们的极大兴趣,同时它也是一个富于争议的研究方向。目前其定义尚无统一的结论,需要国内外学者开展更多的研究以进行精确的定义,类似于我们熟知的数据挖掘定义。我们对文本挖掘作如下定义。 定义 2.1.1 文本挖掘是指从大量文本数据中抽取事先未知的可理解的最终可用的信息或知识的过程。直观地说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文

深度文本匹配综述_庞亮

网络出版时间:2016-09-20 21:04:43 网络出版地址:https://www.doczj.com/doc/834119078.html,/kcms/detail/11.1826.TP.20160920.2104.006.html 第39卷计算机学报Vol. 39 深度文本匹配综述 庞亮1),2)3)兰艳艳1)2) 徐君1)2) 郭嘉丰1)2) 万圣贤1),2)3) 程学旗1)2) 1)(中国科学院网络数据科学与技术重点实验室北京 100190) 2)(中国科学院计算技术研究所,北京 100190) 3)(中国科学院大学,北京100190) 摘要自然语言理解的许多任务,例如信息检索、自动问答、机器翻译、对话系统、复述问题等等,都可以抽象成文本匹配问题。过去研究文本匹配主要集中在人工定义特征之上的关系学习,模型的效果很依赖特征的设计。最近深度学习自动从原始数据学习特征的思想也影响着文本匹配领域,大量基于深度学习的文本匹配方法被提出,我们称这类模型为深度文本匹配模型。相比于传统方法,深度文本匹配模型能够从大量的样本中自动提取出词语之间的关系,并能结合短语匹配中的结构信息和文本匹配的层次化特性,更精细地描述文本匹配问题。根据特征提取的不同结构,深度文本匹配模型可以分为三类:基于单语义文档表达的深度学习模型、基于多语义文档表达的深度学习模型和直接建模匹配模式的深度学习模型。从文本交互的角度,这三类模型具有递进的关系,并且对于不同的应用,具有各自性能上的优缺点。本文在复述问题、自动问答和信息检索三个任务上的经典数据集上对深度文本匹配模型进行了实验,比较并详细分析了各类模型的优缺点。最后本文对深度文本模型未来发展的若干问题进行了讨论和分析。 关键词文本匹配;深度学习;自然语言处理;卷积神经网络;循环神经网络 中图法分类号TP18 论文引用格式: 庞亮,兰艳艳,徐君,郭嘉丰,万圣贤,程学旗,深度文本匹配综述,2016,V ol.39,在线出版号No. 128 Pang Liang,Lan Yanyan,Xu Jun,Guo Jiafeng,Wan Shengxian ,Cheng Xueqi,A Survey on Deep Text Matching,2016,V ol.39,Online Publishing No.128 A Survey on Deep Text Matching Pang Liang 1),2)3)Lan Yanyan 1)2) Xu Jun 1)2) Guo Jiafeng 1)2)Wan Shengxian 1),2)3) Cheng Xueqi 1)2) 1)(CAS Key Lab of Network Data Science and Technology, Beijing100190) 2)(Institute of Computing Technology, Chinese Academy of Sciences, Beijing100190) 3)(University of Chinese Academy of Sciences, Beijing 100190) Abstract Many problems in natural language processing, such as information retrieval, question answering, machine translation, dialog system, paraphrase identification and so on, can be treated as a problem of text ——————————————— 本课题得到国家重点基础研究发展计划(973)(No. 2014CB340401, 2013CB329606)、国家自然科学基金重点项目(No.61232010, 61472401, 61425016, 61203298)、中国科学院青年创新促进会(No. 20144310,2016102)资助.庞亮(通讯作者),男,1990年生,博士,学生,计算机学会(CCF)学生会员(59709G),主要研究领域为深度学习与文本挖掘.E-mail: pangliang@https://www.doczj.com/doc/834119078.html,.兰艳艳,女,1982年生,博士,副研究员,计算机学会(CCF)会员(28478M),主要研究领域为统计机器学习、排序学习和信息检索.E-mail: lanyanyan@https://www.doczj.com/doc/834119078.html,.徐君,男,1979年生,博士,研究员,计算机学会(CCF)会员, 主要研究领域为信息检索与数据挖掘.E-mail: junxu@https://www.doczj.com/doc/834119078.html,.郭嘉丰,男,1980年生,博士,副研究员,计算机学会(CCF)会员, 主要研究领域为信息检索与数据挖掘.E-mail: guojiafeng@https://www.doczj.com/doc/834119078.html,.万圣贤,男,1989年生,博士,学生,主要研究领域为深度学习与文本挖掘.E-mail: wanshengxian@https://www.doczj.com/doc/834119078.html,.程学旗,男,1971年生,博士,研究员,计算机学会(CCF)会员, 主要研究领域为网络科学、互联网搜索与挖掘和信息安全等.E-mail: cxq@https://www.doczj.com/doc/834119078.html,.

数据挖掘中的文本挖掘的分类算法综述

数据挖掘中的文本挖掘的分类算法综述 摘要 随着Internet上文档信息的迅猛发展,文本分类成为处理和组织大量文档数据的关键技术。本文首先对数据挖掘进行了概述包括数据挖掘的常用方法、功能以及存在的主要问题;其次对数据挖掘领域较为活跃的文本挖掘的历史演化、研究现状、主要内容、相关技术以及热点难点问题进行了探讨;在第三章先分析了文本分类的现状和相关问题,随后详细介绍了常用的文本分类算法,包括KNN 文本分类算法、特征选择方法、支持向量机文本分类算法和朴素贝叶斯文本分类算法;;第四章对KNN文本分类算法进行深入的研究,包括基于统计和LSA降维的KNN文本分类算法;第五章对数据挖掘、文本挖掘和文本分类的在信息领域以及商业领域的应用做了详细的预测分析;最后对全文工作进行了总结和展望。 关键词:数据挖掘,文本挖掘,文本分类算法 ABSTRACT With the development of Web 2.0, the number of documents on the Internet increases exponentially. One important research focus on how to deal with these great capacity of online documents. Text classification is one crucial part of information management. In this paper we first introduce the basic information of data mining, including the methods, contents and the main existing problems in data mining fields; then we discussed the text mining, one active field of data mining, to provide a basic foundation for text classification. And several common algorithms are analyzed in Chapter 3. In chapter 4 thorough research of KNN text classification algorithms are illustrated including the statistical and dimension reduction based on LSA and in chapter 5 we make some predictions for data mining, text mining and text classification and finally we conclude our work. KEYWORDS: data mining, text mining, text classification algorithms,KNN 目录 摘要 (1) ABSTRACT (1) 目录 (1)

数据挖掘中的软计算方法及应用综述

摘要文章对数据挖掘中软计算方法及应用作了综述。对模糊逻辑、遗传算法、神经网络、粗集等软计算方法,以及它们的混合算法的特点进行了分析,并对它们在数据挖掘中的应用进行了分类。 关键词数据挖掘;软计算;模糊逻辑;遗传算法;神经网络;粗集 1 引言 在过去的数十年中,随着计算机软件和硬件的发展,我们产生和收集数据的能力已经迅速提高。许多领域的大量数据集中或分布的存储在数据库中[1][2],这些领域包括商业、金融投资业、生产制造业、医疗卫生、科学研究,以及全球信息系统的万维网。数据存储量的增长速度是惊人的。大量的、未加工的数据很难直接产生效益。这些数据的真正价值在于从中找出有用的信息以供决策支持。在许多领域,数据分析都采用传统的手工处理方法。一些分析软件在统计技术的帮助下可将数据汇总,并生成报表。随着数据量和多维数据的进一步增加,高达109的数据库和103的多维数据库已越来越普遍。没有强有力的工具,理解它们已经远远超出了人的能力。所有这些显示我们需要智能的数据分析工具,从大量的数据中发现有用的知识。数据挖掘技术应运而生。 数据挖掘就是指从数据库中发现知识的过程。包括存储和处理数据,选择处理大量数据集的算法、解释结果、使结果可视化。整个过程中支持人机交互的模式[3]。数据挖掘从许多交叉学科中得到发展,并有很好的前景。这些学科包括数据库技术、机器学习、人工智能、模式识别、统计学、模糊推理、专家系统、数据可视化、空间数据分析和高性能计算等。数据挖掘综合以上领域的理论、算法和方法,已成功应用在超市、金融、银行[4]、生产企业 [5]和电信,并有很好的表现。 软计算是能够处理现实环境中一种或多种复杂信息的方法集合。软计算的指导原则是开发利用那些不精确性、不确定性和部分真实数据的容忍技术,以获得易处理、鲁棒性好、低求解成本和更好地与实际融合的性能。通常,软计算试图寻找对精确的或不精确表述问题的近似解[6]。它是创建计算智能系统的有效工具。软计算包括模糊集、神经网络、遗传算法和粗集理论。 2 数据挖掘中的软计算方法 目前,已有多种软计算方法被应用于数据挖掘系统中,来处理一些具有挑战性的问题。软计算方法主要包括模糊逻辑、神经网络、遗传算法和粗糙集等。这些方法各具优势,它们是互补的而非竞争的,与传统的数据分析技术相比,它能使系统更加智能化,有更好的可理解性,且成本更低。下面主要对各种软计算方法及其混合算法做系统性的阐述,并着重强调它们在数据挖掘中的应用情况。 2.1 模糊逻辑 模糊逻辑是1965年由泽德引入的,它为处理不确定和不精确的问题提供了一种数学工具。模糊逻辑是最早、应用最广泛的软计算方法,模糊集技术在数据挖掘领域也占有重要地位。从数据库中挖掘知识主要考虑的是发现有兴趣的模式并以简洁、可理解的方式描述出来。模糊集可以对系统中的数据进行约简和过滤,提供了在高抽象层处理的便利。同时,数据挖掘中的数据分析经常面对多种类型的数据,即符号数据和数字数据。nauck[7]研究了新的算法,可以从同时包含符号数据和数字数据中生成混合模糊规则。数据挖掘中模糊逻辑主要应用于以下几个方面: (1)聚类。将物理或抽象对象的集合分组成为由类似的对象组成的多个类的过程被称为聚类。聚类分析是一种重要的人类行为,通过聚类,人能够识别密集的和稀疏的区域,因而发现全局的分布模式,以及数据属性之间有趣的关系。模糊集有很强的搜索能力,它对发现的结构感兴趣,这会帮助发现定性或半定性数据的依赖度。在数据挖掘中,这种能力可以帮助

一种文本分类数据挖掘的技术

一种文本分类数据挖掘的技术 来源:网店装修 https://www.doczj.com/doc/834119078.html, 摘要挖掘的理论和应用研究是数据挖掘领域一个新的重要分支,本文介绍了一种文本数据挖掘方法。并给出了一个基于该方法的文本分类系统的实验结果,实验结果表明了该方法的可行性。关键词文本挖掘;文本分类;数据挖掘;VSM 本文首先讨论了文本挖掘技术的定义、功能、分类等问题,接着重点研究了文本分类的关键理论问题,包括分词、特征提取、特征匹配等方面,并简述了我们开发的一个简单的文本分类系统的实验情况,最后是结束语。 1文本挖掘简介 1.1 文本挖掘的定义 文本挖掘作为数据挖掘的一个新主题,引起了人们的极大兴趣,同时,它也是一个富于争议的研究方向,目前其定义尚无统一的结论,需要国内外学者开展更多的研究以便进行精确地定义。类似于我们熟知的数据挖掘定义,我们对文本挖掘作如下定义。定义1:文本挖掘是指从大量文本数据中抽取事先未知的、可理解的、最终可用的信息或知识的过程。 直观的说,当数据挖掘的对象完全由文本这种数据类型组成时,这个过程就称为文本挖掘。文[1]已对Web挖掘与信息检索进行了比较研究,在此,我们不再详细讨论文本挖掘与信息检索的关系,我们认为随着文本挖掘技术研究的发展,将之应用到信息检索领域,必将能进一步提高信息检索的精度和效率。 1.2 文本挖掘的分类

文本挖掘从功能上可以分为总结、分类、聚类、趋势预测等。文本总结是指从文档中抽取关键信息,用简洁的形式对文档内容进行摘要或解释。从而用户不需要浏览全文就可以了解文档或文档集合的总体内容。文本总结在有些场合非常有用,例如,搜索引擎在向用户返回查询结果时,通常需要给出文档的摘要。目前,绝大部分搜索引擎采用的方法是简单地截取文档的前几行。 文本分类是指按照预先定义的分类体系,将文档集合的每个文档归入某个类别。这样,用户不但能够方便浏览文档,而且可以通过限制搜索范围来使文档的查找更为容易。目前,Yahoo仍然是通过人工对Web 文档进行分类,这大大限制了其索引页面的数目和覆盖范围。可以说研究文本分类有着广泛的商业前景和应用价值。 文本聚类与分类的不同在于,聚类没有预先定义的主题类别,是一种典型的无教师的机器学习问题。它的目标是将文档集合分成若干簇,且同一簇内的文档相似度尽可能大。聚类的结果可以用来指导分类。文[2,3]介绍了利用文档进行分布分析和趋势预测的情况。以上功能的研究在国外研究得比较的多,但都是基于英文环境的。在国内,数据挖掘研究者对中文文本的研究还刚刚开始,如何借鉴现有中文处理技术对文本进行挖掘仍有很多问题亟待解决。 2. 文本分类我们开发了一个简单的文本分类系统(STCS),下面分别介绍其中的各项关键技术。 2.1 文本信息的预处理在对文档进行特征提取前,需要先进行文本信息的预处理,对英文而言需进行Stemming处理,中文的情况则不同,因为中文词与词之间没有固有的间隔符,需要进行分词处理。在中文信息处理领域,对中文自动分词研究已经得比较多了,提出了一些分词方法,如最大匹配法、逐词遍历匹配法、最小匹配法等。文[4]中采用

相关主题
文本预览
相关文档 最新文档