基于机器学习的文本分类技术研究进展
- 格式:pdf
- 大小:432.54 KB
- 文档页数:12
基于机器学习的文本分类方法及实用性评估在当今信息爆炸的时代,大量的文本数据使得人们面临一个重要的挑战:如何高效地对海量文本进行分类和分析。
机器学习作为一种能够自动从数据中学习并提取知识的方法,被广泛应用于文本分类任务中。
本文将介绍基于机器学习的文本分类方法以及其在实际应用中的评估。
一、基于机器学习的文本分类方法1. 文本特征表示方法在进行文本分类之前,首先需要将文本数据转化为机器学习算法可以处理的特征向量。
常用的文本特征表示方法有以下几种:(1) 词袋模型 (Bag-of-Words Model): 该模型将文本看作是一组无序的词汇集合,忽略了词语之间的顺序和语法结构,只关注每个词出现的频率。
通过统计每个词在文本中出现的次数或者使用TF-IDF进行权重计算,可以将文本转化为高维稀疏的向量表示。
(2) Word2Vec: Word2Vec是一种基于神经网络的词向量表示方法,通过预训练的神经网络模型将每个词映射到一个固定长度的稠密向量。
Word2Vec考虑了词语的语义信息,可以更好地捕捉词语之间的关系。
(3) 文本主题模型 (Topic Models): 主题模型是一种能够自动发现文本中的主题信息的方法。
通过对文本进行主题建模,可以将文本表示为一个主题分布的向量。
2. 文本分类算法基于机器学习的文本分类算法可以分为有监督和无监督学习算法。
有监督学习算法通过已标注的训练数据学习分类模型,而无监督学习算法则从未标注的数据中自动学习分类规则。
(1) 朴素贝叶斯分类器 (Naive Bayes Classifier): 朴素贝叶斯分类器是一种基于概率的分类方法,假设特征之间相互独立。
该算法通过计算给定特征条件下的类别概率,来预测文本的类别。
(2) 支持向量机 (Support Vector Machine, SVM): SVM是一种二分类模型,通过在特征空间中建立一个最优超平面来进行分类。
其核函数的选取可以应用于非线性文本分类任务。
基于机器学习的文本分类技术研究一、引言文本分类技术是近年来热门的研究方向之一。
基于机器学习的文本分类技术因其高效、精确、可扩展性等特点而受到广泛关注和应用。
本文将介绍基于机器学习的文本分类技术的研究现状、方法和应用。
二、研究现状目前,文本分类技术已被广泛应用于信息检索、文本挖掘、社交媒体分析、情感分析、垃圾邮件过滤、网络安全等领域。
而其中,机器学习技术是文本分类中最常用的方法之一。
机器学习方法通常分为两大类:监督学习和无监督学习。
监督学习需要大量的有标签数据作为学习样本,通过训练模型,来预测新样本的标签。
而无监督学习则是从未标注的数据中,自动发现数据之间的结构和模式,以便进行分类、聚类等任务。
在文本分类中,常用的监督学习算法有朴素贝叶斯、支持向量机、决策树、逻辑回归等。
这些算法的主要思想是通过分析文本数据的特征,来建立分类器,以便进行文本分类。
而无监督学习算法中,无监督文本聚类算法和主题模型是常用的方法。
无监督文本聚类算法通过将相似的文本分组,来发现文本之间的关系。
而主题模型则可以从无标签的文本库中学习主题模式,以发现文本之间的语义联系。
三、方法在机器学习的文本分类中,最常用的方法是朴素贝叶斯算法。
其主要思想是通过计算每个文本的词汇,来计算该文本属于某一类别的概率。
首先,将文本分为训练集和测试集。
然后,从训练集中提取特征,并计算特征出现的概率。
接着,将测试集中的文本进行分类,计算每个类别的概率值,并将概率值最大的类别作为该文本的分类结果。
除了朴素贝叶斯算法外,支持向量机、决策树、逻辑回归等算法也被广泛应用于文本分类。
这些算法的不同之处在于其分类思想和训练方式。
四、应用文本分类技术在各行各业都有广泛的应用。
首先,在信息检索领域,文本分类可以对搜索引擎的搜索结果进行分类,从而提高搜索结果的质量。
其次,在情感分析中,文本分类可以对用户在社交媒体上的评论进行分类,以便分析用户的情感倾向。
还有,在网络安全领域,文本分类可以对恶意软件和网络攻击进行分类,以保障网络安全。
基于机器学习的中文文本分类方法研究随着互联网和数字技术的迅速发展,每天产生大量的中文文本数据,如社交媒体上的微博、微信公众号文章、新闻报道等。
有效地对这些数据进行分类和分析,对于了解用户需求、监测舆情、进行情感分析等具有重要意义。
因此,基于机器学习的中文文本分类方法的研究成为了一个热门的领域。
本文将就该研究课题进行探讨,并介绍几种常见的中文文本分类方法。
一、基本概念与方法1. 文本分类概述文本分类是指将文本数据分为不同的类别或标签,通过自动学习和预测,将未分类的文本数据归入合适的类别中。
而机器学习则是一种人工智能和数据科学中的重要分支,基于大量的训练数据,通过构建模型来学习数据的特征和规律,然后使用这些模型对新的数据进行预测和分析。
2. 中文文本分类方法在中文文本分类中,常用的机器学习方法包括:朴素贝叶斯、支持向量机(SVM)、逻辑回归、随机森林和深度学习等。
二、常见的中文文本分类方法1. 朴素贝叶斯(Naive Bayes)朴素贝叶斯是一种基于贝叶斯定理和特征条件独立性假设的分类算法。
在中文文本分类中,朴素贝叶斯方法首先需要将文本转化为特征向量表示,常见的方法有词袋模型和TF-IDF方法。
然后,通过计算每个特征在每个类别中的条件概率,再结合贝叶斯定理计算后验概率,得到文本属于每个类别的概率,从而进行分类。
2. 支持向量机(Support Vector Machines,SVM)支持向量机是一种常用的二分类和多分类方法。
在中文文本分类中,SVM通过将文本数据映射到高维空间中,寻找一个最优的超平面,使得不同类别的文本数据在特征空间中有最大的间隔。
这样就可以将未分类的文本数据根据其在特征空间中的位置进行分类。
3. 逻辑回归(Logistic Regression)逻辑回归是一种用于解决二分类问题的线性回归算法。
在中文文本分类中,逻辑回归通常使用词袋模型将文本数据转化为特征向量表示,然后使用逻辑函数(sigmoid函数)将特征向量映射到0和1之间的概率值,来表示文本属于不同类别的概率。
基于深度学习的新闻文本分类系统一、本文概述随着信息技术的快速发展和大数据时代的到来,新闻文本数据呈现出爆炸性增长的趋势。
如何从海量的新闻文本中快速、准确地提取出有价值的信息,成为当前研究的热点之一。
新闻文本分类作为一种有效的信息处理方法,能够将新闻文本按照不同的主题或类别进行划分,从而帮助用户更好地理解和利用新闻信息。
近年来,深度学习技术在自然语言处理领域取得了显著的进展,为新闻文本分类提供了新的解决方案。
本文旨在探讨基于深度学习的新闻文本分类系统的设计与实现,以期提高新闻文本分类的准确性和效率,为新闻信息处理和推荐提供有力支持。
本文首先介绍了新闻文本分类的研究背景和意义,分析了当前新闻文本分类面临的挑战和深度学习在其中的应用前景。
随后,详细阐述了基于深度学习的新闻文本分类系统的整体架构和关键技术,包括数据预处理、特征提取、模型训练与评估等方面。
在特征提取部分,重点介绍了卷积神经网络(CNN)和循环神经网络(RNN)等深度学习模型在新闻文本特征提取中的应用。
在模型训练与评估部分,通过实验对比了不同深度学习模型在新闻文本分类中的性能表现,并对实验结果进行了详细分析和讨论。
总结了本文的主要工作和贡献,并展望了基于深度学习的新闻文本分类系统未来的研究方向和应用前景。
通过本文的研究,旨在为新闻文本分类提供一种高效、准确的解决方案,推动新闻信息处理技术的发展和应用。
也为深度学习在自然语言处理领域的应用提供了一定的参考和借鉴。
二、相关理论和技术基础随着信息技术的迅猛发展,新闻文本数据呈现出爆炸性增长,如何有效地对这些数据进行分类和管理成为了亟待解决的问题。
基于深度学习的新闻文本分类系统应运而生,它利用深度学习模型强大的特征提取和分类能力,为新闻文本分类提供了新的解决方案。
深度学习是机器学习领域的一个新的研究方向,主要是通过学习样本数据的内在规律和表示层次,让机器能够具有类似于人类的分析学习能力。
在文本分类任务中,深度学习可以自动提取文本中的关键信息,避免了传统方法中手工提取特征的繁琐和主观性。
基于机器学习的文本分类算法研究一、引言随着互联网和大数据技术的不断发展,人们在网络上获取和产生的信息呈现爆炸式增长。
如何从大规模的文本数据中高效准确地提取有用信息,成为当前研究的热点之一。
文本分类作为自然语言处理和机器学习领域的一个重要任务,在信息检索、垃圾邮件过滤、情感分析等应用中都发挥着重要作用。
本文主要研究基于机器学习的文本分类算法,以提高文本分类的准确性和效率。
二、文本分类算法概述文本分类算法是指根据已知类别的文本样本,通过自动学习构建分类模型,对未知类别的文本进行分类的过程。
传统的文本分类算法包括朴素贝叶斯、支持向量机等,这些方法主要通过对文本进行特征提取和模型训练来实现分类。
然而,传统方法在面对大规模高维度的文本数据时存在一定的局限性,机器学习的发展为文本分类带来了新的思路和方法。
三、基于机器学习的文本分类算法基于机器学习的文本分类算法通过训练样本和特征的自动学习,构建分类模型从而实现文本分类。
常用的基于机器学习的文本分类算法有:朴素贝叶斯分类器、支持向量机、随机森林、深度学习等。
1. 朴素贝叶斯分类器朴素贝叶斯分类器是一种基于贝叶斯定理和特征条件独立假设的分类方法。
该方法假设文本中的每个特征对于分类结果独立且具有相同的发生概率。
基于这一假设,该方法通过计算每个特征在不同类别下的条件概率来实现文本分类。
朴素贝叶斯分类器在文本分类中具有简单高效的特点,但是忽略了特征之间的相关性。
2. 支持向量机支持向量机是一种基于结构风险最小化原理的分类方法。
该方法通过将文本样本映射到高维空间中,学习一个最优的超平面来实现分类。
支持向量机在文本分类中具有较好的泛化性能和鲁棒性,但是在处理大规模文本数据时计算复杂度较高。
3. 随机森林随机森林是一种基于决策树集成的分类方法。
该方法通过构建多个决策树,使用投票或平均策略来进行分类。
随机森林在文本分类中具有较好的稳定性和可解释性,且能够处理高维度的文本数据。
AI平台上的文本分类技术随着互联网的快速发展,人们在日常生活中不可避免地与海量的文本信息打交道。
网络搜索引擎、社交媒体、新闻资讯、电商评论等各种类型的文本数据涌现出来,对于人们来说,如何高效地处理和利用这些信息成为了一个不容忽视的问题。
人工智能技术的突破为解决这一问题提供了新的思路和方法,文本分类技术就是其中的一种重要应用。
本文将围绕AI平台上的文本分类技术展开探讨。
一、文本分类技术的基本思路文本分类技术主要是通过分析文本的内容和特征,将其归纳为不同的类别,比如新闻、教育、体育、娱乐等。
其基本思路是将文本表示为一个向量形式,并在这个向量空间中定义一些距离或相似度度量方法,通过计算文本之间的距离或相似度来实现文本分类。
具体来说,文本分类技术包括以下几个步骤:1、文本数据预处理。
通常包括分词、去除停用词、词性标注、文本切割等操作,以得到可用于分类的特征。
2、文本特征提取。
利用TF-IDF、词袋模型、词向量等方法将文本转化为向量形式,以便于计算距离或相似度。
3、文本分类模型训练。
可以采用SVM、朴素贝叶斯、神经网络等算法,通过训练模型来对文本进行分类。
4、文本分类应用。
将训练好的模型应用于实际场景中,对未知的文本进行分类。
二、AI平台上的文本分类技术应用AI平台作为一种提供多种机器学习算法和数据处理能力的集成化平台,可将海量的文本数据与自动化的文本分类技术相结合,实现快速、准确、高效的文本分类。
AI平台上的文本分类技术主要应用于以下几个方面。
1、搜索引擎优化搜索引擎是人们获取信息的重要途径之一,搜索引擎优化(SEO)就是通过优化网站的内容和结构,使其在搜索引擎排名中获得更好的曝光度。
文本分类技术可以帮助搜索引擎评估网页上的关键词、标签和内容的相关性,从而提高搜索引擎的排名,提高网站的流量。
2、情感分析情感分析是指通过对文本中存在的情感信息进行识别和分析,得出该文本的情感倾向,比如正面、负面或中性。
情感分析在电商、社交媒体等领域具有重要应用价值。
基于机器学习的文本分类与聚类分析技术研究随着互联网时代的到来,海量的文本数据已经变得非常普遍。
如何从大量的数据中提取有用的信息,近年来成为了很多企业和机构需要面对的一个问题。
而文本分类和聚类分析技术则成为了解决这个问题的最佳选择之一。
本文将基于机器学习的文本分类与聚类分析技术进行深入研究。
一、文本分类技术浅析文本分类技术是现代信息处理技术的一个重要组成部分,其运用机器学习等算法对文本信息进行分析,然后将其归类至不同的类别中。
这种技术能够将海量的文本信息进行有效地分类,极大地提高了文本信息处理的效率。
文本分类算法的种类繁多,其中主要有基于特征的分类方法、基于概率的贝叶斯分类方法等。
其中,基于特征的分类方法是一种广泛应用的文本分类技术。
该方法会先从输入的文本中抽取出有用的特征向量,然后将这些特征向量放入到分类器中进行分类。
这种方法的特点是具有良好的扩展性和解释性,在实际应用中表现出了较高的精度。
二、文本聚类分析技术深入探究文本聚类是指将海量的文本信息按照特定的规则进行分类,然后将同一类别的文本信息放在一起。
该技术主要运用于数据挖掘、信息检索、知识管理等领域。
而机器学习和深度学习技术则是实现文本聚类的主要手段。
文本聚类的主要算法有层次聚类、K-Means聚类、SOM聚类等。
其中,层次聚类算法是一种比较流行的文本聚类算法。
该算法不依赖于先验的聚类数量,可以在不断的分裂和合并中完成文本聚类任务,但由于其计算复杂度较高,因此无法应用于大规模文本聚类。
相比之下,K-Means聚类算法的计算复杂度非常低,非常适合用于大规模文本聚类。
该算法将数据随机分配到聚类中心中,然后通过计算距离将其划分至其最近的聚类中心中,迭代若干次后,就可以得到最终的文本聚类结果。
三、机器学习在文本分类和聚类分析中的应用机器学习技术已经成为了文本分类和聚类分析的常用手段。
其中,机器学习算法能够通过样本学习,自动的构建出一个分类器,用于对输入的数据进行分类。
文本分类研究综述文本分类是自然语言处理领域的重要任务,旨在自动地将文本分配到一组预定义的类别中。
它在信息检索、情感分析、垃圾邮件过滤、媒体监测等领域有着广泛的应用。
文本分类的研究可以追溯到20世纪60年代,但随着机器学习的发展,尤其是深度学习的兴起,文本分类取得了显著的进展。
传统的文本分类方法通常基于特征工程,包括词袋模型、TF-IDF权重等。
这些方法需要手动选择和提取特征,对于大规模的数据集来说效率低下,并且难以捕捉到复杂的语义和上下文信息。
深度学习方法在文本分类中取得了显著的突破。
其中,卷积神经网络(CNN)和循环神经网络(RNN)是最常用的模型。
CNN在处理文本的局部特征方面表现良好,适用于短文本分类。
RNN则可以处理序列信息,对于长文本分类有一定的优势。
值得一提的是,由于文本数据的稀疏性和维度高,Embedding层用于将文本转化为稠密的向量表示,为后续的分类任务提供更好的输入。
近年来,文本分类研究的一个重要方向是结合知识图谱和外部语料库等背景知识来增强分类器的性能。
这些知识可以帮助模型理解文本中的实体、关系等信息,提供更加准确和丰富的分类结果。
此外,文本分类的评价指标也是研究的重点之一、除了准确率、召回率和F1值等传统指标外,还有一些针对不平衡数据集和多类别分类的评价指标,如AUC、宏平均和微平均等。
总的来说,文本分类是一个具有挑战性的任务,在深度学习和知识图谱等技术的支持下,取得了很大的进展。
未来的研究方向包括多模态文本分类、跨语言文本分类等。
同时,还需要进一步改进评价指标,提高模型的鲁棒性和可解释性,以适应更加复杂的应用场景。
基于机器学习的文本分类方法研究一、引言文本分类是家族化、自然化文本信息处理中的一种最基本的任务。
在信息处理、网络文本挖掘、社交媒体分析、智能问答、自然语言处理等领域都有广泛的应用。
近年来,随着机器学习技术的发展,基于机器学习的文本分类方法被广泛地应用在各个领域。
本文将从基于机器学习的文本分类方法进行探讨和分析。
二、基于机器学习的文本分类方法概述基于机器学习的文本分类方法是将文本归入不同的类别,这是通过分类器的比较和训练的方式完成的。
分类器通常使用机器学习算法根据大量的样本数据来构建。
文本分类通常分为两个步骤:特征提取和分类器模型训练。
特征提取是将文本转换为可供训练的向量;分类器模型训练是将训练向量和标签(文本所属类别)放入模型中进行学习并生成分类器。
常用的机器学习分类算法有贝叶斯算法、k近邻算法、决策树算法、支持向量机算法、神经网络算法等。
三、文本分类的特征表示传统的特征提取方法是使用词袋模型提取文本中的关键词并统计词频。
这种方法忽略了词序和上下文的关系。
最近,有研究证明,基于词组表示的方法有望提升分类性能,特别是针对短文本进行分类的时候。
样本中的词组可以定义为n元组,aka子串。
“n”代表词组中所含单词的数量,例如bigram(2-gram)和trigram(3-gram)等。
词组被合并成一个新的词,在分类前进行特征表示。
当使用n元组作为特征时,分类器的分类效果的确有所提升。
另外,主题建模是一种常用的特征提取方法。
利用LDA(Latent Dirichlet Allocation)将每篇文档表示为一组主题分布,以主题分布作为特征向量进行分类,可以提高文本分类的效果。
四、机器学习算法在文本分类中的应用1.贝叶斯分类器朴素贝叶斯是一种基于概率的分类器,被广泛应用于文本分类中。
为了解决词汇重叠的问题,朴素贝叶斯通常采用离散化和平滑技术进行优化。
平滑方法包括拉普拉斯平滑、Add-k平滑、Jelinek-Mercer等平滑技术。
基于机器学习的文本分类算法研究及应用随着网络的普及,人们的数据获取量正在不断增加,数据处理和分析的需要越来越迫切。
其中文本数据是一个特别重要的数据类型,包括新闻、评论、社交媒体、电子邮件等。
如何对文本数据进行自动化分类,是自然语言处理和机器学习领域的关键问题之一。
本文将从文本分类的背景、相关机器学习算法和算法应用三方面,探讨基于机器学习的文本分类算法研究及应用。
一、文本分类的背景随着互联网的发展,大量的文本数据如雨后春笋般涌现,给人们生活、工作、娱乐带来极大的帮助。
但同时也带来了困扰,人工处理如此大量的文本数据已经不可行,因此需要利用计算机技术进行自动化分类。
文本分类是利用机器学习和自然语言处理技术对文本进行分类,被广泛应用于垃圾邮件过滤、情感分析、新闻分类、文本推荐等领域。
二、相关机器学习算法1.朴素贝叶斯算法朴素贝叶斯算法是一种基于概率统计的分类算法,它的主要思想是通过先验概率和观测数据的条件概率来计算后验概率从而进行分类。
它假设各个特征属性之间相互独立,因此可以简化计算。
这种算法适合于大规模的文本分类,它的计算速度快且准确率较高。
2.支持向量机算法支持向量机算法是一种使用非线性函数将低维空间数据映射到高维空间,并在高维空间中构造线性分类平面的算法。
它的主要思想是找到超平面,使其能够在空间中将不同类别的数据分离开来。
这种算法适合于处理高维稠密数据,可以应用于文本分类中。
3.决策树算法决策树算法是一种基于树状结构的分类算法,它的主要思想是通过对一系列问题的判断,逐渐将数据划分到相应的分类中。
该算法允许决策树内的节点代表一些复杂的判断,因此可以在处理文本分类问题时获得良好的分类结果。
三、算法应用基于机器学习的文本分类算法已经广泛应用于商业、科技、政府等多个领域,下面以新闻分类为例,简单介绍算法应用。
新闻分类是一种应用广泛且难度较大的文本分类问题。
由于新闻源多、类型杂,很难通过人工方式完成分类。
利用基于机器学习的文本分类算法可以快速、准确地完成分类任务。
ISSN 1000-9825, CODEN RUXUEW E-mail: jos@Journal of Software, Vol.17, No.9, September 2006, pp.1848−1859 DOI: 10.1360/jos171848 Tel/Fax: +86-10-62562563© 2006 by Journal of Softwar e. All rights reserved.∗基于机器学习的文本分类技术研究进展苏金树1, 张博锋1+, 徐昕1,21(国防科学技术大学计算机学院,湖南长沙 410073)2(国防科学技术大学机电工程与自动化学院,湖南长沙 410073)Advances in Machine Learning Based Text CategorizationSU Jin-Shu1, ZHANG Bo-Feng1+, XU Xin1,21(School of Computer, National University of Defense Technology, Changsha 410073, China)2(School of Mechantronics Engineering and Automation, National University of Defense Technology, Changsha 410073, China)+ Corresponding author: Phn: +86-731-4513504, E-mail: bfzhang@Su JS, Zhang BF, Xu X. Advances in machine learning based text categorization. Journal of Software,2006,17(9):1848−1859. /1000-9825/17/1848.htmAbstract: In recent years, there have been extensive studies and rapid progresses in automatic text categorization,which is one of the hotspots and key techniques in the information retrieval and data mining field. Highlighting thestate-of-art challenging issues and research trends for content information processing of Internet and other complexapplications, this paper presents a survey on the up-to-date development in text categorization based on machinelearning, including model, algorithm and evaluation. It is pointed out that problems such as nonlinearity, skeweddata distribution, labeling bottleneck, hierarchical categorization, scalability of algorithms and categorization ofWeb pages are the key problems to the study of text categorization. Possible solutions to these problems are alsodiscussed respectively. Finally, some future directions of research are given.Key words:automatic text categorization; machine learning; dimensionality reduction; kernel method; unlabeleddata set; skewed data set; hierarchical categorization; large-scale text categorization; Web pagecategorization摘 要: 文本自动分类是信息检索与数据挖掘领域的研究热点与核心技术,近年来得到了广泛的关注和快速的发展.提出了基于机器学习的文本分类技术所面临的互联网内容信息处理等复杂应用的挑战,从模型、算法和评测等方面对其研究进展进行综述评论.认为非线性、数据集偏斜、标注瓶颈、多层分类、算法的扩展性及Web页分类等问题是目前文本分类研究的关键问题,并讨论了这些问题可能采取的方法.最后对研究的方向进行了展望.关键词: 自动文本分类;机器学习;降维;核方法;未标注集;偏斜数据集;分级分类;大规模文本分类;Web页分类中图法分类号: TP181文献标识码: A∗ Supported by the National Natural Science Foundation of China under Grant Nos.90604006, 60303012 (国家自然科学基金); theNational Research Foundation for the Doctoral Program of Higher Education of China under Grant No.20049998027 (国家教育部高校博士点基金)Received 2005-12-15; Accepted 2006-04-03苏金树等:基于机器学习的文本分类技术研究进展1849随着信息技术的发展,互联网数据及资源呈现海量特征.为了有效地管理和利用这些分布的海量信息,基于内容的信息检索和数据挖掘逐渐成为备受关注的领域.其中,文本分类(text categorization,简称TC)技术是信息检索和文本挖掘的重要基础,其主要任务是在预先给定的类别标记(label)集合下,根据文本内容判定它的类别.文本分类在自然语言处理与理解、信息组织与管理、内容信息过滤等领域都有着广泛的应用.20世纪90年代逐渐成熟的基于机器学习的文本分类方法,更注重分类器的模型自动挖掘和生成及动态优化能力,在分类效果和灵活性上都比之前基于知识工程和专家系统的文本分类模式有所突破,成为相关领域研究和应用的经典范例[1].基于机器学习文本分类的基础技术由文本的表示(representation)、分类方法及效果(effectiveness)评估3部分组成.Sebastiani在文献[1]中对文本分类发展历程及当时的技术进行了总结,主要内容包括:(1) 文本关于项(term)或特征的向量空间表示模型(VSM)及特征选择(selection)与特征提取(extraction)两种表示空间降维(dimensionality reduction)策略,讨论了χ2,IG,MI,OR等用于特征过滤的显著性统计量及项聚类和隐含语义索引(LSI)等特征提取方法;(2) 当时较成熟的分类模型方法,即分类器的归纳构造(inductive construction)或模型的挖掘学习过程;(3) 分类效果评估指标,如正确率(precision)、召回率(recall)、均衡点(BEP)、Fβ(常用F1)和精度(accuracy)等,以及之前报道的在Reuters等基准语料上的效果参考比较.然而,互联网中分布传播的海量电子化文本所显现出的种类多样、分布偏斜、关系复杂、更新频繁及标注困难等新的特征,给近年来面向互联网海量信息处理需求的文本分类带来了巨大挑战.文献[1]对分类技术用于解决上述问题时在不同程度上遇到的扩展性差、语料缺乏及精度降低等困难和问题的论述不够,也无法涉及近几年技术的发展以及信息检索、机器学习和数据挖掘等领域权威学术会议及刊物上讨论的重要问题和成果.本文介绍基于机器学习文本分类技术的最新研究,重点讨论文本分类在互联网信息处理等实际应用中所面临的问题及进展,从相关问题、现状和趋势等方面进行归纳和评论.第1节介绍基础技术的研究动态.第2节讨论现阶段文本分类面向实际应用挑战的主要研究问题及最新进展.最后给出全文的总结和相关技术的展望.1 文本分类基础技术研究动态近年来,将文本简化为所谓的BOW(bag of words),在特征处理和统计学习算法的基础上获得对文本语义内容及类别信息的估计与预测,已经成为文本分类的标准模式.通过统计理论和语言学(linguistics)两种途径进行的文本表示和分类模型的研究也得到进一步拓宽或发展,相关领域的技术也在文本分类中得到新的应用.1.1 文本表示VSM仍是文本表示的主要方法,相关研究仍然集中在以什么语义单元作为项及计算项的权重两个问题上.大部分工作仍以词(或n-gram)作为项,以项的频率为基础计算权重,如tf×idf等[1].值得注意的是,Debole提出了有监督的权重STW,利用项的显著性统计量(如用χ2等)来平衡其权重[2];文献[3,4]等也使用类似的方法.相对使用tf×idf权重,某些统计量的引入使得SVM及线性分类等方法的分类效果有了不同程度的提高.除VSM以外,还有人提出基于项概率分布、基于二维视图等模型.Bigi认为,任意文本d和类别c均可视为所有项的一个概率分布P(t i,d)和P(t i,c),i=1,…,|T|( T为所有项或特征的集合),称为项分布概率表示.通过度量分布间的Kullback-Leibler距离(KLD)相似性的分类方法,获得优于VSM表示下线性方法的效果[5].项分布概率模型本质上仅是在项的权重计算和规格化(normalization)上与VSM不同.Nunzio使用可视的二维表示方法,将所有项的信息压缩到由局部能量和全局能量构成的二维平面上,采用启发式算法进一步计算后,在某些测试集上得到了很高的准确性[6];然而,方法仅是在小数据集上进行了测试,实际应用效果还需要进一步加以验证.还有一些工作希望通过借鉴自然语言处理的技术考虑被BOW忽略的语义单元间的联系,因此,词义及短语等复杂的项被应用到分类方法的文本表示中.但到目前为止,这些表示方法在分类效果上还没有明显的优势,而且往往需要比较复杂的语言预处理,在分类时影响了分类器的吞吐速度[7,8].到目前为止,非VSM的表示在理论上的合理性及面对实际应用的可扩展性还需要深入验证,适合它们的分类方法比较单一,而且未得到广泛的应用.1850 Journal of Software软件学报 V ol.17, No.9, September 20061.2 表示空间降维相关研究主要集中在降维的模型算法与比较,特征集与分类效果的关系,以及降维的幅度3个方面.关于降维的模型和算法,很多研究仍按照传统的思路:(1) 用概率统计方法度量并比较项关于类别分布的显著性,如BNS(bi-normal separation)[9]等;(2) 从信息熵角度研究项分布相似性的项聚类方法,如基于全局信息(GI)[10]等;(3) 隐含语义分析途径,即通过矩阵的不同分解和化简来获取将向量语义或统计信息向低维空间压缩的线性映射,如差量(differential)LSI[11,12]等.一些新颖的研究思路包括:(1) 多步骤或组合的选择方法,即首先用基本的特征选择方法确定初始的特征集,然后以某种标准(如考虑其他项与初始集特征的同现(co-occurrence)等[13])进行特征的补充,或者综合其他因素(如依第2种显著性选择标准[13,14]或考虑线性分类器系数值大小[15]等)进行冗余特征的删减;(2) 尝试借鉴语言学技术进行的研究有从手工输入的特征中学习特征信息[16]及基于WordNet[17]的特征提取等方法,但方法所产生的效果都不理想.必须考虑降维对分类的影响,即关注分类器效果指标随特征数目增加的变化趋势.很多文献中[9−14,18,19]比较一致的现象是:合理的降维方法会使多数分类器都呈现出随特征数量增加,效果快速提高并能迅速接近平稳;但若特征数目过大,性能反而可能出现缓慢降低.这表明:降维不仅能大量降低处理开销,而且在很多情况下可以改善分类器的效果.Forman及Yang等人分别从有效性、区分能力及获得最好效果的机会等方面对不同的特征选择方法进行了广泛比较.从结果来看:BNS,χ2,IG等统计量及组合方法具有一定的优势;另外,不同分类器倾向于接受不同的特定降维方法[9,13,18,19].常用的特征提取与特征选择算法的效果在不同情况下互有高低或相当[1,10,20].虽然选择方法因为复杂度较低而应用更为广泛,但提取得到的特征更接近文本的语义描述,因此有很大的研究价值.降维尺度的确定常用经验估算方法,如给定特征数的经验值(PFC)或比例(THR);或者考虑统计量阈值(MVS)或向量空间稀疏性(SPA)等因素.Soucy给出特征数与文本数成比例(PCS)的方法,并在精度标准下与其他4种方法做了比较,得出了MVS>PCS>SPA>PFC>THR的结论[21],传统的标准值得重新审视.1.3 机器学习分类方法分类方法研究的主要目标是提高分类效果,实用的系统还必须兼顾存储和计算能力受限等条件下,学习过程的可扩展性和分类过程的吞吐率(速度)[22−24].近年来,采用多(multiple)分类器集成学习(ensemble learning)的方法被普遍接受;而支持向量机(SVM)仍然代表了单重(single)方法的发展水平.SVM的应用是文本分类近年来最重要的进展之一.虽然SVM在大数据集上的训练收敛速度较慢,需要大量的存储资源和很高的计算能力[24−28],但它的分隔面模式有效地克服了样本分布、冗余特征以及过拟合(over-fitting)等因素的影响,具有很好的泛化(generalization)能力.有关文献的比较均显示:相对于其他所有方法,SVM占有效果和稳定性上的优势[28−32].近年来又有很多文献[1]中未涉及的一些模型或方法被提出或应用,有的还获得了较好效果,如最大熵模型[33,34]、模糊理论[35,36]、项概率分布的KLD相似性[5]、二维文本模型[6]以及基于等效半径的方法(SECTILE)[26]等(见表1),但它们仍局限于惯用的相似性度量的分类模式.Bayes、线性分类、决策树及k-NN等方法的能力相对较弱,但它们的模型简单,效率较高,这些方法的修正和改进引起了人们持续的关注.Wu指出分类器关于数据分布的假设是影响分类效果的重要因素,当模型不适合数据集特点时,性能就可能变得很糟糕.这种模型偏差在弱分类方法中尤为突出,他给出了一种灵活的基于错误矫正的启发式改进策略[25];GIS方法将样本聚集成不同的实例集(instance set),每个实例集的质心称为推广实例(GI),以GI的集合代替样本集合后减少了实例,使得k-NN方法的在线速度大为改善,分类效果也有所提高[37];Tsay利用与GIS相反的思路,他增加类别的数目,实质上为原类别选择多个质心,部分地克服了单个质心难以适应样本稀疏的弱点[38];Tan使用推拉(drag-pushing)策略对Bayes和基于质心的方法进行了改进[39];Chakrabarti的SIMPL方法利用Fisher线性判别分析将文本表示投影到低维空间后,再进行决策树的构造[24].可以看出,多数分类模型和方法的研究,更侧重在特定测试集上效果基本相当的情况下,获得计算开销上相对SVM的优势.苏金树 等:基于机器学习的文本分类技术研究进展1851集成学习,也称为多重学习或分类器组合,主要通过决策优化(decision optimization)或覆盖优化(coverage optimization)两种手段将若干弱分类器的能力进行综合,以优化分类系统的总体性能.决策优化对于不同的分类器均采用完整的样本集进行训练,测试时,通过对所有分类器的决策进行投票或评价(如MV(majority voting),W (weighted)MV 及WLC (weighted linear combination)等[1,40]),确定整个系统输出的类别;Bennett 将特定分类器看作可靠性的指示(reliability indicator);系统利用概率方法综合不同分类器的输出确定最后的决策[41];Xu 和Zhang 提出一种将SVM 与Rocchio 算法进行串行集成方法的思想,即在Rocchio 算法快速处理全部文本向量后, SVM 对部分感兴趣的类别进行误差校正,用较低的计算代价换取重要类别的精度[42];覆盖优化对同一种学习采用不同的训练子集,形成参数不同的单分类器,这些单分类器决策的某种综合(如WMV 等)决定每测试样本的分类,如Bagging 和Boosting 等方法[43];在Boosting 方法的迭代过程中,每一轮都关注上一轮的分类错误,用于提升较弱的分类方法并获得了优于SVM 的结果,AdaBoost.MH 和AdaBoost.MR 等具体算法都有着广泛的应用[44].Table 1 Properties and effectiveness for most of the categorization models or methods表1 主要分类模型或方法的性质和效果 Model or method ① Examples of algorithm orImplementation ②CR ③HD ④Bi ⑤Best rept eff.⑥Remark ⑦ Probabilistic Naïve Bayes (NB)√ 0.773 Easy, highly depend on data distribution Decision tree (DT) ID3, C4.5, CART√√0.794 Decision rule DL-ESC, SCAR, Ripper, Swap-1√√0.823 Often used as base-lines, relatively weak Regression LLSF, LR, RR [45] √0.849 Effective but computing costly On-Line Winnow, Windrow-Hoff, etc.√0.822 Linear Centroid-Based Rocchio (and it’s enhancements)√ 0.799 Weaker but simple and efficient Neural networks Perceptron, Classi, Nnet √0.838 Not widely used TC Instance-Based k -NN √0.856 Inefficient in online classification SVM SVM light , LibSVM [46,47] √√0.920 State of arts effectiveness MV, Bagging √N/A Not widely used and tested yet Ensemble learning WLC, DCS, ACC, adaboost √0.878 Boosting methods effective and popular STRIVE [41]√ 0.875 Complex in classifier construction Ensemble learning SVM with Rocchio ensemble [42]√+0.019* *Improvement in a small Chinese corpus Maximum entropy Li. KAZAMA [33,34]√ 0.845 Effective but not widely used Fuzzy Liu, Widyantoro [35,36]√ 0.892* *Only accuracy reported Term prob. distri. KLD based [5]√ 0.671* *Better than Rocchio in the same test Bidimensional Heuristic approach [6]√√0.871 Not extensively confirmed MD and ER based SECTILE [26]√ >0.950* *Only tested in a Chinese corpus,estimated Wu’s Refinement Rocchio/NB refined [25]√ 0.9/0.926 A little complex in training Tsay’s refinement Rocchio refined [38]√ +0.018* *Improvement, a Chinese corpus Gener. instance set GIS-R GIE-W [37]√ 0.860 More efficient than k -NN in testing Dragpushing RCC, RNB [27,39]√ 0.859 Easy and computationally efficient Linear discri. proj. SIMPL [24]√√>0.880* *Estimated form reported data LS kernel [48] With SVM√√0.903 Need expensive matrix processing Word seq. kernel [49] With SVM√√0.915 Complex and time spending in training String kernel [50,51] With SVM √√0.861* *Estimated form reported data 表1中数字角标表示的是:① 模型方法;② 算法实例或实现;③ 是否class ranking 方法(输出测试文本关于每个类的相对形似性参考值或排序);④ 是否hard-decision 方法(输出测试文本的类别标记);⑤ 是否是二值(binary)方法(方法接受或拒绝当前类,输出±1);⑥ (reuters-21578子集上)报道的最好分类效果(平均的BEP,F 1或精度值,测试条件不同,结果仅供参考);⑦ 评注.表1的前两部分给出了上述以及文献[1]中涉及的部分方法的主要特征及其在Reuters-21578某些子集上(或个别其他语料)上所报道的最好效果指标(平均的BEP,F 1或精度值).由于测试集合和测试条件的差异,指标的数值仅作为方法效果的参考,不能完全作为方法效果间比较的 依据.1852 Journal of Software软件学报 V ol.17, No.9, September 20061.4 评估方法信号检测领域中的ROC(receiver operating characteristics)曲线,近年来介入到对分类器的效果评估和优化[41,52−54]中.对类别c,表2是其测试结果的邻接表.设TPR=TP/(TP+FN),FRP=FP/(FP+TN),随着分类器阈值参数的调整,ROC空间(TPR,FPR)中的曲线不但能直观地反映分类器的性能,曲线下面积AUC(area under curve)更可以量化分类器接受正例的倾向性.另外,ROC空间对样本在类别间的分布不敏感,可以反映错误代价(error cost)等指标的变化,具有特别的优势[52].有效地将ROC曲线用于分类器的评价、比较及优化,成为近期的一个热点.Table 2The contingency table for category c表2 类别c测试结果邻接表Expert judgmentsCategory cTrue FalsePositive TP FPClassifier judgmentsNegative FN TN在理论方面,Li和Yang认为关于训练数据的误差及复杂性惩罚使分类器能力间的比较明朗化.通过对常见分类方法进行形式化分析,他们将与分类器获得最优效果条件和标准等价的损失函数(loss function)分为训练损失(training loss)和模型复杂度两部分,从优化的角度给出了一种分类器之间相互比较的方法[45].方法间的实验比较常在基准语料上进行.Reuters是重要的基准语料,其中在Reuters-21578[55]版本上进行了最多的测试.常见的语料还包括OHSUMED,20 Newsgroups,WebKB及AP等[1,39].文献[28]给出了Reuters-21578子集的相对难度分析和参考.RCV1(reuters corpus volume I)是最新整理和发布的较完全的“官方”语料,它改进了之前语料的一些缺点,以适应多层分类、数据偏斜及分类方法扩展性等研究的需要.语料的构建对文本分类研究有着非常重要的促进和参考作用,文献[31]给出了RCV1的语料加工技术及部分方法的参考性能.中文分类的公开语料大多处于建设中,特别是经过加工的基准语料相对缺乏,Tan公开了一个较新的加工中文分类语料TanCorp及一些分类方法的参考性能[39].2 主要挑战和研究进展基于机器学习的文本分类技术经过20多年的不断发展,特别是直接从机器学习等领域借鉴最新的研究成果,已能较好地解决大部分具有数据量相对较小、标注比较完整及数据分布相对均匀等特点的问题和应用.但是,自动文本分类技术的大规模应用仍受到很多问题的困扰,如:单是刻画文本间(非线性的)语义联系的问题,都被认为没有很好地得以解决.近年来面临的主要挑战来自于互联网上Web等海量信息的处理,其主要特征是:(1) 大规模的类别体系给分类器训练带来扩展性的困难;(2) 建立分类器时所获得的样本相对于海量的未知数据非常有限,模拟样本的空间分布变得困难,这可能带来过拟合(overfitting)及数据偏斜的问题;(3) 文本和类别的更新频繁,在力求对每个类别获得更多的样本时,存在标注瓶颈的问题;(4) 类别间的关系也更加复杂,需要有更好的类别组织方法;(5) Web文本是一种半结构化(semi-structured)的数据,其结构信息(如链接关系、主题等)可能对分类提供某些帮助.综合来看,我们认为文本分类技术现阶段主要面临非线性、数据集偏斜、标注瓶颈、多层分类、算法的规模扩展性及Web页面分类等几个关键的问题.下面主要论述解决这些关键问题可能采取的方法.2.1 非线性问题及核方法多数文本分类问题的线性可分性[29]并未得到理论上的证明,用线性的模型表达复杂的语义内容必然会带来许多误差,非线性的方法仍是处理复杂问题的重要手段.SVM方法用二元核函数K(x,y)计算高维空间H中的内积(x,y是文本表示向量)[29],以应对(降维后的)项空间上不可分的文本分类问题,表达了模型中的非线性变换.SVM是使用核方法(kernel method)或者核技术(kernel trick)的典型代表,核方法也是SVM取得成功的主要因素之一.苏金树 等:基于机器学习的文本分类技术研究进展1853在核方法中,通过较复杂的非线性映射φ将项空间的非线性问题变换到高维特征空间H ,就有可能在H 中运用线性方法,使问题便于处理和建模;事实上,φ的显式构造可能未知或很复杂,但求解过程中却只需利用显式的核函数K 简单计算H 中的内积,使得复杂的非线性变换在计算上可行[56].目前,核方法在机器学习领域炙手可热,成为在已有线性算法基础上研究非线性问题的重要途径,如Zaragoza 将核技巧运用到线性文本分类方法中,此时,仅需将线性决策函数中的内积用核函数K 进行替换,得到∑∑====||1~||1~~)(),(),()(Tr Tr i i i i i i K f x x x x x φφαα, 其中:Tr 是训练样本集合;x i 是训练样本的表示(i =1,…,|Tr |);x 是待测样本的表示[57].进一步的研究表明:核方法的效果与核函数的选择密切相关,总是希望它能反映样本相似性的本质.常见的核函数有RBF,Gauss 及sigmoid 核等[29].在文本分类中,由于文本空间的特殊性,采用数值核函数获得的分类性能还不能令人满意.因此,新的基于文本语义的核函数成为一个研究重点.文献[48]讨论了基于矩阵分解的隐含语义(LS)核函数;文献[49−51]中使用语法驱动的字符串核及词序列(word sequence)核,直接将文本作为字或词的有序串来计算核;文献[58]讨论了核函数的合成对分类的影响,给出了能够提高分类效果的某些合成条件.核方法的本质是通过核函数引入文本语义相似性的度量,常具有很高的分类准确性(见表1),但计算开销也较高.2.2 数据集偏斜通过对机器学习领域的很多研究,发现数据集关于类别的分布往往是偏斜(skewed)或称不均衡的,即类别间样本的数量可能存在数量级的差距,这是导致分类效果很不理想的一个重要因素.在数据偏斜的情况下,样本无法准确反映整个空间的数据分布,分类器容易被大类淹没而忽略小类.在文本分类特别是互联网信息的分类中,大量存在数据偏斜的情况.尤其是在采用二值分类策略时,对某一类,正例的样本可能只占所有样本比例很小的一部分[59].Yang 进行了SVM,NB 及k -NN 等方法在样本分布受控情况下的健壮性及分类效果与数据分布之间关系的对比[30],结果表明:SVM 和k -NN 对样本分布的健壮性要好于NB 等方法,这印证了SVM 的泛化性能及NB 对类别先验概率的依赖性,但所有方法在稀有类别上的准确性均很低.解决数据偏斜问题的主要对策有:(1) 重取样(re-sampling),可以适当屏蔽大类的信息量或提高小类的分类错误代价[60];(2) 采用新的分类策略,如单类(one-class)SVM 以原点作为未知类别的中心,构造包围训练样本的分隔面,从而将问题转化为等价的不受类别分布影响的两类问题[61];文献[62]讨论了在仅有少量正例情况下SVM 的训练;文献[63]中提出的NKNN 方法改进了k -NN 在偏斜数据集上的效果;(3) 采用更好的效果评估方法,如ROC 曲线或代价曲线等在数据偏斜情况下能够更准确地评估分类器的整体性能[52,59];(4) 在数据偏斜的情况下,特征也很重要,可以分别通过优化特征选择框架或改进特征选择方法获得分类器对小类别特征的重 视[9,64−66].目前,所有的方法都还不能将对稀有类别的识别水平(约0.5左右或更低的BEP)整体提高到实际可以接受的程度,相关的研究仍需要进一步的深入.2.3 标注瓶颈学习算法需要大量的标注样本,但已标注的样本所能提供的信息有限;另一方面,容易获得(如通过互联网)的未标注样本数量相对于标注样本较多,且更接近整个样本空间上的数据分布.提供尽可能多的标注样本需要艰苦而缓慢的手工劳动,制约了整个系统的构建,这就产生了一个标注瓶颈的问题.因此,如何用少量的已标注样本和大量的未标注样本训练出一个好分类器,逐渐引起人们的关注.Nigam 首先利用基于期望最大化(EM)的方法从未标注样本中学习,利用测试样本改进了Bayes 分类器的分类效果[67];另一种用于未标注文本学习的方法是直推(transductive inference),使得分类器首先通过对已标注样本的学习仅对当前的少量未知样本进行误差最小的预测,而暂不考虑对未来所有实例预期性能的最优性.之后,将这些样本加入到学习过程中来,以改进分类器的效果;Jaochims 使用了直推式支持向量机TSVM 进行文本分类[68],文献[69]中进行了改进;文献[70]中讨论了直推式Boosting 文本分类;文献[71,72]采用合作训练(co-training)的方法,使用未标注的样本进行e-mail 与文本的分类,其思想是从两个视角将样本的特征划分为两个信息充足的子集,分别在两个子集上建立分类器,利用标注样本进行合作学习.另外,文献[73]仅使用正例样本和未标注样本进行学习;文献[74]中利用了SVM 主动。