基于向量空间模型的文本自动分类系统的研究与实现(精)
- 格式:doc
- 大小:42.00 KB
- 文档页数:16
多层文本分类器的研究及应用袁路妍;顾国强;鲍世方【摘要】以解决公安部门犯罪信息文本数据自动分类问题为应用目的,通过对已有多层文本自动分类技术的研究,给出多层文本分类器的过程模型,并对模型中的特征提取方法进行深入研究,提出改进后的特征提取权重计算公式.实验证明,该分类器能够有效解决犯罪信息文本的自动分类问题.%For the application purpose of the public security bureau's crime information text data automatic classification, through researches on existing hierarchical text aulomatic classification technology,a hierarchical text classifier process model is presented. Then the model's feature extraction methods are ihoroughly studied. At last an improved feature extraction weight calculation formula is proposed. Experiments prove that the classifier can effectively solve the automatic classification problem of crime information texts.【期刊名称】《计算机应用与软件》【年(卷),期】2012(029)003【总页数】3页(P139-140,201)【关键词】多层文本分类;向量空间模型;特征提取;分类算法【作者】袁路妍;顾国强;鲍世方【作者单位】东华大学计算机科学与技术学院,上海200051;上海众恒信息产业股份有限公司,上海200042;上海公安高等专科学校,上海200336【正文语种】中文【中图分类】TP180 引言公安系统的案件数据量庞大且种类繁多,同一案件从不同的角度可以归入不同的类别,如交通肇事可以认为是普通交通事故类,也可以属于故意伤人罪,这是因为案件的分类既要考虑动机又要兼顾结果的因素。
目录1 绪论 (1)1.1 研究意义 (1)1.2 文本分类的研究现状 (2)1.3 论文的研究内容及组织结构 (5)2 文本分类相关技术 (6)2.1 文本分类过程 (6)2.2 文本预处理 (7)2.3 特征降维 (8)2.4 文本表示 (9)2.5 分类算法 (11)2.6 分类性能的评价 (11)2.6.1 文本分类语料库与测试方法 (11)2.6.2 评价指标 (12)2.7 本章小结 (13)3 特征选择方法研究 (14)3.1 几种常用的特征选择方法 (14)3.1.1 文档频率 (14)3.1.2 互信息 (14)3.1.3 信息增益 (15)3.1.4 统计量CHI (16)2χ3.2 改进的互信息特征选择方法 (16)3.3 特征选择方法的实验分析 (17)3.4 本章小结 (21)4 基于蚁群聚类的文本分类算法 (23)4.1 几种常用文本分类算法 (23)4.1.1 类中心向量算法 (23)4.1.2 朴素贝叶斯算法 (24)4.1.3 支持向量机 (25)4.1.4 KNN 算法 (29)4.2 蚁群聚类 (31)4.2.1 聚类 (31)4.2.2蚁群聚类 (32)4.3 基于蚁群聚类的KNN分类算法 (35)4.4 分类算法的实验分析 (37)4.5 本章小结 (42)5 文本分类系统的设计与实现 (43)5.1 文本分类系统总体设计 (43)5.2 系统实现 (43)5.2.1训练模块 (44)5.2.2分类模块 (47)5.3 本章小结 (49)6 全文总结及未来工作展望 (50)6.1 全文总结 (50)6.2 工作展望 (50)参考文献 (52)致谢 (55)1 绪论1.1 研究意义随着计算机技术和网络技术的飞速发展,包括文本信息在内的各种信息资源呈现爆炸式增长。
面对如此庞大而且急剧膨胀的信息海洋,如何高效地组织和管理这些信息,并快速、准确、全面地从中搜索到用户所需要的信息是当前信息科学与技术领域面临的一大挑战[1]。
利用SVM进行文本分类并研究特征选择对文本分类的影响SVM(支持向量机)是一种常用于文本分类的机器学习算法。
它的主要思想是将文本数据映射到高维向量空间,并在此空间中构建一个超平面来实现分类。
特征选择是在特定的文本分类任务中选择最相关特征的过程。
本文将研究特征选择对SVM文本分类的影响。
一、SVM文本分类的基本步骤SVM文本分类的基本步骤包括数据预处理、特征提取、特征选择和模型训练四个主要阶段。
1.数据预处理:这一步骤包括去除文本中的停用词、标点符号等无用信息,同时进行词干化和词向量化处理,将文本转换为向量表示。
2.特征提取:常用的特征提取方法有词袋模型和TF-IDF模型。
词袋模型统计文档中每个词的出现频率,将其构成一个向量。
TF-IDF模型基于词袋模型,加入了对词频的权重调整,更准确地反映了词对文档的重要性。
3.特征选择:特征选择是从所有特征中选择最有用的特征,以提高分类器的性能。
常用的特征选择方法有信息增益、卡方检验和互信息等。
4.模型训练:最后,使用选择的特征和标注的训练集来训练SVM分类器,通过调整超参数,如正则化参数C和核函数类型等,来优化模型的性能。
特征选择在SVM文本分类中起着至关重要的作用,它能够减少特征维度,提高分类效果。
以下是特征选择对文本分类的影响:1.维度减少:文本数据往往具有高维度,而很多特征无关或冗余。
通过特征选择可以减少特征维度,消除冗余信息,提高计算效率。
2.加快训练速度:特征选择可以减少训练样本的数量,从而缩短SVM 模型的训练时间。
特征选择能够剔除一些对分类任务无关的特征,使得模型更快速地收敛。
3.提高分类性能:特征选择有助于找到与分类任务最相关的特征,去除冗余和噪声,从而提高分类器的泛化能力和分类性能。
4.解释性:选择最相关的特征可以增加对分类结果的可解释性。
通过特征选择,我们可以更好地理解哪些特征对分类有贡献,有助于进一步分析文本数据的规律和特点。
三、特征选择方法1.信息增益:信息增益是通过比较每个特征与分类结果之间的关联性来衡量特征的重要性。
向量空间模型在文本处理中的应用引言在信息检索和自然语言处理领域,向量空间模型是一种常用的文本表示方法。
它将文本转换为向量形式,通过计算向量之间的相似度来实现文本分类、聚类和检索等任务。
本文将详细介绍向量空间模型在文本处理中的原理、应用和优化方法。
1. 向量空间模型的原理向量空间模型基于词袋模型,将文本表示为一个高维向量。
每个维度代表一个词语,而向量中的值表示该词语在文本中出现的次数或权重。
通过这种方式,可以捕捉到不同词语在文本中的重要性和关联性。
具体而言,向量空间模型包括以下步骤:1.文本预处理:去除停用词、标点符号等无关信息,并进行词干化或词形还原等操作。
2.构建词典:将所有文档中出现过的词语构建成一个词典。
3.文档表示:对每个文档进行向量化表示,常见的方法有计算词频(TermFrequency)或使用TF-IDF(Term Frequency-Inverse DocumentFrequency)对词频进行加权。
4.向量相似度计算:通过计算向量之间的余弦相似度或欧氏距离等指标,来度量文本之间的相似性。
2. 向量空间模型的应用向量空间模型在文本处理中有广泛的应用,包括但不限于以下几个方面:2.1 文本分类文本分类是将文本分为不同类别的任务。
向量空间模型可以将每个文档表示为一个向量,并使用分类算法(如朴素贝叶斯、支持向量机等)进行分类。
通过对训练集进行学习,可以构建一个分类器,用于对新文档进行分类。
2.2 文本聚类文本聚类是将相似的文档分到同一类别的任务。
向量空间模型可以通过计算向量之间的相似度,将相似的文档聚在一起。
常见的聚类算法有K-means、层次聚类等。
2.3 文本检索文本检索是根据用户输入的查询词,在大规模文本库中找到相关文档的任务。
向量空间模型可以将用户查询和每个文档表示为向量,并计算它们之间的相似度。
通过排序相似度得分,可以返回与查询最相关的前几个结果。
2.4 信息抽取信息抽取是从文本中提取结构化信息的任务。
向量空间模型在文本分类中的应用一、引言文本分类是信息检索中的常见任务,它的目标是将一组文本分配到一组预定义的类别中。
实现文本分类的最常用方法之一是向量空间模型(VSM),它是一种基于文本向量表示的技术。
在本文中,我们将探讨向量空间模型在文本分类中的应用,以及如何使用它来构建一个高效的文本分类器。
二、向量空间模型向量空间模型是一种常用的文本表示方法,它将文本表示为一个由特征权重构成的向量,其中每个特征表示一个单词或短语在文本中的出现次数(或词频)。
例如,假设我们的文本是一个句子“the quick brown fox jumps over the lazy dog”,我们可以将它表示为一个向量:the:1quick:1brown:1fox:1jumps:1over:1lazy:1dog:1在向量空间模型中,文本向量的维数通常是词汇表中不同单词的数量,每个向量元素的权重(通常是词频)表示单词出现的次数。
三、文本分类文本分类的主要目的是将文本分配到预定义的类别中。
这些类别可以是任何类型的,如电子邮件分类、新闻文章分类、博客分类等。
在文本分类中,向量空间模型可以通过以下步骤来构建一个分类器:1. 特征提取:将文本转换为向量表示形式。
2. 特征选择:选择最具有信息量的特征。
3. 分类器训练:使用训练集中的文本向量和它们的类别标签来训练一个分类器。
4. 分类:使用训练好的分类器对未标记文本进行分类。
四、向量空间模型的优缺点向量空间模型的主要优点包括:1. 简单直观:向量空间模型直观且容易理解。
2. 易于实现:构建向量空间模型并训练分类器并不需要太多的工程技术。
3. 适用范围广:向量空间模型适用于不同类型的文本分类任务。
向量空间模型的主要缺点包括:1. 维数灾难:通常需要大量的特征数量才能达到较高的分类准确率,这导致了向量维数的急剧增加。
2. 单词不同义性问题:同一个单词可能具有不同的含义,例如“bank”既可以表示河岸,也可以表示银行。
《基于支持向量机的聚类及文本分类研究》篇一一、引言在人工智能领域中,支持向量机(Support Vector Machine,SVM)被广泛应用于多个子任务,其中包括聚类和文本分类。
这两项任务不仅具有广阔的实用性,还在算法理论和实践中具有一定的研究价值。
本文将对基于支持向量机的聚类及文本分类进行研究,详细介绍SVM的原理和它在聚类及文本分类任务中的应用,并通过实证分析验证其效果。
二、支持向量机(SVM)原理介绍支持向量机是一种基于监督学习的机器学习算法,通过寻找能够将数据正确划分的超平面来构建模型。
其基本思想是在特征空间中找到一个分隔超平面,使得数据集中任意一点到该超平面的距离最大化。
对于文本分类和聚类任务,SVM通常利用核函数将原始文本数据映射到高维空间,以便更好地处理复杂的非线性问题。
三、基于支持向量机的聚类研究聚类是一种无监督学习任务,旨在将相似的数据点聚集在一起。
基于支持向量机的聚类方法通常采用核函数将数据映射到高维空间后,利用SVM的分类思想进行聚类。
具体而言,该方法通过计算数据点之间的相似度或距离来构建相似度矩阵或距离矩阵,然后利用SVM的优化算法对矩阵进行优化,最终得到聚类结果。
四、基于支持向量机的文本分类研究文本分类是一种常见的自然语言处理任务,主要用于将文本数据划分为不同的类别。
基于支持向量机的文本分类方法通过将文本数据转化为数值型特征向量,并利用SVM进行分类。
在这个过程中,SVM通过选择合适的核函数将文本数据映射到高维空间,从而更好地处理复杂的非线性问题。
此外,SVM还可以通过调整参数来优化模型的性能。
五、实证分析为了验证基于支持向量机的聚类和文本分类方法的有效性,本文采用真实数据集进行实验。
首先,我们使用SVM进行文本聚类实验,通过对比不同核函数和参数设置下的聚类效果,验证了SVM在文本聚类任务中的有效性。
其次,我们进行文本分类实验,通过对比SVM与其他常见分类算法的分类性能,验证了SVM在文本分类任务中的优越性。
文本处理中的向量空间模型1. 引言文本处理是自然语言处理领域中的一个重要研究方向,它涉及到对文本进行分析、理解和处理。
在文本处理过程中,向量空间模型(Vector Space Model)是一种常用的数学模型,用于表示和比较文本之间的相似度。
本文将详细介绍向量空间模型的原理、应用以及相关算法。
2. 向量空间模型的原理向量空间模型基于词袋模型(Bag-of-Words Model),将文本表示为一个高维向量。
在这个向量空间中,每个维度对应一个特定的词语或者短语,并记录该词语或短语在文本中出现的频率或权重。
通过计算不同文本之间的向量相似度,可以实现文本分类、信息检索等任务。
具体而言,向量空间模型包括以下几个关键步骤:2.1 文本预处理首先需要对原始文本进行预处理,包括分词、去除停用词、词干提取等操作。
分词将文本划分为单个词语或短语,去除停用词可以过滤掉常见但无实际含义的词语,词干提取可以将不同形式的单词转化为其原始形式。
2.2 构建词典在向量空间模型中,词典是一个关键的组成部分。
词典包含了所有出现在文本中的词语或短语,并为每个词语或短语分配一个唯一的标识符。
通过构建词典,可以将文本转化为向量表示。
2.3 文本向量化文本向量化是指将预处理后的文本转化为向量表示。
常用的方法有基于词频(Term Frequency, TF)和逆文档频率(Inverse Document Frequency, IDF)的统计方法。
TF表示某个词语在文本中出现的频率,IDF表示该词语在整个文集中出现的频率。
通过计算TF-IDF值,可以反映出某个词语在当前文本中的重要程度。
2.4 向量相似度计算在向量空间模型中,可以使用余弦相似度(Cosine Similarity)来衡量不同文本之间的相似度。
余弦相似度定义了两个向量之间的夹角,数值越接近1表示两个向量越相似,数值越接近0表示两个向量越不相似。
3. 向量空间模型的应用向量空间模型在文本处理中有广泛的应用,下面介绍几个常见的应用场景。
基于词嵌入的文本分类技术研究一、引言文本分类技术是计算机自然语言处理领域中的重要研究方向之一。
随着互联网的快速发展,大量的文本数据不断产生,如何针对这些文本数据进行有效的分类和分析,已经成为一个重要的问题。
而基于词嵌入的文本分类技术,正是近年来出现的一种新兴技术。
本文将从技术基础、应用优势、实现流程以及商业前景等方面进行分析。
二、技术基础1. 词嵌入基础词嵌入是指将单词映射到向量空间中的过程。
在词嵌入模型中,每个单词都被映射到一个N维的向量空间中,向量的每个维度代表了单词在不同的语义维度上的特征。
通过向量计算和矩阵运算等方式,可以将单词的语义距离以及相似度等信息通过向量计算的方式体现出来。
2. 基于词嵌入的文本分类技术基础基于词嵌入的文本分类技术是将文本中的单词映射到向量空间中进行计算,通过向量的计算和相似性比较等方式,实现对文本的分类和分析。
在文本分类模型中,基于词嵌入的文本表示法可以兼顾语义信息的表达与分类效果的提升。
三、应用优势1.提高分类准确率基于词嵌入的文本分类技术将单词的语义信息融合到向量空间中,通过计算向量的相似性等方式实现文本的语义分析和分类。
相比于传统的文本分类方法,基于词嵌入的文本分类技术在提高文本分类准确率方面具有优势。
2. 处理多语言文本不同语种的文本数据在语言上存在巨大差异,对计算机的文本处理和分析提出了挑战。
而基于词嵌入的文本分类技术,很好的解决了多语种文本分类的难题。
通过将不同语种的单词映射到同一个向量空间中,实现了对多语言文本数据的统一处理。
3. 可拓展性强基于词嵌入的文本分类技术基于向量空间模型,采用模块化设计,实现了对文本分类模型的可拓展性。
相比于传统的文本分类算法,可以根据应用需求,通过调整不同的参数,实现文本分类模型的优化。
四、实现流程1.数据获取数据是进行文本分类最重要的资源,对于数据获取的方法和来源的选取要根据分类需求合理选取,可以从公司业务中获取到数据或者获取公开的数据集。
基于向量空间模型的信息检索技术研究刘敏娜【摘要】In order to realize the text classification in information retrieval, the space model algorithm is adopted in this paper. The weight document search results were obtained by means of the documentation testing in the lab, In a retrieval process, the vector space model is used according to the similarity between documents to calculate which one conforms to user's input key words. It has the characteristics of text similarity display according to the weight classification in the information retrieval.%为了能够实现对信息检索中的文本分类策略,采用了空间模型算法,做了实验文档测试,获得了各自的权重文档搜索结果,得到在检索过程中,向量空间模型根据文档之间的相似度,计算哪个文档最符合用户输入的关键字的结论,具有信息检索中文本相似度根据权值大小分类显示的特点.【期刊名称】《现代电子技术》【年(卷),期】2012(035)011【总页数】3页(P186-187,191)【关键词】空间向量模型;查询;信息检索;文档相关性【作者】刘敏娜【作者单位】咸阳师范学院信息工程学院,陕西咸阳712000【正文语种】中文【中图分类】TN911.7-340 引言向量空间模型是一种算法,处理对象是查询Q和文档集合{D1,D2,…,Dn},通过算法计算每篇文档Di(1≤i≤n)和这个查询的相似度SC(Q,Di)。
向量空间模型在文本处理中的应用随着互联网和数字化时代的到来,人们对信息处理的依赖越来越大,海量的文本数据需要被快速准确地处理和存储。
而向量空间模型是一种常用的文本表示方法,可将文本转化为向量形式,为文本处理和分析提供了便利。
本文将介绍向量空间模型的基本概念及其在文本处理中的应用。
一、向量空间模型的基本概念向量空间模型是一种文本表示方法,将文本转化为一个由向量组成的空间。
具体而言,将每个文本表示为一个向量,其中的每个维度表示一个特定的词汇或词汇组合,并给出相应的权重值。
这样,文本的特征就可以被表示为一个向量,便于比较和处理。
例如,下面的两个句子:句子1:今天天气不错,阳光明媚。
句子2:今天下雨了,天气不算好。
通过向量空间模型,可以将这两个句子表示为向量:句子1:(今天, 天气, 不错, 阳光, 明媚) → (1, 1, 1, 1, 1)句子2:(今天, 下雨, 天气, 不算, 好) → (1, 1, 1, 1, 1)其中,每个维度表示一种词汇或词汇组合,而向量中的数值则表示该词汇在文本中出现的频率或者其他权重值,例如TF-IDF等。
二、向量空间模型的应用1. 文本分类对于一个新的文本,可以通过向量空间模型将其表示为一个向量,同时对已有文本进行处理并表示为向量,然后通过计算向量之间的相似度来进行文本分类。
具体而言,可以使用余弦相似度等指标来度量不同文本之间的相似程度,进而分类不同的文本。
2. 文本搜索在搜索引擎中,向量空间模型常用于计算查询语句和文档之间的相似度,以便搜索引擎能够返回最相关的结果。
例如,在谷歌搜索中,用户输入一段查询语句后,谷歌会将查询语句表示为一个向量,并计算其与各个网页之间的相似度,返回最相关的网页。
3. 自然语言处理向量空间模型也被广泛应用于自然语言处理领域,例如文本摘要、文本聚类、文本生成等任务中。
由于向量空间模型能够将文本转化为一个向量表示,因此方便进行各种处理和分析。
三、向量空间模型的优缺点1. 优点向量空间模型能够将文本转化为一个向量表示,这种表示方式相对直观,可以方便地进行各类处理和分析。
基于向量空间模型的文本自动分类系统的研究与实现庞剑锋,卜东波,白硕(中国科学院计算技术研究所,北京100080摘要:随着网络信息的迅猛发展,信息处理已经成为人们获取有用信息不可缺少的工具。
文本自动分类系统是信息处理的重要研究方向,它是指在给定的分类体系下,根据文本的内容自动判别文本类别的过程。
对文本分类中所涉及的关键技术,包括向量空间模型、特征提取、机器学习方法等进行了研究和探讨,并且提出了基于向量空间模型的文本分类系统的结构,并给出了评估方法和实验结果。
关键词:文本分类;中文信息处理;向量空间模型中图分类号:TP391文献标识码:A文章编号:100123695(20010920023204R esearch and Implementation of Text C ategorizationSystem B ased on VSMPANGJian2feng,BU D ong2bo,BAI Shuo(Institute o f Computing Technology,Chinese Academy o fSciences,Beijing100080,ChinaAbstract:In recent years,in formation processing turns m ore and m ore im portant for us to get useful in formation.T ext categ oriza2 tion,the automated assigning of natural language texts to predefined categ ories based on their contents,is a task of increasing im por2 tance.This paper gives a research to several key techniques about text categ orization,including vector space m odel,feature extrac2 tion,machine learning.It als o describes a text categ orization m odel based on VS M,and gives the evaluations and results.K ey w ords:T ext categ orization;Chinese in formation processing;Vector space m odel1引言20世纪90年代以来,Internet以惊人的速度发展起来,它容纳了海量的各种类型的原始信息,包括文本信息、声音信息、图象信息等等。
如何在浩若烟海而又纷繁芜杂的文本中掌握最有效的信息始终是信息处理的一大目标。
基于人工智能技术的文本分类系统能依据文本的语义将大量的文本自动分门别类,从而更好地帮助人们把握文本信息。
近年来,文本分类技术已经逐渐与搜索引擎、信息推送、信息过滤等信息处理技术相结合,有效地提高了信息服务的质量。
2问题描述211系统任务简单地说,文本分类系统的任务是:在给定的分类体系下,根据文本的内容自动地确定文本关联的类别。
从数学角度来看,文本分类是一个映射的过程,它将未标明类别的文本映射到已有的类别中。
该映射可以是一一映射,也可以是一对多的映射,因为通常一篇文本可以同多个类别相关联,用数学公式表示如下: f:A→B其中,A为待分类的文本集合,B为分类体系中的类别集合。
文本分类的映射规则是系统根据已经掌握的每类若干样本的数据信息,总结出分类的规律性而建立的判别公式和判别规则;然后在遇到新文本时,根据总结出的判别规则,确定文本相关的类别。
212评估方法因为文本分类从根本上说是一个映射过程,所以评估文本分类系统的标志是映射的准确程度和映射的速度。
映射的速度取决于映射规则的复杂程度,而评估映射准确程度的参照物是通过专家思考判断后对文本的分类结果(这里假设人工分类完全正确并且排除个人思维差异的因素。
与人工分类结果越相近,分类的准确程度就越高。
这里隐含了评估文本分类系统的两个指标:准确率和查全率。
准确率是所有判断的文本中与人工分类结果吻合的文本所占的比率,其数学公式表示如下:准确率(Precision=分类的正确文本数实际分类的文本数查全率是人工分类结果应有的文本中分类系统吻合的文本所占的比率,其数学公式表示如下:查全率(Recall=分类的正确文本数应有文本数准确率和查全率反映了分类质量的两个不同方面,两者必须综合考虑,不可偏废。
因此,存在一种新收稿日期:2000212221的评估指标—F1测试值,其数学公式如下:F1测试值=准确率・查全率・2准确率+查全率另外,有微平均和宏平均两种计算准确率、查全率和F1值的方法。
微平均:计算每一类的准确率、查全率和F1值。
宏平均:计算全部类的准确率、查全率和F1值。
所有文本分类系统的目标都是使文本分类过程更准确,更快速。
3关键技术311文本的表示计算机并不具有人类的智能,人在阅读文章后,根据自身的理解能力可以产生对文章内容的模糊认识;而计算机并不能轻易地“读懂”文章,从根本上说,它只认识0和1,所以必须将文本转换为计算机可以识别的格式。
根据“贝叶斯假设”,假定组成文本的字或词在确定文本类别的作用上相互独立,这样,可以就使用文本中出现的字或词的集合来代替文本。
不言而喻,这将丢失大量关于文章内容的信息,但是这种假设可以使文本的表示和处理形式化,并且可以在文本分类中取得较好的效果。
目前,在信息处理方向上,文本的表示主要采用向量空间模型(VS M。
向量空间模型的基本思想是以向量来表示文本:(W1,W2,W3,…,Wn,其中Wi为第i个特征项的权重。
那么选取什么作为特征项呢?一般可以选择字、词或词组。
根据实验结果,普遍认为选取词作为特征项要优于字和词组,因此,要将文本表示为向量空间中的一个向量,就首先要将文本分词,由这些词作为向量的维数来表示文本。
最初的向量表示完全是0,1形式,即:如果文本中出现了该词,那么文本向量的该维为1,否则为0。
这种方法无法体现这个词在文本中的作用程度,所以0,1逐渐被更精确的词频代替,词频分为绝对词频和相对词频。
绝对词频,即使用词在文本中出现的频率表示文本;相对词频为归一化的词频,其计算方法主要运用TF2I DF公式。
目前存在多种TF2I DF公式,我们在系统中采用了一种比较普遍的TF2I DF公式:W(t,d=tf(t,d×log(N/n t+0101∑t∈d[tf(t,d×log(N/n t+0101]2其中,W(t,d为词t在文本d中的权重,而tf(t,d为词t 在文本d中的词频,N为训练文本的总数,n t为训练文本集中出现t的文本数,分母为归一化因子。
另外还存在其它的TF2I DF公式,例如:W(t,d=(1+log2tf(t,d×log2(N/n t∑t∈d[1+log2tf(t,d×log2(N/n t]2该式中参数的含义与上式相同。
文本经过分词程序分词后,首先去除停用词,合并数字和人名等词汇;然后统计词频,最终表示为上面描述的向量。
312特征项的抽取构成文本的词汇,数量是相当大的,所以,表示文本的向量空间的维数也相当大,可以达到几万维。
因此我们需要进行维数压缩的工作,这样做的目的主要有两个:第一,为了提高程序的效率,提高运行速度;第二,所有几万个词汇对文本分类的意义是不同的,一些通用的、各个类别都普遍存在的词汇对分类的贡献小;在某特定类中出现比重大而在其它类中出现比重小的词汇对文本分类的贡献大。
为了提高分类精度,对于每一类,我们应去除那些表现力不强的词汇,筛选出针对该类的特征项集合,存在多种筛选特征项的算法,如下所列:(1根据词和类别的互信息量判断(2根据词熵判断(3根据K L距离判断在我们的系统中采用了词和类别的互信息量进行特征项抽取的判断标准,其算法过程如下:①初始情况下,该特征项集合包含所有该类中出现的词。
②对于每个词,计算词和类别的互信息量logP(W|C jP(W其中,P(W|Cj=1+∑|D|i=1N(W,d i|V|+∑|V|s=1∑|D|i=1N(W s,d iP(W|C j为W在C j中出现的比重,|D|为该类的训练文本数,N(W,d i为词W在d i中的词频,|V|为总词数,∑|V|s=1∑|D|i=1N(W s,d i为该类所有词的词频和。
而P(W同上面的计算公式相同,只是计算词在所有训练文本中的比重,其中,|D|为全体训练文本数。
③对于该类中所有的词,依据上面计算的互信息量排序。
④抽取一定数量的词作为特征项。
具体需要抽取多少维的特征项,目前无很好的解决方法,一般采用先定初始值,然后根据实验测试和统计结果确定最佳值。
一般初始值定在几千左右。
⑤将每类中所有的训练文本,根据抽取的特征项进行向量维数压缩,精简向量表示。
其它抽取特征项的算法,除判断函数上有所差别外,主要过程类似。
313训练方法与分类算法训练方法和分类算法是分类系统的核心部分,目前存在多种基于向量空间模型的训练算法和分类算法,例如,支持向量机算法、神经网络方法、最大平均熵方法、最近K邻居方法和贝叶斯方法等等。
以下具体介绍三种分类算法:(1简单向量距离分类法该方法的分类思路十分简单,根据算术平均为每类文本集生成一个代表该类的中心向量;然后在新文本来到时,确定新文本向量,计算该向量与每类中心向量间的距离(相似度;最后判定文本属于与文本距离最近的类。
具体步骤如下:①计算每类文本集的中心向量;计算方法为所有训练文本向量简单的算术平均。
②新文本到来后分词,将文本表示为特征向量。
③计算新文本特征向量和每类中心向量间的相似度,公式为:S im(d i,d j=∑Mk=1W ik×W jk (∑Mk=1W2ik(∑Mk=1W2jk其中,d i为新文本的特征向量,d j为第j类的中心向量,M为特征向量的维数,W k 为向量的第K维。
④比较每类中心向量与新文本的相似度,将文本分到相似度最大的那个类别中。
(2贝叶斯算法该算法的基本思路是计算文本属于类别的概率。
文本属于类别的几率等于文本中每个词属于类别的几率的综合表达式,具体算法步骤如下:①(ω1,ω2,ω3,…,ωn,其中,W k=P(W k|C j=1+∑|D|i=1N(W k,d i|V|+∑|V|s=1∑|D|i=1N(W s,d i计算公式与计算互信息量的公式相同。
②在新文本到达时,根据特征词分词,然后按下面的公式计算该文本d i属于类C j的几率:P(C j|d i・^θ=P(C j|^θПn k=1P(W k|C j;^θN(W k,d i∑|C|r=1P(C r|^θПn k=1P(W k|C r;^θN(W k,d i其中,P(C j|^θ=C j 训练文档数总训练文档数P(C r|^θ为相似含义,|C|为类的总数,N(W k,d i为W k在d i中的词频,n为特征词总数。