当前位置：文档之家› 基于改进VSM的Web文本分类方法

基于改进VSM的Web文本分类方法

基于改进VSM的Web文本分类方法*

胡晓王理潘守慧

【摘要】摘要Web文本自动分类技术是Web文本挖掘的关键技术之一。针对Web文档中不同标签中的文本具有不同的表达文档内容的能力,提出了改进的特征项加权计算方法。根据特征项在文档中的位置和出现频率计算其权值,并给出了具体的Web文本分类算法和评测方法。经实验验证,改进后系统的微平均查准率均大于0.8,分类性能明显好于改进前。

【期刊名称】情报杂志

【年(卷),期】2010(029)005

【总页数】4

【关键词】关键词 Web文本分类向量空间模型 VSM 文本挖掘

随着信息化进程的不断加快,Internet已成为人们获取信息的一个重要途径。越来越多的组织、机构和个人选择互联网作为信息的发布平台,使得互联网上的Web文档的急剧增加,如何对这些海量的Web文档进行分类是一个十分重要的问题。文本分类是指将给定的文本划分到一个或多个预先定义的类(或主题)的处理过程。文本分类方法可分为两种类型:人工分类方法和自动分类方法。前一种分类方法简单、形象、直观,但费时费力,在面对大规模文本分类时变得无所适从;此外,由于每个人的知识和经验都有一定的局限性,受此影响,很难保证文本分类的准确性和一致性。而后一种方法的分类速度较快、准确率相对较高,适合处理大规模文本,但技术相对比较复杂。

文本自动分类技术(Text Categorization,TC)[1]是一项十分重要的智能信息处理技术,也是处理、组织和管理大规模文本数据的关键技术,其在信息过滤、信息检