基于商空间的向量空间模型文本分类方法

格式：pdf
大小：251.04 KB
文档页数：3

下载文档原格式

基于向量空间模型的中文文本层次分类方法研究

ｌｖｌｎｈｎｍｏｉｅｔｅｎｍｂｒａｏｇｗｔｒｅｇｔｇｍｅｈｄａｃｒｉｇｙｅｅ，ａｄｔｅｄｆｆａｕｕｅｎｉｔｍｗｉｈｉｔｏｃｏｄｎｌ；ＨＴｇｒｈｉｔｇａｅｏｅｈｒｅｔｒｙｒｌｈｅｎＣａｏｔｍｎｅｒｔｓｔｇｔｅｎｅｌｉｃ
ｒｓｅｔｖｌ．Ｆｎｌ，ｅｐｒｎｓｌｓｓｏｔａｈｅｐｒａｈ，ｐｐｓｄｉｈｓｐｐｒｏｔｅｏｍｓｐａｎｏｅｅｃｅｐｃｉｅｙｉａｌｙｘｉｅｍｅｔｒｕｔｈｗｈｔｔｅｎｗａｐｃｅｏｏｒｏｅｎｔｉａ，ｕｐｒｒｌｉｒｇｎｒｅｆｉｈｅａｃｉａｔｏｓｗｉｍｐｏｅｃｕａｙｉｒｒｈｃｍｅｈｔｉｒｖｄａｃｒｃ．ｌｄｈ
维普资讯
第２６卷第５期
２００６年５月
文章编号：０１— ０１２０）５—１２０１０９８（０６０１５— ２
计算机应用
ＣｏｕｔｒＡｐｌａｉｎｓｍｐｅｐｉｔｃｏ
Ｖｌ２ｏ５ｏ＿６Ｎ．
ＨｉｒｒｈｃｌｃｔｇｒｚｔｎｍｅｈｄｆＣｉｅｅｔｘａｅｎｖｃｏｐｃｄｌｅａｃｉａａｅｏｉａｉｔｏｓｏｈｎｓｅｔｂｓｄｏｅｔｒｓａｅｍｏｅｏ
ＸＩｅＨＥＺｏｇｓｉＡＯＸｕ，ｈｎ —ｈ
ｂｔｆｔｒｓｌｔｎａｄｃｔｏｚｔｎｍｔｏ，ｅｅｏ，ｅｔｅＤａＳｌｃｏＦＳ，ｎｄａｇｒｈｆｏｅｕｅｅｃｉａｇｒａｏｅｈｄｈａｅｏｎｅｉｉａｎｗｍｔｄｈＦａｒｕ－ｅｅｔｎ（Ｄ）ａａｏｔｏｕｌｉｎｌｉｍ

基于向量空间模型的公文分类系统研究与实现

利用当前流行的平台技术和设计架构的高校办结果。
公系统已趋于成熟，得了很好的应用价值，大程取极
度上实现了办公管理的ｔ动化、息化、ｔ信网络化要
１文本分类技术
．求，而智能化程度却较低。本文针对办公信息管１１文本分类技术研究现状然理的这一要求，点研究了贝叶斯文本分类技术在重
系统中公文分类的应用。提出了一种基于向量空间模型的贝叶斯文本分类技术并将其应用到高校公文智能办公系统的实现
中，给出了详细的算法流程及设计步骤，最后给出了示例的实验结果及分析。实验结果表明，当训练集合数目有限时，方法该
ＲｅｅｒｈｎｍｐｅｅｔｔｏｆＤｏｕｍｅｔＣｌｓｉｃｔｏｓａｃａｄＩｌｍｎａｉｎｏｃｎａｓｆａｉｎｉ
ＳｓｅｓｄＯｎＶｅｔｒＳｐｃｏｌｙｔｍＢａｅｃｏａｅＭｄｅ
ＴＯＱｕ—ｘａｇＹｉＡｉｉｎ，ＵＪｎ—ｋ，ＵＪ —ｌｎｅＴｉｉｇａ
（ａｃａｇＨｎＫｎｎｅｉ，ａｃａｇＪａｇｉ３０３ｈｎ）ＮｎｈｎａｇｏｇＵｉｒｔＮｎｈｎ，ｉｎｘ３０６，Ｃｉａｖｓｙ
ｉｆｒｔｎｔｃｎｌｇｎｔｅｏｆｅｓｓｅ．ＡｙｓｔｘｌｓｉｃｔｎｔｃｎｑｅｂｓｄｏｅｔｒｓａｅｍｏｅｓｐｔｆｒａｄａｄｉｎｏｍａｉｅｈｏｏｙｉｈｆｃｙｔｍｓｏｉＢａｅｅｔｃａｓｆａｉｅｈｉｕａｅｎｖｃｏｐｃｄｌｉｕｏｗｒｎｓｉｏ

基于向量空间模型的文本分类研究

目录1 绪论 (1)1.1 研究意义 (1)1.2 文本分类的研究现状 (2)1.3 论文的研究内容及组织结构 (5)2 文本分类相关技术 (6)2.1 文本分类过程 (6)2.2 文本预处理 (7)2.3 特征降维 (8)2.4 文本表示 (9)2.5 分类算法 (11)2.6 分类性能的评价 (11)2.6.1 文本分类语料库与测试方法 (11)2.6.2 评价指标 (12)2.7 本章小结 (13)3 特征选择方法研究 (14)3.1 几种常用的特征选择方法 (14)3.1.1 文档频率 (14)3.1.2 互信息 (14)3.1.3 信息增益 (15)3.1.4 统计量CHI (16)2χ3.2 改进的互信息特征选择方法 (16)3.3 特征选择方法的实验分析 (17)3.4 本章小结 (21)4 基于蚁群聚类的文本分类算法 (23)4.1 几种常用文本分类算法 (23)4.1.1 类中心向量算法 (23)4.1.2 朴素贝叶斯算法 (24)4.1.3 支持向量机 (25)4.1.4 KNN 算法 (29)4.2 蚁群聚类 (31)4.2.1 聚类 (31)4.2.2蚁群聚类 (32)4.3 基于蚁群聚类的KNN分类算法 (35)4.4 分类算法的实验分析 (37)4.5 本章小结 (42)5 文本分类系统的设计与实现 (43)5.1 文本分类系统总体设计 (43)5.2 系统实现 (43)5.2.1训练模块 (44)5.2.2分类模块 (47)5.3 本章小结 (49)6 全文总结及未来工作展望 (50)6.1 全文总结 (50)6.2 工作展望 (50)参考文献 (52)致谢 (55)1 绪论1.1 研究意义随着计算机技术和网络技术的飞速发展，包括文本信息在内的各种信息资源呈现爆炸式增长。

面对如此庞大而且急剧膨胀的信息海洋，如何高效地组织和管理这些信息，并快速、准确、全面地从中搜索到用户所需要的信息是当前信息科学与技术领域面临的一大挑战[1]。

文本处理中的向量空间模型

向量空间模型在文本处理中的应用引言在信息检索和自然语言处理领域，向量空间模型是一种常用的文本表示方法。

它将文本转换为向量形式，通过计算向量之间的相似度来实现文本分类、聚类和检索等任务。

本文将详细介绍向量空间模型在文本处理中的原理、应用和优化方法。

1. 向量空间模型的原理向量空间模型基于词袋模型，将文本表示为一个高维向量。

每个维度代表一个词语，而向量中的值表示该词语在文本中出现的次数或权重。

通过这种方式，可以捕捉到不同词语在文本中的重要性和关联性。

具体而言，向量空间模型包括以下步骤：1.文本预处理：去除停用词、标点符号等无关信息，并进行词干化或词形还原等操作。

2.构建词典：将所有文档中出现过的词语构建成一个词典。

3.文档表示：对每个文档进行向量化表示，常见的方法有计算词频（TermFrequency）或使用TF-IDF（Term Frequency-Inverse DocumentFrequency）对词频进行加权。

4.向量相似度计算：通过计算向量之间的余弦相似度或欧氏距离等指标，来度量文本之间的相似性。

2. 向量空间模型的应用向量空间模型在文本处理中有广泛的应用，包括但不限于以下几个方面：2.1 文本分类文本分类是将文本分为不同类别的任务。

向量空间模型可以将每个文档表示为一个向量，并使用分类算法（如朴素贝叶斯、支持向量机等）进行分类。

通过对训练集进行学习，可以构建一个分类器，用于对新文档进行分类。

2.2 文本聚类文本聚类是将相似的文档分到同一类别的任务。

向量空间模型可以通过计算向量之间的相似度，将相似的文档聚在一起。

常见的聚类算法有K-means、层次聚类等。

2.3 文本检索文本检索是根据用户输入的查询词，在大规模文本库中找到相关文档的任务。

向量空间模型可以将用户查询和每个文档表示为向量，并计算它们之间的相似度。

通过排序相似度得分，可以返回与查询最相关的前几个结果。

2.4 信息抽取信息抽取是从文本中提取结构化信息的任务。

基于词向量空间模型的中文文本分类方法

维普资讯
第３０卷第１０期２００７年１０月
合肥工业大学学报（自然科学版）
ＪＯＵＲＮＡＬＯＦＥＨＦＥＩＮＩＵＶＥＲＳＴＹＩＯＦＴＥＣＨＮＯＬＯＧＹ
Ｖｏ．０Ｎｏ１１３．０
ｐｅｅｔｄｍｅｈｄｈｓｈｇｅｒｃｓｏｎｆｉｉｎｙｒｓｎｅｔｏａｉｈｒｐｅｉｉｎａｄｅｆｅｃ。ｃ
Ｋｅｒｓｔｘａｅｏｉａｉｎ；ｖｃｏｐｃｏｅ；Ｋ — ｅｒｓｅｇｂｒｙｗｏｄ：ｅｔｃｔｇｒｔｏｚｅｔｒｓａｅｍｄｌｎａｅｔｎｉｈｏ；ｗｏｄｖｃｏｐｃｄｌｒｅｔｒｓａｅｍｏｅ
似度。实验证明，；向量空间模型；Ｋ＿最近邻居；向量空间模型词
中图分类号：Ｐ８Ｔ１２文献标识码：Ａ文章编号：０３５６（０７１—２１０１０ —００２０）０１６ —４
摘
要：大多文本分类方法是基于向量空间模型的，基于这一模型的文本向量维数较高，导致分类器效率难以
提高。针对这一不足，该文提出基于词向量空间模型的文本分类方法。其主要思想是把文本的特征词表示成空间向量，通过训练得到词一类别支持度矩阵，据待分文本的词和词— 根类别支持度矩阵计算文本与类别的相
文本分类是指把一组预先由专家分类过的文本作为训练集，对训练集进行分析得出分类模式，用导出的分类模式对其他文本加以分类＿。它主１］要应用于信息检索、机器翻译、自动文摘及信息过

一种改进的基于VSM的文本分类算法

。
要：在文本分类中，向量空间模型（Ｓ￣ＶＭ）
用；其它部分采用基本的向量空间模型方法进行计算。这两部分的计算结果进行加权求和，对对来综合判行了测试，实验结果表明改进的方法提高了分类的精确率、召回率和Ｆ测试值。１
到类别的映射。目前，基于机器学习的英文文本分类已经取
揭示其内容的独立属性，而每个属性都可以看成是概念空间的
一
个维数，些独立属性称为文本特征项，这文本就可以表示为
这些特征项的集合。因此文本就可以表示成形如ｄ（ｗ；；－ｔｗ－，
一
种改进的基于ＶＳ的文本分类算法Ｍ
张彰，樊孝忠
（北京理工大学计算机科学系，北京１０８）００１
摘
的文本表示形式，是它把文本看作词袋，但忽略了文本的结构信息通过区别对待文本的不同部分来改进基本的向量空间方法：于标题和段落首尾句采用核心词共现的方法来计算其对分类的作对
０引言
随着互联网在全球范围内的快速发展，人们面临的信息呈指数增加。在人们所面临的信息中７０％以上是文本信息，因此对文本信息的处理技术尤为重要。分类是组织和管理信息的一个有效的手段，将信息进行分类可以方便人们对信息的浏览、查找、使用。文本分类是指根据文本的内容，和由计算机根据某种算法，把文本判别到预先定义好的类别，即文本
维普资讯

文本相似度算法基本原理

文本相似度算法基本原理文本相似度算法是指对两个文本进行比较，评估它们之间的相似程度的一种方法。

在文本处理的相关领域中，文本相似度算法被广泛应用于引擎、信息检索、文本聚类、文本分类、文本摘要等任务中。

本文将介绍几种常见的文本相似度算法的基本原理。

一、基于词频统计的文本相似度算法最简单的文本相似度算法之一是基于词频统计的算法。

该算法通过统计两个文本中共同出现的词语的个数，并计算它们的相似度。

算法的基本步骤如下：1.分词：将待比较的文本进行分词，将文本划分为一组词语。

2.统计词频：统计每个词在两个文本中出现的次数。

3.计算相似度：根据词频计算相似度。

常用的相似度度量方法包括余弦相似度、欧氏距离等。

这种方法的优点是简单直观，计算效率高。

但是它忽略了词语的顺序和上下文信息，无法有效处理一词多义、词序不同的情况。

二、基于向量空间模型的文本相似度算法向量空间模型是一种常见的文本表示方法，它将文本表示为一个高维向量，通过计算向量之间的距离或相似度来度量文本之间的相似程度。

基于向量空间模型的文本相似度算法的基本步骤如下：1.文本表示：将文本转化为向量表示。

常用的方法包括词袋模型和TF-IDF模型。

词袋模型将文本中的词语组成一个向量，向量的每个维度对应一个词语，维度值为该词在文本中的词频。

TF-IDF模型在词袋模型的基础上，通过加权计算，考虑了词语在文本集合中的重要性。

2.计算相似度：根据向量表示计算文本的相似度。

常用的相似度度量方法包括余弦相似度、欧氏距离、曼哈顿距离等。

基于向量空间模型的文本相似度算法可以更好地考虑词语的顺序和上下文信息，可以处理一词多义、词序不同的情况。

但是它对文本长度较敏感，对于长文本计算复杂度较高。

三、基于词嵌入的文本相似度算法词嵌入是一种将词语映射到连续向量空间的方法，它可以很好地保留了词语的语义信息。

基于词嵌入的文本相似度算法通过计算词嵌入向量之间的距离或相似度来度量文本之间的相似程度。

向量空间模型在文本分类中的应用

向量空间模型在文本分类中的应用一、引言文本分类是信息检索中的常见任务，它的目标是将一组文本分配到一组预定义的类别中。

实现文本分类的最常用方法之一是向量空间模型（VSM），它是一种基于文本向量表示的技术。

在本文中，我们将探讨向量空间模型在文本分类中的应用，以及如何使用它来构建一个高效的文本分类器。

二、向量空间模型向量空间模型是一种常用的文本表示方法，它将文本表示为一个由特征权重构成的向量，其中每个特征表示一个单词或短语在文本中的出现次数（或词频）。

例如，假设我们的文本是一个句子“the quick brown fox jumps over the lazy dog”，我们可以将它表示为一个向量：the：1quick：1brown：1fox：1jumps：1over：1lazy：1dog：1在向量空间模型中，文本向量的维数通常是词汇表中不同单词的数量，每个向量元素的权重（通常是词频）表示单词出现的次数。

三、文本分类文本分类的主要目的是将文本分配到预定义的类别中。

这些类别可以是任何类型的，如电子邮件分类、新闻文章分类、博客分类等。

在文本分类中，向量空间模型可以通过以下步骤来构建一个分类器：1. 特征提取：将文本转换为向量表示形式。

2. 特征选择：选择最具有信息量的特征。

3. 分类器训练：使用训练集中的文本向量和它们的类别标签来训练一个分类器。

4. 分类：使用训练好的分类器对未标记文本进行分类。

四、向量空间模型的优缺点向量空间模型的主要优点包括：1. 简单直观：向量空间模型直观且容易理解。

2. 易于实现：构建向量空间模型并训练分类器并不需要太多的工程技术。

3. 适用范围广：向量空间模型适用于不同类型的文本分类任务。

向量空间模型的主要缺点包括：1. 维数灾难：通常需要大量的特征数量才能达到较高的分类准确率，这导致了向量维数的急剧增加。

2. 单词不同义性问题：同一个单词可能具有不同的含义，例如“bank”既可以表示河岸，也可以表示银行。

8类lsa作用

8类lsa作用随着科技的发展，自然语言处理领域中的一项重要技术被广泛应用，那就是LSA(Latent Semantic Analysis)。

LSA是一种基于向量空间模型的语义分析方法，它能够自动地对大量的文本进行降维和语义表示。

下面我们将介绍一下LSA的八种主要作用。

1. 文本分类：LSA通过将文本映射到一个低维语义空间，可以在不依赖特定词汇的情况下进行文本分类任务。

通过计算文档之间的相似性，可以将文本分为具有相似语义的不同类别。

2. 信息检索：LSA可以有效提高信息检索的准确性和效率。

它能够根据查询词和文档的语义相似性进行匹配，找到最相关的文档。

3. 问答系统：LSA可以用于问答系统中的问题解析和答案生成。

通过将问题和文档映射到语义空间，可以根据问题的语义匹配找到最相关的答案。

4. 文本摘要：LSA可以根据文档中的重要语义信息自动提取关键句子或关键词，从而生成简洁准确的文本摘要。

5. 情感分析：LSA可以通过计算情感词汇在语义空间的分布来进行情感分析。

通过判断文本在情感空间中的位置，可以确定文本的积极或消极倾向。

6. 语义相似度计算：LSA可以计算两个文本之间的语义相似度。

通过比较文本在语义空间中的距离，可以量化文本的相似程度。

7. 信息聚类：LSA可以将具有相似语义的文本聚类在一起。

通过计算文本之间的相似性，可以自动将文本分成不同的主题或类别。

8. 自动文本生成：LSA可以根据已有文本的语义信息生成新的文本。

通过学习文本的语义模式，可以自动生成符合语义结构的新文本。

LSA作为一种强大的自然语言处理技术，具有广泛的应用前景。

它能够帮助我们更好地理解和分析海量的文本数据，从而实现更智能化的信息处理和应用。

文本处理中的向量空间模型

文本处理中的向量空间模型1. 引言文本处理是自然语言处理领域中的一个重要研究方向，它涉及到对文本进行分析、理解和处理。

在文本处理过程中，向量空间模型（Vector Space Model）是一种常用的数学模型，用于表示和比较文本之间的相似度。

本文将详细介绍向量空间模型的原理、应用以及相关算法。

2. 向量空间模型的原理向量空间模型基于词袋模型（Bag-of-Words Model），将文本表示为一个高维向量。

在这个向量空间中，每个维度对应一个特定的词语或者短语，并记录该词语或短语在文本中出现的频率或权重。

通过计算不同文本之间的向量相似度，可以实现文本分类、信息检索等任务。

具体而言，向量空间模型包括以下几个关键步骤：2.1 文本预处理首先需要对原始文本进行预处理，包括分词、去除停用词、词干提取等操作。

分词将文本划分为单个词语或短语，去除停用词可以过滤掉常见但无实际含义的词语，词干提取可以将不同形式的单词转化为其原始形式。

2.2 构建词典在向量空间模型中，词典是一个关键的组成部分。

词典包含了所有出现在文本中的词语或短语，并为每个词语或短语分配一个唯一的标识符。

通过构建词典，可以将文本转化为向量表示。

2.3 文本向量化文本向量化是指将预处理后的文本转化为向量表示。

常用的方法有基于词频（Term Frequency, TF）和逆文档频率（Inverse Document Frequency, IDF）的统计方法。

TF表示某个词语在文本中出现的频率，IDF表示该词语在整个文集中出现的频率。

通过计算TF-IDF值，可以反映出某个词语在当前文本中的重要程度。

2.4 向量相似度计算在向量空间模型中，可以使用余弦相似度（Cosine Similarity）来衡量不同文本之间的相似度。

余弦相似度定义了两个向量之间的夹角，数值越接近1表示两个向量越相似，数值越接近0表示两个向量越不相似。

3. 向量空间模型的应用向量空间模型在文本处理中有广泛的应用，下面介绍几个常见的应用场景。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

的概念和计算范式，覆盖了所有有关粒度的理论和方法、术技和工具的研究ＩＪ２。凡是在分析问题和求解问题中，应用了
而文本处理的一个核心难题就是向量的高维性，问题也此给分类过程带来了很大的噪声。本文利用基于商空间的粒度
计算理论提出了训练集净化思想，以降低向量维数并消除分
Ｋｅｏｄ：ｑｏｅｔｐｃ；ｇａｕａｔ；ＶｃｏｐｃｄｌＶＭ；ＴｘＣｔｏｚｔｎ（ＣｙｗｒｓｕｔｎａｅｒｎｌｒｙｅｔｒａｅＭｏｅ（Ｓ）ｅｔａｇｒａｏＴ）ｉｓｉＳｅｉｉ
０引言
粒度计算（ｒｎａｏｐｎ
间的粒度理论对基于ＶＭ的分类模型进行改进，出了一种基于商空间的新的ＶＭ分类方法，Ｓ提Ｓ该方法降低了基于
ＶＭ文本分类的向量雏数，高了不同文本之间的辨别能力。Ｓ提关键词：空间；度；量空间模型；本分类商粒向文中图分类号：Ｐ９Ｔ３１文献标志码：Ａ
类过程中的噪声，同时提高了相同文本间的辨别能力。
分组、分类和聚类手段的一切理论和方法都属于粒度计算的范畴Ｊ。粒度计算的模型主要有：基于模糊集合论的词计算模型、于粗糙集理论的粒度计算模型和基于商空问的粒度基计算模型。粒度计算的目的是在误差允许的范围内，尽量找
ｉａｔｏｏｓｎｃａｓｃｔｎｙｕｉｇｇａｕａｉｏｕｉｇｂｓｄｏｕｔｎｐｃｈｏｙｔｅａｔｏｓｐｏｉｅｅｍｐｃｆｎｉｅｏｌｉａｏ，ｂｓｎｒｌｒｙｃｍｐｔａｅｎｑｏｉｔｓａｅｔｅｒ，ｈｕｈｒｒｖｄｄａｎｗｓｆｉｉｎｔｎｅｍｅｈｅｔｃｔｇｒｚｔｎｂｅｎｑｏｉｎｐｃｈｏｙＴｅｅｐｒｎａｅｕｔｓｏｈｔｏｄｃｓｔｅｖｃｏｔｏｔａｅｏｉａｉａｄｏｕｔｔｓａｅｔｅｒ．ｈｘｅｉｄｘｏｓｅｍｅｔｒｓｌｈｗｔｅｍｅｈｄｒｕｅｈｅｔｒｌｓｅ
到计算复杂度最小的并足够满意的可行的近似解－。可认ＩＪ
１相关理论准备
１１商空间理论．
商空间理论是我国学者张钹和张铃研究问题求解时提出的¨ 。其利用子集来表示概念，不同粒度的概念就体现为不
同粒度的子集，一簇概念就构成空间的一个划分。基于商Ｊ空间理论的粒度定义如下。定义三元组（，）Ｔ描述要研究的对象。中：表示问其题的论域・）表示论域的属性，以表示为，： — ｙ其中可，ｌ以是实数集合，，可可以是ｎ维空间Ｒ的集合，也可以是更一
ｄｍｅｓｏｆｔｘａｅｏｉａｉｎｂｅｎＶＳａｄｉｃｅｓｓｔｅｄｓｒｎｔｇａｉｔｍｏｇｄｆｒｎｅｔ．ｉｎｉｎｏｅｔｃｔｇｒｔａｄｏＭｎｎｒａｅｈｉｃｉａｉｂｌｙａｎｉｅｅｔｔｘｓｚｏｓｍｉｎｉ
Ｖｅｔｒ－ｐｃ・ｏｌｔｘａｅｏｉａｉｎｅｈｄｂａｅｎｕｏｉｎｐｃｈｅｒｃｏ－ａｅ－ｄｅｅｔｃｔｇｒｚｔｏｍｔｏｓｄｏｑｔｅｔｓａｅｔｏｙｓｍ
ＨＵＡＮＧｉｎｔｏＪａ．ａ
（ｏｌｅｆＩｏｍｔｎＳＯｃｎｅｎｌｇ，ｒｗｓｅｎｖｒｔ，ｉｎＳａｎｉ１１７ｈｎ）ＣｌｇｎｒａｉｃｎｅａｄＴｃｏｏｙＮｏｈｅｔｎＵｉｓｙＸ＇ｈａｘ０２，Ｃｉｅｏｆｏｈｔｒｅｉａ７ａ
Ａｓｒｃ：Ｔｄｃｈｅｔｉｅｓｎｏｅｔａｅｏｚｔｎ（ＣａｅｎＶｃｏｐｃｄｌＶＭ）ａｄｔｅｂｔｔｏｒｕｅｔｅｖｃｏｄｍｎｉｆｘＣｔｒａｉＴ）ｂｓｄｏｅｔｒａｅＭｏｅ（ＳａｅｒｏＴｇｉｏＳｎｈ
第３１卷增刊２
２１０１年１２月
计算机应用
ＪｕｎｌｏｏｕｅｐｉａｉｎｏｒａｆＣｍｐｔｒＡｐｌｔｓｃｏ
Ｖ１３ｕｐ．ｏ．１Ｓｐ１２Ｄｅ．０１ｃ２１
文章编号：０１－０１２１）２０６０１０９８（０１ｓ－０７— ３
为粒度计算就是降低计算复杂度的有效工具］。
基于商空间的向量空间模型文本分类方法
黄剑韬
（西北大学信息与科学技术学院，西安７０２）１１７
（ｉｈｌｂ＠１３ｃｒ）ｍｃｅｃ６．ｏｈｎ
摘
要：了降低基于向量空间模型（Ｓ的文本分类方法的向量维数，减少噪声对分类的影响，利用商空为ＶＭ）并现

基于商空间的向量空间模型文本分类方法

合集下载

基于向量空间模型的中文文本层次分类方法研究

基于向量空间模型的公文分类系统研究与实现

基于向量空间模型的文本分类研究

文本处理中的向量空间模型

基于词向量空间模型的中文文本分类方法

一种改进的基于VSM的文本分类算法

文本相似度算法基本原理

向量空间模型在文本分类中的应用

8类lsa作用

文本处理中的向量空间模型

文档推荐

最新文档