基于特征值提取文本分类实施方案
- 格式:docx
- 大小:128.06 KB
- 文档页数:9
文本分类方法总结李荣陆(复旦大学计算机与信息技术系,上海,200433)E-mail: lironglu@一、Swap-1方法1,特点:特征选择:将只在某一类中出现的词或短语作为这一类的特征,词频作为权重。
二、n-gram方法1,N-Gram-Based Text Categorization(1)特点:n-gram项的生成:为了得到字符串中结尾部分的字符串,对不够n的字符串追加空格。
如:Text的3-gram项为_Te、Tex、ext、xt_、t__。
类的表示:先计算类别中所有训练文本的n-gram项的词频,然后按词频对其由大到小进行排序,最后保留从第n(实验中等于300)项开始的k个n-gram项作为此类的特征值。
相似度计算:(2)优点:容错性强,可以允许文本中有拼写错误等噪声。
(3)用途:区分测试文档是何种语言,即语言分类;自动文本分类2,CAN Bayes(Chain Augmented Naive Bayes)Bayes 分类器是一个性能很好的线性分类器,但是它假设文档的每个分类特征属性间是相互独立的,这显然是不成立的。
假设d i ={w i1,w i2,…,w in }为一任意文档,它属于文档类C ={c 1, c 2,…, c k }中的某一类c j 。
根据Bayes 分类器有:)()|()()()|()|(j j i i j j i i j c P c d P d P c P c d P d c P ∝=,其中∏==rk j ik j i c w P c d P 1)|()|(。
如果使用Bayes 网络来描述特征属性间的联系,则失去了Bayes 模型的简单性和线性特征。
我们使用了统计语言学中的N-Gram 模型,它假设一个词在文档中某个位置出现的概率仅与它之前的n-1个词有关,即:)|()|(11121--+--=i n i n i i i i w w w w P w w w w P 。
奇异值分解(Singular Value Decomposition,简称SVD)是一种矩阵分解的方法,广泛应用于数据分析、机器学习和自然语言处理等领域。
在文本分类问题中,利用SVD可以帮助我们提取文本数据中的重要特征,从而实现更精准的分类和预测。
一、奇异值分解的基本原理奇异值分解是将一个矩阵分解为三个矩阵的乘积的过程,即将矩阵A分解为A=UΣV^T,其中U和V是正交矩阵,Σ是对角矩阵。
在文本分类中,我们可以将文档-词项矩阵进行SVD分解,从而得到文档和词项的隐含语义表示。
二、奇异值分解在文本分类中的应用1. 降维和压缩在文本分类问题中,文档-词项矩阵往往非常稀疏,并且维度较高,这给分类算法的计算和存储带来了挑战。
利用SVD可以将原始的文档-词项矩阵进行降维和压缩,去除噪音和冗余信息,提取出最重要的特征,从而减少计算复杂度,并且提高分类的准确性。
2. 隐含语义分析SVD可以帮助我们挖掘文本数据中的隐含语义信息,从而更好地理解文本的内在含义。
通过SVD分解得到的U矩阵和V矩阵可以看作是文档和词项的隐含语义表示,可以帮助我们发现文档和词项之间的关联和相似性,从而实现更精准的分类和聚类。
3. 特征选择和权重调整利用SVD分解后得到的U矩阵和Σ矩阵,我们可以根据特征值的大小选择最重要的特征,进行特征选择和权重调整。
这可以帮助我们提取出最具代表性的特征,改善文本分类算法的性能,并且提高分类的准确率和效率。
三、奇异值分解在文本分类中的实际应用奇异值分解在文本分类中已经得到了广泛的应用。
在自然语言处理领域,诸如Latent Semantic Analysis(LSA)和Latent Dirichlet Allocation(LDA)等方法都是基于SVD的文本分类技术。
在机器学习和数据挖掘领域,利用SVD进行特征提取和降维也是常见的做法。
在新闻分类、情感分析、文档聚类等任务中,利用SVD可以帮助我们更好地理解文本数据,发现文本数据中的规律和模式,从而实现更精准的分类和预测。
大数据特征提取与选取算法研究随着大数据时代的到来,数据量不断增长,使得数据分析和处理变得日益复杂和困难。
而特征提取与选取算法作为数据分析领域的关键技术,在大数据分析中起着重要的作用。
特征提取与选取算法是从原始数据中提取和选择出最具有代表性和区分度特征的过程。
它们能够将海量的数据转化为更加具有意义的特征集合,使得数据分析和机器学习等任务更加高效和精确。
在本文中,将对大数据特征提取与选取算法进行研究和探讨。
一、特征提取算法研究特征提取算法主要是通过对原始数据进行变换和降维,提取出具有代表性的特征子集合。
在大数据环境下,常见的特征提取算法包括主成分分析(PCA)、独立成分分析(ICA)和线性判别分析(LDA)等。
1. 主成分分析(PCA)主成分分析是一种常用的特征提取算法,它通过线性变换将原始数据转化为新的正交特征向量。
这些特征向量是按照方差的大小排序的,因此前k个特征向量对应的特征值较大,具有更多的信息量。
主成分分析能够减少数据的维度,并尽量保留原始数据的信息。
2. 独立成分分析(ICA)独立成分分析是一种能够将多个随机变量分解为相互独立的子变量的统计方法。
在大数据分析中,ICA能够对数据进行非线性变换,提取出相互独立的特征子集合。
与PCA相比,ICA能够捕捉到数据的非高斯性质,因此更适用于处理非线性的大数据。
3. 线性判别分析(LDA)线性判别分析是一种具有监督学习的特征提取算法,它能够最大限度地提取类别间的差异性。
LDA通过将数据投影到一个低维的子空间中,在保留类别信息的同时,最大化类别间的差异性,使得特征子集合更加具有判别性。
这使得LDA在人脸识别、图像分类等领域有着广泛的应用。
二、特征选取算法研究特征选取算法是在原始数据中选择最有用和与目标变量相关的特征。
在大数据环境下,特征选取算法能够减少数据的维度,提高数据分析的效率和准确性。
常用的特征选取算法包括卡方检验、信息增益和互信息等。
1. 卡方检验卡方检验是一种统计方法,用于判断两个离散变量之间是否存在相关性。
基于信息增益的文本分类技术研究在现今互联网普及的时代,海量的信息让人们在信息获取和处理上变得更加困难,文本分类技术应运而生,成为了信息处理的重要手段。
特别是在大数据时代,对语言文本进行分类已成为研究热点,而基于信息增益的文本分类技术也逐渐崭露头角,实现了人工智能技术的多个应用领域。
一、信息增益的概念信息增益是信息论中的一个重要概念。
信息是用来消除不确定性的。
在信息处理当中,我们需要找到一种方法来衡量某些事物所代表的信息量。
信息增益是指根据特征属性将已知信息分割成更小的子集所致的不确定性减少量。
信息增益用来描述某个特征对分类结果的影响程度,即特征选择问题。
在线性不可分的情况下,需要进行特征选择,以便得到好的分类结果。
根据信息增益来选择特征具有一定的科学性和可行性,这是一种通过判断特征对分类影响的方法。
二、信息增益在文本分类中的应用文本分类是在计算机科学领域中的自然语言处理中的一个分支,是将文本归类到一个或多个已知类别的过程。
在信息增益算法中,主要应用于文本分类的特征选择问题。
在进行文本分类时,特征选择是十分重要的一步,因为文本分类的结果和选择的特征密切相关。
通过特征选择来确定文本分类的关键词,从而确定分类结果。
选择好的特征,可以提高文本分类精度并减少计算量。
而特征选择通常采用信息熵,信息增益等方法。
在信息增益算法中,通过计算文本集中各分类的信息熵和各特征值对应的条件熵,计算出每个特征值的信息增益来确定最佳特征。
以邮件分类为例,邮件分类常用的特征就有发件人、收件人、主题、内容等。
通过信息增益算法可以确定哪个特征对分类起到最大的作用,并将该特征作为最终权重,从而确定文本分类的结果。
三、信息增益的优点信息增益算法具有多个优点。
首先,信息增益算法可以根据预先设置的特征集,对文本进行快速分类。
它使用基于信息熵的方法来确定最佳特征,并且具有非常高的准确性和效率。
其次,信息增益算法可以用于处理文本集中的海量数据。
ngram算法原理ngram算法是一种基于统计的自然语言处理方法,用于分析文本中的语言模式。
它通过将文本分割成连续的n个字母或单词序列,并计算它们在文本中的出现频率,从而揭示出文本中的潜在规律和关联性。
ngram算法的基本思想是,通过统计文本中连续出现的n个字母或单词的频率,来推断文本的特征和结构。
其中,n被称为ngram的大小,可以是1、2、3等任意正整数。
当n为1时,即为unigram;当n为2时,即为bigram;当n为3时,即为trigram,以此类推。
ngram算法的应用非常广泛,常见的应用包括文本分类、机器翻译、语音识别、信息检索等领域。
在文本分类中,ngram算法可以用于提取文本特征,将文本转化为向量表示,从而实现文本分类任务。
在机器翻译中,ngram算法可以用于建模源语言和目标语言之间的语言模式,从而提高翻译质量。
在语音识别中,ngram算法可以用于建模语音信号的概率分布,从而提高识别准确率。
在信息检索中,ngram算法可以用于计算查询词和文档之间的相似度,从而实现精准的信息检索。
ngram算法的实现步骤主要包括以下几个部分:1. 数据预处理:将文本进行分词或分字处理,得到一系列的单词或字母序列。
2. 统计ngram频率:对于每个ngram(n个连续的字母或单词),统计其在文本中的出现频率。
可以使用哈希表等数据结构来实现高效的频率统计。
3. 特征提取:根据ngram的频率,将文本转化为向量表示。
可以用每个ngram在文本中的频率作为特征值,构成一个特征向量。
4. 模型训练和预测:使用训练数据来训练一个分类器或回归模型,然后使用该模型来预测新的文本。
5. 模型评估:使用测试数据来评估模型的性能,常用的评估指标包括准确率、召回率、F1值等。
ngram算法的优点在于简单易用,能够捕捉文本中的局部信息和上下文关系,适用于各种自然语言处理任务。
然而,ngram算法也存在一些问题,比如数据稀疏性和维度灾难等。
文本分类的关键技术文本分类是一种将文本划分为不同类别的自然语言处理任务,它在信息检索、情感分析、垃圾邮件过滤等领域具有重要应用。
实现文本分类的关键技术包括:特征提取、分类模型选择和模型训练等。
1. 特征提取:特征提取是文本分类的关键技术之一,它通过将文本转化为计算机可处理的向量表示,为后续的分类模型提供输入。
常用的特征提取方法包括词袋模型、TF-IDF模型和Word2Vec 模型等。
- 词袋模型:将文本表示为一个固定大小的向量,其中包含文档中出现的词或短语的频率或存在性。
这种模型忽略了单词的顺序和上下文信息,但在处理大规模文本数据时具有较快的计算速度和较低的内存占用。
- TF-IDF模型:通过计算词的词频(TF)和逆文档频率(IDF)来衡量词的重要性。
TF 表示词在文档中出现的频率,IDF表示词在整个语料库中的重要程度。
TF-IDF模型能够在保留一定上下文信息的降低常见词的权重。
- Word2Vec模型:通过将词映射到一个高维空间中的向量来表示词的语义信息。
该模型通过训练神经网络来学习词之间的关系,使得类似的词在向量空间中距离较近。
Word2Vec模型能够较好地处理语义相似的词,且保留了一定的上下文信息。
2. 分类模型选择:选择合适的分类模型对文本分类的准确性和效果有重要影响。
常用的分类模型包括朴素贝叶斯、支持向量机(SVM)、逻辑回归和深度学习模型等。
- 朴素贝叶斯:基于贝叶斯定理和特征条件独立性的假设,通过计算给定输入的条件下各个类别的概率来进行分类。
朴素贝叶斯模型具有较快的训练速度和较低的内存占用,适用于大规模数据集和高维特征。
- 支持向量机(SVM):通过寻找一个最优的超平面将不同类别的样本分开。
SVM模型具有较高的分类准确性和较好的泛化能力,特别适用于处理高维特征的文本分类任务。
- 逻辑回归:通过建立一个线性的回归模型来进行分类。
逻辑回归模型具有较快的训练速度和较好的模型解释性,适用于二分类和多分类问题。
新闻文本分类算法新闻文本分类算法是一种能够将文本分类成不同类别的算法,是文本挖掘和自然语言处理的重要方面。
新闻文本的分类算法可以将新闻文本划分到具体的类别,使得用户能够更准确地预测新闻内容,提高搜索新闻文本的效率。
一、新闻文本分类算法的类型1.基于统计模型的新闻文本分类算法:采用统计模型考虑新闻文本的特征,通过计算每一个类别的概率来判断文本的类别。
比如朴素贝叶斯分类算法可以将一篇新闻文本判断成某一类别。
2.基于机器学习的新闻文本分类算法:通过采用机器学习的方法,根据数据分析、特征抽取等方式,构建出能够用于分类新闻文本的模型。
比如神经网络模型、支持向量机等深度学习模型可用于新闻文本分类。
3.基于规则的新闻文本分类算法:对新闻文本手动建立一系列判断规则来进行文本分类,比如说建立规则,当某些新闻文本中出现某些特定的关键词时,则可以认为该新闻文本是新闻文本。
二、新闻文本分类算法的实施步骤1.数据采集:收集新闻文本数据,便于后续按照不同类别进行分类。
2.特征提取:对收集的新闻文本进行特征提取,分析文本特征,如词性、词频等,提取出每篇新闻文本的特征值,便于后续分类。
3.模型训练:采用朴素贝叶斯算法或者神经网络等机器学习模型,或者建立一些简单的规则,把特征值和新闻文本的类别相对应,让机器学习算法对训练样本进行训练,结果构建出一个能够对测试样本进行分类的预测模型。
4.评估预测模型:利用测试数据、测试模型,利用各种评估指标来评估模型的准确率,选择最优的模型和参数。
5.应用到实际中:利用构建的预测模型,对实际到新闻文本进行分类,达到用户预期的效果。
总结:新闻文本分类算法是文本挖掘和自然语言处理的重要方面,可以将新闻文本分类到具体的类别,从而让用户能准确地预测新闻内容,提高搜索新闻文本的效率。
新闻文本分类算法类型包括基于统计模型的、基于机器学习的和基于规则的三类,新闻文本分类算法的实施步骤包括数据采集、特征提取、模型训练、评估预测模型和应用到实际中五个部分。
高质量数据集构建、特征提取与处理数据集构建、特征提取与处理在机器学习和数据挖掘中扮演着重要角色,它们直接影响着模型的性能和表现。
本文将从数据集构建、特征提取和特征处理这三个方面进行探讨,以帮助读者更好地理解和应用这些关键技术。
1.数据集构建数据集的构建是机器学习和数据挖掘的第一步,它直接影响着后续模型的训练和性能。
一个高质量的数据集应具有以下特点:全面性、准确性、多样性和一致性。
为了构建一个高质量的数据集,我们可以采取以下步骤:(1)数据收集:首先需要确定需要收集的数据类型,然后根据需求选择合适的数据源进行数据收集。
数据源可以包括数据库、API、网站等。
(2)数据清洗:数据收集完毕后,需要对数据进行清洗,去除重复数据、缺失数据、异常数据等。
数据清洗是保证数据质量的关键步骤。
(3)数据标注:在某些任务中,数据需要进行标注,例如图像分类、文本分类等。
数据标注的质量直接影响着后续模型的性能。
(4)数据划分:将收集到的数据按照一定比例划分为训练集、验证集和测试集,以进行模型的训练、验证和评估。
2.特征提取特征提取是将原始数据转换为可供机器学习算法使用的特征的过程,它涉及到数据的转换、降维、归一化等操作。
一个好的特征提取方法应该能够保留数据的关键信息,提高模型的泛化能力。
常用的特征提取方法包括:(1)数值型特征提取:对于数值型数据,可以采用统计特征提取方法,如均值、方差、最大最小值等。
(2)类别型特征提取:对于类别型数据,可以采用独热编码、标签编码等方法进行特征提取。
(3)文本特征提取:对于文本数据,可以采用词袋模型、TF-IDF 模型、词嵌入模型等进行特征提取。
(4)图像特征提取:对于图像数据,可以采用卷积神经网络(CNN)进行特征提取。
3.特征处理在特征提取之后,还需要对特征进行处理,以提高模型的性能。
常用的特征处理方法包括:(1)特征选择:通过特征选择方法选择对模型有用的特征,剔除冗余特征,减少模型的复杂度。
特征值提取特征值提取是机器学习中一个重要概念。
本文使用概念和基本技术讨论了特征值提取的知识,并给出了它的实际应用。
特征值提取是一门机器学习的概念,它指的是将原始数据集抽取出具有代表性的特征和特征值,以便进行数据分析与处理。
特征值是描述数据集中每个样本特征的值,它们可以是数字型的或类别型的,也可以是两者的混合型。
特征值提取过程以两个步骤:特征抽取和特征表示。
特征抽取是从原始数据集中抽取出有用特征的过程,它包括特征选择和特征构建两个步骤。
特征选择是指从原始数据集中找出与建模目标具有相关性的特征,这些特征才是有用的数据。
特征构建是指从选出的有用特征中构建出新的特征,它可以提高模型性能,但也会降低模型的可解释性。
特征表示是将原始数据转换为可以被机器学习模型理解的数据的过程,它可以分为两部分:特征预处理和特征变换。
特征预处理是指将原始数据中的噪声或不想要的数据进行过滤和清理。
特征变换是指将原始数据转换为可以被机器学习模型理解的合适的数据表示形式,如向量、矩阵等。
为了把特征值提取运用到实际应用中,可以结合其他机器学习算法,如聚类、分类、回归等,以及其他数据处理技术,如数据挖掘、计算机视觉、自然语言处理等,实现一些应用。
比如,在视觉识别方面,可以使用特征值提取技术对原始图像进行处理,从而从图像中提取出有用的特征,实现各种视觉识别技术;在数据挖掘方面,可以使用特征值提取技术抽取出数据中的有用特征,以便进行更进一步的数据分析和处理。
总而言之,特征值提取是一种用于处理数据的技术,它可以把原始数据中的有用特征提取出来,构建出新的特征,有助于更加有效,准确地进行数据处理和分析。
它可以应用于不同领域,如视觉识别,自然语言处理,数据挖掘,以及其他机器学习领域,实现一些实际应用。
多维特征提取多维特征提取是机器学习和数据挖掘中常用的一种方法,它通过从数据中提取多个特征值来描述样本的属性。
在实际应用中,多维特征提取可以用于图像处理、自然语言处理、声音识别等领域。
本文将从理论和实践两个方面介绍多维特征提取的相关内容。
一、多维特征提取的理论基础多维特征提取的理论基础是统计学和模式识别。
在统计学中,特征是指用于描述样本属性的各种数值或变量。
通过多维特征提取,可以将数据从高维空间映射到低维空间,从而减少数据维度,提高模型训练和预测的效率。
在模式识别中,多维特征提取是一种从原始数据中提取有意义的特征,以便更好地描述和区分不同类别的样本。
多维特征提取的方法有很多种,常见的包括主成分分析(PCA)、线性判别分析(LDA)、局部二值模式(LBP)等。
这些方法在不同领域和任务中有不同的应用,但其核心思想都是通过数学模型和算法来提取有效的特征值。
1. 图像处理中的多维特征提取在图像处理中,多维特征提取可以用于图像分类、目标检测等任务。
常用的特征包括颜色直方图、纹理特征、形状特征等。
通过提取这些特征,可以用于训练分类器或检测器,从而实现对图像的自动分析和识别。
2. 自然语言处理中的多维特征提取在自然语言处理中,多维特征提取可以用于文本分类、情感分析等任务。
常用的特征包括词袋模型、TF-IDF特征、Word2Vec等。
通过提取这些特征,可以将文本转化为向量表示,从而方便机器学习算法进行处理和分析。
3. 声音识别中的多维特征提取在声音识别中,多维特征提取可以用于语音识别、音乐分类等任务。
常用的特征包括梅尔频率倒谱系数(MFCC)、线性预测编码(LPC)等。
通过提取这些特征,可以将声音信号转化为向量表示,从而实现对声音的分析和识别。
三、多维特征提取的挑战和改进方法多维特征提取在实际应用中也面临一些挑战。
首先,特征维度较高时,可能导致维度灾难和计算复杂度增加。
其次,特征选择和特征组合是一个关键问题,需要根据具体任务选择合适的特征。
⽂本特征提取---词袋模型,TF-IDF模型,N-gram模型(TextFeatureEx。
假设有⼀段⽂本:"I have a cat, his name is Huzihu. Huzihu is really cute and friendly. We are good friends." 那么怎么提取这段⽂本的特征呢?⼀个简单的⽅法就是使⽤词袋模型(bag of words model)。
选定⽂本内⼀定的词放⼊词袋,统计词袋内所有词在⽂本中出现的次数(忽略语法和单词出现的顺序),将其⽤向量的形式表⽰出来。
词频统计可以⽤scikit-learn的CountVectorizer实现:text1="I have a cat, his name is Huzihu. Huzihu is really cute and friendly. We are good friends."from sklearn.feature_extraction.text import CountVectorizerCV=CountVectorizer()words=CV.fit_transform([text1]) #这⾥注意要把⽂本字符串变为列表进⾏输⼊print(words)⾸先CountVectorizer将⽂本映射成字典,字典的键是⽂本内的词,值是词的索引,然后对字典进⾏学习,将其转换成词频矩阵并输出:(0, 3) 1(0, 4) 1(0, 0) 1(0, 11) 1(0, 2) 1(0, 10) 1(0, 7) 2(0, 8) 2(0, 9) 1(0, 6) 1(0, 1) 1(0, 5) 1(0, 7) 2 代表第7个词"Huzihu"出现了2次。
我们⼀般提取⽂本特征是⽤于⽂档分类,那么就需要知道各个⽂档之间的相似程度。
可以通过计算⽂档特征向量之间的欧⽒距离(Euclidean distance)来进⾏⽐较。
基于特征值提取文本分类方案
————————————————————————————————作者:————————————————————————————————日期:
目录
一、综述 (4)
(一)实现目标 (4)
(二)主要功能 (4)
二、总体架构 (5)
三、各模块建模挖掘层详解 (7)
(一)无监督学习模块 .......................................... 错误!未定义书签。
(二)有监督学习模块 .......................................... 错误!未定义书签。
四、输入层和输出层详解 (9)
(一)输入层 (9)
(二)输出层 (9)
基于特征值提取文本分类设计方案
一、综述
(一)实现目标
本模块实现了对文本文档集合的分类特征值提取。
对输入的分类文档,基于词频、互信息、类别信息的综合特征,从每个分类中挖掘出对应的有效特征值。
该模块还实现了对特征值的权重计算,按照特征词的权重值,构造了分类器。
新增文本可以通过文本分类器进行分类,无法分类的文本可以人工分类后重新执行特征值抽取功能,重新调整特征值,从而达到优化分类器的目的。
该模块由Java编写,可用于任何需要挖掘文本主题的项目中,也可以单独使用。
(二)主要功能
该模块的主要功能包括以下几个方面:
●对原始语料库进行中文分词、去除停用词
●词性过滤,只提取名词,动词
●按类别进行特征词提取
●特征词权重计算
●文本分类
二、总体架构
训练数据
预处理词库停用词
词性过滤
综合特征选择
权重计算
主题权重文件输出(主题名,前N 个特征,特征权重)
待分析数
据
预处理
词库停用词
改进贝叶斯的快速文本分类器
分类结果
输入层
数据挖掘层
输出层
三、挖掘层详解
1. 文本分词
中文分词采用开源的Ansj分词工具,基于中科院的ictclas 中文分词算法,采用隐马尔科夫模型(HMM),比其他常用的开源分词工具(如mmseg4j)的分词准确率更高。
Ansj是一款纯Java的、主要应用于自然语言处理的、高精度的分词工具,目标是“准确、高效、自由地进行中文分词”,可用于人名识别、地名识别、组织机构名识别、多级词性标注、关键词提取、指纹提取等领域,支持行业词典、用户自定义词典。
Ansj实现了用户自定义词典的动态添加删除,当然,也支持从文件加载词典。
用户自定义词典默认路径:项目目录/library/userLibrary/userLibrary.dic。
格式为:[自定义词] [词性] [词频],其中[词性]和[词频]两项可以空缺不写。
本项目在Ansj原本自带的词典(367425条)基础上,扩展了以下词典:
1)从数据库中抽取的电信业务词库(5767条)
2)广深东佛城市信息精选词库(来源:搜狗细胞词库)(62617条)
3)搜狗标准词库(392778条)
4)搜狗精选词库(392507条)
5)搜狗万能词库(362333条)
本模块还提供了从数据库加载词库的功能。
目前整理了以下的数据库版本的词库:
1)公积金领域词(1332条)
2)医保领域词(2503条)
2.词性过滤
代词、连词、介词等的表征能力比较弱,因为一篇文本中的代词、连词或介词对于区分这个文本所属哪个领域几乎没什么参考价值。
为此可以将表征能力很差的词性的词过滤掉。
而名词和动词的表征能力最强,它们是文本中具有代表性的关键词项,因为大量的汉语知识表明,名词和动词是一个汉语句子中的核心部分,它们的简单组合,往往就可以表达出一种中心思想,一种主题。
因此,我们只保留名词和动词,将其他词性的词作为弱词性词过滤掉。
3. 基于词频、互信息、类别信息的综合特征选择
1)词频:平常我们判别一篇文章的类型时,基本方法就是大致浏览一下文章,从文章里出现比较频繁的一些字眼即可判别出文章的类型。
词频最高的前几个词,基本上都是分类能力最强的词。
在中文文本自动分类中,高词频对分类贡献很大。
2)互信息:互信息表示特征与类别之间的相关程度。
当特征的出现只依赖于某一个类别时,特征与该类型的互信息很大;当特征与类型相互独立时,互信为O;当特征很少在该类型文本中出现时,它们之间的互信息为负数,即负相关。
度小的特征对互信息的影响大,使得低频特征具有较大的互信息。
3) 类别信息:
(1)特征项只出现在一个类中,从直观上看,这个特征项非常有价值,因为我们可以从统计规律来确定,只要某文档中出现此特征项,就可以确此文档的类别。
(2)如果特征项出现在两个或多个类当中,但在有些类中没有出现,那么此特征项也是有价值的。
它说明了出现此特征项的文档可能会属于某些类,并不应该属于另一些类。
(3)如果特征项在所有类中都出现了,并且出现的频率比较均,那么这样的特征项对分类就几乎没有价值,应当过滤掉。
也就是说,特征项出现的类别数越少,权重应该越大。
其中:t k为特征词t在q类中出现的词频,MI(t k,C j)为t k与q类的互信息,
N为训练文档集中包含的类别数,C tk为特征项t k出现的类别个数。
4.权重计算
对于特征的权重,我们是从测试文档的角度考虑的。
当一个待测文档与一个别进行比对时,我们往往需要找出待测文档中出现的最能说明它属于该类的词语。
此时我们需要考虑2个因素,一方面是词在c类中的代表性,另一方面是词
在待文章中的代表性。
考虑到以上两个因素,我们选择词的作为衡量词在c类中代表性的标准,选择词在待测文章中出现的次数.
权重= 特征评估值* 词频
5.改进的贝叶斯分类
在文本训练阶段,每类根据特征评估函数选出最能代表类别的前k个特征词,注意在特征提取的候,只是简单的统计在某类文档中出现的频率,并不考虑出现的位置。
在分析阶段,将一篇待分类文档分词后,然后与第一个类别提取出的k 个词进行比对,若出现则计算权值,最后将得到的权值相加,作为文档与该类比较的最终结果。
待文档与所有类别比较完毕后,对最终结果由大到小排序,选出结果最大的作为最终的分类结果。
该算法的基本思想和贝叶斯分类器的思想相同,即计算文本属于类别的概率,文本属于类别的几率等于文本中每个词属于类别的几率的综合表达式。
但本算法提出了一种更有效的特征提取算法来衡量特征词与类别的相关性,并且利用新的权重计算方法来判断测试文本的类别,比传统的贝叶斯算法更加简单有效。
四、输入层和输出层详解
(一)输入层
文本输入允许有三种形式:
1)单个文本文件:将语料库整合为单个文本文件,文件的第一行为语料库
中文档的数量,之后每一行为一篇文档。
附加保存文档ID或标题的文
件,按行一一对应语料库中的文档。
2)数据库:数据库中的纯文本字段也可以作为系统的输入,一条记录表示
一篇文档。
另有字段对应文档的ID。
3)多个文本文件:所有文本表示一个语料库,一个文本文件代表一篇文档,
文件名为文档的ID或标题。
(二)输出层
模块的输出为分类结果,包含以下信息:
文本ID
所属分类名称。