07文本分类与聚类

格式：ppt
大小：1.24 MB
文档页数：105

下载文档原格式

第七讲文本分类与聚类

基于信息增益的分类特征选择
基本思想：借鉴《信息论》中的香农定理，基本思想：借鉴《信息论》中的香农定理，通过考察词 t 在类别 Ci 中出现或不出现的次数（概率）对类别的信息增益程度。或不出现的次数（概率）来衡量词 t 对类别的信息增益程度。
IG (t ) = −∑ P (Ci ) log P (Ci ) + P (t )∑ P(Ci | t ) log P(Ci | t ) + P( t )∑ P (Ci | t ) log P (Ci | t )
i = 1, 2,..., N
式中，tft 表示词 t 在类别 Ci 文本集中出现的频率，N 表示类别总数，dft 文本集中出现的频率，表示类别总数，式中，的类别个数。表示包含词 t 的类别个数。显然，在某一个类别文本中出现频率较高，显然，某词 t 在某一个类别文本中出现频率较高，而在其他类别的文本中几乎不出现，则该词对分类的贡献较大；若某词在所有类别的文本中均出现，几乎不出现，则该词对分类的贡献较大；若某词在所有类别的文本中均出现，则该词对分类几乎不起什么作用。则该词对分类几乎不起什么作用。由此，可设定一个阈值，由此，可设定一个阈值，TF(t,Ci) 计算结果高于阈值的词汇则被选择出来作为文本分类的特征词汇。作为文本分类的特征词汇。也可对上述所有的计算结果由大到小进行排序，也可对上述所有的计算结果由大到小进行排序，然后选择出排序中的前若干个词汇作为文本分类的特征词汇。干个词汇作为文本分类的特征词汇。
基于词频函数的分类特征选择
基本思想：将在一个类别集合中出现频率较高的词汇作为分类的特征词汇。基本思想：将在一个类别集合中出现频率较高的词汇作为分类的特征词汇。可借鉴 tf-idf 加权策略的思想来进行词频统计。 - 加权策略的思想来进行词频统计。

文本分类和聚类有什么区别？

⽂本分类和聚类有什么区别？简单点说：分类是将⼀⽚⽂章或⽂本⾃动识别出来，按照先验的类别进⾏匹配，确定。

聚类就是将⼀组的⽂章或⽂本信息进⾏相似性的⽐较，将⽐较相似的⽂章或⽂本信息归为同⼀组的技术。

分类和聚类都是将相似对象归类的过程。

区别是，分类是事先定义好类别，类别数不变。

分类器需要由⼈⼯标注的分类训练语料训练得到，属于有指导学习范畴。

聚类则没有事先预定的类别，类别数不确定。

聚类不需要⼈⼯标注和预先训练分类器，类别在聚类过程中⾃动⽣成。

分类适合类别或分类体系已经确定的场合，⽐如按照国图分类法分类图书；聚类则适合不存在分类体系、类别数不确定的场合，⼀般作为某些应⽤的前端，⽐如多⽂档⽂摘、搜索引擎结果后聚类(元搜索)等。

分类(classification )是找出描述并区分数据类或概念的模型(或函数)，以便能够使⽤模型预测类标记未知的对象类。

分类技术在数据挖掘中是⼀项重要任务,⽬前商业上应⽤最多。

分类的⽬的是学会⼀个分类函数或分类模型(也常常称作分类器),该模型能把数据库中的数据项映射到给定类别中的某⼀个类中。

要构造分类器，需要有⼀个训练样本数据集作为输⼊。

训练集由⼀组数据库记录或元组构成，每个元组是⼀个由有关字段(⼜称属性或特征)值组成的特征向量，此外，训练样本还有⼀个类别标记。

⼀个具体样本的形式可表⽰为：(v1,v2,...,vn; c)；其中vi表⽰字段值，c表⽰类别。

分类器的构造⽅法有统计⽅法、机器学习⽅法、神经⽹络⽅法等等。

不同的分类器有不同的特点。

有三种分类器评价或⽐较尺度：1)预测准确度；2)计算复杂度；3)模型描述的简洁度。

预测准确度是⽤得最多的⼀种⽐较尺度，特别是对于预测型分类任务。

计算复杂度依赖于具体的实现细节和硬件环境，在数据挖掘中，由于操作对象是巨量的数据，因此空间和时间的复杂度问题将是⾮常重要的⼀个环节。

对于描述型的分类任务，模型描述越简洁越受欢迎。

另外要注意的是，分类的效果⼀般和数据的特点有关，有的数据噪声⼤，有的有空缺值，有的分布稀疏，有的字段或属性间相关性强，有的属性是离散的⽽有的是连续值或混合式的。

文本分类聚类

文本分类与聚类(text categorization and clustering)1.概述广义的分类（classification或者categorization）有两种含义：一种含义是有领导的学习（supervised learning）过程，另一种是无领导的学习（unsupervised learning）过程。

通常前者称为分类，后者称为聚类（clustering），后文中提到的分类都是指有指点的学习过程。

给定分类系统，将文本集中的每个文本分到某个或者某几个类别中，这个过程称为文本分类（text categorization）。

将文本聚集分组成多个类或簇，使得在同一个簇中的文本内容具有较高的相似度，而不同簇中的文本内容差异较大，这个过程称为文本聚类（text clustering）。

2. 文本分类2.1 文本分类的步骤典范的文本分类进程可以分为三个步骤：1. 文本表现（Text Representation）这一过程的目标是把文本表示成分类器能够处理的情形。

最常用的方法是向量空间模型，即把文本集表示成词－文档矩阵，矩阵中每个元素代表了一个词在相应文档中的权重。

选取哪些词来代表一个文本，这个过程称为特点选择。

常见的特征选择方法有文档频率、信息增益、互信息、期看交叉熵等等。

为了减少分类过程中的计算量，经常还需要进行降维处理，比如LSI。

2. 分类器构建（Classifier Construction）这一步骤的目标是选择或设计构建分类器的方法。

没有一种通用的方法可以实用所有情形。

不同的方法有各自的优缺点和实用条件，要依据问题的特色来选择一个分类器。

后面专门讲述常用的方法。

选定方法之后，在训练集上为每个种别构建分类器，然后把分类器利用于测试集上，得到分类结果。

3. 后果评估（Classifier Evaluation）在分类过程完成之后，需要对分类后果进行评估。

评估过程运用于测试集（而不是训练集）上的文本分类结果，常用的评估尺度由IR范畴继续而来，包括查全率、查准率、F1值等等。

文本自动分类聚类技术

Says Open Farm Trade Would Hit
Says 1986 Conditions
Said It Sets Two-for-Five Bonus Issue
Six Mln
U.S. Unfavourable Replacing
Crowns in
“B” Shares
1986
Italy’s La
......
小结
自动分类的概念
分类效果的评价
特征选择
文档频率法（DF, document frequency ）
信息增益法（information gain）互信息法（mutual information） The χ2 test（chi-square）
分类算法
KNN SVM
什么是聚类分析?
聚类分析就是按照一定的规律和要求对事物进行区分和分类的过程，在这一过程中没有任何关于类分的先验知识，没有指导，仅靠事物间的相似性作为类属划分的准则。
聚类分析的数学描述
定义聚类(簇 Cluster)：给定一数据样本集X｛X1,X2,…,Xn｝，根据数据点间的相似程度将数据集合分成k簇｛C1,C2,…,Ck｝过程称为聚类。
Clusters should be computed to Contain similar documents Separate as much as possible different documents
文本挖掘技术文本自动分类技术
知识的组织
知识的结构问题和知识是孪生的
结构本身也是知识
分类体系
杜威十进制系统（图书分类），国会图书馆的目录， AMS（美国数学会）的数学知识体系

大规模文本数据的自动分类和聚类方法研究

大规模文本数据的自动分类和聚类方法研究随着互联网的发展，我们面临着海量的文本数据，例如新闻、社交媒体等等。

这些文本数据搜集的速度非常快，如何对这些数据进行自动分类和聚类，成了一个非常具有挑战性的问题。

这需要我们进行文本挖掘技术的研究。

文本分类和聚类可以帮助我们更好地理解文本数据。

目前在自动文本分类和聚类研究领域，常见的方法有基于规则的方法、贝叶斯分类法、支持向量机、神经网络、聚类和社会网络分析等。

基于规则的方法是指通过设计分类器或聚类器来匹配特定的规则。

该方法需要人工分析特定领域数据的结构和属性，以生成一系列基于规则的分类器或聚类器。

然而，一旦数据集发生变化，这些规则就需要重新构建。

因此，该方法需要大量的人工工作和时间。

贝叶斯分类法是一种基于统计的分类方法，能够对文本进行分类或聚类任务。

它基于独立性假设，即每个特征都是相互独立的，该假设有时并非完全成立。

但是，贝叶斯分类法在实际任务中，显示了很好的性能，它非常适合用来处理文本数据。

支持向量机是一种常用的机器学习算法，它已经广泛应用于文本分类和聚类的问题中。

其思想是从数据中学习出一个最优的分类函数或聚类函数。

我们在进行文本分类和聚类任务时，可以根据需要选择合适的核函数，以应对不同的问题。

神经网络是一种基于人工神经网络的模型，它可以用来解决分类和聚类问题。

神经网络的学习过程类似于人类的学习，它通过不断的调整权值和参数，来优化分类或者聚类的过程。

但是，神经网络需要大量的计算资源和时间，对实时性的要求比较高。

聚类方法是通过对相似文本归成一类，从而达到文本数据降维的目的。

一种常见的聚类方法是K均值聚类法，它具有简单易懂，计算速度快等优点。

但是，该方法需要提前确定分组数，并且对于分布不均匀的数据，效果不佳。

社会网络分析是一种处理文本数据的新领域，它通过发现文本数据中的关系和模式，从而得到更深层次的信息。

例如，在社交媒体中，我们可以通过获取用户名、粉丝和关注者等信息，来对不同的用户进行分类和聚类。

文本分类与聚类技术研究与应用

文本分类与聚类技术研究与应用在信息爆炸的时代，大量的文本数据被生产出来，如何从这些海量数据中提取有用的信息成为了一项关键挑战。

文本分类与聚类技术作为文本挖掘领域的一个重要研究内容，旨在通过自动化的方式对文本进行分类与聚类，从而帮助人们更好地理解和分析大规模文本数据。

一、文本分类技术研究与应用文本分类是指将文本按照一定的标准进行分类的过程。

在实际应用中，文本分类在社交媒体分析、情感分析、新闻分类等方面扮演着重要的角色。

文本分类技术研究的首要任务是构建有效的特征表示模型，它既要保留原始文本的语义特征，又要具备较好的可计算性。

常见的特征表示方法包括词袋模型、词向量模型和深度学习模型等。

词袋模型是一种常用的特征表示方法，它将文本表示为一个词频向量。

通过统计每个单词出现的频率，构建一个稀疏向量表示样本文本。

然而，词袋模型无法考虑单词之间的语义关系，限制了其在文本分类中的表现。

为了解决这个问题，词向量模型被提出。

词向量模型使用词嵌入技术，将单词映射到一个连续的向量空间中，使得具有相似语义的单词在向量空间中的距离较近。

这种表示方式不仅可以较好地捕捉到单词之间的语义关系，还可以更好地表达文本语义。

除此之外，深度学习模型如卷积神经网络（CNN）和循环神经网络（RNN）等也被广泛应用于文本分类。

它们通过多层网络结构的学习，可以有效地学习到高层次的语义表示。

在文本分类任务中，分类器的选择也很关键。

常用的分类器包括朴素贝叶斯分类器、决策树分类器、支持向量机和深度学习模型等。

不同的分类器有不同的适用场景和性能。

朴素贝叶斯分类器适用于文本分类中的高维离散特征，可以对文本进行高效地分类。

决策树分类器通过构建决策树的方式对文本进行分类，易于理解和解释。

支持向量机分类器通过找到一个最优的超平面来实现分类，具有较强的泛化能力和分类效果。

深度学习模型可以通过大规模数据的训练来学习到更复杂的特征表示，具有更好的性能。

二、文本聚类技术研究与应用文本聚类是指将相似的文本自动聚集到一起的过程，通过对文本聚类可以实现对大量文本数据的有效组织和挖掘。

文本数据分析的基本技巧和工具

文本数据分析的基本技巧和工具随着信息爆炸时代的到来，大量的文本数据产生并被广泛应用于各个领域。

对这些海量文本数据进行分析和挖掘，可以帮助我们从中发现有价值的信息和洞察，为决策提供支持。

本文将介绍文本数据分析的基本技巧和工具。

一、文本预处理在进行文本数据分析之前，首先需要对原始文本进行预处理。

预处理的目的是将原始文本转化为可供分析的结构化数据。

主要包括以下几个步骤：1. 分词：将连续的文本切分成一个个独立的词语。

分词是文本分析的基础，可以使用开源的中文分词工具，如结巴分词等。

2. 去除停用词：停用词是指在文本中频繁出现但没有实际含义的词语，如“的”、“是”、“在”等。

去除停用词可以减少干扰，提高分析效果。

3. 词性标注：对分词结果进行词性标注，可以更好地理解文本的含义和语法结构。

可以使用开源的中文词性标注工具，如NLPIR等。

4. 文本清洗：清洗文本中的噪声数据，如HTML标签、特殊符号、数字等。

可以使用正则表达式等工具进行处理。

二、文本特征提取在进行文本数据分析时，需要将文本转化为计算机可以处理的数值特征。

常用的文本特征提取方法包括：1. 词袋模型：将文本表示为一个词语的集合，忽略词语的顺序和语法结构。

可以使用TF-IDF、词频等方法对词袋进行加权。

2. N-gram模型：考虑词语之间的顺序关系，将相邻的N个词语组合成一个特征。

N-gram模型可以捕捉到更多的上下文信息。

3. Word2Vec模型：将文本中的词语映射为低维的向量表示，可以表达词语之间的语义关系。

Word2Vec模型可以使用开源的工具，如gensim等。

三、文本分类与聚类文本分类和聚类是文本数据分析中常用的任务。

文本分类是将文本按照预定义的类别进行分类，如情感分类、主题分类等。

文本聚类是将文本按照相似度进行分组，发现其中的潜在模式和结构。

1. 机器学习方法：可以使用传统的机器学习算法，如朴素贝叶斯、支持向量机、随机森林等进行文本分类和聚类。

信息检索中的文本分类与聚类算法

信息检索中的文本分类与聚类算法信息检索是一门研究如何从大量的文本数据中获取有用信息的学科。

在信息检索中，文本分类与聚类算法是常用的技术手段。

本文将对信息检索中的文本分类与聚类算法进行介绍和探讨。

一、文本分类算法文本分类是将一篇文本分配到预定义的类别中的过程。

文本分类算法可以帮助我们对文本进行快速的分类和组织。

下面将介绍几种常用的文本分类算法。

1. 朴素贝叶斯算法朴素贝叶斯算法是一种基于概率的文本分类算法。

它假设文本中的每个特征都是相互独立的，并基于这个假设计算文本属于某个类别的概率。

朴素贝叶斯算法在文本分类中具有较高的准确度和效率。

2. 支持向量机算法支持向量机算法是一种基于机器学习的文本分类算法。

它通过将文本映射到高维空间中，找到一个最优的超平面来划分不同类别的文本。

支持向量机算法在处理高维度的文本特征时具有较强的分类能力。

3. K近邻算法K近邻算法是一种基于实例的文本分类算法。

它通过比较待分类文本与已知类别文本之间的相似度，将待分类文本归入与其最相似的K个已知类别文本的类别中。

K近邻算法简单易懂，但在处理大规模文本数据时计算复杂度较高。

二、文本聚类算法文本聚类是将文本按照其相似性进行分组的过程。

文本聚类算法可以帮助我们发现数据中的隐藏结构和主题。

下面将介绍几种常用的文本聚类算法。

1. K均值算法K均值算法是一种基于距离的文本聚类算法。

它通过计算文本之间的距离，将文本分为K个簇。

K均值算法简单易实现，但对初始簇中心的选择敏感，并且需要事先预定簇的个数。

2. 层次聚类算法层次聚类算法是一种自底向上或自顶向下的文本聚类算法。

它通过计算文本之间的相似度，将相似度高的文本归为一类，并逐步合并形成聚类层次结构。

层次聚类算法可以灵活地处理不同数量的聚类。

3. DBSCAN算法DBSCAN算法是一种基于密度的文本聚类算法。

它通过定义文本的密度和邻域范围来划分聚类，可以发现任意形状和大小的簇。

DBSCAN算法对异常值和噪声点具有较好的鲁棒性。

第6章文本分类与聚类

21
BEP和 BEP和F测度
BEP（breakpoint） BEP（break-even point）
当准确率和召回率相等时的值即为BEP 当准确率和召回率相等时的值即为BEP
F测度，取β=1 测度，
Fβ
( p , r ) = (β
+ 1 pr β2p+r
2
)
F1 =
2 pr p + r
BEP和测度的值越大， BEP和F测度的值越大，则表示分类器的性能越好。 BEP只是F1所有可能取值中的一个特定值只是F1所有可能取值中的一个特定值（ BEP只是F1所有可能取值中的一个特定值（当p r时），因此BEP小于或等于F1的最大值因此BEP小于或等于F1的最大值。 = r时），因此BEP小于或等于F1的最大值。
20
分类的评测
偶然事件表（ Table）偶然事件表（Contingency Table）
属于此类判定属于此类判定不属于此类 A C 不属于此类 B D
对一个分类器的度量
准确率(precision) = a / (a + b) 准确率(precision) 召回率(recall) 召回率(recall) = a / (a + c) fallout = b / (b + d)
自动的方法(学习) 自动的方法(学习)：从训练语料中学习规则
优点：优点：
快速准确率相对高(准确率可达60%或者更高) 60%或者更高准确率相对高(准确率可达60%或者更高) 来源于真实文本，来源于真实文本，可信度高
缺点：缺点：
结果可能不易理解(比如有时是一个复杂的数学表达式) 结果可能不易理解(比如有时是一个复杂的数学表达式)

文本分类与聚类

距离和余弦距离两种方式进行计算。
典型算法为k-邻近算法，它的基本原理是计算出训练集与测试文本距离最近的k个文本，再以这k个文本的类别判定新文本的类别。
文本分类的算法
概率模型：
典型的算法是朴素贝叶斯算法，其主要原理是基于贝叶斯假设，也就是文档中的词汇在确定文本类别的作用上相互独立。它首先计算特征词属于每个类别的先验概率，在新文本到达时，根据特征词的先验概率计算该文本属于每一个类别的后验概率，最后取后验概率最大的类别作为分类结果。
常用文本聚类的算法： 1．层次聚类算法 2．分割聚类算法 3．基于密度的聚类算法 4．基于网格的聚类算法
层次聚类算法
层次聚类法把类别看作是有层次的，即随着类别层次的变化，类别中的对象也相应发生变化。
层次聚类结果形成一棵类别树，每个类结点还包含若干子结点，兄弟结点是对其父结点的划分，因此该方法允许在不同的粒度上对数据进行分类。
主要内容
7.1 分类与聚类介绍 7.2 常用文本分类方法 7.3 常用文本聚类方法
7.1 分类与聚类介绍
分类与聚类介绍
文本分类是指根据文本内容和形式的异同，按照一定的体系有系统地组织和区分文本。文本分类的任务就是在给定的分类体系下，根据文本的内容自动地确定文本关联的类别。
聚类是指根据“物以类聚”的原理，将本身没有类别的样本聚集成不同的组，并且对每一个这样的组进行描述。
似度sim(di,sj)；
平面划分法
④ 选取具有最大相似度的种子
arg max sim(ci , s j )
s j S
将di归入以sj为聚类中心的簇cj，从而得到D的一个聚类C={c1,…,ck}。 ⑤ 重复步骤②、③、④若干次，以得到较为稳定的聚类结果。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

t ~t
c A C
~c B D
2 N ( AD CB ) 2 (t , c) ( A C )(B D)( A B)(C D)

度量两者(term和类别)独立性程度

2 越大，独立性越小，相关性越大若AD<BC,则类和词独立, N=A+B+C+D
特征提取方法的性能比较(Macro-F1)

当准确率和召回率相等时的值即为BEP

F测度，取β=1
F p, r
β
1 pr 2pr
2

F1
2 pr pr

BEP和F测度的值越大，则表示分类器的性能越好。 BEP只是F1所有可能取值中的一个特定值（当p = r时），因此BEP小于或等于F1的最大值。
多类分类问题的评价
系统结构
训练数据
文本
预处理
标注工具
模型数据
机器学习工具
标注的样本
新数据
文本
预处理
分类工具
类别
文本分类示例
“planning language 测试数据 proof intelligence”
(AI)
(Programming)
Semantics Garb.Coll.
(HCI)
Multimedia GUI ...
863评测语料(中图分类) 搜狗语料复旦语料
训练语料分类体系

中图分类体系

处理对象是图书，不适合网页分类 1992年制定，时间过久，包括一些过时类别

学科分类与代码

上述两个分类标准都不能直接用做中文网页的分类中文网页的分类体系
一种中文网页的分类体系
训练集的大小

通过不断增加实例的个数，考察每个类训练样本对分类器质量的影响宏观F1 微观F1

给定测试文档 X 设 n 为X中词的个数返回的类别:
argmaxP(ci ) P( wi | ci )
ci C i 1 n

wi是X中第i个位置的词
Naï ve Bayes分类举例
过敏打喷嚏

C = {allergy, cold, well} e1 = sneeze; e2 = cough; e3 = fever 当前实例是：E = {sneeze, cough, fever}
Pr (t | ci ) I (t ) i Pr (ci ) log Pr (t )
I AVG (t ) P(ci ) I (t , ci )
i 1 m
I MAX (t ) maxim 1 I (t , ci )
2统计量（CHI）：

2统计量的定义可以从一个词t与一个类别c的偶然事件表引出（假设文本的总数为N ）
设V为文档集合D所有词词表对每个类别 ci C Di 是文档D中类别Ci的文档集合 P(ci) = |Di| / |D| 设 ni 为Di中词的总数对每个词 wj V 令 nij 为Di中wij的数量 P(wi | ci) = (nij+ 1) / (ni + |V |)
文本分类 Naï ve Bayes算法(测试)

宏平均（macro-averaging）

先对每个分类器计算上述量度，再对所有分类器求平均是关于类别的均值先合并所有分类器的偶然事件表中的各元素，得到一个总的偶然事件表，再由此表计算各种量度。是关于文本的均值

微平均（micr练数据

TREC提供统一的训练集和测试集进行系统评测
特征选择举例

对每类构造k 个最有区别能力的term 例如：

计算机领域：

主机、芯片、内存、编译 …
轮胎，方向盘，底盘，气缸，…

汽车领域:

用文档频率选特征

文档频率

DF (Document Frequency) DFi：所有文档集合中出现特征i的文档数目

基本假设：稀少的词或者对于目录预测没有帮助，或者不会影响整体性能。实现方法：先计算所有词的DF，然后删除所有 DF小于某个阈值的词，从而降低特征空间的维数。优缺点：

国外：CMU,BERKLEY,CORNELL 国内：中科院计算所，清华大学，复旦大学

后续增加了网页语料和中文文本

但是中文文本是新华社的新闻稿，与网页的分类体系还有差别
目前已有的评测语料

有指导的机器学习方法是实现中文网页自动分类的基础，因此训练集是实现分类的前提条件已有训练语料

网页预处理

去掉网页中的导航信息去掉HTML网页中的tag标记
(中文)分词、词性标注、短语识别、…

去除停用词和词根还原(stemming) 数据清洗：去掉不合适的噪声文档或文档内垃圾数据
特征提取
特征提取(Feature Selection)

在文本分类问题中遇到的一个主要困难就是高维的特征空间
设各个类别的集合为 {c1, c2,…cn} 设E为实例的描述确定E的类别
P(ci | E )

P(E) 可以根据下式确定
n n
P(ci ) P( E | ci ) P( E )
P(ci ) P( E | ci ) P(ci | E ) 1 P( E ) i 1 i 1 P( E ) P(ci ) P( E | ci )
Pr (ci | t ) P (c | t ) Pr (t )i Pr (ci | t ) log r i Pr (ci ) Pr (ci )
取第 i 个类别时的概率
假定t 出现时取第i 个类别的概率
互信息（Mutual Information）

互信息(Mutual Information)：MI越大t和c共现程度越大互信息的定义与交叉熵近似，只是互信息不考虑t不出现的概率，它的定义为：
这一部分将讲述

文本分类及聚类的概念文本特征的提取方法贝叶斯分类，KNN分类及决策树分类 K均值及层次聚类的方法
文本分类概述
概述

文本分类包括普通文本分类和网页文本分类中文网页分类技术已经成为中文信息处理领域的一项基础性工作网页分类可以为搜索引擎用户提供目录导航服务，进而提高系统查准率网页分类可以为个性化搜索引擎奠定基础
i
信息增益(Information Gain, IG)

该term为整个分类所能提供的信息量不考虑任何特征的熵和考虑该特征后的熵的差值信息增益计算的是已知一个词t是否出现在一份文本中对于类别预测有多少信息。这里的定义是一个更一般的、针对多个类别的定义。
t 出现的概率 t 不出现
G(t ) Pr (t )i Pr (ci | t ) log

最简单的降低特征空间维数的方法稀少的词具有更多的信息，因此不宜用DF大幅度地删除词
词的熵

term的熵
该值越大，说明分布越均匀，越有可能出现在较多的类别中；该值越小，说明分布越倾斜，词可能出现在较少的类别中

Entropy (t ) P(ci | t ) log P(ci | t )

朴素的贝叶斯分类

如果假定样例的特征是独立的，可以写为：
P( E | ci ) P(e1 e2 em | ci ) P(e j | ci )
j 1 m

因此，只需要知道每个特征和类别的P(ej | ci)
如果只计算单个特征的分布，大大地减少了计算量

文本分类 Naï ve Bayes算法(训练)
类别
ML
Planning
learning intelligence algorithm reinforcement network...
planning temporal reasoning plan language...
programming semantics language proof...
garbage ... collection memory 训练数据 optimization region...
分类的一般过程

收集训练集和测试集，对文本进行预处理对文本进行特征提取分类器训练（学习）测试与评价

精确率、召回率、F1 宏平均，微平均
分类的评测

偶然事件表（Contingency Table）
i 1 n
贝叶斯分类(cont.)

需要知道:

先验概率: P(ci) 条件概率: P(E | ci) 如果文档集合D中，属于ci的样例数为 ni 则有 P(ci) = ni / |D|
E e1 e2 em

P(ci) 容易从数据中获得

假设样例的特征是关联的: 指数级的估计所有的 P(E | ci)
学习的过程是在给定训练样本集合D 的前提下，寻找一个分类函数h(x), 使得:
x, c( x) D : h( x) c( x)
贝叶斯分类
贝叶斯分类

基于概率理论的学习和分类方法贝叶斯理论在概率学习及分类中充当重要角色仅使用每类的先验概率不能对待分的文本提供信息分类是根据给定样本描述的可能的类别基础上产生的后验概率分布

通常一份普通的文本在经过文本表示后，如果以词为特征，它的特征空间维数将达到几千，甚至几万大多数学习算法都无法处理如此大的维数