朴素贝叶斯分类
- 格式:pptx
- 大小:372.84 KB
- 文档页数:48
朴素贝叶斯分类边界1 简介朴素贝叶斯分类是一种基于贝叶斯定理和特征条件独立假设的分类方法。
相较于其他分类算法,朴素贝叶斯算法有着计算速度快,易于实现,对于小样本数据具有较高的精度等优点。
在文本分类、垃圾邮件过滤、情感分析等领域中有着广泛的应用。
2 贝叶斯定理贝叶斯定理是基于条件概率的计算法则,公式如下:P(A|B) = P(B|A) * P(A) / P(B)其中,P(A|B) 表示事件 B 发生的条件下,事件 A 发生的概率,P(A) 表示事件 A 发生的概率,P(B|A) 表示在事件 A 发生的条件下,事件 B 发生的概率,P(B) 表示事件 B 发生的概率。
利用贝叶斯定理,我们可以计算出在给定特征条件下某个类别的概率,从而对数据进行分类。
3 条件独立性假设条件独立性假设是朴素贝叶斯分类算法的关键假设之一。
该假设说明一个分类项的各个特征之间是相互独立的,即一个特征的出现不会影响其他特征的出现概率。
由于该假设的简化,朴素贝叶斯分类算法存在一定的误差,但是在大多数情况下该假设是有效的。
在文本分类中,每个文本可以表示为一个向量,其中向量的每个元素表示在该文本中某个特定词汇出现的次数或频率。
根据条件独立性假设,我们可以假设每个特征之间是独立的,从而可以得到每个类别下各个特征的概率分布。
4 朴素贝叶斯分类边界朴素贝叶斯分类边界是指将数据空间划分为不同类别区域的线或面。
对于二分类问题,该边界被称为决策边界。
决策边界的位置取决于训练数据的特征和参数选择。
具体地,在朴素贝叶斯分类中,我们可以利用贝叶斯定理计算每个类别在给定特征条件下的后验概率,然后选择概率最大的类别作为该数据点的分类结果。
因此,分类边界可以看作是不同分类区域的分隔线,根据分类规则将数据点分配到不同的分类区域中。
在文本分类中,分类边界通常是一个超平面,可以通过支持向量机等算法进行优化。
由于条件独立性假设的存在,朴素贝叶斯分类边界通常是线性的,因此对于非线性问题需要使用其他的分类方法。
朴素贝叶斯分类贝叶斯分类是一类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。
而朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的一种分类方法。
一:贝叶斯原理朴素贝叶斯分类算法是一个典型的统计学习方法,主要的理论基础就是贝叶斯公式。
贝叶斯公式定义如下所示:先验概率:通过经验来判断事情发生的概率。
后验概率:后验概率就是发生结果之后,推测原因的概率。
条件概率:事件 A 在另外一个事件 B 已经发生条件下的发生概率,表示为 P(A|B),读作“在 B 发生的条件下 A 发生的概率”。
P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。
其基本求解公式为:P(AB)/P(B)。
但是在有些情况下,我们可以很容易直接得出P(A|B),P(B|A)则很难直接得出,但是我们更想要知道P(B|A)。
例如(通信接收机检测判决)将A,B,C 三个字母之一输入信道,输出为原字母的概率为α,而输出为其它一字母的概率都是(1-α)/2。
今将字母串AAAA,BBBB,CCCC 之一输入信道,输入AAAA,BBBB,CCCC 的概率分别为p1, p2, p3 (p1 +p2+p3=1),已知输出为ABCA,问输入的是AAAA 的概率是多少?(设信道传输每个字母的工作是相互独立的。
)在这个例子中,我们知道了结果,但是我们想要知道输入的概率,直接计算是非常困难的,但是通过贝叶斯公式就显得十分简单了。
换句话说,就是我们知道原因,推导结果是比较容易的,但是当我们知道结果,要反过来推导原因是十分困难的。
而贝叶斯公式就为我们知道结果后推导原因提供了一个捷径。
二:朴素贝叶斯分类在说完了贝叶斯原理之后,现在就来说朴素贝叶斯分类。
朴素贝叶斯分类之所以朴素,就是因为我们做了一个简单的假设,即类中特定特征的存在与任何其他特征的存在无关,这意味着每个特征彼此独立。
因此对实际情况有所约束,如果属性之间存在关联,分类准确率会降低。
朴素贝叶斯算法,贝叶斯分类算法,贝叶斯定理原理朴素贝叶斯算法,贝叶斯分类算法,贝叶斯定理原理贝叶斯分类算法是统计学的⼀种分类⽅法,它是⼀类利⽤概率统计知识进⾏分类的算法。
在许多场合,朴素贝叶斯(Naïve Bayes,NB)分类算法可以与决策树和神经⽹络分类算法相媲美,该算法能运⽤到⼤型数据库中,⽽且⽅法简单、分类准确率⾼、速度快。
由于贝叶斯定理假设⼀个属性值对给定类的影响独⽴于其它属性的值,⽽此假设在实际情况中经常是不成⽴的,因此其分类准确率可能会下降。
为此,就衍⽣出许多降低独⽴性假设的贝叶斯分类算法,如TAN(tree augmented Bayes network)算法。
朴素贝叶斯算法的核⼼思想:选择具有最⾼后验概率作为确定类别的指标。
--------------------朴素贝叶斯算法设每个数据样本⽤⼀个n维特征向量来描述n个属性的值,即:X={x1,x2,…,xn},假定有m个类,分别⽤C1, C2,…,Cm表⽰。
给定⼀个未知的数据样本X(即没有类标号),若朴素贝叶斯分类法将未知的样本X分配给类Ci,则⼀定是P(Ci|X)>P(Cj|X) 1≤j≤m,j≠i根据贝叶斯定理由于P(X)对于所有类为常数,最⼤化后验概率P(Ci|X)可转化为最⼤化先验概率P(X|Ci)P(Ci)。
如果训练数据集有许多属性和元组,计算P(X|Ci)的开销可能⾮常⼤,为此,通常假设各属性的取值互相独⽴,这样先验概率P(x1|Ci),P(x2|Ci),…,P(xn|Ci)可以从训练数据集求得。
根据此⽅法,对⼀个未知类别的样本X,可以先分别计算出X属于每⼀个类别Ci的概率P(X|Ci)P(Ci),然后选择其中概率最⼤的类别作为其类别。
朴素贝叶斯算法成⽴的前提是各属性之间互相独⽴。
当数据集满⾜这种独⽴性假设时,分类的准确度较⾼,否则可能较低。
另外,该算法没有分类规则输出。
在所有的机器学习分类算法中,朴素贝叶斯和其他绝⼤多数的分类算法都不同。
朴素贝叶斯模型的类别全文共四篇示例,供读者参考第一篇示例:朴素贝叶斯模型的分类主要分为三类:高斯朴素贝叶斯、多项式朴素贝叶斯和伯努利朴素贝叶斯。
接下来分别介绍这三种不同类型的朴素贝叶斯模型及其应用场景。
一、高斯朴素贝叶斯高斯朴素贝叶斯模型假设特征的分布服从高斯分布,即特征的概率密度函数为高斯分布。
这种模型适用于连续型特征,例如数值型数据。
在实际应用中,高斯朴素贝叶斯模型通常用于处理连续型数据的分类问题,如人脸识别、手写数字识别等。
二、多项式朴素贝叶斯多项式朴素贝叶斯模型假设特征的分布服从多项式分布,即特征是离散型的且取值范围有限。
这种模型适用于文本分类等问题,其中特征通常是单词或短语的出现次数或权重。
在实际应用中,多项式朴素贝叶斯模型常用于文本分类、垃圾邮件过滤等问题。
朴素贝叶斯模型是一种简单且高效的分类算法,具有快速的训练速度和较好的分类性能。
不同类型的朴素贝叶斯模型适用于不同类型的特征分布和问题类型,可以根据具体情况选择合适的模型来解决分类问题。
在实际应用中,朴素贝叶斯模型被广泛应用于文本分类、垃圾邮件过滤、情感分析等领域,并取得了不错的效果。
第二篇示例:朴素贝叶斯是一种被广泛使用的机器学习分类算法,其原理简单但却非常有效。
它的原理基于贝叶斯定理,通过对已知数据集的特征进行概率推断来对未知数据进行分类。
朴素贝叶斯模型最初是由英国数学家托马斯·贝叶斯提出的,它的核心思想是基于特征之间的独立性假设。
朴素贝叶斯模型的类别主要可以分为三种:高斯朴素贝叶斯、多项式朴素贝叶斯和伯努利朴素贝叶斯。
1. 高斯朴素贝叶斯高斯朴素贝叶斯是一种适用于连续型数据的分类算法。
在高斯朴素贝叶斯中,假设特征的概率符合高斯分布,通过计算每个特征在每个类别下的概率密度函数来进行分类。
因为高斯分布在实际数据中很常见,因此高斯朴素贝叶斯在实际应用中有着广泛的应用。
伯努利朴素贝叶斯也适用于离散型数据的分类问题,但与多项式朴素贝叶斯不同的是,伯努利朴素贝叶斯适用于二值型数据,即特征只有两种取值。
朴素贝叶斯分类算法全解1.基本概念贝叶斯定理公式如下:P(A,B)=P(B,A)*P(A)/P(B)其中,P(A,B)表示在已知B的条件下发生A的概率,P(B,A)表示在已知A的条件下发生B的概率,P(A)和P(B)分别表示A和B的概率。
2.特征条件独立假设3.算法流程1)收集数据:首先,需要收集用于训练和测试的数据集。
数据集应包含已知分类的样本和对应的特征值。
2)数据预处理:对收集到的数据进行预处理,包括数据清洗、特征选择和特征转换等操作。
常用的预处理方法有去重、缺失值处理、标准化和归一化等。
3)训练模型:根据训练数据集,计算出各个特征在各个分类下的条件概率,以及各个分类的先验概率。
4)分类预测:对于待分类的样本,根据已得到的条件概率和先验概率,计算其属于不同分类的后验概率,并选择概率最大的分类作为预测结果。
4.朴素贝叶斯的应用:垃圾邮件过滤以垃圾邮件过滤为例,介绍朴素贝叶斯算法的具体应用过程。
2)数据预处理:对收集到的邮件文本进行预处理,包括去除停用词、分词、去重、标准化等操作。
3)训练模型:根据训练数据集,计算出垃圾邮件和正常邮件的先验概率P(c),以及每个单词在不同分类下的条件概率P(w,c)。
4)分类预测:对于待分类的邮件文本,计算出其属于垃圾邮件和正常邮件的后验概率P(c,w)。
根据后验概率选择概率最大的分类作为预测结果。
5)模型评估:使用测试数据集对训练得到的模型进行评估,常见的评估指标有准确率、精确率、召回率和F1值等。
5.朴素贝叶斯的优缺点-简单易懂,实现相对简单。
-计算量小,速度快。
-对缺失数据不敏感。
-可以处理高维数据。
-对于特征之间存在相关性的数据,假设特征条件独立可能导致误分类。
-对于连续型特征,需要进行离散化处理。
-对于零概率问题,可以使用平滑技术进行处理。
总结:朴素贝叶斯算法是一种常用的分类算法,在文本分类、垃圾邮件过滤等领域应用广泛。
它基于贝叶斯定理和特征条件独立假设,通过计算后验概率进行分类预测。
贝叶斯分类器(3)朴素贝叶斯分类器根据,我们对贝叶斯分类器所要解决的问题、问题的求解⽅法做了概述,将贝叶斯分类问题转化成了求解P(x|c)的问题,在上⼀篇中,我们分析了第⼀个求解⽅法:极⼤似然估计。
在本篇中,我们来介绍⼀个更加简单的P(x|c)求解⽅法,并在此基础上讲讲常⽤的⼀个贝叶斯分类器的实现:朴素贝叶斯分类器(Naive Bayes classifier)。
1 朴素贝叶斯分类原理1.1 分类问题回顾我们的⽬标是通过对样本的学习来得到⼀个分类器,以此来对未知数据进⾏分类,即求后验概率P(c|x)。
在中,我们描述了贝叶斯分类器是以⽣成式模型的思路来处理这个问题的,如下⾯的公式所⽰,贝叶斯分类器通过求得联合概率P(x,c)来计算P(c|x),并将联合概率P(x,c)转化成了计算类先验概率P(c)、类条件概率P(x|c)、证据因⼦P(x)。
h∗(x)=\argmax c∈Y P(c|x)=\argmax c∈Y P(x,c)P(x)=\argmaxc∈YP(c)∗P(x|c)P(x)其中的难点是类条件概率P(x|c)的计算,因为样本x本⾝就是其所有属性的联合概率,各种属性随意组合,变幻莫测,要计算其中某⼀种组合出现的概率真的是太难了,⽽朴素贝叶斯的出现就是为了解决这个问题的。
要想计算联合概率P(a,b),我们肯定是希望事件a与事件b是相互独⽴的,可以简单粗暴的P(a,b)=P(a)P(b),多想对着流星许下⼼愿:让世界上复杂的联合概率都变成简单的连乘!1.2 朴素贝叶斯朴素贝叶斯实现了我们的梦想!朴素贝叶斯中的朴素就是对多属性的联合分布做了⼀个⼤胆的假设,即x的n个维度之间相互独⽴:P([x1,x2,...,x n]|c)=P(x1|c)P(x2|c)...P(x1|c)朴素贝叶斯通过这⼀假设⼤⼤简化了P(x|c)的计算,当然,使⽤这个假设是有代价的,⼀般情况下,⼤量样本的特征之间独⽴这个条件是弱成⽴的,毕竟哲学上说联系是普遍的,所以我们使⽤朴素贝叶斯会降低⼀些准确性;如果实际问题中的事件的各个属性⾮常不独⽴的话,甚⾄是⽆法使⽤朴素贝叶斯的。
朴素贝叶斯文本分类原理朴素贝叶斯(Naive Bayes)文本分类算法是一种基于贝叶斯定理和特征之间相互独立假设的分类方法。
在自然语言处理领域,它被广泛应用于文本分类、垃圾邮件过滤和情感分析等任务。
一、贝叶斯定理贝叶斯定理是数学和统计学中的一个基本定理,描述的是在已知某个条件下,另一个条件的概率。
对于事件A和B,贝叶斯定理可以表示为:P(B|A) = P(A|B) * P(B) / P(A)其中,P(B|A)表示在事件A已经发生的情况下,事件B发生的概率;P(A|B)表示在事件B已经发生的情况下,事件A发生的概率;P(B)和P(A)分别表示事件B和事件A发生的概率。
二、朴素贝叶斯算法朴素贝叶斯算法是一种基于贝叶斯定理的监督学习算法。
在文本分类任务中,朴素贝叶斯算法假设文档中的每个词都是相互独立的,并从中提取特征,这就是为什么它被称为“朴素”的原因。
具体而言,它包括以下几个步骤:1. 数据预处理首先,需要对文本数据进行处理,包括去除停用词、分词和计算词汇表等。
2. 计算每个单词在类别中出现的概率对于训练数据集中的每个类别,需要计算每个单词在该类别中出现的概率。
具体而言,需要计算每个单词在该类别中出现的频率,并将其除以该类别中所有单词的总数。
3. 计算每个类别的概率在计算每个单词在类别中出现的概率之后,需要计算每个类别的概率。
具体而言,需要计算每个类别中所包含的文档数,并除以总文档数。
4. 计算测试文档的概率现在已经可以对测试文档进行分类了。
对于测试文档中的每个词,需要计算它在每个类别中出现的概率,并将它们相乘得到该文档属于每个类别的概率。
最终,将概率最大的类别作为该文档的分类结果。
三、总结朴素贝叶斯算法是一种简单而有效的文本分类算法,它的理念是假设所有的单词在文档中相互独立,这样可以降低计算复杂度,并且具有较高的准确率。
但是,在实际应用中,朴素贝叶斯算法面临的一个挑战是数据稀疏性,即某些单词可能在训练数据集中没有出现,导致它们的概率为0,这会影响分类的准确率。
朴素贝叶斯分类算法
P(y,X) = P(y) * P(x1,y) * P(x2,y) * ... * P(xn,y)
其中P(y,X)是后验概率,P(y)是类别y的先验概率,P(xi,y)是在
类别y下特征xi的条件概率。
在朴素贝叶斯算法中,先验概率P(y)可以通过训练数据集中各个类
别出现的频率计算得到。
条件概率P(xi,y)可以通过训练数据集中特征
xi在类别y下的频率计算得到。
具体来说,可以统计每个类别y下特征
xi取值为一些具体值的样本的数量,再除以类别y下所有样本的总数量,即可得到该条件概率。
在实际应用中,为了避免在计算过程中的数值下溢问题,常使用对数
概率进行计算,即取对数概率的和来代替概率的乘积。
这样可以避免计算
机在计算非常小的概率时出现数值下溢的问题。
然而,朴素贝叶斯算法的一个重要前提假设是特征之间相互独立,这
在现实中并不总是成立。
当特征之间存在较强的相关性时,朴素贝叶斯算
法的分类效果可能会受到影响。
此外,朴素贝叶斯算法对于缺失数据的处
理也有一定的局限性。
为了克服上述局限性,研究者们提出了一些改进的朴素贝叶斯分类算法,如多项式朴素贝叶斯、高斯朴素贝叶斯、伯努利朴素贝叶斯等。
这些
算法在一定程度上解决了特征相关性和缺失数据的问题,并取得了更好的
分类效果。
总结来说,朴素贝叶斯分类算法是一种简单而有效的分类算法,特别
适用于文本分类等领域。
尽管它有一些前提假设和局限性,但通过改进可
以提高其分类准确率。
朴素贝叶斯分类算法介绍要介绍朴素贝叶斯算法(Naive Bayes),那就得先介绍贝叶斯分类算法,贝叶斯分类算法是统计分类算法的⼀种,他是⼀类利⽤概率统计知识进⾏的⼀种分类算法。
⽽朴素贝叶斯算法就是⾥⾯贝叶斯算法中最简单的⼀个算法。
为什么叫做朴素贝叶斯,因为他⾥⾯的各个类条件是独⽴的,所以⼀会在后⾯的计算中会起到很多⽅便的作⽤。
朴素贝叶斯算法原理⾸先在这⾥⽤到了⼀个概率公式:P(B|A)的意思是在A事件的情况下,发⽣B事件的概率,可以理解为概率论中的条件概率,⽽贝叶斯公式的巨⼤作⽤就是对因果关系进⾏了交换,通过上⾯的公式就可以计算P(A|B)的概率,只要通过上述的转换。
上⾯的资源地址上已经对朴素贝叶斯算法的原理描述的⾮常清楚了,我在他的基础上做了点注释⽅便于后⾯代码的理解:朴素贝叶斯分类的正式定义如下:1、设为⼀个待分类项,⽽每个a为x的⼀个特征属性。
(在后⾯的例⼦中x={"Youth", "Medium", "Yes", "Fair"},⾥⾯的4个因⼦为他的特征向量)2、有类别集合。
(在后⾯的类别中只有buy_computer的分类yes, no,C={yes, no})3、计算。
(在后⾯的计算的任务就是计算在X事件的条件下,yes和no事件的发⽣概率,P(Yes|X, P(No|X)))4、如果,则。
(计算出上⾯的结果值,拥有最⼤概率的值的yi就是他的分类,这个很好理解,在X条件下,那个分类类型概率⾼就属于哪个分类,在这⾥⽐的就是P(Yes|X, P(No|X))那么现在的关键就是如何计算第3步中的各个条件概率。
我们可以这么做:1、找到⼀个已知分类的待分类项集合,这个集合叫做训练样本集。
2、统计得到在各类别下各个特征属性的条件概率估计。
即。
3、如果各个特征属性是条件独⽴的,则根据贝叶斯定理有如下推导:因为分母对于所有类别为常数,因为我们只要将分⼦最⼤化皆可。
朴素贝叶斯算法进行分类的流程
一、数据准备阶段
1.数据收集
(1)收集包含特征和类别标签的训练数据集
2.数据预处理
(1)数据清洗,处理缺失值和异常值
(2)特征选择,选择对分类有意义的特征
二、模型训练阶段
1.拆分数据集
(1)将数据集分为训练集和测试集
2.计算概率
(1)计算各个类别的先验概率
(2)计算每个特征在各个类别下的条件概率
3.训练模型
(1)根据计算得到的概率,训练朴素贝叶斯分类器
三、模型预测阶段
1.输入待分类样本
(1)输入包含特征的待分类样本
2.计算后验概率
(1)根据训练得到的模型,计算待分类样本属于各个类别的后验概率
3.预测分类结果
(1)根据后验概率,预测待分类样本的类别
四、模型评估阶段
1.评估模型性能
(1)使用测试集评估模型在分类任务上的性能
2.调整模型
(1)根据评估结果调整模型参数或特征选择
五、应用阶段
1.预测新样本
(1)使用经过训练的朴素贝叶斯模型进行新样本的分类预测。
朴素贝叶斯分类器的原理
朴素贝叶斯分类器是一种基于贝叶斯定理的分类器,它假设所有特征之间是独立的,即特征之间相互独立。
该分类器利用已知的训练样本集,通过计算每个类别的先验概率和每个特征在分类中的条件概率,利用贝叶斯定理计算出每个类别的概率,最终将样本划分到概率最大的类别中。
朴素贝叶斯分类器的原理基于以下步骤:
1. 特征选择:选择与分类任务相关的特征。
2. 训练阶段:使用已知类别的训练样本集,计算每个类别的先验概率和每个特征在分类中的条件概率。
3. 概率计算:利用贝叶斯定理计算每个类别的概率,即每个类别的先验概率与该类别下所有特征条件概率的乘积的总和。
4. 分类决策:将样本划分到概率最大的类别中。
朴素贝叶斯分类器的优点包括简单、易于实现、对小样本数据有较好的分类效果等。
但是,它也有一些局限性,比如对于特征之间存在依赖关系的场景,朴素贝叶斯分类器的性能可能会下降。
在实际应用中,可以考虑使用其他更复杂的分类器,或者对朴素贝叶斯分类器进行改进,以提高其分类性能。
朴素贝叶斯分类原理朴素贝叶斯(NaiveBayes)分类法是一种用来建立分类模型的算法,它基于贝叶斯定理和特征条件独立假设(即“naive”),其基本思想是:对实例进行分类时,首先基于已知的训练数据集,求出每个类别的先验概率以及每个特征条件下各个类别的条件概率,然后将这些概率应用到预测数据中,基于求出的后验概率最大的类别来预测2017 年 9 月发生可能性最大的类别.贝叶斯定理是概率论的基础,它公式为:P(A|B)=P(B|A)*P(A)/P(B),其中:P(A|B)表示“B已发生的条件下A 发生的概率”;P(B|A)表示“A已发生的条件下B发生的概率”;P(A)表示“A发生的概率”;P(B)表示“B发生的概率”.朴素贝叶斯分类法的一般过程如下:1.计算训练数据集中每个类别的先验概率P(Ci)。
2.对每个特征Xi,计算训练数据集中每个类别Ci 中Xi取各种值的条件概率P(Xi|Ci)。
3.对于给定的观测数据,利用上述公式计算出每个类别Ci 的后验概率P(Ci|X)。
4.由后验概率最大的类别作为给定数据的分类结果。
二、朴素贝叶斯分类原理的优缺点朴素贝叶斯分类法的优点:1.朴素贝叶斯分类法是一种简单高效的贝叶斯算法,它易于理解和实现;2.朴素贝叶斯分类法在处理分类问题时,只需要一些假设即可,而不需要大量训练数据;3.朴素贝叶斯分类法可以处理多类别分类中的一些关联特征;4.朴素贝叶斯分类法算法比较方便,不需要做特征选择。
朴素贝叶斯分类法的缺点:1.朴素贝叶斯分类法假设特征之间相互独立,这个假设在实际应用中往往难以成立;2.朴素贝叶斯分类法需要计算先验概率,而在某些时候先验概率可能困难获取;3.由于朴素贝叶斯分类法是基于概率模型,而概率模型运行的效率是较低的。
朴素贝叶斯详解朴素贝叶斯详解贝叶斯分类是⼀类分类算法的总称,这类算法均以贝叶斯定理为基础,故统称为贝叶斯分类。
⽽朴素贝叶斯分类是贝叶斯分类中最简单,也是常见的⼀种分类⽅法。
这篇⽂章我们从⼀个例⼦⼊⼿,详细的分析整个朴素贝叶斯的计算流程,以及如何完成分类的。
朴素贝叶斯的数学描述:从数学⾓度来说,分类问题可做如下定义:已知集合和,确定映射规则y = f(x),使得任意有且仅有⼀个,使得成⽴。
其中C叫做类别集合,其中每⼀个元素是⼀个类别,⽽I叫做项集合(特征集合),其中每⼀个元素是⼀个待分类项,f叫做分类器。
分类算法的任务就是构造分类器f。
分类算法的内容是要求给定特征,让我们得出类别,这也是所有分类问题的关键。
那么如何由指定特征,得到我们最终的类别,也是我们下⾯要讲的,每⼀个不同的分类算法,对应着不同的核⼼思想。
⼀、朴素贝叶斯的理论核⼼数学公式:换⼀种通俗的理解⽅式:我们最终求的p(类别|特征)即可!就相当于完成了我们的任务。
⼆、例题分析1.例⼦的简要说明现在给我们的问题是,如果⼀对男⼥朋友,男⽣想⼥⽣求婚,男⽣的四个特点分别是不帅,性格不好,⾝⾼矮,不上进,请你判断⼀下⼥⽣是嫁还是不嫁?这是⼀个典型的分类问题,转为数学问题就是⽐较p(嫁|(不帅、性格不好、⾝⾼矮、不上进))与p(不嫁|(不帅、性格不好、⾝⾼矮、不上进))的概率,谁的概率⼤,我就能给出嫁或者不嫁的答案!这⾥我们联系到朴素贝叶斯公式:我们需要求p(嫁|(不帅、性格不好、⾝⾼矮、不上进),这是我们不知道的,但是通过朴素贝叶斯公式可以转化为好求的三个量.p(不帅、性格不好、⾝⾼矮、不上进|嫁)、p(不帅、性格不好、⾝⾼矮、不上进)、p(嫁)(⾄于为什么能求,后⾯会讲,那么就太好了,将待求的量转化为其它可求的值,这就相当于解决了我们的问题!)2.例⼦的深⼊理解分析上⽂中的好求的三个量怎样求的?是根据已知训练数据统计得来,下⾯详细给出该例⼦的求解过程。