机器学习实验之朴素贝叶斯(垃圾邮件判断)

格式：doc
大小：150.26 KB
文档页数：6

下载文档原格式

/ 6

多项式朴素贝叶斯算法案例

多项式朴素贝叶斯算法案例
咱来唠唠多项式朴素贝叶斯算法的案例哈。

就比如说有个超级有趣的事儿，咱想根据邮件内容来判断这邮件是垃圾邮件还是正常邮件。

这时候多项式朴素贝叶斯算法就能大显身手啦。

想象一下，我们先收集了好多好多邮件，有垃圾邮件也有正常邮件，就像收集了一堆宝贝和一堆破烂儿（哈哈，这么说比较好理解）。

对于每封邮件呢，我们把它看成是一堆单词组成的。

就好比是一堆小零件拼成了一个大物件儿。

然后呢，多项式朴素贝叶斯算法就开始统计啦。

比如说在垃圾邮件里，“赚钱”“免费”“大奖”这些词可能出现得特别多，而在正常邮件里呢，可能“工作”“朋友”“会议”这些词比较常见。

算法就像是一个超级聪明的小侦探。

当来了一封新邮件的时候，它就开始计算在垃圾邮件和正常邮件里，这些单词出现的概率。

比如说新邮件里有“赚钱”这个词，那它就会想：“在我之前统计的垃圾邮件里，这个词经常冒出来呢，那这封邮件很可能是垃圾邮件哟。

”然后再看看其他词，综合起来判断这封邮件到底是垃圾还是正常的。

再举个例子哈，有个网站想根据用户的评论来判断这个评论是正面的还是负面的。

像“太棒了”“喜欢”“超赞”这些词可能在正面评论里比较多，“讨厌”“糟糕”“垃圾”就在负面评论里常常现身。

多项式朴素贝叶斯算法就会根据之前收集的大量评论里这些词出现的频率，来判断新的评论是正面还是负面的。

总的来说呢，多项式朴素贝叶斯算法就是通过统计那些关键的单词或者特征在不同类别里出现的概率，然后用这些概率来判断新的东西属于哪个类别。

是不是还挺神奇的呀？。

基于机器学习技术的邮件垃圾识别算法研究

基于机器学习技术的邮件垃圾识别算法研究一、引言随着网络技术的不断发展，电子邮件已成为现代人日常生活中不可缺少的一部分。

然而，随着邮件使用量的增加，邮件垃圾问题也成为了一个严重的问题。

传统的邮件过滤方法无法满足日益增长的需求，因此我们需要一个更高效的方法来减少邮件垃圾。

机器学习技术在邮件垃圾识别中发挥着重要作用，在此基础上，本文将对基于机器学习技术的邮件垃圾识别算法进行研究。

二、相关工作现有的邮件垃圾识别算法主要采用以下两种方法：规则法和基于机器学习的方法。

规则法是通过事先设定规则来判断邮件是否为垃圾邮件。

虽然该方法简单易行，但在应对复杂情况时不够灵活，准确率也较低。

相比之下，基于机器学习的方法需要大量的训练数据，通过学习和归纳得出分类模型，其准确率和效率更高。

三、基于机器学习的邮件垃圾识别算法1.数据预处理首先，需要对收集到的邮件数据进行预处理。

通常情况下，邮件数据需要进行一系列的数据清洗、特征提取和文本分词等操作。

例如，去掉邮件中的HTML标签、提取邮件正文内容、统计邮件中出现的关键词、进行文本分词等。

2.特征提取对于邮件垃圾识别来说，如何选择合适的特征对预测结果至关重要。

目前，常用的特征提取方法包括TF-IDF、词袋模型、主题模型等。

其中，TF-IDF是最常用的一种方法，它能够反映词语在文本中的重要程度。

词袋模型则是将文本中的所有词语都看作是同等重要的特征，便于进行计算和比较。

3.分类器选择邮件垃圾识别算法中的分类器种类繁多，如支持向量机、朴素贝叶斯、决策树等。

不同的分类器在处理不同类型的数据时，具有不同的优势和缺陷。

在实际应用中需要根据具体情况选择最适合的分类器。

例如，在文本分类中，朴素贝叶斯分类器常常表现出较好的性能。

4.模型评估模型评估是衡量算法性能的重要指标之一。

对于邮件垃圾识别来说，常用的评估指标包括精确率、召回率、F1值等。

精确率指的是分类器正确分类的正样本在所有正样本中的占比；召回率指分类器正确分类的正样本在所有正样本中的应对比；F1值则是综合考虑精确率和召回率的综合指标。

基于朴素贝叶斯的垃圾邮件分类算法研究

基于朴素贝叶斯的垃圾邮件分类算法研究引言随着互联网的发展，我们的电子邮件的数量也越来越多。

人们接受电子邮件的速度和效率变得更高，但同时也伴随着垃圾邮件的增长。

垃圾邮件往往会带来许多问题，例如浪费时间和网络资源，甚至可能传播病毒和诈骗。

因此，我们需要有效的筛选算法来区分垃圾邮件和正常邮件。

本文将讨论朴素贝叶斯的垃圾邮件分类算法。

朴素贝叶斯算法朴素贝叶斯算法是一种基于贝叶斯定理的分类方法。

该算法使用已知的类别和相关特征来推断未知的类别。

对于一个待分类的对象，朴素贝叶斯算法会首先将其描述为已知类别的特征的集合，然后根据贝叶斯定理来计算其属于每个类别的概率，并选择概率最大的类别作为分类结果。

贝叶斯定理表达式如下：P(A|B) = P(B|A) * P(A) / P(B)其中，P(A|B)是在给定B的情况下，A的条件概率。

P(B|A)是在给定A的情况下，B的条件概率。

P(A)和P(B)分别是A和B的概率。

朴素贝叶斯算法假定每个特征都是独立的，这意味着特征之间的关系可以无视。

在实际应用中，该假设并不总是成立。

例如，在垃圾邮件分类中，标题和正文的内容通常是相关的。

但是，在一个大规模的特征空间下，这种假设可以使算法更简单且更快速地运行，同时取得令人满意的结果。

垃圾邮件分类应用垃圾邮件分类是朴素贝叶斯算法的典型应用之一。

我们将说明如何使用朴素贝叶斯算法来分类垃圾邮件和正常邮件。

首先，我们需要从邮件中提取特征。

为了分类邮件，我们需要确定哪些特征是更有信息量的。

例如，单词的数量或单词的出现频率可能是一个有用的特征。

因此，我们可以基于这些因素来确定特征。

接着，我们需要计算在给定特征条件下，垃圾邮件和正常邮件的概率。

为了训练分类器，我们需要一组已标记的邮件数据集。

在朴素贝叶斯算法中，我们需要计算每种特征在垃圾邮件中出现的概率和在正常邮件中出现的概率，并将这些概率用于计算分类邮件时的条件概率。

这些概率可以通过计算数据集中特征出现的频率以及垃圾邮件和正常邮件的数量来估算。

基于机器学习的垃圾邮件过滤算法研究

基于机器学习的垃圾邮件过滤算法研究一、引言随着互联网技术的不断发展，电子邮件已经成为人们日常生活中不可或缺的一部分。

然而，随之而来的垃圾邮件问题却是人们所面临的一个难题。

垃圾邮件不仅浪费了用户的时间和精力，还可能给用户带来一些安全风险，例如恶意软件和网络钓鱼。

为了解决这个问题，研究人员和企业开发了许多垃圾邮件过滤算法。

而机器学习方法被广泛应用于垃圾邮件过滤领域，因为它能够对邮件进行自动分类，而无需手动维护黑名单或白名单。

本文将介绍一些基于机器学习的垃圾邮件过滤算法及其应用。

二、机器学习基础机器学习是指通过计算机程序自动识别输入数据的模式，从而使计算机在不断获取新数据的同时提高预测或决策的准确性。

机器学习通常包括监督学习，无监督学习和强化学习三种类型。

在垃圾邮件过滤中，通常使用监督学习来训练模型。

监督学习是指利用一组已知输入输出数据来训练模型。

在垃圾邮件过滤中，输入数据通常是一封邮件的内容和元数据，输出数据则是指示该邮件是垃圾邮件还是正常邮件。

监督学习算法通常包括分类和回归两种类型。

在分类中，模型的输出是一个类别，例如垃圾邮件或正常邮件。

而在回归中，模型的输出是一个连续的数字值。

三、基于机器学习的垃圾邮件过滤算法1. 朴素贝叶斯（Naive Bayes）算法朴素贝叶斯算法是一种简单却有效的分类算法。

它基于贝叶斯定理，通过计算一个给定词条集合的条件概率来判断一封邮件是否是垃圾邮件。

朴素贝叶斯算法通常使用的特征是词频。

2. 支持向量机（Support Vector Machine）算法支持向量机算法是一种强大的分类算法。

它可以基于给定的训练数据集，找到一个最佳的超平面来将不同类别的数据分离开。

在垃圾邮件过滤中，支持向量机算法通常使用的特征是邮件的元数据，例如发件人、主题、正文长度等。

3. 决策树（Decision Tree）算法决策树算法是一种概率模型，通过一系列二分操作创建一棵树状结构，用来判断一封邮件是否是垃圾邮件。

使用朴素贝叶斯对垃圾邮件分类实验原理

文章标题：深入探究朴素贝叶斯算法：垃圾邮件分类实验原理解析在信息爆炸的时代，电流信箱已经成为人们日常生活和工作中不可或缺的一部分。

然而，随之而来的垃圾邮件问题也一直困扰着人们。

为了解决这一问题，朴素贝叶斯算法被广泛应用于垃圾邮件分类实验中。

本文将深入探讨朴素贝叶斯算法在垃圾邮件分类实验中的原理和应用。

一、朴素贝叶斯算法简介朴素贝叶斯分类器是一种基于贝叶斯定理和特征条件独立假设的分类算法。

它被广泛应用于文本分类、垃圾邮件过滤、情感分析等领域。

朴素贝叶斯算法的核心思想是基于训练样本对文本进行建模，并根据文本中不同特征的出现概率来进行分类。

二、垃圾邮件分类实验原理解析1. 数据预处理：需要对收集到的邮件数据进行预处理，包括去除邮件中的特殊符号、停用词等。

2. 特征提取：接下来，需要从处理后的邮件数据中提取特征，常用的特征包括词袋模型和TF-IDF模型。

3. 训练模型：使用朴素贝叶斯算法对提取到的特征进行训练，得到垃圾邮件和正常邮件的概率分布。

4. 分类预测：根据训练好的模型，对未知的邮件进行分类预测，判断其是否为垃圾邮件。

三、朴素贝叶斯算法的优势和局限性1. 优势：朴素贝叶斯算法简单高效，对小规模数据表现良好，且易于实现和扩展。

2. 局限性：朴素贝叶斯算法忽略了特征之间的关联性，且对输入数据的分布假设较强。

四、个人观点和理解朴素贝叶斯算法作为一种经典的分类算法，在垃圾邮件分类实验中表现出了较好的效果。

然而，其在处理复杂语境和大规模数据时存在一定局限性。

我认为，在实际应用中，可以结合其他算法和技术，进一步提升垃圾邮件分类的准确率和效率。

总结回顾：通过本文的深入探讨，我们对朴素贝叶斯算法在垃圾邮件分类实验中的原理和应用有了全面、深刻和灵活的理解。

朴素贝叶斯算法的优势和局限性也使我们对其进行了全面的评估。

在未来的研究和实践中，我将继续深入研究和探索其他分类算法，以期进一步提升垃圾邮件分类的效果。

五、垃圾邮件分类实验中的技术挑战和解决办法在垃圾邮件分类实验中，我们面临着一些技术挑战。

朴素贝叶斯公式例题

朴素贝叶斯公式例题朴素贝叶斯公式是一种基于贝叶斯定理的分类算法，它假设特征之间相互独立。

以下是一个朴素贝叶斯公式的例题：假设我们有一个数据集，其中包含了一些电子邮件的文本以及对应的标签（垃圾邮件或非垃圾邮件）。

我们想要使用朴素贝叶斯算法来对新的邮件进行分类。

现在，我们收到了一封新的邮件，内容如下："购买廉价药物，快速发货！"我们需要使用朴素贝叶斯公式来判断这封邮件是属于垃圾邮件还是非垃圾邮件。

为此，我们首先需要计算两个条件概率：P(垃圾邮件|文本)和P(非垃圾邮件|文本)。

根据朴素贝叶斯公式，我们可以将问题转化为计算以下两个概率：1. P(垃圾邮件|文本)：给定文本为"购买廉价药物，快速发货！"，我们需要计算该邮件为垃圾邮件的概率。

假设训练集中共有100封邮件，其中有30封垃圾邮件。

而在这30封垃圾邮件中，有10封包含了"购买廉价药物，快速发货！"这样的文本。

因此，P(文本|垃圾邮件) = 10 / 30 = 1/3。

另外，P(垃圾邮件)表示在数据集中出现垃圾邮件的概率，假设为0.3。

综合利用贝叶斯公式，可以计算P(垃圾邮件|文本)：P(垃圾邮件|文本) = (P(文本|垃圾邮件) * P(垃圾邮件)) / P(文本)2. P(非垃圾邮件|文本)：同样地，我们需要计算给定文本为"购买廉价药物，快速发货！"时，该邮件为非垃圾邮件的概率。

假设在100封邮件中，有70封是非垃圾邮件，其中有20封包含了"购买廉价药物，快速发货！"这样的文本。

因此，P(文本|非垃圾邮件) = 20 / 70 = 2/7。

同样地，假设P(非垃圾邮件) = 0.7。

朴素贝叶斯如何实现垃圾邮件分类原理

朴素贝叶斯如何实现垃圾邮件分类原理垃圾邮件分类的基本原理是将输入的邮件文本根据其特征划分为“垃圾邮件”和“非垃圾邮件”两类。

朴素贝叶斯分类器通过观察已知分类的训练样本，学习出每个类别在不同特征上的概率分布，然后利用这些概率分布来预测测试样本的分类。

具体实现步骤如下：1.收集训练样本：首先，我们需要收集大量已知分类的邮件样本，这些样本被标记为“垃圾邮件”或“非垃圾邮件”。

这些样本将用于训练模型。

2.特征提取：对于每个邮件样本，我们需要将其转化为一组可以用于分类的特征。

常用的特征提取方法包括词袋模型和TF-IDF等。

以词袋模型为例，可以将每个邮件样本表示为一个向量，其中每个元素表示一些词在该邮件中的出现次数。

3.计算类别概率：对于训练集中的每个类别，我们需要计算该类别出现的概率。

假设训练集中一共有m个样本，其中有n个样本属于垃圾邮件类别。

那么，垃圾邮件类别的概率P(垃圾邮件)可以计算为n/m。

4.计算条件概率：对于每个特征及其可能的取值，我们需要计算在给定类别下该特征取一些值的概率。

例如，对于特征“包含单词‘互联网’”，我们需要计算在封邮件为垃圾邮件的情况下，该特征取值为真（存在单词‘互联网’）的概率P(包含单词‘互联网’，垃圾邮件)。

可以通过统计垃圾邮件样本中该特征取值为真的比例来估计该概率。

5.预测新样本的分类：对于一个新的邮件样本，我们首先根据已经学习到的类别概率计算其属于每个类别的先验概率P(类别，邮件)。

然后，对于每个类别，根据已经学习到的条件概率计算该特征取值的概率P(特征，类别)。

最后，将先验概率与条件概率相乘并归一化，得到该邮件属于每个类别的后验概率。

最终，将后验概率最大的类别作为邮件的分类结果。

朴素贝叶斯分类器的优点在于其简单、高效，对于大规模的文本分类任务效果好。

然而，它也有一些限制，例如它假设所有特征之间相互独立，这在一些情况下可能不成立。

此外，朴素贝叶斯分类器对于特征空间非常大、稀疏的情况下可能不适用。

基于朴素贝叶斯的垃圾邮件分类的课程设计

基于朴素贝叶斯的垃圾邮件分类的课程设计
基于朴素贝叶斯的垃圾邮件分类的课程设计可以包括以下步骤：1. 数据收集：收集包含垃圾邮件和非垃圾邮件的数据集。

可以使用公开可用的垃圾邮件数据集，或者自己创建一个数据集。

2. 数据预处理：对数据进行清洗和预处理，包括去除非文本内容、标记化、去除停用词、词干化等操作。

3. 特征提取：使用特征提取方法将文本转换为数值特征，常用的方法包括词袋模型和TF-IDF。

4. 数据划分：将数据集划分为训练集和测试集，通常采用70%的数据作为训练集，30%的数据作为测试集。

5. 模型训练：使用朴素贝叶斯算法对训练集进行模型训练，计算文本分类的概率。

6. 模型评估：使用测试集对训练好的模型进行评估，常用的评估指标包括准确率、精确率、召回率和F1值。

7. 模型优化：根据评估结果对模型进行优化，可以尝试调整特征提取方法、添加其他特征、调整模型参数等。

8. 模型应用：使用优化后的模型对新的邮件进行分类，判断是否为垃圾邮件。

9. 结果展示：将分类结果进行可视化展示，可以使用混淆矩阵、ROC曲线等方式。

10. 总结与报告：总结整个课程设计的过程，包括数据处理、模型训练和优化等步骤，撰写课程设计报告。

在设计过程中，可以使用Python编程语言和相关的机器学习库，如nltk、scikit-learn等。

同时，也可以参考相关的教材、论文和开源项目，进行进一步的学习和参考。

基于机器学习的垃圾邮件过滤系统设计与实现

基于机器学习的垃圾邮件过滤系统设计与实现随着互联网的普及，电子邮件成为了现代通信的重要方式之一。

邮件的方便性、实时性以及低廉的成本让人们相信这种通信方式是安全可靠的。

但是，随着电子邮件的覆盖面越来越广，大量的垃圾邮件开始侵袭人们的收件箱，对人们的生活造成了很大的干扰，严重降低了电子邮件的使用效率。

在这种情况下，开发一种基于机器学习的垃圾邮件过滤系统成为了亟待解决的问题之一。

一、垃圾邮件的定义垃圾邮件是指大量或者无意义的广告信息、诈骗信息、推销信息以及其他欺诈性的信息等等，危害了正常的邮件通信秩序。

垃圾邮件的主要特征是：数量大，内容杂乱无章，无实际意义，而且可能包含危险链接或文件。

二、机器学习在垃圾邮件过滤中的作用机器学习是一种人工智能的技术，可以让计算机根据过去的经验自动优化性能。

在垃圾邮件过滤中，机器学习可以帮助我们通过训练模型自动识别垃圾邮件。

这里的模型是指根据邮件的收件人、发件人、邮件的主题、内容以及其他特征来判断邮件是否是垃圾邮件。

这些特征可以通过机器学习算法来识别，并建立模型用于垃圾邮件的分类。

三、机器学习分类算法的介绍在垃圾邮件过滤中，常用的分类算法包括朴素贝叶斯、决策树、支持向量机等。

这些算法都可以根据已有的训练数据自动识别垃圾邮件，进而确定垃圾邮件的特征和规律，最终分类邮件。

朴素贝叶斯算法是一种基于概率的分类算法，它可以根据邮件的各种特征来判断邮件是否为垃圾邮件。

决策树算法是一种基于树型结构的分类算法，可以将邮件划分为不同的类别。

支持向量机算法是一种寻找最优分类界面的算法，非常适合垃圾邮件的分类问题。

四、垃圾邮件过滤系统的设计与实现在基于机器学习的垃圾邮件过滤系统中，主要分为两个部分：训练模型与分类模型。

训练模型是指利用已有的数据集对算法进行训练，分类模型是指根据训练模型对新邮件进行分类。

具体的流程如下：首先，我们需要收集大量的邮件数据，并将它们分为垃圾邮件与普通邮件两类。

然后，将数据集划分为训练集和测试集，并对训练集进行特征提取和选择，包括邮件的发件人、收件人、主题以及内容等等特征。

贝叶斯分类器例题

贝叶斯分类器例题
1.朴素贝叶斯分类器：一个例子是识别垃圾邮件。

给定一封邮件，可以根据邮件中的关键词和主题来判断该邮件是否为垃圾邮件。

通过朴素贝叶斯分类器，可以将邮件分为垃圾邮件和非垃圾邮件两类。

2.贝叶斯网络分类器：另一个例子是疾病诊断。

给定一个病人的症状和病史，可以根据贝叶斯网络分类器来预测该病人可能患有哪种疾病。

通过计算每个疾病的概率，可以得出最可能的诊断结果。

3.信用卡欺诈识别：在这个例子中，我们使用贝叶斯分类器来识别信用卡欺诈行为。

给定一系列交易数据，包括交易金额、交易地点、交易时间等，我们需要判断这些交易是否为欺诈行为。

通过训练一个贝叶斯分类器，可以学习到正常交易和欺诈交易的特征，并利用这些特征来预测新的交易是否为欺诈行为。

4.情感分析：在这个例子中，我们使用贝叶斯分类器来进行情感分析。

给定一篇文章或一段评论，我们需要判断该文本的情感倾向是积极还是消极。

通过训练一个贝叶斯分类器，可以学习到积极和消极文本的特征，并利用这些特征来预测新的文本的情感倾向。

5.基因分类：在这个例子中，我们使用贝叶斯分类器来进行基因分类。

给定一个基因序列，我们需要将其分类为不同的基因家族或亚家族。

通过训练一个贝叶斯分类器，可以学习到不同基因家族或亚家族的特征，并利用这些特征来预测新的基因序列的家族或亚家族归属。

以上这些例题只是贝叶斯分类器的一些应用示例，实际上贝叶斯分类器的应用非常广泛，它可以应用于任何需要分类的领域，如金融、医疗、社交媒体等。

1、下载文档前请自行甄别文档内容的完整性，平台不提供额外的编辑、内容补充、找答案等附加服务。
2、"仅部分预览"的文档,不可在线预览部分如存在完整性等问题,可反馈申请退款(可完整预览的文档不适用该条件!)。
3、如文档侵犯您的权益，请联系客服反馈,我们会尽快为您处理(人工客服工作时间：9:00-18:30)。

机器学习实训实验报告（四）专业班级学号姓名实验项目名称：利用朴素贝叶斯过滤垃圾邮件实验内容：1、了解概率分类器的意义，理解条件概率的计算方法2、了解朴素贝叶斯的理论知识，了解基于以上理论知识构建分类器的方法3、根据朴素贝叶斯的一般步骤进行过滤垃圾邮件的任务实验过程：算法分析：简介：朴素贝叶斯算法的分类模型是基于Bayes定理的，下面就简单介绍一下Bayes定理．设X为一个类别未知的数据样本，H为某个假设，C表示类别集合，若数据样本X属于一个特定的类别c，那么分类问题就是决定P(H/X)，即在获得数据样本X时，H假设成立的概率．由于P(H),P(X), P(X/H)的概率值可以从（供学习使用的）数据集合中得到，Bayes 定理描述了如何根据P(H), P(X),P(X/H)计算获得的P(H/X)，有关的具体公式定义描述如下算法过程：我们假设训练集为m个样本n个维度，如下：(x(1)1,x(1)2,...x(1)n,y1),(x(2)1,x(2 )2,...x(2)n,y2),...(x(m)1,x(m)2,...x( m)n,ym)(x1(1),x2(1),...xn(1),y1),( x1(2),x2(2),...xn(2),y2),...(x1(m),x 2(m),...xn(m),ym)共有K个特征输出类别，分别为C1,C2,...,CKC1,C2,...,CK,每个特征输出类别的样本个数为m1,m2,...,mKm1,m2,...,mK,在第k 个类别中，如果是离散特征，则特征XjXj各个类别取值为mjlmjl。

其中l取值为源程序代码：from numpy import *import redef loadDataSet():#文档集合postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'],['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'],['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'],['stop', 'posting', 'stupid', 'worthless', 'garbage'],['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'],['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']]classV ec = [0,1,0,1,0,1] #类别：1代表侮辱性文字，0代表正常return postingList,classVec#函数说明:将切分的词条整理成不重复的词条列表def createV ocabList(dataSet):vocabSet = set([]) ##创建一个空的不重复列表for document in dataSet:vocabSet = vocabSet | set(document) #取并集return list(vocabSet)#函数说明:根据vocabList，将inputSet向量化，每个元素为1或0 def setOfWords2Vec(vocabList, inputSet):returnVec = [0]*len(vocabList) #创建一个其中所含元素都为0的向量for word in inputSet: #遍历每个词条if word in vocabList: #如果词条存在于词汇表中，则置1returnVec[vocabList.index(word)] = 1else: print ("the word: %s is not in my Vocabulary!" % word)return returnVec#函数说明:朴素贝叶斯分类器训练函数def trainNB0(trainMatrix,trainCategory):numTrainDocs = len(trainMatrix) #计算训练的文档数目numWords = len(trainMatrix[0]) #计算每篇文档的词条数1,2,...Sj1,2,...Sj，SjSj为特征j不同的取值数。

输出为实例X(test)X(test)的分类。

算法流程如下：1) 如果没有Y的先验概率，则计算Y的K个先验概率：P(Y=Ck)=(mk+λ)/(m+Kλ)P(Y=C k)=(mk+λ)/(m+Kλ)，否则P(Y=Ck)P(Y=Ck)为输入的先验概率。

2) 分别计算第k个类别的第j维特征的第l个个取值条件概率：P(Xj=xjl|Y=Ck)P(Xj=xjl|Y=Ck)a)如果是离散值:P(Xj=xjl|Y=Ck)=mkjl+λmk+SjλP( Xj=xjl|Y=Ck)=mkjl+λmk+Sjλλλ可以取值为1，或者其他大于0的数字。

c)如果是连续值不需要计算各个l的取值概率，直接求正态分布的参数:P(Xj=xj|Y=Ck)=12πσ2k−−−−√exp(−(xj−μk)22σ2k)P(Xj=xj|Y=C k)=12πσk2exp(−(xj−μk)22σk2)需要求出μk和σ2kμk和σk2。

μkμk为在样本类别CkCk中，所有XjXj的平均值。

σ2kσk2为在样本类别CkCk中，所有XjXj的方差。

pAbusive = sum(trainCategory)/float(numTrainDocs) #文档属于侮辱类的概率p0Num = zeros(numWords); p1Num = zeros(numWords)#词条出现数初始化为1p0Denom = 0.0; p1Denom = 0.0 #分母初始化为0for i in range(numTrainDocs):if trainCategory[i] == 1:#统计属于侮辱类的总词数，出现一次，次数+1p1Num += trainMatrix[i]p1Denom += sum(trainMatrix[i])else:#统计属于非侮辱类的总词数，出现一次，次数+1p0Num += trainMatrix[i]p0Denom += sum(trainMatrix[i])#对应个数除以总数,此处可以用log（）防止下溢出p1Vect = p1Num/p1Denomp0Vect = p0Num/p0Denomreturn p0Vect,p1Vect,pAbusive#返回属于侮辱类的条件概率数组，属于非侮辱类的条件概率数组，文档属于侮辱类的概率#函数说明：朴素贝叶斯分类器分类函数def classifyNB(vec2Classify, p0Vec, p1Vec, pClass1):#对应元素相乘，且所有词的对应值相加，并将此值加入到对数概率中p1 = sum(vec2Classify * p1Vec) + log(pClass1)p0 = sum(vec2Classify * p0Vec) + log(1.0 - pClass1)if p1 > p0:return 1else:return 0#函数说明：便利函数，封装操作def testingNB():listOPosts,listClasses = loadDataSet() #加载数据myV ocabList = createV ocabList(listOPosts) #整理词条trainMat=[]#遍历listOPosts，向trainMat插入向量化后的listOPostsfor postinDoc in listOPosts:trainMat.append(setOfWords2Vec(myVocabList, postinDoc))p0V,p1V,pAb = trainNB0(array(trainMat),array(listClasses))#记：侮辱类的条件概率数组，非侮辱类的条件概率数组，文档是侮辱类的概率testEntry = ['love', 'my', 'dalmation']#根据myV ocabList，向量化testEntrythisDoc = array(setOfWords2Vec(myVocabList, testEntry))#输出分类print (testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))#根据myV ocabList，向量化testEntrytestEntry = ['stupid', 'garbage']thisDoc = array(setOfWords2Vec(myVocabList, testEntry))print (testEntry,'classified as: ',classifyNB(thisDoc,p0V,p1V,pAb))#函数说明：朴素贝叶斯词袋模型3）对于实例X(test)X(test)，分别计算：P(Y=Ck)∏j=1nP(Xj=x(test)j|Y=C k)P(Y=Ck)∏j=1nP(Xj=xj(test)|Y=Ck)4）确定实例X(test)X(test)的分类CresultCresultCresult=argmaxCkP(Y=Ck)∏j=1nP(Xj=X( test)j|Y=Ck)调试过程中的关键问题及修改：1、错误：正则分割函数pile()：结果为全部是空格和逗号解决方法：改为pile('[ ,.]+')意思是按空格和.分割2、报错：UnicodeDecodeError: 'gbk' codec can't decode byte 0xae in position 199: illegal multibyte sequence原因：是打印的某种编码类型的字符串到终端，所以由于编码不匹配，导致出现此问题。