当前位置:文档之家› 基于内容的垃圾邮件过滤技术综述_王斌

基于内容的垃圾邮件过滤技术综述_王斌

基于内容的垃圾邮件过滤技术综述_王斌
基于内容的垃圾邮件过滤技术综述_王斌

中 文 信 息 学 报

第19卷第5期 JOURNAL OF CHINESE INF ORMATION PROCESSING Vol.19No.5 [综述]

文章编号:1003-0077(2005)05-0001-10

基于内容的垃圾邮件过滤技术综述①

王 斌,潘文锋

(中国科学院计算技术研究所,北京 100080)

摘要:垃圾邮件问题日益严重,受到研究人员的广泛关注。基于内容的过滤是当前解决垃圾邮件问题的主流技术之一。目前基于内容的垃圾邮件过滤主要包括基于规则的方法和基于概率统计的方法。本文综述了目前用于垃圾邮件过滤研究的各种语料和评价方法,并总结了目前使用的垃圾邮件过滤技术以及它们之间的对比实验,包括Ripper、决策树、Rough Set、Rocchio、Boosting、Bayes、kNN、SVM、Winnow等等。实验结果表明, Boosting、Flexible Bayes、SVM、Winnow方法是目前较好的垃圾邮件过滤方法,它们在评测语料上的结果已经达到很高水平,但是,要走向真正实用化,还有很多的工作要做。

关键词:计算机应用;中文信息处理;综述;垃圾邮件;反垃圾邮件;信息过滤;文本分类

中图分类号:TP391 文献标识码:A

A Survey of Content-based Anti-spam Email Filtering

WANG Bin,PAN Wen-feng

(Institute of Computing Technol ogy,Chines e Academy of Sciences,Beijing100080,China)

A bstract:The volume of junk emails on the Internet has grown tremendously in the past few years and is causing serious problems.Content-based filtering is one of the mainstream technologies used so far.This paper aims to provide an overview on the state of art in this research field,includin g benchmark corpora,evaluation methods and filtering approaches.Many filtering approaches,including Ripper,Decision Trees,Rough Sets,Rocchio,Boosting,Bayes,k NN,SVM and Winnow, are discussed and compared in this paper.The experimental results show that some approaches,such as Boosting,Flexible Bayes,SVM,Winnow,can achieve very good results on research corpora.However,much more work should be done for practical use.

Key words:computer application;Chinese information process ing;overview;junk email;anti-spam;information filtering; text classification

1 引言

作为互联网的第一大应用,电子邮件一直受到广大网民的青睐。但是近些年来,垃圾邮件问题日益严重。2004年1月,中国互联网络信息中心(C NNIC)发布的《第十三次中国互联网发展状况统计报告》显示,中国网民平均每周收到13.7封电子邮件,其中垃圾邮件占了7.9封,垃圾邮件数量已经超过了正常邮件数量。垃圾邮件不仅耗费网络带宽和计算机时空开销,而

①收稿日期:2004-09-02 定稿日期:2005-03-10

基金项目:国家973项目资助(2004CB318109)

作者简介:王斌(1972—),男,博士,副研究员,主要研究方向:信息检索、自然语言处理、内容安全.

1

且会对企业的正常运作和用户的正常工作造成严重的干扰。

迄今为止,垃圾邮件在国际上并没有一个标准的定义。垃圾邮件的基本特征是“不请自来”,而且大部分垃圾邮件都带有商业或者其他宣传目的。同时,垃圾邮件的判定和邮件的接收者有很大关系,不同用户对同一邮件的判断结果可能会存在差异。

要解决垃圾邮件问题,必须综合法律、技术等手段。反垃圾邮件技术上可以分成两类:“根源阻断”和“存在发现”。“根源阻断”是指通过防止垃圾邮件的产生来减少垃圾邮件。据报道,比尔盖茨曾提出通过对发送邮件收费来减少垃圾邮件。另一种称为Zomail的技术试图通过给每个用户分配密码锁的方法来保护邮件接收者的安全。这些方法目前还没得走向实用,即使走向实用也需要对全球的邮件系统进行全面改造。所以,对垃圾邮件进行阻断还有很长的路要走。目前,主流的反垃圾邮件技术是“存在发现”,即对已经产生的垃圾邮件进行过滤。反垃圾邮件的发现可以通过邮件的内容特征或者其他特征(如群发特征)来实现,其中基于内容的反垃圾邮件过滤技术是研究的重点。

从内容上看,垃圾邮件过滤可以看成一个“二类”问题:垃圾邮件类和合法邮件类。因此,各种分类方法可以用于垃圾邮件的过滤。然而,垃圾邮件过滤是一个特定领域的分类问题,它至少在以下几个方面与一般的分类存在不同:

一、通常认为,用户宁愿接收更多的垃圾邮件,也不能接受将合法邮件错判成垃圾邮件。因此,与通常的分类方法相比,垃圾邮件过滤更重视正确率;

二、垃圾邮件过滤实现的环境通常都有较高的性能要求,因此,要求垃圾邮件过滤的方法不仅要重视实现的效果,也要重视实现的效率;

三、垃圾邮件过滤中的类别有别于通常分类中的类别,一方面,垃圾邮件、合法邮件在语义上并不象通常分类中的类别(如体育、军事等等)能够被人理解;另一方面垃圾邮件的类别定义可能会因人而异,也可能会随着时间而改变。

本文后续内容组织如下:第二节和第三节分别介绍目前垃圾邮件研究中用到的公共语料库和评价方法;第四节总结了目前用到的基于内容的垃圾邮件判别方法;最后,第五节给出了总结和展望。

2 垃圾邮件语料库

为了能对不同的垃圾邮件过滤算法进行比较,必须有一个可供比较的平台,包括公共的评测语料和统一的评价方法。本节主要介绍目前该项研究工作中用到的公共语料。这些语料都可以免费下载。目前,所见到的大都是英文语料,还没见到公开的中文垃圾邮件语料库。

2.1 PU系列语料

PU系列语料①由希腊学者Androutsopoulos提供,其来源于提供者收到的某个时段的真实邮件。语料只保留了这些邮件的标题和正文中的纯文本内容。为了保护提供者的隐私,语料中将邮件中的不同词汇用不同整数代替。PU系列语料目前包括PU1、PU2、PU3和PUA四个语料。每个PU语料平均分成10份,可以每次取其中的9份作为训练集,另外1份作为测试集进行交叉验证(cross validation)。PU系列语料的详细情况可参见表1。PU系列语料的不足在于内容加密后不能试验语言学相关的方法。

①可从http:∥iit.demokritos.gr skel i-config downloads下载。

2

2.2 Ling -Spam 语料

Ling -Spam ①也由Andr outsopoulos 等人提供,由提供者收到的垃圾邮件和来自于语言学家邮件列表(Linguist list )的合法邮件组成。Ling -Spa m 中公用的合法邮件没有加密。Ling -Spa m 和PU1使用相同的垃圾邮件样本。

Ling -Spam 语料的不足在于它的合法邮件都来自于一个特定的邮件列表,因此这些合法邮件都偏向于一个主题,而对某个特定用户来说,真正收到的合法邮件内容的主题一般都很发散。从实验上看来,这种内容专指性可以导致比较好的过滤结果。如果我们关注某个邮件组或者邮件列表上的垃圾邮件过滤,可以采用在Ling -Spam 语料上表现较好的算法。

2.3 其他语料

除了上述两种类型的语料外,目前见到的公开垃圾邮件语料还包括Spa m Assassin 语料②和Spambase 语料③等等,前者是Network Associates 的Justin Mason 提供的。与Ling -Spam 有些类似,其合法邮件来自公众论坛。Spambase 语料由Hopkins 、Reeber 等人提供。与前面提到的那些语料不同,Spambase 将每一封邮件都表示为向量的形式,每个向量都是57维(预先选择出来的57个词特征),权重一般是词频。Spambase 来自于提供者的私人邮件。

表1 垃圾邮件语料情况(数量单位:封)语料名称

非垃圾邮件数量垃圾邮件数量总数量备 注PU1

618Pr 481Pr 1099加密,多种形式PU2

579Pr 142Pr 721加密PU3

2313Pr 1826Pr 4139加密PUA

571Pr 571Pr 1142加密LingSpam

2412Pu 481Pr 2893未加密Spam Assassin

4150Pu 1897Pr 6047未加密Spambase 2788Pr 1813Pr 4601向量

Pr ———来自私人邮件,Pu ———来自公众论坛

3 评价体系

垃圾邮件过滤的性能评价通常

借用文本分类的相关指标。具体

地,假设待测试的邮件集合中共有

N 封邮件,一个垃圾邮件过滤系统

的判定结果如表2所示:

表2 垃圾邮件系统判定情况分布(单位:封)实际为垃圾邮件实际为合法邮件系统判定为垃圾邮件A B 系统判定为合法邮件C D

其中,N =A +B +C +D =N s +N l 。N s =A +C 为实际的垃圾邮件数目,N l =B +D 为实际的合法邮件数目。则可定义如下几个评价指标来衡量不同垃圾邮件过滤系统的性能:

(1)召回率(Recall ):R =A A +C =A N s

,即垃圾邮件检出率。这个指标反映了过滤系统发现垃圾邮件的能力,召回率越高,“漏网”的垃圾邮件就越少。

(2)正确率(Precision ):R =A A +B ,即垃圾邮件检对率。正确率反应了过滤系统“找对”垃3

③可从http :∥www .ics .uci .edu ~mlearn MLRepository .html 获得。

可从http :∥www .spamassassin .org 获得。可从http :∥iit .demokritos .gr skel i -config downloads 下载。

圾邮件的能力,正确率越大,将合法邮件误判为垃圾邮件的可能性越小。

(3)精确率(Accuracy):Ac cur=A+D

N

,即对所有邮件(包括垃圾邮件和合法邮件)的判对率。

(4)错误率(Error rate):Err=B+C

N

=1-Ac cur,即对所有邮件(包括垃圾邮件和合法邮件)的判错率。

(5)F值:F=2PR

R+P

,F实际上是召回率和正确率的调和平均,它将召回率和正确率综合成一个指标。

除此之外,垃圾邮件过滤中还常常采用虚报率(Fallout)、漏报率(Miss rate)等指标。

另外,我们在前面提到,在实际的垃圾邮件过滤中,人们往往不希望将合法邮件误判成垃圾邮件。为了表示不同情况下垃圾邮件系统的代价。Androutsopoulos[8]等人提出了代价因子的概念。假设将合法邮件误判为垃圾邮件的损失为是垃圾邮件判为合法邮件的λ倍(如:λ= 9表示一封合法邮件误判的损失是一封垃圾邮件误判的9倍)。则可以定义:

WErr=λB+C

λN l+N s ,WErr b=N s

λN l+N s

代价因子TCR=W Err b

WErr

=

Ns(λN l+N s)

(λB+C)(λN l+N s)

=

N s

λB+C

TC R越高,表明当前垃圾邮件过滤系统的损失越低。

另外,在评价一个真实垃圾邮件过滤系统时,还要考虑算法实现的时空效率。

4 基于内容的垃圾邮件过滤方法

基于内容对垃圾邮件进行判别,目前一些垃圾邮件过滤工具中常采用黑名单-白名单或者手工制订规则的方法。黑名单-白名单可以看成手工制订规则方法的特例。黑名单给出了发送垃圾邮件的邮件地址(或者是IP地址范围、域名等属性)列表,凡是属于黑名单的邮件被判定为垃圾邮件。白名单收录了邮件接收者确信的邮件地址信息,凡是属于白名单的邮件都被判定为合法邮件。手工建立规则的方法通过用户建立一系列规则来判定垃圾邮件。显然,这些方法的主观性会造成大量合法邮件的误判和垃圾邮件的漏判。因此,目前的垃圾邮件工具逐渐倾向于引入基于内容的机器学习判别方法。

目前基于内容垃圾邮件判别的机器学习方法可以大体分成基于规则的方法和基于概率统计的方法。前者常常得出人们可以理解的显式规则;后者往往通过某种计算表达式推出结果。本质上,概率统计方法可以看成规则方法的一种特例,只不过概率统计方法中得到的规则是一种不被人轻易理解的“隐式规则”。

不管是基于规则的方法还是基于概率统计的方法,在使用时都经历从训练到过滤的过程。通过已有的训练集合(正例+反例)训练出相应的垃圾邮件规则(包括显式规则或隐式规则),然后将规则应用到新的邮件判定中去。在实际系统中可能还会加入人机交互过程,通过用户对判定结果的认可与否对已有的垃圾邮件规则进行更新。

4.1 基于规则的方法

基于规则的方法通过训练得到显式规则(通常用产生式表示,如:if邮件包含sare money Then该邮件为垃圾邮件)。规则方法学习的过程实际上是归纳总结的过程,通过考查一个个的训练样本,归纳总结出其中规律性的东西来形成规则。规则方法的主要优点是可以生成人4

类理解的规则。缺点是在规律性不明显的应用领域效果较差。

4.1.1 Ripper

Ripper是William W.Cohen[17]提出的一种基于规则的方法。它比传统的规则方法速度更快、性能更高。Cohen[18]的普通文本分类的实验表明,Ripper方法的正确率和决策树方法C4.5相差不大,但是速度却提高了两个数量级。Drucker[5]将Ripper方法用于垃圾邮件过滤,在1000个文本特征的情况下,通过从正例中学习规则并对规则进行修剪来获取垃圾邮件的覆盖规则,在某单位员工真实邮件语料库(含850篇垃圾邮件和2150篇非垃圾邮件)上取得了80%以上的精确率。

4.1.2 决策树(Decision Tree)方法

决策树是著名的规则方法之一。通过按照某种属性的顺序自顶向下地生成一棵树,树的每个节点是属性名,而每条边是属性值。从树根到树叶的一条路径便对应一条规则。基于信息增益进行属性顺序选择是决策树中常用的方法之一。著名的决策树算法有I D3、C4.5等。Carreras[19]使用决策树来过滤垃圾邮件,他采用RL M距离方法而非信息增益来选择特征,采用TFIDF来描述特征,在PU1语料上得到的垃圾邮件过滤的正确率和召回率都在88%左右。目前,由于决策树方法效果一般,它本身并不常常直接用于垃圾邮件过滤,而是作为Boosting方法的弱学习器来使用[13,19,20]。

4.1.3 Boosting方法

严格地说,Boosting方法不是一种特定的学习方法,而是一种在已有学习方法基础上的进行“投票”的技术。它通过对已有的分类器(称为弱规则或弱假设)进行加权求和得到最终的分类器(称为强规则或强假设)。虽然从理论上来说,任何机器学习方法都可以作为Boosting方法的弱学习器,但在实际中,Boosting的弱规则常常采用基于规则的方法,因此我们将它归于规则方法类。B oosting通过关注弱规则的错误而逐渐组合成强规则,它是一种错误驱动的方法。AdaBoost是Boosting方法中最常用的一种。Carreras[19]和Nicholas[20]将AdaBoost引入到垃圾邮件过滤,获得了很高的性能。Carreras的方法中还考察了不同深度决策树作为弱学习器下的过滤性能,他们发现,随着深度的增加,过滤的正确率将更高。与此类似的是,Desouza[13]使用了决策树方法作为弱学习器在LingSpam语料上进行垃圾邮件过滤的两组实验,一组是采用一层的决策树进行多遍Boosting循环,另一组是采用完全的决策树进行少量Boosting循环。他的实验证明,两组情况下都能取得很高的精确率(98%以上)。Androutsopoulos[9]在实验中引入了另外一种Boosting方法———LogitBoost,其弱学习器采用了对数回归方法,学习到的是实数值而不是分类结果,最后通过一个阈值来实现分类。从发表的结果看,LogitBoost在PU1上的结果略逊于AdaB oost。Boosting方法的最主要缺点是训练速度较慢。

4.1.4 粗糙集(Rough Sets)方法

Rough Sets理论是由Pawlak于上世纪80年代提出的一种研究不完整、不确定知识和数据的表达、学习、归纳的理论方法。Rough Sets的研究对象是一个多值属性集合描述的向量集合。它通过集合的等价关系操作来确定属于给定类的最大对象集合和可能属于给定类的最小对象集合,从而指导分类决策。Rough Sets通常经过属性约简(消除对决策属性没有影响的属性)和属性值约简(消除对决策属性没有影响的属性值)来简化分类规则。刘洋等[22]将Rough Sets引入到垃圾邮件过滤,采用了11种非文本属性(包括收信人个数、中继个数等等)来进行邮件分类(正常、广告和反动)。在一个小规模的垃圾邮件样本上实验,可以达到80%左右的正确率。需要指出的是,上述实验中使用的特征是所谓邮件“元信息”,并非其他实验中所使用的邮件中

5

的文字内容。实际上,同样可以使用文字内容特征来应用Rough Sets方法。

4.2 基于统计的方法

4.2.1 kNN方法

kNN是最常用的基于实例的方法。kNN没有训练过程,分类时直接将待分类文本与训练集合中的每个文本进行比较,然后根据最相似的k篇文本得到新文本的类别。kNN的原理非常直观。在文本分类中,kNN常常能够取得较好的结果。但是由于其分类速度的局限性,不太适用于对分类速度要求较高的垃圾邮件过滤场合。尽管如此,出于研究的目的,一些文献仍然将它应用于垃圾邮件过滤领域。Andr outsopoulos[7]使用了一种类kNN方法,该方法使用k组最近的距离而不是k个最近的样本来计算,如果多个样本同待过滤邮件距离相差不大的话,则这些样本都将用于确定最后的结果,此时,过滤中真正使用的样本数目大于k。实验表明,kNN 在k取较小值的情况性能较好,和Na?ve Bayes的结果性能几乎相当。

4.2.2 SVM

支持向量机(Support Vector Machine,简称SVM,也叫做支撑向量机)是在二十世纪90年代以来发展起来的一种统计学习方法,它通过构造最优线性分类面来指导分类。SVM可以直接用于线性可分问题,而对于线性不可分的情形,可以构造一个变换,将问题转换到一个新的空间,在这个新空间中线性可分。在文本分类中,SVM是公认的较好的方法之一。Drucker[5]将线性SVM用于垃圾邮件过滤,得到的结果再次印证了这一点。Drucker还指出,采用二值表示的SVM的性能稍高于采用多值表示的SVM。另一个使用SVM的好处就是不需要进行特征选择就可以直接利用SVM进行过滤,其结果和经过特征选择差别不大。Androutsopoulos[9]也在实验中引入了SVM方法,与Drucker不同的是,他使用了实数值作为特征权重。Kolcz[1]则采用了多种SVM方法的变形进行垃圾邮件过滤。

4.2.3 Rocchio方法:

Rocchio[11]方法由是信息检索领域常常用于相关反馈的方法。它用于分类的基本思路很简单:将所有训练文本向量化,类别向量等于所有正例向量和反例向量的加权差。形式地:

C=a

D+

x※

i

∈D+

x※i-

β

D-

x※

i

∈D-

x※i

其中D+、D-分别表示正例和反例集合,D+、D-分别表示正例集合和反例集合的大小。α、β为加权系数。计算得到的结果C表示该类的类别向量。用于垃圾邮件过滤时,通过上式可以得到垃圾邮件类的类别向量。新的邮件与类别向量计算距离,距离小于某个阈值θ,则判定该邮件属于垃圾邮件类,否则为合法邮件。实际应用中,α可以设定为1,β和θ可以通过训练得到(使得训练集合的分类错误率最低)。Drucker[5]将该方法用于垃圾邮件过滤。该方法十分简洁,分类时间短,但是过滤效果稍差。Rocchio其实是一种基于向量表示的方法。邮件和类别都表示成特征组成的向量。为了减少向量的维数,选择更“语义化”的特征。陈华辉[30]在垃圾邮件过滤中引入了潜在语义索引方法。但文章没有关于实验结果的叙述。

4.2.4 Winnow方法

Winnow①是一种线性分类器。它训练的目的是为了找到某个类所有特征的权重向量w =(N是特征数)和阈值θ,对于新文本x=,若两者的内

6

①严格地说,Winnow实际是一种基于神经网络的方法。本文为了叙述方便,将之结为统计方法。

积w T·x>θ,则判定属于该类。否则,不属于该类。Winno w在学习w时采用的是一种错误驱动的方法。在训练时,一旦发生错误,将根据需要降低或者升高w里相应特征的权重值。Bal-anced Winno w[14]算法是Winnow算法的一种,它和普通Winno w算法的不同在于引入了两个权重向量w+和w-,训练时通过同时变化w+和w-来达到更新权值的目的。潘文锋[23]将Balanced Winnow算法引入到垃圾邮件过滤,在应用时使用了固定的阈值θ,它的大小是每篇训练文本所含的平均特征数,而初始的w+和w-分别取全2向量和全1向量。在不同语料库上的实验结果表明,该方法效果接近目前所发表的最好结果,而Winnow在训练速度和分类速度上具有较大的优势,所以具有更高的实用价值。另外,作为一种在线(On-line)学习方法的Winnow,在训练集合不断扩大的情况下能够快速对分类器进行更新。

4.2.5 Bayes方法

Bayes方法是通过计算文本d属于每个类别C i(i=1,2,…,M,M为类别个数)的概率P (C i d),并将它们排序取其最大值来得到d所属的类别。根据Ba yes公式,最后归结于求每个类别的概率P(C i)和从类别C i生成文本d的概率P(d C i)。这两个概率都可以通过训练语料得到。Na?ve Bayes是Ba yes方法中使用最广泛的一种。在这种方法中,假设d由互相独立的多个特征w j(j=1,2,…,N,N是d中不同特征数)生成,于是P(d C i)由可以归结成求P (w j C i)。Na?ve Ba yes方法被广泛用于文本分类中,取得了不错的效果。

已有多位学者将Bayes方法应用于垃圾邮件的判别。Stanford大学的Sahami[16]将Na?ve Ba yes方法引入到垃圾邮件过滤进行实验。Sahami采用了自己收集的邮件作为实验数据。值得一提的是,Sahami除了使用词汇作为特征外,还使用了词组特征和其他属性特征(如标题中非字母和数字字符所占的百分比),实验结果表明,其他属性特征能够较大幅度地提高过滤结果(精确率在95%左右)。Saha mi的另外一项工作是将垃圾邮件细分为色情和非色情邮件,再加上合法邮件,变成一个三类问题进行实验(当然实验的最终目标还是区分垃圾和合法邮件两类)。Sahami的实验结果却表明,将垃圾邮件判别看成三类问题反而降低了效果,文章对该出乎意料的结果进行了分析。

Androutsopoulos[8]也利用Na?ve Bayes来判别垃圾邮件。他采用了公开语料Ling-spam进行实验。实验中考查了不同文本预处理形式对过滤结果的影响,得出的结论如果对原始文本除去停用词和进行词汇还原,能得出最佳的实验结果。该论文的另一个工作是提出垃圾邮件的代价因子指标,并分析了不同过滤阈值条件下代价因子的变化情况,文章指出,一味地追求高的邮件正确率在系统实现时可能去造成很大的代价。本文所做实验的正确率和召回率略低于上一篇文章。

Sc hneider[12]、潘文峰[23]也利用Na?veBayes模型来判别垃圾邮件,他们使用了两种不同的概率估计方法:贝努利分布模型和多项式分布模型。比较发现,前者不仅计算上更简便,效果上也略优于后者。

除了Na?ve Ba yes外,不少学者还使用了其他的Bayes模型。IB M的Mertz[2]不是采用独立性假设而是考虑使用N元语言模型来估计相关的概率。文章发现三元语言模型是一个很好的选择。Androutsopoulos[9]使用了一种Flexible Bayes模型,虽然该模型仍然采用独立性假设,但是对概率的估计使用了高斯分布模型。该方法获得了很好的效果。

4.3 对比实验

目前一些学者对上述的各种方法进行了对比实验。Drucker[5]比较了Ripper、SVM、B oosting

7

和Rocciho 方法,得出的结论是SVM 和B oosting 方法相当,Ripper 的结果最差。而SVM 和B oost -

ing 相比,训练时间更短。Androutsopoulos [6,7]比较了Na ?ve Bayes 、kNN 以及基于关键词过滤(Out -

look 所用)的方法,得出的结论是基于关键词过滤的效果最差,kNN 和Na ?veBayes 效果相当,但是kNN 的过滤时间较长。潘文锋[23]比较了Ba yes 方法和Winnow 方法,得出了结论是Winnow 方法效果好于Bayes ,Winno w 速度上虽略微差一点,但是增量更新非常容易,是一种很有前途的垃圾邮件过滤方法。Carreras [19]比较了决策树、Na ?ve Bayes 和Boosting 方法。结论是B oosting 方法最好,Na ?ve Bayes 和决策树方法性能相当,但Na ?ve Ba yes 的正确率高于决策树方法。

以上这些实验由于采用不同的语料,特征选择也不尽相同,比较的方面也不完善,因此,实

验之间缺乏可比性。有鉴于此,Androutsopoulos [9]使用4种不同语料,对4种垃圾邮件过滤方法

(Na ?ve Bayes 、Flexible Bayes 、SVM 以及一种Boosting 方法LogitB oost )使用相同的特征选择方法,在每种语料上进行了时间、性能、代价因子等的全面比较。4种算法的时间分析如表3所示。

表3 算法时间比较算 法

训练时间过滤时间Na ?ve Bayes

O (mN )O (m )Flexible Bayes

O (mN )O (mN )SVM

O (m 2N 2)O (m 2N )LogitBoost O (m 'mN 2)O (m ')

其中,N 是训练邮件个数,m 是特征个数,m '是LogitBoost 算法中的循环次数。从表中可以得到,Na ?ve Bayes 方法训练时间和过滤时间都相对较短。而SVM 方法的训练时间和过滤时间都较长。虽然如此,文章同时指出,以上分析基于最坏情况,在算

法实际实现时,通常的时间代价会远小于理论分析。文章的对比实验发现,在相同特征的情况下,Flexible Ba yes 方法在性能和代价因子等方面占据上风。其他方法则大抵相当(考虑到实现的可行性,作者的B oosting 方法中采用了较少的循环次数)。作者同时比较了采用单个词或者N -gra m 做为特征的过滤效果,结果发现N -gram 在加大计算复杂度的同时并不能显著提高结果性能。文章在此基础上介绍了一个实际的垃圾邮件过滤原型系统的流程和实现。

目前,已经实现的垃圾邮件过滤方法的大致比较可以参见下表①。从表中可以看出,Na ?ve Ba yes 和Rocchio 在训练和分类上速度占优但结果一般,而Flexible Bayes 、SVM 、B oosting 、Winnow 方法分类速度很快结果性能很好。Boosting 在训练速度上处于下风。如果考虑更新的方便程度,则Winnow 算法占据优势。

表4 目前各种垃圾邮件过滤方法的大致对比Classifier

Training Class ification Update Storage Performance Ripper

**************Rocchio

*********Na ?ve Bayes

*********Flexible Bayes

*********SVM

**********KNN

None *****None ********Boostin g

***********Winnow ******

*越多表示这种方法越耗时间、空间或者性能更差,相同的*个数表示两种方法大概处于同一量级。需要指出的是,垃圾邮件过滤使用了文本分类方法,但其不完全等同于文本分类。首先,垃圾邮件具有自己的特殊特征。一些方法在实验时同时考虑这些特殊特征。比如,刘洋[22]的8

①该表只是通常情况下的大致比较,实际上,有些方法受参数影响较大。比如:规则方法的速度和所使用规

则的数目有很大的关系。

实验中只使用邮件的元信息(发信人、收信人等)。Sahami[16]通过加入垃圾邮件本身的一些特征(如非正常字符的比率)来提高过滤效果。其次,很多学者都考虑了垃圾邮件过滤中不同错误的代价,从而通过改造基本的学习器来适应这种代价计算。改造中主要的思想就是提高样本中合法邮件的权重。再次,垃圾邮件过滤不仅要考虑过滤性能,也关注实际应用的时空效率。最后,由于邮件到达的时间序列性,垃圾邮件过滤还有一个随时间不断更新以适应用户兴趣变化或到达邮件特征发生变化的情况。更新问题在文献[23]中略有提及。但是相关的详细研究进展还未见到。

5 总结和展望

垃圾邮件问题已经受到了包括学者、商业界、法律界等各界人士在内的广泛关注,目前已经有专门针对该领域的多项国际会议。基于内容的垃圾邮件过滤是解决垃圾邮件的重要方法。本文总结了目前该方法的研究现状。目前的研究主要借鉴机器学习的方法,从已有的训练语料中学习垃圾邮件的规律来指导后续邮件的判断。包括Bayes、决策树、SVM、Boosting在内的很多机器学习方法都被应用到垃圾邮件过滤中。从目前的研究结果看,Flexible Bayes、SVM、B oosting、Winnow等这些机器学习方法在一些小规模语料上似乎可以达到实用的程度。但是,在实际应用时仍然有许多工作要做。这是因为,垃圾邮件过滤是一项长期的斗争。在我们对付垃圾邮件的同时,垃圾邮件制造者也在挖空心思制造更“合理”或者严重干扰过滤器的垃圾邮件。因此,一方面,对垃圾邮件的预处理显得越来越重要(即还原到邮件的真实内容);另一方面,垃圾邮件过滤器也要不断地更新来适应垃圾邮件的一些新特征。另外,在真正的实用垃圾邮件系统中,综合各种方法(包括各种机器学习方法、黑白名单人工规则方法甚至图片分析方法等)和各种特征(除正文内容外,还包括群发特征、元信息特征等)是垃圾邮件工具研制的趋势。

参 考 文 献:

[1] A.Kolcz and J.Alspector,SVM-based Filtering of E-mail Spam with Content-specific Misclassification Costs[A].

In:Proc.ICDM-2001Workshop on Text Mining(TextDM2001)[C].Nov.2001.

[2] D.Mertz,Six appQroaches to eliminating un wanted e-mail[EB].from http:https://www.doczj.com/doc/ae8496514.html, developerWorks

cn linux other l-spamf index—eng.shtml,September,1999.

[3] G.Sakkis,I.Androuts opoulos,G.Paliouras,V.Karkaletsis,C.D.Spyropoulos,and P.Stamatopoulos,A Mem-

ory-Based Approach to Anti-Spam Filtering for Mailin g Lists,Information Retrieval[J].Vol.6,No.1,pp.49-73, Kluwer Academic Publishers,2003.

[4] H.Katirai,Filterin g Junk E-M ail:A Performance Comparison bet ween Genetic Programming&Naive Bayes[D].

available online at:http:https://www.doczj.com/doc/ae8496514.html, hoomank katirai99filtering.pdf,Sep.1999.

[5] H.Drucker,D.Wu,and V.N.Vapnik,Support Vector Machines for Spam Categorization[J].IEEE Transactions

on Neural Net works,Vol.20,No.5,pp.1048-1054,Sep.1999.

[6] I.Androutsopoulos,J.Koutsias,K.V.Chandrinos and C.D.Spyropoulos,An Experimental Comparison of Naive

Bayesian and Keyword-Based Anti-Spam Filtering with Encrypted Personal E-mail Messages[A].In:Proceedings of the23rd Annual International AC M SIGIR Conference on Research and Development in Information Retrieval(SIGIR 2000)[C],Athens,Greece,pp.160-167,2000.

[7] I.Androutsopoulos,G.Paliouras,V.Karkaletsis,G.Sakkis,C.D.Spyropoulos and P.Stamatopoulos,Learning

to Filter Spam E-Mail:A Comparison of a Naive Bayesian and a Memory-Based Approach[A].In:Proc.4th Euro-pean Conference on Principles and Practice of Knowledge Discovery in Databases(PKDD2000)[C].pp.1-13,

9

Sep.2000.

[8] I.Androutsopoulos,J.Koutsias,K.V.Chandrinos,G.Paliouras and C.D.Spyropoulos,An Evaluation of Naive

Bayesian Anti-Spam Filtering[A].In:Proc.of the Workshop on Machine Learning in the New In formation Age,11th

E uropean Con ference on Machine Learning(EC ML2000)[C].pp.9-17,May2000.

[9] I.Androutsopoulos,G.Paliouras and E.Michelakis,Learning to Filter Unsolicited Com mercial E-M ail[EB].Tech-

nical report20042,NCSR“Demokritos”,2004.

[10] J.M.G.Hidal go,Evaluatin g Cost-Sensitive Unsolicited Bulk Email Categorization[A].In:Proceedings of AC M

Symposium on Applied Computing(SAC2002)[C].pp.615-620,M ar.2002.

[11] J.Rocchio,Relevance feedback in information retrieval[M].In:the SMART Retrival System:Experments in Au-

tomatic Document Process ing,pp.313-323,PrenticeHall Inc.,1971.

[12] K.Schneider,A Comparison of Event Models for Na?ve Bayes Anti-Spam E-Mail Filtering[A].In:Proc.10th

Conference of the European Chapter of the Association for Computational Linguistics(EACL2003)[C].Budapest, Hun gary,pp.307-314,Apr.2003.

[13] M.DeSouza,J.Fitzgerald,C.Kemp and G.Truong,A Decision Tree based Spam Filtering Agent[EB].from ht-

projects gntr index.html,2001.

tp:www.cs.mu.oz.au4812001

[14] N.Littlestone,Learning quickly when irrelevant attributes abound:A new linear-threshold algorithm[J].Machine

Learning,2(4):285-318,1988[J].

[15] R.Krishnamurthy and C.Orasan,A corpus-based investigation of junk emails[A].In:Proceedings of Lan guage

Resources and Evaluation Con ference(LREC2002)[C].Las Palmas de Gran Canaria,Spain,pp.1773-1780, May2002.

[16] M.Sahami,S.Dumais,D.Heckerman and E.Horvitz,A Bayesian approach to filtering junk e-mail[A].In:

Proc.of AAAI Workshop on Learning for Text Categorization[C].pp.55-62,1998.

[17] W.Cohen,Fast effective rule induction[A].In:M achine Learnin g Proceedings of the Twelfth International Confer-

ence[C].Lake Taho,California,Mongan Kanfmann,pp.115-123,1995.

[18] W.Cohen,Learnin g rules that classify email[A].In:Proceedings of the AAAI spring symposium of Machine Le-

arning in Information Access,Palo Alto[C].California,pp.18-25.1996.

[19] X.Carreras and L.Marquez,Boosting Trees for Anti-Spam Email Filtering[A].In:Proceedings of E uro Confer-

ence Recent Advances in NLP(RANLP-2001)[C].pp.58-64,Sep.2001.

[20] T.Nicholas,Using AdaBoost and Decision Stumps to Identify Spam E-mail[EB].Stanford University Course Project

(Spring20022003)Report,from http:https://www.doczj.com/doc/ae8496514.html, courses cs224n2003fp.

[21] Y.Diao,H.Lu and D.Wu,A Comparative Stud y of Classification Based Personal E-mail Filtering[A].In:Pro-

ceedin gs of PAKDD-2000[C],pp.408-419,Apr.2000.

[22] 刘洋,杜孝平,罗平,侯志辉,郭晨,骆焕林,等.垃圾邮件的智能分析、过滤及Rough集讨论[A].第十二

届中国计算机学会网络与数据通信学术会议[C].武汉,2002年12月

[23] 潘文峰.基于内容的垃圾邮件过滤研究[D].北京:中国科学院计算技术研究所,2004.7.

[24] 赵晓明,郑少仁.电子邮件过滤器的分析与设计[J].东南大学学报:自然科学版,2001,31(5):19-23.

[25] 郭泓.电子邮件过滤技术浅析[J].信息网络安全,2002(10):42-44.

[26] 落红卫,刘建毅,等.智能邮件过滤系统的研究与实现[J].机电产品开发与创新,2003(1):51-52.

[27] 谭立球,谷士文,等.个人化电子邮件自动过滤系统的设计[J].计算机应用,2002,22(6):54-55.

[28] 张长君.电子邮件的一种过滤方法[J].计算机安全,2002(12):42-43.

[29] 王庆波,方滨兴.电子邮件过滤检测系统的设计与实现[J].计算机应用研究,2000,17(10):105-106.

[30] 陈华辉.一种基于潜在语义索引的垃圾邮件过滤方法[J].计算机应用研究,2000,17(10):17-18,35.

[31] 刘斌,黄铁军,程军.一种新的基于统计的自动文本分类方法[J].中文信息学报,2002(6):18-24.

[32] 李渝勤,孙丽华.基于规则的自动分类在文本分类中的应用[J].中文信息学报,2004(4):9-14.

10

电信业防毒、反垃圾邮件解决方案

电信业防毒、反垃圾邮件解决方案 各种信息技术的不断发展为电信运营商带来了广阔的商机,同时也带来了新的威胁和风险。作为基础网络提供商的电信企业,影响最大、威胁最大的风险就是那些消耗基础带宽、影响网络性能的威胁,主要包括混合型病毒和各种垃圾邮件。 适于电信级业务的防御技术 Symantec的方案从“主动防御、主动反应”这一观点出发,协助运营商建立适用电信业务、可伸缩、抗打击的防病毒网络,可在最新的混合型病毒没有出现之前就形成防御墙,避免病毒带来的损失。 1.通用漏洞利用阻截技术 正如只有形状正确的钥匙才能打开锁一样,当新漏洞出现时,研究人员可以描述经过网络到达漏洞计算机,并利用该漏洞实施入侵的数据的特征。对照该“形状”特征,就可以检测并阻截具有该明显“形状”的任何攻击。 2.行为阻截技术 在系统中实时监控各种程序行为,一旦出现与预定的恶意行为相同的行为就立即进行阻截。使用了带行为阻截技术的Symantec防病毒软件之后,防病毒软件将监视计算机上的所有外发电子邮件。如果该电子邮件有附件,则将对附件进行解码,并将其代码与计算机中启动此次电子邮件传输的应用程序相比较。如果非常相似,防病毒软件将终止此次传输,从而中断蠕虫的生命周期。 3.精确的多层过滤反垃圾邮件技术 Symantec通过采用全面的、多层级的过滤技术来防御垃圾邮件。通过为电信运营商设计智能、多层的混合型病毒和垃圾邮件防护架构,可以优化全系统内混合型病毒和垃圾邮件事件的监控,以便及早发现、及时通报、快速处理,缩短响应时间,有效降低病毒可能造成的损失。建立多层、分布式的混合病毒和垃圾邮件防御架构,既与电信运营商现有行政管理模式相匹配,提高管理效率,同时又能体现“统一规划,分级管理”的思想,让各省级单位分担总部,地市级单位分担省公司的运行维护负担。 解决方案三大支柱 1.Symantec Network Security 7100系列入侵防护设备 SNS 7100系列是新一代的网络安全产品,同时具备IPS(入侵防御)和IDS(入侵检测)两项功能。作为成熟的IPS产品,SNS是自动防御的网络安全产品,无需人工干预,可自动检测、屏蔽网络入侵行为,减少用户用于日常维护的人力成本。SNS可以透明(inline)方式部署在用户网络中,不用修改用户网络结构,也不用修改交换机配置。配合产品自带的安全策略,实现了即插即用。 2.Symantec Brightmail Antispam反垃圾邮件解决方案

贝叶斯过滤垃圾邮件算法的基本步骤

一、贝叶斯过滤算法的基本步骤 1)、收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集; 2)、提取邮件主题和邮件体中的独立字串例如 ABC32,¥234等作为TOKEN串并统计提取出的TOKEN串出现的次数即字频。按照上述的方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件; 3)、每一个邮件集对应一个哈希表,Hashtable_Good对应非垃圾邮件集而Hashtable_Bad对应垃圾邮件集。表中存储TOKEN串到字频的映射关系; 4)、计算每个哈希表中TOKEN串出现的概率P=(某TOKEN串的字频)/(对应哈希表的长度); 5)、综合考虑hashtable_good和hashtable_bad,推断出当新来的邮件中出现某个TOKEN串时,该新邮件为垃圾邮件的概率。数学表达式为: A事件——邮件为垃圾邮件; t1,t2 ,...,tn代表TOKEN串 则P(A|ti)表示在邮件中出现TOKEN串ti时,该邮件为垃圾邮件的概率。设 P1(ti)=(ti在hashtable_good中的值) P2(ti)=(ti在hashtable_ bad中的值) 则 P(A|ti)= P1(ti)/[(P1(ti)+ P2(ti)]; 6)、建立新的哈希表 hashtable_probability存储TOKEN串ti到P(A|ti)的映射; 7)、至此,垃圾邮件集和非垃圾邮件集的学习过程结束。根据建立的哈希表Hashtable_Probability可以估计一封新到的邮件为垃圾邮件的可能性。 当新到一封邮件时,按照步骤2)生成TOKEN串。查询hashtable_probability 得到该TOKEN 串的键值。 假设由该邮件共得到N个TOKEN串,t1,t2…….tn, hashtable_probability 中对应的值为P1,P2,。。。。。。PN,P(A|t1 ,t2, t3……tn)表示在邮件中同时出现多个TOKEN串t1,t2…….tn时,该邮件为垃圾邮件的概率。

垃圾邮件防护系统分析与应用方法

垃圾邮件防护系统分析与应用方法 【内容提要】: 随着联机上网费用日趋便宜,发送电子邮件广告几近零成本又有利可图,因此造成垃圾邮件如今日混乱猖獗的现况。针对这种问题,许多公司研究出许多垃圾邮件防护和过滤机制产品,本文将对垃圾邮件的有关防护过滤技术和解决方法作一个基本介绍。 【关键词】:垃圾邮件、邮件防护、技术分析、AFS、华硕、过滤、机制 引言---------- 随着互联网的蓬勃发展,E-mail信息的传播达到了前所未有的广度和深度。同时不请自来的电子邮件也以各种形式闯入我们的邮箱- 商品推销、诈骗、政治或宗教抨击、病毒载体以及无法归类的稀奇古怪的形式。有些人每天甚至要收到100 到200 封这样的垃圾电子邮件(甚至更多)。因为更多的人开始使用英特网的关系(自因特网建立以来,人数飞速增长),对于商人、小贩、想入非非者以及蓄意破坏者而言,可以无偿地联系到数目巨大的各类人,诱惑力变得难以抵挡,自此大量的垃圾邮件在世界的各个角落产生,并瞬间传递到世界其他任何地方,这种费时且消耗CPU 的破坏行为迅速对经济产生了极大的负面影响。 现今越来越多的人开始意识到垃圾邮件的传递所带来的严重后果,并不断提出防治的新需求。 一垃圾邮件的定义 一封完整的电子邮件包含以下项目:邮件信封Mail Envelope、邮件标题Mail Header、邮件本文Mail Body 与邮件附檔Mail Attachment。电子邮件传输处理分为两阶段:邮件传输代理Mail Transfer Agent (简称MTA),例如邮件服务器,以及与邮件使用代理Mail User Agent (简称MUA),例如Outlook 或Outlook Express。 如果以邮件內容定义垃圾邮件,容易随个人主观认定而异;对银行业、娛乐业,广告业而言,包含其他银行贷款广告、色情广告的邮件,可能是种具有价值的市场资讯,而非垃圾邮件;因此,必需依邮件行为始能,依众人认知、法律规范与国际法规逐一精确定义何为垃圾邮件。 1. 众人认知:不请自來、来路不明、无法拒绝之邮件。 2. 法律规范:造成骚扰、匿名文书或嫁祸他人之邮件。 3. 国际法规: 2003 年底美国立法明定「Can Spam」垃圾邮件法规「Can Spam」字面表示可以「Spam」,惟有「但书」,寄件者必须表明身分,让收件者可以追溯来源不可以匿名、伪造,或者刻意隐匿或篡改资讯等行为发送电子邮件;发送方式方式不可为垃圾邮件滥发者(Spammer) 慣用之垃圾邮件滥发方式或程式,如借用邮件代替(Open Relay)、出现过多邮件转(Received) 或机器自动发送,以及不断尝试各种进入企业信箱方法等,必须提供收件者「选择权」,具有「取消订阅」机制。 综上所述,垃圾邮件之所以恼人并不是因为內容无趣不吸引人,而在于大量滥发,任意长驱直入收信者电子邮件信箱。 二邮件信息安全的影响

基于机器学习的多级垃圾邮件过滤系统研究与设计

基于机器学习的多级垃圾邮件过滤系统研究与设计[摘要] 传统的垃圾邮件过滤方法只是单方面的从邮件系统管理员的角度 将邮件理解为“垃圾邮件”和“合法邮件”两类进行二元处理,很少考虑不同用户对垃圾邮件概念的不同理解和定义,没有更多的从用户角度来过滤和处理垃圾邮件。本文设计了一种面向用户的多层过滤系统,该系统融合了多种机器学习方法,能够在服务器端针对不同的用户采取不同的过滤方案,使用户收到垃圾邮件的概率更小,提高邮件系统的服务质量。 [关键词] 垃圾邮件机器学习系统设计 1.0B0B引言 随着Intemet的快速发展,电子邮件作为一快捷、经济的通信方式得到了普及,已成为人们日常交流沟 通的手段和企业运转的重要组成部分。然而当前网络中垃圾邮件的泛滥,引起了广大研究者的极大关注,并提出了垃圾邮件问题的多种解决方法。其中基于内容的垃圾邮件过滤主要借鉴机器学习的方法具有一定的“自我学习”能力,是解决垃圾邮件的重要方法[1]。然而当前的垃圾邮件过滤产品琳琅满目,反垃圾邮件系统很少考虑不同用户对垃圾邮件的不同认定,垃圾邮件数量并没有减少。 针对垃圾邮件泛滥的现状和当前垃圾邮件产品存在的上述不足,本文设计了一种面向用户的多层过滤系统,该系统融合了多种机器学习方法,能够在服务器端针对不同的用户采取不同的过滤方案。并且本系统不直接依赖具体的邮件系统,能够和不同邮件系统实现简单集成,具有较强的可移植性。 2.系统研究与设计 2.1系统工作流程 系统工作流程图如图1所示,邮件过滤包括初步过滤、个性化过滤两个主要模块。在初步过滤阶段系统将到达的邮件分为确定合法的邮件、不确定的邮件、确定的垃圾邮件三大类。个性化模块再对不确定的邮件进行分级,将分级后的邮件送入用户邮箱中。同时个性化过滤模块也从用户邮箱中提取用户信息,以指导分级。 2.2 初步过滤模块工作流程 在初步过滤模块,邮件到达系统后,先根据邮件发送者的地址进行黑名单/白名单过滤。黑名单/白名单可以从Spamhaus、RBL服务器获取。邮件预处理模块先对邮件进行分词,英文邮件分词较为容易,中文邮件则由于中文的特殊性使得分词较为困难。本系统采用文献[2]介绍中文实时分词算法,该算法采利用TRIE

中海油垃圾邮件解决方案

中海油垃圾邮件解决方案 应用背景: 在近几年的时间里,大型传统行业随着电子信息化的大力推进,依赖网络开展业务和管理的模式逐渐普遍,而信息系统面临垃圾邮件的威胁也不可避免地呈指数级增长,垃圾邮件占电子邮件总通讯量的比例达到了75%以上,而这一数字在三年前仅为8%;与此同时,垃圾邮件的类型以及发送手段也愈加复杂化、多样化,电子邮件一跃成为病毒的主要传播方式;这一系列的变化对大型传统行业信息系统网络构成了严重的威胁, 中海油网络现状: 本次采用梭子鱼垃圾邮件防火墙的客户是中国最大的国家石油公司之一——中国海洋石油总公司(以下简称中国海油)。其是中国最大的海上油气生产商,公司成立于1982年,注册资本500亿元人民币,总部位于北京,现有员工4.4万人。 公司的内部管理和海外业务拓展,随着网络系统的建设而日益高效便利,只是伴随着病毒、木马、间谍软件的垃圾邮件对公司的危害已经到了非治理不可的地步:公司形象——这是电子邮件使用者的第一大问题,由于垃圾邮件的泛滥,对于中海油而言,可能造成员工弃用本公司邮箱,这不仅对公司以前网络建设的投入造成浪费,且有损公司在客户和公众心中的形象。 降低工作效率——使用者会浪费无谓的时间阅读并处理这些无用的电子邮件,而工作效率降低被认为是公司因垃圾邮件所导致的最大损失。 不当内容——垃圾邮件中可能包含攻击性文字,大多是政党攻击,此种邮件可能会伤害特定的群组,甚至牵连公司受到行政审查。此外,还有相当数量的色情、非法宗教、以及其他与国家法规相悖的信息,这些都将对收件人造成不同程度的冲击。 浪费IT资源——进入网络的大量垃圾邮件,会影响公司的网络使用带宽。 对安全和隐私造成危害——例如邮件病毒、Phisher诈骗邮件、身份盗窃信等,会造成公司及个人信息的外泄或流失等。 现代垃圾邮件技术和危害: 当前的垃圾邮件发送已经成为跨国性的、有组织的犯罪行为,单靠一个国家的行政力量或单纯依靠公司IT部门自有技术很难应对,因此中海油主动采取了相应手段,防御垃圾邮件的威胁。 电子邮件系统目前是中海油的关键业务系统之一,所有Internet电子邮件均统一发送到总邮件服务器,由邮件服务器通过网络分发到各分支机构的电子邮件客户端。目前邮件网关服务器,主要用于收发INTERNET邮件,操作系统Windows 2003,邮件系统为Exchange 20000,前置机部署在DMZ区,后台主要收发邮件的服务器部署位置在内部防火墙后边,高峰期邮件数大约为700-1000左右,每天的电子邮件流量在5万封左右。 目前大量垃圾邮件、病毒邮件通过电子邮件系统传播,并不定期对中海油邮件服务器进行洪水攻击、DDos攻击、列举式字典攻击等,初步估计5%左右的电子邮件为病毒邮件,而垃圾邮件数量占邮件总数量的85%以上,而这些垃圾邮件给邮件系统带来了大量潜在威胁: 钓鱼式攻击; 木马; 间谍软件; 病毒; 后门程序

《垃圾邮件隔离通知》使用说明

《垃圾邮件隔离通知》使用说明 1 概述 为进一步提高院邮件系统拦截垃圾邮件的效率,减少垃圾邮件对用户的滋扰,院邮件系统在2009年4月28日,正式启用了新一代智能型反垃圾邮件系统。 新一代智能型反垃圾邮件系统不仅具有过滤效果好、运行稳定、负载低、延迟小的优势,而且利用其所采用的“空中拦截”、“行为识别”等连接层和内容层的反垃圾邮件技术,能够对Internet上出现的新型垃圾邮件进行零日防范。在部署新一代智能型反垃圾邮件系统的过程中,院邮件系统还根据广大用户的需求进行了二次开发,使其在充分发挥自身优势的基础上,能够更好的贴近中科院用户的实际需要。 新一代智能型反垃圾邮件系统正式启用后,院邮件系统日均过滤垃圾邮件的效率将会保持在90%以上。不仅如此,该系统还能够依据用户需求发送《垃圾邮件隔离通知》,从而方便用户查阅被系统隔离的垃圾邮件,允许用户自行筛选处理,以便将垃圾邮件的误拒率减少到最低。 2 《垃圾邮件通知》的使用方法 院邮件系统发送《垃圾邮件隔离通知》的发件人为abuse_digest@https://www.doczj.com/doc/ae8496514.html,,主题为“×年×月×日垃圾邮件隔离通知”,如图1所示。

图1 《垃圾邮件隔离通知》图示 当点击该邮件的主题后,系统将会显示通知的内容,其中列出了被反垃圾邮件系统隔离的疑似垃圾邮件,包括“发件人”、“主题”、“接收日期”、“大小”、“操作”等信息,如图2所示。 图2 《垃圾邮件隔离通知》样本 在图2所示的《垃圾邮件隔离通知》中,点击其中的“放行到收件箱”链接,系统将把选定的疑似垃圾邮件投递到收件人的邮箱,如图3所示。

图3 邮件成功投递后的系统提示 若点击图2中的疑似垃圾邮件主题,系统将会打开新窗口显示垃圾邮件的内容,如图4所示。 图4 打开新窗口显示垃圾邮件内容 在图4显示的垃圾邮件内容页面中,也设置了“放行”按钮,点击此按钮后,系统即把正在阅读的疑似垃圾邮件投递到收件人邮箱。 在院反垃圾邮件系统中,为每个用户都设置了个人白名单,在图2所示的《垃圾邮件隔离通知》中,点击其中的“添加白名单”链接,系统将把指定邮件的发

垃圾邮件的危害及应对措施

0 引言 垃圾邮件的泛滥,已经对互联网和现实社会造成了危害。对垃圾邮件的治理已成为与抗击网络病毒并列的重任。1 垃圾邮件的概况 所谓垃圾邮件,包括下述属性的电子邮件: 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性质的电子邮件;收件人无法拒收的电子邮件;隐藏发件人身份、地址、标题等信息的电子邮件;含有虚假的信息源、发件人、路由等信息的电子邮件。 垃圾邮件的分类从内容上看,主要是商业广告性质的邮件;另外,有少量政治,团体组织的宣传邮件。从邮件的发送形式上看,有直接发送和第三方转发两种。 所谓直接发送,就是邮件的发送者使用自己的服务器,IP 地址,自己的网络资源传送这些邮件。目前使用更多的是使用第三方服务器转发。对于这种垃圾邮件,只要关闭有关服务器的转发功能就可以了。 垃圾邮件的危害。占用网络带宽,造成邮件服务器拥塞,进而降低整个网络的运行效率;侵犯收件人的隐私权,侵占收件人信箱空间,耗费收件人的时间、精力和金钱。有的垃圾邮件还盗用他人的电子邮件地址做发信地址,严重损害了他人的信誉;被黑客利用成助纣为虐的工具;严重影响ISP的服务形象, ISP每年因垃圾邮件要失去7.2%的用户;妖言惑众,骗人钱财,传播色情等内容的垃圾邮件,已经对现实社会造成了危害。 2 技术上的应对措施 2.1 找出真正发件人 垃圾邮件一般采用了群发软件发送,发信人的地址是可以任意伪造的,查看信头可以让您找到真正的发件人。查看信头的方法是: (1)如果您是在Web页面上看邮件的话,直接打开邮件,点击信件显示页面上方菜单中的“原文”,就可以看到信头。 (2)如果是用Outlook Express来收信的话,指向邮件,不要打开,点击鼠标右键,看信件的属性,再点击详细资料,就可以看到信头。如果有sender的话,sender后面就是真正的发件人;如果没有sender,最后一个re-ceived from就是发件人所用的SMTP服务器。 Receive语句的基本表达格式是:from Server A byServer B,Server A为发送服务器,Server B为接收服务器。 例如: ReturnPath:<ownerenewsdaily@enet.com.cn> Received:from ns.enet.com.cn ([202.106.124.167]) bymail.777.net.cn(8.9.3/8.8.7) with SMTP id TAA13043; Thu, 28 Oct 1999 19:51:28 +0800 Received:(from list@localhost) by ns.enet.com.cn (8.9.3/8.9.0) id RAA19714 for enewsdailylist;Thu, 28 Oct 1999 17:50:30 +0800 Received:from chinanetweek.com ([210.72.235.218]) by ns.enet.com.cn (8.9.3/8.9.0) with ESMTP id RAA19690 for <enewsdaily@enet.com.cn>; Thu, 28 Oct 1999 17:50:28 +0800 Received: from chinanetweek.com ([10.1.2.105]) by chinanetweek.com (8.9.3/8.9.0) 作者简介:隆益民(1965-) ,男,副教授,硕士,研究方向为计算机及网络安全。 垃圾邮件的危害及应对措施 摘要:电子邮件是人们生活中加强沟通的重要交流工具,但垃圾邮件的泛滥已经使整个因特网不堪重负,垃圾邮件严重影响了人们使用互联网。治理垃圾邮件已成为与抗击网络病毒并列的重任。我国就垃圾邮件的处理上尚未制订相关的法律。也可参照国际通行的做法,针对垃圾邮件制订的较为严格的法律和规定,对垃圾邮件问题进行立法研究,从行政管理和法律角度加强对垃圾邮件的管理。 关键词:反垃圾邮件;群发;ID;电子邮票;黑名单;法律 隆益民 广东女子职业技术学院 计算机系 广东 511450

机器学习实验之朴素贝叶斯(垃圾邮件判断)

机器学习实训实验报告(四) 专业班级学号姓名实验项目名称:利用朴素贝叶斯过滤垃圾邮件 实验内容: 1、了解概率分类器的意义,理解条件概率的计算方法 2、了解朴素贝叶斯的理论知识,了解基于以上理论知识构建分类器的方法 3、根据朴素贝叶斯的一般步骤进行过滤垃圾邮件的任务 实验过程: 算法分析: 简介: 朴素贝叶斯算法的分类模型是基于Bayes定理的,下面就简单介绍一下Bayes定理.设X为一个类别未知的数据样本,H为某个假设,C表示类别集合,若数据样本X属于一个特定的类别c,那么分类问题就是决定P(H/X),即在获得数据样本X时,H假设成立的概率.由于P(H),P(X), P(X/H)的概率值可以从(供学习使用的)数据集合中得到,Bayes 定理描述了如何根据P(H), P(X),P(X/H)计算获得的P(H/X),有关的具体公式定义描述如下 算法过程: 我们假设训练集为m个样本n个维度,如下: (x(1)1,x(1)2,...x(1)n,y1),(x(2)1,x(2 )2,...x(2)n,y2),...(x(m)1,x(m)2,...x( m)n,ym)(x1(1),x2(1),...xn(1),y1),( x1(2),x2(2),...xn(2),y2),...(x1(m),x 2(m),...xn(m),ym) 共有K个特征输出类别,分别为C1,C2,...,CKC1,C2,...,CK,每个特征输出类别的样本个数为 m1,m2,...,mKm1,m2,...,mK,在第k 个类别中,如果是离散特征,则特征XjXj各个类别取值为mjlmjl。其中l取值为源程序代码: from numpy import * import re def loadDataSet(): #文档集合 postingList=[['my', 'dog', 'has', 'flea', 'problems', 'help', 'please'], ['maybe', 'not', 'take', 'him', 'to', 'dog', 'park', 'stupid'], ['my', 'dalmation', 'is', 'so', 'cute', 'I', 'love', 'him'], ['stop', 'posting', 'stupid', 'worthless', 'garbage'], ['mr', 'licks', 'ate', 'my', 'steak', 'how', 'to', 'stop', 'him'], ['quit', 'buying', 'worthless', 'dog', 'food', 'stupid']] classV ec = [0,1,0,1,0,1] #类别:1代表侮辱性文字,0代表正常 return postingList,classVec #函数说明:将切分的词条整理成不重复的词条列表 def createV ocabList(dataSet): vocabSet = set([]) ##创建一个空的不重复列表 for document in dataSet: vocabSet = vocabSet | set(document) #取并集 return list(vocabSet) #函数说明:根据vocabList,将inputSet向量化,每个元素为1或0 def setOfWords2Vec(vocabList, inputSet): returnVec = [0]*len(vocabList) #创建一个其中所含元素都为0的向量 for word in inputSet: #遍历每个词条 if word in vocabList: #如果词条存在于词汇表中,则置1 returnVec[vocabList.index(word)] = 1 else: print ("the word: %s is not in my Vocabulary!" % word) return returnVec #函数说明:朴素贝叶斯分类器训练函数 def trainNB0(trainMatrix,trainCategory): numTrainDocs = len(trainMatrix) #计算训练的文档数目 numWords = len(trainMatrix[0]) #计算每篇文档的词条数

垃圾邮件的识别和过滤方法

垃圾邮件识别和过滤的方法 T大炮 北京理工大学计算机学院,北京100081 (1111111111@https://www.doczj.com/doc/ae8496514.html,) Methods for Identifying and Filtering Junk Mail or Spam T Biggun (Class 07111301,School of Computer Science, Beijing Institute of Technology, Beijing 100081) Abstract Identifying and Filtering Spam is an important research subject in computer network. In this thesis, I have studied the history of spam filtering technology, which mainly includes the first generation of rule-based filtering technology, the second generation of content-based filtering technology and the third generation of behavior-based filtering technology. 1. Rule-based filtering includes IP address based filtering, mail header based filtering. 2. Content-based filtering includes Bayesian filtering, Memory-based method, decision tree, Boosting method, Support Vector Machine (SVM), etc. 3. Behavior-based filtering includes Email data stream based filtering, mail header based filtering, sender reputation based filtering, mail fingerprint based filtering, behavioral characteristics weighted based filtering, etc. The spammers’ common spurious methods are summarized. Through the reference to large amount of anti-spam documents and data from home and broad, an analysis is made on existing anti-spam techniques and in particular the content-based spam filtering methods. Key words spam filtering; rule; content; text categorization; Na?ve Bayes; behavior 摘要垃圾邮件识别和过滤是计算机网络领域的一个重要研究课题。垃圾邮件识别和过滤目前已经发展出了三代技术,第一代过滤技术是基于规则的,例如:基于IP地址、基于邮件头的过滤技术。第二代过滤技术是基于内容的,例如:贝叶斯分类算法、Memory-Based方法、决策树、Boosting方法、支持向量机等方法。第三代过滤技术是基于行为的,例如:基于邮件数据流、基于邮件头信息、基于发送方信誉、基于邮件指纹、基于行为特征加权的决策树等过滤方法。本文归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量反垃圾邮件文献和数据,对已有的垃圾邮件技术作出分析和总结,尤其是对基于内容的垃圾邮件过滤方法进行了研究。 关键词垃圾邮件过滤;规则;内容;文本分类;简单贝叶斯;行为 随着互联网的发展,垃圾邮件常常让人头痛不已,最新报告称美国为垃圾邮件第一大国,中国排名第三(图1)[1]。垃圾邮件问题如今已经成为一个社会热点,近些年来,研究人员们提出了很多垃圾邮件识别和过滤的方法。这些方法的发展经历了三代,第一代过滤技术是基于规则的,例如:基于IP地址、基于邮件头的过滤技术。第二代过滤技术是基于内容的,例如:贝叶斯分类算法、Memory-Based方法、决策树、Boosting方法、支持向量机等方法。第三代过滤技术是基于行为的,例如:基于邮件数据流、基于邮件头信息、基于发送方信誉、基于邮件指纹、基于行为特征加权的决策树等过滤方法。本文归纳总结了当前垃圾邮件发送者经常采用的欺骗手段和方法,并参阅国内外大量反垃圾邮件文献和数据,对已有的垃圾邮件技术作出分析和总结,尤其是对基于内容的垃圾邮件过滤方法进行了研究。

反垃圾邮件系统实施项目解决方案

TOM网 反垃圾系统实施解决方案 客户项目建议书 Barracuda Networks (Shanghai) Co.,Ltd.

2005-12-21 第一章前言: 企业防治垃圾的重要性 在近几年的时间里,企业面临垃圾的威胁成指数级增长,垃圾占电子总通讯量的达到60%以上,而这一数字在三年前仅为8%;与此同时,垃圾的类型以及发送手段也愈加复杂化、多样化; 电子也一跃成为病毒的主要传播方式;这一系列的变化对企业网络构成了严重的威胁,这种威胁不仅仅是造成用户时间的损失,还包括系统资源的损耗,严重的还造成系统破坏。 因此,如何保护企业免受病毒及垃圾的侵袭,保证网络及企业信息安全成为每位网络或系统管理员的第一责任,也是企业信息化分管领导的重要职责所在。 垃圾对企业造成的危害: 1.垃圾已占全球电子的69%。(亚洲经济,2005年6月)在国际上每天有超过200亿封垃圾被发送 出去,2003年全国有470亿封流入了用户信箱,平均每人每天收到2.85封垃圾。根据IDC的分

析,到2006年,垃圾数量将在2003年数量的增加一倍。 ※根据Radicatti group预估调查(June,2003),到2007年全球垃圾将占所有Email流量的70% 2.据Ferris Research研究报导指出,垃圾电子每年让美国及欧洲企业分别损失高达89亿美元 和25亿美元。(其中40亿美元是因员工删除垃圾而造成工作效率的降低,平均删除1封垃圾得花4.4秒钟。37亿美元的花费,是为了应对超大量的资料流量,企业因而添购带宽及性能更佳的服务器,其余的损失则是公司为降低员工因垃圾产生的困扰,为员工提供的支持的费用。) 3.除了上述金额的损失之外,垃圾对企业的损害还可归类为: ◆消费者的信任——这是电子使用者的第一大问题,由于垃圾的泛滥,用户失去了对电子 的信任;据调查约有29%的用户因此而减少了电子的使用,对于企业而言,则可能造成员 工弃用企业,这不仅对企业以前网络投入的浪费,且有损企业形象。 ◆降低工作效率—使用者会浪费无谓的时间阅读并处理这些无用的电子。使用者工作效率 降低被认为是企业因垃圾所导致的最大损失。 ◆不当容—垃圾中可能包含攻击性文字,大多是人身攻击,此种可能会伤害特定的个人或 群组。此外,还有相当数量的与、非法、以及其他与国家法规相悖的信息,也将对收件 人造成不同程度的冲击。 ◆浪费IT资源—进入网络的大量垃圾,会影响企业的网络使用带宽。

Exchange智能过滤垃圾邮件

https://www.doczj.com/doc/ae8496514.html,/art/200709/56068.htm 2.5 防垃圾邮件配置 垃圾电子邮件或垃圾邮件是从一个源位置发出的、意欲同时广播到许多邮箱的邮件。根据行业评估,在收到的电子邮件中,40%或更多的邮件被判定为垃圾邮件。这种增长的垃圾邮件流将继续为组织带来难题。垃圾邮件不仅仅是一种麻烦;如果将它可能造成的生产效率降低和处理垃圾邮件所需要的额外资源都考虑进去,会发现这是一个代价很昂贵的问题。 Microsoft Exchange Server 2003通过多项技术阻止接收垃圾邮件,具体有以下几项。 1.实时阻止列表服务提供程序支持 "实时阻止列表"中保存着已知垃圾邮件源的Internet协议(IP)地址列表。这些列表包括源地址以及一些被配置为开放中继的服务器或拨号用户账户列表。Exchange 2003向"实时阻止列表"服务提供程序发送每个传入的简单邮件传输协议(SMTP)连接的IP地址,然后该提供程序向运行Exchange的服务器返回状态码。根据返回的状态码和管理配置,Exchange可能不接受电子邮件,同时向发件人发送相应的错误代码。使用Exchange 2003可以配置多个"实时阻止列表"提供程序。 2.全局拒绝与接受列表 Exchange 2003管理员可以为那些总是被接受或被拒绝访问的电子邮件维护一个发送IP地址列表。"接受"列表。可以在"接受"列表上维护安全的合作伙伴和客户的IP地址以便于访问。 "拒绝"列表。可以将已知的冒犯者添加到"拒绝"列表中。可以使用此列表来阻止来自以下服务器的连接:不想从其接收电子邮件,而且它们可能不显示在提供程序"实时阻止列表"(如果配置了此列表)中。 3.发件人过滤 可以相应地配置Exchange发件人过滤器,使之检查每封传入的电子邮件的"发件人"地址并将此地址与阻止发件人列表进行比较。如果查到了匹配项,可以将Exchange配置为丢弃此连接或存档此邮件。4.入站收件人过滤 管理员可以通过设置收件人过滤功能来阻止预定发送给无效收件人(Windows Active Directory目录服务中没有的地址)或发送给受限制的邮件地址的电子邮件。 垃圾邮件通常来自假地址,因此,以前每当Exchange向发件人返回未送达报告(NDR)时,都会浪费一些资源。Exchange 2003应用了收件人过滤功能,因而可以在SMTP会话期间拒绝发送给不存在的或被阻止的收件人的邮件。这种过滤功能可以避免Exchange使用宝贵的资源向发件人返回NDR。5.对于向SMTP虚拟服务器进行提交和利用SMTP虚拟服务器进行中继增强了限制能力 通过使用Exchange 2003,可以指定允许哪些用户组向SMTP虚拟服务器提交电子邮件。这可以帮助阻止不需要的通信使用Exchange。例如,垃圾邮件制造者可以利用对中继开放的服务器,通过这些服务器发送电子邮件,从而制造出邮件发自这些服务器的假象。许多"实时阻止列表"中之所以列出对中继开放的服务器的IP地址,其原因就在于此。 6.与Outlook 2003和Outlook Web Access阻止列表及安全列表集成 Outlook 2003包含的一些功能可帮助用户阻止每天收到的大量不需要的电子邮件。这些功能可以使用户控制他们接收什么样的邮件以及接收谁的邮件。Outlook 2003还提供了一组专用于与Exchange 2003一起帮助用户防范垃圾邮件的功能。 7.垃圾邮件过滤器 Outlook 2003采用了由Microsoft研究院开发的最先进的技术。这种功能利用了若干因素(如邮件的时间和内容)来判定是否将一个邮件视为垃圾邮件。此过滤器并不挑出任何特定发件人或特定类型的电子邮件。邮件处理是基于邮件内容进行的,同时邮件处理还使用对邮件结构的高级分析功能来确定

反垃圾邮件网关的技术规范

反垃圾邮件网关的技术规范 一、邮件网关要求 1、基本要求 (1)采用专用的硬件平台,自身安全性高、稳定性好。保证邮件网关系统的稳定性和性能,确保邮件网关设备不会成为网络系统的性能瓶颈。 (2)优越的系统性能。每小时处理的邮件流量和对收发邮件的处理内容扫描速度在同类产品中领先,支持标准SMTP和POP3协议,适用于任何支持上述邮件协议的邮件系统。 (3)要求通过公安部防病毒网关产品认证和防垃圾邮件认证,且同时拥有这两类安全产品的认证证书,最好能有河南省公安厅在本地的经营推荐证明。 (4)可以有效地实现电子邮件病毒过滤、内容过滤、垃圾邮件过滤,蠕虫过滤,阻断后门程序、DoS/DDoS等动态攻击行为。 (5)针对通过SMTP、POP3、HTTP、FTP等协议传输的内容进行过滤处理。 2、功能要求 (1)具备强大的反病毒功能 对所有进出站的邮件进行病毒扫描,应能够有效过滤普通病毒、邮件病毒、蠕虫病毒、木马活动,可以进行病毒邮件的隔离、删除、以及清除病毒的操作,支持病毒扫描引擎和病毒代码库的实时在线更新,及时遏制最新病毒的发作。为了保证系统的最佳性能,缓存扫描结果。 采用自主知识产权的成熟的防病毒引擎。 (2)能抵御对邮件服务器的各种攻击 全面防范针对传输层25端口攻击,防止邮件地址泄露,保障后端邮件系统的安全。提供最完善的防攻击体系,有效地防范针对邮件系统的各类攻击,包括邮件服务应用层的字典算法攻击、目录树攻击、多线程攻击、DHA攻击、DoS攻击等;邮件网关层的空文件攻击、多重病毒感染攻击、多重压缩攻击等。 (3)具有多层反垃圾邮件的防御结构 提供有力的、灵活的反垃圾邮件措施来保护邮件系统免受垃圾邮件的攻击,全面地防御垃圾邮件对邮件系统进行攻击。 所有的邮件都必须通过验证,才可以被发送至邮件系统;拒绝非法用户邮件的投递。 支持速率限制、并发连接、连接频率限制,防止拒绝服务攻击、保护网络带宽。防止邮件系统负担过重,造成正常邮件信息发送失败,

FortiMail垃圾邮件案例

Orascom电信使用FortiMail垃圾邮件解决方案 Orascom电信是国际电信市场的领先运营商,最近它宣布将使用Fortinet 的统一威胁管理解决方案(Unified threat management,简称UTM)阻挡垃圾邮件。FORTINET是市场领先的网络安全提供商和全球解决方案的领先者。Orascom电信部署Fortinet的FortiMail是多层电子邮件安全平台,可保护企业电子邮件服务器和250万个用户不受垃圾邮件和病毒的侵害。 Orascom电信用户早在09年3月底就超过了8000万,同时,它又是中东,非洲和亚洲最大和综合性最强的运营商。所有企业总部和Orascom电信分支机构和制造商间的信息交换都是通过电子邮件,电子邮件是最大和重要的商业应用,企业所有人都要使用它。过去,公司安装在交换服务器上的第三方软件,无法解决大量的垃圾邮件问题。 为了解决上述面临的问题,Orascom经过对主要的电子邮件安全解决方案进行竞争性评估,决定选择Fortinet的FortiMail平台,因为这一解决方案的高精确性评分为99.8%。此外Orascom电信选择FortiMail解决方案还考虑到它的独一无二的架构选择,包括高使用率和透明模式的共享等。

飞塔长庆油田成功案例 一、用户概况描述 长庆石油公司隶属于中国石油天然气集团公司,总部设在中国西安。下设二级单位42个,职工总人数3.7万多人。下设的通信公司为长庆集团各公司办公及住宅区提供各种方式的网络服务及互联网接入业务。 长庆石油勘探局通信公司主要担负着长庆通信专网、长庆互联网的建设、运营、维护和管理。其管理的专用网是中国石油企业专用网内覆盖范围最大、业务种类最全的专用网之一,拥有近一亿元人民币的固定资产和近八万电话、计算机网络用户。 长庆互联网是以西安网控中心为核心,由西安园区网、庆阳园区网、银川园区网、延安园区网组成的通过100Mbps-1000Mbps带宽互联的计算机广域网。长庆互联网分别在西安以(400Mbps)、银川、庆阳以100Mbps带宽接入因特网,同时它与中国石油计算机专用网保持直联,是中国石油计算机专用网的重要组成部分。 二、用户安全需求 长庆油田的网络基本上可以划分为家属区接入,各园区办公网接入等。主要的安全需求是这样的: 1、整个网络所面临的问题是大量P2P、迅雷占据了网络的主要带宽,极大地降低了网络的使用率。 2、网络中的公网IP不是很多,需要防火墙作NAT转换和根据IP地址段和服务做大量的访问控制策略。 3、整个网络所面临着最为严重问题是,面临着来自Internet的各种网络层和应用层的安全威胁,如: a. 外网流窜进来的病毒、木马、蠕虫、间谍软件; b. 各种网络攻击和入侵; c. P2P、迅雷类的软件消耗了网络的可用资源。 d.垃圾邮件在内网肆虐,影响工作效率 三、推荐解决方案 由于不同的区域的安全需求不同,所以针对这两个区域各自进行了针对性的安全部署。

基于贝叶斯算法的JavaMail垃圾邮件过滤实现

基于贝叶斯算法的JavaMail垃圾邮件过滤实现 刘岚,贾跃伟 武汉理工大学信息工程学院,武汉(430070) E-mail: simon_jia_2005@https://www.doczj.com/doc/ae8496514.html, 摘要:JavaMail 在中小型企业的邮件系统中有着广泛的应用,谨以贝叶斯算法为基础,提出并实现一套简单,高效的自适应垃圾邮件的过滤方案。它采用基于词熵的特征提取方法,在过滤的过程中不断的进行自学习,具有较强的自适应能力,最终通过阈值来判别邮件是否为垃圾邮件。 关键词:JavaMail;贝叶斯算法;垃圾邮件;自学习 1.引言 JavaMail是Sun发布的处理电子邮件的应用程序接口,预置了常用的邮件传送协议(如SMTP、POP、IMAP、NNTP)的实现方法,与JSP和QMAIL 结合开发出稳定可靠的企业级web mail系统,可以满足中小型企业的日常办公需求。 但目前这种办公邮箱最大的困扰是来自internet的大量以广告为目的垃圾邮件,尤其是在网站上对外公布的邮箱,其垃圾邮件的比例甚至达到了90%以上,日平均有20封以上的垃圾邮件,对邮箱使用造成了很大的不便,这是邮箱系统的开发和维护首要解决的问题。 2.反垃圾邮件过滤技术 2.1 基于黑白名单的过滤技术 此技术使用最早也最为常用,即是对于地址在白名单的服务器的邮件全部接收,对地址在黑名单的服务器的邮件全部拒收,国际和国内的一些反垃圾邮件组织会实时更新和提供一种实时的黑名单(Real Time Black List)的邮件服务器IP数据库,简称RBL,任何邮件服务器都可以订阅RBL以达到过滤垃圾邮件的目的[1]。 但这种方法缺点很也很明显:处理陌生邮件无能为力;需要不断更新和维护;效率不高容易误判。 2.2 基于加密信息的过滤技术 加密信息过滤技术主要是采用类似于公钥密码的一类方法,主要目的是对邮件发送者进行验证,防止目前泛滥的伪造域名和木马发送,域名密钥体制利用公钥技术和DNS构建一个域名层次的电子邮件来源和内容认证框架,简单的讲,即为发送邮件时候同时产生密钥和公钥,密钥跟随邮件,收件服务器从密钥中获取签名和域名,然后通过网络公钥验证通过后完成邮件的发送。 此种方法的缺点也显而易见,即使得邮件的网络传递负担加重,同时缺乏大规模的认证标准,使得目前阶段难以大范围的推广。 2.3 基于规则和统计的过滤技术 规则是指预设垃圾邮件关键词进行的邮件过滤,而其最大的缺点是实效性较差,不易维护,垃圾邮件往往通过关键词中增加特殊符号来躲避规则,同时也会使过滤缺乏弹性。 而贝叶斯过滤算法是一种典型的基于统计的垃圾邮件过滤技术,这种理论的基础是通过对大量垃圾邮件的常见关键词进行分析后得出其分布的统计模型,并由此推算目标是垃圾邮

解析垃圾邮件过滤机制 降低邮件误判率

●基于关键字和Bayesian 过滤器 最早的过滤器,主要是检索邮件主题和正文中的关键字,更高级些的过滤器,则采用了Bayesian算法,可以针对邮件提高过滤准确率。 ●Captcha技术 CAPTCHA 是“Completely Automated Public Turing test to tell Computers and Humans Apart”(全自动区分计算机和人类的图灵测试)的缩写,是一种区分用户是计算机和人的公共全自动程序。在一个CAPTCHA测试中,作为服务器的计算机会自动生成一个问题由用户来解答。这个问题可以由计算机生成并评判,但是必须只有人类才能解答。由于计算机无法解答CAPTCHA的问题,所以回答出问题的用户就可以被认为是人类。此种技术可以防止通过软件自动发送垃圾邮件的产生。

图5: CAPTCHA验证码 ●建立垃圾邮件黑白名单 与刚才讲的技术不同,这个是根据邮件服务而不是根据信息进行评估筛选,尤其是根据发件人以往行为记录进行分类管理: 黑名单是由世界各地数据库搜集来的,过滤器会根据这些黑名单检查每个进入的邮件,如果符合,那么就会拒绝接收邮件。 白名单同样也是来源于各地IP汇总。邮件过滤器一般既拥有黑名单又拥有白名单,以提高过滤效率。 在某些情况下,过滤器厂商会使用“信誉服务”或者“声誉名单”来区别他们的名单。

图6:先进的黑、白名单机制 ●Graylisting系统 收件人邮件系统暂时性拦截未名邮件,然后对该邮件发送者发送一封要求自动回复的邮件。一般而言,通过这种方式可以一定程度上阻止垃圾邮件的侵入,毕竟他们可没有耐心再发送一封回复邮件。 ●Tarpitting tarpitting是降低发送垃圾邮件的发件人大量发送电子邮件信息的方法。该方法的目的是维持合法用户在发送邮件时服务的高质量,但是由于这个方法的低反映率,使它不适用于发送垃圾邮件的人。 ●循环模式检测(RPD) 着重分析垃圾邮件发送的样式,RPD技术主要用在垃圾邮件侦测中心内,主动侦测与收集垃圾因特网上的邮件爆发行为样本,实时动态更新垃圾邮件攻击信息,发布给企业端的垃圾邮件网关服务器。Commtouch对于不安全行为引起的网络爆发有着直接的最有效的效果。

相关主题
文本预览
相关文档 最新文档