基于Bayes的邮件过滤系统的研究与设计_第1页
基于Bayes的邮件过滤系统的研究与设计_第2页
基于Bayes的邮件过滤系统的研究与设计_第3页
基于Bayes的邮件过滤系统的研究与设计_第4页
基于Bayes的邮件过滤系统的研究与设计_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、基于Bayes的邮件过滤系统的研究与设计摘要邮件过滤技术是反垃圾邮件的重要手段,本文提出了一种基于效劳器端的垃圾邮件过滤系统,它采用改良的Bayes算法,将反映垃圾邮件的特征综合在一起统称为“属性,用这些“属性构成表示邮件特征的向量空间模型重点特征向量,防止了单纯基于IP、信头、信封过滤的规那么性太强的缺点,降低将正常邮件判断为垃圾邮件的风险。关键词电子邮件;垃圾邮件;邮件过滤中国互联网信息中心2022年7月公布的?中国互联网络开展状况统计报告?显示,中国网民平均每周收到16.1封电子邮件,其中垃圾邮件就占据了8.9封,垃圾邮件的数量超过了正常邮件数量,并有进一步增长的趋势,之所以造成垃圾邮件

2、泛滥,是因为近几年来宽带网络的快速开展、网络通信本钱的不断下降以及硬件性能的进步并且本钱不断降低给垃圾邮件提供了很好的环境;电子邮件的易伪造性也是垃圾邮件泛滥的原因之一;还有如今对垃圾邮件,国家缺乏法律和标准的约束。虽然人们在技术和法律方面都进展不断的努力,垃圾邮件已经得到了一定的控制,但是,在国内由于技术和立法还没有到达一个足够的程度,导致国家已经成为世界垃圾邮件的新源头。垃圾邮件的泛滥会造成很多危害,不仅影响国家的政治稳定、用户的正常工作学习,还会影响网络的平安性、稳定性、高效性;占用网络带宽和存储空间。所以对于垃圾邮件的防范及过滤技术的研究很有意义。目前存在的反垃圾邮件技术,主要有三个大

3、的方向:一是修改现有的STP协议,制定一个新的平安可靠邮件协议,让垃圾邮件没有“生存的环境。二是使大量发送垃圾邮件发送者承受“宏大的本钱,以致通过电子邮件渠道来大量发送广告信息在经济利益上不合算,来减少垃圾邮件。第三种是根据邮件的格式,发送时间,文件大小,内容以及其它特性,来识别该邮件是否为垃圾邮件,假如是,那么把垃圾邮件过滤掉。识别的方法多种多样,过滤垃圾邮件效果的好坏决定于识别方法的准确度。第一种方式是通过完善通信协议,增强平安认证性能,消除垃圾邮件泛滥的环境,来减少或消灭垃圾邮件产生。第二种方式是通过经济利益杠杆,使得在网络上大量的发送垃圾邮件,要承受宏大的经济负担,以致通过垃圾邮件来广

4、告宣传方法是不经济的,来减少垃圾邮件产生。第三种是当垃圾邮件产生以后,通过各种各样的方法把垃圾邮件从邮件中识别出来并过滤掉,让接收者感觉不到这些垃圾邮件的骚扰。前两种是主动的方式,推的方式,从垃圾邮件产生的根源出发,不同的是一个从技术的角度,一个是从经济的角度。而第三种方式是被动的方式、拉的方式,它并不能杜绝垃圾邮件的重复产生,只能当垃圾邮件产生以后,通过方法识别出垃圾邮件,及时的剔除他们。前两种方式应用起来更加困难、复杂而第三种方式相对简单易行,因此当前第三种方式的反垃圾邮件方法研究和应用的更多。垃圾邮件过滤技术就是第三种方式的反垃圾邮件方法,也是反垃圾邮件技术开展的重要方向之一。从过滤的方

5、法来分,过滤可以分为基于关键字的过滤、基于黑白名单的过滤、基于规那么的过滤、基于内容的过滤等等。2.1设计目的目的是设计一个基于STP的、位于效劳器前端的、具有较高过滤精度的垃圾邮件过滤系统。对于垃圾邮件的过滤,精度是最重要的问题,因为相比收到几封垃圾邮件来说,一封正常的邮件被过滤掉更让人难以承受,本系统所采取的所有方法都是旨在进步垃圾邮件过滤的精度。该系统位于邮件效劳器的前端,代替邮件效劳器接收邮件,完成过滤后,把邮件转发给邮件效劳器,再由邮件效劳器完成以后的功能。该系统具备的功能主要有:邮件数据包拦截邮件数据包编、解码高精度的自动分词垃圾邮件过滤自主学习垃圾邮件处理正常邮件转发自动回复2.

6、2系统流程因为电子邮件是以一定的编码方式在网络上根据STP协议传送的邮件数据包,所以系统首先拦截数据包,在STP会话过程中,可以根据会话过程中的ailFr和RptT等会话进展过滤。经过这一层过滤后,将得到的邮件数据包进展解码,解码后的邮件为普通文本格式。电子邮件一般格式包括信头和信体两部分,其中信头包括发件人地址、收件人地址、主题、日期、路由信息等重要信息,信体是邮件的正文。很多时候仅仅根据信头信息就可以判断一封邮件是否为垃圾邮件,所以先别离出信头和信体的信息,然后分别进展基于信头和基于内容的过滤。因为文本邮件的内容是机器无法识别的文本,所以首先要进展分词处理:分词的精度是影响分类的一个重要因

7、素,所以这里必须注意消除歧义字段。根据垃圾邮件的特征向量构造表示该邮件文本的特征向量。然后把文本的特征向量通过邮件过滤器,区分出正常邮件和垃圾邮件。对于正常邮件,直接编码,按照STP协议发送给邮件效劳器;而对于垃圾邮件那么需要多种处理,如:保存、删除、自动回复等。这样就完成了一个完好的垃圾邮件过滤系统的功能。图1我们知道,基于IP和基于信头的过滤简单易行,并且有不错的过滤精度,因此得到了广泛的应用。但是,这两种方式所根据的信息比拟少,而且会随着时间而改变,比方一个IP黑名单中的IP地址可能是被利用来进展转发的效劳器,但是由于在黑名单中,那么这个地址所发送的全部邮件都没过滤掉,这样会对正常的业务

8、造成损害;或者一个信头的主题词中包含一个很多垃圾邮件都包含的关键词,但是也许这封邮件是基于教育的目的所发出的,那么也会被无区分的过滤掉。基于以上分析,我采取了将以上三种方式项结合的过滤方法:基于“属性的过滤,把IP地址、主题词是否包含关键字、内容中的关键词。附件信息等等都作为属性,一起构成表示邮件的特征向量,根据这个特征向量进展过滤。系统的流程如图1所示。2.3系统总体框架综合系统需要完成的目的和处理流程,设计出系统的总体框架,如图2所示。协议代理模块完成截获邮件数据包、数据包编解码和邮件转发的功能;预处理模块完成别离信头、信体和分词、特征提取以及构造特征向量的功能;过滤模块采用改良的Baye

9、s分类器将邮件过滤;数据模块是系统中所用到的词典、关键词表、训练样本集、规那么库等信息;管理模块那么为管理员管理维护系统提供了一个人机交互接口。图22.4模块设计收到后将文件解码复原,也需要有中文系统才能看所写的中文信息。协议代理模块是过滤系统的网络前端。要对邮件进展过滤,首先要捕获发送到该效劳器的邮件数据包。并对包进展解码。完成过滤后,需要复原该邮件数据包,也就是对邮件编码,然后转发。由此该模块主要负责完成以下工作:数据包拦截、协议解析、编码/解码、邮件转发。它可以支持不同的内容协议 、STP、PP、IAP等,并且是可扩展的。模块共包括4个部分。数据包拦截:其原理是利用网卡驱动来捕获数据包。

10、网卡驱动会根据以太帧中的协议类型把数据包传给协议栈进展相应的处理。协议解析:根据捕获的TP数据包的应用层端口号,判断其应用层协议类型,只对STP邮件数据包进展处理,对于其他协议的数据包直接转发。例如STP的会话过程包括命令交互阶段和数据阶段,在STP会话过程中提取一些对判断垃圾邮件起作用的重要“属性。如AIL会话阶段提取发信人的主机地址,多个RPT会话阶段提取收信人地址,在DATA数据阶段提取出整封邮件的内容,包括邮件头和邮件体,在承受到QUIT命令时将STP数据进展复原。编码/解码:为内容过滤引擎统一了内容文本的格式。该模块也是可扩展的,它主要完成以下工作:对编码邮件的解码如IE编码、UNE

11、NDE等;将有构造的文本内容如HTL、RD、PDF等转化为纯文本;提取出动态页面中的脚本代码。中文是属于8位代码的文字,并不是标准的ASII码格式,由于在国内中文是通行的文字,所以大部分的邮件效劳器都已经可以处理GB内码的文件,因此不需要做这种编码/解码的操作,可以直接传送。但假如要传送中文邮件到国外,就需要经过这种转换才能传送,因为国外的邮件效劳器是无法识别中文内码的。中文在经过一些不支持中文内码的传递主机时,仍然会被裁掉一位,造成文件支离破碎无法读取,而经过编码的中文邮件,收信人收到后将文件解码复原,也需要有中文系统才能看到所写的中文信息。邮件转发:将过滤后的邮件数据包按照邮件协议转发。因

12、为过滤器是基于VS模型VetrSpaedel,需要对邮件进展预处理得到。在该模型中,我们把邮件的内容形式化为多维空间的一个点,以向量的形式给出,向量的元素可以是词、IP地址、文本格式等可以判断邮件是否是垃圾邮件的特征属性。该模块主要完成的工作包括:信头、信体别离,分词处理,特征向量生成。信头、信体处理:电子邮件的格式包括信头、信体,两者之间用空行来分隔,可以分别提取信头和信体的信息。电子邮件的信头包括:发件人地址、收件人地址、主题、邮件列表等信息,这些信息常可以判断一封邮件是否是垃圾邮件。如商业广告垃圾邮件的主题通常包含“Buy、“Save和“Free等特征。信封和信头的内容并不完全一致,信封

13、的内容比拟可靠,因为信头的内容是可以通过客户端进展伪造的,所以可以通过比拟信封和信头的内容进展过滤。分词处理:对于主题和信体中的内容,需要经过分词处理。分词的精度是影响系统准确率的一个重要因素。我们采用机械匹配法向右减字最大匹配和向左增字最小匹配相结合,然后再用互信息消除歧义得到比拟准确的分词结果,这个过程需要借助分词词典。特征向量生成:这个过程分为两种,一种是根据训练样本库获得表示垃圾邮件类的特征向量,这个过程是对信封、信头、信体等部分得到的信息进展处理,得到分类器所需要的特征向量。因为各部分所得到的特征属性所构成的向量维数太大,需要进展降维处理,对信封、信头的属性进展比拟和合并,而对信体中

14、得到的属性那么进展挑选,也就是特征值选择。首先通过剔除词词典将对分词没有奉献的助词、连词、冠词等剔除,然后按照特征向量选择算法计算每个词的重要度,按照由高到低的顺序选择一定数量的特征词,和前面由信封、信头中的属性一起组成特征向量。另一种是根据由训练文本库得到的表示垃圾邮件类的特征向量构造待分类电子邮件的特征向量。这个模块是整个系统的核心模块,它要完成的功能是对邮件信息进展处理,判断邮件是否是垃圾邮件,并对结果进展处理。因为邮件被表示成由“属性组成的向量空间,这些属性包括:IP地址、附件大孝附件扩展名、群发地址个数、文本中的关键词等等信息,根据这些信息完成传统的基于IP、基于信封、信头和基于内容

15、的过滤。贝叶斯算法因为其简单快捷得到广泛应用,这里采用改良的贝叶斯算法来进步过滤精度。过滤的结果分为正常邮件和垃圾邮件。对于正常邮件交给协议代理模块进展编码和转发,对于垃圾邮件的处理有:丢弃:对于不需要保存到数据库中的数据包,做丢弃处理,节约资源;存储:对于某些邮件存入数据库,作为训练样本集;回复:对于一些邮件进展自动回复,通知发件人该邮件被过滤。系统中需要的分词词典、剔除词词典等等数据资源需要一个单独的模块来进展维护管理,提供增加、修改、查询、统计等功能,这个模块就是数据模块。这个模块包括七个部分。分词词典:由于分词算法采用的是机械匹配的方法,需要分词词典提供辅助;剔除词词典:在提取特征词之

16、前,根据剔除词词典剔除部分词汇,进步效率;特征属性表:基于Bayes算法的过滤方法需要根据垃圾邮件特征属性的概率统计信息进展过滤,因此系统需要维护垃圾邮件特征关键词的概率信息;训练样本集:作为训练过滤器的样本,它的大小和时间性影响过滤的精度;垃圾邮件表:保存一些过滤掉的邮件的数据库表格,在存储邮件的源IP和目的IP、邮件的发件人、主题、发送时间和邮件体的信息。便于事后统计分析;IP地址黑名单:保存经常发送垃圾邮件的IP地址;规那么表:保存生成属性表过程中需要的一些对信头特征进展提取的规那么。是整个系统的控制协调中心。主要负责完成以下工作:系统的初始化;其它模块的配置管理;系统运行状态监控;为系统配置管理所需的各种数据资源;提供数据查询、统计功能。电子邮件是互联网中一个普及的应用,垃圾邮件的增长也越来越快,然而垃圾邮件却严重影响了电子邮件的正常使用,带来诸多的问题。它已成为世界共同关注的问题,对于垃圾邮件的过滤的研究已获得了一定的成果。本文在分析这些已有的技术的根底上提出一种基于Bayes算法的旨在进步分类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论