(计算机软件与理论专业论文)基于用户代理的pop3邮件过滤模型的研究.pdf_第1页
(计算机软件与理论专业论文)基于用户代理的pop3邮件过滤模型的研究.pdf_第2页
(计算机软件与理论专业论文)基于用户代理的pop3邮件过滤模型的研究.pdf_第3页
(计算机软件与理论专业论文)基于用户代理的pop3邮件过滤模型的研究.pdf_第4页
(计算机软件与理论专业论文)基于用户代理的pop3邮件过滤模型的研究.pdf_第5页
已阅读5页,还剩59页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于用户代理的p o p 3 邮件过滤模型的研究l 摘要 随着计算机网络技术的发展与广泛应用,垃圾邮件问题日益严重,邮件过滤 系统的研究和发展日益重要。 在邮件过滤系统的体系结构方面,m u a 方式具有系统开销小,成本低,实 现容易,维护方便等优点,但目前多数基于m u a 方式的邮件过滤系统与邮件客 户端紧密相连,无法实现邮件过滤系统相对于邮件客户端的独立性和透明性。 在邮件过滤方法方面,基于概率统计的方法具有准确率高和错误重现性小等 优点,广泛应用于各种邮件过滤系统,但目前缺乏一种能够兼容各种基于概率统 计方法的通用邮件过滤系统。 在邮件过滤系统的自学习方面,利用机器学习的方法训练和调整邮件过滤模 型从而使邮件过滤系统更加完善的技术已被提出,但目前如何利用邮件客户端实 现邮件过滤系统快速、有效地接受用户反馈并自动根据用户反馈对邮件过滤系统 做出调整的技术尚未被提出。 基于上述研究背景和问题,本文提出了用户反馈自适应的p o p 3 邮件过滤代 理模型s a m f u f ( s e l f - a d a p t i v em a i lf i l t e r i n gp o p 3p r o x yb a s e do nu s e r s f e e d b a c k ) 。本文的主要工作和创新点如下: ( 1 ) 采用o v e r l a p p e di o 事件通信方式实现邮件客户端、邮件过滤系统和邮 件服务器三者间通信以及线程池处理方式同时对多个邮件客户端进行邮件过滤 等处理,实现了邮件过滤服务的高效率和稳定性,这是本文的主要工作,以下三 点是本文的主要创新点。 ( 2 ) 采用异步连接模拟同步连接方式建立邮件客户端和邮件服务器间p o p 3 连接,实现了s a m f u f 的透明性。 ( 3 ) 将m a x i m u me n t r o p y 、b a y e s 、s v m 等基于概率统计的方法从邮件过 滤系统中独立出来,实现了s a m f u f 的通用性。 ( 4 ) 通过在邮件中插入包含邮件唯一标识、分类结果等信息的h t m l 表单 的标签以及部署邮件过滤模型调整服务,实现了s a m f u f 的自适应性。 1 本文得到国家自然科学基金项目( n o 6 0 6 0 2 0 1 7 ,2 0 0 7 1 - 2 0 0 9 1 2 ) 和山东省优秀中青年科学家科研奖励 基金( 2 0 0 8 b s o l 0 0 3 ,2 0 0 8 1 2 2 0 1 0 1 2 ) 资助。 通过实验表明,s a m f u f 在邮件过滤上具有较高的效率、准确率和通用性。 关键词:电子邮件;p o p 3 ;反垃圾邮件;邮件过滤 l l r e s e a r c ho nj u n km a i lf i l t e r i n gm o d e lb a s e do np o p 3 i nm u a 2 a b s t r a c t a tp r e s e n t ,t h en u m b e ro fj u n km a i li sm o r ea n dm o r e ,s ot h er e s e a r c ho nm a i l f i l t e r i n gs y s t e mi sm o r ea n dm o r ei m p o r t a n t i nt h el o c a t i o no fj u n km a i lf i l t e r i n gs y s t e m ,t h e w a yo fm u ah a st h e p e r f o r m a n c eo fl o wr e s o u r c e ,l o wc o s t ,e a s yr e a l i z a t i o n ,e a s ym a i n t e n a n c e ,e t c b u ta t p r e s e n tt h em o s to fj u n km a i lf i l t e r i n gs y s t e m sa r et o oc l o s et om a i lc l i e n ta n da r en o t i n d e p e n d e n ta n dt r a n s p a r e n tt om a i lc l i e n t s i nt h em e t h o do fm a i lf i l t e r i n g ,t h em e t h o db a s e do ns t a t i s t i cp r o b a b i l i t yh a st h e p e r f o r m a n c eo fh i 曲a c c u r a c ya n dl o wi n a c c u r a c y , s ot h i sm e t h o di sw i d e l yu s e di n j u n km a i lf i l t e r i n gs y s t e m b u tt h e r ei sal a c ko fu n i v e r s a lj u n km a i lf i l t e r i n gs y s t e m w h i c hc a nu s eav a r i e t yo fm e t h o d sb a s e do ns t a t i s t i cp r o b a b i l i t y i nt h es e l f - a d a p t i o no fm a i lf i l t e r i n g ,t h em e t h o do fm a c h i n el e a r n i n gi su s e dt o t r a i na n da d j u s tt h em a i lf i l t e r i n gm o d e l ,s ot h ep e r f o r m a n c eo fj u n km a i lf i l t e r i n g s y s t e mi sb e t t e ra n db e t t e r b u th o wt oa c c e p tu s e r s f e e d b a c kf r o mm a i lc l i e n t sa n d a d j u s tt h em a i lf i l t e r i n gm o d e lb yu s e r s f e e d b a c ki sn o ts o l v e da tp r e s e n t b a s e do nt h ea b o v eb a c k g r o u n da n dp r o b l e m s ,s a m f u f ( s e l f - a d a p t i v em a i l f i l t e r i n gp o p 3p r o x yb a s e do nu s e r s f e e d b a c k ) i sr e a l i z e da n dp r o p o s e d t h em a i n w o r ka n di n n o v a t i o n so ft h e s i sa r ea sf o l l o w s : ( 1 ) r e a l i z eg r e a te f f i c i e n c ya n ds t a b i l i t yo f m a i lf i l t e r i n gb ya d o p t i n gt h r e a dp o o l t e c h n o l o g ya n dw i n d o w so v e r l a p p e di os o c k e t s i ti st h em a i nw o r ko ft h et h e s i sa n d t h ef o l l o wt h r e ep o i n t sa r et h ei o n n o v a t i o n so ft h et h e s i s ( 2 ) e s t a b l i s ht r a n s p a r e n tc o n n e c t i o nb e t w e e nm a i lc l i e n ta n dm a i ls e r v e rb y a s y n c h r o n o u sc o n n e c t i o ni np l a c eo fs y n c h r o n o u sc o n n e c t i o n ( 3 ) r e a l i z et h eu n i v e r s a l i t y o fe m a i l f i l t e r i n gs y s t e mt h r o u g hs e p a r a t i n g 2 t h i st h e s i si ss u p p o r t e db yn a t i o n a ln a t u r a ls c i e n e ef o u n d a t i o no fc h i n a ( n o 6 0 6 0 2 0 1 7 , 2 0 0 7 1 2 0 0 9 1 2 、a n d r e s e a r c ha w a r df o u n d a t i o no fs h a n d o n gp r o v i n c ef o rm i d d l e a g e da n dy o u n gs c i e n t i s t s ( n o 2 0 0 8 b s 0 1 0 0 3 , 2 0 0 8 1 2 2 0 1 0 1 2 ) i i i m a x i m u me n t r o p y , b a y e s ,s v m ,e t c f r o me m a i lf i l t e r i n gs y s t e m ( 4 ) r e a l i z et h es e l f - a d a p t i v e f u n c t i o n b yi n s e r t i n g t h eh t m ll a b e lw h i c h i n c l u d e st h eu n i q u ei do fa l le m a i l ,c l a s s i f i e dr e s u l t sa n ds oo na n dp r o v i d i n gt h e s e r v i c eo fa d j u s t i n gm a i lf i l t e r i n gm o d e l e x p e r i m e n t ss h o wt h a ts a m f u f h a sh i g he f f i c i e n c y , a c c u r a c ya n du n i v e r s a l i t y i nj u n km a i lf i l t e r i n g k e yw o r d s :e m a i l ;p o p 3 ;a n t i - s p a m ;m a i lf i l t e r i n g i v 独创声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含未获得 ( 洼;塑遗直基丝重要挂趔直疆数:奎拦亘窒2 或其他教育机构的学位或证书使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 学位论文作者签名:遂每次签字日期:2 。d 7 年歹月7 日 学位论文版权使用授权书 本学位论文作者完全了解学校有关保留、使用学位论文的规定,有权保留并 向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借阅。本人 授权学校可以将学位论文的全部或部分内容编入有关数据库进行检索,可以采用 影印、缩印或扫描等复制手段保存、汇编学位论文。同时授权中国科学技术信息 研究所将本学位论文收录到中国学位论文全文数据库,并通过网络向社会公 众提供信息服务。( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 迩乖毅 签字日期:一z 7 年衫月7 日 导师签字: 袋& 签字日期:1 年月7 日 基于用户代理的p o p 3 邮件过滤模型的研究 1 引言 1 1 研究背景和意义 1 1 1 垃圾邮件的概念 垃圾邮件的定义目前还没有一个明确的描述,中国互联网协会反垃圾邮件 规范1 1 j 根据它的特征做出如下定义: ( 1 ) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式 的宣传品等宣传性的电子邮件; ( 2 ) 收件人无法拒收的电子邮件; ( 3 ) 隐藏发件人身份、地址、标题等信息的电子邮件; ( 4 ) 含有虚假的信息源、发件人、路由等信息的电子邮件。 1 1 2 垃圾邮件的来源 垃圾邮件的产生来源1 2 】主要包含以下4 个方面: 1 、匿名转发服务器 匿名转发是指邮件服务器具备邮件转发功能,而且此功能不需要验证发件人 的身份,具有匿名转发功能的邮件服务器可以接受来自第三方的所有邮件转发请 求。垃圾邮件制造者利用该功能隐藏真实身份,大量发送垃圾邮件。 2 、匿名代理服务器 许多机构为内网用户建立了代理服务器,以方便其接入互联网。匿名代理是 指无需任何身份认证,允许外部用户访问代理服务器。垃圾邮件制造者可以利用 匿名代理服务器,大量发送垃圾邮件,并且隐匿邮件的真实来源。 3 、一次性账户 一次性账户是指被垃圾邮件制造者盗用或非法注册的电子邮件账户。这些一 次性账户被垃圾邮件制造者用来发送大量的垃圾邮件,一旦被发现,垃圾邮件制 造者便丢弃这些账户。同时,这些一次性的账户多是由注册软件自动注册的。 4 、僵尸主机 垃圾邮件制造者控制着大量的僵尸主机,组成庞大的僵尸网络,大规模地发 送垃圾邮件。僵尸主机的产生主要通过欺骗用户安装恶意软件以及利用程序和操 基于用户代理的p o p 3 邮件过滤模型的研究 作系统的安全漏洞安装恶意软件。 1 1 3 垃圾邮件的危害 垃圾邮件消耗了大量带宽、增加了邮件服务器负担并影响了人们的工作效率 t 3 】。在中国,2 0 0 6 年电子邮箱注册用户超过4 3 亿,这些用户平均每周收到垃圾 邮件数量1 7 3 5 封,总数量超过7 4 亿封,每年因垃圾邮件损失过百亿元1 4 1 。垃圾 邮件造成的危害【5 】主要有以下5 个方面: ( 1 ) 大量的垃圾邮件危害了互联网的发展。互联网上传输的垃圾邮件占用 了大量的传输、存储和运算资源,不但造成巨大的网络资源浪费,而且造成巨大 的存储需求,对信息安全系统的有效性形成重大挑战。 ( 2 ) 大量的垃圾邮件损害了i s p 的市场形象,造成了无形资产的流失。国 外许多邮件服务商曾以垃圾邮件过多为由,一度封杀了国内一些i s p 的邮件服务 器i p 地址,导致很多中国用户向国外正常发送的邮件被拒绝接收,从而蒙受了 不可估量的损失。 ( 3 ) 大量的垃圾邮件损害了用户利益。由于垃圾邮件具有强制性、反复性、 欺骗性、不健康性和传播速度快等特点,严重干扰了个人的正常生活,浪费了用 户的时间、精力和金钱。 ( 4 ) 大量的垃圾邮件危害了现实社会。少数别有用心者利用垃圾邮件大量 散播各种虚假信息和有害信息,甚至有损国家和社会形象的反动言论,严重危害 了社会的稳定。 ( 5 ) 垃圾邮件被黑客利用成助封为虐的工具。例如在2 0 0 0 年2 月,黑客攻 击雅虎等五大热门网站。黑客首先侵入并控制了一些高带宽的网站,集中众多服 务器的带宽能力,然后利用数以亿万计的垃圾邮件猛烈袭击目标,造成被攻击网 站的网路堵塞,最终瘫痪。 1 2 国内外研究现状 1 2 1 邮件过滤系统的体系结构 邮件过滤系统的体系结构可分为邮件传输代理m t a ( m a i lt r a n s f e ra g e n t ) 、 邮件递交代理m d a ( m a i ld e l i v e r ya g e n t ) 、邮件用户代理m u a ( m a i lu s e ra g e n t ) 2 基于用户代理的p o p 3 邮件过滤模型的研究 3 种方式1 6 胴,如图1 - 1 所示。 图1 - 1 邮件过滤系统的体系结构 ( 1 ) m t a 过滤方式 m t a 过滤是指在邮件会话过程中,对到达的邮件进行检查和过滤。m t a 过 滤可以在邮件会话过程的2 个阶段中进行: 第一个阶段称为信封检查,是指在发送邮件数据前进行过滤,即在发送 d a t a 指令前进行过滤。首先,在s m t p 连接时,检查到达的地址是否在黑名单 i p 表中。其次,验证h e l o 和e h l o 提供的值,检查是不是完全限定域名;对m a i l f r o m 指令所提供的邮件来源,通过d n s 反向查询检查是不是有效域。最后, 对r c p tt o 指令所提供的邮件接收者,检查是不是属于允许转发的域和通过认 证的发信人等。若在该会话中检查符合过滤的条件,则按照规则采取相应的动作, 例如断开连接、发出警告代码等。 第二阶段称为信头和信体检查,是指在发送邮件数据后进行过滤,即在发送 d a t a 指令后进行过滤。d a t a 指令所传送的数据包括信头和信体两部分,它们 通过一个空行分隔开。信头一般比较小,通常在1 k b - 1 0 k b 之间,所以检查比 较快。垃圾邮件通常在信头中都有一定的特征可供识别,从而可以通过这些特定 的特征识别垃圾邮件。但有时候信头检查不足以判断一封邮件是否是垃圾邮件, 所以往往还需要对信体内容进行检查。发送邮件数据后的检查实际上是在邮件数 据传输基本完成后进行的,因此并不能节省被垃圾邮件占用的带宽和处理时间, 3 基于用户代理的p o p 3 邮件过滤模型的研究 只是让用户不再收到这些已被过滤的垃圾邮件。 ( 2 ) m d a 过滤方式 m d a 过滤是指从m t a 中接收到邮件,在本地或远程进行递交时进行检查 和过滤。由于大多数的m t a 过滤并不检查邮件内容,所以对邮件内容的过滤一 般由m d a 完成。m d a 具有较大的灵活性,m d a 过滤可以采用比较复杂的过 滤算法。m d a 可以使用过滤语言制定的过滤规则进行邮件过滤,这些规则通常 定义在一个配置文件中,修改起来比较简便。m d a 也可以采用基于概率统计的 算法对邮件信头和信体中的内容进行过滤。同时,m d a 还具有扩展功能,可以 通过接口把邮件提交给外部程序进行复杂处理;部分m d a 过滤器有内置的程序 设计语言,可以将一些附加功能编制到m d a 过滤器程序中。 ( 3 ) m u a 过滤方式 m t a 和m d a 过滤都是基于邮件服务器端的过滤,而m u a 过滤是基于邮件 客户端的过滤。目前,多数流行的邮件客户端( 如o u t l o o k 、o u t l o o ke x p r e s s 、 f o x m a i l 等) 都支持m u a 过滤。基于m u a 进行邮件过滤时,邮件过滤系统可 以部署在邮件客户端通过s m t p 向邮件服务器发送邮件的过程或邮件客户端通 过p o p 3 或i m a p 从邮件服务器接收邮件的过程【8 】。 1 2 2i p 层的反垃圾邮件技术 在基于口层的反垃圾邮件技术【9 】中,常见的技术有:黑名单【1 0 】、白名单【1 0 l 、 实时黑名单【1 1 】、实时白名单【1 2 】等。 ( 1 ) 黑名单技术 黑名单技术是最早出现的一种反垃圾邮件技术,邮件服务器一般都具有该功 能。黑名单技术的原理是确定已知垃圾邮件制造者及其i s p 的域名或口地址, 将其整理成黑名单,并将黑名单部署在网关处,从而拒绝任何来自黑名单上垃圾 邮件制造者的邮件。 黑名单服务是基于用户投诉和采样积累,建立由域名或口组成的数据库, 最著名数据库的是r b l 、d c c 和r a z o r 等,这些数据库保存了频繁地发送垃圾 邮件的主机名或d 地址。邮件服务器中的m t a 根据这些数据库进行实时查询, 从而决定是否拒收相应的邮件。 黑名单技术也可能会阻止正常用户的邮件。如果用户使用了与垃圾邮件制造 4 基于用户代理的p o p 3 邮件过滤模型的研究 者相同的i s p ,或者i p 地址与垃圾邮件制造者的p 地址属于同一范围,黑名单 技术可能会将正常邮件地址列入其中。当垃圾邮件制造者快速地改变其邮件地址 时,黑名单技术的处理效果将大幅下降,忽略垃圾邮件和过滤掉正常邮件的误报 率将大大增加。目前,各种黑名单数据库具有很强的区域歧视性。例如,北美的 r b l 和d c c 包含了我国大量的主机名和口地址,其中有些是由于早期邮件服 务器开放转发或匿名转发的属性造成,有些则是由于误报造成。这些错误迟迟得 不到纠正,从而阻碍了我国与北美地区的正常邮件联系,也妨碍了中国的用户使 用这些黑名单服务。在我国,黑名单服务仍处在起步阶段,可用的服务器比较少, 其有效性也没有得到充分的验证。 ( 2 ) 实时黑名单技术 实时黑名单是简单黑名单的扩展和发展。实时黑名单实际上是一个可供查询 的m 地址列表,通过d n s 查询方式来查找一个口地址的记录是否存在,从而 判断其是否被列入了该实时黑名单中。由于邮件服务器非常繁忙,对黑名单服务 器的查询会非常多,从而导致查询响应迟缓,增加了延迟。该问题可以通过使用 d n s 的区域传输方法解决,将黑名单服务器的数据传输到本地的d n s 服务器, 然后对本地的d n s 服务器进行查询即可。d n s 的区域传输可以设置为手工更新、 定时更新或自动更新等方式。实时黑名单具有较强的时效性,其维护一般由比较 权威和公益性的组织提供,国内的实时黑名单服务器由“中国反垃圾邮件联盟 提供。 ( 3 ) 白名单技术 白名单的原理是拒绝接收任何邮件,除非邮件地址在白名单上允许接收。白 名单提供两种使用方式:一种方式是用户阻止不在白名单上的邮件;另一种方式 是系统向邮件发送者发送邮件,要求其回复,从而证实确有其人,经过确认后将 其列入白名单中。白名单技术并也不总是有效。如果用户希望收到来自某一地址 的电子邮件,用户必须事先设置允许接收该地址邮件的规则;如果以前获得批准 的用户改变了邮件地址,用户必须将新的邮件地址写入白名单,否则就收不到来 自这位用户的邮件。在理论上,白名单是不错的解决方法,但是它会产生大量要 求邮件发送者回复的邮件,从而也会造成更多的垃圾邮件。 ( 4 ) 实时白名单 5 基于用户代理的p o p 3 邮件过滤模型的研究 实时白名单是简单白名单的扩展和发展,是一个动态的合法邮件发送服务器 地址列表。该列表主要由两部分组成,一部分为大型邮件运营商的邮件服务器地 址,例如s i n a 、1 6 3 、g m a i l 等;另一部分为可信邮件服务器的地址,不属于主 要邮件运营商,但在反垃圾邮件方面做过切实工作,并能积极响应垃圾邮件投诉 的邮件服务器地址。 1 2 3s m t p 层的反垃圾邮件技术 s m t p 层的反垃圾邮件技术【9 】 1 3 】主要集中在对基本s m t p 指令的分析和判 断上面,与文本内容分析相比,计算量很少且处理结果较好。s m t p 层集中了在 正式传输邮件内容之前邮件服务器之间的交互信息,大多数的垃圾邮件服务器都 会暴露一定的信息,尤其由于国内的垃圾邮件服务器技术水平并不高,正确地对 s m t p 指令进行分析处理,可以达到较好的垃圾邮件过滤效果。s m t p 层的反垃 圾邮件技术主要有域名反向解析【1 4 】和s m t p 交互行为的检测【1 5 】两类。 ( 1 ) 域名反向解析技术 域名反向解析对邮件发送者的i p 地址进行逆向名字解析,通过d n s 查询来 判断邮件发送者的i p 与其声称的名字是否一致,例如其声称的名字为 m e y a h o o c o r n ,而其连接地址为2 0 2 0 0 2 1 1 2 0 1 ,与其d n s 记录不符,则对该邮 件予以拒收。该方法也可以有效过滤来自动态d 的垃圾邮件,对于某些使用动 态域名的垃圾邮件发送者,可以根据实际情况进行屏蔽。 这种方法对于来自开放转发或匿名转发属性的邮件服务器的垃圾邮件无效。 针对该问题,解决办法是假设合法的用户只使用本网域内具有合法网络名称的 m t a 主机发送电子邮件。例如,如果发件人的邮件地址为s o m e b o d y y a h o o c o m , 则其使用的m t a 的网络名字应具有y a h o o c o m 的后缀。虽然这种限制并不符合 s m t p 协议,但在多数情况下是切实有效的。但逆向名字解析需要进行大量的 d n s 查询,从而耗用大量的系统和网络资源,为了提高性能和避免出现由于d n s 服务中止或查询超时,该方法并未被普遍采用。 ( 2 ) s m t p 交互行为的检测技术 s m t p 交互行为的检测技术往往是针对垃圾邮件服务器的特点进行设定,相 应的检测技术比较多而且在不断地更新发展。常见的s m t p 交互行为的检测手段 包括:发送账号限制、发送无效账号统计、使用特殊命令等。 6 基于用户代理的p o p 3 邮件过滤模型的研究 1 2 4 基于规则的过滤方法 基于规则的过滤方法【1 6 1 是通过训练得到显式规则。规则的学习过程实际上是 归纳总结的过程,首先通过考查训练样本,然后归纳总结出样本中规律性的东西, 从而形成规则。该方法的主要优点是可以生成人类理解的规则;缺点是在规律性 不明显的应用领域,分类效果较差。基于规则的过滤方法主要有r i p p e r 、d e c i s i o n t r e e 、b o o s t i n g 、r o u g hs e t 等方法。 ( 1 ) r i p p e r 方法 r i p p e r 是w i l l i 锄w c o h e n 提出的一种基于规则的方法【1 7 1 。r i p p e r 比传统的 基于规则的方法速度更快、性能更高。d r u c k e r 将r i p p e r 方法用于垃圾邮件过滤, 取得了8 0 以上的准确率【1 8 1 。 ( 2 ) d e c i s i o nt r e e 方法 d e c i s i o nt r e e 方法按照某种属性的顺序,自顶向下地生成一棵树,树的每个 节点是属性名,每条边是属性值,而树根到树叶的一条路径便对应一条规则。基 于信息增益的属性顺序选择是d e c i s i o nt r e e 中常用的方法之一。c a r r e r a s 使用 d e c i s i o nt r e e 方法过滤垃圾邮件,垃圾邮件过滤的正确率和召回率都在8 8 左右 【1 9 l 。目前,d e c i s i o nt r e e 方法并不常用于垃圾邮件过滤,而是通常作为b o o s t i n g 方法的弱学习器来使用f 1 9 1 1 2 0 1 。 ( 3 ) b o o s t i n g 方法 b o o s t i n g 方法【2 1 】是一种在已有学习方法的基础上进行“投票”的技术。该方 法通过对已有的分类器进行加权求和,从而得到最终的分类器;其中每个分类器 称为弱规则或者弱假设,加权求和后的分类器称为强规则。a d a b o o s t 方法是 b o o s t i n g 方法中最常用的一种方法。c a i t e r a s 将a d a b o o s t 方法引入到垃圾邮件过 滤,从而获得了较高的过滤性能f 1 9 j 。a n d r o u t s o p o u l o s 还在分类实验中引入了另 外一种b o o s t i n g 方法,即l o g i t b o o s t l 2 2 j 方法。d e s o u z a 使用d e d s i o nt r e e 方法作 为弱学习器,在l i n g s p a m 语料上进行垃圾邮件过滤的两组实验:一组实验采用 一层的d e c i s i o nt r e e 进行多遍b o o s t i n g 循环;另一组实验采用完全的d e c i s i o n t r e e 进行少量b o o s t i n g 循环【2 0 1 。该实验证明,在两组实验情况下都能取9 8 以 上的准确率1 2 0 】。x a v i e rc a r r e r a s 使用b o o s t i n g 方法在公共邮件样本集上实验, 证明b o o s t i n g 方法优于b a y e s 方法以及d e d s i o nt r e e 方法【1 9 j 。但是b o o s t i n g 方 7 基于用户代理的p o p 3 邮件过滤模型的研究 法的主要缺点是训练速度较慢。 ( 4 ) r o u g hs e t 方法 r o u g hs e t 理论是由波兰数学家z p a w l a k 提出的一种研究不完整、不确定知 识和数据的表达、学习、归纳的理论方法【2 3 1 。r o u g hs e t 方法的研究对象是一个 多值属性集合描述的向量集合。该方法通过集合的等价关系操作来确定属于给定 类的最大对象集合和可能属于给定类的最小对象集合,从而指导分类决策。 r o u g hs e t 方法通常通过属性约简和属性值约简来简化分类规则。其中,属性约 简为消除对决策属性没有影响的属性,属性值约简为消除对决策属性没有影响的 属性值。常犁云利用一种基于理论的属性约简和规则提取方法对3 0 个样本进行 测试,有2 个样本产生了误识,识别正确率达到9 3 3 【2 4 1 。 1 2 5 基于概率统计的过滤方法 基于概率统计的垃圾邮件过滤方法是将垃圾邮件过滤看成一个分类问题,把 邮件作为训练样本,使用训练样本对分类器进行训练,最后使用训练好的分类器 对新来的邮件样本进行分类。例如,设定妊( x 1 ,x 2 ,蜀) 为邮件过滤所 使用的特征集,其中特征的取值空间为d i ( f = 1 ,2 ,n ) ,那么所有特征向 量的向量空间可以表示为口柏1 x d 2 x d n ,同时设定分类类别为c = c 1 = s p a r e , c 2 = h a m ,邮件过滤就转化为构造一个判别函数j i l :口一c ,最后使用判别函数h 对邮件进行分类。 基于概率统计的过滤方法与基于规则的过滤方法相似,但基于概率统计的过 滤方法在过滤器中不必预先设定规则,不需要分析邮件句法或内容含义。基于概 率统计的过滤方法的理论基础是通过对大量垃圾邮件中常见关键词进行分析并 得出其分布的统计模型,最后由该统计模型推算垃圾邮件的概率。邮件过滤器是 用户根据自己所认为的垃圾邮件和非垃圾邮件的统计数据来创建的,这意味着垃 圾邮件发送者无法猜测出邮件过滤器是如何配置的,从而能够有效地阻止垃圾邮 件。只要有足够的邮件训练样本,一个好的过滤器就可以通过训练和学习,从而 自动识别各种垃圾邮件。该方法的理论基础是通过对垃圾邮件中常见的关键词进 行分析,得出其分布的统计模型,然后对关键词在模型中出现的相似度以及权值 进行计算,并由此推算出垃圾邮件的可能性。目前,基于概率统计的方法主要有 s v m ,b a y e s ,m a x i m u me n t r o p y 等,这些方法具有准确率高和错误重现性小等 r 基于用户代理的p o p 3 邮件过滤模型的研究 优点,被广泛应用于各种邮件过滤系统。 ( 1 ) s v m 方法 s v m 方法是在2 0 世纪9 0 年代以来发展起来的一种统计学习方法,该方法 通过构造最优线性分类面进行分类。s v m 方法在解决小样本学习、非线性和高 维模式识别的问题中表现较好。s v m 方法可以直接用于线性可分问题;对于线 性不可分的情形,通过构造一个变换,将问题转换到一个新的空间,从而在这个 新空间中线性可分。d m c k e r 【1 8 l 将s v m 方法用于垃圾邮件过滤实验,证明二值表 示的s v m 的性能稍高于多值表示的s v m 。k o l c z i 冽在实验中采用了多种s v m 方法的变形进行垃圾邮件过滤。林智仁【2 6 1 提供基于s v m 算法的l i b s v m - i - 具包, 本文利用该工具包对来源于来源于b e n c h m a r k 国际上的标准数据集集 s p a r n a s s a s s i nc o r p u s ( r f c 8 2 2 ) 1 2 7 】的邮件样本进行分类,准确率可以达到 9 1 4 6 。s v m 的优势是在需要大规模输入区间的分类问题上具有良好的概括性 能,例如手写字体辨认【2 9 】、面部检测【矧、信息搜索【3 1 】和文本分类【3 2 1 。 ( 2 ) b a y e s 方法 b a y e s 方法根据b a y e s i a n 法则,计算文本d 属于每个类别g ( f = l ,2 , m ,m 为类别个数) 的概率p ( g p ) ,并将它们排序,取其最大值得到d 所属 的类别。在b a y e s 公式中,每个类别的概率p ( g ) 和从类别c f 生成文本d 的概 率p ( d | c f ) 都可以从训练样本中得到。 n a n eb a y e s 方法是b a y e s 方法中使用最广泛的一种方法。在n a i v eb a y e s 方 法中,假设d 由互相独立的多个特征w ( j = 1 ,2 ,n ,n 是d 中不同特征数) j 生成,p ( d l c ) 可以归结为求p ( w i c ) 。 j b a y e s 利用特征的关联性对文本进行分类【3 3 】,广泛应用于文本分类领域【3 4 1 。 斯坦福大学的s a h a m i 3 4 1 将n a i v eb a y e s 方法引入到垃圾邮件过滤实验。s a h a m i 采用了自己收集的邮件作为邮件样本,同时除了使用词汇作为特征外,还使用了 词组特征和其他属性特征。实验结果表明,其他属性特征能够较大幅度地提高过 滤结果,准确率达到9 5 左右。在另一个实验中,s a h a m i 将垃圾邮件细分为色 情和非色情邮件,再加上合法邮件,变成一个三类问题进行过滤实验。实验结果 表明,将垃圾邮件判别看成三类问题反而降低了效果,并在文章中对此进行了分 析。a n d r o u t s o p o u l o s 3 5 】在公开语料l i n g - s p a r e 上利用n a i v eb a y e s 进行判别垃圾 9 基于用户代理的p o p 3 邮件过滤模型的研究 邮件的实验。a n d r o u t s o p o u l o s 通过考查了不同文本预处理形式对过滤结果的影 响,得出如果对原始文本除去停用词和进行词汇还原,能得出最佳的实验结果。 同时,a n d r o u t s o p o u l o s 提出垃圾邮件的代价因子指标,分析了不同过滤阈值条 件下代价因子的变化情况,并指出一味地追求高的邮件正确率在系统实现时可能 会造成很大的代价。s c h n e i d e r l 3 6 1 、潘文峰【3 7 】利用n a i v eb a y e s 算法的贝努里分布 模型和多项式分布模型来判别垃圾邮件,2 种模型的分类效果差别不大;当语料 规模和特征集合较小的时候,多变量贝努里分布模型的分类效果要好一些。t i m p e t e r s 等【3 8 】提供了基于b a y e s 算法的工具包,本文中利用该工具包对2 0 9 封来源 于m i m e 的邮件样本进行分类,准确率可以达到9 1 4 9 。 f 1 除了n a i v eb a y e s ,不少学者还使用了其他的b a y e s 模型。a n d r o u t s o p o u l o s 卜叫 使用了f l e x i b l eb a y e s 模型,该模型采用独立性假设,对概率的估计使用了高斯 分布模型。 ( 3 ) m a x i m u me n t r o p y 方法 m a x i m u me n t r o p y 方法的基本思想:给定1 个训练集t = ( 工1 ,y 1 ) ,( x 2 ,y 2 ) , ( x 。,y 。) ) ,其中x i ( f = 1 ,2 ,o o 9 n ) 为特征值,y i ( f = 1 ,2 ,n ) 为类别, 我们根据t 训练出1 个模型m ,使m 和丁的概率分布保持一致:对于未知事件, 尽量使其保持均匀分布。张乐【3 9 】提供了基于m a x i m u me n t r o p y 算法的最大熵工 具包,本文利用该工具包对来源于b e n c h m a r k 国际上的标准数据集 s p a m a s s a s s i nc o r p u s ( r f c 8 2 2 ) 1 2 7 】、z h lc h i n e s ec o r p u s i 加】和个人邮件的准确 率都可以达到1 0 0 。m a x i m u me n t r o p y 方法的优势在于将不同、分散的资源合 并成1 个独立的统计模型上具有较强能力【4 1 】。 1 3 论文主要研究问题 根据国内外研究现状,本文从邮件过滤系统的体系结构、邮件过滤系统的过 滤算法和邮件过滤系统的自适应3 个方面,总结了目前邮件过滤技术的优点以及 存在的问题。 1 3 1 邮件过滤系统的体系结构 在邮件过滤系统的体系结构方面,m t a 过滤优点是容易控制邮件的到达; 1 0 基于用户代理的p o p 3 邮件过滤模型的研究 缺点是通常不能采用基于概率统计等复杂的邮件过滤方法,否则严重影响邮件传 输服务器的性能。 m d a 过滤优点是可以采用多种邮件过滤方法对邮件进行有效过滤;缺点是 邮件过滤模型的调整需要邮件服务器的配合,不能及时、有效地满足个人的邮件 过滤要求,并且与m t a 过滤器相比,m d a 过滤器不能直接访问s m t p 对话。 m u a 过滤的优点是系统开销小,成本低,实现容易,维护方便【6 】,同时用 户可以自主设置、管理个人过滤器的规则,而基于m t a 和m d a 进行邮件过滤 时,用户无法根据自己的个性特点设置一些具有针对性的过滤规则;缺点是目前 多数基于m u a 过滤的邮件过滤系统与邮件客户端紧密相连,无法实现邮件过滤 系统相对于邮件客户端的独立性和透明性。 基于m u a 过滤时,邮件过滤系统可以部署在邮件客户端通过s m t p 向邮件 服务器发送邮件的过程和邮件客户端通过i m a p 或p o p 3 从邮件服务器接收邮件 的过程【8 】。若将邮件过滤系统部署于m u a 的s m t p 过程,现实意义并不大,因 为该过程针对用户发送的邮件进行过滤,所以一般用户不会部署针对自己发送的 邮件进行过滤的邮件过滤系统。由于很多邮件服务器不支持i m a p 协议,所以邮 件过滤也不宜部署于i m a p 过程中。因此,邮件过滤系统应该部署于从邮件服务 器接收邮件的p o p 3 过程。 1 3 2 邮件过滤系统的过滤方法 在邮件过滤方法方面,主要有基于球层的过滤方法、基于s m t p 层的过滤 方法、基于规则的过滤方法和基于概率统计的过滤方法。 在基于口层的过滤方法中,主要有黑名单技术和白名单技术。若使用黑名 单技术进行邮件过滤,当用户使用了与垃圾邮件制造者相同的i s p ,或者p 地址 与垃圾邮件制造者的i p 地址属于同一范围时,则可能会阻止来自正常用户的邮 件。若使用白名单技术,当用户希望收到来自某一地址的电子邮件,必须事先设 置允许接收该地址邮件的规则,使用较为繁琐。 在基于s m t p 层的过滤方法中,主要有域名反向解析技术和s m t p 交互行 为的检测技术。域名反向解析需要进行大量的d n s 查询,从而耗用大量的系统 和网络资源。s m t p 交互行为的检测需要针对垃圾邮件服务器的特点进行设定, 无法根据用户的过滤要求进行设定。 基于用户代理的p o p 3 邮件过滤模型的研究 在基于规则的过滤方法中,主要有r i p p e r 、d e c i s i o nt r e e 、b o o s t i n g 、r o u g h s e t 等方法。基于规则的过滤方法优点是可以生成人类理解的规则;缺点是在规 律性不明显的应用领域,分类效果较差。 在基于概率统计的方法中,主要有s v m ,b a y e s ,m a x i m u me n t r o p y 等方法。 基于概率统计的方法具有准确率高和错误重现性小等优点,被广泛应用于各种邮 件过滤系统,但目前缺乏一种能够兼容各种基于概率统计方法的通用邮件过滤系 统。 1 3 3 邮件过滤系统的自适应 在邮件过滤系统的自适应方面,利用机器学习的方法,根据某种邮件过滤方 法,对已知分类的邮件样本进行训练,生成邮件过滤模型,从而利用该邮件过滤 模型对未知邮件进行分类。由于已知分类邮件样本的有限性和不同用户的不同过 滤要求,从而导致邮件过滤模型的不完善性,这就需要利用邮件过滤系统的自适 应功能对邮件过滤模型进行不断调整,使其能够不断满足用户的需求。 目前,利用基于用户反馈的机器学习方法实现邮件过滤系统的自适应功能 【4 2 】,从而使邮件过滤系统不断完善的技术已被提出。但如何利用邮件客户端实现 邮件过滤系统快速、有效地接受用户反馈并自动根据用户反馈对邮件过滤系统做 出调整的技术尚未被提出。 针对目前邮件过滤技术的优点以及存在的问题,本文进行了基于用户代理的 p o p 3 邮件过滤模型的研究,实现了用户反馈自适应的p o p 3 邮件过滤代理模型 ( s a m f u f ) ,解决了邮件过滤系统的高效率、透明性问题、通用性问题以及自 适应性问题。 1 4 论文主要研究内容和章节安排 1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论