（国际贸易学专业论文）基于本体的垃圾邮件过滤技术研究.pdf

上传人：活*** IP属地：宁夏上传时间：2019-12-08 格式：PDF 页数：73 大小：2.46MB 积分：0 举报 版权申诉

已阅读5页，还剩68页未读，继续免费阅读

（国际贸易学专业论文）基于本体的垃圾邮件过滤技术研究.pdf.pdf 免费下载

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

摘要随着互联网的快速发展，电子邮件已经成为人们日常生活必不可少的重要组成部分，它在各个方面都展现了极大的优势，受到人们普遍的欢迎。但同时每个邮件用户每天收到的各类垃圾邮件也越来越多，这不仅影响个人生活还对整个网络造成负担，危害极大，所以垃圾邮件的识别及过滤技术日益受到重视。目前，基于邮件内容的垃圾邮件过滤技术是解决垃圾邮件的主流技术，采用的方法主要为基于规则的方法和基于概率统计的方法。以上方法都来自于普通文本分类技术，并应用于垃圾邮件过滤。但是，垃圾邮件过滤相对于文本分类仍存在差异，主要表现为：在数据内容上，邮件具有多语言、格式多样化、多编码的特点；在垃圾邮件判断标准上，每一具体用户对垃圾邮件的定义各不相同，因此需要动态满足用户个性化需求。本文对当前的垃圾邮件过滤技术涉及算法进行研究和分析，主要存在计算复杂、缺乏个性化定制等问题。对于重视用户体验的电子邮件过滤服务来讲，好的性能与充分满足用户需求是关键。本文通过构建垃圾邮件全局本体和从未知邮件中抽取特征概念词生成局部本体，识别并过滤垃圾有害邮件，根据用户需求构建用户个性化本体，在过滤环节更能体现用户个性，让用户有更好的使用体验。具体来说，本文的主要工作包括以下内容： ( 1 ) 介绍垃圾邮件过滤的现状。包含垃圾邮件的定义、危害以及常用的过滤技术； ( 2 ) 概述电子邮件的传输机制、主要的电子邮件相关协议、电子邮件内容格式等电子邮件相关知识； ( 3 ) 参照w o r d n e t 词典结构，构建了电子邮件领域内的垃圾邮件语义词典，应用于做特征概念相似度计算； ( 4 ) 基于垃圾邮件自身特点，设计并构建了垃圾邮件全局本体以及用户个性化本体库，提出了面向未知邮件的权值计算算法； ( 5 ) 设计了基于本体的垃圾邮件过滤的基本框架。关键词：本体，语义，垃圾邮件过滤，文本分类 a b s t r a c t w i t ht h er a p i dd e v e l o p m e n to fi n t e m e t ，e - m a i lh a sb e c o m ea l le s s e n t i a l l y i m p o r t a n tp a r to fd a i l yl i f e i ts h o w sg r e a ta d v a n t a g ei ne v e r ya s p e c ta n dv e r y p o p u l a r b u tt h ej u n km a i lu s e rr e c e i v e de a c hd a yb e c o m em o r ea n d m o r ev a r i a b l e t h i sn o to n l ya f f e c t st h ep e r s o n a ll i f ea l s oc a u s e st h eb u r d e no fg r e a th a r mt ot h e e n t i r en e t w o r k , s os p a mi d e n t i f i c a t i o na n df i l t e r i n gt e c h n o l o g yg e ti n c r e a s i n g l y a t t e n t i o nn o w t h ec o n t e n t - b a s e de - m a i ls p a mf i l t e r i n gt e c h n o l o g yi st h em a i n s t r e a m t e c h n o l o g yc u r r e n t l y t h ea p p r o a c hu s i n gi nt h i st e c h n o l o g yi sm a i n l yr u l e - b a s e d m e t h o d sa n dm e t h o d sb a s e do np r o b a b i l i t ya n ds t a t i s t i c s t h e s em e t h o d sa r ef r o m t h eg e n e r a lt e x tc l a s s i f i c a t i o nt e c h n o l o g y , a n da p p l i e dt os p a mf i l t e r i n g h o w e v e r , s p a mf i l t e r i n gr e l a t i v et ot h et e x tc l a s s i f i c a t i o nd i f f e r e n c e ss t i l le x i s t , m a i n l ya s f o l l o w s ：t h ed a t ac o n t e n t , e - m a i lw i t hm u l t i p l el a n g u a g e ，f o r m a td i v e r s i t y , m u l t i f e a t u r ec o d i n g ；t h es t a n d a r d so fs p a m ，e a c hs p e c i f i cu s e rh a v ed i f f e r e n t d e f i n i t i o no fs t a n d a r d so nj u n km a i l ，a n dr e q u i r e st h es y s t e mt om e e th i s h e r d y n a m i c a l l yi n d i v i d u a ln e e d s i nt h i st h s i s ，ih a v er e s e a r c h e da n da n a l y z e dt h ec u r r e n ts p a mf i r e f i n g t e c h n o l o g ya n dr e l a t e da l g o r i t h m ，a n df i n dp r i m a r yi s s u e s ，i n c l u d i n gc o m p l i c a t e d c o m p u t a t i o na n dl a c ko fc u s t o m i z a t i o n h o w e v e r , f o r e - m a i ls e r v i c e sw h i c h e m p h a s i so nu s e re x p e r i e n c e ，g o o dp e r f o r m a n c ea n ds a t i s f yu s e rn e e d sm o s t l ya r e t h ek e y b yb u i l d i n gg l o b a lo n t o l o g ye x t r a c t i n gf e a t u r e sf r o mt h eu n k n o w ne - m a i l a n da u t o m a t i c a l l yg e n e r a t i n gl o c a lo n t o l o g y , i d e n t i f ya n df i l t e ru n w a n t e ds p a m e - m a i l i no r d e rt ob e t t e rr e f l e c tu s e r sp e r s o n a l i t yb u i l d i n gp e r s o n a l i z e do n t o l o g y a c c o r d i n gt ou s e r sn e e d s ，s ot h a tu s e rh a sab e t t e re x p e r i e n c e s p e c i f i c a l l y , t h i s p a p e rm a i n l yi n c l u d e st h ef o l l o w i n g ： ( 1 ) d e s c r i b e st h es t a t u so fs p a mf i l t e r i n g c o n t a i n st h ed e f m i t i o no fs p a m ，i t s h a z a r d s ，a n dc o m m o n l yu s e df i l t e rt e c h n o l o g y ； ( 2 ) o u t l i n e st h em a i ne - m a i lk n o w l e d g e ，s u c ha se - m a i lt r a n s p o r tm e c h a n i s m ， e - m a i lp r o t o c o l sa n de - m a i lm e s s a g ec o n t e n tf o r m a t ； ( 3 ) a c c o r d i n gt ow o r d n e td i c t i o n a r ys t r u c t u r e ，c o n s t r u c t e das p a me - m a i l s e m a n t i cd i c t i o n a r yi nt h ef i e l d ，w h i c hu s e dt od of e a t u r e so fc o n c e p t u a ls i m i l a r i t y ； ( 4 ) b a s e do ni t so w nc h a r a c t e r i s t i c s ，d e s i g n e da n db u i l tag l o b a ls p a mo n t o l o g y a n du s e rp e r s o n a l i z a t i o no n t o l o g yd a t a b a s e ，a n dp r o p o s e dw e i g h tc a l c u l a t i o n a l g o r i t h mf o ru n k n o w ne - m a i l ； ( 5 ) d e s i g n e do f t h em a i nf r a m e w o r kb a s e do nt h eo n t o l o g yf o rs p a r ef i l t e r i n g k e yw o r d s ：o n t o l o g y , s e m a n t i c ，s p a r ef i l t e r , t e x tc l a s s i f i c a t i o n i l l 独创性声明本人声明，所呈交的论文是本人在导师指导下进行的研究工作及取得的研究成果。尽我所知，除了文中特别加以标注和致谢的地方外，论文中不包含其他人已经发表或撰写过的研究成果，也不包含为获得武汉理工大学或其他教育机构的学位或证书而使用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说明并表示了谢意。期：圣! 坦：! 塞? 2 争关于论文使用授权的说明本人完全了解武汉理工大学有关保留、使用学位论文的规定，即：学校有权保留并向国家有关部门或机构送交论文的复印件和电子版，允许论文被查阅和借阅。本人授权武汉理工大学可以将本学位论文的全部内容编入有关数据库进行检索，可以采用影印、缩印或其他复制手段保存或汇编本学位论文。同时授权经武汉理工大学认可的国家有关机构或论文数据库使用或收录本学位论文，并向社会公众提供信息服务。 ( 保密的论文在解密后应遵守此规定) 日期：圣! ! ! ! 丛：兰生武汉理工大学硕士学位论文 1 1 研究目的和意义第1 章绪论随着互联网的快速发展，电子邮件已经成为互联网必不可少的重要组成部分，由于电子邮件使用简单，收费低廉，传递迅速，易于保存，可在短时间内同世界上任何一个角落的网络用户联系，所以电子邮件受到人们普遍的欢迎，成为2 1 世纪互联网最重要的服务之一。但是电子邮件在给人们带来极大便利与帮助的同时，也产生了大量的问题，其中最为严重、给网络造成重大灾难的就是垃圾邮件问题。许多违法机构或黑客向存在漏洞的电子邮件服务器发送大量的垃圾邮件，造成服务器瘫痪或网络流量超载。下面主要介绍垃圾电子邮件给我们生活及工作造成的影响： ( 1 ) 某些垃圾邮件携带病毒，导致中毒的多个用户计算机形成了一次可以发送大量垃圾信息僵尸网络，因为在该网络结构中，发送垃圾信息的节点计算机很难被发现。给网络造成极大危害i l j 。 ( 2 ) 垃圾邮件的大流量特征会影响互联网的正常运行。电子邮件服务器因要频繁的处理网络上的垃圾邮件会占用服务器的网络带宽，从而影响了服务器对正常邮件的处理，严重的情况下会造成服务器的网络阻塞； ( 3 ) 由于发送垃圾邮件一般都是大流量、高频度的，所以网络上的电子邮件用户的邮箱空间会被垃圾邮件迅速占据，同时需要用户花费时间去处理该类邮件。另外，垃圾邮件一般包含不良信息甚至病毒程序，导致用户的个人私密信息被窃取或导致用户电脑瘫痪；随着中国经济与世界经济的关系日益紧密，中国对外处理事物的日益增多，通过邮件进行交流的几率也大大增加1 2 j ，如果中国的电子邮件由于上述问题遭到封杀，必将会对国内外企业和组织造成巨大的影响，影响中国经济的发展。因此，在全国范围内发展高效可靠的垃圾邮件过滤器已经成为了一个紧迫的任务。本课题的着眼点就是采用基于本体的垃圾邮件过滤技术实现邮件的分类与过滤，使用该技术不仅可以解决垃圾邮件的过滤问题，而且可以实现对每天收到的大量邮件进行更加准确的识别，有效地减少系统分发邮件的工作量【引。鉴武汉理工大学硕士学位论文于上述原因，我们认为本课题的研究具有很大的现实意义。 1 2 国内外研究现状垃圾邮件并不受人欢迎，自垃圾邮件产生之初，人们就开始展开反垃圾邮件的工作，具体时间可以追溯到上世纪9 0 年代。反垃圾邮件的发展可定义为以下三个阶段【4 】： ( 1 ) 触发阶段( 1 9 9 3 年1 9 9 7 年) ：1 9 9 4 年1 2 月，s p a m 一词开始被人接受，用于表示垃圾邮件；1 9 9 5 年1 0 月，国际上开始有专门的机构收集垃圾邮件，同时开始利用“黑名单技术实施反垃圾邮件工作。 ( 2 ) 推进阶段( 1 9 9 7 年。1 9 9 9 年) ：1 9 9 7 年5 月，国际上成立了 c a u c e ( c o a l i t i o na g a i n s tu n s o l i c i t e dc o m m e r c i a le m a i l ) 组织，主要从倡议立法的角度出发，力图唤醒有志者共同参与，一起抵制垃圾邮件。1 9 9 8 年4 月i s o c 协会就垃圾邮件问题讨论如何高效的实现垃圾邮件的过滤。同年，我国成立了 “中国教育与科研网紧急响应小组，该组织主要负责垃圾邮件的过滤研究。 ( 3 ) 发展阶段( 1 9 9 9 年一2 0 0 2 年) ：于1 9 9 9 年发布的a n t i s p a r e r e c o m m e n d a t i o n sf o rs m t o m t a s 是垃圾邮件过滤发展的里程碑，随后的各种垃圾邮件过滤技术的提出对垃圾邮件过滤产生巨大影响。同时神经网络、机器学习等技术也被引入邮件过滤领域。反垃圾邮件经过十几年的发展，取得了巨大进步。处理垃圾邮件问题主要在政策和技术上实现，下面介绍当前解决垃圾邮件的主要手段： ( 1 ) 利用垃圾邮件过滤技术。近年来，有关垃圾邮件过滤技术的研究开始逐步兴起，相关的投入也越来越大，涌现了一大批相关产品。如果能够从技术上解决垃圾邮件问题，那是最理想的了。 ( 2 ) 垃圾邮件立法。通过立法限制垃圾邮件制造者或团队发送垃圾邮件的行为，例如：对制造垃圾邮件的个人或团队处以高额罚款，甚至追究刑事责任。尽管目前国内就反垃圾邮件立法的呼声越来越高，但是仍面临很多困难。比如：每个人对垃圾邮件的定义各不相同，对垃圾邮件难以定性，垃圾邮件制造者会根据这个漏洞想尽办法逃避法律处罚，法律难以有效执行，对发送垃圾邮件的当事人给予的处罚的轻重很难判定，而且，如果缺少国际合作，即使发现来自境外的垃圾邮件，也无法制裁。如果规定发送邮件都需要一定的额外代价，在 2 武汉理工大学硕士学位论文现阶段显然很难得到广大邮件用户的认可。当前，国内外垃圾邮件过滤主要分为三类：基于口的垃圾邮件过滤、基于邮件内容的垃圾邮件过滤、基于行为的垃圾邮件过滤。下面介绍目前较为成熟的垃圾邮件过滤技术。 ( 1 ) i p 黑白名单技术【5 j 。该技术的核心是m 黑白名单数据库。口黑名单即来自该口库的邮件被定义为垃圾邮件，必须过滤掉；如果邮件口属于白名单，则邮件被认为是合法邮件。黑白名单过滤技术的优点是消耗很少的计算机资源，系统只需对数据库进行简单的检索即可，便于实现。缺点是口数据库必须及时更新以应对更多的垃圾邮件发送端。另外该技术目前通常作为垃圾邮件过滤的辅助手段。 ( 2 ) 垃圾邮件评分过滤技术。这种技术是建立在关键字技术基础之上的，单一的关键字会出现大量的误判情况，因此，出现了给每个关键词评分的方法。为每个可能在垃圾邮件中出现的关键字赋予分数，分数的高低取决于关键字在垃圾邮件中出现的可能性和严重性。对一封邮件进行扫描，如果其中有一个关键字就加一定的分数，最后，将总分和事先设置好的阀值进行比较。一般分成三种情况：第一种情况一定是垃圾邮件；第二种情况可能是垃圾邮件；第三种一定不是垃圾邮件。市场上大部分反垃圾邮件产品都运用了此项技术。这种技术的优点是，比较容易实现，降低了一定的误报；缺点是有比较多的误报情况。 ( 3 ) 基于关键字匹配的过滤技术。该技术和口黑名单原理相似，也是将垃圾邮件中经常出现的词、短语( 比如f r e e ，优惠酬宾等) 收集到一个数据库中，即特征词汇数据库。当收到一封电子邮件时，对邮件的信头、主题以及邮件正文进行检查并提取其中特征词并与数据库中关键字作匹配，如果匹配结果大于系统设置的阈值就将该邮件判定为垃圾邮件，并将其过滤掉；反之，则为合法邮件，允许接收。该技术的优点也是容易实现，速度快，缺点是对邮件的判断准确度不高。 ( 4 ) 贝叶斯过滤技术1 6 j 。该技术必须首先分析海量垃圾邮件中关键字的分布规律，并建立统计模型。根据该模型，系统推算出用户接收的未知邮件是垃圾邮件的概率。贝叶斯过滤技术的核心是根据用户接受的垃圾邮件和合法邮件的数量统计结果构建的。另外，贝叶斯过滤技术有自学习的功能，通过计算垃圾邮件与合法邮件之间的差别，以概率的形似保存并应用到后面得垃圾邮件审查中。该技术采用的方法和基于规则的过滤技术类似，但是规则不用事先定义。 3 武汉理工大学硕士学位论文贝叶斯过滤技术的优点是垃圾邮件过滤的准确性较高，具有自学习的功能，规则无需人工定义；缺点是执行速度较慢。 ( 5 ) s p f ( s e n d e rp o l i c yf r 锄e w o r k ) 过滤技术1 7 l 。电子邮件客户端通信采用的协议为s m t p 协议，该协议存在一重大安全隐患，即每个电子邮件客户端可以在s m t p 协议数据报中任意定义邮件的发送端。利用该特点，垃圾邮件发送者可以在发送垃圾邮件时虚构一个邮件发送端地址，从而隐蔽自己的真实地址。通常d n s 服务器中只有接收邮件服务器的口记录，没有发送邮件服务器口地址记录。s p f 技术在d n s 数据报中添加了发送邮件服务器的口等记录，接收邮件服务器通过对接收邮件的源邛地址采用d n s 反向查询审查其有效性，如果反向查找的发送邮件服务器列表中不含有接收邮件中记录的源m 地址，则系统可判定该接收邮件为垃圾邮件。由于s p f 技术是从邮件发送源头进行验证，有效的发件人伪造邮件源地址，但是目前电子邮件服务提供商众多，标准也不一，而s p f 要求邮件协议格式统一，所以s p f 技术实现起来成本较高。 ( 6 ) 行为模式识别技术。行为模式识别技术的核心是构建垃圾邮件行为数学模型，该模型包含了邮件发送者的各种行为特征，比如发送频率、发送时间、邮件协议声明特征、发送口以及发送指纹等。这些特征模型需要对大量的垃圾邮件进行深入的统计、分析以及计算，所以前期的统计分析工作对构建的行为模型有效性是至关重要的。该技术由于不需对目标邮件内容做完全扫描，所以一定程度上节省了系统资源，提高了计算执行效率。由于行为模型的构建是基于数学统计概率实现的，因此垃圾邮件的区分度也得到保证，理论上有9 0 的垃圾邮件区分度。 ( 7 ) u r l 反查技术。随着反垃圾邮件技术的日益成熟，特别是基于内容的垃圾邮件过滤技术对邮件标题和邮件正文中特征关键词的检测能力的进步，垃圾邮件发送者为了躲避基于特征关键词的垃圾邮件过滤，其发送邮件标题及文本中不含有任何具有垃圾邮件特征的关键词，但其邮件文本中包含的u r l 链接的是垃圾信息。u r l 反查技术就是针对此类情况，反查邮件标题和正文中的u r l 地址链接的信息，并利用基于内容的垃圾邮件过滤技术进行关键词检测。u r l 反查技术和伊黑白名单技术一样，是作为一种辅助功能实现的。总的来说，虽然随着科学技术的不断发展，当前邮件过滤技术已有了很大的提高，但仍存在较高的“错纠率，从而给某些用户的工作于生活带来极大的影响。经中国互联网络信息中心第2 3 次中国互联网络发展状况统计报告统 4 武汉理工大学硕士学位论文计，截止2 0 0 8 年底，中国网民规模达到2 9 8 亿人，查收电子邮件已经成为每个网民的日常事务，可见，防止垃圾邮件侵袭仍然是值得我们关注的问题。从目前情况看，我们必须结合当前各种过滤技术，从服务器端、网关和客户端几方面入手，采取层层过滤的方法。在邮件服务器端应该避免开放转发，参考黑名单列表，邮件来源、支持关键词、目标地址以及源地址的过滤，同时保证正常邮件到达的实时性和稳定性；在网关上应采用基于硬件的邮件过滤系统，设备安置在路由器和服务器之间，扫描进入的邮件，尽量将垃圾邮件挡在网络之外，这样即保证了网络畅通，又减少了服务器的压力；客户端是防垃圾邮件的最后一道防线，要彻底阻挡垃圾邮件，就必须在客户端中加强过滤手段。总之，垃圾邮件是全球性的问题，己经成为一种社会现象，单靠前面所述的反垃圾邮件技术的发展或是纯粹的技术手段是无法解决的。反垃圾邮件应当采用管理与技术相结合的方式，以技术手段为基础，以完善的管理制度和法律法规为依托，对社会各主体的邮件活动进行规范。 1 3 研究内容和方法 1 3 1 研究内容本文介绍了垃圾邮件过滤的现状。包含垃圾邮件的定义、危害以及常用的过滤技术；概述了电子邮件的传输机制、主要电子邮件相关协议、邮件内容格式等电子邮件相关知识：参照w o r d n e t 词典结构，构建了电子邮件领域内的垃圾邮件语义词典；基于垃圾邮件自身特点，设计并构建了垃圾邮件全局本体以及垃圾邮件局部本体，提出了面向未知邮件的权值计算算法；设计了基于本体的垃圾邮件过滤的基本框架。全文共由六个章节组成，具体内容如下：第1 章：绪论。第2 章：电子邮件基本协议。文章分析了电子邮件在网络上的传输机制，以便解析电子邮件数据包并获取其中关键信息。另外分析了电子邮件的主要传输协议及工作原理。第3 章：电子邮件过滤技术分析。本章对垃圾邮件过滤过程的主要环节进行研究，介绍电子邮件文本预处理、电子邮件文本特征概念提取以及垃圾邮件 5 武汉理工大学硕士学位论文识别的方法。第4 章：基于语义的垃圾邮件知识建模。针对垃圾邮件过滤领域构建垃圾邮件全局本体，参照w o r d n e t 词典，构建领域内垃圾邮件语义词典。另外，通过从未知邮件中抽取特征概念生成局部本体。第5 章：基于本体的垃圾邮件过滤系统设计。设计垃圾邮件过滤系统的框架，提出基于本体的垃圾邮件过滤方法。第6 章：总结及展望。 1 3 2 研究方法本文通过研究国内外当前主要的垃圾邮件过滤技术，熟悉电子邮件的主要传输协议格式，分析本体描述语言以及本体构建方法，根据垃圾邮件过滤领域的自身特点提出自己的基于本体的垃圾邮件过滤技术思想。本文以软件工程理论为指导，将本文的研究分为三个阶段：第一阶段为各个基础理论研究阶段；第二阶段为系统需求分析阶段；第三阶段为系统详细设计阶段。本文的设计思想是：在分析垃圾邮件过滤领域的基础上，构建垃圾邮件全局本体以及垃圾邮件语义词典，通过抽取未知邮件特征概念生成局部本体并与全局本体概念做相似度计算，判断未知邮件是否为垃圾邮件。 6 武汉理工大学硕士学位论文第2 章电子邮件基本协议评述电子邮件【8 】作为互联网上重要的通信手段自有其特点，因此必须在了解电子邮件工作原理的基础上开展反垃圾邮件技术的研究。本章将主要介绍电子邮件的传输机制、电子邮件相关协议以及电子邮件的结构。 2 1 电子邮件传输机制电子邮件传输过程如图2 1 所示，其中涉及到以下几个概念： ( 1 ) m u a ( m a i lu s e ra g e n t ，邮件用户代理) 。m u a 是一客户端程序，只负责和用户的交互工作，比如执行用户的邮件的接收、发送指令，用户通过该程序编写和阅读邮件。m u a 在整个邮件系统结构中为用户提供了邮件基本的操作接口，负责将用户邮件发送至邮件传输代理，或将邮件从邮件传输代理获取接收，邮件邮件系统的内部实现机制对于用户是透明的。目前常用的m u a 有f o x m a i l 等。 ( 2 ) m t a ( m a i lt r a n s f e r a g e n t ，邮件传输代理) 。m t a 在电子邮件的传输中主要负责邮件的转发。当用户通过m u a 将邮件发送到m t a 时，m t a 再将邮件传送给下一个中继m t a 或邮件接收m t a ，并最终到达m d a 。目前最著名的 m t a 程序是u n i x l i n u x 系统中的s e n d m a i l 、q m a i l 等程序。 ( 3 ) m d a ( m a i ld e l i v e ra g e n t ，邮件投递代理) 。m d a 的功能是将m t a 传送来的邮件投递给用户的接收邮件服务器。电子邮件在网络上的传输过程大致可以分为以下几步： ( 1 ) 用户通过发送端邮件用户代理编辑要发送的电子邮件； ( 2 ) 邮件用户代理将发送的邮件通过s m t p 协议【9 , 1 0 】发送给发送端邮件传输代理； ( 3 ) 发送端邮件传输代理将邮件传送给中继邮件传输代理或接收端邮件传输代理； ( 4 ) 如果接收端邮件传输代理将邮件传送给邮件投递代理； ( 5 ) 邮件投递代理将邮件投递给接收邮件服务器； 7 武汉理工大学硕士学位论文理。 ( 6 ) 接收服务器将邮件以p o p 3 或w e b m a i l 协议发送给接收端邮件用户代昌囡用户m u a电子一箱嚣囡苎囡昌圜图2 - 1 电子邮件传输过程 2 2 电子邮件相关协议 2 2 1s m t p 协议 s m t p ( s i m p l em a i lt r a n s f e rp r o t o c o l ，简单邮件传输协议【1 l 1 2 】) 属于t c p i p 协议族，电子邮件从m u a 端经过m t a 转到邮件接收服务器的过程，数据包是以s m t p 规定的协议格式的数据包形式传输的。通过s m t p 邮件在网络传输中确定下一目的站，该站可能是邮件传输代理( m 1 a ) 或者邮件投递代理( m d a ) 。总之，s m t p 定义了邮件从发送端到目的端的中转规则。 s m t p 的工作模式包括发送s m t p 和接收s m t p 。具体工作流程为：用户通过发送方s m t p 发送一封电子邮件，发送方s m t p 根据接收端域名做d n s 查询，得到接收端服务器的m x 记录，并建立s m t p 连接。并通过s m t p 命令 ( 命令分为5 个：h e l l o 、m a i l 、r c p t 、d a t a 、q u ) 来维护发送方s m t p 和接收方s m t p 间的数据通信。发送方s m t p 通过命令m a i l 指明邮件发送者信息，接收方s m t p 判断是否可以接受该邮件，如果能接收就做o k 应答，如果不能接收该邮件，发送拒绝接收应答，s m t p 仍连接保持。如果接收方s m t p 收到o k 应答，接着，发送方s m t p 发送r c p t 命令确定接收方s m t p 是否已 8 武汉理工大学硕士学位论文收到邮件，如果收到邮件，发送o k 应答。整个邮件的发送是在该流程下重复运行的，直到接收方s m t p 收到全部邮件并发送o k 应答，发送方s m t p 收到 o k 应答后断开s m t p 连接。通过s m t p 实现邮件在发送方s m t p 和接收方 s m t p 的传输过程如图2 2 所示。 b d 口口n 0 b d 口口 1r 日a 口口bd 日 n0 0 l d d ls m t p nls m t p 2 2 2p o p 3 协议图2 2s m t p 传输流程 p o p 3 即邮局协议，是一种允许用户从邮件服务器收发邮件的协议【1 2 1 3 l 。 p o p 3 属于离线式工作协议，与s m t p 协议相结合，p o p 3 是目前最常用的电子邮件服务协议。 p o p 3 的工作方式分为在线工作方式和离线工作方式：当使用p o p 3 在线工作方式收发邮件时，用户在所用的计算机与邮件服务器保持连接的状态下读取邮件用户的邮件并保留在邮件服务器上。当p o p 3 客户端使用在线工作方式发送和接收邮件时，邮件客户端与邮件服务一直保持着连接，并且用户的邮件一直保存在邮件服务器端，并根据邮件客户端的操作对存储在邮件服务器端的邮件信息及时更新。这是p o p 3 在线工作方式与离线工作方式的主要区别，在线工作方式适合于经常更换邮件收发主机的用户。其工作流程是，首先用户通过邮件客户端登录邮件服务器，用户可以通过客户端接收新邮件，注意，此前客户端本地并无邮件相关信息，新邮件 9 武汉理工大学硕士学位论文需通过邮件服务器传送给本地客户端。然后，邮件服务器根据客户端发送的请求及时更新邮件系统状态，比如，在用户在客户端打开新接收的邮件的时，客户端也会通过连接向邮件服务器发送查看邮件请求，邮件服务器在接收该请求后做出响应，并将该邮件内容信息发送给客户端；同理，当用户在客户端编辑好要发送的邮件并向邮件服务器提出发送邮件请求时，邮件服务器会接收客户端发送邮件信息。此时邮件服务器将保存发送邮件信息，并发送给发送方 s m 口。在线工作方式下，客户端与服务器之间的连接是t c p 连接，客户端与服务器的会话过程是“请求响应的过程。服务器依据客户端的请求及时更新用户存储在服务器上的邮件信息及状态。在整个会话过程中会经历三个状态： ( 1 ) 鉴权状态( a u t h o r i z a t i o ns t a t e ) ，t c p 连接被打开后，服务器应向客户端发一行欢迎信息，这样会话就进入鉴权状态。 ( 2 ) 处理状态( t r a n s a c t i o ns t , t o ，进入鉴权状态后，客户端是自己通过 p o p 3 服务器的认证，一旦成功，会话进入事务处理状态。 ( 3 ) 更新状态( u p d a t es t a t e ) ，客户端在处理状态通过请求作用于服务器。当客户端发出退出( o u r o 命令时，会话进入更新状态。在这个状态中服务器将释放事务处理状态时占用的资源，并通知客户机断掉连接最后t c p 连接将被关闭。离线工作方式适合使用固定电脑收发邮件的用户，其工作原理是，邮件发送方通过p o p 3 客户端登录p o p 3 邮件服务器，并将要发送的邮件信息上传给邮件服务器，服务器将发送邮件转发给p o p 3 客户端保存，同时将邮件发送给发送方s m t p 并删除服务器上的该邮件的数据。当接收方s m t p 将邮件发送给 p o p 3 邮件服务器时，服务器将该用户的所有邮件数据下载到p o p 3 客户端，禁止邮件服务器与客户端之间部分数据传输，同时服务器删除暂时存放的用户接收邮件信息，邮件接收服务器与邮件接收客户端连接中断。p o p 3 邮件接收客户端读取的邮件信息来自于本地，而非来自邮件服务器。 2 2 3i m a p 协议 i m a p ( i n t e r n e tm e s s a g ea c c e s sp r o t o c o l ，i n t e r n e t 消息访问协议) 是由美国斯坦福大学开发的电子邮件系统。该邮件系统中，邮件客户端无需从邮件服务器下载所有的邮件信息，发送端邮件服务器只是将接收邮件的主题、邮件主题、 1 0 武汉理工大学硕士学位论文日期等邮件相关信息发送给邮件客户端，而客户端可以根据用户自己的意愿选择要查看的邮件主题，从邮件服务器获取对应该主题的邮件全部内容，这种工作方式极大的提高了客户端浏览邮件的速度【1 4 , 1 5 l 。 i m a p 的工作模式如图2 3 所示，邮件客户端通过邮件客户端程序来管理存储在邮件服务器端的邮件信息，包括通过选择存放在客户端的邮件主题打开邮件服务器端的邮件内容、删除邮件等，在操作过程中，客户端不用从邮件服务器端下载相关的邮件内容。 i - - d _ _ i l 同a p 3 - i r _ _ -i m a 冈_ ii m a p 口i ji s 肌、 m d a 1 r j 7 l i i i i n 盯r a 图2 - 3i m a p 邮件传递过程 i m ap 提供以下三种操作模式：在线方式。邮件保留在m a i l 服务器端，客户端可以对其进行管理，其使用方式与w e bm a i l 相类似。离线方式。邮件保留在m a i l 服务器端，客户端可以对其进行管理，这与 p o p 3 协议一样。分离方式。邮件的一部分在m a i l 服务器端，一部分在客户端。这与一些成熟的组件包应用( 如l o t u sn o t e s d o m i n o ) 的方式类似。现在，i m a p 为很多客户端电子邮件软件所采纳，如o u t l o o ke x p r e s s 、 n e t s c a p em e s s e n g e r 等；支持i m a p 的服务器端的软件也越来越多，如c r i t i c a l p a t h 、e u d o r a 、i p l a n e t 、s e n d m a i l 等。 i m a p 因为自身的特点也存在对应的缺点。由于基于i m a f 的邮件系统中，用户的邮件都存放在邮件服务器端，当用户将邮件从邮件服务器下载到邮件客户端时，服务器不会将此邮件数据从本机上删除，这样服务器仍需要一定存储空间保存该邮件，服务器会定期删除老旧邮件。对比p o p 3 ，服务器端的邮件内容在被下载到用户客户端时会被删除。从某种角度来讲，i m a p 在资源管理武汉理工大学硕士学位论文上存在缺陷。另外，由于i m a p 较为复杂，编写对应的客户端和服务端邮件系统软件比采用其他邮件协议要困难，网络服务提供商要购买第三方软件实现 i m a p 邮件系统，系统维护费用较高。 2 2 4w ，e b m a i l 方式用户收发电子邮件可以通过某客户端软件比如f o x m a i l 或则直接通过浏览器利用门户网站( 比如，网易、搜狐、新浪等) 提供的邮件服务，以网页的形式收发邮件。通过邮件客户端收发邮件的工作原理本文前面已作分析，采用网页w e b 形式收发邮件的实现方式这里称作w e b m a i l 。所谓w e b m a i l 的含义就是用户通过w e b 方式收发邮件，用户的所有操作都是在网页上进行，用户和邮件服务器间的数据报是以h t r p 协议的格式通信的。随着当前互联网和门户网站的迅猛发展，越来越多的电子邮件用户都是采用w e b m a i l 的方式收发邮件【1 6 】。通过w e b m a i l 的方式进行电子邮件的收发实现简单、方便。用户只需拥有该网络邮件服务提供商的账户( 一般都是免费注册) 和一台联网主机就可以接收该网络邮件服务提供商的服务了。另外，采用w e b m a i l 方式收发邮件操作也简洁并展现给用户的交互界面也友好，相比其它通过邮件客户端收发邮件，用户无需做事先的参数配置、无需下载安装客户端软件。由于以w e b m a i l 方式实现邮件收发，用户的邮件信息都存储在邮件服务器端，所以用户可以在任何能联网的地点通过浏览器收发邮件，也不会因为操作系统崩溃而造成用户邮件信息丢失。当然，w e b m a i l 方式也有自身缺陷： ( 1 ) 用户必须在联网的条件下，登录某门户网站收发邮件； ( 2 ) 由于w e b m a i l 是以w e b 网页的形式收发邮件，所以在网络上传输的邮件信息包含许多额外的h t m l 标记，增大了数据传输的流量； ( 3 ) 以w e b m a i l 方式收发邮件的用户经常会收到广告等垃圾邮件； ( 4 ) 以w e b m a i l 方式收发邮件的用户，由于邮件信息都存放在服务端，所以在邮件服务端的存储容量会有相关限制。 2 3 电子邮件内容格式所谓邮件内容格式就是电子邮件网络上传输时，邮件信息在数据报文中的格式定义。邮件内容是分为报头域和正文组成，报头域和正文部分用空行分隔 1 2 武汉理工大学硕士学位论文开来。报头部分在邮件内容是必须存在的，在报头域中，相关参数信息是按照 r f c 8 2 2 1 7 】定义的语法格式组织起来的。正文部分在邮件内容中是可选的，正文由a s c h 码字符串组成。在邮件内容中换行以字符c r ( 回车符) 和l f ( 换行符) 的形式表示出来。报头域分为两部分：域名和域体。并且域名和域体中间用冒号隔开。报头域中的字符串为a s c h 可见编码。下面介绍在r f c 2 8 2 2 中关于电子邮件内容的格式定义，主要是对报头域中域名的定义。在了解了电子邮件内容格式的基础上，通过解析电子邮件数据包获取邮件的相关信息，并进行分析，判断是否为垃圾邮件。 ( 1 ) 邮件完成日期，邮件完成日期就是用户编辑好邮件内容并将邮件发送给发送端邮件服务器的时刻，该时刻并不是邮件服务器发送邮件到接收端服务器的时间，只是说明了邮件完成编辑并点击发送的时间。其报头域格式为： d a t a ：d a t e ：w e d , 1 5j u l2 0 0 91 1 ：1 0 ：0 7g m tc r l f 其中域名“d a t a 表示邮件完成时间，域体“1 5j u l2 0 0 91 1 ：1 0 ：0 7g m t 就是对应邮件完成的时间。 ( 2 ) i t t 珏件发送人地址域，邮件发送人地址域包含f r o m 域，s e n d e r 域，r e p l t t o 域三个报头域。其中f r o m 域是必选域，s e n d e r 域与r e p l t t o 域为可选域，f r o m 域体包含一个或多个邮箱，因为要发送的邮件的作者可能有多个邮箱，邮件名之间用逗号隔开。s e n d e r 域为邮件代发人的邮箱地址，也就是该邮件的发送者并非本人亲自发送，如果邮件的发送者是邮件的编辑者，那么s e n d e r 域可以省略。r e p l y t o 域表示邮件发送人希望邮件收件人回复邮件时的发送邮件地址，如果邮件内容不包含该域，其默认值为f r o m 域值，即r e p l y - t o 域值为发送件人邮箱地址。其报文格式为： f r o m ：a p p l e 7 8 9 1 1 6 3 c o m ，z h a n g s a n q q t o mc r l f s e n d e r ：h a p p y b o y l 0 0 s i n a c o m c nc r l f r e p l y - t o ：a p p l e 7 8 9 1 1 6 3 c o m ，z h a n g s a n q q t o mc r l f ( 3 ) 邮件目的地址域，邮件目的地址域包含t 0 域，c c 域，b c c 域三个报文头域。其中t 0 域是必选域，c c 域与b c c 域为可选域。t 0 域体包含单个或者多个邮件地址，表示邮件发送的目的地址；c c 域体同样可以包含多个邮箱地址，表示邮件要抄送的邮箱地址；b c c 域体为邮件要匿名抄送的目的邮箱地址，也可以包含多个邮箱地址。其报文格式为： t o ：a p p l e 7 8 9 1 1 6 3 t o m ，z h a n g s a n q q t o mc r l f 武汉理工大学硕士学位论文 c o ：h a p p y b o y l o o s i n a t o m c n ，l i s i l 2 3 s o h u t o mc r l f b c c ：w a n g w u 4 5 6 g m a i l t o m ，x i a h u a n 8 4 1 2

人人文库> 全部分类> 毕业设计 > 毕业论文

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

（国际贸易学专业论文）基于本体的垃圾邮件过滤技术研究.pdf

文档简介

温馨提示

最新文档

评论

（国际贸易学专业论文）基于本体的垃圾邮件过滤技术研究.pdf

文档简介

温馨提示

最新文档

评论

相关文档