(计算机系统结构专业论文)反垃圾邮件关键技术研究与实现.pdf_第1页
(计算机系统结构专业论文)反垃圾邮件关键技术研究与实现.pdf_第2页
(计算机系统结构专业论文)反垃圾邮件关键技术研究与实现.pdf_第3页
(计算机系统结构专业论文)反垃圾邮件关键技术研究与实现.pdf_第4页
(计算机系统结构专业论文)反垃圾邮件关键技术研究与实现.pdf_第5页
已阅读5页,还剩49页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江大学硕士学位论文摘要 摘要 伴随着互联网的普及,电子邮件作为一个主流的通讯手段,日益得到人们的 重视。它已经成为人们日常生活中通信、交流的重要手段之一。但是随之而来的 垃圾邮件问题也日益严峻。网民平均每天收到的垃圾邮件数量已超过了正常邮 件。因此反垃圾邮件技术越来越受到人们的重视 现侄的垃圾邮件主要是利用电子邮件传输协议的漏洞,通过服务器大量发送 垃圾邮件。因此反垃圾邮件在技术上有的利用垃圾邮件大量发送、内容相似的特 点对垃圾邮件进行拦截,包括基于统计的内容过滤技术、分布式自适应黑名单技 术等;有的是对电子邮件进行验证,来验证邮件发件人的可靠性如黑白名单技 术、电子邮票方案等。为了处理不同内容的垃圾邮件,人们使用了反馈学习技术。 它能够根据以往的垃圾邮件的数据推测当前邮件属于垃圾邮件的概率。同时垃圾 邮件发送者为了让垃圾邮件逃过反垃圾邮件系统的过滤,将原有垃圾邮件的文本 内容转换为图片来逃避。新的挑战出现了。 本论文针对国内外反垃圾邮件的情况,分析了反垃圾邮件的历史和技术发展 过程;同时,对电子邮件发送和接收的体系结构进行了分析和研究;其次,详细 介绍了反垃圾邮件中的各种关键技术,主要包括:黑白名单技术、电子邮票方案、 基于统计的内容过滤、分布式自适应黑名单,以及对这些技术的综合使用一基于 规则的评分机制,同时对特殊的图片垃圾邮件进行了相关的研究;最后,研究了 反垃圾邮件技术中的反馈学习技术,该技术能够自适应垃圾邮件的变化,跟踪垃 圾邮件的变化,自动调整策略来判定垃圾邮件。 这些反垃圾邮件技术仅仅是防御性的,不能防止垃圾邮件的产生。根本的方 法是根源阻断,通过各种手段阻止垃圾邮件的产生来减少垃圾邮件。而这种方法 目前还没走向实用,即使走向实用也需要对全球的邮件系统进行全面改造。因此 对垃圾邮件进行阻断还有很长的路要走。 关键词反垃圾邮件,黑白名单技术,电子邮票方案,基丁统计的内容过滤,分 布式自适应黑名单,反馈学习技术 浙扛大学硕士学位论文 a b s t r a c t a l o n gw i t ht h ep o p u l a r i t yo ft h ei n t e r n e t ,e - m a i li s g a i n i n g i n c r e a s i n ga t t e n t i o na sam e a n so fc o m m u n i c a t i o n b u tt h ea t t e n d a n t p r o b l e mo fs p a mh a sb e c o m em o r es e v e r e t h u sa n ti s p a mt e c h n o l o g ya r e a t t r a c t i n gi n c r e a s i n ga t t e n t i o n t h es p a m m e rs e n d sal a r g en u m b e ro f s p a r eu s i n gt h ef l a wo ft h e a g r e e m e n t t h u su s i n gt h ec h a r a c t e r i s t i co fs o m e1 a r g es p a r es e n ta n ds a m e c o n t e n to f s p a r e 。a n t i s p a mt e c h n o l o g yi n t e r c e p t ss p a r ei n c l u d i n g s t a t i s t i c s b a s e dc o n t e n tf i l t e r d i s t r i b u t e da d a p t i v eb l a c k l i s t o t h e r s t h r o u g hv e r i f y i n gt h em a i lr e l i a b i l i t y ,i n c l u d i n gb l a c k - a n d - w h i t el i s t , e l e c t r o n i cs t a m pp l a n t od e a lw i t hd i f f e r e n ta s p e c t so ft h es p a r e ,p e o p l e u s ef e e d b a c kl e a r n i n gt e c h n o l o g y i tp r e s u m e st h ep r o b a b i l i t yo ft h e c u r r e n tm a i lb a s e do nd a t ao fp a s ts p a r em a i l m e a n w h i l es p a n n e ru s et h e m e t h o do fc o n v e r t i n gt h eo r i g i n a ls p a r et e x t t oi m a g ef o re s c a p i n g a n t i s p a r ef i l t e r i n gs y s t e m n e wc h a l l e n g e sh a v ee m e r g e d t h i sa r t i c l ed i s c u s s e st h ed o m e s t i ca n d f o r e i g na n t i s p a r e t e c h n o l o g i c a ld e v e l o p m e n tp r o c e s sa n da n a l y z ee - m a i la r c h i t e c t u r e s e c o n d l y ,i ti n t r o d u c e st h ea n t i s p a r ek e yt e c h n o l o g i e si nd e t a i1 , i n c l u d i n g :b l a c k - a n d - w h i t e1 i s t ,e l e c t r o n i cs t a m pp l a n ,s t a t i s t i c s b a s e d c o n t e n tf i l t e r 。d i s t r i b u t e da d a p t i v eb l a c k l i s t ,a n dr u l e b a s e ds c o r i n g s y s t e m m e a n w h i l ei td i s c u s s e si m a g e l e v e ls p a r ee - m a i lp r o b l e 札f i n a l l y , i ti n t r o d u c e st h ef e e d b a c kl e a r n i n gt e c h n o l o g y ,w h i c hc a na d a p tt h e c h a n g e so ft h es p a r em a i l ,t r a c kc h a n g e sa u t o m a t i c a l l ya n da d j u s t s t r a t e g ie st od e t e r m i n es p a r em a i1 t h e s ea n t i s p a r et e c h n o l o g yi so n l yd e f e n s i v ea n dc a n n o tp r e v e n ts p a r e g e n e r a t i o n t h ef u n d a m e n t a lm e t h o di sb l o c k i n g ,t h r o u g hv a r i o u sm e a n st o p r e v e n ts p a r es e n d i n g c u r r e n t l yt h i sm e t h o di sn o tp r a c t i c e 。a n di tn e e d s t h et r a n s f o r m a t i o no ft h eg l o b a le - m a i ls y s t e m s ob l o c k i n gs p a r ee - m a i l h a sal o n gw a yt og o k e d v o r d s :a n t i s p a r e ,b l a c k - a n d w h i t e 1i s t ,e l e c t r o n i c s t a m pp l a n 。 s t a t i s t i c s b a s e dc o n t e n tf i l t e r ,d i s t r i b u t e d a d a p t i v eb l a c k l i s t , f e e d b a c kl e a r n i n gt e c h n o l o g y i i 浙江大学硕士学位论文 图目录 图目录 图卜l 第一代技术原理5 图2 - 1 电子邮件传输过程8 图3 1 反垃圾邮件技术分类1 5 图3 - 2 用户黑白名单1 6 图3 qr b l 工作环境1 7 圈3 - 4r b l 工作流程,1 8 图3 5 电子邮票方案2 0 圈3 喝s p f 工作环境2 l 图3 7s p f 信息验证流程2 2 图3 - 8 邮件集的建立,2 5 图3 呻贝叶斯算法2 6 图3 1 0 实现的贝叶斯算法2 8 图3 一1 1 意图检测技术2 9 图3 一1 2 分布式自适应黑名单技术3 2 图3 1 3 分布式自适应黑名单的网络结构,。3 3 图3 1 4 基于规则的评分机制3 6 图3 - 1 5 反垃圾邮件系统设计框架,3 7 图3 一1 6o c r 处理流程3 8 图3 1 7 使用光学识别技术流程4 0 图3 一1 8 图片指纹识别技术4 1 图4 - 1 机器学习过程4 2 图4 2 人工干预学习过程4 2 圈4 3 贝叶斯算法学习过程,4 4 圈4 - 4 贝叶斯反馈学习技术4 5 浙江大学硕士学位论文 表目录 表目录 表卜1 国外当前主要的电子邮件认证技术5 表2 1 邮件内容的标准格式1 i 表2 2 出现在信头的一些字段i l 表2 3m i w l ! 邮件示例:1 2 表2 4m i 飓新增的信头字段1 3 浙江大学硕士学位论文 第1 章绪论 1 1 垃圾邮件的危害 第1 章绪论 随着国际互联网的发展和普及,电子邮件( e l e c t r o n i c m a i l ,简称为e - m a i l ) 以其方便、快捷、低成本的独特魅力,成为人们日常生活中不可缺少的通信手段 之一但电子邮件给人们带来极大便利的同时,也日益显示出其负面影响,那就 足我们每天收到的邮件中有很大一部分是那种“不请自来”的:它们或者是推销 广告,或者是一些有害的不良信息,甚至还有病毒。 垃圾邮件( s p a mm a i l ) 又称u b e ( u n s o l i c i t e db u l ke - m a i l ) ,即未经接 受者同意而大量散发的电子邮件。垃圾邮件在中国互联网协会反垃圾邮件规 范中被界定为: 1 ) 收件人事先没有提出要求或者不同意接收的广告、电子刊物以及各种形 式的宣传邮件; 2 ) 收件人无法拒收的电子邮件; 3 ) 隐藏发件人身份、地址、标题等信息的电子邮件; 4 ) 含有虚假的信息源、发件人、路由等信息的电子邮件。 按照上述界定,上面四类邮件都属于垃圾邮件范畴。相反,我们可以称收到 的其它邮件为“合法邮件”。对大多数用户,收到的垃圾邮件大部分都是没有主 动订阅的广告、电子期刊等宣传品,其基本特征是“不请自来”、带有商业目的 或者政治目的的。实际上,垃圾邮件的判定会因人而异,不同的用户对同一邮件 的判定结果可能存在差异。 目前,很多用户都使用免费邮箱,这类邮箱对垃圾自b 件的防范能力较差,垃 圾邮件发送者可以很容易的通过穷举、猜测等途径获得用户的邮件地址。人们在 学习和工作中也不可避免的要经常对外公开自己的邮箱地址,如完成各种网站的 会员注册、公开自己的联系方式等,这正好也给了垃圾邮件可乘之机。一些人专 门收集邮件地址,然后有偿转让给有这种需求的垃圾邮件发送者。 现在越来越多的垃圾邮件是通过中继( r e l a y ) 发送的,即远程机器利用某 台服务器向外发垃圾邮件。标准的电子邮件传输协议在传输邮件时,不进行用户 的身份认证,邮件可以被匿名或冒名发送。因此,任何人都可以利用邮件服务器 对任意地址发送邮件,使得服务器无限转发( o p e nr e l a y ) 。目前已经有很多邮 件服务器的升级版本支持了关闭o p e nr e l a y 的方法,但由于系统管理员的疏忽。 这一漏洞经常没有得到即时修补。 作为垃圾邮件的发送方,其成本是极低的,通常是通过各种方式群发。而对 电子邮件服务提供商和用户而言,垃圾邮件却给他们带来很大的危害和损失。具 浙江大学硕士学位论文第1 章绪论 体的说,其危害主要表现在以下几个方面: 1 ) 占用网络带宽浪费网络资源,干扰邮件系统的正常运行。当有限的网 络资源和网络带宽上充斥大量的垃圾邮怍时,就降低了网络的使用效率。对邮件 服务器而言,收到的垃圾邮件占用了它的磁盘空问而且如果垃圾邮件得不到有 效控制,用户会放弃邮箱,服务商将被迫终止服务,给企业带来很大的损失另 外,当一些用户利用邮件服务器对外发送垃圾邮件时该服务器会被列入黑名单 而遭外部封杀。因此,邮件服务器既要拒收来自外部的垃圾邮件,还要阻止自己 的邮件用户对外发送垃圾邮件。 2 ) 浪费用户的宝贵时间和上网费用。如果我们每天都要花费一一段时间来处 理垃圾邮件,工作效率就要降低,对整个社会来说,被浪费的时间更是一大笔宝 贵的财富。有关调查显示,2 0 0 3 年,网民平均每天需花费6 5 分钟来处理无用 的邮件。单是下载垃圾邮件所花费的上网费与电话费,全年就要浪费全球网民 9 4 亿美元。 3 ) 对网络安全形成威胁。一些垃圾邮件传播色情、反动等各式各样的有害 信息,给社会带来危害。黑客们利用电子邮件系统发送数以万计的垃圾邮件风暴 攻击且标。使之瘫痪、拒绝服务。垃圾邮件还可以被病毒利用,成为它们的传播 途径。 面临着垃圾邮件闯题日益严重的现状,人们开始从多方面寻找解决方案。例 如,一些“邮箱运营商”成立了专门的部门处理垃圾邮件,并设立“首席垃圾邮 件官”有些邮件客户端工具也提供了一定的垃圾邮件过滤功能。 解决、缓解垃圾邮件问题的方法和手段一般有; 1 ) 反垃圾邮件立法。例如,一旦确认某个团体或个人是垃圾邮件的发送者。 那他就面临着法律的制裁与处罚,或者规定发送任何邮件都要付出一定的“邮崇” 代价,以此来制约垃圾邮件发送者大规模重复的发送邮件针对目前垃圾邮件泛 滥的现状,反垃圾邮件立法的呼声日益渐高,中国互联网协会反垃圾邮件协调小 组2 0 0 4 年2 月1 8 日在北京发出关于加快“反垃圾邮件立法”进程的倡议,得到 了众多组织机构和邮件用户的响应。但立法面临着一系列的问题:首先是垃圾邮 件的概念之争。到底什么是垃圾邮件,像宣传品、电子期刊等这类邮件是不是垃 圾邮件很难界定,垃圾邮件发送者会想尽二切办法逃脱法律的惩罚;其次是法律 的执行问题,给予什么样的处罚,而且如果缺少国际合作,即使发现来自境外的 垃圾邮件,也无法制裁,如果规定发送邮件都需要一定的额外代价,在现阶段显 然很难得到广大邮件用户的认可。 2 ) 利用反垃圾邮件技术。近年来,有关反垃圾邮件技术的研究兴起。相关 的投入也越来越大,涌现了一大批相关产品。如果能够从技术上解决垃圾邮件问 题,那是最理想的了。 浙江大学硕士学位论文 第1 章绪论 1 2 反垃圾邮件历史 回顾反垃圾邮件技术的发展历程,可以将其分为三个阶段: 触发阶段( 1 9 9 3 年1 9 9 7 年) :1 9 9 4 年1 2 月,s p a m 一词开始用于表示垃 圾邮件;1 9 9 5 年1 0 月,国际上开始为垃圾邮件设定专门的邮件账户 a b u s e d o m a i n ,用于收集、讨论垃圾邮件;同时开始利用“黑名单”( 把些已 知的发送垃圾邮件i p 或邮件地址列入其中,用来过滤垃圾邮件) 技木实胞反垃 圾邮件工作 推进阶段( 1 9 9 7 年1 9 9 9 年) :1 9 9 7 年5 月,国际上成立了c a u c e ( c o a l i t i o na g a i n s tu n s o l i c i t e dc o m m e r c i a le - m a i l ) 组织。主要从倡议立 法的角度出发,力图唤醒有志者共同参与,一起抵帝4 垃圾邮件1 9 9 8 年4 月, i n t e r n e t 协会i s o c 针对垃圾邮件问题召开了专项会议,讨论有效的实施垃圾邮 件过滤方式等等。在这一阶段中。许多国际组织和服务单位例如m a p s 、s p a n h a u s 、 o r b s s p a m c o p 也相继成立。对垃圾邮件问题( 尤其是对i s p ) 提出了很多建议和 解决方案。尤其重要的是,1 9 9 8 年我国成立了第一家开展垃圾邮件与反垃圾邮 件技术研究单位“中国教育与科研网紧急响应小组( c c e r t ) ”,他们积极地与国 际组织接触并建立联系。成为这一阶段我国接受和处理国际投诉的主要窗口。 发展阶段( 1 9 9 9 年一一2 0 0 2 年) :1 9 9 9 年2 月,r f c 2 5 0 2 ,a n t i s p a m r e c o m m e n d a t i o n sf o rs m t om t a s 的正式发布标志着反垃圾邮件技术研究的蓬勃 发展。许多国际知名大学和研究机构都组织人员开始了反垃圾邮件技术的研究。 随着反垃圾邮件立法和建立统一标准等工作的推进,这一研究领域更是吸引了许 多从事交叉学科研究的技术人员的关注。机器学习、神经网络和遗传算法等先进 的研究经验都被引入到这一领域。这一阶段的研究成果成为近几年国内外开发反 垃圾邮件产品的主要技术依据。 1 3 反垃圾邮件技术 现有的反垃圾邮件技术”上可以分成两类:“根源阻断”和“存在发现”。“根 源阻断”是指通过防止垃圾邮件的产生来减少垃圾邮件。这种方法目前还没走向 实用,即使走向实用也需要对伞球的邮件系统进行全面改造。所以,对垃圾邮件 进行阻断还有很长的路要走。目前,主流的反垃圾邮件技术是“存在发现”,即 对已经产生的垃圾邮件进行过滤。反垃圾邮件的发现可以通过邮件的内容特征或 者其它特征( 如群发特征) 来实现,其中基于内容的反垃圾邮件技术是研究的重 浙江大学硕士学位论文 第1 章绪论 点。 从内容上看,垃圾邮件过滤可以看成一个分类问题,将邮件分为垃圾邮件和 合;玄邮件这两类。因此,各种分类方法可以用丁垃圾邮件的过滤。然而,垃圾邮 件过滤是一个特定领域的分类问题,它至少在以下几个方面与一锻的分类存在不 同: 1 ) 通常认为,用户宁愿接收更多的垃圾邮件,也不能接受将合法邮件错判 成垃圾邮件。因此,与通常的分类方法相比,垃圾邮件过滤更重视正确率; 2 ) 婶圾邮件过滤实现的环境通常都有较高的性能要求,凶此要求垃圾邮件 过滤的方法不仅要重视实现的效果,也要重视实现的效率; 3 ) 垃圾邮件过滤中的类别有别于通常分类中的类别。一方面,垃圾邮件、 合法邮件在语义上并不像通常分类中的类别( 如体育、军事等) 能够被人理解: 另一方面垃圾邮件的类别定义可能会因人而异,也可能会随着时问而改变。 1 3 1 第一代:规则过滤、统计过滤和地址列表技术 第一代技术包括了规则过滤、统计过滤和地址列表过滤技术。 规则过滤( 包括:内容过滤、散列值过滤) :可以在不修改现有电子邮件协 议的基础上直接使用。规则过滤技术虽然能够阻止垃圾邮件进入邮件系统,但无 法阻止垃圾邮件的产生,比较被动,是补救措施;具有一定的局限性,误判率较 高、比较容易被绕过关键词,以逃避系统过滤,如使用生僻的文字和带有文字的 图片、插入无用信息干扰等。为了保证过滤规则的有效性,管理员必须经常更新 过滤规则。 统计过滤( 包括:常用的贝叶斯过滤) :作为上述两种过滤技术的改进,统 训过滤技术使用统计规律来衡量邮件消息的频率和模式。通过引算已知特征出现 附加特征可能性,来区分垃圾邮件和合法邮件。误判率较低,不需要管理员更新 过滤规则。过滤系统通过监视用户对垃圾邮件的分类判定,自动调整过滤规则。 地址列表技术( 包括:实时黑名单技术) :是指根据发送方i p 地址或域名, 来判断是否接收发送方的电子邮件。地址列表技术也属于防范性技术,不能阻止 垃圾邮件的产生。 第一代技术基本上还是沿用了“截获样本、解析特征、生成规则、规则下发、 内容过滤”这种类似杀毒软件的原理,但是由于每天新的垃圾邮件数量巨大,内 容特征变化快,这种传统思路的实时黑名单、内容过滤、内容评分等反垃圾邮件 技术,面l | 缶动态i p 跟踪难、过滤率低、误判率高、网络流量大、资源消耗大、 规则维护工作量大的技术瓶颈,难以克服。但是这一代技术仍然是使用最广泛的 反垃圾邮件技术。 浙江大学硕士学位论文第1 章绪论 图卜l 第一代技术原理 1 3 2 第二代:行为识别模式 利用概率统计数学模型对垃圾邮件进行分类分析统计,运用“小偷的行为心 理异于常人”的道理,垃圾邮件的发送亦如此。行为模式识别模型包含了邮件发 送过程中的各类行为要素,如:时间、频度、发送i p 、协议声明特征、发送指 纹等。这些特征行为能够在邮件传输代理通信阶段针对垃圾邮件在传递过程中显 示出来的特征行为如“发送频率频繁、在短时间内不断地进行联机投递、动态 i p ”等明显一系列带有垃圾邮件典型行为特征的邮件在空中就开始边接受、边处 理、边判断。 行为模式识别模型不需要对信件的全部内容进行扫描,大大提高了网关过滤 垃圾邮件的速度,减少了网络资源的负荷和网络流量,可以提高垃圾邮件计算处 理能力。同时也不会出现侵犯隐私权的法律风险。但是对行为的识别需要比较长 的时间,而且仅仅限制了垃圾邮件的发送速度而已。 1 3 3 第三代:电子邮件认证技术 电子邮件认证技术是针对垃圾邮件的伪造域地址或伪造回复地址的有效阻 断技术。为逃避可能面临的法律起诉和网络服务提供商的终止服务等危险,垃圾 邮件制造者频繁利用s m t p 协议的漏洞来伪造发件人身份。这是可以从源头找到 垃圾邮件的发送者追查到相应责任人的一个方法。但是该技术可能被垃圾邮件 制造者利用。同时这一技术的部署可能需要投入的成本比较高,需要运营商和邮 件服务商的配合。 国外当前主要的电子邮件认证技术有: 表i - i 国外当前主要的电子邮件认证技术 技术名称提出厂商 发件人策略框架( s p f ) 美国在线 发件人标识( s e n d e ri d ) d o 微软 域密钥( d o m a i nk e y s ) 雅虎 互联网电子邮件标识( i i m )思科 浙江大学硕士学位论文 第1 章绪论 1 4 本文内容介绍 本文将介绍反垃圾邮件关键技术的研究和实现,现将内容组织为: 第1 章:绪论,对垃圾邮件的概念和危害、反垃圾邮件历史以及现有的反垃 圾邮件技术进行了简单的介绍。 第2 章:电子邮件体系结构,作为背景资料,简单介绍了邮件传输方式、传 输协议以及邮佴内容格式,为下面介绍的反垃圾邮件关键技术作铺垫。 第3 章:反垃圾邮件关键技术,根据对邮件各部分的处理顺序,依次介绍了 反垃圾邮件中的关键技术,包括:用户黑白名单技术、网络黑白名单技术、电子 邮票方案、基于统计的内容过滤、意图检测技术、规则过滤技术、分布式自适应 黑名单技术、基于规则的评分机制以及图片垃圾邮件的判别技术。 第4 章:反垃圾邮件反馈学习技术,由于垃圾邮件的多样性,因此要求反垃 圾邮件需要有反馈学习技术以应对垃圾邮件的变化。本章就反垃圾邮件中的反馈 学习技术进行了介绍。 第5 章:总结和展望,对全文进行了总结和展望。 6 浙江大学硕士学位论文第2 章电子邮件体系结构 第2 章电子邮件体系结构 2 1 电子邮件的概述 电子邮件是互联网上应用最广的服务:通过网络电子邮件系统,您可以用非 常低廉的价格、以非常快速的方式与世界上任何一个角落的网络用户联系。这些 电子邮件可以是文字、图像、声音等各种方式。同时,您可以得到大量免赀的新 闻、专题邮件,并实现轻松的信息搜索。这是任何传统的方式也无法相比的。正 是由于电子邮件使用简易、投递迅速、收费低廉、易于保存、全球畅通无阻等这 些特性,使得电子邮件被广泛地应用。它极大的改变了人们的交流方式 电子邮件有自身的结构特点。电子邮件的协议和内容格式也是由r f c ( r e q u e s tf o r c o m m e n t s ) 的几个文档规定的。r f c 8 2 1 规定了s m t p 协议( s i m p l e m a i lt r a n s f e rp r o t o c o l ,简单邮件传输协议) ,定义发送邮件的机制。r f c l 7 2 5 规定了p o p 3 协议( p o s to f f i c ep r o t o c o l3 ,邮局协议版本3 ) ,定义从p o p 3 服务器收取邮件的机制。r f c 8 2 2 定义了邮件格式。随着电子邮件的广泛使用, 邮件系统不仅需要传输各种字符集的文本内容,而且还需要传送各种非文本文件 ( 例如图像文件、w o r d 文件、p d f 文件、z i p 文件等等) 。根据这个需求,人们 又定义了m i m e 标准,作为r f c 8 2 2 的补充。m i 脏协议( m u l t i p u r p o s ei n t e r n e t m a i le x t e n s i o n s ,多用途互联网邮件扩展协议) 由r f c 2 0 4 5 和r f c 2 0 4 6 这两个 标准构成。目前几乎所有的邮件服务系统都支持m i m e 标准。 2 2 邮件传输方式 在介绍邮件传输方式之前,先对几个概念进行解释: 1 ) m u a ( m a i lu s e ra g e n t ,邮件用户代理) 是用户平常所使用的信件阅读 与撰写的程序。如o u t l o o ke x p r e s s 。它接收用户的命令,为用户提供一个方便 的界面来收发信件。在邮件系统中用户只与m u a 打交道,m u a 将邮件系统的复杂 性与用户隔离开。 2 ) m t a ( m a i lt r a n s f e ra g e n t ,邮件传输代理) 是一个专用程序,其作用 类似于邮局,用于在两个机器之间发送邮件。m t a 决定了邮件到达目的地的路径。 l i n u x 上常用的m t a 有s e n d m a i l 、q m a i l 、p o s t f i x 等。 3 ) m d a ( m a i ld e l i v e ra g e n t ,邮件递交代理) 是将邮件递送到邮箱的程序。 在m t a 收到一封信件后,会先判断该信件的目的地是不是自己。如果不是则会继 浙江大学硕士学位论文 第2 章电子邮件体系结构 续帮忙转发,如果是自己,盯 则会把信件交给m i ) a 来处理,由m d a 真正的把信 件送到主机上收件人的信箱中。因此盯 自己并不完成最终的邮件发送,它要调 用m d a 来完成最后的投递服务。l i n u x 上最常用的m d a 是p r o c m a i l 。 舡盯母母明塌 调用 图2 - 1 电子邮件传输过程 接收m t a 图2 - 1 电子邮件传输过程是进行电子邮件交换的示意图。首先,发信者利 用m u a 写好邮件,交给发送m t a 。然后,发送m t a 再通过中继m t a 将邮件传送到 接收m t a 。中继m t a 可以没有,也可以有多个。m o a 与m t a ,m t a 与y t a 之问的通 信协议是s m t p 。接着,接收m t a 调用m d a 将邮件递交给收信者的邮箱。最后, 收信者可以通过三种方式( p o p 3 、i m a p 和w e b l d a i l ) 与邮箱交互,来读取或者下 载邮件。 2 3 邮件传输协议 2 3 1 s m t p 协议 s m t p “1 ( s i m p l em a i lt r a n s f e rp r o t o c 0 1 简单邮件传输协议) 是一组用 于由源地址到目的地址传送邮件的规则,由它来控制邮件的中转方式。s m t p 协 议属于t c p i p 协议族,它帮助每台计算机在发送或中转邮件时找到下一个目的 地。通过s m t p 协议所指定的服务器,我们就可以把电子邮件发送到收信者的服 务器上,整个过程只要几分钟。s m t p 服务器则是遵循s m t p 协议的发送邮件服务 器,用来发送或中转你发出的电子邮件。 s m t p 通常有两种工作模式:发送s m t p 和接收s m t p 。具体工作方式为:发送 8 浙江大学硕士学位论文 第2 章电子邮件体系结构 s m t p 在接到用户的邮件请求后,判断此邮件是否为本地邮件,若是直接投送到 用户的邮箱,否则向d n s 查询远端邮件服务器的姒纪录,并建立与远端接收s m t p 之日】的一个双向传送通道,此后s m t p 命令由发送s m t p 发出,由接收s m t p 接收, 而应答则反方面传送。一旦传送通道建立,s m t p 发送者发送m a i l 命令指明邮件 发送者。如果s m t p 接收者可以接收邮件则返回0 k 应答。s m t p 发送者再发出r c p t 命令确认邮件是否接收到。如果s m t p 接收者接收,则返回o k 应答;如果不能接 收。则发出拒绝接收应答( 但不中止整个邮件操作) ,双方将如此重复多次,直 到全部邮件发送完成为止。当接收者收到全部邮件后,如果接收者成功处理了邮 件,则返回o k 应答。发送者收到o k 应答之后,断开连接。这样一次s m t p 传输 完成。 2 3 2 p o p 3 协议 p o p 3 “1 ( p o s to f f i c ep r o t o c o l3 ,邮局协议的第3 个版本) 规定怎样将个 人计算机连接到互联网的邮件服务器并下载电子邮件的电子协议。它是互联网电 子邮件的第一个离线协议标准,p o p 3 提供了快捷的邮件下载服务,用户可以利 用p o p 3 把邮箱里的邮件下载到本地主机( 即自己的计算机) 上进行离线阅读。 一旦邮件进入本地主机( 即自己的计算机) 的本地硬盘,就可以选择把邮件从服 务器上删除,然后脱离与互联网的连接并选择在任何时候阅读已经下载的邮件。 而p o p 3 服务器则是遵循p o p 3 协议的接收邮件服务器,用来接收电子邮件的。 p o p 3 仍采用c l i e n t s e r v e r 工作模式。当客户端需要服务时客户端的软 件( o u t l o o ke x p r e s s 或f o x m a i l ) 将与p o p 3 服务器建立t c p 连接,此后要经过 p o p 3 协议的三种工作状态:首先是认证过程,确认客户端提供的用户名和密码; 在认证通过后便转入处理状态,在此状态下用户可收取自己的邮件或对邮件进行 删除,在完成响应的操作后客户端便发出0 u i t 命令;此后便进入更新状态,将 做删除标记的邮件从服务器端删除掉。到此为止整个p o p 3 过程完成。 2 3 3 i m a p 协议 i m a p “( i n t e r n e tm e s s a g ea c c e s sp r o t o c o l ,i n t e r n e t 消息访问协议) 主 要提供的是通过i n t e r n e t 获取信息的一种协议。i m a p 像p o p 3 那样提供了方便 的邮件下载服务,让用户能进行离线阅读,但i m a p 能完成的却远远不只这些。 同p o p 3 相比,i m a p 提供的邮件“摘要浏览”方式极大地提高了邮件浏览速 度,可有效地节省客户宝贵的时间。这对于经常接收大量邮件和希望阻止垃圾邮 9 浙江大学硕士学位论文第2 章电子邮件体系结构 件的用户来说此功能是非常实用的。用户建立i m a p 账号后,可以指定哪些文件 夹显示,哪些文件夹隐藏,利用i m a p 提供的摘要浏览功能使用户在阅读完所有 邮件的到达日j 问、发件人、主题、人小等信息后才做出是否下载的决定。也就是 说。你不必等待所有的邮件都下载完毕后才知道究竟邮件里都有些什么。如果你 根据摘要信息就可以决定某些邮件对你毫无用处,你就可以直接在服务器上把这 些邮件删除掉,而不必浪费你宝贵的上网时间。 如果你的i m a p 客户端软件完整支持i m a p 4 r e v l 的话,则你还可以享受选择 性下载附件的服务。举例来说,假如一封邮件里含有大大小小共5 个附件。而其 中只有2 个附件是你需要的,你就可以只下载那两个附件,节省了下载其余邮件 的时间,从而节省了大量的宝贵时间和网费,避免了使用p o p 3 方式收信时必须 将邮件全部收到本地后才能进行判断的被动。 通过i m a p ,允许用户在服务器上建立任意层次结构的文件夹,并且可以灵 活地在文件夹之间移动邮件,随心所欲地组织你的邮箱( 这些显然是通过p o p 3 做不到的) 。只要你的邮件存储在服务器上,任何时候通过一个i m a p 的客户端软 件都可以立即联机获得你的邮件。 同时i m a p 忠实地只为你的电子邮件服务,不让你的资源有丝毫的浪费。i m a p 协议还允许你方便地利用你的邮箱作为信息存储工具。一般的i _ i a p 4 客户软件都 支持邮件在本地文件夹间和服务器文件夹间的随意拖动,让你得心应手地把本地 硬盘上的文件存放到服务器上,然后在你需要的时候同样方便地取回来,所有的 功能仅需要一次鼠标拖放的操作来实现。 2 3 4 w e b m a i l 方式 w e b m a i l 是一个基于w e b 的电子邮件收发系统。它的界面直观、友好,免除 了用户用一般的电子邮件客户软件收发电子邮件时需对这些客户软件进行配置 所带来的不便,也是当今许多免费邮箱供应商对其用户提供的收发电子邮件的方 式。w e b m a i l 只是简单地读取用户邮箱服务器上的邮件,而不会将这些邮件下载 到用户主机上。除非用户使用w e b m a i l 系统中的删除邮件功能,j 写则邮件不会从 用户的邮箱主机中消失。而且用户可以把他的邮件都留在服务器上,并且通过 w e b m a i l 服务建立多个文件夹,然后分类归档地管理自己的邮件。这样,w e b m a i l 的用户就可以不分时间地点,只要有一个浏览器就可以马上从服务器上获得自己 的邮件,不管是刚收到的还是已经存放了很久,也不必担心客户端的p c 重新安 装了操作系统或换了一台电脑以后邮件全部丢失了的问题。 浙江大学硕士学位论文第2 章电子邮件体系结构 2 4 邮件内容格式 邮件内容的格式是有r f c 8 2 2 协议剐定义的。整个邮件分为基本的两部分: 信头( h e a d e r ) 和信体( b o d y ) 。信头有一系列的字段( f i e l d s ) 组成。信体就 是你发送给收件者的数据( 包括文本或文件) 。一个空字符串( 回车换行符) 将 信体同信头分开,也就是说一个空字符串标记了信头的结束。以下是标准的 r f c 8 2 2 定义的邮件格式; 表2 - 1 邮件内容的标准格式 信头部分的字段可分为两类。一类是由你的电子邮件程序产生的,另一类是 邮件通过s m t p 服务器时被s m t p 服务器加上的。在所有被s j j t p 服务器加上的字 段中,对我们而言最重要的是m e s s a g e i d 字段。这个字段是一个在s m t p 服务器 上唯一的i d 号。你可用这个号码作为邮件的编号。 在信头中包含了很多头字段,下表是一些出现在信头的字段: 袁2 - 2 出现在信头的些字段 信头字段字段说明 r e t u r n p a t h 标识连接到目的服务器所采用的路由。一般只是一个发送 者地址,表明邮件直接传送给目的服务器。 d e l i v e r e d t o 说明邮件被传送到那个邮箱。 r e c e i r e d 说明该邮件何时从何主机被何主机收到,使用的是什么协 议,要发往何主机。 每一个邮件服务器都向每一条收到的消息添加一个自己新 的r e c e i v e d 字段。 s u b j e c t邮件主题 浙江大学硕士学位论文第2 章电子邮件体系结构 r e p l y t o 消息的起始地址 d a t e 时间戳 f r o m原始邮件作者 t o 消息的主要接收者 c c 抄送地址 b c c 暗送地址 m e s s a g e i d消息唯一的识别i d 在所有的信头之后有一个空行,将信头和信体分开。在信体的末尾,一个只 有一个“”的行标识邮件的结束。在一般的m u a 中,并不会显示这个“”。使 用s m t p 中的d a t a 指令发送数据时,就是用以只有一个“”的行来标识邮件的 结束。 在r f c 8 2 2 中定义邮件消息由7 位a s c i i 文本构成,而没有定义如何传送其 它类型的数据如:我们使用的中文、图片、视频等二进制数据等。那么怎么才能 通过只能传送a s c i i 字符的s m t p 来传送二进制文件呢? 使用m i m e 协议 2 5m i 皿协议 m i m e 州( m u l t i p u r p o s ei n t e r n e tm a i le x t e n s i o n ,多用途i n t e r n e t 邮件 扩展) 在r f c 2 0 4 5 和r f c 2 0 4 6 中定义了m i m e 格式。m i m e 使得二进制数据能够直 接合并到一个标准的r f c 8 2 2 消息中,为此增加了五种新的信头字段。 我们先看一个m i m e 消息的例子: 表2 - 3m i m e 邮件示例 浙江大学硕士学位论文第2 章电子邮件体系结构 这封邮件正文用h t m l 书写,并带有一个名为b i n a r y t g z 的附件。下面我们 来分析这封邮件中存在的m i m e 头字段: 表2 4m i m e 新增的信头字段 信头字段字段说明 m i m e v e r s i o n 发送方用来对消息进行编码的m i m e 的版本 c o n t e n t t y p e是动作开始的地方,标识了在m i m e 消息中封装的数据。 c o n t e n t - t r a n s f e r指名嵌入到消息中的二进制数据如何被编码成a s c i i 文本。 e n c o d i n gr f c 2 0 4 5 指定了5 种方法:7 b i t ( 标准的u sa s c i i 编码) 、 8 b i t 、b i n a r y 、q u o t e d p r i n t a b l e ( 引用可打印的字符) 、 b a s e 6 4 。其中b a s e 6 4 是最常用的编码方法:把2 4 位( b i t ) 的二进制数据分割成四个6 位字段,然后给每个分段补两 1 3 浙江大学硕士学位论文 第2 章电子邮件体系结构 个零,组成8 位字符,这样产生的所有字符都属于u sa s c i i 字符集。 c o n t e n t d e s c r i p t是一个用来在邮件消息的文本中标识数据的a s c i i 描述 i o n c 0 n t e n t i d 用来在使用多目录内容的情况下,以一个唯一的标识代码 去标识一个m i m e 会话 2 6 本章小结 作为背景资料,本章简单介绍了邮件传输方式、传输协议以及邮件内容格式, 为下面介绍的反垃圾邮件关键技术作铺垫j 1 4 浙江大学硕士学位论文第3 章反垃圾邮件关键技术 第3 章反垃圾邮件关键技术 现在反垃圾邮件的技术发展十分迅速,下面仅仅介绍现在比较成熟的技术的 研究和实现。 下面的技术根据应用在邮件的部分( 信头,信体和全文,具体见“2 4 邮件 内容格式”那一部分) ,可以分为三类:信头分析、信体分析和全文分析。 信头分析:该技术只使用信头的信息就可以判定垃圾邮件,包括:用户 黑自名单技术、网络黑自名单技术、电子邮票方案。 信体分析:该技术只使用信体的信息就可以判定垃圾邮件,包括:基于 统计的内容过滤、意图检测技

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论