




已阅读5页,还剩44页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于内容特征的垃圾邮件过滤问题研究 摘要 随着i n t e r n e t 的快速发展和日益普及,电子邮件作为一种经济、快捷的通 讯方式,已经成为互联网用户必备的交流工具。然而,随之产生的垃圾邮件的 泛滥也给用户带来了极大的不便,由于垃圾邮件多由专门的邮件地址搜索软件 和邮件群发软件来实现电子邮件地址的收集以及垃圾邮件的散发,单纯依靠手 工的方式进行垃圾邮件的辨别是不可行的,必须借助一定的技术手段进行反垃 圾邮件工作,因此,有效的防治垃圾邮件成为个日益重要的研究领域。 本文的研究内容有以下几个方面: ( 1 ) 简要介绍了垃圾邮件的相关概念,分析了垃圾邮件的危害、反垃圾邮 件的应用背景、现状,主流过滤方法和挑战。概述了电子邮件的基本知识,探 讨和研究文本邮件过滤中的中文分词、数据表示、特征降维、分类技术以及难 点和突出问题。 ( 2 ) 提出一个综合利用邮件的主题信息、联系方式信息以及邮件新格式一 图片邮件特征构建的邮件特征集,在此基础上采用三种不同的分类算法构建分 类器,试验结果表明,在提出的邮件特征集基础上构建的分类器能很好的进行 邮件过滤。 ( 3 ) 在进一步研究邮件内容特征的基础上,建立基于增量式主动学习来动 态更新邮件的特征集,选取最有价值的邮件特征更新邮件特征库,利用有效邮 件特征来提高过滤器的精度。实验结果表明,在综合利用邮件内容特征和主动 学习训练器基础上构建的分类器能很好的实现垃圾邮件的过滤。 关键词:垃圾邮件:文本分类:反馈学习;图像分割 t h e s t u d y o ns p a r ef i l t e r i n gb a s e do nc o n t e n tf e a t u r e s a b s t r a c t w i t ht h er a p i dd e v e l o p m e n ta n dp o p u l a r i t yo ft h ei n t e r n e t ,e l e c t r o n i cm a i l ( e - m a i l ) a sa l le c o n o m i c a n de f f i c i e n tm e a n so fc o m m u n i c a t i o n ,h a sb e c o m ea l l i n d i s p e n s a b l ec o m m u n i c a t i o nt o o lf o ri n t e r a c tu s e r s b u t af l o o do fs p a me m a i la l s o b r o u g h tg r e a ti n c o n v e n i e n c et ot h em a i l u s e r b e c a u s eo ft h es p a me - m a i l sm o s t l yu s e s p e c i a l i z e de m a i la d d r e s ss e a r c hs o f t w a r et oc o l l e c te - m a i la d d r e s sa n dd i s s e m i n a t e db y s p e c i a l i z e dm a s s - m a i l i n gs o f t w a r e s ,o n l yb ya r t i f i c i a la p p r o a c h e st oi d e n t i f ys p a me - m a i li s u n r e a l i s t i c ,c e r t a i nt e c h n o l o g ym e a n sm u s tb eu s e df o ra n t i s p a mw o r k ,t h e r e f o r e ,e f f e c t i v e p r e v e n t i o na n dt r e a t m e n to fs p a me - m a i lb e c o m ea l li n c r e a s i n g l yi m p o r t a n ta r e ao f r e s e a r c h t h em a i nc o n t r i b u t i o n so ft h et h e s i sa r ea sf o l l o w s ( 1 ) b r i e f l yi n t r o d u c et h ec o n c e p to fs p a r ee - m a i l ,a n a l i s e st h ed a n g e ro fs p a me - m a i l , t h eb a c k g r o u n do fa n t i s p a ma p p l i c a t i o n ,t h es t a t u s ,t h em a i n s t r e a mo ff i l t e r i n gm e t h o da n d n e wc h a l l e n g e s s u m m a r i z et h eb a s i ck n o w l e d g eo fs p a r ee - m a i l ,e x p l o r ea n ds t u d yt h ek e y t e c h n i q u e s f o r t e x t - s p a mf i l t e r i n g ,i n c l u d i n g c h i n e s ew o r d s e g m e n t a t i o n ,d a t a r e p r e s e n t a t i o n ,f e a t u r ed i m e n s i o nr e d u c t i o n ,c l a s s i f i c a t i o nt e c h n i q u e s ( 2 ) a na t t r i b u t es e tf o ra n t i s p a mi sp r o p o s e d ,t h ea t t r i b u t es e tc o m b i n e st h es u b j e c to f e m a i lw i t hc o n t a c ti n f o r m a t i o na n dt h en e wf o r m a to fe m a i l p i c t u r em a i lf e a t u r e s t h r e e c l a s s i f i e r sa r ec o n s t r u c t e du s i n gt h r e ed i f f e r e n tc l a s s i f i c a t i o na l g o r i t h m s t h ee x p e r i m e n t a l r e s u l t sd e m o n s t r a t et h a tt h ec l a s s i f i e rc o n s t r u c t e dw i t ht h ep r o p o s e da t t r i b u t es e to fe m a i l p r o v i d e sah i 曲a c c u r a c yi ns p a me - m a i lf i l t e r i n g ( 3 ) b a s e do nt h es t u d y i n go fc o n t e ma t t r i b u t e si ne m a i l ,a l li n c r e m e n t a l ,a c t i v e l e a r n i n gm e t h o di sp r o p o s e dt od y n a m i c a l l yu p d a t et h ee - m a i lf e a t u r es e t t h em o s t v a l u a b l ef e a t u r e sa r es e l e c t e dt oi m p r o v et h ea c c u r a c yo ft h ef i l t e r i n g t h ee x p e r i m e n t a l r e s u l t sd e m o n s t r a t et h a tt h ef i l t e r i n gp r o v i d e sah i g ha c c u r a c yi na n t i - s p a m k e y w o r d s :s p a me m a i l ;t e x ts e g m e n t a t i o n ;f e e d b a c k ;i m a g es e g m e n t a t i o n 插图清单 1 电子邮件传递过程7 2 线性可分情况下的最优分类线1 4 l 三种不同的分类算法对相同数据集的邮件构建分类器2 2 2 用三种不同的分类算法对相异数据集的邮件构建分类器2 2 1 邮件过滤的总体模块功能流程图2 4 2 内容过滤结构功能流程图2 5 3 图像的r g b 空间2 8 4 点d 1 、d 2 、d 3 、d 4 分布2 8 5 原图2 9 6 灰度边缘图像2 9 7 二值化图像3 0 8 原图3 l 9 一次膨胀后j 3 l 1 0 二次膨胀后3 l l l 膨胀处理后图像3 l 1 2 两种方法正确率结果比较3 6 1 3 两种方法准确率结果比较3 6 1 4 两种方法召回率结果比较3 6 夏夏文文乱乱乱乱乱屯各乱色色毛乱乱钆 图图图图图图图图图图图图图图图图图图 表格清单 表2 1r f c 8 2 2 定义的常用字段6 表2 2m i m e 新添头字段7 表2 3 变量定义表1 7 表3 1 关键词统计结果1 9 表3 2 邮件特征集2 0 表3 3 训练和测试的邮件属于同一个数据集的评估结果2 1 表3 4 训练和测试的邮件不属于同一个数据集的评估结果2 l 表4 1 主动学习和普通方法构建分类器3 3 表4 2 第一组参数设置分类结果3 4 表4 3 第二组参数设置分类结果3 4 表4 4 第三组参数设置分类结果3 5 表4 5 第四组参数设置分类结果3 5 表4 6 图片比例参数设置分类结果3 5 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的研究成果。 据我所知,除了文中特别加以标志和致谢的地方外,论文中不包含其他人已经发表或撰 写过的研究成果,也不包含为获得合肥工业大学或其他教育机构的学位或证书而使 用过的材料。与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明确的说 明并表示谢意。 学位论文作者签字:前枷云签字日期:沙眸午月弓。日 学位论文版权使用授权书 本学位论文作者完全了解合肥工业大学有关保留、使用学位论文的规定,有权 保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅或借阅。本人 授权合肥工业大学可以将学位论文的全部或部分论文内容编入有关数据库进行检 索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文者签名:鼋 幻u 主 签字日期:如矽年印月;d 日 学位论文作者毕业后去向: - l :作单位: 通讯地址: 导师签名:乙 签字日期:f 。年牛月夕。日 电话: 邮编: 卵o 毛 玛oo 吓 致谢 两年多的研究生生活匆匆而过,心中感慨万千,在合肥工业大学攻读硕士 研究生期间,在本篇论文的写作过程中,得到很多老师、;亲友和同学给予的指 导、关心与支持。在此,谨向他们表示衷心的感谢。 首先我要感谢胡学钢教授的热情关怀和悉心指导。胡老师平时工作繁多, 但在我毕业设计的每个阶段都给与了我悉心的指导。胡老师思维敏锐、视野雄 阔、学识渊博,对我严格要求,督促我学好扎实的理论知识,多次给我孜孜不 倦的教导,并鼓励我积极参加课题研究,对我的成长倾注了大量的心血。除了 胡老师的专业水平外,他的治学严谨和科研精神也是我学习的榜样。两年来, 胡老师不仅在学业上给我以精心指导,同时,胡老师为人谦和,平易近人,在 思想、生活上给了我莫大的关心和帮助。在此谨向胡老师致以诚挚的谢意和崇 高的敬意。 其次我要感谢计算机学院人工智能与数据挖掘实验室的谢飞、张玉红,张 晶,胡春玲等各位老师。感谢他们在我读研期间给予的很多人情和无私的帮助, 对我的研究方向和研究工作进行了认真的引导,使我能够顺利的完成论文中的 研究工作,在此表示深深的谢意。 还要感谢我亲爱的师兄师姐以及0 7 级的各位研究生同学,感谢室友程敏、 陈冬梅在学习和生活中所给予的帮助和关心,感谢合肥工业大学人工智能与数 据挖掘研究室每个成员,这个团结、友爱的集体让我能将有限的精力完全投入 学术活动中。 最后,感谢我的父母、姐姐在读研期间给予我的支持和关爱,是你们一直 鼓励我积极向上、勇往直前,使我能顺利的完成学业,你们永远都是我前进的 动力和精神支柱。 作者:郎加云 2 0 1 0 年1 月 第一章绪论 1 1 研究背景 随着i n t e r n e t 的快速发展和日益普及,电子邮件因其快速、经济、便捷的 通信特点,已经在人们的日常生活和工作中广为普及,通过电子邮件,互联网 用户可以和地球上每个角落的人进行交流沟通,其操作简易、便于保存、收费 低廉、快捷畅通的特点也是其他任何通信方式所无法比拟的。 随着1 9 7 8 年世界上第一份垃圾邮件的产生,近些年来,垃圾邮件问题同渐 严重,干扰了网络用户的正常活动,目前,互联网上至少有6 0 的电子邮件属 于垃圾邮件,严重占用了网络的带宽和邮件服务器的存储空间,于此同时,用 户也需要花费一定的时间来进行清除。时至今日,垃圾邮件已经成为i n t e r n e t 上仅次于病毒的第二大互联网问题。 由于垃圾邮件多是通过邮件自动群发软件进行散发的,因此,必须借助一 定的科技手段来进行反垃圾邮件工作。尽管垃圾邮件的制造者可以通过伪造邮 件头等方式躲过反垃圾邮件技术的过滤,但是他们必须通过邮件体来传达一定 的宣传信息,也就是邮件内容,因此,利用邮件内容所包含的信息对邮件进行 过滤成为一个有效的方法。邮件内容信息主要有文字内容信息,图片内容信息, u r l 链接信息,图像文字混合信息等。邮件分类技术可以帮助人们清除泛滥的 垃圾邮件,减少用户在处理垃圾邮件时花费的人力和物力,极大的提高了工作 效率,具有一定的实际应用意义。 1 2 垃圾邮件的定义及危害 1 2 1 垃圾邮件的定义 垃圾邮件通常是指未经用户许可,但却被强行塞入用户邮箱的商业广告、 产品介绍的电子邮件。根据2 0 0 4 年2 月2 6 日,中国互联网协会反垃圾邮件规 范第三条,垃圾邮件包括:收件人事先没有提出要求或者同意接受的广告、 电子刊物、各种形式的宣传品等宣传性的电子邮件;收件人无法拒绝的电子邮 件;隐臧发件人身份、地址、标题等信息的电子邮件;含有虚假的信息源、发 件人、路由等信息的电子邮件。其基本特征是不请自来,具有商业或者政治目 的。 从技术上分析,垃圾邮件主要包括:信件头部包含垃圾邮件特征的垃圾邮 件;信件内容包括垃圾邮件特征的垃圾邮件;使用开放转发或匿名转发主机进 行发送的垃圾邮件;无论邮件头还是邮件体都无法提取出特征的垃圾邮件。 1 2 2 垃圾邮件的危害 由于电子邮件制作成本低廉,在用户打开邮箱时就会点击查看,会获得较 高的回应率,因此,一些营销人员,宣传公司,利用网络邮件服务中存在的漏 洞,海量发送垃圾邮件,进行销售宣传,并有愈演愈烈的趋势,造成了垃圾邮 件的泛滥。近来的调查显示,日益泛滥的垃圾邮件每年给全球造成9 4 亿美元的 经济损失。具体来说,垃圾邮件的危害主要有: ( 1 ) 占用网络带宽以及网络存储资源,海量的垃圾邮件造成邮件服务器拥 塞,降低了用户的访问速度,影响了邮件服务器的正常运行,占用邮件服务器 的存储空间,降低了网络的使用效率。 ( 2 ) 浪费用户的时间和精力,垃圾邮件的清除影响了用户的工作情绪,也 降低了用户的工作效率,有的垃圾邮件还盗用他人的电子邮件地址,以此作为 发信地址,损害了用户的信誉。 ( 3 ) 安全隐患,垃圾邮件附着的附件或链接可能会造成用户电脑中毒。 ( 4 ) 成为黑客和反动者的利用工具,用来攻击邮件用户或是传播反动思想, 骗人钱财,传播色情内容,对社会造成危害,成为某些黑客的进攻工具通过发 送大量垃圾邮件使目标瘫痪。 ( 5 ) 造成巨大经济损失,垃圾邮件的泛滥使得用户放弃某些邮箱的使用, 服务商将被迫终止服务,给企业带来很大损失和不便,因此,各国的邮件运营 商在维护邮件系统上耗费了大量的人力物力,阻挡和过滤垃圾邮件。 1 3 反垃圾邮件过滤技术、现状及挑战 1 3 1 国内外研究动态 垃圾邮件多是用专门的邮件地址搜索软件和邮件群发软件来完成电子邮件 地址收集和垃圾邮件散发的,对于这种自动化的垃圾邮件制造方式,人工手段 进行删除就显得无能为力,必须借助一定的技术手段进行反垃圾邮件工作。当 下人们提出了垃圾邮件的多种解决方案: ( 1 ) 完善电子邮件的传输协议和法律制裁。如简单邮件传输协议、发送者 身份鉴定等协议。美国于2 0 0 0 年7 月1 8 日通过反垃圾邮件法,欧盟在2 0 0 2 年5 月通过了反垃圾邮件及保护在线隐私权法,中国互联网协会也于2 0 0 4 年出台 了中国互联网协会互联网公共电子邮件服务规范。 ( 2 ) 基于i p 地址的过滤。在邮件系统的五个层次:路由器、邮件传送代理、 邮件投递代理、邮件用户代理和到达用户中,基于i p 的过滤都可以应用。包括 基于网络的i p 地址过滤技术和基于主机的i p 地址过滤技术,常见的有路由器访 问控制链表、黑白名单过滤【1 2 】、实时黑名单、主机名反向验证技术 3 】等。 ( 3 ) 基于信封和信头的过滤。信封过滤可以在垃圾邮件发送初期进行拦截, 避免造成大量资源被占用的现象,主要通过过滤器编写者验证h e l o ,m a i lf r o m 命令来进行,其中对信封的过滤是在邮件发送指令执行之前处理的,而对信头 的过滤则在发送指令之后进行处理。 2 ( 4 ) 基于邮件内容的各种过滤技术。将垃圾邮件过滤当做文本分类和信息 过滤来处理,主要包括基于规则的方法和基于统计的方法。 基于规则的方法由用户和系统制定显示过滤规则,符合规则的就判定为垃 圾邮件或者合法邮件。基于规则的方法主要有r i p p e r 4 5 】方法,由w i l l i a m w c o h e n 提出,后来d r u c k e r 6 将其应用于垃圾邮件过滤;r i c h a r ds 7 1 提出的 基于关键字匹配的邮件过滤;决策树方法,主要有i d 3 和c 4 5 ,c a r r e r a s 8 将其 应用于垃圾邮件过滤并在p u 语料集【9 】上取得了不错的效果;粗糙集方法,由 p a w l a k 于提出,刘洋等【lo 】将其应用到垃圾邮件过滤中。 基于统计的方法多通过计算表达式推出结果,是一种基于概率的方法。 基于规则的方法主要有贝叶斯方法,s a h a m i 【l l 】将其引入邮件过滤中;r a c c h i o 方 法,d r u c k e r 6 将其引入邮件过滤并与s v m 、r i p p e r 进行了比较;支持向量机, 在统计学习理论基础上发展而来的;k n n 方法等。 目前出现的电子邮件过滤系统主要有:使用多层技术组合的s y m a n t e c a n t i v i r u sf o rs m t pg a t e w a y s独立与防火墙的m c a f e es e c u r i t yw e b s h i e l d 扫描 程序:由趋势科技开发的,为企业网络资源提供的网关垃圾邮件过滤方案s p a m p r e v e n t i o ns e r v i c e ;由北京思能科贸开发的增强邮件系统安全的软硬一体产品 c m a i l s c a n 等。 1 3 2 我国垃圾邮件的现状 我们的垃圾邮件泛滥,情况十分严重,目前网络有超过5 0 的电子邮件属 于垃圾邮件,跟据中国互联网协会公布的数据【n 】显示,2 0 0 6 年第三季度,中国 邮件用户取得的垃圾邮件所占比例由二季度的6 1 9 9 下降到5 6 9 9 。2 0 0 7 年 中国垃圾邮件数量的排名已经由全球第二位降至第三,2 0 0 8 年,据s o p h o s 调 查的十二大垃圾邮件输出国家数据显示,中国地区垃圾邮件传播量占全球总量 5 5 ,位列第四。2 0 0 9 年第三季度时,在中国互联网协会调查中获取的8 6 9 9 的有效样本中,经过科学统计分析可以得到:中国网民平均每周受到的垃圾邮 件比例是5 3 8 8 个百分点。比去年同比下降4 5 l ,环比上升2 1 2 ,由此可见, 垃圾邮件的治理已经有了明显的成效。目前国内垃圾邮件有以下几个特点: ( 1 ) 从邮件内容上看,国内的垃圾邮件主要是来自国内的商业产品宣传内 容和国外的政治、宗教宣传。 ( 2 ) 从邮件来源上看,几乎5 0 的垃圾邮件均来自于国外,而国内部分, 则大部分垃圾邮件源于中国电信的客户。另外,其来源均比较集中。 ( 3 ) 从发展趋势上看,国内垃圾邮件泛滥形势不容乐观,其直接干扰了邮 件用户的正常通信和其他业务活动。 ( 4 ) 由于病毒而引发的垃圾邮件,不管是数量上还是危害上,都需要引起 足够的重视。 1 3 3 垃圾邮件过滤技术面临的挑战 由于在垃圾邮件的判定中,由于合法邮件通常包含重要的信息,因此,收 件人宁愿多处理一份垃圾邮件也不能容忍丢失一份合法邮件。因此邮件过滤的 准确性甚为重要,在分类器的实现中,要尽可能找到一个中间点,允许少量的 垃圾邮件躲掉过滤,使尽可能少的合法邮件被过滤掉。 目前的反垃圾邮件技术还不够成熟,不能够完全识别垃圾邮件,甚至会阻 断正常邮件的传递。根据文本内容的特点,用数据模型对垃圾邮件进行文本表 示,然后进行特征选择,极大的降低了特征的维数。在今后的研究中,主要有 以下研究方向: ( 1 ) 建设海量的邮件特征数据库i 邮件特征数据库中收集大量的垃圾邮件 和正常邮件的特征,用于垃圾邮件过滤算法的验证,并提供了算法学习的初始 资源。可通过邮件服务提供商提供邮件资源的方式共享特征数据库,数据库中 只存储邮件的特征,不存储整个邮件内容,以保护用户邮件隐私。 ( 2 ) 保存邮件特征的数据库必须要在各个邮件服务器的互相协作下,不断 进行更新。各个终端用户之间、各个邮件服务器之间要以一定的方式协作,共 享最新的垃圾邮件特征集。 ( 3 ) 相对于英文邮件过滤,中文邮件的过滤起步较晚,且进行过滤处理之 前,需先进行中文的分词处理,分词的结果对过滤效果有着至关重要的作用, 如何进行中文分词也是现今的研究热点。 ( 4 ) 在纯文本过滤日趋成熟的今天,网络上开始出其他的邮件格式如多媒 体邮件格式,必须对纯文本邮件过滤系统进行改进,综合新型格式邮件的特征 来进行过滤处理。 1 4 论文的研究内容和组织结构 本文主要研究基于邮件内容特征的邮件过滤技术,在文本内容特征的基础 上,结合邮件其他内容表达形式,采用经典的邮件分类算法对邮件进行分类。 全文有五章组成,具体内容组织如下: 第一章绪论首先简述了垃圾邮件的概念、研究背景。接着介绍了垃圾邮件 过滤的传统方法、国内外研究动态,我国垃圾邮件发展现状及挑战。 第二章主要概述了电子邮件的基本知识:传输原理、邮件格式以及邮件协 议,接着介绍了基于文本的邮件过滤流程技术,其中包括训练样本的选择,邮 件的表示模型、中文分词、特征降维和经典邮件过滤算法。最后介绍了进行邮 件过滤实验所使用的语料集以及评价方法。 第三章提出一种基于内容的邮件过滤方法,在研究了典型邮件特征的基础 上,提出一种综合邮件中图片信息特征、主题特征、联系特征的邮件特征集, 并在此基础上利用朴素贝叶斯分类算法构建分类器,实验结果表明,在本章提 4 出的多内容特征集上构建的分类器具有较高的分类准确率。 第四章在进一步研究邮件特征的基础上,提出种增量式主动学习反馈的 方法构建分类器的方法来改进邮件过滤效果。利用邮件过滤方法过滤邮件中的 噪音邮件后,利用提纯的训练集进行分类训练,使用有效邮件特征来增强过滤 器的效果,实验结果表明,在本章提出的综合利用邮件特征和主动学习训练集 的基础上构建的分类器能很好的实现邮件的正确过滤。 第五章是对全文的总结,对本文的主要研究工作进行简要的概述,展望未 来以及迸一步的研究方向。 1 5 本章小结 本章首先介绍了垃圾邮件的相关概念,研究背景,接着介绍了反垃圾邮件 技术国内外研究动态,我国垃圾邮件现状及反垃圾邮件所面临的挑战,最后给 出了本文的研究内容和组织结构。 5 第二章电子邮件过滤相关知识 本章描述了现行的电子邮件相关知识。接着对垃圾邮件过滤中的关键技术 进行了详细介绍。 2 1 电子邮件基础知识 2 1 1 电子邮件的格式 电子邮件的传递是由计算机进行的,因此必须遵循一定的格式才能顺利通 过一系列服务器,同时,随着i n t e r n e t 的不断发展,电子邮件的功能也日渐丰 富,邮件格式也在不断的扩展以适应新的需要。现有的邮件格式是由r f c 8 2 2 i l 3 j 定义的,电子邮件主要包括信封、邮件头和邮件体一个空行四个部分。 电子邮件的信封包括发件人的地址和收件人的地址,是在s m t p 传输过程 中由命令“m a i lf r o m ”和“r c p tt 0 ”形成的。 邮件头、邮件体以及两者之间的空行构成了信件主体,其中邮件头是由一 系列的头字段组成的,每个头字段由一行a s c i i 文本组成,包括头字段名称、 一个冒号以及字段值。邮件体即邮件发送者发送给接受者的数据,可以包括文 本、图片、音乐等多媒体信息以及邮件附件。一个空的回车换行符将邮件头和 邮件体分开。 r f c 8 2 2 定义了邮件头中的2 0 多个标准字段,常用字段如表2 1 所示: 表2 1r f c 8 2 2 定义的常用字段 字段名含义 m t a 轨迹,表明邮件何时被何主机收到,使用的是何协议,邮件 r e c e i v e d 传输过程中每个邮件转发代理都添加一行包含的信息 r e p l y t o 回信地址,缺省时为f r o m f r o m发信人地址,邮件系统自动填写 t o 收件人地址 c e 邮件的抄送地址 d a t e 发信日期,发送时由邮件系统自动添加 s u b j e e t 邮件主题 r f c 8 2 2 在邮件体的内容中做了一些限制,即只能使用简单的a s c i i 文本, 随着电子邮件内容的丰富,出现了各种非文本内容,如图片、视频、声音等信 息,为了支持多媒体文档邮件的传递,人们又定义了m i m e t l 4 - 1 6 ( 多用途i n t e r n e t 邮件扩展协议,m u l t i p u r p o s ei n t e r n e tm a i le x t e n s i o n s ) 标准,并已成为现代电 子邮件编码的主流,m i m e 表示多用途邮件扩充协议,扩充了基本的面向文本 的i n t e r n e t 邮件系统,在消息中添加二进制附件,其报文格式使二进制数据直 6 接加到标准的r f c 8 2 2 邮件中,因此,m i m e 信息由普通的i n t e r n e t 文本邮件组 成,并通过新增的5 个头字段来标示嵌入的数据类型,m i m e 新增头字段如表 2 2 所示: 表2 2m i m e 新添头字段 字段名含义 m i m e v 色r s i o n 描述m i m e 的版本号,一般为1 0 c o n t e n t - t r a n s f e r - e n c o d i n g指明邮件中二进制数据的编码方式 c o n t e n t 1 d邮件的唯一标识符 c o n t e n t d e s c r i p t i o n 可读字符串,对邮件的说明 c o n t e n t - t y p e 描述数据的类型,包括内容类型和子类型 2 1 2 电子邮件传输过程 电子邮件由r a yt o m l i n s o n 于1 9 7 2 年发明,电子邮件系统一般包括三个重 要的模块【i ,即邮件用户代理m u a ( m a i lu s e ra g e n t ) 、邮件转发代理m t a ( m e s s a g et r a n s f e ra g e n t ) 、邮件分发代理m d a ( m a i ld e l i v e ra g e n t ) 。 m u a 是一个客户端程序,提供界面帮助用户书写和阅读邮件,进行邮件 格式转换,并从本地邮件服务器中接受和发送邮件;m t a 负责处理所有接受或 者发送的邮件,将电子邮件信息从发出地传送到目的地,根据判断邮件的目的 地将其从一个服务器传递到另一个服务器或者m d a ,m t a 决定了邮件到达目 的地的路径;m d a 位于本地邮件服务器中,只关注本地用户邮件,负责将邮 件放入用户的邮箱内,图2 1 显示了邮件的传送过程: 酷一 图2 1 电子邮件传递过程 2 1 3 电子邮件传输协议 针对邮件传输过程中的不同部分,产生了不同的电子邮件协议,通过各个 标准,定义使电子邮件经过互联网所必须的协议和格式。 ( 1 ) s m t p 协议 7 臼一 + 名 域 聘m i s 简单邮件传输协议( s i m p l em a i lt r a n s f e rp r o t o c o l 1 8 1 刿) 是最早出现、使 用最普遍的电子邮件服务协议,规定了m t a 服务器之间双向通信的规则和信 封信息的传递,主要用来控制邮件的中转方式,s m t p 协议属于t c p i p 协议簇, 其目标是向用户提供高效、可靠的邮件传输,s m t p 协议起草时是基于信任的 基础上的,没有对邮件发送这的身份进行有效的认证,随着互联网的高速发展 和同益普及,人们可以利用s m t p 缺乏认证的缺陷来发送垃圾邮件,因此,扩 展的简单邮件传输协议( e s m t p ) 由此应运而生,去掉了原s m t p 协议中一些 不安全的命令并增加了认证功能,认证功能主要通过使用命令a u t h 来实现, 认证机制一般在邮件真正发送之前进行,且只需要执行二次,成功后即可按照 原来正常的处理来发送邮件。 ( 2 ) p o p 3 协议 邮局协议( p o s to f f i c ep r o t o c 0 1 v e r s i o n 3 【2 0 】) 使用客户机服务器命令模式, 规定了怎样将计算机链接到互联网的邮件服务器和下载电子邮件,是互联网第 一个离线协议标准,支持邮件下载后的处理,允许用户从邮件服务器接受邮件, 提供了快捷的邮件下载服务,具有简单的电子邮件存储转发功能。用户可以使 用p o p 3 把邮箱里的邮件下载到本地奔上上进行离线阅读,可以方便查看媒体 邮件消息和附件信息。 ( 3 ) i m a p 协议 i n t e r n e t 消息访问协议( i n t e r n e tm e s s a g ea c c e s sp r o t o c o l 2 1 1 ) 也是一种离 线协议标准,它亦支持对保存在邮件服务器中的电子邮件或者电子布告栏的访 问。在p o p 3 协议中,用户在当前使用主机上从邮件服务器端下载邮件后,服 务器端的邮件就会被删除,当用户在多台主机上使用浏览邮件后,邮箱中的邮 件将被分割保存在各主机中,由于i m t p 增加了访问功能,因此,在不同地方 的p c 机上均可访问邮件,避免了邮箱中邮件的分割,此外,在p o p 3 中,由于 收信的过程中用户无法知晓邮件的内容,因此不能决定是否下载或者删除,只 能照单全收全部下载,而i m a p 即可避免这一点。 2 2 邮件过滤相关技术 3 0 年前,美国数字设备公司的营销人员制造了地球上第一封垃圾邮件,时 至今日,日益泛滥的垃圾邮件成为因特网上的第二大问题,耗费了人们大量的 时间和花销,由于垃圾邮件多通过群发软件进行散发,必须依靠一定的技术手 段进行识别,因此各种反垃圾邮件技术应用而生,自动识别垃圾邮件具有重要 意义和应用价值,垃圾邮件过滤也成为重要的课题之。 传统的反垃圾邮件技术,主要有实时黑名单过滤、可信白名单、主机反向 名验证技术等。尽管垃圾邮件制造者可以通过伪造邮件头等躲过反垃圾邮件技 术的过滤,但是他们的目的均是输送一定的宣传信息给邮件用者,也就是邮件 8 内容,因此,通过邮件的这些内容信息对邮件进行识别成为一个有效的方法, 其中利用文本内容信息分类算法对垃圾邮件进行识别和过滤为反垃圾邮件技术 的主流技术。 2 2 1 电子邮件预处理 在对邮件进行文本表示时,首先需要对邮件头、邮件体分别进行预处理, 去掉多余的字段名、标签,文本中不用的字符等,为之后的分词阶段做准备。 由于电子邮件遵循一定的格式协议,且邮件头是由多字段构成,因此对邮件头 处理,主要采用字符串匹配的基于规则的方法进行,对各个头字段进行字符串 匹配,并获得其字段值。根据匹配出的头字段的字段值,可以获得邮件体中正 文所使用的字符集以及编码方式等,从邮件中提取出邮件正文。 2 2 2 中文分词技术 分词就是将一串字序列按照词的含义,排列成词序列的过程,英文单词之 间是以空格作为分割符号的,对于汉语,只有句与句之间才通过标点或者分段 来简单分隔,而词与词之间没有分隔符【22 1 ,缺乏自然的分割信息2 3 1 。 汉语分词就是将一串汉字序列分割成能独立运用的、有意义的词,以便于 机器理解【2 引。中文分词因为汉语结构松散、语法灵活、语义多样的特点,是中 文信息处理研究中最大的难题。现有的分词方法可分为三大类:基于理解的分 词方法、基于字符串匹配的分词方法和基于统计的分词方法【2 5 。27 1 ,每种处理方 法各有优缺点,尚不能定论那种分词的效果最好。中文是一种十分灵活、复杂 的语言,对于任何一个分词系统,单纯依靠某一种算法来进行分词是不现实的, 多是通过综合各种分词算法来实现。下面分别详细介绍下这三种模型: ( 1 ) 基于理解的分词方法 这种方法通过计算机模拟人对句子的理解【2 8 】来进行分词,又称人工智能 法,人工智能主要包括两种方法:基于心理学的符号处理方法和基于生理学的 模拟方法,应用到分词上,即为神经网络分词法和专家系统分词法。 神经网络具有存储、主动学习、敏感和反应迅速等优点。不足的是网络连 接模型表达复杂、训练时间较长、对已有知识维护更新困难,不能正确分割未 登陆词。 专家系统具有大量的知识和经验,知识容易维护,是知识推理的过程,可 以利用深层知识;缺点是只能够在有限的规则中进行学习,对信息的变化不够 敏感。 ( 2 ) 基于字符串匹配的分词方法 按照规则将需要进行分词的汉字序列和一个庞大的词典进行字符串匹配, 若匹配到某个字符串,则识别出一个词,因此,又称机械分词方法,按照词典 扫描时的方向,可以分为正向匹配和逆向匹配;按照不同长度优先顺序,可以 分为最大匹配和最小匹配。这种方法主要依据一个分词词表和一个基本的切分 9 评估规则来进行分词。 对于基于词典的分词方法,影响其精度的因素主要有:词典中词条的选择 和数目;词典与待分词汉字序列中词的匹配关系;歧义识别:新词识别以及分 词方法等。影响分词速度的因素有:词典组织结构、匹配原则和扫描顺序。 ( 3 ) 基于统计的分词方法 从形式上看,词是稳定的字的组合,几个字相邻出现的概率越大,就越有 可能构成一个词序列。因此字与字相邻共现的概率能可信的反映出成词的概率。 这种分词方法只对数据集中的字进行概率统计,不需要与词典进行匹配,因此 又称为无词典分词法。基于统计的分词方法【2 9 弓o 】所应用的主要模型有:互信息、 n 元文法模型、神经网络模型、隐m a r k o v 模型【2 9 1 和最大熵模型等。目前使用 较为广泛的是以互信息为统计模型,即对语料中相邻共现的字m 和1 1 组合的频 度进行统计,计算它们的互信息m i ( m ,n ) ,互信息m i ( m ,n ) 的大小体现了m 和n 的紧密程度,比较m i ( m ,n ) 与实验阈值的大小,即可判定是否成词。这些统计 模型主要是利用词与词的联合概率作为分词的信息。 基于统计的分词方法的优点是:( 1 ) 没有待分词样本的领域限制;( 2 ) 不需要 一个机器可读词典。缺点是:需要大量的训练文本,用以建立模型的参数;时 空开销非常大:分词精度与训练样本有关。 2 2 3 邮件表示模型 计算机处理的数据都是结构化的,而自然语言文本是一种非结构化数据, 因此,在用计算机处理自然语言数据之前,必须对自然语言进行处理,将其转 换为结构化语言。目前,应用比较广泛的几种模型分别是:布尔模型、向量空 间模型 3 1 - 3 2 1 等。下面分别介绍一下这两种模型。 ( 1 ) 布尔模型 布尔模型采用布尔表达式表示文本,是基于布尔代数和集合论的一种检索 模型,它的检索策略基于二元判定标准,通过逻辑比较来进行检索,是一种基 于关键词的匹配。布尔模型定义特征词的权重只有两种状态,这就导致了特征 词的权重都表现为二元性,如某个特征词在一篇邮件中只有出现和不出现两种 状态。 布尔模型具有精确的语义、简单的形式、速度快的特点,便于表达结构化 信息,但缺乏分级概念,只有是和否两种状态,粒度较大,容易造成信息损失, 在分类算法中,其准确率和召回率相对较差。因为集合的定义是非常直观的, 布尔模型在在信息检索系统,因语义精确的布尔表达式而相当适用。 ( 2 ) 向量空间模型( v e c t o rs p a c em o d e l ) 向量空间模型是g s a l t o n 3 3 】于6 0 年代提出的,用向量模型来进行文本表示, 已得到了广泛的应用,逐渐成为最高效、最简便的文本表示模型之一。 向量空间模型中,文本被表示成一个n 维空间,空间的每一维表示一个特 l o 征项,由文本所含有的字、词、词组或短语等来表示,即文本可用 d o c u m e n t = d ( f i ,t 2 ,r ”) 来表示,其中f f 表示特征项,权重为w ,通常以特征项 的频率进行计算,表示这个t l 的重要程度,目前主要采用t f 一渺公式【3 4 1 ,其中 t f 是f ,在d 中的绝对频率,而渺表示特征项在文本中的文本内频数。形一渺的 计算公式为: 缈,( j ) :1 丝尘兰坠些生 ( 公式2 1 ) 八7 ,( t f ) l o g ( n n 埘2 v , 其中,q ( d ) 为词条t 在文本d 中的权重,斫( d ) 为在d 中出现的词频, 为所有训练文档的数目,胆,为出现了词条的文档的数目,分母为归一化因子。 这样文本就表示为:d = d ( t l ,;f 2 ,w 2 ;f 。,w n ) ,简记为d = d ( w l ,w 2 ,w n ) 。 在向量空间模型下,两个文本“和蜴之间的相关程度常常用它们的相似度 s i m ( d , ,d z ) 来度量。在向量空间模型下,我们可以借助向量之间的某种距离来 表示文本间的相似度。相似度常用向量之间的内积来计算: , s i m ( d i ,d 2 ) = w l i xw 2 i ( 公式2 2 ) k = l 或用夹角余弦表示: ( 公式2 3 ) 2 2 4 特征选择技术 特征向量空间的高维性,是文本分类的难点之一。特征项是指从邮件信体 中提取出的文本内容经过分词步骤后获得的词汇。高维特征项一方面会造成分 类算法的时空代价过大,另一方面会造成无法准确地提取文本的类别信息,从 而降低分类器的准确率。因此,在不影响分类效果时,应尽可能地降低特征项 的维数。特征选择的主要思路是构造一个评价函数,对特征集内的每个特征进 行权重评估,对每个特征项计算出一个评估分值,然后按照评估分值的大小对 所有的特征进行排序,选取一定数目的、对分类贡献大的特征,将“不重要”的 词汇从特征项空间中删除,从而减少特征项的个数,降低信息量。特征选择只 是从原特征集中选择了一些对分类贡献重要的特征项,并没有改变原始特征项 空间的性质,是文本分类中的关键步骤。 时至今日,人们已经研究了多种特征选择 3 5 - 4 1 】方法,如:信息增益 ( i n f o r m a t i o ng a i n ,i g ) 、文档频率( d o c u m e n tf r e q u e n c y , d f ) 、互信息( m u t u a l i n f o r m a t i o n ,m i ) 、z 2 统计量( z 2 - t e s t ,c h i ) 、特征权( t e r ms t r e n g t h ,t s ) 、期 望交叉熵( e x p e c t e dc r o s se n t r o p y ,e c e ) 、几率比( o d d sr a t i o
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024新疆第八师石河子市国有资产监督管理委员会招聘国有企业外部董事笔试参考题库附带答案详解
- 2024广东广州花都城投大地建设咨询有限公司招聘项目用工人员及拟录用人员笔试参考题库附带答案详解
- 2025年统计学期末考试题库:综合案例分析题实战解析与习题集
- 2025年小学英语毕业考试模拟试卷:词汇拓展运用解题技巧大全
- 2025年统计学期末考试:抽样调查方法与抽样调查数据挖掘应用案例试题
- 2025现代外国语高级中学变压器设备采购及安装合同
- 中央音乐学院《职业生涯规划指导与创业创新》2023-2024学年第一学期期末试卷
- 河北美术学院《大数据分析的数学基础》2023-2024学年第二学期期末试卷
- 华中科技大学《基础医学选论》2023-2024学年第一学期期末试卷
- 无锡南洋职业技术学院《锅炉原理及设备》2023-2024学年第一学期期末试卷
- 液压式随钻震击器设计
- 广东省义务教育学生毕(结、肄)业鉴定表
- 起诉保险公司的诉讼书范本
- 人教部编版六年级下册语文【选择题】专项复习训练真题100题(附答案解析)
- H3C新员工文化培训报到指引(201607期)
- 《功和机械能》 单元作业设计
- 《辅酶q10》教学讲解课件
- 第十章痰液检查课件
- 《融媒体实务》教学课件(全)
- 牛津译林版六年级下册英语期中检测试卷+答案
- 重庆农艺师考试(种植业卷)
评论
0/150
提交评论