(信息与通信工程专业论文)图像型垃圾邮件的特征选择算法研究及实现.pdf_第1页
(信息与通信工程专业论文)图像型垃圾邮件的特征选择算法研究及实现.pdf_第2页
(信息与通信工程专业论文)图像型垃圾邮件的特征选择算法研究及实现.pdf_第3页
(信息与通信工程专业论文)图像型垃圾邮件的特征选择算法研究及实现.pdf_第4页
(信息与通信工程专业论文)图像型垃圾邮件的特征选择算法研究及实现.pdf_第5页
已阅读5页,还剩88页未读 继续免费阅读

(信息与通信工程专业论文)图像型垃圾邮件的特征选择算法研究及实现.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

乱庀0l :二 f l i 、 心 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特别加以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 签名:塑悼日期:刁9 年叮月相 论文使用授权 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 签名: 毒 p h ? t _ l 摘要 摘要 近年来,垃圾邮件的泛滥严重影响了人们的网络交流和生活,其中图像型垃 圾邮件在整个垃圾邮件中所占比重日趋加大。为遏止图像型垃圾邮件的泛滥,研 究人员提出了基于不同特征集合的图像型垃圾邮件检测算法,但这些算法在时间 效率和精度上无法兼顾。本文对图像型垃圾邮件特征作了全面的分析,提出了一 种应用于图像型垃圾邮件的特征选择算法叫r e l i e f f 算法,用以优化图像特征 集合,提高过滤算法性能。在此基础之上,本文对一种新型图像型垃圾邮件 多帧图像型垃圾邮件的过滤算法作了深入探讨。最后,通过分析现有图像型垃圾 邮件过滤系统的优缺点,结合本文提出的r r e l i e f f 算法以及多帧图像型垃圾邮件 过滤算法,总结出了一种多层次的图像型垃圾邮件过滤系统。 本文首先对图像型垃圾邮件过滤技术的现状作了概述。包括图像型垃圾邮件 检测的难点、主流的图像型垃圾邮件识别算法、以及算法的性能评价标准。目前 图像型垃圾邮件识别算法并未取得理想的过滤效果。本文认为原因主要在于: 图像型垃圾邮件的特征集合未优化。新型图像型垃圾邮件的出现使得现有的过 滤系统失去效用。因此在对图像分类之前应首先筛选出识别效果更好的图像型垃 圾邮件特征集合。 本文提取出目前图像型垃圾邮件过滤算法常用的图像型垃圾邮件特征,形成 原始特征集合。集合中特征个数和种类较多,难免含有无关和冗余特征,影响过 滤算法性能。本文基于经典的r e l i e f f 特征选择算法,提出一种适合于图像型垃圾 邮件的特征选择算法_ r r e l i e f f 算法,其中包括图像特征数据预处理、特征和 类别信息的无关度计算、特征之间冗余度计算以及r m e r i t s 特征子集评价,最后选 择出识别度较好且容易提取的特征子集作为识别图像型垃圾邮件的依据。实验显 示,r r e l i e f f 算法可以有效地优化特征集合,提高训练和分类时的速度和精度。 本文将r r e l i e f f 算法应用在识别新型的图像型垃圾邮件多帧图像型垃圾 邮件上。首先提取多帧图像型垃圾邮件图像特征,包括帧间特征以及每帧图像的 特征,形成多帧图像型垃圾邮件特征集合。然后利用r r e l i e f f 算法对特征集合进 行对比和筛选,最后得出识别效果较好的特征子集,并结合支持向量机分类算法 得出分类结果。虽然多帧图像型垃圾邮件比普通的单帧图像型垃圾邮件包含更多 的干扰元素,但实验结果显示,本文提出的过滤算法可以识别接近9 0 的多帧图 像型垃圾邮件。 最后,本文提出了一种基于r r e l i e 伍算法的多层次图像型垃圾邮件过滤系统。 本系统采用本文提出的r r e l i e f f 算法,首先对单帧图像型垃圾邮件的各种特征进 行筛选,得出文件属性、颜色以及文本特征三大类区分度较高的特征集合;其次 利用这三类特征集合,形成三个单帧图像型垃圾邮件过滤子模块。然后对这三个 过滤子模块的识别结果进行投票计算,得出最终的识别结果,并可对投票错误的 子模块进行学习。最后结合传统过滤算法和多帧图像型垃圾邮件过滤算法形成多 层次的图像型垃圾邮件过滤系统。实验结果显示,本系统对传统单帧图像型垃圾 邮件的过滤精度大于9 7 ,对多帧图像型垃圾邮件过滤精度大于9 0 ,且实时性 较高,是一个实用性比较高的图像型垃圾邮件过滤系统。 关键字:图像型垃圾邮件,r r e l i e f f 算法,特征选择算法,多帧图像型垃圾 邮件 鼍 p t i 专 一一 一 h 卜 0 a b s t r a c t a b s t r a c t r e c e n t l y , t h es p r e a d i n gs p a mc r e a t e ss e r i o u si n f l u e n c eo np e o p l e sc o m m u n i c a t i o n a n dl i f eo ni n t e m e t ,i m a g es p a mh a sm o r ei n c r e a s i n gd a yb yd a y i no r d e rt o s t o pt h e s p r e a d i n go fi m a g es p a r e ,r e s e a r c h e r sp r o p o s e dd e t e c t i n ga l g o r i t h m sb a s e do nd i f f e r e n t f e a t u r e sc o l l e c t i o no fi m a g es p a m t h e na tt h ed e p l e t i o no ft i m ea n da c c u r a c y ,t h e s e a l g o r i t h m sc a nn o ts a t i s f yb o t hs i d e s t h i sd i s s e r t a t i o nm a k e se x h a u s t i v ea n a l y s i so nt h e f e a t u r e so fi m a g es p a r n ,a n dp r o v i d e sr - r e l i e f fa l g o r i t h mt o o p t i m i z et h ef e a t u r e c o l l e c t i o no fi m a g es p a ma n di m p r o v et h ed e t e c t i n ga l g o r i t h m s p e r f o r m a n c e o nt h e b a s eo ft h e s e ,t h ed i s s e r t a t i o na n a l y z e df i l t e ra l g o r i t h mo nan e w i m a g es p a m m u t i f r a m e i m a g es p a m f i n a l l y , a c c o r d i n gt oa n a l y z i n gr e l a t i v em e r i t so fe x i s t i n gd e t e c t i n g s y s t e m so fi m a g es p a m ,t h ed i s s e r t a t i o ns u m m a r i z e sam u l t i p l e - l e v e li m a g es p a mf i l t e r s y s t e mc o m b i n e dw i t ht h er - r e l i e f fa l g o r i t h ma n dt h em u t i f r a m ei m a g es p a md e t e c t i o n a l g o r i t h m f i r s t l y , t h i sd i s s e r t a t i o np r o v i d e sa no v e r v i e wi ni m a g es p a md e t e c t i o n ,i n c l u d i n g t h ed i f f i c u l t i e so fd e t e c t i n gi m a g es p a m ,t h em a i n s t r e a md e t e c t e da l g o r i t h m so fi m a g e s p a m ,t h ee v a l u a t i o nm e t h o d so ft h ea l g o r i t h m s t h em a i n s t r e a md e t e c t e dm e t h o d sh a v e n o tg o tt h ed e s i r e de f f e c t t h ed i s s e r t a t i o nf i n d st h er e a s o ni s :o t h ef e a t u r e sc o l l e c t i o n h a sn o to p t i m i z e d n e wk i n d ss p a mi m a g e a p p e a r t h e r e f o r e ,t h ed i s s e r t a t i o np r o p o s e s t h a ts e l e c t i n gm o r ee f f e c t i v ef e a t u r ec o l l e c t i o no f i m a g es p a ms h o u l dp u tf i r s t t h ed i s s e r t a t i o ne x t r a c t st h ef e a t u r e so fi m a g es p a mw h i c ha r eg e n e r a l l yu s e db y t h ee x i s t i n gd e t e c t i n ga l g o r i t h m sa n dc r e a t e sp r i m i t i v ef e a t u r ec o l l e c t i o n b e c a u s et h e n u m b e ra n dt h ek i n d so ft h ef e a t u r eh a v em a n yv a r i e t i e s ,t h ec o l l e c t i o ni n e s c a p a b i l i t y c o n t a i n ss o m eu n r e l a t e da n dr e d u n d a n tf e a t u r e s ,a l lt h e s ei n f l u e n c eo nt h ep e r f o r m a n c e o ft h ea l g o r i t h m t h i sd i s s e r t a t i o np r o v i d e saf e a t u r e s e l e c t i o na l g o r i t h m r r e l i e f f a l g o r i t h m ,i n c l u d i n gp r e p r o c e s s i n go ff e a t u r ed a t a ,c a l c u l a t i n gr e l e v a n c ea m o n gf e a t u r e s a n dc l a s s ,c a l c u l a t i n gr e d u n d a n c ya m o n gf e a t u r e s ,a n dr m e r i t se v a l u a t i n go nf e a t u r e s u b s e t f i n a l l y , g e t i n gt h eo p t i m i z a t i o ns u b s e to ff e a t u r e sm o r ee f f e c t i v eo nd e t e c t i n g i m a g es p a ma n de x t r a c t e de a s i l y t h ee x p e r i m e n ts h o w st h a tt h er - r e l i e f fa l g o r i t h m c a n o p t i m a z et h ef e a t u r e sc o l l e c t i o na n dr e d u c et h et i m ei nt r a i n i n ga n dd e t e c t i n g i l l n 厶 a b s t r a c t t h i sd i s s e r t a t i o nu s e st h er - r e l i e f fa l g o r i t h mt oi d e n t i f y i n gan e wk i n do fi m a g e s p a m m u l t i f r a m ei m a g es p a m f i r s t l y , e x t r a c t i n gt h ef e a t u r e sc o n t a i nf e a t u r e sa m o n g f r a m e sa n df e a t u r e so fe a c hf r a m e ,a n dc r e a t i n gt h ef e a t u r e sc o l l e c t i o no fm u t i f r a m e i m a g es p a r e ;s e c o n d l y , c o n s t r a c t i n g a n ds e l e c t i n gt h ec o l l e c t i o n s b y r r e l i e f f a l g o r i t h m ,g e t t i n gt h ee f f e c t i v ef e a t u r e ss u b s e t ;t h i r d l y ,g e t t i n gt h ed e t e c t e dr e s u 1 tb y m e c h i n el e a r n i n ga l g o r i t h m t h em u t i f f a m ei m a g e s p a md e t e c t i o na l g o r i t h mc a n i d e n t i f ya l m o s t9 0 m u t i f r a m ei m a g es p a m ,t h o u g ht h em u t i f r a m ei m a g es p a mh a s m o r ei n t e r f e r e n c ee l e m e n t s ,c o m p a r e dt ot r a d i t i o n a ls i m p l e f r a m ei m a g es p a m f i n a l l y , t h ed i s s e r t a t i o np r o v i d e sam u l t i p l e l e v e li m a g es p a mf i l t e rs y s t e mb a s e d o nr r e l i e f fa l g o r i t h m f i r s t l y , t h es y s t e ms e l e c t st h ei m a g e sa l lf e a t u r e sb yr r e l i e f f a l g o r i t h ma n dg e t st h r e ec l a s s e sf e a t u r e s f i l ep r o p e r t i e s ,c o l o ra n dt e x t ;s e c o n d l y , c r e a t s t h r e ed e t e c t e ds u b m o d u l e so f i m a g es p a mu s i n gt h et h r e ec l a s s e sf e a t u r e s t h e ng e t st h e f i n a lr e s u l tb yv o t ec o u n t i n go ft h et h r e es u b m o d u l e s r e s u l t s ,a n dt h es u b m o d u l ew h i c h g e tt h ee r r o rr e s u l tc a nl e a r nb ys e l f ;f i n a l l y , c r e a t et h em u l t i p l e - l e v e lf i l t e rs y s t e m c o m b i n e dw i t ht h em u t i f r a m ei m a g es p a ma n dc o n v e n t i o n a ld e t e c t i o na l g o r i t h m t h e e x p e r i m e n t s h o w st h a tt h ei m a g es p a r ef i l t e r s y s t e m c a ni d e n t i f y9 7 n a t i v e s i m p l e f r a m ei m a g es p a ma n dk e e ps m a l lc o s to ft i m e ,a n dt h es y s t e mi sap r a t i c a li m a g e s p a mf i l t e rs y s t e m k e y w o r d s :i m a g es p a m ,r - r e l i e f fa l g o r i t h m ,f e a t u r es e l e c t i o na l g o r i t h m , m u t i f r a m ei m a g es p a m i v 1 套 j r ,p p 目录 目录 第一章引言1 1 1 研究背景及意义1 1 2 论文主要工作2 1 3 论文主要创新3 1 4 论文章节安排4 第二章图像型垃圾邮件检测技术概述6 2 1图像型垃圾邮件起源和现状6 2 2图像型垃圾邮件的检测难点8 2 3图像型垃圾邮件检测算法分析1 0 2 3 1图像型垃圾邮件特征概述1 0 2 3 2 图像型垃圾邮件分类算法概述1 4 2 4 检测算法的性能指标1 7 2 5 小结。,1 9 第三章改进的r e l i e f f 特征选择算法2 1 3 1 特征选择算法概述2 1 3 2 经典的r e l i e f f 特征选择算法2 4 3 2 1r e l i e f f 算法概述2 4 3 2 2r e l i e f f 算法步骤2 5 3 3 特征数据的离散化2 6 3 3 1 离散算法概述2 6 3 3 2 1 无监督的离散算法2 7 3 3 2 2 有监督的离散算法2 8 3 3 2 有监督的e b d 离散算法2 8 3 4r - r e l i e f f 算法设计2 9 3 4 1 特征冗余度评价算法分析3 0 3 4 2r - r e l i e f f 算法原理及步骤3 2 3 4 3 算法对比实验3 4 3 5 小结3 5 v 目录 第四章多帧图像型垃圾邮件的过滤算法研究3 6 4 1 引言3 6 4 2 多帧图像型垃圾邮件的特征分析3 8 4 2 1 颜色特征3 9 4 2 2 文本特征4 0 4 2 3 文件属性特征4 2 4 3 多帧图像型垃圾邮件特征提取4 2 4 3 1 颜色特征的提取4 3 4 3 2 文本特征的提取4 4 4 3 3 文本属性特征及其他特征的提取4 5 4 4 多帧图像型垃圾邮件过滤算法,4 6 4 4 1 算法的图像特征学习4 6 4 4 2 算法的图像检测4 8 4 5 小结4 9 第五章基于r - r e l i e f f 算法的多层次图像型垃圾邮件过滤系统5 0 5 1图像型垃圾邮件过滤系统概述5 0 5 2多层次单帧垃圾邮件图像过滤模型5 4 5 2 1 基于文件属性特征图像型垃圾邮件识别模块5 4 5 2 2 基于颜色特征的图像型垃圾邮件识别模块5 5 5 2 3 基于文本特征的图像型垃圾邮件识别模块5 7 5 3 多帧图像型垃圾邮件过滤模块5 7 5 4 传统图像型垃圾邮件过滤模块5 7 5 5 基于r - r e l i e f f 算法的特征训练模块5 8 5 6 基于r - r e lj e f f 算法的多层次图像型垃圾邮件过滤系统5 8 5 6 1 系统过滤模块5 8 5 6 2 系统训练模块5 9 5 6 3 系统学习模块6 0 5 6 4 系统组成架构6 0 5 7 小结6 1 第六章系统评估与实验结果分析6 2 6 1 图像型垃圾邮件数据集6 2 6 2 系统实验环境的搭建6 3 v i ; - _ _ _ _ _ _ _ _ _ _ _ _ _ _ _ 一 目录 6 3 多层次图像型垃圾邮件过滤系统性能测试6 5 6 3 1 基于r - r e lj e f f 算法的特征训练模块实验结果6 5 h6 3 2 多帧图像型垃圾邮件过滤模块实验结果6 7 6 3 3 多层次单帧图像型垃圾邮件实验结果6 8 f l 6 4 实验结果分析7 1 6 5 小结7 2 第七章总结与展望7 3 7 1 工作总结7 3 7 2 未来的研究工作7 3 致谢7 5 参考文献7 6 攻硕期间取得的研究成果8 2 k q v i i 第一章引言 1 1研究背景及意义 第一章引言 电子邮件因其高效、低成本等特点已经成为互联网用户不可或缺的通信工具。 然而一些别有用心的人却利用电子邮件散布大量的垃圾信息,包括商品广告、欺 诈信息、反动言论等。这种电子邮件被人们称为垃圾邮件。近年来,在利益的驱 使下,垃圾邮件在全球迅速扩散,并呈泛滥之势。每天用户收到的垃圾邮件占总 邮件的比例已经超过5 0 。垃圾邮件的泛滥已经严重影响了互联网电子邮件用户 的工作和生活。 卡巴斯基公司发布的2 0 0 9 年9 月垃圾邮件报告显示,从2 0 0 1 年到2 0 0 9 年的 9 年间,垃圾邮件占所有邮件的比例从5 上升的8 6 。垃圾邮件最大的生产国, 美国、俄罗斯分占前两位【l 】。国内的反垃圾邮件形势也十分严峻,中国互联网协会 反垃圾邮件中心2 0 0 9 年1 0 月的调查数据表明,用户每周收到的邮件中,5 5 7 2 为垃圾邮件,平均每周收到1 6 3 7 封垃圾邮件。虽然企业级用户有较为专业的反垃 圾邮件系统,但每周仍收到1 7 2 封垃圾邮倒2 1 。 近年来,学者们提出了大量基于文本内容的垃圾邮件检测方法,如贝叶斯文 本分类【3 4 ,5 1 、文本聚类【6 , 7 , 8 】、基于语义的过滤算法【9 , 1 0 , 1 1 】等,取得了很好的效果。 垃圾邮件制造者为躲避基于文本内容的垃圾邮件过滤系统的检测,采取了将垃圾 信息嵌入到图像中的方式。这种将垃圾信息嵌入到图像中形成的电子邮件被称为 图像型垃圾邮件。该类邮件在2 0 0 5 年开始出现,爆发高峰期曾占整个垃圾邮件的 2 0 以上【1 2 】。在社会各界的努力下,图像型垃圾邮件数量已得到了一定的控制, 但2 0 0 9 年图像型垃圾邮件却又呈现上升的趋势【1 3 】。 图像型垃圾邮件的传播过程中会占用大量带宽;传播到邮件服务器后又会消 耗大量存储资源;并且其间极有可能含有木马和病毒。这些都给互联网服务提供 商、邮件服务提供商和个人用户造成了重大的经济损失和安全隐患,通过对图像 型垃圾邮件识别的研究,有助于控制其传播,减轻图像型垃圾邮件所造成的经济 损失。 图像型垃圾邮件躲过传统的垃圾邮件过滤系统到达用户邮箱的几率较大,其 传播的垃圾信息给社会和谐带来了严重的负面影响。政治敏感信息会误导互联网 电子科技大学硕士学位论文 用户对社会丧失信任感和产生反社会情绪,商业广告信息干扰了邮箱个人用户的 正常通信和生活。 因此,高效的识别图像型垃圾邮件,遏止其在网络上的扩散,对净化网络环 境,维护社会和谐是极为必要的。实现对图像型垃圾邮件的检测与识别,无论是 在挽回经济损失上还是在维护社会和谐上都有着极为重要的意义。 为能正确识别图像型垃圾邮件,学者们对图像型垃圾邮件作了深入和细致的 研究,提出了各种图像型垃圾邮件过滤算法。但这些图像型垃圾邮件识别算法并 未取得理想的过滤效果。原因一是图像型垃圾邮件的特征集合未优化。由于学者 的角度不同,采用的图像特征种类各异,采用的机器学习算法也不尽相同。这些 特征由于没有经过特征选择算法的筛选,难免会参杂迸一些无关和冗余特征,或 者是没有将区分度较高的特征都加入到特征集合中。二是新型图像型垃圾邮件的 出现使得现有的过滤系统失去效用。例如g i f 动态多帧图像垃圾邮件的出现就使 得大部分的传统单帧图像型垃圾邮件过滤系统失去了效果。 本课题的目的是通过对比现有的图像型垃圾邮件检测算法所采用的图像特 征,结合本文提出的r r e l i e f f 特征选择算法选择出提取速度快、识别效果好的特 征子集,结合机器学习算法完成对传统的单帧图像型垃圾邮件以及多帧图像型垃 圾邮件的识别,并得出一个实用性较好的多层次图像型垃圾邮件过滤系统。 本课题主要对图像型垃圾邮件识别方法的研究和改进,得到了国家高技术研 究发展计划( 8 6 3 计划) 和四川省科技厅的支持,研究内容来源于8 6 3 项目垃圾 邮件检测控制关键技术研究及省科技厅企业级垃圾信息综合举报系统。 1 2 论文主要工作 对已提出的图像型垃圾邮件检测算法全面学习和深入分析的基础上,基于提 高图像型垃圾邮件识别精度和速度这一思路,对图像型垃圾邮件检测算法及其改 进做了较深入和细致的研究。课题研究的主要工作包括: ( 1 ) 对目前存在的图像型垃圾邮件检测算法进行总结和对比。利用图像型垃圾 r 所含图像的特征,并结合机器学习算法来识别图像型垃圾邮件是现有图像 型垃圾邮件检测算法所采用的主要方式。本文分析识别算法采用的图像特 征的特点,得出文件属性特征、图像属性特征等五大类特征子集,并对检 测算法采用的机器学习算法进行总结,并对这些检查算法的性能指标进行 了概述。 2 第一章引言 ( 2 ) 提出r r e l i e f f 特征选择算法,选择出图像型垃圾邮件识别效果较好的特 征子集。对比现有的特征选择算法在图像型垃圾邮件特征集合上的表现, 发现r e l i e f f 特征选择算法在垃圾邮件图像特征选择上的性能较好。由于 r e l i e f f 算法无法过滤冗余特征,本文改进r e l i e t f 算法,加入c f s 算法对 冗余特征的冗余度度量算法,最后形成r r e l i e f f 特征选择算法。实验表 明,此算法能够有效的过滤掉图像型垃圾邮件的特征集合中的冗余和无关 特征,降低特征集合的维度,提高训练和分类时速度及精度。 ( 3 ) 多帧图像型垃圾邮件的过滤。结合本文提出的r r e l i e f f 特征选择算法对 新型图像型垃圾邮件多帧图像型垃圾邮件进行识别,首先提取帧间以 及各帧的图像特征集合,然后利用r r e l i e f f 算法对此特征集合进行特征 筛选,得出识别效果较好的特征子集并结合支持向量机分类算法对多帧图 像型垃圾邮件进行过滤。实验结果表明,此算法能够过滤接近9 0 的多帧 垃圾邮件图像。 ( 4 ) 提出基于r r e l i e f f 算法的多层次图像型垃圾邮件过滤系统。首先提取出 现有的单帧图像型垃圾邮件过滤算法用到的特征集合,结合r r e l i e f f 算 法,对单帧图像型垃圾邮件的各种特征进行筛选,发现文件属性、颜色以 及文本三大类特征是区分度较高的特征集合;其次利用这三类特征集合, 形成三个单帧图像型垃圾邮件过滤子模块。然后利用投票算法对这三个过 滤子模块的识别结果进行二次检测,得出最终的识别结果,并可对投票错 误的子模块进行图像特征的学习。最后结合传统过滤算法和多帧图像型垃 圾邮件过滤算法形成多层次的图像型垃圾邮件过滤系统。实验结果显示, 本系统能在保持较高实时性的同时有效的过滤单帧和多帧图像型垃圾邮 件,是一个实用性比较高的图像型垃圾邮件过滤系统。 1 3 论文主要创新 在课题研究期间,本文针对现存图像型垃圾邮件检测算法存在的缺陷,研究 和改进图像型垃圾邮件检测算法,主要创新包括: ( 1 ) 现有的图像型垃圾邮件检测算法在实时性和精确性上无法兼顾,根本原因 在于未对图像型垃圾邮件的特征集合进行优化。本文提出一种应用在图像 型垃圾邮件上的特征选择算法r r e l i e f l :算法,对图像型垃圾邮件的特 征集合进行筛选。利用筛选后得出的特征子集作为机器学习算法分类的依 3 电子科技大学硕士学位论文 据。实验表明,该算法能够有效的得出优化特征子集,利用提出的特征子 集进行分类,精度保持在9 7 以上,时间消耗则降低了7 0 以上。 ( 2 ) 针对网络上出现的新型图像型垃圾邮件多帧图像型垃圾邮件进行过 滤。结合本文提出的r r e l i e f l :z 特征选择算法对多帧的图像型垃圾邮件进 行识别。首先提取图像的特征集合,利用r r e l i e f f 算法得出识别效果较 好的特征子集并结合支持向量机分类算法对多帧图像型垃圾邮件进行过 滤。 ( 3 ) 提出基于r 。r e l i e f f 算法的多层次图像型垃圾邮件过滤系统。现有的图像 型垃圾邮件过滤系统识别算法比较单一,大都采用图像特征和机器学习算 法结合的方式。本文结合r r e l i e f f 算法提出多层次的图像型垃圾邮件过 滤系统。实验结果表明,本系统能够有效的对传统单帧图像型垃圾邮件和 多帧图像型垃圾邮件进行过滤,且有较高的实时性。 1 4 论文章节安排 本论文一共分为七章。 第一章,引言。首先介绍国内外图像型垃圾邮件现状并分析图像型垃圾邮件 及其带来的危害,然后阐述实现图像型垃圾邮件识别的重要意义。最后,简述论 文的主要工作、创新以及论文的总体结构。 第二章,图像型垃圾邮件过滤技术概述。介绍图像型垃圾邮件的发展,对图 像型垃圾邮件的检测难点、现有的图像型垃圾邮件识别算法及对识别算法的评价 标准做了全面系统的分析与总结。 第三章,改进的r e l i e f f 特征选择算法。设计并实现一种应用于图像型垃圾邮 件的特征选择算法一r r e l i e f f 特征选择算法。该算法结合c f s 特征选择算法的 冗余特征过滤算法,改进经典的r e l i e f f 算法,对图像型垃圾邮件的特征集合进行 无关特征和冗余特征的筛选。筛选所得出的图像型垃圾邮件特征子集,是识别图 像型垃圾邮件的重要依据。 第四章,多帧图像型垃圾邮件的过滤算法研究。多帧图像型垃圾邮件是目前 网络上出现的一种新型图像型垃圾邮件,本文针对此类图像型垃圾邮件结合 r r e l i e f f 算法筛选其特征集合,形成多帧图像型垃圾邮件特征子集,最后结合机 器学习算法对其进行识别。 第五章,基于r r e l i e f f 算法的多层次图像型垃圾邮件过滤系统。本文深入分 4 - 0 第一章引言 析现有图像型垃圾邮件过滤系统,总结其优缺点得出一种多层次的图像型垃圾邮 件过滤框架。最后结合r r e l i e f f 算法以及多帧图像型垃圾邮件过滤算法得出基于 r r e l i e f f 算法的多层次图像型垃圾邮件过滤系统。 第六章,系统评估与实验结果分析。对本文提出的r r e l i e 行特征选择算法、 多帧图像型垃圾邮件过滤算法以及基于r r e l i e f f 算法的多层次图像型垃圾邮件过 滤系统在三个不同的图像型垃圾邮件测试集合上进行了实验并对实验结果进行了 分析和总结。 第七章,总结与展望。对本文的工作进行总结,并对下一步工作进行展望。 电子科技大学硕士学位论文 第二章图像型垃圾邮件检测技术概述 本章从图像型垃圾邮件的起源和现状入手,深入分析图像型垃圾邮件的检测 难点,全面总结已提出的图像型垃圾邮件特征、已用于图像型垃圾邮件识别的分 类算法及相关性能评价标准。通过对现有的图像型垃圾邮件检测技术的分析与总 结,为论文的下一步研究做准备。 本章的安排如下:第一节,介绍图像型垃圾邮件的起源;第二节,分析图像 型垃圾邮件检测的难点;第三节,总结已有的图像型垃圾邮件检测算法;第四节, 阐述图像型垃圾邮件识别算法的性能评价标准;第五节,对本章进行小结。 2 1 图像型垃圾邮件起源和现状 自电子邮件这一通信方式诞生之时,它就逐渐成为人们网上通信必不可少的 工具。电子邮件具有方便、快捷、免费的特点,也正因如此,一些不法分子将电 子邮件作为散布垃圾信息的工具。连锁信是垃圾邮件的鼻祖,自此后各种垃圾邮 件开始在互联网上出现。垃圾邮件群发工具的诞生加速了它的泛滥,并在很大程 度上带动了垃圾邮件的商业化,垃圾邮件的数量也急剧膨胀。它肆意侵占用户邮 箱,占据网络带宽,浪费存储资源,每年造成的损失都达到几十亿美元。人们意 识到垃圾邮件的巨大危害,开始积极的为阻止垃圾邮件的进一步泛滥而努力。 美国全部5 0 个州都通过了反垃圾邮件的法案,日本、韩国、英国、法国、意 大利以及加拿大等国家也都在制定反垃圾邮件法案。例如,英国政府颁布了保护 互联网和移动电话用户免受未主动请求的商业电子邮件骚扰的法案。美国加利福 尼亚州颁布法令,禁止该州企业或个人向任何没有明确要求愿意接收电子邮件的 用户发送商业邮件。这使得加州的垃圾邮件禁令成为全美各州已经发布的反垃圾 邮件法规当中适用范围最广的一个。我国召开的整治互联网垃圾邮件网络座谈会, 也提出要在中国进行反垃圾邮件立法,并已经颁布了互联网电子邮件服务管理 办法。 各商业公司和高校也在通过发展和改进垃圾邮件过滤技术来对抗垃圾邮件。 各种商用和民用垃圾邮件过滤系统层出不穷。例如,c i p h e r t r u s t 公司的i r o n m a i l 和b a r r a c u d e n e t w o r k s 的梭子鱼垃圾邮件防火墙就是比较典型的企业级垃圾邮件防 6 第二章图像型垃圾邮件检测技术概述 火墙。国内的k i l l 赤肖邮件过滤网关是冠群金辰公司针对当前越来越猖狂的电子 邮件病毒研发的电子邮件网关系统。此外,国内的美讯智安全信息网关也是一款 -功能较为全面的反病毒、反垃圾邮件系统。卡耐基梅隆大学的隐私与安全实验室 研究正在研究垃圾邮件制造者发送的钓鱼攻击。普林斯顿大学和宾州大学研究的 啊 反图像型垃圾邮件算法,正确率可达9 0 以上。华南理工大学的智能邮件处理系 统m a t i x ,上海交通大学信息安全工程学院的多特征智能型反垃圾邮件系统等都是 高校研制出来的高效反垃圾邮件系统。 反垃圾邮件技术的成熟,迫使垃圾邮件制造者发展新的技术来躲避垃圾邮件 过滤系统。由于基于文本内容的反垃圾邮件技术已经相当成熟,朴素贝叶斯和支 持向量机的垃圾邮件分类算法甚至有了商用版本【1 5 1 ,因此垃圾邮件制造者转而寻 求其他的垃圾邮件载体。 多媒体邮件技术的发展为垃圾邮件制造者提供了好的方向。多媒体邮件之中 可以嵌入图像、文本、视频、音频等文件。文本文件无法躲避基于文本内容的垃 圾邮件过滤系统的检测;视频、音频等文件过大无法批量传播;图像所含信息丰 富,制作技术简单而且易于压缩,因而图像文件成了垃圾邮件制造者的天然选择。 由于基于文本内容的垃圾邮件过滤系统无法识别此类垃圾邮件,导致图像型垃圾 邮件在短时间内爆发,在2 0 0 7 年到达顶峰,占互联网垃圾邮件总量的5 2 以上【3 0 1 。 在图像型垃圾邮件出现的初期,多数学者仍旧沿袭基于文本内容的垃圾邮件 过滤算法,利用光学文字识别技术( o p t i c a lc h a r a c t e rr e c o g n i t i o n ,o c r ) 提取图像 中的文本内容,然后利用传统的基于文本内容的垃圾邮件过滤系统对图像型垃圾 邮件进行识别【1 5 , 1 6 】。随着图像制作技术的发展,垃圾邮件制造者开始在图像型垃 圾邮件中加入干扰信息来阻止文本内容被o c r 识别,例如加入纹理背景、扭曲图 像等。上述的方法都导致了o c r 提取的文本内容不准确,从而无法正确的识别图 像型垃圾邮件。 k 由于图像型垃圾邮件的爆发,有学者想要从根源上杜绝垃圾邮件,从而遏制 图像型垃圾邮件的传播。例如改进电子邮件协议,增加诸如寄件人来源认定、域 1 钥、发送者身份鉴定等。但由于改变的电子邮件协议和多数互联网以及软件厂商 利益冲突,使得这些技术无法大规模的使用,目前这些技术还在研究阶段。多数 学者则改变了识别图像型垃圾邮件的策略,利用提取出的图像型垃圾邮件的特征 作为判断依据,结合决策树、支持向量机等分类算法对图像进行识别【1 7 , 1 8 】。目前 这一技术是识别图像型垃圾邮件的主流研究方向。 7 电子科技大学硕士学位论文 2 2图像型垃圾邮件的检测难点 图像型垃圾邮件有其自身的特殊性,通过深入研究图像型垃圾邮件可以发现 识别图像型垃圾邮件主要存在五个方面的困难:缺乏定义及语料库;图像处理效 率低下;图像的特征较多;图像型垃圾邮件不断更新;缺乏效率较高的图像型垃 圾邮件过滤系统。 ( 1 ) 缺乏定义及语料库 图像型垃圾邮件目前仍无一个统一的定义,赖均【1 9 】和m a r kd r e d z e 2 0 1 都对图像 型垃圾邮件作了自己认为正确的定义,但却各不相同。一个统一的图像型垃圾邮 件定义不仅能准确的定位图像型垃圾邮件也能为识别图像型垃圾邮件提供较好的 特征依据,因此急需一个图像型垃圾邮件的明确定义。本文研究的图像型垃圾邮 件是指含有大量广告、商业、政治敏感信息的邮件图像。 图像型垃圾邮件语料库相当少。大部分研究者所使用的图像型垃圾邮件主要 通过两种方式搜集:垃圾邮件集s p a m a r c h i v e 中提取【2 l 】;从个人邮箱中收 集含图像的垃圾邮件【2 2 1 。正常图像则主要通过三个途径获取:从个人邮箱中收 集【2 3 】;利用搜索引擎并使用“西f ,、“p h o t o ”、“p i c t u r e ”等关键词在网上搜索下 载【2 4 】;手工生成一些图像【2 5 】,但主观性较强。令人欣喜的是,部分学者2 0 , 2 6 1 将 其使用的语料库公开,形成了一些可用的较为权威的语料库,具体信息如表2 1 所示。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论