反垃圾邮件技术分析与中文垃圾邮件过滤规则研究-PPT课件_第1页
反垃圾邮件技术分析与中文垃圾邮件过滤规则研究-PPT课件_第2页
反垃圾邮件技术分析与中文垃圾邮件过滤规则研究-PPT课件_第3页
反垃圾邮件技术分析与中文垃圾邮件过滤规则研究-PPT课件_第4页
反垃圾邮件技术分析与中文垃圾邮件过滤规则研究-PPT课件_第5页
已阅读5页,还剩70页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、反垃圾邮件技术分析与中文垃圾邮件过滤规则研究孙东红 陈光英中国教育和科研计算机网紧急响应组(Computer Emergency Response Team of China Education and Research Network)清华大学信息网络工程研究中心(Network Research Center of Tsinghua Univ.)主要内容 垃圾邮件的情况 反垃圾邮件技术分析垃圾邮件的定义垃圾邮件历史现状分析 中文垃圾邮件过滤规则研究 CCERT开展的反垃圾邮件工作垃圾邮件的定义 垃圾邮件:普通意义上的垃圾邮件指的是未经主动请求的大量的电子邮件, SPAM, UBE(Unso

2、licited Bulk Email), UCE (Unsolicited Commercial Email) 收件人事先没有提出要求或者同意接收的广告、电子刊物、各种形式的宣传品等宣传性的电子邮件;收件人无法拒收的电子邮件; 隐藏发件人身份、地址、标题等信息的电子邮件;含有虚假的信息源、发件人、路由等信息的电子邮件。主要内容 垃圾邮件的情况 反垃圾邮件技术分析垃圾邮件的定义垃圾邮件历史现状分析 中文垃圾邮件过滤规则研究 CCERT开展的反垃圾邮件工作1985 年8 月一封通过电子邮件发送的链锁信,一直持续到1993 年,这是首次关于垃圾邮件的记录。1993 年6 月份,在Internet 上

3、出现了名为“Make Money Fast”的电子邮件。 1994 年4 月份,Canter &Siegel 的法律事务所把一封移民顾问服务广告邮件发到6000 多个新闻组,一时间群情激奋。-首次用spam称呼垃圾邮件。2019 年5 月出现第一个专门的垃圾邮件群发软件Floodgate。分析:简单邮件传输协议(SMTP)协议安全性存在不足: SMTP基于RFC 524发展而来,RFC524是在1973年提出的,它不是一个安全的命令集。这使得SMTP缺乏安全性保障。 发展历史主要内容 垃圾邮件的情况 反垃圾邮件技术分析垃圾邮件的定义垃圾邮件历史现状分析 中文垃圾邮件过滤规则研究 CCERT开展

4、的反垃圾邮件工作现状分析-数据统计全球范围统计,2019年垃圾邮件仅占电邮总量的7%,到2019年即达到29%,至2019年7月就超过了51%,2019年1月高达60%垃圾邮件的数量已经超过了合法电子邮件的数量 。现状分析-我国垃圾邮件形势严峻2019年终统计显示:中国邮件服务器总计接收到的垃圾邮件为1500亿封,用户实际共计收到垃圾邮件470亿封,经济损失48亿。第十四次中国互联网络发展状况统计报告显示,我国网民在2019年7月份每周收到13.8封电子邮件,其中正常电子邮件为4.6封,垃圾邮件数却达到9.2封。网民每周收到的垃圾邮件数是非垃圾邮件数的两倍!商业宣传邮件政治宣传邮件色情宣传邮件

5、病毒邮件现状分析-常见垃圾邮件类型 爱虫( 2000-2-14)、 nimda(2019-9-19)、 求职信(2019-10-26)、 中文版求职信(2019-年5-10)、 怪物(2019-10-02)、 sobig(2019-1-11)、 爱情后门(2019-2-25)、 小邮差(2019-8-04)、 斯文(2019-9-19)、 MyDoom (SCO炸弹)(2019-1-27) Netsky及其变种(2019-今)发件人地址随机变化邮件主题随机变化伪造邮件头干扰信息信体内容随机变化内容正文以图片方式显示,难以识别对垃圾邮件的定义和分类因人而异垃圾邮件在不同时段内的传播内容不一样垃圾

6、邮件在不同范围内的传播内容不一样现状分析垃圾邮件的特点宽带网络的快速发展网络通信成本的下降硬件性能的提高并且成本不断降低成本与产出的巨大反差邮件的易伪造缺乏法律与规范的约束现状分析-泛滥原因现状分析危害国家层面:政治、经济、文化用户层面:学习、工作、生活对于CERNET 内的高校而言: 网络安全性、稳定性、高效性; 占用带宽、存储空间; 被列入各种黑名单; 被投诉;声誉、国际影响;现状分析- Spammers 的手段获取目标地址扫描、猜测、购买利用病毒从本地邮箱获取联络人Email地址逃避检测、追踪和过滤的技术Open-Relay 自架设 MTA服务采用动态IP地址伪造或隐藏信源地址逃避内容过

7、滤: Graphics , URL, mis-spelling, etc. 欺骗(Phishing)技术If the message will not displayed automatically,follow the link to read the delivered message.Received message is available at:/inbox/dhx/read.php?sessionid-17370 邮件欺诈技术欺诈伪造的网页主要内容 垃圾邮件的情况 反垃圾邮件技术分析技术概览垃圾邮件的响应环节及措施邮件的传输过程及对垃圾邮件的控制 中文垃圾邮件过滤规则研究 CCER

8、T开展的反垃圾邮件工作技术概览邮件服务系统的安全加固垃圾邮件过滤技术热点讨论技术增强邮件服务器的安全性,防止漏洞及时补丁提高系统防病毒能力提供邮件服务安全身份认证添加反垃圾邮件的专用设备或插件IP、域名、邮件地址的黑白名单及BBL方式SMTP通信链接速率、频度的设定反向域名验证基于信头、信体、附件的内容关键词基于贝叶斯算法的统计分析基于匹配判定规则的方式电子邮票Challenge-ResponseDomainkeys、SenderIDSPF (sender policy framework)主要内容 垃圾邮件的情况 反垃圾邮件技术分析技术概览垃圾邮件的响应环节及措施邮件的传输过程及对垃圾邮件的

9、控制 中文垃圾邮件过滤规则研究 CCERT开展的反垃圾邮件工作反垃圾邮件的技术环节 预防增强邮件服务器的安全性,防止漏洞及时补丁提高系统防病毒能力提供邮件服务安全身份认证添加反垃圾邮件的专用设备或插件IP、域名、邮件地址的黑白名单及BBL方式SMTP通信链接速率、频度的设定反向域名验证法基于信头、信体、附件的内容关键词基于贝叶斯算法的统计分析基于垃圾邮件判定规则电子邮票Challenge-ResponseDomainkeys、SenderIDSPF (sender policy framework) 检测 响应丢弃(Drop)标记(Lable)隔离(Quarantine主要内容 垃圾邮件的情况

10、 反垃圾邮件技术分析技术概览垃圾邮件的响应环节及措施邮件的传输过程及对垃圾邮件的控制 中文垃圾邮件过滤规则研究 CCERT开展的反垃圾邮件工作邮件的传输过程OriginatorReceiverExternal-Relay布控点及相关措施(一)Originator端: 在发送邮件的服务器上采取措施:限制服务器发送邮件的速率、频率规定邮件服务器开放服务的端口,关闭不必要的服务使用经过认证的MTA转发邮件设定邮件用户身份认证方式 与邮件用户间互签安全协议对转发邮件过程中的Relay 服务器身份认证:布控点及相关技术(二):可信任的信道,即每次中转都采用可信赖的实体SSL/TLSPPP LogicSS

11、H:合法的对象源,对邮件信息可以做确认S/MIMEPGP设置不同方式的过滤措施 Receiver 端:布控点及相关技术(三)基于流量的入侵检测基于honeypot或miningfield 的检测IP、域名、邮件地址的黑白名单、RBLBBL(Benefit Blackhole List)基于链接速率、频度的动态规则反向域名验证基于信头、信体、附件的内容关键词过滤基于贝叶斯的内容统计分析基于规则评分系统的过滤平台例如:SpamAssassin邮件病毒扫描正在讨论中的:SPF、 DMP、 RMXDomain keys订制第三方服务 例如:DSBL、DCC、Razor、APFChallenge-res

12、ponse黑名单不占用计算机资源,易于实施 。需要手动维护的IP地址清单。垃圾邮件发送者经常修改他们的IP地址,并采用一个广泛的IP地址区间以逃避反垃圾邮件手段的检测,因此该方案在总体的垃圾邮件解决方案中仅起补充作用。黑名单、白名单、灰名单设置不同方式的过滤措施 Receiver 端:布控点及相关技术(三)基于流量的入侵检测基于honeypot或miningfield 的检测IP、域名、邮件地址的黑白名单、RBLBBL(Benefit Blackhole List)基于链接速率、频度的动态规则反向域名验证基于信头、信体、附件的内容关键词过滤基于贝叶斯的内容统计分析基于规则评分系统的过滤平台例如

13、:SpamAssassin邮件病毒扫描正在讨论中的:SPF、 DMP、 RMXDomain keys订制第三方服务 例如:DSBL、DCC、Razor、APFChallenge-responseRBLs (实时黑名单)也被称为DNS-RBLs, 检查所有收到邮件的IP地址,与在RBL中的IP地址核对来阻断与spammer 的连接。RBL服务运营商维护公共RBLs, 使用单位仅需订阅实时黑名单服务。 RBLs的计算开销非常低,同时它们通常采用一个类似与DNS的协议实施,所以它们的网络开销也非常低。 RBLs缺点易于产生误报,须谨慎。RBL工作原理SMTP服务器接收到链接请求对链接地址进行DNS反

14、向查询与RBL服务器建立查询查询得到肯定的结果,则拒绝该连接查询无结果,继续进行连接设置不同方式的过滤措施 Receiver 端:布控点及相关技术(三)基于流量的入侵检测基于honeypot或miningfield 的检测IP、域名、邮件地址的黑白名单、RBLBBL(Benefit Blackhole List)基于链接速率、频度的动态规则反向域名验证基于信头、信体、附件的内容关键词过滤基于贝叶斯的内容统计分析基于规则评分系统的过滤平台例如:SpamAssassin邮件病毒扫描正在讨论中的:SPF、 DMP、 RMXDomain keys订制第三方服务 例如:DSBL、DCC、Razor、AP

15、FChallenge-response检查邮件内容中含有的URL链接定义受益黑名单基于BBL过滤设置不同方式的过滤措施 Receiver 端:布控点及相关技术(三)基于流量的入侵检测基于honeypot或miningfield 的检测IP、域名、邮件地址的黑白名单、RBLBBL(Benefit Blackhole List)基于链接速率、频度的动态规则反向域名验证基于信头、信体、附件的内容关键词过滤基于贝叶斯的内容统计分析基于规则评分系统的过滤平台例如:SpamAssassin邮件病毒扫描正在讨论中的:SPF、 DMP、 RMXDomain keys订制第三方服务 例如:DSBL、DCC、Ra

16、zor、APFChallenge-responseDOS(拒绝服务)攻击-垃圾邮件发送者经常试图通过在很短一段时间发送大量邮件阻塞邮件服务器 。速率控制允许在一段时间内从相同IP试图的联接数量控制在设置的范围内 。链接频度控制设置不同方式的过滤措施 Receiver 端:布控点及相关技术(三)基于流量的入侵检测基于honeypot或miningfield 的检测IP、域名、邮件地址的黑白名单、RBLBBL(Benefit Blackhole List)基于链接速率、频度的动态规则反向域名验证基于信头、信体、附件的内容关键词过滤基于贝叶斯的内容统计分析基于规则评分系统的过滤平台例如:SpamAs

17、sassin邮件病毒扫描正在讨论中的:SPF、 DMP、 RMXDomain keys订制第三方服务 例如:DSBL、DCC、Razor、APFChallenge-response反向域名验证对收到邮件的来源IP地址采用反向DNS查找验证真实性 如果反向DNS查找提供的域与邮件上的来源IP地址相符合,该邮件被接受。如果不符合,该邮件被拒绝。由于很多反向DNS目录未被有效建立 ,或无法正常建立,比如,任何”vanity”域名决大多数情况下没有一个正确的反向DNS查找。在这种情况下,由这些域发送的邮件将被阻断,造成不可接受的高误报告率。简单有效、可以阻断绝大多数垃圾邮件;词语过滤识别包含特定关键字

18、的所有邮件,比如“免费”、“色情”等在垃圾邮件中经常发现的词语; 例如在MUA可以自定义过滤关键词关键词过滤集能够持续升级Q:垃圾邮件发送者经常将一些单词拼错,以图饶过词语过滤器,所以词语过滤器需要经常升级,加入关键字的变更。关键词过滤法设置不同方式的过滤措施 Receiver 端:布控点及相关技术(三)基于流量的入侵检测基于honeypot或miningfield 的检测IP、域名、邮件地址的黑白名单、RBLBBL(Benefit Blackhole List)基于链接速率、频度的动态规则反向域名验证基于信头、信体、附件的内容关键词过滤基于贝叶斯的内容统计分析基于规则评分系统的过滤平台例如:

19、SpamAssassin邮件病毒扫描正在讨论中的:SPF、 DMP、 RMXDomain keys订制第三方服务 例如:DSBL、DCC、Razor、APFChallenge-response贝叶斯过滤法贝叶斯算法:以著名数学家托马斯贝叶斯(1702-1761)命名,一种基于概率分析的可能性推论理论。 分析过去事件的知识,预测未来事件 。贝叶斯过滤器与以前收到的垃圾邮件和合法邮件的中相同词语及短语出现的概率对比来确定垃圾邮件的可能性。贝叶斯过滤法强大,是阻断垃圾邮件最为精确的技术过滤准确率可达到99%过滤准确性依赖大量的历史数据。设置不同方式的过滤措施 Receiver 端:布控点及相关技术(

20、三)基于流量的入侵检测基于honeypot或miningfield 的检测IP、域名、邮件地址的黑白名单、RBLBBL(Benefit Blackhole List)基于链接速率、频度的动态规则反向域名验证基于信头、信体、附件的内容关键词过滤基于贝叶斯的内容统计分析基于规则评分系统的过滤平台例如:SpamAssassin邮件病毒扫描正在讨论中的:SPF、 DMP、 RMXDomain keys订制第三方服务 例如:DSBL、DCC、Razor、APFChallenge-response基于规则评分的过滤系统系统代表SpamAssassin;集合人工智能技术的应用系统;对发现的每一个关键词赋予分

21、数,分数越高,该邮件是垃圾邮件的可能性就越高 ;得分超过一定值时,该邮件将被分类为垃圾邮件。可以清除90%的收到邮件中的垃圾邮件。局限性:和词语过滤面临同样的挑战,为使评分有效,规则必须经常更新。 设置不同方式的过滤措施 Receiver 端:布控点及相关技术(三)基于流量的入侵检测基于honeypot或miningfield 的检测IP、域名、邮件地址的黑白名单、RBLBBL(Benefit Blackhole List)基于链接速率、频度的动态规则反向域名验证基于信头、信体、附件的内容关键词过滤基于贝叶斯的内容统计分析基于规则评分系统的过滤平台例如:SpamAssassin邮件病毒扫描正在

22、讨论中的:SPF、 DMP、 RMXDomain keys订制第三方服务 例如:DSBL、DCC、Razor、APFChallenge-response对于垃圾邮件的伪造域地址或伪造回复地址的有效阻断技术SPF (Sender Policy Framework / Sender Permitted From ) 这是对SMTP协议的一个补充,防止发件人假冒,开放的标准,免费。域(Domain)通过DNS发布反向MX记录,告诉Internet哪些计算机可以从该域发送电子邮件。接收方收到邮件后,通过DNS查询邮件来源是否符合源域的邮件发送策略。DMP (目标发件人协议)、 RMX (反向邮件交换)

23、SPF、 DMP、 RMX -1SPF、RMX、DMP分别定义各自的反向MX记录,以确定一封从某一特定域发送的邮件是否允许从特定的IP地址发出。不是从正确MX/SPF/DMP 地址区间产生的邮件地址被识别为伪造,邮件自身被标记为垃圾邮件。 标识:“RMX” for RMX, “SPF” for SPF, and “DMP” for DMP例如,可以定义SPF 记录:v=spf2.0/pra ptr mx: mx: mx allSPF、 DMP、 RMX -2设置不同方式的过滤措施 Receiver 端:布控点及相关技术(三)基于流量的入侵检测基于honeypot或miningfield 的检测

24、IP、域名、邮件地址的黑白名单、RBLBBL(Benefit Blackhole List)基于链接速率、频度的动态规则反向域名验证基于信头、信体、附件的内容关键词过滤基于贝叶斯的内容统计分析基于规则评分系统的过滤平台例如:SpamAssassin邮件病毒扫描正在讨论中的:SPF、 DMP、 RMXDomain keys订制第三方服务 例如:DSBL、DCC、Razor、APFChallenge-responseDomain Keyssender域的所有者生成公钥/私钥对,私钥用于所有发出邮件的签名。公钥通过DNS系统发布。当授权用户发送邮件时,邮件服务器自动产生邮件的数字签名,作为邮件头的一

25、部分发送给接收方。receiver接收服务器从邮件中提取签名,从DNS系统中获得发送域的公钥,验证发送方的数字签名。如果没有签名或签名验证失败,接收方可以拒绝、标记或隔离该邮件。Yahoo!公司提出 设置不同方式的过滤措施 Receiver 端:布控点及相关技术(三)基于流量的入侵检测基于honeypot或miningfield 的检测IP、域名、邮件地址的黑白名单、RBLBBL(Benefit Blackhole List)基于链接速率、频度的动态规则反向域名验证基于信头、信体、附件的内容关键词过滤基于贝叶斯的内容统计分析基于规则评分系统的过滤平台例如:SpamAssassin邮件病毒扫描正

26、在讨论中的:SPF、 DMP、 RMXDomain keys订制第三方服务 例如:DSBL、DCC、Razor、APFChallenge-responseChallenge-Response对付那些邮件自动发送程序 该系统维护了一个允许发件人清单 ,新发件人邮件在发送前被暂时保留 ,challenge-response系统发送给邮件发件人一个测试 ,如果发件人成功完成“测试”,测试/回复系统将他加入到允许发件人的清单中,该邮件被发送到目标地址。 测试信息通常要求发件人在回复邮件中复制一个数字到数字框中要求信息,或者包括一个URL链接。采用虚假发件人邮件地址将不可能收到测试信息 大量的非法邮件是

27、由病毒程序产生的。病毒扫描是减少垃圾邮件数量的一个重要手段。 病毒扫描主要内容 垃圾邮件的情况 反垃圾邮件技术分析 CCERT开展的反垃圾邮件工作 中文垃圾邮件过滤规则研究CCERT反垃圾邮件工作历史CERNET是国内首先开展反垃圾邮件工作的组织之一2019年开始跟踪国际反垃圾邮件组织的工作,开始处理国际相关组织对国内Open-Relay服务器的投诉,通知用户;2019年建立正式受理国际的投诉2019年成立CCERT,专人负责垃圾邮件相关工作,通过 受理国内的投诉2019年CCERT召开CERNET范围内的垃圾邮件处理协调会议,全国10个地区网络中心参加2019年 全国电子邮件服务器系统调查2

28、019年制定了CERNET关于制止垃圾邮件的管理规定CCERT反垃圾邮件工作历史2019年组内研究生完成了反垃圾邮件硕士论文2019年接受南方周末、中央电视台东方时空、北京晨报等媒体采访,引发了媒体对垃圾邮件的广泛关注;2019年出版国内第一本关于反垃圾邮件方面的专著垃圾邮件与反垃圾邮件技术2019年参加互联网协会反垃圾邮件协调小组活动,担任技术工作组负责单位2019年10月主办中国反垃圾邮件技术会议CCAS20192019年9月发布国际第一套中文反垃圾邮件规则集合、并提供公益服务。CCERT反垃圾邮件技术组主页CCERT反垃圾邮件体系Monitoring and detectionActiv

29、e controlInternetSMTPEmail gatewayRoutersSpam reportEndusersCcert-BLanalysis and StatisticFiltering plug-inSecurity configuration 主要内容 垃圾邮件的情况 反垃圾邮件技术分析 CCERT开展的反垃圾邮件工作 中文垃圾邮件过滤规则研究垃圾邮件内容过滤方法基于规则方法(2019)基于统计方法(20192019)统计规则方法(2019)概念基于规则方法寻找“垃圾邮件的特殊模式”,例如:主题包含“免费”。基于统计方法文本自动分类,根据垃圾/正常样本训练分类机概念图正常邮件垃

30、圾邮件基于规则分类面基于统计分类面统计学习理论风险经验风险实际风险hVC置信度过学习欠学习基于规则基于统计准确性基于规则检测垃圾邮件的准确率高不能检测新的垃圾邮件,即漏检率高基于统计检测垃圾邮件的准确率不高能检测新的垃圾邮件,即漏检率低我可以容忍垃圾邮件,但绝不忍受正常邮件被丢掉!垃圾邮件查全率正常邮件误判率目标 90% 85% 5%参考值Return-Path: Received: from 21cn (68)by (MIMEDefang) with ESMTP id NOQUEUEfor ; Thu, 23 Dec 2019 10:40:21 +0800 (CST)Message-ID:

31、From: iflkgj Subject: =?GB2312?B?08W73bT6v6q3osax?=To: Content-Type: text/plain;charset=GB2312Reply-To: iflkgj21cnDate: Thu, 23 Dec 2019 10:54:34 +0800X-Priority: 2X-Mailer: Microsoft Outlook Express 6.00.2800.1158贵公司负责人(经理/财务)您好: 我公司是深圳市如意广告有限公司,我公司实力雄厚,有着良好的社会关系。因我公司是定额税额,每月有一部分普通广告发票和其他服务发票(地税)(2

32、%).检测对象基于统计基于规则应用范围客户端客户端服务器服务器基于规则(SpamAssassin)基于统计(贝叶斯)推广性和时效性基于规则推广性强时效性差基于统计时效性强推广性差时效性推广性基于规则基于统计 ?语义问题?CCERT的新方法统计规则方法规则由统计方法自动生成推广性时效性基于规则好差基于统计差好统计规则好好CCERT的新方法和传统方法比较SpamAssassin (SA)免费垃圾邮件过滤系统公开源代码支持sendmail、qmail、Postfix、EximMTA、MUA、POP3基于规则,用户自定义规则查准率高,速度快广泛使用SA规则例子bodyDEAR_FRIEND/s*Dea

33、r Friendb/idescribe DEAR_FRIEND Dear Friend? Thats not very dear!score DEAR_FRIEND 0.542正则表达式名字分值说明应用范围(信头、信体、原始信体、原始邮件、URI)垃圾邮件判别方法总分值 6.3,阈值 5.0pts rule name description- - -0.5 DEAR_FRIENDDear Friend? Thats not very dear! 0.1 NORMAL_HTTP_TO_IP URI: Uses a dotted-decimal IP address in URL0.0 HTTP_ESCAPED_HOST URI: Uses %-escapes inside

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论