




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
基于朴素贝叶斯实现垃圾邮件过滤目录背景01相关理论基础02垃圾邮件过滤系统的实现03总结041摘要:随着因特网的普及,电子邮件在人们的日常生活中扮演着重要的角色,且成为了互联网上最重要、最普及的沟通工具之一2然而,随之诞生的垃圾邮件也越来越泛滥,如何有效地抵御垃圾邮件是全世界共同面临的一道难题,也是互联网上目前急待解决的问题3因此,研究更为有效的垃圾邮件过滤防范系统,是具有重要现实意义的课题4本文实验中以收集的一些邮件为语料,应用朴素贝叶斯分类算法,通过训练集计算得到类别的先验概率和特征项的类条件概率,并以此为基础对测试集中的邮件进行归类判断,以准确率和查全率为指标给出了实验结果,最终产生了一个较其它单种邮件过滤方法更为高效的实验数据5关键词:垃圾邮件过滤;朴素贝叶斯;特征项背景当今Internet技术的迅猛发展,使计算机与网络在人们的工作、学习、生活中带来了极大的方便,其中电子邮件由其快捷、方便、高效的特点已成为现代人们通信方式的重要组成部分然而随着电子邮件的广泛普及,带来的不仅只是便利,亦带来令人担忧的网络安全问题根据英文和汉文邮件的使用经验垃圾邮件的出现极大程度上危害到用户,首先造成了网络带宽资源的浪费,出现瓶颈资料的问题,直接的影响网络运行效率产生对信息空间资源非法占有,出现漏洞给黑客利用,导致网络出现严峻的网络安全隐患问题目前全世界每天发布的网上垃圾邮件就高达近千亿之多,这些垃圾邮件不仅占据了邮件服务器的大量存储空间,同时也侵犯了收件人的隐私,浪费了收件人大量的时间和精力,垃圾邮件已经成为当今互联网上一个颇令人头痛的问题因此,为了保证邮件系统的正常运行和邮箱用户的利益,研究有效的邮件过滤方法势在必行目前解决垃圾邮件问题有众多的途径和思路,但现在并不存在一种方法能完美地解决垃圾邮件问题,要根治垃圾邮件问题需要反垃圾邮件技术、邮件传输体系、经济体制、法律等多方面的努力在实际应用中,仅凭借某一项或几项技术往往很难达到阻止绝大部分垃圾邮件的目标,本系统结合多种反垃圾邮件技术,建立了一套多层次的反垃圾邮件系统该系统的过滤技术从不同的方面、不同的角度、不同的特点出发,相互补充,取长补短,实现了一个具有较高正确率、较高性能的垃圾邮件过滤系统,大大提高了整体过滤的准确率和查全率,减少误判率,有效地过滤了各种垃圾邮件本系统针对垃圾邮件的过滤主要从两个方面加于设计,首先一方面:邮件外部特征的显式过滤,可分别从黑白名单、发送者邮件地址、邮件接收者地址、邮件传送途径、邮件主题等相关信息来给予邮件的第一级过滤,严格地过滤规则对垃圾邮件判断的准确性也非常高相关理论基础另外一方面:如果上一级的规则过滤对邮件的判别没有起到有效作用时,则进入本系统的二级过滤该级过滤中,通过信息增益法建立特征词库,然后再以改进的朴素贝叶斯算法作为邮件过滤的模型对新邮件进行过滤分类为了更好的实现过滤的效果,本系统在二级过滤分类的结果中,再次找出分错类的邮件,将它们送入训练样本集进行再学习,重建特征库,最终精确邮件的分类效果贝叶斯分类算法是基于概率统计原理的一种分类方法,具有理论清楚、运算速度快、分类精度高等优点,因而被广泛地应用在各个领域的文本分类中,并取得很好的效果最初,贝叶斯定理是由牧师托马斯贝叶斯发表于1763年,他是18世纪的数学家和神学家。贝叶斯定理是贝叶斯理论中最重要的一个公式,是贝叶斯学习方法的理论基础,它将事件的先验概率与后验概率巧妙地联系起来,利用先验知识和统计现有数据,使用概率的方法来确定某一事件的后验概率010203050406定义4.1:一个随机试验E所有可能的结果构成的集合称为该随机试验E样本空间,记为S。样本空间的元素,即E的每个结果,称为样本点。试验E的样本空间S的子集为E的随机事件,简称为事件定义4.2:设E是随机事件,S是它的样本空间。对于E的每一事件A赋予一个实数,记为P(A),称为事件A发生的概率定义4.3:设A,B是两个事件,且P(A)>0,则称P(B|A)=P(AB)/P(A)(4.1)为在事件A发生的条件下事件B发生的条件概率。公式4.1称为条件概率公式NEXT在条件概率基础上可建立贝叶斯公式定理:设试验E的样本空间为S,A为E的事件,Bl,B2,...,Bn为S的一个划分,且P(Ai)>0,P(Bi)>0(i=1,2,...,n),则nP(Bi|A)=P(A|Bi)P(Bi)/∑P(A|Bj)P(Bj)i=1,2,...,n(4.2)j=1公式4.2称为贝叶斯(Beyes)公式这里,P(Bi)为先验概率,P(Bi|A)为后验概率,即由结果追溯原因先验概率是指根据历史的资料或主观判断所确定的各种事件发生的概率,该概率没能经过实验证实,属于检验前的概率,称之为先验概率后验概率一般是指利用贝叶斯公式,结合调查等方式获取了新的附加信息,对先验概率进行修正后得到的更符合实际的概率贝叶斯公式是贝叶斯理论的基石,它主要用于在已知事件A发生的条件下,来判断A是伴随着Bl,B2,...,Bn中哪个事件发生的情况下而发生的,即要求知道A发生的条件下某个原因Bi的概率,这就是条件概率P(Bi|A),所以这个公式又称为原因概率公式垃圾邮件过滤系统的实现朴素贝叶斯分类(NBC)是以贝叶斯定理为基础并且假设特征条件之间相互独立的方法,先通过已给定的训练集,以特征词之间独立作为前提假设,学习从输入到输出的联合概率分布,再基于学习到的模型,输入X求出使得后验概率最大的输出Y(1)收集数据:提供文本文件(2)准备数据:将文本文件解析成词条向量(3)分析数据:检查词条确保解析的正确性(4)训练算法:计算不同的独立特征的条件概率(5)测试算法:计算错误率基于朴素贝叶斯实现垃圾邮件过滤(6)使用算法:构建一个完整的程序对一组文档进行分类垃圾邮件过滤实验(一)、准备收集好的数据集,并下载到本地文件夹基于朴素贝叶斯实现垃圾邮件过滤ham文件夹下的文件为正常邮件,里面共有25封txt格式按数字命名顺序排列的正常邮件,正常邮件内容如下图所示基于朴素贝叶斯实现垃圾邮件过滤spam文件下的txt文件为垃圾邮件,里面有25封txt格式按数字命名顺序排列的垃圾邮件,垃圾邮件内容如下图所示基于朴素贝叶斯实现垃圾邮件过滤(二)、朴素贝叶斯分类器训练函数参数trainMatrix-训练文档矩阵,即setOfWords2Vec返回的returnVec构成的矩阵trainCategory-训练类别标签向量,即loadDataSet返回的classVec基于朴素贝叶斯实现垃圾邮件过滤返回值p0Vect-正常邮件类的条件概率数组p1Vect-垃圾邮件类的条件概率数组pAbusive-文档属于垃圾邮件类的概率(三)、朴素贝叶斯分类器训分类函数参数vec2Classify-待分类的词条数组p0Vec-正常邮件类的条件概率数组p1Vec-垃圾邮件类的条件概率数组基于朴素贝叶斯实现垃圾邮件过滤pClass1-文档属于垃圾邮件的概率返回值0-属于正常邮件类1-属于垃圾邮件类基于朴素贝叶斯实现垃圾邮件过滤(1)、测试朴素贝叶斯分类器,使用朴素贝叶斯进行交叉验证基于朴素贝叶斯实现垃圾邮件过滤3.2实验结果与分析基于朴素贝叶斯实现垃圾邮件过滤测试结果截图可以看到,实验结果平均错误率为10%左右朴素贝叶斯优缺点123优点:在数据较少的情况下仍然有效,可以处理多类别问题缺点:对于输入数据的准备方式较为敏感,由于朴素贝叶斯的"特征条件独立"特点,所以会带来一些准确率上的损失注意:使用拉普拉斯平滑解决零概率问题;对乘积结果取自然对数避免下溢出问题,采用自然对数进行处理不会有任何损失基于朴素贝叶斯实现垃圾邮件过滤总结电子邮件已成为人们生活中较为普及的通信手段,为了能带给人们更多的方便,邮件系统的安全性和可靠性就成为了大家关注的焦点,尤其是垃圾邮件日趋泛滥的问题更值得我们去妥善的处理和解决本文首先对垃圾邮件的特征、危害性、发展的现状及目前常用的反垃圾邮件手段作了介绍,总结分析了传统邮件过滤技术的特点及各自的不足之处在此基础上,本文主要通过对贝叶斯算法与朴素贝叶斯算法原理进行了解,更好地利用朴素贝叶斯算来对垃圾邮件过滤进行实验与讨论实验数据表明,本文研究的垃圾邮件过滤方法能较好地完成邮件的分类,取
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高校教师期末述职报告
- 高三小说知识全解析
- 高钾临床表现
- 高考色彩基础知识2
- 北冥有鱼首知识框架图
- 高校年终总结大会
- 八年级上册《分式的混合运算》课件与练习
- 高中文明安全主题班会
- 【名师课件】4.2.1 课件:全反射-2025版高一物理必修二
- 西部农民工返乡创业比赛
- 陕西省2024年高中学业水平合格考数学试卷试题(含答案)
- 血液透析室内瘘针滑脱pdca汇报
- 水利安全生产风险防控“六项机制”右江模式经验分享
- 平面直角坐标系-(2)课件
- FZ∕T 25005-2021 底网造纸毛毯
- ti-84计算器说明书
- 2024年淮北职业技术学院单招职业适应性测试题库及答案解析
- 2023全国高考四套文言文真题挖空训练(答案)
- 姓吴的研究报告
- 2024航空工业集团校园招聘笔试参考题库附带答案详解
- 液化天然气生产工艺
评论
0/150
提交评论