版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Presentation基于朴素贝叶斯算法的垃圾邮件分类(Python实现)EastChinaNormalUniversity2024年7月29日CONTENTS目录0简介1回顾:基本方法2算法3拉普拉斯平滑4实例:邮件分类5流行学习2024年7月29日EastChinaNormalUniversity简介朴素贝叶斯法:是基于贝叶斯定理和特征条件独立假设的分类方法。对于给定的训练数据集,首先基于特征条件独立假设学习输入/输出的联合概率分布;然后基于此模型对于给定的输入x,利用贝叶斯定理求出后验概率最大的输出y.朴素贝叶斯法实现简单,学习和预测的效率都很高,是业界常用的一种方法。2024年7月29日EastChinaNormalUniversity
Review1:分类问题综述12024年7月29日EastChinaNormalUniversity垃圾邮件非垃圾邮件……各种化验检测数据来推断病情,这时医生就好比一个分类器,而这个医生诊断的准确率,与他当初受到的教育方式(构造方法)、病人的症状是否突出(待分类数据的特性)以及医生的经验多少(训练样本数量)都有密切关系。回顾算法拉普拉斯平滑邮件分类流行学习小结
Review2:贝叶斯定理2024年7月29日EastChinaNormalUniversity回顾算法拉普拉斯平滑邮件分类流行学习小结算法:2024年7月29日EastChinaNormalUniversityRIDageincomestudentcredit_ratingclass_buy_pc1youthhighnofairno2youthhighnoexcellentno3midhighnofairyes4seniormediumnofairyes5seniorlowyesfairyes6seniorlowyesexcellentno7midlowyesexcellentyes8youthmediumnofairno9youthlowyesfairyes10seniormediumyesfairyes11youthmediumyesexcellentyes12midmediumnoexcellentyes13midhighyesfairyes14seniormediumnoexcellentnoTrain_dataset(表格来源:数据挖掘:概念与技术第3版)回顾算法拉普拉斯平滑邮件分类流行学习小结2024年7月29日EastChinaNormalUniversity
test:X=(age=youth,income=mediu,student=yes,credit_rating=fair)(1)计算先验概率P(buy_pc=yes)=9/14=0.643P(buy_pc=no)=5/14=0.357条件概率:P(age=youth|buy_pc=yes)=2/9=0.22P(age=youth|buy_pc=no)=2/5=0.600P(income=medium|buy_pc=yes)=4/9=0.444P(income=medium|buy_pc=no)=2/5=0.400P(student=yes|buy_pc)=1/5=0.200P(credit_rating=fair|buy_pc=yes)=6/9=0.667P(credit_rating=fair|buy_pc=no)=2/5=0.400回顾算法拉普拉斯平滑邮件分类流行学习小结2024年7月29日EastChinaNormalUniversity
回顾算法拉普拉斯平滑邮件分类流行学习小结如果遇到零概率值怎么办?
拉普拉斯平滑。EastChinaNormalUniversity
2024年7月29日回顾算法拉普拉斯平滑邮件分类流行学习小结流程图:EastChinaNormalUniversity获取训练样本确定特征属性
对每个特征属性就按所有划分的条件概率
准备阶段分类器训练阶段应用阶段2024年7月29日回顾算法拉普拉斯平滑邮件分类流行学习小结准备数据从文本中构建词向量(贝努利模型)EastChinaNormalUniversity从文本中构建邮件向量(words2vec):通常有两种实现方式:一种是基于贝努利模型,一种是基于多项式模型实现。我们采用前一种实现方式,将每个词的出现与否作为一个特征(词集模型,相对应的是词袋模型),不考虑单词在文档中出现的次数,因此在这个意义上相当于每个假设词是等权重的。具体如下:(1)遍历所有邮件,创建一个包含所有文档中出现的不重复的单词集合(即特征)。(2)对于每一封邮件创建一个与单词集合等长的0向量。接着遍历邮件中所有单词,如果出现在单词集合中则把对应的值设为1。2024年7月29日回顾算法拉普拉斯平滑邮件分类流行学习小结训练模型(技巧小结)EastChinaNormalUniversity
2024年7月29日回顾算法拉普拉斯平滑邮件分类流行学习小结交叉验证(1000)EastChinaNormalUniversity正确错误64936准确率:0.936%2024年7月29日回顾算法拉普拉斯平滑邮件分类流行学习小结流形学习2024年7月29日EastChinaNormalUniversity本质上,流形学习就是给数据降维的过程。这里假设数据是一个随机样本,采样自一个高维欧氏空间中的流形(manifold),流形学习的任务就是把这个高维流形映射到一个低维(例如2维)的空间里。流形学习可以分为线性算法和非线性算法,前者包括主成分分析(PCA)和线性判别分析(LDA),后者包括等距映射(Isomap),拉普拉斯特征映射(LE)等。流形学习可以用于特征的降维和提取,为后续的基于特征的分析,如聚类和分类,做铺垫,也可以直接应用于数据可视化等。回顾算法拉普拉斯平滑邮件分类流行学习小结流形学习2024年7月29日EastChinaNormalUniversity回顾算法拉普拉斯平滑邮件分类流行学习小结流形学习2024年7月29日EastChinaNormalUniversity回顾算法拉普拉斯平滑邮件分类流行学习小结流形学习2024年7月29日EastChinaNormalUniversity回顾算法拉普拉斯平滑邮件分类流行学习小结流形学习(DIM)2024年7月29日EastChinaNormalUniversity算法的输入是所有数据在高维情况下两两之间的距离(记i与j的距离为Dij)。现在以降到2维为例说明这个算法。首先我们把所有数据点随机绘制在一张二维图像上,然后计算它们两两之间的距离dij,然后我们计算出它与高维距离Dij的误差,根据这些误差,我们将每对数据点按比例移近或移远,然后重新计算所有dij,不断重复到我们没法减少误差为止。假设有n个点:(1)输入每一对点之间的距离Dij。(2)随机在2维平面生成n个点,点i坐标记为x[i]、y[i],计算它们两之间的距离,记为dij.(3)对所有i和j计算:eij=(dij-Dij)/Dij,每个点用一个二维的值grad[k]来表示它要移动的距离的比例因子(初始为0,0)。在计算出每个eij后,计算((x[i]-x[j])/dij)*eij,然后把它加到grad[i][x]上,同样把((y[i]-y[j])/dij)*eij加到grad[i][y]上。(4)把所有eij的绝对值相加,为总误差,与前一次的总误差比较(初始化为无穷大),大于前一次的话就停止。否则把它作为上一次总误差,继续。对每个点,新的坐标为x[i]-=rate*grad[i][x]y[i]-=rate*grad[i][y],其中rate是开始时自己定义的一个常数参数,该参数影响了点的移动速度。重新计算各个dij,回到3。回顾算法拉普拉斯平滑邮件分类流行学习小结小结2024年7月29日看论文……大神交流写代码实际应用中,需要考虑很多因素,下溢是其中一个,词袋模型在解决文档分类问比词集模型有所提高,还有其他一些方面的改进,比如移除停用词。实际生活中,避免将普通邮件当作垃圾邮件比截获每一封垃圾邮件更为重要,收件箱收到几封垃圾邮件还是可以忍受的,但一
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二四年度电炉施工质量控制合同3篇
- 地面硬化合同协议书
- 医院与患者调解协议书(2篇)
- 国贸实训合同(2篇)
- 二零二四年度污水处理工程拆迁补偿合同
- 贸易融资借款合同样本
- 签证英文保证书的不当使用
- 粉煤灰买卖合同范例
- 假期校园守护安全合同
- 排水管材选购合同
- 广东新高考选科选科解读课件
- DB14-T 2511-2022研学旅行基地服务规范
- 维氏硬度计点检表
- 产假、陪产假、流产假审批表
- 幼儿园生活垃圾分类管理台账四篇
- CRRT相关理论知识试题及答案
- 制剂室培训课件
- 三年级上册数学课件-4.3 除法的验算丨苏教版(共14张PPT)
- 四年级家长会(完美版)
- 帝光公司OEC目标“日事日毕、日清日高”实施方案
- 初中安全教育课件《警惕网络陷阱》
评论
0/150
提交评论