机器学习课件参考_第1页
机器学习课件参考_第2页
机器学习课件参考_第3页
机器学习课件参考_第4页
机器学习课件参考_第5页
已阅读5页,还剩7页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、贝叶斯算法一、贝叶斯简介贝叶斯决策就是在不完全情报下,对部分未知的状态用主观概率估计然后用贝叶斯公式对发生概率进行修正,最后再利用期望值和修正概率做出最优决策。贝叶斯公式提供了从先验概率P(h)、P(D)和P(D|h)计算后验概率P(h|D)的方法 P(h|D)=P(D|h)*P(h)/P(D) 。P(h|D)随着P(h)和P(D|h)的增长而增长,随着P(D)的增长而减少。基本思想是:1、已知类条件概率密度参数表达式和先验概率。2、利用贝叶斯公式转换成后验概率。3、根据后验概率大小进行决策分类。 Company Logo二、贝叶斯算法举例Company Logo二、贝叶斯算法举例Compan

2、y Logo三、贝叶斯过滤算法P(C|W) = P(C) * P(W|C) / P(W)这个公式是最基本也是最常用到的公式,公式的左边,C代表的是文本的类别(例如是体育或者娱乐),W往往是一个测试样本(例如某一篇新闻),P(C|W)代表的是这个样本归属于该类别的概率我们实际中的任务常常就是要得到样本归属各个类别的概率P(C1|W),P(C2|W).P(Cn|W),然后最大概率值所对应的类别Ci就是该样本被分配的类。计算这个概率值的方法就是bayes公式的右边。P(C)表示C这个类别在所有文本中的概率,是先验概率。实际中,这个值往往通过训练语料计算得到。Company Logo三、贝叶斯垃圾邮件

3、过滤算法1) 收集大量的垃圾邮件和非垃圾邮件,建立垃圾邮件集和非垃圾邮件集。2) 提取邮件主题和邮件体中的独立字串例如 ABC32,¥234等作为TOKEN串并统计提取出的TOKEN串出现的次数即字频。按照上述的方法分别处理垃圾邮件集和非垃圾邮件集中的所有邮件。3) 每一个邮件集对应一个哈希表,hash_good对应非垃圾邮件集而hash_bad对应垃圾邮件集。表中存储TOKEN串到字频的 映射关系。4) 计算每个哈希表中TOKEN串出现的概率:P=(某TOKEN串的字频)/(对应哈希表的长度)Company Logo三、贝叶斯垃圾邮件过滤算法5) 综合考虑hash_good和hash_bad

4、,推断出当新来的邮件中出现某个TOKEN串时,该新邮件为垃圾邮件的概率。数学表达式为:A事件-邮件为垃圾邮件; t1,t2 .tn代表TOKEN串。则P(A|ti)表示在邮件中出现TOKEN串 ti时,该邮件为垃圾邮件的概率。设P1(ti)=(ti在hash_good中的值)P2(ti)=(ti在 hash_ bad中的值)则 P(A|ti)= P1(ti)/(P1(ti)+ P2(ti);6) 建立新的哈希表 hash_pbility存储TOKEN串ti到P(A|ti)的映射Company Logo三、贝叶斯垃圾邮件过滤算法7) 根据建立的哈希表 hash_pbility可以估计一封新到的邮件为垃圾邮件的可能性。当新到一封邮件时,按照步骤2)生成TOKEN串。查询hash_pbility得到该TOKEN 串的键值。假设由该邮件共得到N个TOKEN串,t1,t2.tn, hash_pbility中对应的值为P1,P2,PN,P(A|t1 ,t2, t3tn)表示在邮件中同时出现多个TOKEN串t1,t2.tn时,该邮件为垃圾邮件的概率。由复合概率公式可得P(A|t1 ,t2, t3tn)=(P1*P2*PN)/P1*P2*PN+(1-P1)*(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论