




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、离散概率(II)离散数学课程组南京大学计算机科学与技术系内容提要定理广义定理Spam过滤器April. 20132引言疾病检测呈阳性,真的得病?概率多大?疾病检测呈,得病的概率多大?已知部分证据(经验数据),估计特定的概率Thomas Bayes (1701-1761)April. 20133定理定理., p(E)0, p(F)0.设E和F是样本空间S中的则April. 20134定理(举例)有2个盒子,第一个盒子含2个绿球和7个红球。第二个盒子含4个绿球和3个红球。Bob随机选择盒子, 并在选择的盒子里随机选取一个球。如果Bob选中 的是红球,该球来自第一个盒子的概率?解. 设E是Bob选中
2、红球的, F是Bob选择第一个盒子的。April. 20135定理的推导根据条件概率的定义p(F | E) = p(EÇF) / p(E)另外,我们有:p(E Ç F ) = p(E | F ) p(F )所以,我们有:April. 20136定理的推导我们有因此,April. 20137定理的应用假设有一种罕见的疾病,100,000人只有1人会得这得了此病,检测准确率高达99%;种病。如果没有得此病,检测准确率为99.5%.如果疾病检测呈阳性,得此病的概率多大?疾病检测呈,没有得此病的概率多大?解. 设D是此人得此病的,E是疾病检测呈阳性。需要计算 p(D|E), p(D
3、|E) 。的April. 20138定理的应用April. 20139呈阳性,也不必太担心!为何结果如此小?定理的应用April. 201310呈,高枕无忧!广义定理假设E是取自样本空间S中的,F1, F2, , Fnp(E)0,是互斥的,且又p(Fi )0 (i=1, , n). 则April. 201311举例朋友来看我,乘坐交通工具的概率和这些工具可能 晚点的概率分别是乘坐概率:自驾(0.3), 公交 (0.1), 高铁(0.4), 飞机(0.2)晚点概率:自驾(0.3), 公交 (0.2), 高铁(0.1), 飞机(0.5)朋友了, 何种最有可能导致这种现象?解:A自驾,B公交,C高铁
4、,D飞机,Ep(A)=0.3, p(B)=0.1, p(C)=0.4, p(D)=0.2;p(E|A)=0.3, p(E|B)=0.15, p(E|C)=0.05, p(E|D)=0.5;求p(A|E), p(B|E), p(C|E), p(D|E)中的最大者。April. 201312在众多线索中探究p(E | A) p( A)p( A | E) =p(E | A) p( A) + p(E | B) p(B) + p(E | C) p(C) + p(E | D) p(D)p(A|E)=90/225=2/5, p(B|E)=15/225=1/15, p(C|E)=20/225=4/45,p(D
5、|E)=100/225=4/9误事的很可能是飞机!April. 201313Spam过滤器邮件是Spam?邮件的集合B 和一个不是如何确定一个假设我们有一个件集合G。利用Spam 的概率。的邮邮件是定理来一个新的个特定的单词w, 它在B 和G中出现的次数分别为nB(w)和nG(w).设S是邮件为Spam的. 需要计算 p(S|E), E是邮件内容含单词w的April. 201314需要估算p(E | S)和 p(E |S)Spam过滤器April. 201315若大于某个经验值,则被认为是Spam假设 p(S) = ½邮件的频率估算p(E | S)= p(w) =nB(w)/|B|p
6、(E |S) =q(w) = nG(w)/|G|Spam过滤器举例: “Rolex” 在 2000 封邮件的250个当中出现,而在1000封非邮件中只有5封包含这个单词。估计一条含有“Rolex”的消息是Spam的概率. 假设收到的消息是Spam和不是Spam是等可能的。假设把一条消息作为Spam而拒 绝的阈值为0.9,那么我们应该拒绝这条消息吗?解: p(Rolex) = 250/2000 =0.125, q(Rolex) = 5/1000 = 0.005.April. 201316将含有“Rolex”的消息为Spam,并拒绝这种消息。Spam过滤器使用多个单词的精度.多个单词作为证据来设E
7、1和E2分别为消息种包含单词w1和w2 的.的,且p(S) = ½.简化起见,是April. 201317Spam过滤器使用多个单词的单词“stock”出现在2000条圾消息中的60条里,在200条消息中的400条里,1000个非垃消息和25条非消息中包含单词“undervalued”。对于一条既含有“stock”和“undervalued”的新消息,估计它是消息的概率。解.p(stock) = 400/2000 = 0.2, q(stock) = 60/1000=0.06,p(undervalued)=200/2000 =0.1, q(undervalued)=25/1000=0.025April. 201318假设阈值为0.9,那么我
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 城市公交站台广告合同书范本
- 家禽肉类销售合同
- 销售服务合同
- 出纳聘用合同标准文本标准文本
- 食品经销合同
- 兼职员工签订劳务合同标准文本
- 办公空间租赁合同
- 二次结构合同标准文本包工包料
- 借款合同标准文本格式标准文本
- 杭州购房合同样本
- 冀东海德堡(泾阳)水泥有限公司水泥窑协同处置污泥改(扩)建项目环评报告
- 发展汉语(第2版)高级听力Ⅰ第4课课件
- 世界各国民族服饰课件
- GB/T 7113.3-2011绝缘软管第3部分:聚氯乙烯玻璃纤维软管
- GB/T 41255-2022智能工厂通用技术要求
- GB/T 28885-2012燃气服务导则
- 教科版科学六年级下册实验报告单表格版本
- GB/T 22319.11-2018石英晶体元件参数的测量第11部分:采用自动网络分析技术和误差校正确定负载谐振频率和有效负载电容的标准方法
- GB/T 18853-2015液压传动过滤器评定滤芯过滤性能的多次通过方法
- 1.1质点 参考系-【新教材】人教版(2019)高中物理必修第一册课件(共27张PPT)
- 2023年沧州交通发展(集团)有限责任公司招聘笔试题库及答案解析
评论
0/150
提交评论