




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Bayes
Classifier贝叶斯分类2023/11/261一、何谓贝叶斯分类?2023/11/262
数据挖掘中以贝叶斯定理为基础,用于分类的技术有朴素贝叶斯分类和贝叶斯信念网络两种。
朴素贝叶斯分类假定一个属性值对给定类的影响独立于其他属性的值,即在属性间不存在依赖关系,也因此称为“朴素的”。
贝叶斯信念网络也可以用于分类,它是图形模型。它优于朴素贝叶斯,它能够处理属性子集间有依赖关系的分类。
它采用监督式的学习方式。二、基本知识2023/11/2631、事件概率
联合概率(joint
probability)表示A事件和B事件同时发生的概率,P(A∩B)。
边际概率(marginal
probability)在A和B的样本空间中,只看A或B的概率,称之边际概率。
条件概率(conditionalprobability)在发生A的条件下,发生B的概率,称为P(B|A)。2、乘法法则(Multiplicative
rule)3、独立事件设事件A和事件B满足以下条件:52023/11/26则称A与B为『独立事件』。三、贝叶斯定理表示先验概率(Prior
probability)。表示后验概率(Posteriori
probability),
先验概率是由以往的数据分析得到的。根据样本数据得到更多的信息后,对其重新修正,即是后验概率。62023/11/26
例:旅客搭乘飞机必须经电子仪器检查是否身上携带金属物品。
如果携带金属,仪器会发出声音的概率是97%,但身上无金属物品仪器会发出声音的概率是5%。已知一般乘客身上带有金属物品的概率是30%,若某旅客经过仪器检查时发出声音,请问他身上有金属物品的概率是多少?解:设C1=“有金属物”,X=“仪器会发声”,则72023/11/2692023/11/26102023/11/26112023/11/26五、朴素贝氏分类的实例
办信用卡意愿:13项目性别年龄学生身分收入办卡1男>45否高会2女31~45否高会3女20~30是低会4男<20是低不会5女20~30是中不会6女20~30否中会7女31~45否高会8男31~45是中不会9男31~45否中会10女<20是低会
2023/11/26类属性解:首先根据训练样本计算各属性相对于不同分类结果的条件概率:
P(办卡)=7/10
P(女性|办卡)=5/7
P(年龄=31~45|办卡)=3/7
P(学生=否|办卡)=5/7
P(收入=中|办卡)=2/7P(不办卡)=3/10P(女性|不办卡)=1/3P(年龄=31~45|不办卡)=1/3P(学生=否|不办卡)=0/3P(收入=中|不办卡)=2/3判断:X=(女性,年龄介于31~45之间,不具学生身份,收入中等)会不会办理信用卡。142023/11/26其次,再应用朴素贝氏分类器进行类别预测:
计算
P(办卡)P(女性|办卡)P(年龄31~45|办卡)P(不是学生|办卡)P(收入中|办卡)=15/343≈0.044
P(不办卡)P(女性|不办卡)P(年龄31~45|不办卡)P(不是学生|不办卡)P(收入中等|不办卡)=0
0.044>0152023/11/26贝叶斯分类的优缺点:优点:
计算速度最快的演算法;
规则清楚易懂;
独立事件的假设,大多数问题上不至于发生太大偏误;缺点:
仅适用于类别变量;
仅能应用于分类问题;
假设变量间为独立互不影响,因此使用时需要谨慎分析变量间的相关性。172023/11/26六、贝叶斯信念网络
朴素贝叶斯分类假定类条件独立,即给定样本的类标号,属性的值相互条件独立。
但在实践中,变量之间的依赖可能存在。贝叶斯信念网络说明联合条件概率分布,它允许在变量的子集间定义类条件独立性。它提供一种因果关系的图形。182023/11/26
例如,得肺癌受其家族肺癌史的影响,也受是否吸烟的影响。2023/11/2619有向无环图条件概率图概率依赖双亲或直接前驱后继非后继独立节点:随机变量可以看到三个值就可以完全指定P(R,W)的联合分布。如果P(R)=0.4,则P(~R)=0.6。类似地,,而这是一个因果图,解释草地变湿的主要原因是下雨。我们可以颠倒因果关系并且做出诊断。例如,已知草地是湿的,则下过雨的概率可以计
算如下:212023/11/26222023/11/26
现在,假设我们想把喷水器(S)作为草地变湿的另一个原因,如下图所示。
节点W有两个父节点R和S,因此它的概率是这两个值上的条件概率。我们可以计算喷水器开着草地会湿的概率。这是一个因果(预测)推理:232023/11/26
给定草地是湿的,我们能够计算喷水器开着的概率。这是一个诊断推理。252023/11/26
知道草是湿的增加了喷水器开着的可能。现在让我们假设下过雨,我们有:
注意,这个值比 小。这叫作解释远离explaining
away;
给定已知下过雨,则喷水器导致湿草地的可能性降低了。已知草地是湿的,下雨和喷水器成为相互依赖的。262023/11/262、条件概率表先验概率292023/11/26条件概率表302023/11/263、推理(1)当“警报拉响+降雨
→地震、入室盗窃、洪水”:
假设某时刻警报突然拉响了,且此时正在下雨,值班人员要判断此时发生地震、盗窃和洪水的概率分别是多少,以便采取相应的措施加以应对。
首先,设置警报和降雨为已知节点,观察值分别为拉响和降雨;并且指定地震、入室盗窃和洪水为目标节点。然后计算各种情况发生的后验概率。312023/11/26节点名称降雨警报状态取值降雨拉响已知变量的状态观察值状态取值不发生发生概率值×10084.8015.20地震入室盗窃状态取值不发生发生概率值×10012.0088.0状态取值不发生发生概率值×10088.8011.2洪水322023/11/26(2)当“警报拉响+降雨+地震监测仪信号弱
→地震、入室盗窃、洪水”:
假设,同样在下雨天,警报突然拉响,如果此时值班人员还注意到了地震监测仪的状态处于弱信号的范围,那么到底地震、入室盗窃、洪水中哪个发生呢?
解决的办法是设定:降雨节点处于降雨状态,警报节点处于拉响状态,地震监测仪处于弱状态;目标节点仍旧是地震、入室盗窃和洪水。然后,计算后验概率。332023/11/26节点名称降雨警报地震监测仪状态取值降雨拉响弱已知变量的状态观察值状态取值不发生发生概率值×100100.000.00地震洪水状态取值不发生发生概率值×1008.3391.67状态取值不发生发生概率值×10091.678.33入室盗窃342023/11/26贝叶斯分类的优缺点:优点:
在某些领域的
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 集中竞价交易协议书
- 社区康复解除协议书
- 妹妹坚持婚前协议书
- 西部建设投资协议书
- 企业脱贫帮扶协议书
- 加工货物协议书范本
- 清理垃圾施工协议书
- 啤酒配送协议书模板
- 医疗承包协议书范本
- 师范教师实习协议书
- 天津市南开区2024-2025学年高三下学期质量监测(一)地理试卷(原卷版+解析版)
- 【原创】学校书记中央八项规定精神学习心得
- 2025年商丘职业技术学院单招职业技能考试题库含答案
- 2025年榆林城市投资经营集团有限公司招聘笔试参考题库含答案解析
- 液氯钢瓶应急堵漏工具操作指导规程
- 2025新人教版七年级历史下教案-第20课 明清时期社会经济的发展
- 股份制合作协议及企业章程草案
- 硬件工程师招聘笔试题及解答
- 脱硫塔内部结构优化设计-洞察分析
- 加油站安全生产风险分级管控和隐患排查治理双体系方案全套资料汇编
- SaaS软件许可及使用服务协议
评论
0/150
提交评论