基于clementine的数据挖掘第九讲_第1页
基于clementine的数据挖掘第九讲_第2页
基于clementine的数据挖掘第九讲_第3页
基于clementine的数据挖掘第九讲_第4页
基于clementine的数据挖掘第九讲_第5页
已阅读5页,还剩29页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、分类预测:贝叶斯网络主要内容贝叶斯方法概述贝叶斯网络概述TAN贝叶斯网络Markov毯网络贝叶斯方法概述贝叶斯方法是一种研究不确定性问题的决策方法通过贝叶斯概率描述不确定性引进效用函数(Utility Function)选择使期望效用最大的最优决策贝叶斯概率一种主观概率:对事物发生概率的主观估计主观概率取决于先验知识的正确性和后验知识的丰富性贝叶斯方法概述贝叶斯概率首先,用先于数据的概率描述最初的不确定性然后,将其和试验数据相结合,产生一个后于数据的修订了的概率不确定性必须用概率来描述,不确定性的表述必须与概率论的运算规则相结合贝叶斯公式事件A与事件B独立事件A与事件B不独立贝叶斯方法概述贝叶

2、斯公式P(A)称为先验概率;P(B|A)为条件概率,通常为似然函数;P(A|B)为后验概率后验概率可看做一种简化的效用函数最大后验概率假设是贝叶斯决策的依据朴素贝叶斯分类方法朴素贝叶斯分类法目标:分类前提:输入变量条件独立数据说明:设有n个输入变量,记为X1 , X2 , , Xn输入变量集合变量Xi有ri个可能取值输出变量Y,有k个可能取值朴素贝叶斯分类方法基本思路因为:输入变量条件独立:后验概率:最后,根据最大后验概率原则,输出变量应预测为k个后验概率中最大概率值对应的类别朴素贝叶斯分类方法参数估计:极大似然估计核心计算给定输出变量条件下的输入变量联合概率由于最坏情况下可有n!种排列方式,

3、计算复杂度较高贝叶斯网络概述贝叶斯网络也称贝叶斯信念网络(20世纪80年代Lauritzen,Spiegelhalter)最初用于人工智能中专家系统的知识表示以因果关系图的形式,展现专家知识中各因素的内在因果关系这里贝叶斯网络的意义是因果关系的展示贝叶斯网络应用于数据挖掘领域概述:贝叶斯网络的组成贝叶斯网络的组成:网络结构S、参数集合S由节点和有向弧线组成,有向无环图S表示分类型随机变量 之间的独立和条件独立关系数值型随机变量,Clementine进行5分位分组每个节点分别与分类型变量Xi一一对应每条弧线代表变量之间存在依赖关系。如果节点之间没有弧线连接,表示它们条件独立节点Xi 的父节点记为

4、 Pai,父节点的取值集合概述:贝叶斯网络的组成参数集合:给定父节点下的条件概率集合。Xi的参数集合为性别和年龄段间没有弧线,表示两变量在给定父节点下条件独立概述:贝叶斯网络的分类分类预测的依据:贝叶斯网络结构S和参数集合核心:计算联合概率如果在给定Y条件下,变量X1和X2是条件独立的,对X1、X2、Y的任何取值都有与除父节点外的其他变量条件独立只需依据网络结构和局部概率集合,可直接计算联合概率,进而实现分类预测概述:贝叶斯网络的分类例:朴素贝叶斯网络预测性别(X1)为1,年龄段(X2)为A:朴素贝叶斯不涉及网络结构S的学习,只需估计节点参数集合TAN贝叶斯网络TAN(Tree Augemen

5、ted Naive Bayes)贝叶斯网络是朴素贝叶斯网络的一种拓展(Friedman等,1996)网络放宽了朴素贝叶斯网络中输入变量条件独立的假设所有输入节点与输出变量间节点都有弧线连接输入变量之间存在弧线每个输入变量节点最多允许两个父节点Xi到Xj之间有向弧线的含义TAN贝叶斯网络结构的学习目的:哪些输入变量之间可存在有向弧线最大权重跨度树(Maximal Weighted Spanning Tree) 1968,Chow和Liu算法的改进步骤:第一,计算输入变量对Xi和Xj的条件互信息条件互信息的值越小,变量Xi和变量Xj的相关性越弱,值越大,表示相关性越强TAN贝叶斯网络结构的学习第二

6、,依次找到与变量Xi具有最大条件互信息的变量Xj,并以无向弧线连接节点Xi和Xj,得到最大权重跨度树第三,将无向弧线转为有向弧线。即任选一个输入变量节点作为根节点,所有弧线方向朝外第四,输出变量节点作为父节点与所有输入变量节点相连TAN贝叶斯网络结构的学习选择哪个输入节点作为根节点是无关紧要的。尽管最终的网络结构有所差异,但表示的联合概率分布是一致的TAN贝叶斯网络参数的估计采用贝叶斯方法参数的先验概率、似然函数、参数的后验概率先验概率是基于先验概率分布的后验概率是基于数据对先验概率的修正。由先验分布函数决定的后验分布应与先验分布同属一分布族如果网络中节点变量均为二分类,节点参数集合中的每个参

7、数为“成功”的概率,服从二项分布参数的先验概率分布应选用二项分布的共轭分布TAN贝叶斯网络参数的估计指数分布族包括二项分布、多项分布、正态分布、Poisson分布、Beta分布、Dirichlet分布,为共轭分布参数的先验分布可选用Beta标准Beta描述在01区间上取值的概率密度(关于概率的概率分布)为Gamma函数和称为超参数01之间超参数不同取值下的概率密度TAN贝叶斯参数的估计先验分布为Beta分布,似然函数为二项分布的似然函数,参数的后验分布也服从Beta分布n为“成功”次数,N为“实验”次数参数的期望:TAN贝叶斯网络参数的估计若节点变量为具有ri个类别的多分类变量,参数的先验分布

8、可选用Dirichlet分布后验分布参数k的最终估计值为后验分布的期望TAN贝叶斯网络参数的估计超参数:很小的正数节点Xi取类别k时,超参数为:为本节点的类别数与父节点所有类别的组合个数TAN贝叶斯网络参数的估计贝叶斯方法将未知参数看成随机变量,传统统计方法是将参数看成常量贝叶斯方法将参数取值的不确定性用P()表示首先根据以往对参数的知识,确定参数的先验概率然后利用样本数据对先验概率进行修正参数的最终估计值是参数后验分布的期望Markov毯网络输入变量未必对输出变量的分类预测都有贡献Markov毯网络的特点输出变量不一定为根节点输入变量和输出变量具有完全相同的“地位”马尔科夫毯变量对于节点Xi

9、 ,其父节点、子节点以及子节点的父节点,都属于节点Xi的马尔科夫毯变量Markov毯网络马尔科夫毯变量例:朴素贝叶斯网络,输出变量的马尔科夫毯变量是所有输入变量输入、输出变量的马尔科夫毯变量应是与其有显著相关的变量分类预测将基于输出变量的马尔科夫毯变量的联合概率,而非全体输入变量Markov毯网络结构的学习确定网络结构S:寻找各变量的马尔科夫毯变量对于节点Xi,不在其马尔科夫毯变量范围内的变量,是与变量Xi条件独立的变量:独立性检验条件独立检验:卡方检验和条件卡方检验检验统计量服从个自由度的卡方分布Markov毯网络结构的学习条件独立检验:对数似然率检验和条件对数似然率检验Markov毯网络结

10、构的学习设I(Xi , Xj)为变量对Xi和Xj独立检验的概率P-值,I(Xi , Xj ,S)为给定变量S条件下,变量对Xi和Xj条件独立检验的概率P-值。结构学习步骤:第一,起始结构S是一个完全连接的无向网络第二,如果I(Xi , Xj)大于指定的显著性水平,则删除节点Xi和节点Xj间的连接弧线第三,对每个节点Xi,在其剩余弧线中,寻找是否存在I(Xi , Xj , S)大于显著性水平。如果存在,则删除节点Xi和节点Xj间的连接弧线第四,将无向弧线转换为有向弧线Markov毯网络结构的学习Markov毯网络的分类预测 为Y的父节点集合,计算输出变量及其马尔科夫毯变量的联合概率例:对性别=1,年龄=A,收入=1,学历=B的预测Y收入性别年龄C为常量,表示并非输入变量X集合中的所有变量都参与计算,其值不影响计算结果贝叶斯网路应用以Students.xls为例,目标:

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论