




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
贝叶斯学习小样本下的类机器学习1Sample:BigdataSample:smallmount深度学习是基于大数据通过多层网络实现机器自动识别有效的特征,显然数据越多其效果相对就会越好。在没有大数据情况下,深度学习的效果将会显著下降。对于人类来说,没有知识的积累,没有相应的专业知识,依然能够模仿学习,因为人类面对陌生环境依然能够通过学习做出适应变化。“小样本机器学习”作为机器学习的另一条途径,由相关领域内的专家人工提取出有用的特征,配合少量的数据进行机器学习。在此主要以Bayesian学习方法为核心。1、小样本机器学习2Bayesian频率学派VS贝叶斯学派2、Bayesian基础知识频率派把需要推断的参数Θ看做是固定的未知常数,是确定的一个值,同时样本X是随机的,所以频率派重点研究样本空间,大部分的概率计算都是针对样本X的分布;
贝叶斯派的观点则截然相反,他们认为参数Θ是随机变量,而样本X是固定的,由于样本是固定的,所以他们重点研究的是参数Θ的分布。例如:只看下面有什么牌来决策的就是频率学派除了看下面有什么牌,还考虑了这个牌是谁打出的,什么时候打出的,这个人打出所有牌友什么联系等一系列问题的就是贝叶斯学派;概率论Bayesianandprobability2.13可以根据观察到的每个训练样例能够增量地降低或升高某假设的估计概率。先验知识可以与观察数据一起决定假设的最终概率;贝叶斯方法可允许假设做出不确定性的预测;新的实例分类可由多个假设一起做出预测,用它们的概率来加权;0102030405在贝叶斯方法计算复杂度较高时,它们仍可作为一个最优的决策标准衡量其他方法;2、Bayesian基础知识2.2贝叶斯学习方法的特性42、Bayesian基础知识2.2贝叶斯学习应用领域52、Bayesian基础知识2.3贝叶斯学习方法的难度难度之一:获取先验知识需要概率的先验知识,当概率预先未知时,可以基于背景知识、预先准备好的数据以及基准分布的假定来估计这些概率;难度之二:计算复杂度一般情况下,确定贝叶斯最优假设的计算代价比较大(在某些特定情形下,这种计算代价可以大大降低)。62、Bayesian基础知识2.4理论知识—先验概率VS后验概率先验概率是指根据以往经验和分析得到的概率,它往往作为“由因求果”问题中的“因”出现。后验概率是指在得到“结果”的信息后重新修正的概率,是基于新的信息,修正原来的先验概率后所获得的更接近实际情况的概率估计。先验概率和后验概率是相对的。如果以后还有新的信息引入,更新了现在所谓的后验概率,得到了新的概率值,那么这个新的概率值被称为后验概率72、Bayesian基础知识2.4理论知识—贝叶斯法则用P(h)表示在没有训练数据前假设h拥有的先验概率,反映了h是正确假设的机会的背景知识,如果没有P(h),可以简单地先赋予相同的先验概率类似地,P(D)表示训练数据D的先验概率,P(D|h)表示假设h成立时D的概率机器学习中,关心的是P(h|D),即给定D时h的成立的概率,称为h的后验概率82、Bayesian基础知识2.4理论知识—贝叶斯的简单应用Google基于贝叶斯方法的拼写检查P(c)表示某个正确的词的出现“概率”,它可以用“频率”代替。P(w|c)表示在试图拼写c的情况下,出现拼写错误w的概率。By
Bayesian’Theoremthisisequivalentto:SinceP(w)isthesameforeverypossible
c,wecanignoreit,giving:9朴素贝叶斯分类器2.5朴素贝叶斯分类器朴素贝叶斯分类模型(NaïveBayes或SimpleBayesian)假定特征向量的各分量间相对于决策变量是相对独立的,各分量独立地作用于决策变量。朴素贝叶斯的思想基础:对于给出的待分类项,求解在此项出现的条件下各个类别出现的概率,哪个最大,就认为此待分类项属于哪个类别。2、Bayesian基础知识102.5.1朴素贝叶斯分类器数学定义2、Bayesian基础知识设为一个待分类项,而
为F的一个特征属性有类别集合朴素贝叶斯分类器是计算出概率最大的那个分类,即求下面算式的最大值:如果则由于各个特征属性是条件独立:112.5.1朴素贝叶斯分类器流程图2、Bayesian基础知识输出:特征属性和训练样本输入:特征属性和训练样本输出:分类器输入:分类器和待分类项输出:待分类项与类别的映射关系122.5.2朴素贝叶斯分类器应用——检测SNS社区中不真实账号2、Bayesian基础知识设C=0表示真实账号,C=1表示不真实账号特征属性:a1:日志数量/注册天数,a2:好友数量/注册天数,a3:是否使用真实头像。1确定特征属性及划分划分:a1:{a<=0.05,0.05<a<0.2,a>=0.2},a1:{a<=0.1,0.1<a<0.8,a>=0.8},a3:{a=0(不是),a=1(是)}使用运维人员曾经人工检测过的1万个账号作为训练样本2获取训练样本3计算训练样本中每个类别的频率用训练样本中真实账号和不真实账号数量分别除以一万,得到:P(C=0)=8900/10000=0.89;P(C=1)=110/10000=0.114计算每个类别条件下各个特征属性划分的频率5使用分类器进行鉴别P(C=0)P(x|C=0)=P(C=0)P(0.05<a1<0.2|C=0)P0.1<a2<0.8|C=0)P(a3=0|C=0)=0.89*0.5*0.7*0.2=0.0623P(C=1)P(x|C=1)=P(C=1)P(0.05<a1<0.2|C=1)P0.1<a2<0.8|C=1)P(a3=0|C=1)=0.89*0.5*0.7*0.2=0.0623上面训练得到的分类器鉴别一个账号,这个账号使用非真实头像,日志数量与注册天数的比率为0.1,好友数与注册天数的比率为0.2可以看到,虽然这个用户没有使用真实头像,但是通过分类器的鉴别,更倾向于将此账号归入真实账号类别。这个例子也展示了当特征属性充分多时,朴素贝叶斯分类对个别属性的抗干扰性。133、Bayesian
network3.1贝叶斯网络(Bayesian
network)简介父节点叶节点因果关系相互独立Bayesiannetwork又称信念网络有向无环图模型没有形成闭环143、Bayesian
network3.1贝叶斯网络(Bayesian
network)简介贝叶斯网络模型具有如下几个优势:01贝叶斯学习能够方便的处理不完全数据。例如考虑具有相关关系的多个输入变量的分类或回归问题,当变量中有某个缺值时,它们的预测结果就会出现很大的偏差。而贝叶斯则提供了较为直观的概率关联关系模型。02贝叶斯学习能够学习变量间的因果关系。因果关系是数据挖掘中极为重要的模式。在数据分析中,因果关系有利于对领域知识的理解;在干扰较多时,便于作出精确的预测。03贝叶斯网络与贝叶斯统计相结合能够充分利用领域知识和样本数据的信息。贝叶斯网络用弧表示变量间的依赖关系,用概率分布表来表示依赖关系的强弱,将先验信息与样本知识有机结合起来。15ChestClinic(Data)美国有30%的人吸烟每10万人中就就有70人患有肺癌每10万人中就就有10人患有肺结核每10万人中就就有800人患有支气管炎10%人存在呼吸困难症状,大部分人是哮喘、支气管炎和其他非肺结核、非肺癌性疾病引起3、Bayesian
network3.2贝叶斯网络应用实例—胸部疾病诊所(ChestClinic)构建模型根据所调研的数据可以建立如下BN模型:DiagnosemodelData、knowledgetomodelbasedBayesiannetworktheory163、Bayesian
network3.2贝叶斯网络应用实例—胸部疾病诊所(ChestClinic)更新模型上述的BN模型对胸部疾病诊所意义不大,因为它没有用到来胸部疾病诊所病人的案例数据,不能反映真实病人的情况。当诊所诊治了数千病人后,会发现调研中所描述的情况与实际诊所数据显示的情况是完全不同的,实际诊所数据显示:Tomodel50%的病人吸烟1%患有肺结核5.5%得了肺癌45%患有不同程度支气管炎导入新数据导入新数据导入新数据数据更新173、Bayesian
network3.2贝叶斯网络应用实例—胸部疾病诊所网络添加新证据针对一个具体的病人,经过医生的询问,发现病人呼吸困难,将呼吸困难概率==100%,这个信息输入到网络,更新网路数据;将新的证据加入到贝叶斯网络中,发现各个节点的概率发生相应的改变;“”支气管炎,从45%到83.4%;病人是抽烟者的几率也会随之增大,从50%到63.4%;近期访问过亚洲的几率也会增大:从1%到1.03%,显然是不重要的;X光照片不正常的几率也会上涨,从11%到16%;导入新数据数据更新数据更新数据更新数据更新183、Bayesian
network3.2贝叶斯网络应用实例—胸部疾病诊所(ChestClinic)继续添加证据按照流程依此问病人一些问题,如她最近是不是去过亚洲国家,如果答案是“是”。现在获得的信息就影响了BN模型,BN模型的参数会发生进一步的改变。将VisitToAsia==100%导入模型。导入新数据患肺结核的几率显然增大,从2%到9%.而患有癌症、支气管炎以及该患者是吸烟患者的几率都有所减少。为什么呢?因为此时呼吸困难的原因相对更倾向于肺结核。数据更新数据更新193、Bayesian
network3.2贝叶斯网络应用实例—胸部疾病诊所(ChestClinic)继续添加证据继续问患者一些问题,假设患者是个吸烟者,即Smoker==100%;
则网络变为;最大假设为了确认为病人做一个X光透视,结果显示其正常,即Normal
==100%。依然是最大假设通过证据的添加可以确认为Bronchitis20BayesiannetworkmodelParameterlearning&&structurelearning贝叶斯网络模型是由网络结构和条件概率分布表(CPT)组成的。贝叶斯网络的学习包括结构学习和参数学习两个内容。结构学习,即利用训练样本集,尽可能结合先验知识,确定最合适的贝叶斯网络模型结构。参数学习是在给定结构下,确定贝叶斯网络模型的参数,即每个结点上的CPT表。按照学习的目的以及训练样本集是否完整,可以把学习方法归为以下几类。3、Bayesian
network3.3贝叶斯网络的构建结构观测值方法已知完整最大似然估计法(MLE)已知部分EM算法、GreedyHill-climbingmethod未知完整搜索整个空间未知部分结构算法、EM算法、Boundconstruction213、Bayesian
network3.3.1结构学习Bayesiannetwork结构学习就是在给定一个数据样本集合D的前提下,尽可能结合先验知识,寻找一个与训练样本集D匹配最好的网络结构,对于含有n个变量的数据集进行网络结构学习,可能的结构数目为:
(★)因此贝叶斯网络结构学习是一个NP难问题。目前贝叶斯网络结构学习的方法主要分成两类:基于评分搜索的方法(scoreandsearchmethod)基于条件独立测试的方法(Conditional
Independence
Testing
based
Method)基于随机抽样的学习方法223、Bayesian
network3.3.1结构学习——基于评分搜索的方法ScoreandSearchMethod基于评分搜索的方法将BN结构学习视为组合优化问题,首先通过定义评分函数对BN结构空间中的不同元素与样本数据的拟合程度进行度量,然后利用搜索算法确定评分最高的网络结构,即与数据拟合最好的网络结构。BN结构学习可定义为优化模型:G为候选网络结构搜索空间,它定义了样本数据集D中所有变量(节点)之间可能连接关系的网络结构集合;Ω为网络变量之间需要满足的约束条件集合,最基本的约束是所有节点间的连接构成一个有向无环图;F为评分函数,表示从搜索空间G到实数集R的一个映射,函数的极值点即为网络的最优结构。OPTIMIZATION
MODEL233、Bayesian
network3.3.1结构学习——评分函数AIC(AkaikeInformationCriterion)评分K2评分(又称CH评分)BD(BayesianDirichlet)评分MDL(MinimumDescriptionLength)评分BIC(BayesianInformationCriterion)评分243、Bayesian
network3.3.1结构学习——基于贝叶斯统计的评分函数主要思想是在给定先验知识和样本数据条件下,选择后验概率值最大的网络结构,即假设数据集D的样本变量是完整独立同分布数据,G是样本变量集的BN结构是结构G的先验分布,一般假设均匀分布是参数的ΘG先验分布在给定结构G时,服从均匀分布,那么可以得到如下的K2评分当服从Ditichlet分布,那么可以得到相应的BD评分当253、Bayesian
networkBayesiannetworkK2ScoreFunction263、Bayesian
network3.3.1结构学习——基于信息理论的评分函数基于信息理论的评分函数主要是利用编码理论和信息论中的最小描述长度(MDL)原理来实现的,基本思想源自对数据的存储。按照MDL原理,BN结构学习就是要找到使得网络的描述长度和样本的编码长度之和最小的图模型,这意味着MDL评分准则趋向于寻找一个结构较简单的网络MDL评分函数其不依赖于先验概率网络结构复杂度的惩罚函数压缩后的数据长度当数据D服从多项分布时,MDL评分函数等于BIC评分函数,进一步简化,得到AIC评分函数273、Bayesian
network3.3.1结构学习——搜索策略Search在定义了评分函数的情况下,贝叶斯网络的学习问题就变成了一个搜索问题,搜索策略是为了搜索某个评分函数下分值最高的网络结构。当节点的个数大于1时,寻找最优的模型是NP问题,常采用启发式搜索。基于评分搜索的BN结构学习算法算法……………283、Bayesian
network3.3.1结构学习——基于条件独立测试的方法在BN结构中,给定任意两个变量X和Y,如果两个变量之间存在有向连接,则称X和Y具有依赖性或关联性;如果不存在连接,它们具有独立性。用于独立性检验的常用方法有:检验(1)(2)基于互信息的检验基于互信息的检验的具体方法:之间的互信息
互信息越小,变量Xi和Xj之间独立的可能性就越大。之间的互信息
互信息越小,变量Xi和Xj之间独立的可能性就越大。在基于互信息的独立性检验方法中,当或者小于给定阈值时,则Xi和Xj
是独立或条件独立的,对应的网络结构中节点Xi和Xj就不存在边,否则是依赖的,存在边。293、Bayesian
network3.3.1结构学习——基于随机抽样的学习方法基于评分搜索的学习方法过程简单、规范,但存在搜索空间巨大、可能收敛于局部最优解等问题;基于依赖分析的学习方法学习效率较高,而且能够获得全局最优解,但存在节点之间的独立性或条件独立性判断困难和高阶的条件独立性检验的结果不够可靠等问题;将随机抽样的思想引入评分搜索学习方法的搜索过程是解决评分搜索算法收敛于局部最优的有效途径之一。303、Bayesian
network3.3.1结构学习——MCMC(MarkovChainMonteCarlo)随机抽样马尔科夫链:前一个状态只与当前状态有关,而与其他状态无关,MarkovChain体现的是状态空间的转换关系,下一个状态只决定与当前的状态。Example人按其经济状况分成3类:下层(lower-class)、中层(middle-class)、上层(upper-class),用1,2,3分别代表这三个阶层。发现决定一个人的收入阶层的最重要的因素就是其父母的收入阶层。如果一个人的收入属于下层类别,那么他的孩子属于下层收入的概率是0.65,属于中层收入的概率是0.28,属于上层收入的概率是0.07。事实上,从父代到子代,收入阶层的变化的转移概率如下使用矩阵的表示方式,转移概率矩阵记为31Example从第7代人开始,这个分布就稳定不变了,事实上,在这个问题中,从任意初始概率分布开始都会收敛到这个上面这个稳定的结果。3.3.1结构学习——MCMC(MarkovChainMonteCarlo)随机抽样马尔科夫链:前一个状态只与当前状态有关,而与其他状态无关,MarkovChain体现的是状态空间的转换关系,下一个状态只决定与当前的状态。3、Bayesian
network32Example3.3.1结构学习——MCMC(MarkovChainMonteCarlo)随机抽样马尔科夫链:前一个状态只与当前状态有关,而与其他状态无关,MarkovChain体现的是状态空间的转换关系,下一个状态只决定与当前的状态。3、Bayesian
networkBayesiannetwork马氏链定理33Example3.3.1结构学习——MCMC(MarkovChainMonteCarlo)随机抽样马尔科夫链:前一个状态只与当前状态有关,而与其他状态无关,MarkovChain体现的是状态空间的转换关系,下一个状态只决定与当前的状态。3、Bayesian
networkBayesiannetwork细致平稳条件定理34Example3.3.1结构学习——MCMC(MarkovChainMonteCarlo)随机抽样马尔科夫链:前一个状态只与当前状态有关,而与其他状态无关,MarkovChain体现的是状态空间的转换关系,下一个状态只决定与当前的状态。3、Bayesian
network把原来具有转移矩阵Q的普通的马氏链改造为满足细致平稳条件Q’的马氏链,由此马氏链Q’的平稳分布就是p(x)35Example3.3.1结构学习——MCMC(MarkovChainMonteCarlo)随机抽样马尔科夫链:前一个状态只与当前状态有关,而与其他状态无关,MarkovChain体现的是状态空间的转换关系,下一个状态只决定与当前的状态。3、Bayesian
network36Example3.3.1结构学习——MCMC(MarkovChainMonteCarlo)随机抽样马尔科夫链:前一个状态只与当前状态有关,而与其他状态无关,MarkovChain体现的是状态空间的转换关系,下一个状态只决定与当前的状态。3、Bayesian
networkBayesiannetworkMCMC采样法37Example3.3.1结构学习——MCMC(MarkovChainMonteCarlo)随机抽样马尔科夫链:前一个状态只与当前状态有关,而与其他状态无关,MarkovChain体现的是状态空间的转换关系,下一个状态只决定与当前的状态。3、Bayesian
networkBayesiannetworkMHS采样法由于α(i,j)太小的话,马氏链容易原地踏步,拒绝大量的跳转,这使得马氏链遍历所有的状态空间花费时间长,收敛到平稳分布P(x)速度太慢,对MCMCsamplingmethod改造得到Metropolis-hastings抽样方法383、Bayesian
network3.3.2参数学习贝叶斯网络参数学习的目标是:给定网络拓扑结构G和训练样本集D,利用先验知识,确定贝叶斯网络模型各节点处的条件概率密度,记为:p(ө/D,G)。一般,先验分布服从一定的概率分布族,如β分布、多项分布、正态分布、泊松分布;然后利用一定的策略估计这些分布的参数常见的学习方法有:最大似然估计(MLE)方法、贝叶斯估计(BE)方法和不完备数据下参数学习等.前两种方法均需要数据样本集满足独立同分布假设。即给定关于n个变量的数据集D包含m个样本则D中各样本满足下面两个条件:393、Bayesian
network3.3.2参数学习——最大似然估计方法最大似然估计方法是依据参数与数据集与的似然程度来选择参数。似然函数的一般形式为:最大似然估计选择使似然函数值最大的参数Θ*,即根据数据集的独立同分布假设和贝叶斯网络的结构特征,可得:403、Bayesian
network3.3.2参数学习——贝叶斯估计方法贝叶斯方法按如下步骤来学习未知网络参数向量:贝叶斯方法对未知参数的估计综合了它的先验信息和样本信息,如果没有任何先验知识用于确定先验分布P(θ),可以选择均匀分布作为参数θ的先验分布P(θ),但这一选择在未知参数无界的情况下存在困难。可选取共轭分布为参数θ的先验分布P(θ),即满足:参数θ后验分布和先验分布属于同一类型的分布。常用的共轭分布有:二项分布、多项分布、正态分布、Gamma分布、Poisson分布和Dirichlet分布,其中Dirichlet分布最为常用。413、Bayesian
network3.3.2参数学习——贝叶斯估计方法贝叶斯方法按如下步骤来学习未知网络参数向量:可选取共轭分布为参数θ的先验分布P(θ),即满足:参数θ后验分布和先验分布属于同一类型的分布。常用的共轭分布有:二项分布、多项分布、正态分布、Gamma分布、Poisson分布和Dirichlet分布,其中Dirichlet分布最为常用。423、Bayesian
network3.3.2参数学习——贝叶斯估计方法贝叶斯方法按如下步骤来学习未知网络参数向量:433、Bayesian
network3.3.2参数学习——EM(ExpectationMaximization)方法当部分数据缺失或者无法观察到时,可采用EM方法。其核心思想是:假设要估计知道A和B两个参数,在开始状态下二者都是未知的,首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。似然函数L(θ)>=J(z,Q),那么可以通过不断的最大化下界J,来使得L(θ)不断提高,最终达到它的最大值。由Jensen不等式可知=443、Bayesian
network3.3.2参数学习——EM(ExpectationMaximization)方法当部分数据缺失或者无法观察到时,可采用EM方法。其核心思想是:假设要估计知道A和B两个参数,在开始状态下二者都是未知的,首先赋予A某种初值,以此得到B的估计值,然后从B的当前值出发,重新估计A的取值,这个过程一直持续到收敛为止。当Jensen不等式变成等式时,说明调整后的概率能够等价于根据Jensen不等式,要想让等式成立,需要让随机变量变成常数值,这里得到:由于至此,在固定参数Θ后,的计算公式就是后验概率,解决了如何选择的问题这一步就是E步,建立的下界,接下来的M步,就是在给定后,调整Θ,去极大化的下界453、Bayesian
network3.3.2参数学习——EM(Expecta
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
评论
0/150
提交评论