




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
时间:2020-9-8知识发现单元——深度学习第11章深度学习学习模型评估学习方式数据准备机器学习模型机器学习过程11.111.211.311.411.511.6机器学习面临的挑战11.7机器学习的概念界定及意义1机器学习过程2机器学习与人类学习对比311.1机器学习过程由于许多实际问题,没有算法,或者计算代价很高。解决此问题的一种策略就是让计算机从示例中学习从输入数据到输出的函数对应关系。机器学习是人工智能的核心,是使计算机具有智能的根本途径。机器学习的概念界定及意义1机器学习是研究如何使用机器来模拟人类学习活动的一门学科,目的是获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。背景概念意义机器学习过程2f(x)称为学习模型,泛化能力是指机器学习算法对新鲜样本的适应能力。通常期望学习模型具有较强的泛化能力。机器学习与人类学习对比3函数拟合问题1机器学习模型211.2机器学习过程拟合函数1线性拟合多项式拟合线性拟合非线性拟合完全拟合完全拟合未完全拟合完全拟合简单中简单复杂学习模型2假设空间可能的假设函数集合。机器学习过程就是构造逼近实际输出y的假设函数h的过程。数据集划分11.3.1数据标注11.3.211.3数据准备训练数据(Traindata)集是用于建模的,数据集每个样本是有标签的(正确答案)。测试数据(Testdata)集是一个在建模阶段没有使用过的数据集数据集划分2验证数据(Validationdata)集评估模型的各项指标,如果评估结果不理想,将改变一些用于构建学习模型的参数,最终得到一个满意的训练模型。。训练集验证集测试集平时练习周考/月考高考一般来说采用70/15/15比例来划分,但这不是必须的,要根据具体任务确定划分比例。数据标注是通过数据加工人员(可以借助标记工具)对样本数据进行加工的一种行为。标注画框、类别标注、图像打点、目标物体轮廓线等。数据标注1数据标注的类型包括:图像标注、语音标注、文本标注、视频标注等。概念分类形式有监督学习11.4.1无监督学习11.4.211.4学习方式概率图模型11.4.3集成学习11.4.411.4.1有监督学习定义:通过训练集学习得到一个模型,然后用这个模型进行预测。有监督学习分为两类任务:回归、分类。线性回归1决策树211.4.1有监督学习支持向量机3模型:Y=β0+β1X1+回归系数:β=(β0,β1)‘建模误差:两个变量间有关系吗?关系有多强?哪一个变量的影响最大?预测的各个变量影响值能有多精确?预测的目标值能有多精确?其关系是线性的吗?线性回归1原理几何意义回答问题线性回归1房价预测Python实现importpandasaspdfromsklearn.linear_modelimportLinearRegressiondata=pd.read_csv(“home.csv”)//读数据X=data.loc[[1:10],[‘总面积(平方米)’]]//获取自变量Y=data.loc[[1:10],[‘总价(万元)’]]//获取因变量regr=LinearRegression()//建模regr.fit(X,Y)predict_outcome=regr.predict([700])//获取实际预测值决策树模拟人类进行级联选择或决策的过程,按照属性的某个优先级依次对数据的全部属性进行判别,从而得到输入数据所对应的预测输出。决策树2基本思想基本概念案例决策树包含:一个根结点、若干内部结点和叶结点。其中叶结点表示决策的结果;内部结点表示对样本某一属性判别。
(1)根据某种分类规则得到最优的划分特征,计算最优特征子函数,并创建特征的划分节点,按照划分节点将数据集划分为若干部分子数据集;(2)在子数据集上重复使用判别规则,构建出新的节点,作为树的新分支;(3)重复,直到满足递归终止条件。决策树2构造过程特征选择特征选择
(2)信息增益比(C4.5)(3)基尼指数(CATR)
支持向量机3
SVM是一类按有监督学习方式对数据进行二元分类的广义线性分类器,其决策边界是对学习样本求解的最优分类面。概念理论依据几何意义传统的机器学习强调经验风险最小化。而单纯的经验风险最小化会产生“过拟合问题”,其泛化力较差。根据统计学习理论,学习机器的实际风险由经验风险值和置信范围值两部分组成。11.4.2无监督学习
无监督学习是在没有老师,学生自学的过程。无监督学习不局限于解决像有监督学习那样有明确答案的问题,因此,它的学习目标并不十分明确。常见的几类无监督学习任务是:聚类、关联分析和降维。聚类1关联分析211.4.2无监督学习降维3聚类1聚类模型是将物理或抽象对象的集合分组为由类似的对象组成的多个类的分析过程。聚类给了我们把两个观测数据根据它们之间的距离计算相似度来分组的方法(没有标注数据)。概念层次聚类迭代1次均值聚类迭代3次迭代10次层次聚类通过计算不同类别数据点间的相似度来创建一棵有层次的嵌套聚类树。在聚类树中,不同类别的原始数据点是树的最低层,树的顶层是一个聚类的根节点。聚类1
谱聚类聚类1(7)切图:
切图要求:类内权重和最大,类间权重和最小。(8)谱聚类:切图聚类。谱聚类除此之外,还有网格的聚类(图a),基于密度的聚类(图b),基于模型的聚类(图c)。聚类1关联分析2
想知道哪些商品顾客可能会在一次购物时同时购买?可以通过对商店的顾客事物零售数量进行购物篮分析,发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。帮助商家了解哪些商品频繁的被顾客同时购买,制定更好的营销策略。购物篮关联分析2
术语Apriori算法
关联分析2接下来用一个例子用apriori算法来走一遍关联规则的流程(本例子预定义的=2),下图是事物数据,9个顾客分别买了不同的商品列表(我们假定I1表示泡面,I2表示矿泉水,I3表示牛栏山,I4表示雪碧,I5表示火腿)。案例首先我们要做的是第一次迭代,扫描所有的事物,对每个项进行计数得到候选项集,得到如下图所示的结果,记为C1。关联分析2此时,我们要对支持度计数和支持度的阈值进行比较,剔除小于支持度阈值的项集,显而易见,在本例中C1的项集都达到了阈值。我们便可以得出频繁1项集记作L1案例接下来我们要进行第二次迭代,目的是得出频繁2项集,所以要使用连接来产生候选项集2项集。L1►◄
L1
得出关联分析2连接这一步,我们把它叫做连接步,连接得到C2后,接下来做的是剪枝步,就是剪掉项集中包含不频繁项的项集,在本例中1项集全部都是频繁项集,例如{I1,I2}中没有不频繁项集,此项集不剪,{I1,I3}中没有不频繁项集,同理不剪,以此类推。所以C2中所有的项集都不需要剪掉。到此连接步、剪枝步全部完成。(这里值得注意的是剪枝是必须的一步,不能省略)最后再计一下数得出最终的C2。如下图所示。案例将支持度计数小于阈值2的全部剔除,得出频繁2项集L2,如上图所示。关联分析2现在开始进行第三次迭代,L2
L2
得出候选项集C3,如下图所示。案例在这一步同样是经过了连接步和剪枝步。L2自连接得到然而除了{i1,i2,i3},{i1,i2,i5}之外。{i1,i3,i5},{i2,i3,i4},{i2,i3,i5},{i2,i4,i5}中都含有不频繁项集,第一个{I3,I5}不是L2的元素所以要剪枝,后面以此类推,最终得到上图的C3。(再重视一下,这个剪枝不能省略)。最后记一下数,得出最终的候选项集C3。
关联分析2现在继续第四次迭代,L3
自连接得到
{I1,I2,I3,I5},接下来剪枝,因为这个项集中{I2,I3,I5}不属于L3,所以剪掉,C4为空了,所以算法到此结束,现在得出了所有的频繁项集。到此为止,我们做完了第一步:找出所有的频繁项集。接下来要做的便是输出强关联规则。现在我们拿X={I1,I2,I5}为例,输出关联规则。X的非空子集为{I1,I2}、{I1,I5}、{I2,I5}、{I1}、{I2}、{I5}。所以组合一下关联规则如下:案例置信度我们根据上文提到的公式来算,拿第一个{I1,I2}=>I5为例。confidence=P(I5
|
{I1,I2})
=
support_count({I2,I1,I5})/
support_count({I1,I2})降维3
降维的意思是能够用d维向量来代表D维向量所包含的有用信息,其中d<D。为什么可以降维,这是因为数据有冗余,要么是一些没有用的信息,要么是一些重复表达的信息,例如一张512*512的图只有中心100*100的区域内有非0值,剩下的区域就是没有用的信息,又或者一张图是成中心对称的,那么对称的部分信息就重复了。正确降维后的数据一般保留了原始数据的大部分的重要信息,它完全可以替代输入去做一些其他的工作,从而很大程度上可以减少计算量。例如降到二维或者三维来可视化。
一般来说可以从两个角度来考虑做数据降维,一种是直接提取特征子集做特征抽取,例如从512*512图中只取中心部分,一种是通过线性/非线性的方式将原来高维空间变换到一个新的空间,对于后面一种,主要方法是PCA。
案例降维3PCAPCA(PrincipalComponentAnalysis,主成分分析)是一种基于从高维空间映射到低维空间的投影方法,主要目的就是学习或者算出一个矩阵变换W,其中W的大小是Dd,其中d<D,用这个矩阵与高维数据相乘得到低维数据。新子空间的正交轴(主成分)可以被解释为原始空间的最大方差方向(如图)。隐马尔可夫模型1贝叶斯网络211.4.3概率图模型条件随机场3EM算法4隐马尔可夫模型1随机过程从一个状态转移到另一个状态有多条路的过程称为随机过程。马尔科夫过程一个系统有N个状态S1,S2,……,Sn,随着时间推移,系统从某一状态转移到另一状态,设qt为时间t的状态,系统在时间t处于状态Sj的概率取决于其在时间1,2,……,t-1的状态,该概率为:如果系统在t时间的状态只与其在时间t-1的状态相关,则该系统构成一个离散的一阶马尔可夫链(马尔可夫过程):隐马尔可夫模型1马尔科夫模型如果其中状态转移概率aij必须满足aij>=0,且则该随机过程称为马尔可夫模型。状态转移矩阵状态转移概率构成的矩阵。【例11-1】假定一段时间的气象可由一个三状态的马尔可夫模型M描述,S1:雨,S2:多云,S3:晴,状态转移概率矩阵为:如果第一天为晴天,根据这一模型,在今后七天中天气为O=“晴晴雨雨晴云晴”的概率为:隐马尔可夫模型1HMM在MM中,每一个状态代表一个可观察的事件。在HMM中观察到的事件是状态的随机函数,因此该模型是一双重随机过程,其中状态转移过程是不可观察(隐蔽)的(马尔可夫链),而可观察的事件的随机过程是隐蔽的状态转换过程的随机函数(一般随机过程)。对于一个随机事件,有一观察值序列:O=o1,o2,…oT该事件隐含着一个状态序列:Q=q1,q2,…qT。假设1:马尔可夫性假设(状态构成一阶马尔可夫链)
P(qi|qi-1…q1)=P(qi|qi-1)假设2:不动性假设(状态与具体时间无关)P(qi+1|qi)=P(qj+1|qj),对任意i,j成立假设3:输出独立性假设(输出仅与当前状态有关)
p(O1,...,OT|q1,...,qT)=Πp(Ot|qt)一个HMM是由一个五元组描述的:λ
=(N,M,A,B,π)其中:N={q1,...qN}:状态的有限集合;M={v1,...,vM}:观察值的有限集合;A={aij},aij=P(qt=Sj|qt-1=Si):状态转移概率矩阵;B={bjk},bjk=P(Ot=vk|qt=Sj):观察值概率分布矩阵;π={πi},πi=P(q1=Si):初始状态概率分布隐马尔可夫模型1HMM隐马尔可夫模型(HMM)的三个基本问题:①评估问题:对于给定模型,求某个观察值序列的概率P(O|λ);②解码问题:对于给定模型和观察值序列,求可能性最大的状态序列maxQ{P(Q|O,λ)};③学习问题:对于给定的一个观察值序列O,调整参数λ,使得观察值出现的概率P(O|λ)最大。
贝叶斯网络2条件概率密度链式法则使用贝叶斯网络链式法则,可以将左图的整体概率表示为:贝叶斯网络2贝叶斯网络因果推理因果推理从顶向下,以父节点或者祖先节点为条件比如说P(d0,i1,g3,s1,l1)的概率就等于0.6*0.3*0.02*0.8*0.01。贝叶斯网络定义为:①一个有向无环图表示随机变量x1…xn。②每个节点都有一个CPD,是一个父节点的条件概率分布。③贝叶斯网络可以表示为一个联合概率分布。条件随机场3概念应用在图中,每个点代表一个标签的可能性,点之间的连线表示标签之间的关联,而每一种标注结果,都对应着图上的一条完整的路径。在CRF的序列标注问题中,要计算的是条件概率:设G=(V,E)是一个无向图,Y={Yv|vV}是以G中节点v为索引的随机变量Y,构成的集合。在给定X的条件下,如果每个随机变量Yv服从马尔可夫属性,即则(X,Y)就构成一个条件随机场。
EM算法4基本思想问题描述
EM算法,即最大期望算法(ExpectationMaximizationAlgorithm),是一种迭代算法,用于含有隐变量的概率参数模型的最大似然估计或极大后验概率估计。EM算法应用于高斯混合模型(GMM)、聚类、隐式马尔科夫算法(HMM)、基于概率的PLSA模型等等。EM算法4问题求解问题描述假如实验中根本不知道抛的时候究竟是哪一种硬币,或者就不告诉你的话,我们就没办法直接计算两种硬币正面朝上的概率了,这种情况叫不完全信息。与图11-25的数据是和完全信息的情况一样的,区别在于左边的标签是问号,不知道是什么硬币(见图11-26)。这个时候就用到了EM算法。如果信息完全(每次投哪个币,投几次,结果如何),求解过程如图。EM步骤:样本数据x={x1,x2,...,xm},联合分布p(x,z;θ),条件分布p(z|x;θ),最大迭代次数J。1、随机初始化模型参数θ的初始值θ0
2、开始EM算法的迭代处理:E步:计算联合分布的条件概率M步:极大化L函数,得到θj+1如果θj+1已经收敛,则算法结束,输出最终的模型参数θ,否则继续迭代处理。EM算法4基本思想1集成学习使用场景211.4.4集成学习半监督学习3Bagging4Boosting5随机森林6集成学习1基本思想应用场景(1)用于分类的特征可能属于不同类型,例如统计特征和结构特征,将它们直接组合起来构成单个分类器是很困难的。因此,将它们各自通过分类器分类,再进行组合是一个很好的解决办法。(2)如果特征的维数太大,只用一个分类器进行识别会比较复杂。此时,将高维的特征向量分解成几个低维向量,分别作为一个分类器的输入,再进行组合也是一个好方法,这是因为多分类器组合对单个分类器的性能要求相对较低。(3)不同分类器之间存在差异性。每一种分类方法都有其自身的优势和局限性,其精度和适用范围也有一定限度。通过这种差异性可以利用多个分类器进行互补,提高分类性能。集成学习(多个学习器融合)能够在一定程度上弥补单个学习器泛化能力低的缺陷。下图给出由三个线性分类器集成实现二分类的示例。1半监督学习Bagging半监督学习是有监督学习和无监督学习相结合的一种学习方式。主要是用来解决使用少量带标签的数据和大量没有标签的数据进行训练和分类的问题。集成学习1Bosting随机森林集成学习过拟合和欠拟合11.5.1交叉验证11.5.211.5学习模型评估混淆矩阵11.5.3过拟合和欠拟合1过拟合欠拟合对于训练好的模型,若在训练集表现差,在测试集表现同样会很差,这可能是欠拟合导致。欠拟合是指模型拟合程度不高,数据距离拟合曲线较远,或指模型没有很好地捕捉到数据特征,不能够很好地拟合数据。若在训练集表现非常好,但在测试集上表现很差,这可能是过拟合导致。过拟合是指为了使学习模型得到一致假设而使假设变得过度复杂。避免过拟合是学习模型设计中的一个核心任务。通常采用增大数据量和测试样本集的方法对分类器性能进行评价。过拟合和欠拟合1欠拟合
恰当拟合
过拟合2交叉验证交叉验证的概念很简单。以10倍交叉验证为例,给定一个数据集,随机分割10份,使用其中的9份来建模,用最后的那1份度量模型的性能,重复选择不同的9份构成训练集,余下的那1份用作测试,需要重复10次,10次测试的平均作为最后的模型性能度量交叉验证3TP(真阳性)表示阳性样本经过正确分类之后被判为阳性。TN(真阴性)表示阴性样本经过正确分类之后被判为阴性。FP(假阳性)表示阴性样本经过错误分类之后被判为阳性。FN(假阴性)表示阳性样本经过错误分类之后被判为阴性。混淆矩阵从神经网络谈起15.6.1深度学习基本原理15.6.211.6深度学习卷积神经网络CNN15.6.3神经网络概述1神经元211.6.1从神经网络谈起人工神经网络3神经网络概述1
深度学习是神经网络的发展。虽然真正意义上的人工神经网络诞生于1980年代,但遗憾的是神经网络在过去很长一段时间内并没有得到大规模的成功应用,直到2006年,情况才慢慢改观。
人工神经网络(ArtificialNeuralNetworks,简写为ANN),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。神经元2逻辑结构物理结构人工神经网络3多个神经元,按如下规则组成神经网络:(1)计算自下而上,所以称为前馈;(2)同层没有连接;(3)每一层可以看作一个空间,层的神经元个数为空间维数;(4)输出层是输入层的复合函数;所谓深度网络就是具有很多个隐藏层的神经网络,或深度网络。用ANN方法解决多层网络带来的问题(1)要训练的参数太多;对硬件要求高、数据要多、算法要优;(2)非凸优化问题;陷入局部极值,对参数初始值敏感;(3)梯度弥散问题;对低层的参数调整越来越困难,甚至不收敛。因此,深度网络研究曾一度处于停滞状态。人工神经网络3动机1局部感知211.6.2深度学习基本原理权值共享3深度学习与传统学习对比4动机1受大脑层次认知结构启发局部感知2原理每个神经元只与上一层的部分神经元相连,只感知局部,而不是整幅图像。(滑窗实现)原理:局部像素关系紧密,较远像素相关性弱。通过在更高层将局部的信息综合起来就得到了全局的信息。权值共享3原理从一个局部区域学习到的信息,应用到图像的其它地方去。原理:图像的局部特征在整幅图像上具有重复性(即位置无关性)。深度学习与传统学习对比4人类对目标的识别过程1读取图片211.6.3卷积
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度科技研发公司部分股份无偿转让合同
- 二零二五年度个人旅游度假村代理合作协议
- 二零二五年度农产品电商平台佣金分成合同
- 二零二五年度交通事故损害赔偿及后续赔偿监督谅解协议
- 2025年度水稻种植回收与农业科技成果转化合作协议
- 2025计算机技术与软件专业必考试题集及答案
- 二零二五年度实验室装修与实验室设备采购合同
- 二零二五年度房屋漏水损害赔偿和解协议
- 二零二五年度劳动合同集合与员工奖惩制度合同
- 二零二五年度正规欠款合同范本:中小企业信用担保合同
- 陕西省汉中市汉台区部分学校 2024-2025学年七年级下学期第一次月考道德与法治试题(原卷版+解析版)
- GB/T 15683-2025粮油检验大米直链淀粉含量的测定
- 3.2依法行使权利 课件-2024-2025学年统编版道德与法治八年级下册
- 2024-2025学年北京市东城区五下数学期末检测试题含答案
- 2025年河南女子职业学院单招职业技能测试题库参考答案
- 农网配电营业工(台区经理)技师考试题库
- 2025年山西晋城市城区城市建设投资经营有限公司招聘笔试参考题库附带答案详解
- GB/T 44980-2024冻虾滑
- 人工智能赋能学校教育的创新与突破
- 纪检业务知识培训课件
- 护理教学计划及设想汇报课件
评论
0/150
提交评论