人工智能 课件 第五章 机器学习_第1页
人工智能 课件 第五章 机器学习_第2页
人工智能 课件 第五章 机器学习_第3页
人工智能 课件 第五章 机器学习_第4页
人工智能 课件 第五章 机器学习_第5页
已阅读5页,还剩74页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

人工智能第5章机器学习本章提纲5.1机器学习基础5.2神经网络5.3深度神经网络5.5机器学习在电力工程中的应用5.4学习技巧本章提纲5.1机器学习基础5.2神经网络5.3深度神经网络5.5机器学习在电力工程中的应用5.4学习技巧5.1.1机器学习的基本概念什么是学习系统改进其性能的过程获取知识的过程技能的获取事物规律的发现过程综合来看,学习是一个有特定目的的知识获取过程,具体表现为对知识、经验、规律进行学习,以达到性能优化、环境适应和自我完善。机器学习使计算机完成上述的学习功能,通过自动或被动的知识、技能获取,为之后的人工智能应用进行准备。5.1.2机器学习的研究历史20世纪50年代中期研究工作:应用决策理论的方法研制可适应环境的通用学习系统基本思想:给系统一组刺激、一个反馈源和修改自身组织的自由度,系统就可以自适应地趋向最优组织代表:罗森布拉特(Rosen-blatt)的感知器20世纪70年代中期研究方向:用逻辑的演绎及归纳推理代替数值的或统计的方法重要成果举例:斯托夫的指导式学习、温斯顿和卡鲍尼尔的类比学习以及米切尔等人提出的解释学习20世纪80年代到21世纪初研究特点:符号学习和连接学习取得较大进展,开始把符号学习与连接学习结合起来进行研究重要成果举例:里奇(E.Rich)开发的集成系统5.1.3机器学习的分类演绎学习以演绎推理为基础的学习非监督学习在不提供或不足量提供显式反馈的情况下,完成对输入分布的学习可分为无监督学习、半监督学习和自监督学习(1)无监督学习不依赖任何标签值,通过挖掘数据本身的结构或特征完成任务主要包括:①聚类(K-means,谱聚类等)②降维(线性降维:PCA等;非线性降维:SOM、KernelPCA等;图上降维:图嵌入等)③离散点检测(主要应用于异常检测)5.1.3机器学习的分类非监督学习(2)半监督学习让学习器不依赖外界交互,自动利用未标记样本提升学习性能分类:①无标签数据预训练网络后有标签数据微调②利用从网络得到的深度特征来做半监督算法(3)自监督学习标注源于数据本身,而非人工标注主要用于特定类型数据的生成,其生成的数据可用于预测、调试优化模型等强化学习人工智能在强化序列(奖赏和惩罚组合的序列)中学习5.1.3机器学习的分类监督学习

本章提纲5.1机器学习基础5.2神经网络5.3深度神经网络5.5机器学习在电力工程中的应用5.4学习技巧5.2.1神经网络的基本特点感知器

神经网络结构构成:输入层、隐藏层、输出层组成单元:感知器学习过程:输入数据的前向传递、损失值的反向传播和梯度优化。5.2.2激活函数

Sigmoid函数5.2.2激活函数

ReLU函数5.2.3神经网络的学习机理输入数据在神经网络中的前向传递损失值在神经网络中的反向传播基于反向传播梯度的可训练参数优化神经网络的学习步骤

输入数据在神经网络中的前向传递5.2.3神经网络的学习机理损失值在神经网络中的反向传播反向传播时,根据损失函数对各w和b的导数,可以判断每个参数的变化方向,再乘以学习率就可以获得每个参数的更新方式。以一个三层神经网络为例:输出为:损失为:以第一层为例求取损失对网络参数的导数:结合预设的学习率进行参数更新:5.2.3神经网络的学习机理基于反向传播梯度的可训练参数优化传统梯度下降法存在着两点缺陷:训练速度慢:每一步都要计算调整下一步的方向,下山速度变慢容易陷入局部最优解:当落入鞍点时梯度为0,参数不再继续更新批训练对于含有n个训练样本的数据集,每次参数更新,选择一个大小为m的样本集作为更新参数的依据特点:既保证了训练的速度,又能保证最后收敛的准确率随机梯度下降法每次利用SGD法更新参数时,随机选取一个计算梯度特点:在样本量很大时也有较快地训练速度;每次迭代方向具有随机性;不能保证很好的收敛性5.2.3神经网络的学习机理自适应学习率算法

学习率学习率是对训练影响最大的超参如果学习率太小,则梯度很大的参数会有一个很慢的收敛速度如果学习率太大,则参数可能会出现不稳定的情况对于同一模型中的不同参数,最合适的学习率很可能并不相同自适应学习率算法主要有:AdaGrad、RMSProp、AdaDelta、Adam算法及其变体等5.2.3神经网络的学习机理自适应学习率算法

5.2.3神经网络的学习机理自适应学习率算法

5.2.4线性分类器神经网络在有监督的分类任务中的作用机制以简单线性模型为例

本章提纲5.1机器学习基础5.2神经网络5.3深度神经网络5.5机器学习在电力工程中的应用5.4学习技巧5.3.1神经网络的结构前馈神经网络每个神经元只与前一层的神经元相连,各层神经元之间无连接各层间没有反馈,数据正向流动不考虑输出与输入在时间上的滞后效应,只表达映射关系学习主要采用误差修止法(如BP算法),计算过程较慢,收敛速度也较慢反馈神经网络又称递归网络、回归网络层间神经元有连接数据可以在同层间流动或反馈至前层考虑输出与输入间在时间上的延迟,需要动态方程描述系统的模型主要采用Hebb学习规则,一般情况下计算的收敛速度很快更适合应用在联想记忆和优化计算等领域5.3.1神经网络的结构循环神经网络当前使用最广泛的反馈神经网络模型例: Ilikeeatingapple!

TheAppleisagreatcompany!

通过对上下文的综合考虑,正确识别apple的语义应用领域:①自然语言处理②机器翻译③语音识别④图像描述生成⑤文本相似度计算⑥音乐推荐、商品推荐、视频推荐等代表性模型:门控循环神经网络、长短期记忆神经网络5.3.1神经网络的结构生成对抗网络(GenerativeAdversarialNetwork,GAN)通过分别训练生成模型G和判别模型D,实现更准确的生成生成模型G:生成看起来自然真实的、和原始数据相似的实例判别模型D:判断实例是真实的还是伪造的不需要人为标注的样本一般用于非监督学习的样本生成若实现利用标签、文本生成图片等较为复杂的工作,则需要人为标注来控制模型的学习方向5.3.2前馈神经网络——卷积神经网络

卷积层5.3.2前馈神经网络——卷积神经网络权值共享:在每个深度切片上的结果都使用同样的权重和偏差扩张:让滤波器中元素之间有间隙,可以使有效感受野迅速增长卷积层卷积层大小选择(1)几个小滤波器卷积层的组合比一个大滤波器卷积层好(2)输入层应该能被2整除很多次。如32,64,96或224,384和5125.3.2前馈神经网络——卷积神经网络作用:逐渐降低数据体的空间尺寸,减少网络参数的数量;使得计算资源耗费变少;有效控制过拟合池化方式:最大池化、平均池化、L-2范式池化等反向传播:池化层5.3.2前馈神经网络——卷积神经网络作用:将卷积层、池化层学到的“分布式特征表示”映射到样本标记空间全连接层5.3.3前馈神经网络——图神经网络

图的定义图神经网络旨在将卷积推广到图领域。在这个方向上的进展通常分为频谱方法(SpectralMethod)和空间方法(SpatialMethod)。图神经网络5.3.3前馈神经网络——图神经网络方法原理:通过计算图拉普拉斯算子的特征分解,在傅立叶域中定义卷积运算。将原始的处于空域的图信号变换到频域上之后,对频域属性进行滤波,然后再恢复到原来的图信号所在的空域中,从而完成了对图信号的降噪与特征提取的功能。关键缺陷:需要将整个图的信息载入内存中,这使得其在大规模的图结构上不能有效的进行应用。频谱方法方法原理:只在空间相邻的邻居上进行计算,瞄准图中的每个子图,而不是整张图,在处理大规模网络时更不容易陷入局部最优或过拟合。挑战:针对不同节点度的节点组成的子网,需要分别设计卷积核,当前有四种常用的网络类型,分别是NeuralFPS、LGCN、MoNeT和GraphSAGE。空间方法5.3.3前馈神经网络——图神经网络(1)NeuralFPS方法:对度不同的节点,使用不同的权重矩阵。缺点:不能应用在大规模图结构中,因为它的节点具有很多不同的度。空间方法(2)LGCN方法:LGCN基于可学习图卷积层(LGCL)和子图训练策略。LGCL利用CNN作为聚合器。它对节点的邻域矩阵进行最大池化,以获取前k个要素元素,然后应用1-D卷积来计算隐藏表示。5.3.3前馈神经网络——图神经网络(3)MoNet首先对图中的每个节点进行特征表示。然后为每个节点计算伪坐标,这些坐标考虑了节点及其邻居节点的特征。MoNet为节点与其邻居之间的关系确定不同的权重,这些权重基于节点特征通过学习得到。通过加权求和邻居节点的伪坐标,更新每个节点的特征表示,从而捕捉节点间的复杂关系。MoNet方法流畅连贯的处理方式使其能够适应不同的图结构和应用需求,实现高效的图卷积操作。空间方法5.3.3前馈神经网络——图神经网络(4)GraphSAGE首先在目标节点的邻居中进行随机采样,以此降低计算量并捕捉局部图结构。随后,这些邻居节点的特征与目标节点自身的特征相结合,通过一个可学习的聚合函数进行特征融合。得到的聚合特征随后被送入一个转换层,以生成目标节点的新特征表示。最终,每个节点都被赋予一个固定大小的嵌入向量。GraphSAGE的优势在于其对大型图数据集的高效处理能力以及生成的节点嵌入的高质量。空间方法5.3.3前馈神经网络——图神经网络在传播过程引入注意力机制,这允许模型动态地关注不同邻居节点的不同程度。节点-邻居对的计算是可并行化的,运算效率很高可以处理不同程度的节点,并为其邻居分配相应的权重可以很容易地应用于归纳学习问题。是一种局部网络,无需了解整个图结构,只需知道每个节点的邻节点即可。图注意力网络(GraphAttentionNetworks,GAT)5.3.4反馈神经网络反馈神经网络中,神经元可以互连,有些神经元的输出会被反馈至同层甚至前层的神经元。代表性网络:Hopfield神经网络、Elman神经网络、玻尔兹曼机等。Hopfield神经网络一种单层对称全反馈网络,该网络为一种基于能量的的模型。能量函数保证了向局部极小的收敛,使神经网络运行稳定性的判断有了明确的可靠的依据。根据激活函数不同,分为两种:离散HopfieId网(DHNN)和连续Hopfield网(CHNN)。DHNN主要用于联想记忆,输入部分信息即可联想到完整的输出,即具有容错性;CHNN主要用于优化计算,如旅行商TSP、调度等。5.3.4反馈神经网络Hopfield神经网络

5.3.4反馈神经网络Hopfield神经网络

离散Hopfield网络可以用于联想记忆,因此又称联想记忆网络。Hopfield网络实现联想记忆需要两个阶段:(1)记忆阶段:外界输入数据使系统自动调整网络权值,最终使系统具有若干个稳定状态,即吸引子。吸引域半径越大,说明联想能力越强。(2)联想阶段:在联想阶段,对于给定的输入模式,系统最终稳定收敛于某个吸引子。每个神经元的输出都成为其他神经元的输入,每个神经元的输入都来自于其他神经元。5.3.4反馈神经网络Elman神经网络承接层:作为一步延时算子,达到记忆的目的,从而使系统具有适应时变特性的能力,增强了网络的全局稳定性;关联层:从隐含层接收反馈信号,每一个隐含层节点都有一个与之对应的关联层节点连接。通过联接记忆将上一个时刻的隐层状态连同当前时刻的网络输入一起作为隐层的输入,相当于状态反馈。5.3.4反馈神经网络门控循环神经网络(GRU)提出目的:解决长期记忆和反向传播中的梯度等问题

5.3.4反馈神经网络长短期记忆神经网络(LSTM)提出目的:解决门控循环神经网络训练过程中的梯度消失和梯度爆炸问题

5.3.4反馈神经网络长短期记忆神经网络(LSTM)

本章提纲5.1机器学习基础5.2神经网络5.3深度神经网络5.5机器学习在电力工程中的应用5.4学习技巧5.4.1自监督学习自监督预训练预训练的效果主要取决于5个方面,分别是①准备语料库;②语料符号化;③设计预训练任务;④选择预训练模型;⑤选定预训练学习方案。(1)语料库方面:不同类型的语料库,其文本特征也不尽相同。官方新闻、百度百科、维基百科等语料的噪音较小,而社交媒体的文本中会有较大的噪声。此外,许多特定的领域包含许多特定词汇。因此必须根据目标领域选择预训练语料库,以达到良好的效果。(2)语料符号化方面:语料在符号化后会生成针对预训练模型的字典,其中,每个特定的语料都会对应一种符号(1-hot向量)。符号化可以分为四类,词语符号化、字母序列符号化、子词符号化以及混合符号化。5.4.1自监督学习自监督预训练(3)预训练任务方面:预训练任务是自我监督的,这些任务利用了伪标签。数据属性和预训练任务的定义决定了伪标签。预训练任务的指定标准是在有足够挑战性的同时,与下游任务能较好的衔接。常用的预训练任务包括:因果语言建模(CLM);掩蔽语言建模(MLM);替换符号检测(RTD);混乱符号检测(STD);随机符号替换(RTS);翻译语言建模(TLM);交换语言建模;下句预测(NSP);句序预测(SOP)等。5.4.1自监督学习自监督预训练(4)预训练模型方面:预训练模型指的就是预训练任务所用的神经网络。Transformer是一个编码-解码结构的神经网络,其中编码过程用到了复数个编码器。每次编码都会将所有输入数据输入编码器,得到一个或多个输出,这个输出将作为下一个编码器的输入。依次迭代,最终得到表征输入数据的特征向量或矩阵。解码部分的每个输出都会与输入相拼接,共同作为下一个解码器的输入。预训练模型分为三种,一种只用编码部分,一种只用解码部分,还有一种两个部分都用。5.4.1自监督学习自监督预训练(5)学习方案方面:①从头开始训练:对没有任何预处理的、参数随机初始化的预训练模型进行预训练;对语料库规模和训练成本有着极大的需求。②连续预训练:利用不对称的专业语料对常见语料训练出的预训练模型进行进一步预训练。③同时预训练:在专业语料过少的情况下,从头对通用语料和专业语料并行预训练,用通用语料辅助训练专业语料。④知识继承训练:将专业语料库和已有通用语料预训练模型的输入输出对共同用于训练一个较小的预训练模型。5.4.1自监督学习自监督预训练预训练模型适应下游任务的方法:(1)直接将预训练模型的输出作为下游任务的输入特征;(2)将模型部分神经层进行微调后与下游任务的模型进行结合;(3)利用提示法对预训练模型进行微调。GPT系列使用的方法就是提示法微调。具体做法为:将人为的规则给到预训练模型,使模型可以更好地理解人的指令,以便更好地利用预训练模型。例:输入为"Ilovethismovie.",希望输出的是"positive/negative"设置提示形如:"Themovieis___",然后让模型用来表示情感状态的答案(label),如positive/negative,甚至更细粒度一些的“fantastic”、“boring”等,将空补全作为输出。5.4.1自监督学习自监督预训练提示方法与微调方法的特点:提示更依赖预训练模型中的任务;微调更依赖下游任务模型的再训练。微调方法中:预训练语言模型“迁就“各种下游任务。引入各种辅助任务损失值,将其添加到预训练模型中,然后继续预训练,以便让其更加适配下游任务。这个过程中,预训练语言模型做出了更多的牺牲。提示方法中:利用各种下游任务使预训练语言模型“回忆起”学习过的内容。需要对不同任务进行重构,使得它达到适配预训练语言模型的效果,这个过程中,是下游任务做出了更多的牺牲。5.4.1自监督学习自监督预训练提示方法的优点:给定一组合适提示,以完全无监督的方式训练的单个语言建模就能够用于解决大量任务。提示方法的设计:从提示的位置数量、模板的设计方法两个方面完成。位置数量:主要取决于任务的形式和模型的类别。设计方法:手工设计一般基于人类自然语言知识,力求得到语义流畅且高效的模板;自动学习模板可以利用计算机技术自动学习并设计适配目标任务的模板,其中又可分为离散提示和连续提示。自动生成离散提示:自动生成由自然语言的词组成的提示,因此其搜索空间是离散的。GPT系列模型使用的使离散生成提示。连续生成提示:直接用字典中的标记作为提示,将提示变成了可以简单梯度下降求解的连续参数问题,实现机器对提示更直接的理解。5.4.1自监督学习自监督预训练指示调整(instructiontuning)指示学习的问题更接近于选择题,它的选项来自一个更小的集合,对于GPT-3.5而言,这个选项由GPT-3生成,通过人为标注GPT-3给出推测结果的准确性,并将这一结果凝聚成样本,最终能用于GPT-3.5的学习。这种微调给模型来了更强大的能力,分别是:①能对人类的指令做出响应②能对未见过的指令进行反应③利用思维链进行推理的能力5.4.1自监督学习自监督降维

5.4.1自监督学习自监督生成

5.4.2半监督训练目标:尝试将大量的无类标签的样例加入到有限的有类标签的样本中一起训练来进行学习,期望能对学习性能起到改进的作用,作用:避免了数据和资源的浪费,同时解决了监督学习的模型泛化能力不强和无监督学习的模型不精确等问题。形式:①归纳式半监督学习:假定训练数据中的未标记样本并非待测的数据;②直推式半监督学习:假定学习过程中所考虑的未标记样本恰是待预测数据,学习的目的就是在这些未标记样本上获得最优泛化性能。5.4.2半监督训练(1)平滑假设:位于稠密数据区域的两个距离很近的样例的类标签相似;(2)聚类假设:当两个样例位于同一聚类簇时,它们在很大的概率下有相同的类标签;(3)流形假设:将高维数据嵌入到低维流形中,当两个样例位于低维流形中的一个小局部邻域内时,它们具有相似的类标签。从本质上说,这三类假设是一致的,只是相互关注的重点不同。其中流形假设更具有普遍性。预测样例和学习目标之间的三种假设5.4.2半监督训练(1)自训练算法分为简单自训练、协同训练与半监督字典训练;简单自训练:用有标签数据训练一个分类器,然后用这个分类器对无标签数据进行分类,这样就会产生伪标签或软标签。挑选你认为分类正确的无标签样本,把选出来的无标签样本用来训练分类器。协同训练:假设每个数据可以从不同的角度进行分类,不同角度可以训练出不同的分类器,然后用这些从不同角度训练出来的分类器对无标签样本进行分类,再选出认为可信的无标签样本加入训练集中。半监督字典学习:先用有标签数据作为字典,对无标签数据进行分类,挑选出你认为分类正确的无标签样本,加入字典中。半监督学习算法5.4.2半监督训练(2)基于图的半监督算法最为广泛应用的方法是标签传播算法。通过构造图结构(数据点为顶点,点之间的相似性为边)来寻找训练数据中有标签数据和无标签数据的关系。是一种直推式的半监督算法,即只对训练集中的无标签数据进行分类。(3)半监督支持向量机利用结构风险最小化来分类;还用上了无标签数据的空间分布信息,即决策超平面应该与无标签数据的分布一致。半监督学习算法5.4.2半监督训练(1)无标签数据预训练网络后有标签数据微调;(2)有标签数据训练网络,利用从网络中得到的深度特征来做半监督算法。半监督学习基本方法框架含义:运用已有的知识来学习新的知识,核心是利用已有知识和新知识之间的相似性,对新知识进行高效率的学习在机器学习领域中,迁移学习研究如何将已有模型应用到新的不同的、但是有一定关联的领域中按学习方式可分为:基于样本的迁移,基于特征的迁移,基于模型的迁移,基于关系的迁移。如果源域和目标域之间相似度不够,则迁移结果并不理想,出现负迁移。迁移学习5.4.3特征嵌入定义:利用自监督学习技术实现输入数据降维,为下游任务提供分布更合理数据的任务。必要性:(1)图上数据只能使用数学、统计和机器学习的特定子集进行分析,而向量空间有更丰富的方法工具集;(2)嵌入是压缩的表示,完成嵌入后的数据有更强的经济性。分类:(1)顶点嵌入:每个顶点(节点)都用自己的向量表示进行编码,通常用于在顶点级别执行可视化或预测;(2)图嵌入:用单个向量表示整个图。此嵌入用于在图形的级别进行预测,在该级别可以比较或可视化整个图形。挑战:(1)属性选择:选择嵌入应保留哪些图形属性;(2)可扩展性:嵌入方法应具有可扩展性,能够处理大型图;(3)嵌入的维数:实际嵌入时很难找到表示的最佳维数。图嵌入5.4.3特征嵌入一种将单词转换为嵌入向量的嵌入方法。利用语义窗口来捕捉每个句子中的语义上下文,并通过对语义窗口进行滑动,学习每一个句子序列中不同语义上下文窗口中的单词embedding。每个词语都关联着两个词向量,分别为中心词向量和背景词向量Skip-gram模型通过中心词最大化背景词出现的联合概率分布,实现有效的词嵌入表示。Word2vec通过引入负采样和层次Softmax优化训练,解决预测复杂度问题。负采样在最大化背景词出现概率的同时,最小化噪声词出现概率。5.4.3特征嵌入第一阶段中采用截断式随机游走,把图中每个节点的局部拓扑结构转换成序列信息;第二阶段中把Word2vec模型应用于阶段一产生的序列数据,学习序列中每个节点的embedding表示DeepWalk模型5.4.3特征嵌入在图结构中,节点间的相性存在两种形态:(1)和近邻节点之间的同质性;(2)和担任类似结构角色的节点之间的结构性。有偏的随机游走(BiasedRandomWalk)策略Node2vec模型p控制着返回上一跳节点的概率。当p取值小于1时,随机游走生成的序列倾向于在同一节点附近徘徊,接近于BFS遍历。q控制着游走到更远节点的概率。当q取值小于1时,随机游走生成的序列倾向于向更远的结构进行探索,接近于DFS遍历。5.4.3特征嵌入一阶亲密度和二阶亲密度:一阶亲密度代表图中存在边连接的节点之间的关系,二阶亲密度代表共享大部分邻居的节点之间的关系。Line模型节点i和j之间的一阶亲密度建模(最小化节点间经验分布和联合分布之间的距离):二阶亲密度建模:实际使用的时候,对一阶近邻和二阶近邻分别训练,然后将两个向量拼接起来作为节点的向量表示。5.4.3特征嵌入Graph2vec方法包括三个步骤:(1)从图中采样并重新标记所有子图。子图是在所选节点周围出现的一组节点。子图中的节点距离不超过所选边数。(2)训练跳跃图模型。图类似于文档。由于文档是词的集合,所以图就是子图的集合。在此阶段,对跳跃图模型进行训练。它被训练来最大限度地预测存在于输入图中的子图的概率。输入图是作为一个热向量提供的。(3)通过在输入处提供一个图ID作为一个独热向量来计算嵌入。嵌入是隐藏层的结果。由于任务是预测子图,所以具有相似子图和相似结构的图具有相似的嵌入。Graph2vec模型5.4.4多任务学习定义:指同时学习多个相关任务,让这些任务在学习过程中共享知识,利用多个任务之间的相关性来改进模型在每个任务上的性能和泛化能力。主要挑战:如何设计多任务之间的共享机制常见共享模式:(1)硬共享模式(2)软共享模式(3)层次共享模式(4)共享-私有模式5.4.4多任务学习多任务学习通常可以获得比单任务学习更好的泛化能力,主要有以下几个原因:(1)多任务学习比单任务学习的训练集更大。由于多个任务之间有一定的相关性,因此多任务学习相当于是一种隐式的数据增强,可以提高模型的泛化能力。(2)多任务学习中的共享模块需要兼顾所有任务,在一定程度上避免了模型过拟合到单个任务的训练集,可以看作是一种正则化。(3)一个好的表示通常需要适用于多个不同任务,多任务学习的机制使得它会比单任务学习获得更好的表示。(4)在多任务学习中,每个任务都可以“选择性”利用其他任务中学习到的隐藏特征,从而提高自身的能力。5.4.5集成学习定义:组合多个弱监督模型以得到一个更好更全面的强监督模型Bagging(bootstrapaggregating)Bootstrap方法:是一种有放回的抽样方法,目的为了得到统计量的分布以及置信区间。具体步骤为:1)采用重抽样方法从原始样本中抽取一定数量的样本;2)根据抽出的样本计算想要得到的统计量;3)重复上述步骤N次得到N个统计量T;4)根据这个统计量,计算出统计量的置信区间。利用bootstrap方法从整体数据集中采取有放回抽样得到N个数据集,在每个数据集上学习出一个模型,最后的预测结果利用N个模型的输出得到。例:随机森林(RandomForest)由很多的决策树组成,每一棵决策树之间是没有关联的。预测的时候,每一棵树的都对输入进行预测,最后进行投票,哪个类别多,输入样本就属于哪个类别。5.4.5集成学习Boosting主要也是学习一系列弱分类器,并将其组合为一个强分类器。AdaBoost(Adaptiveboosting)算法:刚开始训练时对每一个训练例赋相等的权重,然后用该算法对训练集训练t轮,每次训练后,对训练失败的训练例赋以较大的权重,让学习算法在每次学习以后更注意学错的样本,从而得到多个预测函数。Stacking指训练一个模型用于组合其他各个模型。首先训练多个不同的模型,然后把之前训练的各个模型的输出为输入来训练一个模型,以得到一个最终的输出。理论上,Stacking可以表示上面提到的两种Ensemble方法,只要采用合适的模型组合策略即可。但在实际中,通常使用logistic回归作为组合策略。5.4.6联邦学习联邦学习定义了机器学习框架,在此框架下通过设计虚拟模型解决不同数据拥有方在不交换数据的情况下进行协作的问题。在联邦机制下,各参与者的身份和地位相同,可建立共享数据策略。由于数据不发生转移,因此不会泄露用户隐私或影响数据规范。为了保护数据隐私、满足合法合规的要求。联邦学习构成要素:数据源、联邦学习系统、用户。根据参与各方数据源分布的情况不同,联邦学习可以被分为三类:横向联邦学习、纵向联邦学习、联邦迁移学习。5.4.6联邦学习定义:在两个数据集的用户特征重叠较多而用户重叠较少的情况下,把数据集横向切分,并取出双方用户特征相同而用户不完全相同的那部分数据进行训练。例:业务相同但是分布在不同地区的两家企业,它们的用户群体交集很小,但是用户特征相同。此时,就可以使用横向联邦学习来构建联合模型。工作节点代表的是模型训练的数据拥有方,对本地的数据具有完全的自治权限,可以自主决定何时加入联邦学习进行建模。在参数服务器中,中心节点始终占据着主导地位。联邦学习则强调模型训练过程中对数据拥有方的数据隐私保护。横向联邦学习5.4.6联邦学习定义:在两个数据集的用户重叠较多而用户特征重叠较少的情况下,把数据集按照纵向切分,并取出双方用户相同而用户特征不完全相同的那部分数据进行训练。例:一家银行,与同一个地方的电商。它们的用户群体交集较大。用户特征交集较小。纵向联邦学习将这些不同特征在加密的状态下加以聚合,以增强模型能力。纵向联邦学习定义:在用户与用户特征重叠都较少的情况下,不对数据进行切分,而可以利用迁移学习来克服数据或标签不足的情况。例:一家位于中国的银行,和一家是位于美国的电商,两家机构的用户群体交集很小,数据特征也只有小部分重合。引入迁移学习解决单边数据规模小和标签样本少的问题,从而提升模型的效果。联邦迁移学习5.4.7自动化机器学习自动化机器学习,即一种将自动化和机器学习相结合的方式,是一个新的研究方向,它可以使计算机独立完成更复杂的任务,从而解放人类的双手。相较于传统的机器学习方法,自动化机器学习有如下优势:(1)自动化机器学习可以完全不用依赖经验,由完整的数学推理的方式来证明。通过数据的分布和模型的性能,自动化机器学习会不断评估最优解的分布区间并对这个区间再次采样。所以可以训练缩短时间,提升模型训练效率。(2)自动化机器学习可以降低使用机器学习的门槛。本章提纲5.1机器学习基础

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论