机器学习算法课件_第1页
机器学习算法课件_第2页
机器学习算法课件_第3页
机器学习算法课件_第4页
机器学习算法课件_第5页
已阅读5页,还剩178页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习算法

机器学习算法 机器学习监督学习--回归监督学习--分类非监督学习--聚类非监督学习--降维神经网络与深度学习关于模型评价标准目录CONTENTS0123456机器学习监督学习--回归监督学习--分类非监督学习--聚类非机器学习监督学习--回归监督学习--分类非监督学习--聚类非监督学习--降维神经网络与深度学习关于模型评价标准目录CONTENTS0123456机器学习监督学习--回归监督学习--分类非监督学习--聚类非机器学习机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。计算器学习专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,并重新组织已有的知识结构使之不断改善自身的性能。机器学习是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。机器学习是计算机科学家想让计算机像人一样思考,所研发出来的计算机理论。诞生于上个世纪60年代,在最近的十几年发展非常迅速。机器学习机器学习(MachineLearning,ML)机器学习最常见应用机器学习最常见应用机器学习的学习方式监督学习非监督学习强化学习遗传算法机器学习的学习方式监督学习非监督学习强化学习遗传算法监督学习监督学习非监督学习非监督学习监督学习vs非监督学习9分类标记label监督学习vs非监督学习9分类标记监督学习vs非监督学习监督学习能实现,为什么还要研究无监督学习?缺乏足够的先验知识的领域,难以人工标注类别进行人工类别标注的成本太高监督学习解决的问题:回归,分类非监督学习解决的问题:降维,聚类,关联规则2023/10/510监督学习vs非监督学习监督学习能实现,为什么还要研究无监强化学习命中未命中强化学习命中未命中遗传算法优胜劣汰

适者生存遗传算法优胜劣汰适者如何选择合适算法解决问题影响算法选择的因素:数据的大小、质量和性质可用计算时间任务的紧迫性你想用数据做什么算法选择的基本思路:1.数据是否足够多、数据维度是否过高、数据是否存在大量冗余,是则考虑步骤2,否则考虑步骤32.数据维度降低、数据采样去重3.明确问题:预测结果?二分类?多分类?聚类?强化训练?如何选择合适算法解决问题影响算法选择的因素:回顾:实现人工智能开发的流程获得已有样本数据(经验)对已有数据进行分析和预处理根据需要实现的智能化目标,选择方法或者模型不断调整方法和模型参数,使其从已有数据中学习规律、获得经验,直到期望值与实际值无限接近,从而使计算机的软硬件来模拟人类某些智能行为关键技术智能行为:数据分类、数据规律预测、语音识别、自动检索、图像识别等等。2023/10/5回顾:实现人工智能开发的流程获得已有样本数据(经验)2023机器学习监督学习--回归监督学习--分类非监督学习--聚类非监督学习--降维神经网络与深度学习关于模型评价标准目录CONTENTS0123456机器学习监督学习--回归监督学习--分类非监督学习--聚类非明确概念数据样本属性(特征)标签变量标签数组矩阵向量明确概念数据样本属性(特征)标签变量标签数组矩阵向量明确概念挑西瓜的学问序号/属性色泽根蒂敲声西瓜质量1青绿蜷缩浊响微甜2乌黑蜷缩沉闷很甜3浅白硬挺清脆很甜4青绿硬挺沉闷不甜…………………………明确概念挑西瓜的学问序号/属性色泽根蒂敲声西瓜质量1青绿蜷缩1.1回归分析回归分析(regressionanalysis)是确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法为什么使用回归分析:从实际应用上来看更好地了解:更好地了解该现象并有可能基于对该现象的了解来影响政策的制定以及决定采取何种相应措施。例:了解某些特定濒危鸟类的主要栖息地特征(例如:降水、食物源、植被、天敌),以协助通过立法来保护该物种。2023/10/5181.1回归分析回归分析(regressionanalys1.1回归分析为什么使用回归分析:从实际应用上来看(续)建模预测:对某种现象建模以预测其他地点或其他时间的数值,例:如果已知人口增长情况和典型的天气状况,预计明年的用电量将会是多少。探索检验:假设根据以往数据探索即将发生事件,例:公安部门对城市各个住宅区的犯罪活动进行建模,以更好地了解犯罪活动并希望实施可能阻止犯罪活动的策略。

2023/10/5191.1回归分析为什么使用回归分析:从实际应用上来看(续)21.1回归分析为什么使用回归分析:从算法功能上来看确定因变量Y与自变量X间的定量关系表达式,这种表达式称为回归方程;判断自变量X对因变量Y影响程度;利用所求得的回归方程进行预测和控制目标值。回归分析的前提:回归分析是对具有因果关系的影响因素(自变量)和预测对象(因变量)所进行的数理统计分析处理。只有当变量与因变量确实存在某种关系时,建立的回归方程才有意义。2023/10/5201.1回归分析为什么使用回归分析:从算法功能上来看20231.1回归分析回归分析分类按照自变量的个数:一元回归和多元回归分析;按照自变量和因变量之间的关系类型:线性回归分析和非线性回归分析;按照回归线形状:线性回归和非线性回归等。常见回归的模型线性回归逻辑回归softmax回归2023/10/5211.1回归分析回归分析分类2023/7/30211.2线性回归回归分析常用于分析自变量X和因变量Y之间的关系。比如X=房子大小和Y=房价之间的关系、X=(公园人流量,公园门票票价)与Y=(公园收入)之间的关系等。1.2线性回归回归分析常用于分析自变量X和因变量Y之间的关1.2线性回归线性回归的特点因变量是连续的,自变量(单个或多个)可以是连续的也可以是离散的,回归线的性质是线性的。线性回归使用最佳的拟合直线(回归线/回归模型),建立因变量(Y)和一个或多个自变量(X)之间的联系。即:Y=a+b*X+e注:a表示截距,b表示直线的倾斜率,e是误差项。2023/10/5231.2线性回归线性回归的特点2023/7/30231.2线性回归回归过程已知N组数据,数据的特征描述为X,用X1,X2,...,Xj去描述特征值里面分量,假设这些数据分布特点成线性:估计值:Yi’=a+b*X真实值:Yi=a+b*X+e误差项:e=Yi-Yi’=Y-(a+b*X)求得最优a、b值,即:使误差项e的平方和最小(最小二乘法)

2023/10/5241.2线性回归回归过程2023/7/30241.2线性回归误差误差平方误差平方和1.2线性回归误差误差平方误差平方和1.2线性回归最小二乘法

—确定回归系数误差平方和=

2023/10/526明确了:Yi’=a+b*X实现了:可以根据Xi预测Yi可以根据Yi控制Xi1.2线性回归最小二乘法—确定回归系数2023/7/31.2线性回归确定相关系数r当|r|=1时,表示两变量为完全线性相关当r=0时,表示两变量间无线性相关关系当0<|r|<1时,|r|越接近1,两变量间线性关系越密切;|r|越接近于0,两变量的线性相关越弱2023/10/5271.2线性回归确定相关系数r2023/7/30271.2线性回归回归分析步骤:判断并构造预测函数/回归模型(Y’)构造损失函数(误差e)使损失函数最小,最小二乘法获得回归系数(a,b)分析相关参数及结果(r/分类结果)利用模型进行预测2023/10/5281.2线性回归回归分析步骤:2023/7/30281.2线性回归Liner_

regression.example

2023/10/5291.2线性回归2023/7/30291.2线性回归—多元线性回归1.2线性回归—多元线性回归1.2线性回归—多元线性回归1.2线性回归—多元线性回归1.2线性回归—多元线性回归1.2线性回归—多元线性回归扩展—非线性回归

扩展—非线性回归

1.3逻辑回归逻辑回归的特点用来计算“事件=Success”和“事件=Failure”的概率。当因变量的类型属于二元(1/0,真/假,是/否)变量时,则使用逻辑回归。逻辑回归适用的问题事件发生的概率预测、二分类问题思考:多分类问题是否能采用逻辑回归?

2023/10/5341.3逻辑回归逻辑回归的特点2023/7/30341.3逻辑回归逻辑回归实现过程:构造预测函数/回归模型

2023/10/5351.3逻辑回归逻辑回归实现过程:2023/7/30351.3逻辑回归逻辑回归实现过程:构造预测函数/回归模型

边界函数输入x分类结果为类别1和类别0的概率

2023/10/5361.3逻辑回归逻辑回归实现过程:2023/7/30361.3逻辑回归逻辑回归实现过程:构造损失函数

2023/10/5371.3逻辑回归逻辑回归实现过程:2023/7/30371.3逻辑回归2023/10/5381.3逻辑回归2023/7/30381.3逻辑回归逻辑回归实现过程:使损失函数最小,获得回归系数(按照最小二乘法直接求导思想)2023/10/539为什么无法求解?1.3逻辑回归逻辑回归实现过程:2023/7/3039为什1.3逻辑回归逻辑回归实现过程:使损失函数最小,获得回归系数(梯度下降法)梯度:在微积分里面,对多元函数的参数求∂偏导数,把求得的各个参数的偏导数以向量的形式写出来,就是梯度。2023/10/5401.3逻辑回归逻辑回归实现过程:2023/7/30401.3逻辑回归2023/10/5411.3逻辑回归2023/7/30411.3逻辑回归逻辑回归实现过程:使损失函数最小,获得回归系数(梯度下降法)2023/10/5421.3逻辑回归逻辑回归实现过程:2023/7/30421.3逻辑回归实现二分类目标实现事件发生概率预测1.3逻辑回归实现二分类目标实现事件发生概率预测1.3逻辑回归–关键问题导读p/y的取值可能在0-1之间,不一定恰好等于0或者1,那怎么划分类?决策边界如何进行设置?解决方案:

如果分类器用的是回归模型,并且已经训练好了一个模型,可以设置一个阈值0.5:如果hθ(x)≥0.5,则预测y=1,既y属于正例;如果hθ(x)<0.5,则预测y=0,既y属于负例;2023/10/5441.3逻辑回归–关键问题导读p/y的取1.3逻辑回归--思考逻辑回归实现多分类:2023/10/545关键:阈值的设置1.3逻辑回归--思考逻辑回归实现多分类:2023/71.4softmax回归

softmax回归的特点:该模型是逻辑回归模型在多分类问题上的推广,在多分类问题中,类标签y可以取两个以上的值,在逻辑回归中,样本数据的y值为{0,1},而在softmax回归中,样本的y值为{1,k}。softmax回归适用的问题多分类问题、神经网络和深度学习的激活函数

2023/10/5461.4softmax回归softmax回归的特点:2021.4softmax回归softmax回归实现过程:构造预测函数/回归模型2023/10/5471.4softmax回归softmax回归实现过程:2021.4softmax回归softmax回归实现过程:构造损失函数注:2023/10/5481.4softmax回归softmax回归实现过程:2021.4softmax回归softmax回归实现过程:使损失函数最小,获得回归系数(梯度下降法)2023/10/5491.4softmax回归softmax回归实现过程:202Softmax回归vsk个二元分类器

当做一个k分类的应用时,选用Softmax分类还是k个独立的二元分类器?解决方案:取决于类别之间是否互斥例如:对人声音乐、舞曲、影视原声和流行歌曲分类,这些类别之间并不是互斥的,一首歌曲可以来源于影视原声,同时也包含人声。这种情况下,使用4个二分类的logistic回归分类器更为合适。2023/10/550Softmax回归vsk个二元分类器机器学习监督学习--回归监督学习--分类非监督学习--聚类非监督学习--降维神经网络与深度学习关于模型评价标准目录CONTENTS0123456机器学习监督学习--回归监督学习--分类非监督学习--聚类非2.1分类分类:监督学习,将一些新的数据项映射到给定类别中的某个类别中

2023/10/552动物种类体型翅膀数量脚的只数是否产蛋是否有毛类别狗中04否是哺乳动物猪大04否是哺乳动物牛大04否是哺乳动物麻雀小22是是鸟类天鹅中22是是鸟类大雁中22是是鸟类动物A大02是无?动物B中22否是?2.1分类分类:监督学习,将一些新的数据项映射到给定类别中2.1分类分类问题也是一类很常见的问题。比如说,怎么判定一个人是高富帅还是吊丝?2.1分类分类问题也是一类很常见的问题。比如说,怎么判定2.1分类实现分类步骤将样本转化为等维的数据特征(特征转化)选择与类别相关的特征(特征选择/提取)建立分类模型或分类器进行分类(分类)2023/10/5542.1分类实现分类步骤2023/7/3054特征转化2023/10/555如何转化为机器识别的数据?特征转化2023/7/3055如何转化为机器识别的数据?特征转化转化为机器识别的数据1.Categorical

Integer编码(二进制,十进制)概率密度2.数据转化为无纲量数据数据归一化:x{0,1}2023/10/556特征转化转化为机器识别的数据2023/7/3056特征选择/提取选择与分类相关的特征,提升分类效果,提高分类效率:初步观察法计算相关系数—a、b、r值的计算计算互信息—决策树中使用降维2023/10/557特征选择/提取选择与分类相关的特征,提升分类效果,提高分类效分类训练集测试集测试结果衡量分类训练集测试集测试结果衡量2.2KNNKNN(k近邻分类)建模思想已知样本集中每一数据与所属分类的对应关系,输入没有标签的新数据后,将新数据的每个特征与样本集中的数据对应的特征进行比较,提取样本集中特征最相似的数据(最近邻)的分类标签。一般来说,只选择样本集中前k个最相似的数据,再选择k个最相似的数据中出现次数最多的分类,作为新数据的分类。建模关键训练集、距离或相似性的衡量、k的大小2023/10/5592.2KNNKNN(k近邻分类)建模思想2023/7/32.2KNN计算未知样本点(想要分类的点)到已知的每个样本点的距离(相似度)2.2KNN计算未知样本点(想要分类的点)到已知的每个样本2.2KNN筛选距离最近的k个邻居点(假设k=5)5个最近邻居点:4个属于w11个属于w3xu属于w1类2.2KNN筛选距离最近的k个邻居点(假设k=5)5个最近2.2KNN分类步骤:给定一个要分类的查询实例xq算距离:给定测试对象,计算它与训练集中的每个对象的距离:找邻居:圈定距离最近的k个训练对象

作为测试对象的近邻做分类:根据这k个近邻归属的主要类别,来对测试对象分类2023/10/5622.2KNN分类步骤:给定一个要分类的查询实例xq202机器学习算法课件2.2KNN

如何选择K值,对最终的归类结果有很大的影响,根据实践经验,k的取值通常不大于20。2023/10/5642.2KNN2023/7/30642.2KNNKNN算法优点:1.简单,易于理解,易于实现,无需估计参数,无需训练;2.适合对稀有事件进行分类;3.特别适合于多分类问题KNN算法优点:当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的K个邻居中大容量类的样本占多数计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离没有具体规则2.2KNNKNN算法优点:2.3BayesBayes(贝叶斯)建模思想:贝叶斯分类器的分类原理是通过某对象的先验概率,利用贝叶斯定理计算出其后验概率,即该对象属于某一类的概率,选择具有最大后验概率的类作为该对象所属的类。贝叶斯定理:由于P(X)对于所有类为常数,只需要P(X|H)P(H)最大即可

2023/10/5662.3BayesBayes(贝叶斯)建模思想:2023/72.3Bayes2.3Bayes机器学习算法课件2.3Bayes分类步骤:

2023/10/5692.3Bayes分类步骤:2023/7/3069贝叶斯分类实例--检测SNS社区中不真实账号

对于SNS社区来说,不真实账号(使用虚假身份或用户的小号)是一个普遍存在的问题,作为SNS社区的运营商,希望可以检测出这些不真实账号,从而在一些运营分析报告中避免这些账号的干扰,亦可以加强对SNS社区的了解与监管。

2023/10/570是真是假?贝叶斯分类实例--检测SNS社区中不真实账号贝叶斯分类实例--检测SNS社区中不真实账号1、确定特征属性及划分三个特征属性:a1:日志数量/注册天数

a2:好友数量/注册天数

a3:是否使用真实头像类别标记:H=0表示真实账号,H=1表示不真实账号在SNS社区中这三项都是可以直接从数据库里得到或计算出来的,下面给出划分:a1:{a1<=0.05,0.05<a1<0.2,a1>=0.2}

a2:{a<2=0.1,0.1<a2<0.8,a2>=0.8}

a3:{a3=0(不是),a3=1(是)}2023/10/571贝叶斯分类实例--检测SNS社区中不真实账号1、确定特征属性贝叶斯分类实例--检测SNS社区中不真实账号

2、获取训练样本使用运维人员曾经人工检测过的10000个账号作为训练样本,8900条为真实账号,1100条为不真实账号。

3、计算训练样本中每个类别的频率P(H=0)=8900/10000=0.89P(H=1)=1100/10000=0.112023/10/572贝叶斯分类实例--检测SNS社区中不真实账号

2、获取训练贝叶斯分类实例--检测SNS社区中不真实账号4、计算每个类别条件下各个特征属性划分的频率(P(x|H))P(a1<=0.05|H=0)=0.3P(a1<=0.05|H=1)=0.8P(0.05<a1<0.2|H=0)=0.5P(0.05<a1<0.2|H=1)=0.1P(a1>0.2|H=0)=0.2P(a1>0.2|H=1)=0.1P(a2<=0.1|H=0)=0.1P(a2<=0.1|H=1)=0.7P(0.1<a2<0.8|H=0)=0.7P(0.1<a2<0.8|H=1)=0.2P(a2>0.8|H=0)=0.2P(a2>0.8|H=0)=0.1P(a3=0|H=0)=0.2P(a3=1|H=0)=0.8P(a3=0|H=1)=0.9P(a3=1|H=1)=0.12023/10/573贝叶斯分类实例--检测SNS社区中不真实账号4、计算每个类别贝叶斯分类实例--检测SNS社区中不真实账号

5、使用分类器进行鉴别待鉴别账号属性如下a1:日志数量与注册天数的比率为0.1

a2:好友数与注册天数的比率为0.2

a3:不使用真实头像(a=0)

P(H=0)P(x|H=0)=P(H=0)P(0.05<a1<0.2|H=0)P(0.1<a2<0.8|H=0)P(a3=0|H=0)

=0.89*0.5*0.7*0.2=0.0623

P(H=1)P(x|H=1)=P(H=1)P(0.05<a1<0.2|H=1)P(0.1<a2<0.8|H=1)P(a3=0|H=1)

=0.11*0.1*0.2*0.9=0.00198P(真实账号)>P(不真实账号):该属性取值下的账号为真实账号2023/10/574贝叶斯分类实例--检测SNS社区中不真实账号

5、使用分类器2.4DecisionTree分类过程:模型建立(ModelBuilding)模型评估(ModelEvaluation)使用模型(UseModel)性别年龄婚姻否是否是FemaleMale<35≧35未婚已婚分类规则IF性别=FemaleAND年龄<35THEN购买RV房车=否IF性别=FemaleAND年龄≧35THEN购买RV房车=是IF性别=MaleAND婚姻=未婚THEN购买RV房车=否IF性别=MaleAND婚姻=已婚THEN购买RV房车=是数据库训练样本(trainingsamples)建立模型测试样本(testingsamples)评估模型2.4DecisionTree分类过程:性别年龄婚姻否是样本实例训练样本婚姻年龄家庭

所得否是否是未婚已婚<35≧35低高否小康1.建立模型测试样本2.模型评估X错误率为66.67%修改模型3.使用模型样本实例训练样本婚姻年龄家庭

所得否是否是未婚已婚<35≧2.4DecisionTree根部节点(rootnode)中间节点(non-leafnode)(代表属性)分支(branches)(代表属性值/特征值)叶节点(leafnode)(代表分类后所获得的分类标记)(2)决策树结构2.4DecisionTree根部节点(rootnod2.4DecisionTree决策树结构:节点

特征属性分支

属性值根结点

信息量最大的属性中间结点

该结点为根的子树所包含的样本子集中信息量最大的属性叶结点

样本的类别标签

782.4DecisionTree决策树结构:782.4DecisionTree决策树建树规则—ID3对当前例子集合,计算各特征的互信息;选择互信息最大的特征Ak作为根节点;把在Ak处取值相同的例子归于同一子集,Ak取几个值就得几个子集;对既含正例又含反例的子集,递归调用建树算法;若子集仅含正例或反例,对应分枝标上类别。

792.4DecisionTree决策树建树规则—ID37980NO.属性类别天气A1气温A2湿度A3风A41晴热高无风N2晴热高有风N3多云热高无风P4雨适中高无风P5雨冷正常无风P6雨冷正常有风N7多云冷正常有风P8晴适中高无风N9晴冷正常无风P10雨适中正常无风P11晴适中正常有风P12多云适中高有风P13多云热正常无风P14雨适中高有风N4个属性:天气可取值:晴,多云,雨气温可取值:冷,适中,热湿度可取值:高,正常风可取值:有风,无风类别:类别可取值:N,P80NO.属性类别天气A1气温A2湿度A3风A41晴热高无风DecisionTree(1)信息熵:每一类别发生的概率:|S|表示例子集S的总数,|ui|表示类别ui的例子数,对9个正例和5个反例有:P(u1)=9/14 P(u2)=5/14H(U)=-(9/14)log(9/14)-(5/14)log(5/14)=0.94bit

81DecisionTree(1)信息熵:81DecisionTree案例(2)条件熵:属性A1取值vj时,类别ui的条件概率:A1=天气取值v1=晴,v2=多云,v3=雨在A1处取值晴的例子5个,多云的例子4个,雨的例子5个,则:P(v1)=5/14P(v2)=4/14P(v3)=5/14取值为晴的5个例子中有2个P类、3个N类,则:P(u1/v1)=2/5,P(u2/v1)=3/5同理有:P(u1/v2)=4/4

,P(u2/v2)=0,P(u1/v3)=2/5,P(u2/v3)=3/5H(U/V)=(5/14)((2/5)log(5/2)+(3/5)log(5/3))+(4/14)((4/4)log(4/4+0)+(5/14)((2/5)log(5/2)+(3/5)log(5/3))=0.694bit82DecisionTree案例(2)条件熵:82DecisionTree案例(3)互信息:信息熵-条件熵对A1=天气处有:I(天气)=H(U)-H(U|V)=0.94-0.694=0.246bit类似可得:I(气温)=0.029bitI(湿度)=0.151bitI(风)=0.048bit(4)建决策树的树根和分枝ID3算法将选择互信息最大的特征天气作为树根,在14个例子中对天气的3个取值进行分枝,3个分枝对应3个子集,分别是:F1={1,2,8,9,11},F2={3,7,12,13},F3={4,5,6,10,14}其中F2中的例子全属于P类,因此对应分枝标记为P,其余两个子集既含有正例又含有反例,将递归调用建树算法。83DecisionTree案例(3)互信息:信息熵-条件熵8天气湿度风晴雨多云高正常有风无风PNNPP天气湿度风晴雨多云高正常有风无风PNNPP2.4DecisionTree(4)决策树模型特点:优点:不需要任何领域知识或参数假设。适合高维数据。短时间内处理大量数据,得到可行且效果较好的结果。缺点:对于各类别样本数量不一致数据,信息增益偏向于那些具有更多数值的特征。忽略属性之间的相关性。不支持在线学习。2023/10/5852.4DecisionTree(4)决策树模型特点:202.4DecisionTree2.4DecisionTree机器学习算法课件2.5SVM线性分类分类线分类平面2.5SVM线性分类分类线分类平面2.5SVM2.5SVM2.5SVM(1)支持向量机(SVM)基本思想:是二值分类算法:计算机随机产生一个分类线/分类面并移动它,直到训练集中属于不同类别的样本点正好位于该超平面的两侧。显然,这种机理能够解决线性分类问题,但不能够保证产生分类线/分类面是最优的分类模型。支持向量机建立最优分类线/分类面能够在保证分类精度的同时,使超平面两侧的空白区域最大化,从而实现对线性可分问题的最优分类。672.5SVM(1)支持向量机(SVM)基本思想:672.5SVM(2)支持向量机(SVM)关键问题:SVM(支持向量机)主要针对小样本数据进行学习、分类的一种方法。“支持向量”:则是指训练集中的某些训练点,这些点最靠近分类决策面,是最难分类的数据点67最优分类线/面?2.5SVM(2)支持向量机(SVM)关键问题:67最优分2.5SVM分类面:把一个空间按照类别切分两部分的平面,在二维空间中,分类面相当于一条直线,三维空间中相当于一个平面,高维空间为超平面。线性分类面函数形式为:

wT,b是分类面函数参数,x是输入的样本,wT权向量,b是偏移量2023/10/5922.5SVM分类面:把一个空间按照类别切分两部分的平面,在f

xyest表示+1表示-1f(x,w,b)=sign(wx+b)如何分类这些数据?wx+b=0wx+b<0wx+b>02.5SVMafxyest表示+1f(x,w,b)=f

xyest表示+1表示-1f(x,w,b)=sign(wx+b)任何一个分类器(一条线)都有效,但是哪一个是最好的?a2.5SVMfxyest表示+1f(x,w,b)=fxayest表示+1表示-1f(x,w,b)=sign(wx+b)假设你的测试数据可能出现在这里2.5SVMfxayest表示+1f(x,w,b)f

xyestMax-marginf

xayest表示+1表示-1f(x,w,b)=sign(wx+b)定义分类器的边界以改善分类性能.2.5SVMfxyestMax-marginf表示+1表示-1SupportVectors是边界上的一些样本点1.这种理论说明只有Margin上的样本点是重要的,其他样本都不重要2.实践证明这种假设效果非常好.Max-margin2.5SVM表示+1SupportVectors是边界上的一些样本w.x++b=+1w.x-+b=-1w.(x+-x-)=2“类标号=+1”的区域“类标号=-1”的区域wx+b=1wx+b=0wx+b=-1X-x+M=MarginWidthMax-margin2.5SVMw.x++b=+1“类标号=+1”的区域98假定训练数据线性分类面函数Max-margin转化成优化问题2.5SVM假定训练数据2.5SVM最优分类面求解问题表示成约束优化问题最小化目标函数约束条件拉格朗日函数2.5SVM最优分类面求解问题表示成约束优化问题最小化目标函数2.5SLagrange函数成立条件2.5SVMLagrange函数2.5SVM101x1=(0,0)T,y1=+1x2=(1,0)T,y2=+1x3=(2,0)T,y3=-1x4=(0,2)T,y4=-1代入x,y值线性SVM求解实例x1=(0,0)T,y1=+1代入x,y值线性S求得

1,

2,3,4的值,进而求得w和b的值。代入(3/2,0),(0,3/2)点可以知道求得1,2,3,4的值,进而求得w和b的值。1032.6Ensemblelearning(1)

集成学习(Ensemblelearning)基本思想在机器学习中,直接建立一个高性能的分类器是很困难的。如果能找到一系列性能相对较差的个体分类器(弱分类器),并把它们集成起来的话,也许就能得到更好的分类器,从而提高整体分类器的泛化能力。所有个体学习器均为决策树时,称为“决策树集成”所有个体学习器均为神经网络时,称为“神经网络集成”所有个体学习器不全是一个种类的,………….2023/10/51042.6Ensemblelearning(1)集成学习(ClassifierensembleΣαihi(x)hn(x)h2(x)h1(x)InputvectorClassifier1Classifier2……ClassifierNCombineClassifiersOutputxClassifierensembleΣαihi(x)hn(2.6Ensemblelearning(2)

集成学习关键内容如何构建具有差异性的个体分类器?通过改变训练集来构造不同的个体分类器,且个体学习器越精确、差异越大,集成越好;构建方法:Bagging;Boosting;RandomForest;如何将这些分类器的结果进行整合(集合策略)?多数投票法;加权平均;2023/10/51062.6Ensemblelearning(2)集成学习关2.6Ensemblelearning(3)构建个体分类器方法---Bagging从大小为n的原始数据集D中独立随机地抽取n’个数据(n’<=n),形成一个自助数据集;重复上述过程,产生出多个独立的自助数据集;利用每个自助数据集训练出一个“个体分类器”;Bagging个体分类器整合策略:最终的分类结果由这些“个体分类器”各自的判别结果投票决定(投票法)2023/10/51072.6Ensemblelearning(3)构建个体分类2.6Ensemblelearning(4)构建个体分类器方法---BoostingStep1:原始训练集输入Step2:计算训练集中各样本的权重Step3:采用已知算法训练个体分类器,并对每个样本进行判别Step4:计算对此次的个体分类器的权重Step5:转到Step2,直到循环到达一定次数或者某度量标准符合要求Boosting个体分类器集成策略:将弱学习机按其相应的权重加权组合形成强学习机(加权平均)2023/10/51082.6Ensemblelearning(4)构建个体分类2.6EnsemblelearningBoosting方法中各样本的分配权重:提高分错样本的权重没有先验知识的情况下,初始的分布应为等概分布,也就是训练集如果有N个样本,每个样本的分布概率为1/N;每次循环一后提高错误样本的分布概率,分错样本在训练集中所占权重增大,使得下一次循环的弱学习机能够加强对这些错误样本的训练;反映了stronglearner对样本的假设是否正确2023/10/51092.6EnsemblelearningBoosting方2.6Ensemblelearning(5)构建个体分类器方法---RandomForest一种新型分类和预测模型,它具有需要调整的参数少,不容易过度拟合,分类速度快,能高效处理大样本数据等特点。Bagging和AdaBoost等方法只是通过改变样本的权重来获得不同的弱分类器。随机森林(RF)则通过同时改变样本和特征子集来获得不同的弱分类器。采用随机的方式建立一个森林,个体分类器由决策树组成,且之间没有关联。对于新的测试样本,让森林中的每一棵决策树分别进行一下判断,依据多数者投票方法决定样本的类别。2023/10/51102.6Ensemblelearning(5)构建个体分类2.6Ensemblelearning2023/10/51112.6Ensemblelearning2023/7/302.6Ensemblelearning2023/10/51122.6Ensemblelearning2023/7/302.6Ensemblelearning2023/10/51132.6Ensemblelearning2023/7/302.6Ensemblelearning–关键问题导读(6)既然多个个体的集成比单个个体更好,那么是不是个体越多越好?在预测时需要更大的计算开销,因为要计算更多的个体预测更大的存储开销,因为有更多的个体需要保存个体的增加将使得个体间的差异越来越难以获得2023/10/51142.6Ensemblelearning–关键问题导读机器学习监督学习--回归监督学习--分类非监督学习--聚类非监督学习--降维神经网络与深度学习关于模型评价标准目录CONTENTS0123456机器学习监督学习--回归监督学习--分类非监督学习--聚类非3.1聚类分析聚类:根据数据的“相似性”将数据归纳为多类的过程良好的聚类效果需满足:同一类中,样本之间保证高相似性类与类之间,样本之间要高差异性或不相似相似性衡量标准的选择,对于聚类(clustering)十分重要如何评估样本之间相似性?相似性的衡量标准?

2023/10/51163.1聚类分析聚类:根据数据的“相似性”将数据归纳为多类的

(1)相似性

117

(1)相似性

117(2)相似性衡量方法(1)欧氏距离(2)曼哈顿距离(3)余弦相似度

2023/10/5118(2)相似性衡量方法(1)欧氏距离(3)典型聚类算法K-means:建立数据的不同分割,并用欧氏距离等评价聚类结果GMM:对于每个类假定一个分布模型,试图找到每个类最好的模型Aprior:从数据背后发现事物之间可能存在的关联或者联系2023/10/5119(3)典型聚类算法K-means:建立数据的不同分割,并用欧3.2K-meansk-means算法也就是k均值算法k-means算法以k为参数,把n个对象分成k个簇(类)处理过程1:选择k个点作为初始的聚类中心;

2023/10/51203.2K-meansk-means算法也就是k均值算法203.2K-meansk-means算法也就是k均值算法k-means算法以k为参数,把n个对象分成k个簇(类)处理过程2:剩下的点,根据其与聚类中心的欧式距离,将其归入最近的簇

2023/10/51213.2K-meansk-means算法也就是k均值算法203.2K-meansk-means算法也就是k均值算法k-means算法以k为参数,把n个对象分成k个簇(类)处理过程3:对每个簇,计算所有点的均值

作为新的聚类中心

2023/10/51223.2K-meansk-means算法也就是k均值算法203.2K-meansk-means算法也就是k均值算法k-means算法以k为参数,把n个对象分成k个簇(类)处理过程4:重复(2),(3)步骤,

直到聚类中心不再发生改变

2023/10/51233.2K-meansk-means算法也就是k均值算法203.2K-means---关键问题导读(1)K值怎么确定?解决方案:根据实际的业务需求,人工来指定。(2)关于初始质心的选择,会对分类结果产生很大影响,可能偏离全局最优解或者增加计算量。解决方案:随机多次选择不同的初始聚类中心,反复多次进行实验。(3)如何判断算法是否该停止?解决方法:随机选择质心,迭代计算每个数据到新质心的距离,直到新质心和原质心相等,算法结束。2023/10/51243.2K-means---关键问题导读(1)K值怎么确定?3.2K-means---实例Kmeans_user_age.clustering2023/10/51253.2K-means---实例2023/7/301253.2K-means---局限性属于“硬聚类”,每个样本只能属于一个类别。K-means对异常点的“免疫力”差,异常值对其聚类中心影响比较大(改进:中心不直接取均值,而是找均值最近的样本点代替--k-medoids算法)。对于团状的数据点集区分度好,对于带状(环绕)等“非凸”形状不太好。2023/10/51263.2K-means---局限性属于“硬聚类”,每个样本只3.3GMM(高斯混合模型)GMM的产生解决了K-means的局限性2023/10/51273.3GMM(高斯混合模型)GMM的产生解决了K-mean3.3GMM(高斯混合模型)(1)GMM是如何解决上述问题:求解每个测试数据属于某个类别的概率(软指标)(2)GSM(高斯模型)给定均值和方差,将一个事物分解为基于高斯概率密度函数(正态分布曲线)形成的模型,表示随机变量每个取值有多大的可能性2023/10/51283.3GMM(高斯混合模型)(1)GMM是如何解决上述问题3.3GMM(高斯混合模型)(3)GMM(高斯混合模型)K个GSM混合成一个GMM,每个GSM称为GMM的一个component,也就是分为K个类。求和式的各项的结果就分别代表样本y属于各个类的概率ak:样本y属于第k个类的概率2023/10/51293.3GMM(高斯混合模型)(3)GMM(高斯混合模型)23.3GMM(高斯混合模型)属于假设有K个类,样本数量分别为N1,N2,…,Nk且N1+N2+…+Nk=N,即有观测数据y1,y2,…,yk,第k个分类的样本集合表示为S(k),上式中的三个参数可表示为:2023/10/5130

ak指的是第k个component被选中的概率,rjk需要对所有的数据j进行累加3.3GMM(高斯混合模型)属于假设有K个类,样本数量分别3.3GMM(高斯混合模型)2023/10/51313.3GMM(高斯混合模型)2023/7/301313.3GMM—GMM与K-means(4)GMM与K-means相同点需要指定K值需要指定初始值,K-means的中心点,GMM的参数都是含有EM算法思想(5)GMM与K-means不同点优化目标函数不同,K-means:最短距离(硬指标);GMM:最大化log似然估计,求解每个观测数据属于每个component的概率(软指标)2023/10/51323.3GMM—GMM与K-means(4)GMM与K-me

3.4Aprori算法

关联分析是一种在大规模数据集中寻找有趣关系的任务这些任务有两种形式:频繁项集和关联规则频繁项集:经常出现在一块的物品的集合;关联规则:两种物品之间可能存在很强的关系;关联分析典型方法:Apriori算法2023/10/5133

3.4Aprori算法

关联分析是一种在大规模数据集中寻

3.4Aprori算法

(1)使用Apriori算法来发现频繁项集两个输入参数分别是最小支持度和数据集,根据最小支持度确实频繁项集。(2)从频繁项集中挖掘关联规则从一个频繁项集开始,创建一个规则列表,首先将规则的右边限定为一个元素,对这些规则进行测试,接下来合并剩下的规则来创建一个新的规则列表,规则的右边限定为两个元素,项集中挖掘关联规则。(3)Apriori原理是说如果某个项集是频繁的,那么它的所有子集也是频繁的。2023/10/5134

3.4Aprori算法

(1)使用Apriori算法来发支持度与可信度2023/10/5135支持度可信度支持度与可信度2023/7/30135支持度可信度

3.4Aprori算法

频繁项集:例{尿布,啤酒}支持度:数据集中包含指定项集的记录所占的比例从频繁项集到关联规则可信度:support(P|H)/support(P)2023/10/5136交易号码商品0豆奶,莴苣1莴苣,尿布,啤酒,甜菜2豆奶,尿布,啤酒,橙汁3莴苣,豆奶,尿布,啤酒4莴苣,豆奶,尿布,橙汁

3.4Aprori算法

2023/7/30136交易号码机器学习监督学习--回归监督学习--分类非监督学习--聚类非监督学习--降维深度学习关于模型评价标准目录CONTENTS0123456机器学习监督学习--回归监督学习--分类非监督学习--聚类非4.1降维(1)降维的过程降维是指在某些限定条件下,降低随机变量个数,得到一组“不相关”主变量的过程。(2)降维的作用:特征选择和特征提取特征选择:假定数据中包含大量冗余或无关变量(或称特征、属性等),旨在从原有变量中找出主要变量。特征提取:将高维数据转化为低维数据的过程,可能舍弃原数据、构造新变量,其代表方法为主成分分析(PCA)。2023/10/51384.1降维(1)降维的过程2023/7/301384.1降维2023/10/5139当科目更多,无法直接观察呢??如果根据成绩判断学习的情况,直观上,哪些科目成绩对判断结果可能没有影响??4.1降维2023/7/30139当科目更多,无法直接观察4.1降维(3)降维后,欲达到的目标减少冗余信息造成的误差,可提高识别精度或分类效果寻找数据内部的本质结构特征加速后续计算的速度在很多算法中,降维算法成为了数据预处理的一部分,如主成分分析(PCA)。事实上,有一些算法如果没有降维预处理,其实是很难得到很好的效果的。2023/10/51404.1降维(3)降维后,欲达到的目标2023/7/30144.2PCA(1)PCA降维PrincipalComponentAnalysis(PCA)是最常用的线性降维方法。它的目标是通过某种线性投影,将高维的数据映射到低维的空间中表示,并期望在所投影的维度上数据的方差最大,以此使用较少的数据维度,同时保留住较多的原数据点的特性。2023/10/51414.2PCA(1)PCA降维2023/7/301414.2PCA(2)降维的过程(设有m条n维数据)将原始数据按列组成n行m列矩阵X数据预处理:将X的每一行(代表一个属性字段)进行零均值化,即减去这一行的均值求出协方差矩阵求出协方差矩阵的特征值及对应的特征向量将特征向量按对应特征值大小从上到下按行排列成矩阵,取前k行组成矩阵P

即为从n维降维到k维后的数据2023/10/51424.2PCA(2)降维的过程(设有m条n维数据)2023/4.2PCA—关键问题导读如何选择这个投影方向,才能尽量保留最多的原始信息呢?解决方案:一种直观的方法是观察,投影后的投影值尽可能分散2023/10/51434.2PCA—关键问题导读如何选择这个投影方向,才能尽4.2PCA–实例PCA.example2023/10/51444.2PCA–实例2023/7/301444.3SVD(1)SVD(奇异值分解)与PCA:PCA的实现一般有两种,一种是用特征值分解去实现的,一种是用奇异值分解去实现的。(2)SVD实现的原理:

2023/10/51454.3SVD(1)SVD(奇异值分解)与PCA:202机器学习监督学习--回归监督学习--分类非监督学习--聚类非监督学习--降维神经网络与深度学习关于模型评价标准目录CONTENTS0123456机器学习监督学习--回归监督学习--分类非监督学习--聚类非5.1神经网络与深度学习神经网络,是将许多个单一“神经元”联结在一起,一个“神经元”的输出就可以是另一个“神经元”的输入。神经网络中,神经元处理单元可表示不同的对象,例如特征、字母、概念,或者一些有意义的抽象模式。网络中处理单元的类型分为三类:输入单元、输出单元和隐单元。输入单元接受外部的信号与数据;输出单元实现系统处理结果的输出;隐单元是处在输入和输出单元之间,神经元间的连接权值反映了单元间的连接强度,信息的表示和处理体现在网络处理单元的连接关系中。2023/10/51475.1神经网络与深度学习神经网络,是将许多个单一“神经元”5.1神经网络与深度学习下图是一个包含三个层次的神经网络。红色的是输入层,绿色的是输出层,紫色的是中间层(也叫隐藏层)。输入层有3个输入单元,隐藏层有4个单元,输出层有2个单元。2023/10/51485.1神经网络与深度学习下图是一个包含三个层次的神经网络。5.1神经网络与深度学习神经网络抽象为数学模型2023/10/51495.1神经网络与深度学习神经网络抽象为数学模型2023/7/5.1神经网络与深度学习深度学习是基于人工神经网络的研究,含多个隐层的多层感知器就是一种深度学习结构。2023/10/51505.1神经网络与深度学习深度学习是基于人工神经网络的研究,含5.1神经网络与深度学习深度学习分解为多个简单的网络2023/10/51515.1神经网络与深度学习深度学习分解为多个简单的网络20235.1神经网络与深度学习神经网络与深度学习的关系与分类2023/10/51525.1神经网络与深度学习神经网络与深度学习的关系与分类2025.2ANN人工神经网络(ArtificalNeuralNetwork,ANN)结构

2023/10/5153神经元的n个输入对应的连接权值net=阈值输出激活函数5.2ANN人工神经网络(ArtificalNeural5.2ANN数学建模:2023/10/5154其中,Ɵj是阈值;wj0=-Ɵj;x0=1;5.2ANN数学建模:2023/7/30154其中,Ɵj5.2ANN训练(学习)过程Step1设置连接权W的初值。对权系数W=(wji)的各个元素置一个较小的随机值。Step2输入样本X=(x1,x2

,…,xn),以及它的期望输出Y=(y1,y2

,…,yn)。Step3计算感知器的实际输出值

Step4根据实际输出求误差2023/10/51555.2ANN训练(学习)过程2023/7/301555.2ANN训练(学习)过程Step5用误差ej去调整权值Wji(n)是第n次调整连接权值;η称为学习效率,且0<η≤1,用于调整权值的调整速度。通常,η的取值不能太大,如果η的取值太大,则会影响Wji(n)的稳定,η的取值太小则会使Wji(n)得收敛速度太慢。当实际输出和期望值y相同时,有Wji(n+1)=Wji(n)。Step6转到step2,一直执行到一切样本均稳定为止。2023/10/51565.2ANN训练(学习)过程2023/7/301565.3BP神经网络经典网络模型—BP神经网络

BP神经网络(BackPropagationNeuralNetwork),即误差后向传播神经网络,是一种按误差逆向传播算法训练的多层前馈网络,是目前应用最广泛的网络模型之一。2023/10/51575.3BP神经网络经典网络模型—BP神经网络2023/7/5.3BP神经网络BP神经网络训练过程初始化连接权值vki

和wjk;初始化精度控制系数ɛ;E=ɛ+1;whileE>ɛdoE.1E=0E.2对S中的每一个样本(Xp,Yp)E.2.1计算出Xp,对应的实际输出op;

E.2.2计算出Ep;

E.2.3E=E+Ep;E.2.4根据调整输出层的权值wjk(n);

E.2.4根据调整输出层的权值vki(n);E.3E=E/2.02023/10/51585.3BP神经网络BP神经网络训练过程2023/7/3015.4

CNN卷积神经网络(CNN)是神经网络的一种,专门用来处理矩阵输入的任务,能够将矩阵形式的输入编码为较低维度的一维向量,而保留大多数有用信息。应用领域:图像分类,目标检测,目标识别,目标跟踪,文本检测和识别以及位置估计很少应用于数据分类领域2023/10/51595.4CNN卷积神经网络(CNN)2023/7/301595.4

CNNCNN模型结构C层为特征提取层;S层是特征映射层,特征映射结构采用影响函数核小的sigmoid函数作为卷积网络的激活函数。2023/10/51605.4CNNCNN模型结构2023/7/301605.4

CNN2023/10/5161

根据损失函数进行反向传播(backpropagation),计算出所以参数梯度根据参数梯度进行梯度下降算法,求取最后模型参数5.4CNN2023/7/30161

根据损失函数进行5.4

CNNCNN优点:避免了显式的特征抽取,而隐式地从训练数据中进行学习同一特征映射面上的神经元权值相同,所以网络可以并行学习布局更接近于实际的生物神经网络,权值共享降低了网络的复杂性,避免了特征提取和分类过程中数据重建的复杂度2023/10/51625.4CNNCNN优点:2023/7/301625.5RNN递归神经网络作用跟卷积神经网络是一样的,将矩阵形式的输入编码为较低维度的一维向量,而保留大多数有用信息。跟卷积神经网络的区别在于,卷积神经网络更注重全局的模糊感知,而RNNs则是注重邻近位置的重构应用领域:自然语言处理2023/10/51635.5RNN递归神经网络2023/7/301635.6DBNDBN结构

2023/10/51645.6DBNDBN结构2023/7/301645.6DBNDBN网络中存在的问题:需要为训练提供一个有标签的样本集;学习过程较慢;不适当的参数选择会导致学习收敛于局部最优解

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论