机器学习-1-绪论课件_第1页
机器学习-1-绪论课件_第2页
机器学习-1-绪论课件_第3页
机器学习-1-绪论课件_第4页
机器学习-1-绪论课件_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

智能科学与技术系刘冀伟锚索寿命演化模型研究及预测机器学习基础第一章绪论1智能科学与技术系锚索寿命演化模型研究及预测机器学习基础1主要参考书1、周志华,《机器学习》,清华大学出版社,20152、李航,《统计学习方法》,清华大学出版社,2012主要参考书1、周志华,《机器学习》,清华大学出版社,2015考核方式1、平时成绩-大作业-40%2、期末考试-闭卷-60%考核方式1、平时成绩-大作业-40%目录CONTENT123机器学习是什么基本概念模型评估与选择机器学习的发展和应用4目录CONTENT123机器学习是什么基本概念模型评估与>>>机器学习是什么>>>机器学习是什么机器学习领域奠基人之一、美国工程院院士T.Mitchell教授在其经典教材《MachineLearning》中所给出的机器学习经典定义为“利用经验来改善计算机系统自身的性能”。

系统对应于数据模型,如决策树、支持向量机等。经验对应于历史数据,如互联网数据、科学实验数据等。数据模型性能则是模型对新数据的处理能力,如分类和预测性能等。预测机器学习的根本任务是数据的智能分析与建模。通过已知数据学习出预测模型完成预测任务6机器学习领域奠基人之一、美国工程院院士T.Mitchell机器学习主要是设计和分析让计算机可以自动“学习”的算法。学习算法是一类从数据中自动分析获得规律,利用规律对未知数据进行预测的算法。

需要多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。7机器学习主要是设计和分析让计算机可以自动“学习”的算法。学习例:经验收集归纳学习模型y=f(x1,x2,x3)应用模型青绿、稍卷、浊响y=f(x1,x2,x3)y=好

or坏8例:经验收集归纳学习模型应用模型青绿、稍卷、浊响y=f(x1>>>基本概念>>>基本概念问题域图像识别腐蚀预测温度预测交通状态标记空间输出空间标签预测值模型经验采集经验数据图像语音流量数据温度特征空间特征变量特征向量模板特征提取经验数据集合数据集合假设空间10问题域标记空间模型经验采集经验数据特征空间特征提取经验数据集一、特征空间选择一组变量描述问题性质,称为特征变量(属性),特征变量组成的向量称为特征向量,变量张成的空间称为特征空间(样本空间),变量的取值称为属性值。特征变量(属性)记为:xi,i=1、、d特征向量记为:二、数据集合样本:特征空间(样本空间)中的一组示例。记为:D={x1、x2、、xm

}标记空间:标签变量或预测变量的取值集合,记为:Y样例集合:特征向量与标签变量对集合,记为:D={(x1、y1)、(x2、y2)

(xm、ym)

}特征空间记为:G11一、特征空间选择一组变量描述问题性质,称为特征变量(属性),学习(训练)数据:在训练过程中使用的数据称为训练数据,每一个样例称为训练样本,全体训练样本集合称为训练集(trainingset)。测试数据(testingdata):用于检测学习得到模型的数据称为检测数据,每一个样例称为检测样本,全体检测样本集合称为检测集(testingset)。三、学习的任务-y=f(x)分类:Y={1,2,3,},是离散值集合。二分类、多分类。回归:Y

(01),是连续值集合,预测。聚类:没有Y的信息。有监督学习无监督学习强化学习Y的信息不完全泛化能力:学习的结果对新样本的适应能力,对样本空间的描述能力。12学习(训练)数据:在训练过程中使用的数据称为训练数据,每一个359四、假设空间(H)机器学习是通过数据集学得规律,是一个典型的归纳推理的过程,学习的结果是从样本空间到标记空间的一个映射,所有可能的映射的集合我们称为假设空间。机器学习的任务:求fH:

f:GY,满足数据集合例:西瓜问题-假设色泽、根蒂和敲声完全决定西瓜的品质,我们可以用布尔表达式表达好瓜的概念。好瓜(色泽=?)∧(根蒂=?)∧(敲声=?)好瓜(色泽=青绿)∧(根蒂=卷缩)∧(敲声=浊响)引入通配符:*(色泽=*)∧(根蒂=卷缩)∧(敲声=浊响)13359四、假设空间(H)机器学习是通过数据集学得规律,是一个西瓜问题的所有布尔表达式表达:假设空间版本空间:假设空间的一个子集,与训练样例一致的所有假设的集合。14西瓜问题的所有布尔表达式表达:假设空间版本空间:假设空间的一五、归纳偏好(奥卡姆剃刀、没有免费午餐)色泽=*;根蒂=卷缩;敲声=浊响色泽=*;根蒂=*;敲声=浊响色泽=*;根蒂=卷缩;敲声=*版本空间:中有多个假设,每一个假设都可以是我们学习获得的模型,应该使用那个模型?那个模型会更好?色泽=青绿;根蒂=卷缩;敲声=沉闷版本空间-假设2-好瓜但不满足假设1和假设3版本空间例矛盾!15五、归纳偏好(奥卡姆剃刀、没有免费午餐)色泽=*;根蒂=卷缩以上两个例子给我们提出了新的问题-如何在版本空间获得模型?在机器学习算法学习的过程中对某种假设的偏好称为归纳偏好。奥卡姆剃刀(Occam’srazor):若多个假设与观察一致,选择最简单的那个。没有免费午餐定理(NFLNoFreeLunchTheorem):总误差与算法无关。具体问题具体分析16黑点训练样本白点测试样本以上两个例子给我们提出了新的问题-如何在版本空间获得模型?奥>>>模型评估与选择>>>模型评估与选择一、经验误差与过拟合错误率(errorrate):分类错误的样例数占样例总数的比例,即:E=a/m精度(accuracy):精度=1-错误率,即:acc=1-a/m过拟合(overfitting)与欠拟合(underfitting):导致学习器泛化功能下降的现象称为过拟合,相对的为欠拟合。误差(error):学习器的预测输出与样例的真实输出间的差异称为误差,在训练集上的误差称为训练误差(trainingerror)或经验误差(empiricalerror),在新样本上的误差称为泛化误差(generalizatiuonerror)。18一、经验误差与过拟合错误率(errorrate):分类错二、评估方法留出法(hold-out):直接将数据集D划分为两个互斥的集合,其中一个是训练集S,另一个为测试集T。即:D=ST;交叉验证法:(crossvalidation)19二、评估方法留出法(hold-out):直接将数据集D划分自助法(bootstrapping):调参与最终模型:20自助法(bootstrapping):调参与最终模型:20对学习器的泛化性能评估需要评价标准,这就是性能度量(performancemeasure),如常用的均方误差(meansquarederror)三、性能度量1、错误率与精度:假设数据集D={(x1,y1),(x2,y2),,(xm,ym)},学习器为y=f(x)错误率(errorrate):分类错误的样例数占样例总数的比例精度(accuracy):精度=1-错误率21对学习器的泛化性能评估需要评价标准,这就是性能度量(perf2、查准率、查全率和F1:查准率(precision)查全率(recall)平衡点(Break-eventpoint)混淆矩阵(ConfusionMatrix)P-R曲线222、查准率、查全率和F1:查准率(precision)查全率宏查准率、宏查全率和宏F1:有多个混淆矩阵时,我们可以在每个混淆矩阵上计算查准率、查全率和F1,得到:(P1,R1),(P2,R2),,(Pn,Rn),则有:微查准率、微查全率和微F1:23宏查准率、宏查全率和宏F1:有多个混淆矩阵时,我们可以在每个2、ROC与AUC:很多学习器的输出是连续值,然后通过一个实现给定的阈值构成分类器。ROC(ReceiverOperatingCharacteristic)受试者工作特征,二战时期雷达信号分析,六十年代开始用于心理学医学检测纵轴:真正例率横轴:假正例率AUC:ROC曲线下的面积242、ROC与AUC:很多学习器的输出是连续值,然后通过一个实>>>机器学习的发展和应用>>>机器学习的发展和应用机器学习是人工智能发展到一定阶段的必然产物。人工智能的几个发展阶段:二十世纪50~60年代-推理阶段-以模拟人类推理能力为研究的主流,这一时期的代表成果-Newell和Simon的LT和GPS-1975图灵奖;1970~1980-知识阶段-认为人类智能源于人类应用知识解决问题的能力,这一时期的代表工作费根鲍姆的专家系统-1994图灵奖。知识的获取困难-机器自己学习二十世纪50年代-IBM的A.Samuel的带有学习功能的美国跳棋;基于神经网络的连接主义,如感知机;基于逻辑表示的符号主义的学习技术,如:Winston的结构学习系统Michalski的基于逻辑的归纳学习系统Hunt的概念学习系统一、机器学习的兴起与发展26机器学习是人工智能发展到一定阶段的必然产物。人工智能的几个发27机器学习是人工智能的一个分支,也是人工智能的一种实现方法。它从样本数据中学习得到知识和规律,然后用于实际的推断和决策。它和普通程序的一个显著区别是需要样本数据,是一种数据驱动的方法。机器学习并不是人工智能一开始就采用的方法。人工智能的发展经历了逻辑推理,知识工程,机器学习三个阶段。第一阶段的重点是逻辑推理,例如数学定理的证明。这类方法采用符号逻辑来模拟人的智能。第二阶段的代表是专家系统,这类方法为各个领域的问题建立专家知识库,利用这些知识来完成推理和决策。如果要让人工智能做疾病诊断,那就要把医生的诊断知识建成一个库,然后用这些知识对病人进行判断。一、机器学习的兴起27机器学习是人工智能的一个分支,也是人工智能的一种实现方法28知识的获取困难-机器自己学习机器学习这一名词以及其中某些方法可以追溯到1958年,甚至更早,但真正作为一门独立的学科要从1980年算起,在这一年诞生了第一届机器学习的学术会议和期刊。到目前为止,机器学习的发展经历了3个阶段:1980年代正式成形期,不具备影响力。1990-2010年代是蓬勃发展期,诞生了众多的理论和算法,真正走向了实用。2012年之后是深度学习时期,深度学习技术诞生并急速发展,较好的解决了现阶段AI的一些重点问题,并带来了产业界的快速发展。28知识的获取困难-机器自己学习机器学习这一名词以及其中某些29线性回归:已知-数据集合(D):假设空间(H):求:W和bLogistic回归:使用回归的方法完成分类的任务29线性回归:已知-数据集合(D):假设空间(H):求:W30已知-数据集合(D):假设空间(H):先验概率分布P(ωi),类条件概率分布P(x|ωi)

求判别函数:ωi=h(x)

类条件概率后验概率贝叶斯决策理论朴素贝叶斯分类器30已知-数据集合(D):假设空间(H):先验概率分布P(ω311980s:登上历史舞台:1980年机器学习作为一支独立的力量登上了历史舞台。在这之后的10年里出现了一些重要的方法和理论,典型的代表是:1980夏-在卡内基梅隆举行第一届机器学习研讨会(IWML);1983第一本机器学习的专著《机器学习-一种人工智能的途径》;1984-分类与回归树(CART)1986-第一个期刊《MachineLearning》创刊1986-反向传播算法1989-卷积神经网络分类与回归树由Breiman等人在1984年提出,是决策树的一种经典实现,至今它还在很多领域里被使用。决策树是一种基于规则的方法,它由一系列嵌套的规则组成一棵树,完成判断和决策。和之前基于人工规则的方法不同,这里的规则是通过训练得到的,而不是人工总结出来的。311980s:登上历史舞台:1980年机器学习作为一支独立32反向传播算法:人工神经网络是对动物神经系统的一种简单模拟,属于仿生方法。从数学的角度看,它是一个多层的复合函数。反向传播算法是神经网络训练时使用的算法,来自于微积分中复合函数求导的链式法则,至今深度学习中各种神经网络的训练使用的还是这种方法。反向传播算法的出现使得多层神经网络真正成为一种可以实现、具有实用价值的算法。在这一时期,神经网络的理论性研究也是热门的问题,神经网络数学上的表达能力的分析和证明大多出现在1980年代末和1990年代初。从理论上来说,加大神经网络的规模可以解决更复杂的模式识别等问题。但是网络层数的增加会导致梯度消失问题,另外神经网络还面临着局部最优解的问题。训练样本的缺乏,计算能力的限制,都使得神经网络在接下来的20多年里没有太大的进展和出色的表现。32反向传播算法:人工神经网络是对动物神经系统的一种简单模拟33卷积神经网络:早在1989年,LeCun在贝尔实验室就开始使用卷积神经网络识别手写数字,这是当前深度学习中深度卷积神经网络的鼻祖;1998年,LeCun提出了用于字符识别的卷积神经网络LeNet5,并在手写数字识别中取得了较好的结果。卷积神经网络借鉴了动物视觉神经系统的原理,它能够逐层的对输入图像进行抽象和理解。33卷积神经网络:早在1989年,LeCun在贝尔实验室就开34在这一时期,隐马尔科夫模型(HMM)被成功的应用于语音识别,使得语音识别的方法由规则和模板匹配转向机器学习这条路径。q1q2q3q4qT...o1o2o3o4oT...观察序列O状态序列QHMMλ一个HMM模型是由五元组组成:要素N:状态集合S={S1,

S2,

,

SN},模型中状态的个数。在抛币模型中是偏心硬币的个数。一般t时刻的状态用qt表示。要素M:表示每个状态可以观察到的不同符号数。在抛币模型中是正、反两面。一般符号集表示为:V={V1,V2,

,

VM}状态转移矩阵A={aij},其中aij=P[qt+1=Sj|qt=Si]。状态j中可见符号的概率分布B={bj(k)}其中

bj(k)=P[在t时刻出现符号Vk|qt=sj]初始状态分布π={πj}其中πj=p[q0=sj]j=1,2,…,NΛ={[N,M],A,B,π}---HMM34在这一时期,隐马尔科夫模型(HMM)被成功的应用于语音识351990-2012:走向成熟和应用在这20多年里机器学习的理论和方法得到了完善和充实,可谓是百花齐放的年代。代表性的重要成果有:1995:支持向量机(SVM)1997:AdaBoost算法1997:循环神经网络(RNN)和LSTM2000:流形学习2001:随机森林SVM基于最大化分类间隔的原则,通过核函数巧妙的将线性不可分问题转化成线性可分问题,并且具有非常好的泛化性能。和神经网络相比,SVM有完善的数学理论作为支撑,训练时求解的问题是凸优化问题,因此不会出现局部极值问题。VladimirVapnik:SVM由Vapnik在1995年提出,在诞生之后的近20年里,它在很多模式识别问题上取得了当时最好的性能,直到被深度学习算法打败。351990-2012:走向成熟和应用在这20多年里机器学习36AdaBoost和随机森林同属集成学习算法,它们通过将多个弱学习器模型整合可以得到精度非常高的强学习器模型,且计算量非常小。AdaBoost算法在机器视觉领域的目标检测问题上取得了成功,典型的代表是人脸检测问题。2001年,使用级联AdaBoost分类器和Haar特征的算法在人脸检测问题上取得了巨大的进步,是有里程碑意义的成果。此后这一框架成为目标检测的主流方法,直到后来被深度学习取代。随机森林由Breiman在2001年提出,是多棵决策树的集成,在训练时通过对样本进行随机抽样构造出新的数据集训练每一棵决策树。它实现简单,可解释性强,运算量小,在很多实际问题上取得了相当高的精度。时至今日,在很多数据挖掘和分析的比赛中,这类算法还经常成为冠军。36AdaBoost和随机森林同属集成学习算法,它们通过将多37流形学习作为一种非线性降维技术,直观来看,它假设向量在高维空间中的分布具有一定的几何形状。在2000年出现之后的一段时间内名噪一时,呈现出一片繁荣的景象,但在实际应用方面缺乏成功的建树。循环神经网络作为标准前馈型神经网络的发展,具有记忆功能,在语音识别、自然语言处理等序列问题的建模上取得了成功,是当前很多深度学习算法的基础。在这一时期机器学习算法真正走向了实际应用。典型的代表是车牌识别,印刷文字识别(OCR),手写文字识别,人脸检测技术(数码相机中用于人脸对焦),搜索引擎中的自然语言处理技术和网页排序,广告点击率预估(CTR),推荐系统,垃圾邮件过滤等。同时也诞生了一些专业的AI公司,如MobilEye,科大讯飞,文安科技,文通科技,IOImage等。37流形学习作为一种非线性降维技术,直观来看,它假设向量在高382012:深度学习时代-神经网络卷土重来在与SVM的竞争中,神经网络长时间内处于下风,直到2012年局面才被改变。SVM、AdaBoost等所谓的浅层模型并不能很好的解决图像识别,语音识别等复杂的问题,在这些问题上存在严重的过拟合(过拟合的表现是在训练样本集上表现很好,在真正使用时表现很差。就像一个很机械的学生,考试时遇到自己学过的题目都会做,但对新的题目无法举一反三)。为此我们需要更强大的算法,历史又一次选择了神经网络。由于算法的改进以及大量训练样本的支持,加上计算能力的进步,训练深层、复杂的神经网络成为可能,它们在图像、语音识别等有挑战性的问题上显示出明显的优势。382012:深度学习时代-神经网络卷土重来在与SVM的竞争39深度学习的起源可以追溯到2006年的一篇文章,Hinton等人提出了一种训练深层神经网络的方法,用受限玻尔兹曼机训练多层神经网络的每一层,得到初始权重,然后继续训练整个神经网络。2012年Hinton小组发明的深度卷积神经网络AlexNet首先在图像分类问题上取代成功,随后被用于机器视觉的各种问题上,包括通用目标检测,人脸检测,行人检测,人脸识别,图像分割,图像边缘检测等。在这些问题上,卷积神经网络取得了当前最好的性能。在另一类称为时间序列分析的问题上,循环神经网络取得了成功。典型的代表是语音识别,自然语言处理,使用深度循环神经网络之后,语音识别的准确率显著提升,直至达到实际应用的要求在语音识别、自然语言处理等领域,深度学习算法同样取得了可喜的结果。在这些领域的成功,直接推动了语音识别、机器翻译等技术走向实际应用。在策略、控制类问题上,深度强化学习技术取得了成功,典型的代表是AlphaGo。在各种游戏、自动驾驶等问题上,深度强化学习显示出了接近人类甚至比人类更强大的能力。39深度学习的起源可以追溯到2006年的一篇文章,Hinto40以生成对抗网络(GAN)为代表的深度生成框架在数据生成方面取得了惊人的效果,可以创造出逼真的图像,流畅的文章,动听的音乐。为解决数据生成这种“创作”类问题开辟了一条新思路。TCNN40以生成对抗网络(GAN)为代表的深度生成框架在数据生成方二、机器学习的应用现状1分类算法应用场景实例1.1O2O优惠券使用预测1.2市民出行选乘公交预测1.3待测微生物种类判别1.4基于运营商数据的个人征信评估1.5商品图片分类1.6广告点击行为预测1.7基于文本内容的垃圾短信识别1.8中文句子类别精准分析1.9P2P网络借贷平台的经营风

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论