




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习
Machinelearning
2011年春季学期
机器学习简介
及
决策树
刘扬哈工大计算机学院自然计算研究室1机器学习
Machinelearning
2011年春季学相关信息教材Mitchell,机器学习(必需)ChrisBishop,PatternRecognitionandMachineLearning(电子版,必需)DavidMackay,InformationTheory,Inference,andLearningAlgorithms教师刘扬yliu76@2相关信息教材2什么是学习?定义1:由于经验或实践的结果而发生的持久或相对持久的适应性行为变化定义2:能够使动物的行为对特定的环境条件发生适应性变化的所有过程,或者说是动物借助于个体生活经历和经验使自身的行为发生适应性变化的过程百度百科3什么是学习?定义1:由于经验或实践的结果而发生的持久或相对持什么是机器学习?是寻找一种对自然/人工主题、现象或活动可预测且/或可执行的机器理解方法4什么是机器学习?是寻找一种对自然/人工主题、现象或活动可预测什么是机器学习研究计算机怎样模拟或实现人类(动物)的学习行为,以获取新的知识或技能重新组织已有的知识结构使之不断改善自身的性能是人工智能的核心,是使计算机具有智能的根本途径其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎5什么是机器学习研究计算机怎样模拟或实现人类(动物)的学习行为机器学习的一个形象描述6机器学习的一个形象描述6机器学习研究一种算法提高它的性能(P)在某项任务中(T)利用一些经验(E)well-definedlearningtask:<P,T,E>7机器学习研究一种算法7机器学习的应用8机器学习的应用8自然语言处理/语音识别现在语音识别器或翻译器几乎都是建立在某种具有学习能力的设备上----使用的越多,则它越聪明9自然语言处理/语音识别现在语音识别器或翻译器几乎都是建立在某对象识别10对象识别10机器人控制汽车自动驾驶系统11机器人控制汽车自动驾驶系统11机器人控制12机器人控制12文本挖掘13文本挖掘13生物信息学14生物信息学14进化15进化15机器学习的一般泛型监督学习无监督学习强化学习16机器学习的一般泛型监督学习16机器学习——理论对于学习到的函数F(;θ)一致性(Consistency,值,模式、、)偏执与方差(Biasversusvariance)采样复杂性(Samplecomplexity)学习率(learningrate)收敛性(Convergence)误差界(Errorbound)稳定性(Stability)…17机器学习——理论对于学习到的函数F(;θ)17机器学习机器学习是研究开发
一种具有如下能力的理论和计算机系统表示分类,聚类和识别不确定条件下推理预测对外界环境的反应…可以在显示的模型或数学框架下,根据数据和自身经验,复杂的真实世界信息可以:被形式(formally)刻画和分析加入人的先验具有在数据与领域间的泛化和适应能力自动或自主操作被人类解释和感知18机器学习机器学习是研究开发一种具有如下能力的理论和计算机系机器学习的快速增长机器学习是最受青睐的方法语音识别,自然语言处理计算机视觉医学处理机器人控制机器学习分量在增加机器学习性能不断提高数据快速增长,网络发展一些软件太复杂人工撰写比较困难新的感知器件/IO设备环境与用户的个性化服务19机器学习的快速增长机器学习是最受青睐的方法19
20
20分类镰刀形细胞贫血症函数近似21分类镰刀形细胞贫血症21函数近似
22函数近似
22税务欺诈检测问题采用什么样的函数f假设空间是什么的样的如何使用?23税务欺诈检测问题采用什么样的函数f23查询数据的判别举例从根节点开始24查询数据的判别举例从根节点开始24查询数据的判别举例25查询数据的判别举例25查询数据的判别举例26查询数据的判别举例26查询数据的判别举例27查询数据的判别举例27查询数据的判别举例28查询数据的判别举例28查询数据的判别举例29查询数据的判别举例29税务欺诈的一个假设(决策树)输入:属性向量X=[Refund,MarSt,TaxInc]输出:Y=是否欺诈H就是不同的决策过程(不同的决策树)每一个内结点:测试一个属性Xi每个分支:选择属性Xi的一个取值每个叶结点:预测Y30税务欺诈的一个假设(决策树)输入:属性向量每一个内结点:测试决策树的表示能力决策树可以表示输入属性的任何函数例如,对于布尔函数,真值表的一行→一条路径(根到叶)如果对训练数据中的每个样例都建立一条从根到叶的路径(除非f对于输入x是不确定的)就得到一个一致的决策树,但其可能没有泛化能力因此希望找一个更加紧凑(小规模)的决策树31决策树的表示能力决策树可以表示输入属性的任何函数31决策树学习32决策树学习32一棵决策树(欺诈问题)33一棵决策树(欺诈问题)33另一棵决策树同样一个训练数据集,可以有多棵树与其一致34另一棵决策树34Top-Down的决策树归纳算法(构造)Mainloop:A←下一个结点node的最好属性把A作为决策属性赋给结点node对A的每一个取值,创建一个新的儿子结点node把相应的训练样本分到叶结点如果训练样本被很好的分类,则停止,否则在新的叶结点上重复上述过程
哪个属性更好?35Top-Down的决策树归纳算法(构造)Mainloop:树的归纳贪心策略基于一个可以最优化某项准则的属性来切分示例集和问题如何切分示例集和如何确定属性的测试条件?如何确定最好的切分?停止切分准则36树的归纳贪心策略36树的归纳贪心策略基于一个可以最优化某项准则的属性来切分示例集和问题如何切分示例集和如何确定最好的切分?如何确定属性的测试条件?停止切分准则37树的归纳贪心策略37如何确定特测条件?依赖于属性类型名词性\离散(Nominal)有序的(Ordinal)
连续(Continuous)依赖于切分的分支个数两路切分(2-way)多路切分(Multi-way)38如何确定特测条件?依赖于属性类型38对名词属性的切分多路切分:一个离散属性值对应一路切分两路切分:离散属性值被切分成两个子集,需要寻找最优切分39对名词属性的切分多路切分:一个离散属性值对应一路切分39对有序属性的切分多路切分:一个属性值对应一路切分两路切分:属性值被切分成两个子集,需要寻找最优切分这个如何?40对有序属性的切分多路切分:一个属性值对应一路切分40对连续属性的切分不同的处理方案离散化构造有序的类属性静态——在起始位置一次离散化动态——范围可以通过等区间或等频率确定,或者是聚类二值决策:(A<V)or(A>=V)考虑所有可能的切分并选择最好的计算量可能非常大41对连续属性的切分不同的处理方案41对连续属性的切分42对连续属性的切分42树的归纳贪心策略基于一个可以最优化某项准则的属性来切分示例集和问题如何切分示例集和如何确定最好的切分?如何确定属性的测试条件?停止切分准则43树的归纳贪心策略43如何确定最好的切分Idea:一个好的属性切分是将示例集合分成若干子集,最理想情况是每个子集为“皆为正例”或“皆为反例”贪心搜索更倾向结点上的数据具有同质(homogeneous)类别分布需要对结点混杂度(impurity)进行测量44如何确定最好的切分Idea:一个好的属性切分是将示例集合分成如何衡量属性的“好”与“坏”
45如何衡量属性的“好”与“坏”
45如何衡量属性的“好”与“坏”
46如何衡量属性的“好”与“坏”
46样本熵S是训练例子的样本集P+是S中的正例比例P-是S中反例的比例用熵来测量S的混杂度47样本熵S是训练例子的样本集47计算熵的例子48计算熵的例子48信息增益信息增益父结点P被切分成k部分;ni是每一切分的样本数即目标类变量与属性A变量在S(样本集)上的互信息测量由于切分带来的熵减少量,选择具有最大减少量的切分(最大增益)在ID3和C4.5中采用缺点:倾向选择具有切分分数多的属性,因为每份可以很少的样本,但很纯49信息增益信息增益49例子选择哪个属性作为根节点?50例子选择哪个属性作为根节点?50树归纳的停止准则当一个结点上所有样本属于同一个类别,停止扩展当一个结点上所有样本具有相似的属性值,停止扩展提早结束(以后会介绍)51树归纳的停止准则当一个结点上所有样本属于同一个类别,停止扩展基于决策树的分类优点构建过程计算资源开销小分类未知样本速度极快对于小规模的树比较容易解释在许多小的简单数据集合上性能与其它方法相近例子:C4.5深度优先构建方法采用了信息增益在每一个结点需要对示例依据连续属性排序数据需要全部装入内存不适合大规模数据52基于决策树的分类优点52应该输出哪棵树ID3在决策树空间中执行启发式搜索当获得最小可接受的决策树时则停止Why?Occam’s剃刀:选择适合训练集合数据的最简单假设53应该输出哪棵树ID3在决策树空间中执行启发式搜索Occam’决策树的实践问题欠拟合(underfitting)和过拟合(Overfitting)特征值丢失54决策树的实践问题欠拟合(underfitting)和过拟合(总结:你应当知道的适定的函数近似问题示例空间,X标注的训练样本{<xi,yi>}假设空间,H={f:X→Y}学习是H空间上的搜索/优化问题各种各样目标函数最小化训练误差(0-1损失)在所有的满足最小误差的假设中,选择最小的(?)决策树学习贪心的Top-down决策树过拟合以及剪枝扩展55总结:你应当知道的适定的函数近似问题55思考问题(1)ID3和C4.5在树空间上执行启发式算法。为什么不做穷尽搜索?56思考问题(1)ID3和C4.5在树空间上执行启发式算法。为什思考问题(2)考虑目标函数f:<x1,x2>→y,这里x1和x2是实数,如果在树中每个属性只被允许使用一次,那么决策树可以表达的决策平面是什么样子的?57思考问题(2)考虑目标函数f:<x1,x2>→y,这里x1和思考问题(3)为什么用信息增益来选择属性?有没有其他方案58思考问题(3)为什么用信息增益来选择属性?有没有其他方案58假设空间大小
59假设空间大小
59NotesonOverfittingOverfittingresultsindecisiontreesthataremorecomplexthannecessaryTrainingerrornolongerprovidesagoodestimateofhowwellthetreewillperformonpreviouslyunseenrecordsWhichTreeShouldWeOutput?Occam’srazor:preferthesimplesthypothesisthatfitsthedata60NotesonOverfittingOverfittinOccam’sRazorGiventwomodelsofsimilargeneralizationerrors,oneshouldpreferthesimplermodeloverthemorecomplexmodelForcomplexmodels,thereisagreaterchancethatitwasfittedaccidentallybyerrorsindataTherefore,oneshouldincludemodelcomplexitywhenevaluatingamodel61Occam’sRazorGiventwomodelsMinimumDescriptionLength(MDL)Cost(Model,Data)=Cost(Data|Model)+Cost(Model)Costisthenumberofbitsneededforencoding.Searchfortheleastcostlymodel.Cost(Data|Model)encodesthemisclassificationerrors.Cost(Model)usesnodeencoding(numberofchildren)plussplittingconditionencoding.62MinimumDescriptionLength(MDHowtoAddressOverfittingPre-Pruning(EarlyStoppingRule)Stopthealgorithmbeforeitbecomesafully-growntreeTypicalstoppingconditionsforanode:StopifallinstancesbelongtothesameclassStopifalltheattributevaluesarethesameMorerestrictiveconditions:Stopifnumberofinstancesislessthansomeuser-specifiedthresholdStopifclassdistributionofinstancesareindependentoftheavailablefeatures(e.g.,usingχ2test)Stopifexpandingthecurrentnodedoesnotimproveimpuritymeasures(e.g.,Giniorinformationgain).63HowtoAddressOverfittingPre-HowtoAddressOverfitting…Post-pruningGrowdecisiontreetoitsentiretyTrimthenodesofthedecisiont
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- DB23-T3044-2021-盆栽百合温室生产技术规程-黑龙江省
- 景区卫生治理方案(3篇)
- DB23-T2828-2021-生产安全事故调查技术管理导则-黑龙江省
- 劳务培训基地管理制度
- 冲压模具维修管理制度
- 小型财务公司管理制度
- 公司引进西方管理制度
- 咨询项目续签管理制度
- 培训学校封闭管理制度
- 工程专业设计管理制度
- 健康生活方式指导员培训
- 销售团队管理课件
- 燃气用不锈钢集成管道技术规程
- 临床路径持续改进QCC品管圈PDCA案例4例
- JGJT350-2015 保温防火复合板应用技术规程
- 基于SPWM变频调速系统的毕业设计(带仿真图)
- 幼儿园大班数学活动《20以内的数及加减法》
- 国家开放大学《理工英语4》机考参考答案(第1-3套)
- 项目延期申请表
- 体系文件编号规则
- 患者突发昏迷应急预案演练脚本-
评论
0/150
提交评论