机器学习汇总PPT学习课件

上传人：伊*** IP属地：上海上传时间：2021-06-04 格式：PPTX 页数：421 大小：5.67MB 积分：20 举报 版权申诉

已阅读5页，还剩416页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、彭开香 2015.9 机器学习 (Machine Learning) n平时（10分） n课堂出席 n讨论 n阅读相关资料，提交报告一份（20分） n提交形式（中文科技论文形式电子版） n针对某一算法（可以是综述，也可以是算法推导与仿真） n考试（70分）基本概念以及数学定义基本性质及其物理意义具体算法应用（详细举例讲解）该算法与其他类似算法的分析比较可能的发展方向附参考文献 3 邮箱：ml_ 密码：ustb2013 4 什么是机器学习【经典定义】：计算机程序如何随着经验积累自动提高性能，系统自我改进的过程。或：计算机利用经验改善系统自身性能的行为。米切尔随着该领域的发展

2、，主要做学习现象语言、文字的认知识别图像、场景、自然物体的认知识别规则（eg 下雨天要带雨伞）复杂的推理、判断能力（智能）好人与坏人？好猫与坏猫？数据知识认知认知推理推理决策决策识别识别学习使得计算机具备和人类一样的学习能力决策推理认知识别等智能给定数据（样本、实例）和一定的学习规则，从数据中获取知识的能力 q自然智慧的伟大与奥妙举例：婴儿的认知能力（声音、人脸、汽车）重要的二个特点：容错性，推广能力（举一反三） q机器智能：希望用机器实现部分智能 q基于数据的机器学习问题（引自清华张学工教授）根据已知样本估计数据之间的依赖关系，从而对未知

3、或无法测量的数据进行预测和判断关键：推广能力 q中科院王珏研究员给出的定义：令W是给定世界的有限或无限所有观测对象的集合，由于我们的观测能力有限，我们只能获得这个世界的一个子集，称为样本集。机器学习就是根据这个样本集，推算这个世界W的模型，使它对这个世界（尽可能地）为真。 q三个重要的理论问题：一致：W与Q有相同的性质。eg. i.i.d 划分：设样本定义于d维空间，要寻找在这个空间上的决策分界面泛化（推广能力）：对未知样本的判断能力 WQ qLearning = Improving with experience at some task Improve over task T

4、 With respect to performance measurement P Based on experience E qExample: 中国象棋任务T：下中国象棋性能目标P：比赛中击败对手（的百分比）训练经验E：和自己进行对弈，或者看棋谱 Ref：机器学习机器学习（曾华军等译）（曾华军等译）引用自CMU Dr. Eric Xing的Lecture Notes 机器学习的研究意义机器学习的研究意义 qScience2001年论文：年论文：每个科学领域的科学过程都有它自己的特点，但是，每个科学领域的科学过程都有它自己的特点，但是，。对这个抽象的科学过程的每一个环节，机器学

5、习都有相应的。对这个抽象的科学过程的每一个环节，机器学习都有相应的发展，我们相信它将导致科学方法中从假设生成、模型构造到决定性实发展，我们相信它将导致科学方法中从假设生成、模型构造到决定性实验这些所有环节的合适的、部分的自动化。当前机器学习研究在一些基验这些所有环节的合适的、部分的自动化。当前机器学习研究在一些基本论题上取得令人印象深刻的进展，我们预期机器学习研究在今后若干本论题上取得令人印象深刻的进展，我们预期机器学习研究在今后若干年中将有稳定的进展！年中将有稳定的进展！” 在稍早前，在稍早前，2000年年Science还发表了另外还发表了另外3篇篇ML方面的论文方面的论文 “The

6、 Manifold Way of Perceptron”, “A global geometric framework for nonlinear dimensionality reduction”,”Nonlinear dimensionality reduction by locally” Mjolsness, D DeCoste, Machine Learning for Science: State of the Art and Future Prospects - Science, 2001 : 2051- 2055. 受到令人惊讶的重视！摘自南京大学周志华教授摘自南京大学周志华

7、教授生物信息学计算金融学分子生物学行星地质学工业过程控制机器人遥感信息处理信息安全机器学习重要性：例子网络安全入侵检测：是否是入侵？是何种入侵？如何检测？历史数据：以往的正常访问模式及其表现、以往的入侵模式及其表现对当前访问模式分类这是一个典型的预测型机器学习问题常用技术：神经网络决策树支持向量机 k近邻序列分析聚类摘自南京大学周志华教授摘自南京大学周志华教授重要性：例子生物信息学常用技术：神经网络支持向量机隐马尔可夫模型 k近邻决策树序列分析聚类重要性：例子数据驱动控制 q人工智能：学习的概念符号表示

8、 qBayes 方法 q统计学：统计学习理论 (SLT) q计算复杂性理论 q控制论 q信息论：最小描述长度 q哲学： “Occams Razor原则”，“没有免费午餐” q心理学和神经生物学： Neural Networks（神经网络）符号机器学习 Eg. 决策树，ID3，计算学习理论（统计学习理论） PAC，SVM 监督学习，非监督学习，半监督学习集群机器学习 Ensemble Learning， Boosting 流行（Manifold）学习强化学习 Ranking学习聚类学习 /wiki/Machine_Learning 机器学习

9、简要发展历史回顾机器学习简要发展历史回顾 1950s：神经科学的理论基础 James关于神经元是相互连接的发现 McCullon 假设的一般到特殊可以定义在任何概念学习问题中，这种结构便于假设空间的搜索; 使用一般到特殊序，在偏序结构的一个分支上执行一般到特殊搜索，寻找一个与样例一致的最特殊假设; 利用一般到特殊序，通过渐近地计算极大特殊假设集合和极大一般假设集合发现变型空间；候选消除算法，后面会描述一些学习算法，它们能够处理有噪声的数据和目标概念无法在假设空间中表示的情况归纳学习算法，候选消除算法的偏置是：目标概念可以在假设空间中找到。输出的假设和对新实例的分类可由归纳偏置和训

10、练样例演绎推出思考题 2-1.解释为什么EnjoySport学习任务的假设空间的大小为973。如果增加一属性WaterCurrent，可取值Light、Moderate和Strong，那么可能的实例数和可能的假设数将会增加多少？推广到一般，增加一新属性A，有k种取值，实例数和假设数将会增加多少？思考题 2-2 在候选消除算法中，如果训练样例按EnjoySport例子中的逆序出现，请分步给出S和G边界集合。尝试对训练样例排序，以使EnjoySport例子中的所有S和G集合的中间结果的大小之和为最小？ YesChangeCoolStrongHighWarmSunny4 NoChange

11、WarmStrongHighColdRainy3 YesSameWarmStrongHighWarmSunny2 YesSameWarmStrongNormalWarmSunny1 EnjoySportForecastWaterWindHumidityAirTempSkyExample 思考题 2-3 实现Find-S算法和候选消除算法。验证它是否可成功地产生EnjoySport例子中各步骤结果。第3章决策树学习 (Decision-Tree Algorithm) 排名排名主题主题算法算法得票数得票数发表时间发表时间作者作者陈述陈述人人 1分类C4.5611993Quinlan, J.RH

12、iroshi Motoda 2聚类k-Means 601967MacQueen, J.BJoydeep Ghosh 3统计学习SVM 581995Vapnik, V.NQiangYang 4关联分析Apriori 521994Rakesh Agrawal Christos Faloutsos 5统计学习EM482000McLachlan, GJoydeep Ghosh 6链接挖掘PageRank461998Brin, S.Christos Faloutsos 7集装与推进AdaBoost451997Freund, Y.Zhi-Hua Zhou 8分类kNN451996Hastie, TVipi

13、n Kumar 9分类Nave Bayes452001Hand, D.JQiang Yang 10分类CART341984L.BreimanDan Steinberg 共有共有145人参加了人参加了ICDM 2006 Panel (会议的专题讨论会议的专题讨论), ,并对并对18种候选算法进行投种候选算法进行投票票，选出了机器学习，选出了机器学习1010大算法大算法 ICDM 2006会议的算法投票结果概论决策树学习是应用最广的算法之一是一种逼近离散值函数的方法很好的能够学习 ID3, Assistant, C4.5 搜索一个完整表示的假设空间是优先选择较小的树决策树表示了多

14、个if-then规则提纲决策树定义适用问题特征基本ID3算法决策树学习的归纳偏置训练数据的过度拟合决策树基本概念决策树基本概念决策树基本概念决策树基本概念名称体温表皮覆盖胎生水生动物飞行动物有腿冬眠类标号人类恒温毛发是否否是否哺乳动物海龟冷血鳞片否半否是否爬行类鸽子恒温羽毛否否是是否鸟类鲸恒温毛发是是否否否哺乳类 X y 分类目标属性分类目标属性y是离散的，回归目标属性是离散的，回归目标属性y是连续的是连续的决策树基本概念决策树基本概念通过以上对分类问题一般方法的描述，可以看出分类问题一般包括两个步骤：通过对训练集合的归纳，建立分类模型。根据建立的分类模型

15、，对测试集合进行测试。决策树基本概念决策树基本概念解决分类问题的一般方法解决分类问题的一般方法 TIDA1A2A3类 1Y100LN 2N125SN 3Y400LY 4N415MN 学习算法学习模型模型应用模型 TIDA1A2A3类 1Y100L？ 2N125S？ 3Y400L？ 4N415M？训练集（类标号已知）训练集（类标号已知）检验集（类标号未知）检验集（类标号未知）归纳归纳推论推论决策树表示法 u 内部节点(包括根节点)指定了对实例的某个属性的测试 u 节点的每个后继分支对应于该属性的一个可能值 u 叶子节点即为实例所属的分类图图3-1 概念概念Play

16、Tennis的决策树的决策树 Outlook HumidityWind NoYesNoYes Yes SunnyRainyOvercast HighNormalStrongWeak 决策树学习的适用问题适用问题的特征实例由“属性-值”对表示目标函数具有离散的输出值可能需要析取的描述训练数据可以包含错误训练数据可以包含缺少属性值的实例问题举例医学中的应用（如根据疾病分类患者、疾病分析与预测）根据起因分类设备故障（故障诊断）根据拖欠支付的可能性分类贷款申请分类问题核心任务是把样例分类到各可能的离散值对应的类别基本的决策树学习算法ID3 大多数决策树学习算法是一种核心算法的

17、变体采用遍历可能的决策树空间 ID3是这种算法的代表该方法使用选择测试属性。选择根节点使用统计测试确定每一个实例属性单独分类训练样例的能力，为根节点属性的每个可能值产生一个分支，并把训练样例排列到适当的分支重复上面的过程，用每个分支节点关联的训练样例来选取在该点被测试的最佳属性，直到满足以下两个条件中的任一个: 1）所有的属性已经被这条路径包括； 2）与这个节点关联的所有训练样例具有相同的目标属性值表3-1 用于学习布尔函数的ID3算法 ID3(Examples, Target_attribute, Attributes) 创建树的root节点如果Examples都为正,返回

18、label=+的单节点树root 如果Examples都为反,返回label=-的单节点树root 如果Attributes为空，那么返回单节点root，label=Examples中最普遍的Target_attribute值否则开始 root的决策属性A 对于A的每个可能值vi 在root下加一个新的分支对应测试A=vi 令Examplesvi为Examples中满足A属性值为vi的子集如果Examplesvi为空在这个新分支下加一个叶子节点，节点的label=Examples中最普遍的 Target_attribute值否则在新分支下加一个子树ID3 （ Examplesvi,Ta

19、rget_attribute,Attributes-A）结束返回root 最佳分类属性信息增益(Information Gain) 用来衡量给定的属性区分训练样例的能力 ID3算法在增长树的每一步使用信息增益从候选属性中选择属性用度量样例的均一性给定包含关于某个目标概念的正反样例的样例集S，那么S相对这个布尔型分类的熵为信息论中对熵的一种解释，确定了要编码集合S中任意成员的分类所需要的最少二进制位数更一般地，如果目标属性具有c个不同的值，那么S相对于c个状态的分类的熵定义为 Entropy(S)= c i ii pp 1 2 log 22 ()loglog pp Entro

20、py Spp S的所有成员属于同一类，Entropy(S)=0； S的正反样例数量相等，Entropy(S)=1； S的正反样例数量不等，熵介于0，1之间 1 log (0.5 log 0.50.5 log 0.5) 1 q ii i Expxpx 用度量期望的熵降低属性的信息增益，由于使用这个属性分割样例而导致的期望熵降低一个属性A相对样例集合S的信息增益Gain (S, A ) 被定义为： Gain(S,A)是在知道属性A的值后可以节省的二进制位数； () | (,)()() | v v v ValuesA S Gain S AEntropy SEntropy S S : + : +

21、: : 2+, 2 : E=1 size big small 1+,1 1+,1 E=1 E=1 Gain=1 (0.5 1 + 0.5 1) = 0 2+, 2 : E=1 color red blue 2+,1 0+,1 E=0.918 E=0 Gain=1 (0.75 0.918 + 0.25 0) = 0.311 2+, 2 : E=1 shape circle square 2+,1 0+,1 E=0.918 E=0 Gain=1 (0.75 0.918 + 0.25 0) = 0.311 DayOutlookTemperatureHumidityWindPlayTennis D1S

22、unnyHotHighWeakNo D2SunnyHotHighStrongNo D3OvercastHotHighWeakYes D4RainyMildHighWeakYes D5RainyCoolNormalWeakYes D6RainyCoolNormalStrongNo D7OvercastCoolNormalStrongYes D8SunnyMildHighWeakNo D9SunnyCoolNormalWeakYes D10RainyMildNormalWeakYes D11SunnyMildNormalStrongYes D12OvercastMildHighStrongYes

23、D13OvercastHotNormalWeakYes D14RainyMildHighStrongNo Humidity S：9+,5- E(S)=0.940 HighNormal 3+,4- E=0.985 6+,1- E=0.592 Gain (S, Humidity) = 0.940-(7/14)*0.985- (7/14)*0.592 =0.151 Wind S：9+,5- E(S)=0.940 WeakStrong 6+,2- E=0.811 3+,3- E=1 Gain (S, Wind) = 0.940-(8/14)*0.811- (6/14)*1 =0.048 112 1.

24、创建决策树的根节点。创建决策树的根节点。计算每一个候选属性的信息增益，然后选择信息增益最高的一个。计算每一个候选属性的信息增益，然后选择信息增益最高的一个。 Gain（S，Outlook）0.246 Gain（S，Humidity）0.151 Gain（S，Wind）0.048 Gain（S，Temperature）0.029 根据信息增益标准，属性根据信息增益标准，属性Outlook被选作根节点的决策属性，并为它的每一个可能被选作根节点的决策属性，并为它的每一个可能值（值（Sunny、Overcast和和Rainy）在根节点下创建分支，得到部分决策树显示在图）在根节点下创建分支，得到部分

25、决策树显示在图3- 4中。中。 2. 对非终端的后继节点再重复前面的过程以选择一个新的属性来分割训练样例，这一对非终端的后继节点再重复前面的过程以选择一个新的属性来分割训练样例，这一次仅使用与这个节点关联的训练样例，直到满足结束条件。次仅使用与这个节点关联的训练样例，直到满足结束条件。 DayOutlookTemperatureHumidityWindPlayTennis D1SunnyHotHighWeakNo D2SunnyHotHighStrongNo D3OvercastHotHighWeakYes D4RainyMildHighWeakYes D5RainyCoolNormalWe

26、akYes D6RainyCoolNormalStrongNo D7OvercastCoolNormalStrongYes D8SunnyMildHighWeakNo D9SunnyCoolNormalWeakYes D10RainyMildNormalWeakYes D11SunnyMildNormalStrongYes D12OvercastMildHighStrongYes D13OvercastHotNormalWeakYes D14RainyMildHighStrongNo 114 Outlook SunnyRainyOvercast D1,D2,D14 9+, 5- D1,D2,D

27、8,D9,D11 2+, 3- D3,D7,D12,D13 4+, 0- D4,D5,D6,D10,D14 3+, 2- Gain (S, Outlook)=0.246 Gain (S, Humidity)=0.151 Gain (S, Wind)=0.048 Gain (S, Temperature)=0.029 Outlook ? Yes SunnyOvercastRain D1,2,8,9,11D3,7,12,13D4,5,6,11,14 D114 9+,5- 2+,3-4+,0-3+,2- 什么属性？什么属性？ 116 HumidityWind HighNormal D1,D2,D8

28、0+, 3- D9,D11 2+, 0- StrongWeak D6,D14 0+, 2- D4,D4,D10 3+, 0- NoYesNoYes Yes Outlook SunnyRainyOvercast D1,D2,D14 9+, 5- D1,D2,D8,D9,D11 2+, 3- D3,D7,D12,D13 4+, 0- D4,D5,D6,D10,D14 3+, 2- Gain (SSunny, Humidity)= 0.970 Gain (SSunny, Temperature)=0.570 Gain (SSunny, Wind)=0.019 Gain (SRain, Humidit

29、y)=0.019 Gain (SRain, Temperature)=0.019 Gain (SRain, Wind)=0.970 117 决策树学习中的假设空间搜索决策树学习中的假设空间搜索 ID3算法搜索的假设空间就是可能的决策树的集合。ID3以爬山算法遍历这个假设空间，引导这种爬山搜索的评估函数是信息增益度量。观察ID3的搜索空间和搜索策略，认识到这个算法的优势和不足：假设空间包含所有的决策树，它是关于现有属性的有限离散值函数的一个（不同于上章变型空间候选消除算法），不能判断有多少个其他的决策树也与现有的训练数据一致不进行回溯，可能收敛到每一步都，不同于基于单独的训练样例

30、递增作出决定，容错性增强决策树学习的归纳偏置 ID3的搜索策略优先选择较短的树选择那些信息增益高的属性离根节点较近的树很难准确刻画ID3的归纳偏置近似的ID3的归纳偏置较短的树比较长的树优先近似在于ID3得到局部最优，而不一定是全局最优一个精确具有这个归纳偏置的算法，BFS-ID3 更贴切近似的归纳偏置较短的树比较长的树优先，信息增益高的属性更靠近根节点的树优先限定偏置和优选偏置 ID3和候选消除算法的比较的搜索范围是一个完整的假设空间，但不彻底地搜索这个空间的搜索范围是不完整的假设空间，但彻底地搜索这个空间的归纳偏置完全是搜索策略排序假设的结果，来自搜索策略完

31、全是假设表示的表达能力的结果，来自对搜索空间的定义限定偏置和优选偏置优选偏置（搜索偏置） ID3的归纳偏置是对某种假设胜过其他假设的一种优选，对最终可列举的假设没有硬性限制限定偏置（语言偏置）候选消除算法的偏置是对待考虑假设的一种限定通常优选偏置比限定偏置更符合归纳学习的需要优选偏置和限定偏置的结合考虑第1章下棋的例子（优选偏置和限定偏置）为什么短的假设优先? ID3的归纳偏置的哲学基础奥坎姆剃刀优先选择拟合数据的最简单的假设科学上的例子物理学家优先选择行星运动的简单假设；简单假设的数量远比复杂假设的数量少；简单假设对训练样例的针对性更小，更像是泛化的规律，而不是

32、训练样例的另一种描述。设想你是在一条积雪的街上行走。在你前面有一个人带着一顶黑色的高筒礼帽。街对面站着一群男孩，觉得这顶礼帽是个很好的目标，其中一个扔雪球一下击中了帽子。让我们举出两种解释来说明这顶帽子的随后遭遇。第一，在帽子受击的一刹那，一队天使疾飞而下，出其不意地把帽子从那人头上揭走了。第二，雪球把帽子击落了。我们将选择？种解释。这就是科学上普遍适用的所谓“节俭律”的简单说明。这条定律的意义，就在于说明，有时这条定律又被称为最可能的解释就是最好的解释奥坎姆剃刀为什么短的假设优先奥坎姆剃刀的困难可以定义很多小的假设集合，根据什么相信有短描述的决策树组成的小假

33、设集合比其他可定义的小假设集合更适当？假设的规模由学习器内部使用的特定表示决定从生物进化的观点看内部表示和奥坎姆剃刀原则决策树学习的常见问题决策树学习的实际问题确定决策树增长的深度处理连续值的属性选择一个适当的属性筛选度量标准处理属性值不完整的训练数据处理不同代价的属性提高计算效率针对这些问题，ID3被扩展成C4.5 避免过度拟合数据对于一个假设，当存在其它的假设对训练样例的拟合比它差，但事实上在实例的整个分布上表现得却更好时，我们说这个假设过度拟合训练样例。定义：给定一个假设空间H，一个假设hH，如果存在其它的假设hH，使得在训练样例上h的错误率比h小，但在整

34、个实例分布上h的错误率比h小，那么就说假设h过度拟合训练数据。树的规模树的规模 accuracy on training data on test data 避免过度拟合数据（2）导致过度拟合的原因（1）一种可能原因是训练样例含有随机错误或噪声 Sunny Hot Normal Strong PlayTennisNo 避免过度拟合数据（3）导致过度拟合的原因（2）当训练数据没有噪声时，过度拟合也有可能发生，特别是当少量的样例被关联到叶子节点时，很可能出现巧合的规律性，使得一些属性恰巧可以很好地分割样例，但却与实际的目标函数并无关系。过度拟合使决策树的精度降低（1025）避免过

35、度拟合数据（4）避免过度拟合的方法及早停止树增长后修剪法两种方法的特点第一种方法更直观第一种方法中，精确地估计何时停止树增长很困难第二种方法被证明在实践中更成功避免过度拟合数据（5）避免过度拟合的关键使用什么样的准则来确定最终正确树的规模解决方法使用与训练样例截然不同的一套分离的样例，来评估通过后修剪方法从树上修剪节点的效用。使用所有可用数据进行训练，但进行统计测试来估计扩展（或修剪）一个特定的节点是否有可能改善在训练集合外的实例上的性能。使用一个明确的标准来衡量训练样例和决策树的复杂度，当这个编码的长度最小时停止树增长。避免过度拟合数据（6）方法评述第一种

36、方法是最普通的，常被称为训练和验证集法。可用数据分成两个样例集合：训练集合，形成学习到的假设验证集合，评估这个假设在后续数据上的精度方法的动机：即使学习器可能会被训练集合误导，但验证集合不大可能表现出同样的随机波动验证集合应该足够大，以便它本身可提供具有统计意义的实例样本。常见的做法是，样例的三分之二作训练集合，三分之一作验证集合。错误率降低修剪将树上的每一个节点作为修剪的候选对象修剪步骤删除以此节点为根的子树，使它成为叶结点把和该节点关联的训练样例的最常见分类赋给它反复修剪节点，每次总是选取那些删除后可以最大提高决策树在验证集合上的精度的节点继续修剪，直到进一步

37、的修剪是有害的为止数据分成3个子集训练样例，形成决策树验证样例，修剪决策树测试样例，精度的无偏估计如果有大量的数据可供使用，那么使用分离的数据集合来引导修剪决策树学习中错误率降低的修剪效果决策树学习中错误率降低的修剪效果规则后修剪从训练集合推导出决策树，增长决策树直到尽可能好地拟合训练数据，允许过度拟合发生将决策树转化为等价的规则集合，方法是为从根节点到叶节点的每一条路径创建一条规则通过删除不会导致估计精度降低的前件来修剪每一条规则按照修剪过的规则的估计精度对它们进行排序，并按这样的顺序应用这些规则来分类后来的实例规则后修剪（2）例子 if (outlook=s

38、unny)(Humidity=High) then PlayTennis=No if (outlook=sunny)(Humidity=Normal) then PlayTennis=Yes 考虑删除先行词(outlook=sunny)或(Humidity=High) 选择使估计精度有最大提升的步骤考虑修剪第二个前件作为进一步的修剪步骤规则后修剪（3）规则精度估计方法使用与训练集不相交的验证集基于训练集合本身被C4.5使用，使用一种保守估计来弥补训练数据有利于当前规则的估计偏置过程先计算规则在它应用的训练样例上的精度然后假定此估计精度为二项式分布，并计算它的标准差对于一个

39、给定的置信区间，采用下界估计作为规则性能的度量评论对于大的数据集，保守预测非常接近观察精度，随着数据集合的减小，离观察精度越来越远不是统计有效（此概念第5章介绍），但是实践中发现有效规则后修剪（4）把决策树转化成规则集的好处可以区分决策节点使用的不同上下文消除了根节点附近的属性测试和叶节点附近的属性测试的区别提高了可读性合并连续值属性 ID3被限制为取离散值的属性学习到的决策树要预测的目标属性必须是离散的树的决策节点的属性也必须是离散的简单删除上面第2个限制的方法通过动态地定义新的离散值属性来实现，即先把连续值属性的值域分割为离散的区间集合合并连续值属性（2）例

40、子， Temperature应该定义什么样的基于阈值的布尔属性选择产生最大信息增益的阈值按照连续属性排列样例，确定目标分类不同的相邻实例产生一组候选阈值，它们的值是相应的A值之间的中间值可以证明产生最大信息增益的c值位于这样的边界中（Fayyad1991）通过计算与每个候选阈值关联的信息增益评估这些候选值方法的扩展连续的属性分割成多个区间，而不是单一阈值的两个空间属性选择的其它度量标准信息增益度量存在一个内在偏置，偏向具有较多值的属性避免方法，其它度量，比如增益比率增益比率通过加入一个被称作分裂信息的项来惩罚多值属性，分裂信息用来衡量属性分裂数据的广度和均匀性 Spl

41、itInformation(S,A)= GainRatio(S,A)= 分裂信息项阻碍选择值为均匀分布的属性问题，当某个SiS。解决方法：采用一些启发式规则，比如仅对增益高过平均值的属性应用增益比率测试 c i ii S S S S 1 2 | | log | | (,) (,) Gain SA SplitInform ation SA 属性选择的其它度量标准（2）基于距离的度量定义了数据划分间的一种计算每个属性产生的划分与理想划分间的距离选择最接近完美划分的属性 Lopez de Mantaras定义了这个距离度量，证明了它不偏向有大量值的属性此外 Mingers实验，不同

42、的属性选择度量对最终精度的影响小于后修剪的程度和方法的影响缺少属性值的训练样例例子，医学领域经常需要根据此属性值已知的实例来估计这个缺少的属性值为了评估属性A是否是决策节点n的最佳测试属性，要计算决策树在该节点的信息增益Gain(S,A)。假定是S中的一个训练样例，并且其属性A的值A(x)未知缺少属性值的训练样例（2）一种策略是赋给它节点n的训练样例中该属性的最常见值另一种策略是赋给它节点n的被分类为c(x)的训练样例中该属性的最常见值更复杂的策略，为A的每个可能值赋予一个概率，而不是简单地将最常见的值赋给A(x) 处理不同代价的属性实例的属性可能与代价相关优先选择尽

43、可能使用低代价属性的决策树，仅当需要产生可靠的分类时才依赖高代价属性通过引入一个代价项到属性选择度量中，可以使ID3算法考虑属性代价 Tan和Schlimmer的例子 145 小结和补充读物决策树学习为概念学习和学习其他离散值的函数提供了一个实用的方法 ID3算法贪婪算法从根向下推断决策树搜索完整的假设空间归纳偏置，较小的树过度拟合问题 ID3算法的扩展参考 C4.5 Tutorial http:/www2.cs.uregina.ca/dbd/cs831/notes/ml/dtrees/c4.5/tutorial.html Building Classification Mod

44、els ID3 and C4.5 /ingargio/cis587/readings/id3-c45.html 第4章人工神经网络（ANN）概述人工神经网络提供了一种普遍且实用的方法从样例中学习值为、或的函数，使用梯度下降来调节网络参数以最佳拟合由输入输出对组成的训练集合人工神经网络对于训练数据中的错误很好人工神经网络已被成功应用到很多领域，例如视觉场景分析，语音识别，机器人控制，工业过程控制生物学动机 ANN受到生物学的启发，是由相互连接的神经元组成的异常复杂的网络。 ANN系统的一个动机就是获得这种 ANN并未模拟生物

45、神经系统中的很多复杂特征 ANN的研究分为两个方向使用ANN研究和模拟生物学习过程获得，不管这种算法是否反映了生物过程属于后一个研究方向适合神经网络学习的问题训练集合为含有噪声的复杂传感器数据，例如来自摄像机和麦克风，工业过程各类传感器数据需要较多符号表示的问题，例如决策树学习的任务，能够取得和决策树学习大体相当的结果是最常用的ANN学习技术反向传播算法适合问题的特征实例是用很多“属性-值”对表示的目标函数的输出可能是离散值、实数值或者由若干实数属性或离散属性组成的向量训练数据可能包含错误可容忍长时间的训练可能需要人类能否理解学到的目标函数是不重要的提纲讨论训练

46、单个单元的学习算法介绍组成神经网络的几种主要单元感知器（perceptron）线性单元（linear unit） sigmoid单元（sigmoid unit）给出训练多层网络的反向传播算法讨论几个一般性问题 ANN的表征能力假设空间搜索的本质特征过度拟合问题反向传播算法的变体感知器一种类型的ANN系统是以为基础感知器以一个实数值向量作为输入，计算这些输入的线性组合，如果结果大于某个阈值，就输出1，否则输出-1 其中每个wi是一个实数常量，或叫做，用来决定输入xi对感知器输出的贡献率。特别地，w0是阈值。 otherwise xwxww xxo nn n 0. 1 1

47、 ),.,( 110 1 感知器（2）两种简化形式，附加一个常量输入x0=1，前面的不等式写成或写成向量形式为了简短起见，把感知器函数写为其中， 0 0 n i ii xw 0 xw )sgn()(xwxo otherwise y y 0 1 1 )sgn( 感知器（3）学习一个感知器意味着选择权w0,wn的值。所以感知器学习要考虑的就是所有可能的实数值权向量的集合 | 1 n RwwH 感知器的表征能力可以把感知器看作是n维实例空间（即点空间）中的对于超平面一侧的实例，感知器输出1，对于另一侧的实例，输出-1 这个决策超平面方程是可以被某个超平面分割的样例集合，称为 0 x

48、w 感知器的表征能力（2）单独的感知器可以用来表示很多布尔函数感知器可以表示所有的原子布尔函数：与、或、与非、或非然而，一些布尔函数无法用单一的感知器表示，例如异或感知器的表征能力（3）因为所有的布尔函数都可表示为基于原子函数的互连单元的某个网络，因此，可以表示所有的布尔函数。事实上，只需要两层深度的网络，比如表示析取范式注意，要把一个AND感知器的输入求反只要简单地改变相应输入权的符号因为感知器网络可以表示大量的函数，而单独的单元不能做到这一点，所以感兴趣的是感知器训练法则虽然目的是学习由多个单元互连的网络，但还是要从如何学习开始单个感知器的学习任务，决定一个权

49、向量，它可以使感知器对于给定的训练样例输出正确的1或-1 主要考虑两种算法这两种算法保证收敛到可接受的假设，这两种算法提供了感知器法则算法过程从随机的权值开始反复应用这个感知器到每个训练样例，重复这个过程，直到感知器正确分类所有的训练样例感知器训练法则其中 iii www ii xotw)( 感知器法则（2）为什么这个更新法则会成功收敛到正确的权值呢？一些例子能说明收敛过程可以证明（Minskey Parker 教科书 Duda & Hart Windrow & Stearns Rumelhart & McClelland 第5章算法的评估与比较 (Evaluati

50、ng Hypotheses) 概述对是机器学习中的基本问题本章用统计方法估计算法精度，主要解决以下三个问题：已知一个假设在有限数据样本上观察到的精度，怎样估计它在其它实例上的精度？如果一个算法在某些数据样本上好于另一个，那么一般情况下该算法是否更准确？当数据有限时，怎样高效地利用这些数据，通过它们既能学习到假设，还能估计其精度？统计的方法，结合有关数据基准分布的假定，可以用动机对学习到的假设进行尽可能准确地性能评估十分重要为了知道是否可以使用该假设是许多学习方法的重要组成部分当给定的数据集有限时，要学习一个概念并估计其将来的精度，存在两个很关键的困难：估计的困难

51、使用与训练样例和假设无关的测试样例估计的方差即使假设精度在独立的无偏测试样例上测量，得到的精度仍可能与真实精度不同。测试样例越少，产生的方差越大重点讨论对学到的、对、的比较假设的评估两个假设精度的比较两个学习算法精度有一所有可能实例的空间X，其中定义了多个目标函数，假定X中不同实例具有不同的出现频率。一种合适的建模方式是，假定存在一未知的概率分布D，它定义了X中。学习任务是在假设空间上学习一个目标概念，训练样例的，然后连同正确的目标值提供给学习器。评估假设的问题给定假设h和包含若干按D分布抽取的样例的数据集，如何针对将来按同样分布抽取的实例，这一精度估计的是多少

52、定义：假设h关于目标函数f和数据样本S的（标记为 errors(h)）定义：假设h关于目标函数f和分布D的（标记为 errorD(h)） Sx s xhxf n herror)(),( 1 )( otherwise xhxf xhxf )()( 0 1 )(),( | Sn )()(Pr)(xhxfherror Dx D 样本错误率和真实错误率（2）想知道的是，因为这是在分类未来样例时可以预料到的误差。能测量的只是，因为样本数据是我们知道的。要考虑的问题是：在何种程度上提供了对？先考虑离散值假设的情况，比如：样本S包含n个样例，它们的，并且不依赖于假设h n=30 假设h在这n

53、个样例上犯了r个错误根据上面的条件，统计理论可以给出以下断言：没有其它信息的话，真实错误率errorD(h)最可能的值是样本错误率errorS(h)=r/n 有大约95%的可能性，真实错误率处于下面的区间内： n herrorherror herror SS S )(1)( 96.1)( 数据样本S包含n=40个样例，并且假设h在这些数据上产生了r=12个错误，这样样本错误率为errorS(h)=12/40=0.3 如果没有更多的信息，如果另外收集40个随机抽取的样例S，样本错误率errorS(h)将与原来的errorS(h)存在一些差别如果不断重复这一实验，每次抽取一个包含40

54、样例的样本，将会发现约95%的实验中计算所得的区间包含真实错误率将上面的区间称为errorD(h)的95%置信区间估计置信区间表达式的推广常数1.96是由95%这一置信度确定的定义zN为计算N%置信区间的常数（取值见下），计算 errorD(h)的N%置信区间的一般表达式（公式5.1）为：（5.1）可以求得同样情况下的68%置信区间，从直觉上可以看出68% 置信区间要小于95%置信区间，因为减小了要求errorD(h)落入的概率 n herrorherror zherror SS NS )(1)( )( confidence level 50%68%80%90%95%98%99

55、% z-score0.671.001.281.641.962.332.58 置信区间表达式的推广（2）公式5.1只能应用于，它，并且公式5.1只提供了近似的置信区间，这一近似在至少包含30 个样例，并且errorS(h)不太靠近0或1时很接近真实情况判断这种近似是否接近真实的更精确规则是： 5)(1)(herrorherrorn SS 统计学中的基本定义和概念随机变量某随机变量Y的概率分布随机变量Y的期望值或均值随机变量的方差 Y的标准差二项分布正态分布中心极限定理估计量 Y的估计偏差 N%置信区间样本错误率和真实错误率之间的如何？给定从总体中随机抽取的某些样本的观

56、察比例，估计某个属性在总体的比例此处，感兴趣的属性是：测量样本错误率相当于在作一个有从分布D中随机抽取n个独立的实例，形成样本S，然后测量样本错误率errorS(h) 将实验重复多次，每次抽取大小为n的不同的样本Si，得到不同的，取决于Si的组成中的随机差异，一般情况下，可以将随机变量看成一个有随机输出的实验。随机变量值即为随机实验的观察输出 )(herror i S )(herror i S 错误率估计和二项比例估计（3）设想要运行k个这样的随机实验，得到k个随机变量值，以图表的形式显示观察到的；当k不断增长，该图表将呈现二项分布。二项分布有一，要估计在抛硬币时出

57、现正面的概率p；投掷硬币n次并计算出现正面的次数r，那么p的一个合理估计是r/n；如果重新进行一次实验，生成一个新的n次抛硬币的集合，出现正面的次数r可能与前不同，得到对p的另一个估计；描述的是对任一可能的r值，这个正面概率为p的硬币抛掷n次恰好出现r次正面的概率。二项分布（2）从抛掷硬币的随机样本中与在实例的随机样本上测试h 以是相同的问题一次硬币抛掷对应于从D中抽取一个实例并测试它是否被h误分类一次抛掷出现正面的概率p对应于随机抽取的实例被误分类的概率errorD(h) 二项分布给出了一个，无论用于表示n 次硬币出现正面的次数还是在n个样例中假设出错的次数二项分布

58、的具体形式依赖于样本大小n以及概率p或errorD(h) 应用二项分布的条件有一基本实验，其输出可被描述为一随机变量Y，随机变量Y 有两种取值在实验的任一次尝试中Y=1的概率为常数p，它与其它实验尝试无关，因此Y=0的概率为1-p p为预先未知，面临的问题是如何估计基本实验的n次独立尝试按序列执行，生成一个独立同分布的随机变量序列随机变量R表示n次实验中出现Yi=1的次数，它取特定值r的概率由二项分布给出（5.2） rnr pp rnr n rR )1( )!( ! ! )Pr( 均值期望值是重复采样随机变量得到的值的平均定义：考虑随机变量Y可能的取值为y1.yn，Y的期望

59、值EY定义如下：如果随机变量Y服从二项分布，那么可得EY=np n i ii yYyYE 1 )Pr( 方差方差描述的是概率分布的宽度或散度，描述了随机变量与其均值之间的差有多大定义：随机变量Y的方差VarY定义如下：描述了从Y的一个观察值估计其均值EY的误差平方的期望随机变量Y的标准差Y 若随机变量Y服从二项分布，则方差和标准差分别为： VarY=np(1-p) )( 2 YEYEYVar )( 2 YEYE Y )1(pnp Y 估计量、偏差和方差回到问题：我们得出了随机变量errorS(h)服从二项分布，那么errorS(h)和errorD(h)之间可能的差异是多少？用

60、5.2式定义的二项分布，可得 errorS(h)=r/n errorD(h)=p 统计学中将errorS(h)称为errorD(h)的一个估计量是用来估计总体的某一参数的随机变量，最关心的是它平均来说是否能产生正确估计估计量、偏差和方差（2）衡量估计量的期望值同真实参数值之间的差异定义：针对任意参数p的估计量Y的估计偏差是：EY-p 如果估计偏差为0，称Y为p的，在此情况下，由多次重复实验生成的Y的多个随机值的平均将收敛于p 由于errorS(h)服从二项分布，因此errorS(h)是errorD(h)的一个对估计偏差的补充说明：要使errorS(h)是errorD(h)的无偏

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

机器学习汇总PPT学习课件

文档简介

温馨提示

最新文档

评论

相关文档