版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
在开篇之前,想和大家聊一下机器学习和数据挖掘的关系。如上图所示数据挖掘只是机器学习中涉猎的领域之一,机器学习还有模式识别、计算机视觉、语音识别、统计学习以及自然语言处理等。机器学习即ML,是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。机器学习作为人工智能研究较为年轻的分支,机器学习也分监督学习和非监督学习,同时随着人工智能越来越被人们重视和越热,深度学习也是机器学习的一个新的领域。机器学习,从知识清单开始我们第一天学开车的时候一定不会直接上路,而是要你先学习基本的知识,然后再进行上车模拟。只有对知识有全面的认知,才能确保在以后的工作中即使遇到了问题,也可以快速定位问题所在,然后找方法去对应和解决。所以我列了一个机器学习入门的知识清单,分别是机器学习的一般流程、十大算法、算法学习的三重境界,以此来开启我们的学习之旅。一、机器学习的基本流程引用大佬的解释:AcomputerprogramissaidtolearnfromexperienceEwithrespecttosometaskTandsomeperformancemeasureP,ifitsperformanceonT,asmeasuredbyP,improveswithexperienceE.
—TomMitchell简单来说,机器学习就是针对现实问题,使用我们输入的数据对算法进行训练,算法在训练之后就会生成一个模型,这个模型就是对当前问题通过数据捕捉规律的描述。然后我们将模型进一步导入数据,或者引入新的数据集进行评估,根据结果的好坏反过来调整算法,形成反馈和优化闭环。整个过程机器在不断的学习、训练和优化迭代,这个也是机器学习强大的地方。二、机器学习的十大算法为了进行机器学习和数据挖掘任务,数据科学家们提出了各种模型,在众多的数据挖掘模型中,国际权威的学术组织ICDM(theIEEEInternationalConferenceonDataMining)评选出了十大经典的算法。按照不同的目的,我可以将这些算法分成四类,以便你更好的理解。分类算法:C4.5,朴素贝叶斯(NaiveBayes),SVM,KNN,Adaboost,CART聚类算法:K-Means,EM关联分析:Apriori连接分析:PageRank1.C4.5C4.5算法是得票最高的算法,可以说是十大算法之首。C4.5是决策树的算法,它创造性地在决策树构造过程中就进行了剪枝,并且可以处理连续的属性,也能对不完整的数据进行处理。它可以说是决策树分类中,具有里程碑式意义的算法。2.
朴素贝叶斯(NaiveBayes)朴素贝叶斯模型是基于概率论的原理,它的思想是这样的:对于给出的未知物体想要进行分类,就需要求解在这个未知物体出现的条件下各个类别出现的概率,哪个最大,就认为这个未知物体属于哪个分类。3.SVMSVM的中文叫支持向量机,英文是SupportVectorMachine,简称SVM。SVM在训练中建立了一个超平面的分类模型。4.KNNKNN也叫K最近邻算法,英文是K-NearestNeighbor。所谓K近邻,就是每个样本都可以用它最接近的K个邻居来代表。如果一个样本,它的K个最接近的邻居都属于分类A,那么这个样本也属于分类A。5.AdaBoostAdaboost在训练中建立了一个联合的分类模型。boost在英文中代表提升的意思,所以Adaboost是个构建分类器的提升算法。它可以让我们多个弱的分类器组成一个强的分类器,所以Adaboost也是一个常用的分类算法。6.CARTCART代表分类和回归树,英文是ClassificationandRegressionTrees。像英文一样,它构建了两棵树:一颗是分类树,另一个是回归树。和C4.5一样,它是一个决策树学习方法。7.AprioriApriori是一种挖掘关联规则(associationrules)的算法,它通过挖掘频繁项集(frequentitemsets)来揭示物品之间的关联关系,被广泛应用到商业挖掘和网络安全等领域中。频繁项集是指经常出现在一起的物品的集合,关联规则暗示着两种物品之间可能存在很强的关系。8.K-MeansK-Means算法是一个聚类算法。你可以这么理解,最终我想把物体划分成K类。假设每个类别里面,都有个“中心点”,即意见领袖,它是这个类别的核心。现在我有一个新点要归类,这时候就只要计算这个新点与K个中心点的距离,距离哪个中心点近,就变成了哪个类别。9.EMEM算法也叫最大期望算法,是求参数的最大似然估计的一种方法。原理是这样的:假设我们想要评估参数A和参数B,在开始状态下二者都是未知的,并且知道了A的信息就可以得到B的信息,反过来知道了B也就得到了A。可以考虑首先赋予A某个初值,以此得到B的估值,然后从B的估值出发,重新估计A的取值,这个过程一直持续到收敛为止。EM算法经常用于聚类和机器学习领域中。10.PageRankPageRank起源于论文影响力的计算方式,如果一篇文论被引入的次数越多,就代表这篇论文的影响力越强。同样PageRank被Google创造性地应用到了网页权重的计算中:当一个页面链出的页面越多,说明这个页面的“参考文献”越多,当这个页面被链入的频率越高,说明这个页面被引用的次数越高。基于这个原理,我们可以得到网站的权重划分。算法可以说是机器学习的灵魂,也是最精华的部分。这10个经典算法在整个机器学习领域中的得票最高的,后面的一些其他算法也基本上都是在这个基础上进行改进和创新。今天你先对十大算法有一个初步的了解,你只需要做到心中有数就可以了。三、机器学习的三大境界1.
掌握算法入口出口第一重境界,将算法本身是做黑箱,在不知道算法具体原理的情况下能够掌握算法的基本应用情景(有监督、无监督),以及算法的基本使用情景,能够调包实现算法。2.
理解原理,灵活调优第二重境界则是能够深入了解、掌握算法原理,并在此基础上明白算法实践过程中的关键技术、核心参数,最好能够利用编程语言手动实现算法,能够解读算法执行结果,并在理解原理的基础上对通过调参对算法进行优化。3.
融会贯通,设计算法最后一重境界,实际上也是算法(研发)工程师的主要
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度餐饮商铺租赁协议样本
- 2024年建筑钢筋供应化协议模板
- 电商平台竞业限制协议书
- 多功能储油罐设计与施工方案
- 管理人员劳动合同
- 2024年专项工程垫资合作协议
- 个性配饰特许经营协议
- 马桶隧道窑课程设计
- 中医健康管理服务协议书
- 快递行业邮件分拣外包服务效率方案
- 骨质疏松的分级诊疗及医联体的建设方案
- 河南师范大学《解析几何》2021-2022学年第一学期期末试卷
- 2024-2030年听力保护耳塞行业市场现状供需分析及投资评估规划分析研究报告
- 3.4问题解决策略:归纳-2024-2025年北师大版《数学》七年级上册
- 2024年贵州黔东南州直事业单位遴选工作人员42人历年高频难、易错点500题模拟试题附带答案详解
- 2024年中国智慧养老行业市场现状、发展概况、未来前景分析报告
- 临建板房搬迁合同模板
- 少儿美术课件国家宝藏系列《凤冠》
- 天翼云从业者认证考试题库及答案
- 旅游景区的提升规划方案
- 国家能源集团国神公司招聘笔试题库2024
评论
0/150
提交评论