大数据基础培训系列机器学习算法课件_第1页
大数据基础培训系列机器学习算法课件_第2页
大数据基础培训系列机器学习算法课件_第3页
大数据基础培训系列机器学习算法课件_第4页
大数据基础培训系列机器学习算法课件_第5页
已阅读5页,还剩12页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

目录

1.概念及术语

2.有监督学习算法汇总

3.无监督学习算法汇总

4.经典算法之CART5.经典算法之k-meansclustering6.经典算法之SupportVectorMachine7.经典算法之Apriori8.经典算法之ExpectationMaximization9.经典算法之PageRank10.经典算法之AdaBoost11.经典算法之kNN12.经典算法之NaiveBayes11.概念及术语

机器学习:机器学习(MachineLearning,ML)是一门多领域交叉学科,涉及概率论、统计学、逼近论、凸分析、算法复杂度理论等多门学科。专门研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。它是人工智能的核心,是使计算机具有智能的根本途径,其应用遍及人工智能的各个领域,它主要使用归纳、综合而不是演绎。

机器学习是用于解答学习问题的算法。

学习问题:给定具有m个特征(feature/attribute)n个样本(sample/entry),并预测未知数据的性质。

有监督学习

(supervisedlearning)无监督学习(unsupervisedlearning)?Classification?Clustering?Regression?Biclustering?Densityestimation?Manifoldlearning?MatrixFactorization?Covarianceestimation?NoveltyandOutlierDetection22.有监督学习算法汇总

?Regression?Classification①OrdinaryLeastSquares②ElasticNet③OrthogonalMatchingPursuit④BayesianRegression⑤RandomSampleConsensus⑥Polynomialregression⑦KernelRidgeRegression⑧SupportvectorRegression⑨StochasticGradientDescent⑩NearestNeighbors11GaussianProcessRegression12DecisionTrees13RandomForest14AdaBoost15GradientTreeBoosting16Labelpropagation17Neuralnetworkmodels①LinearDiscriminantAnalysis②QuadraticDiscriminantAnalysis③LogisticRegression④SupportVectorClassification⑤StochasticGradientDescent⑥NearestNeighbors⑦Na?veBayes⑧DecisionTrees⑨RandomForest⑩AdaBoost11GradientTreeBoosting12Neuralnetworkmodels33.无监督学习算法汇总

?Clustering①K-Means②Affinitypropagation③Mean-shift④SpectralClustering⑤WardHierarchicalClustering⑥AgglomerativeClustering⑦DBSCAN⑧GaussianMixtures⑨BirchMatrixFactorization①Principalcomponentanalysis②Truncatedsingularvaluedecomposition③DictionaryLearning④FactorAnalysis⑤Independentcomponentanalysis⑥Non-negativematrixfactorization⑦LatentDirichletAllocation?CovarianceEstimation①EmpiricalCovariance②ShrunkCovariance③SparseInverseCovariance④RobustCovariance?ManifoldLearing①Isomap②LocallyLinearEmbedding③HessianEigenmapping④SpectralEmbedding⑤LocalTangentSpace⑥Multi-dimensionalScaling⑦T-distributedStochastic?Biclustering①SpectralCo-Clustring②SpectralBiclustering?NoveltyandOutlierDetection①One-classSVM②Ellipticenvelope③IsolatingForest④Localoutlierfactor?DensityEstimation①KernelDensityEstimation4?4.经典算法之CART

ID31986年由RossQuinlan提出,从根节点(rootnode)开始,对节点计算所有可能的特征的信息增益,选择使信息增益最大的特征作为节点的特征,由该特征的不同取值建立子节点,再对子节点递归地调用以上方法,构建决策树,直到所有特征的信息增益均很小或没有特征可以选择为止。然后,以叶节点数为约束,采用惩罚函数法建立损失函数,以损失函数最小为准则剪枝。ID3相当于用极大似然法进行概率模型的选择。

C4.5继承自ID3,增加对连续变量离散化的支持,采用信息增益比为特征选择准则。

C5.0继承自C4.5,适用于处理大数据集,改进了执行效率及内存占用率。

CART递归构建二叉树。对回归树采用L1或L2损失函数最小化作为分裂准则,对分类树用基尼不纯度最小化或信息增益最大化作为分裂准则

案例:17年8月,针对实验中心曹受天提供宇通及竞争车型的纵向加速度数据(五个测点)进行了分析,找出区分度最大的条件,从而了解与竞争车型之间的区别。

55.经典算法之k-meansclustering

给定的样本及聚类中心数k,找到最k个中心点μi,将所有样本点划分到距离最近的中心点。如广场上有100个大妈在跳广场舞,选择5个特征,即曲风、胖瘦、高矮、衣服颜色、年龄,将他们划分为5个类别,但并不事先对张三、李四指定类别,我们只是是定类别数量,最终聚类结果由算法自动给出。

聚类算法工作过程

三种不同距离的图像及定义

66.经典算法之SupportVectorMachine

如下图所示,最简单的SVM就是一根直线,他把归属于两类的广场舞大妈划分成红派及绿派。我们预判,如果又来了几个大妈,如果他是红派的,那么会站在蓝线下方,如果是绿派大妈会站在蓝线上方。距离这根线最近的大妈称为支持向量supportvector。牛逼吧?然而,面对右边的场景,如何用直线把美女圈出来呢?…….答案是不可能。这时候你需要核函数kernelfunction,它能把圈美女问题变换成红蓝派划分问题。

RBF核函数原坐标的椭圆变换成新坐标空间的直线

77.经典算法之Apriori

Apriori算法学习数据的关联规则(associationrules),适用于包含大量事务(transcation)的数据库。

什么是关联规则?关联规则学习是学习数据库中不同变量中的相互关系的一种数据挖掘技术。

假设有一个充满超市交易数据的数据库,可以把数据库想象成一个巨大的电子数据表,如下。

表里每一行是一个顾客的交易情况,每一列代表不用的货物项。通过使用Apriori算法,我们就知道了同时被购买的货物项(关联规则)。

观察商标,你能发现相比较其他货物来说,有一些货物更频繁的被同时购买(终极目的是让购物者买更多的东西)。这些常被一起购买的货物项被称为项集(itemset),如“薯条+蘸酱”和“薯条+苏打水”的组合频繁的一起出现。这些组合被称为2-itemsets。在一个足够大的数据集中,就会很难“看到”这些关系了,尤其当还要处理3-itemset或者更多项集的时候。这正是Apriori可以帮忙的地方。

基本的Apriori算法有三步:

扫描一遍整个数据库,剪满足支持度和可信度重复,对于每种水平的计算1-itemsets出现的的这些1-itemsets移动项集

一直重复计算,频率。

到下一轮流程,再寻找知道我们之前定义的项出现的2-itemsets。

集大小为止。

88.经典算法之ExpectationMaximization

98.经典算法之ExpectationMaximization

98.经典算法之ExpectationMaximization

98.经典算法之ExpectationMaximization

98.经典算法之ExpectationMaximization

99.经典算法之PageRank

PageRank是SergeyBrin与LarryPage于1998年在WWW7会议上提出来的,用来解决链接分析中网页排名的问题。在衡量一个网页的排名时:

?当一个网页被更多网页所链接时,其排名会越靠前;

?排名高的网页应具有更大的表决权,即当一个网页被排名高的网页所链接时,其重要性也应对应提高。

以上两点就是PageRank的基本思想:一个网页的排名等于所有链接到该网页的网页的加权排名之和:

PRi表示第i个网页的PageRank值,用以衡量每一个网页的排名;若排名越高,则其PageRank值越大。网页之间的链接关系可以表示成一个有向图G=(V,E),边(j,i)代表了网页j链接到了网页i;Oj为网页j的出度,也可看作网页j的外链数(thenumberofout-links)。记P=(PR1,PR2,?,PRn)T为n维PageRank值向量,A为有向图G所对应的转移矩阵,则元PRi可以写成矩阵形式:

但是,为了获得某个网页的排名,而需要知道其他网页的排名,这不就等同于“是先有鸡还是先有蛋”的问题了么?幸运的是,PageRank采用poweriteration方法破解了这个问题怪圈。

1010.经典算法之AdaBoost

集成方法(ensemblemethods)结合了不同预测模型的结果,相较于单预测模型鲁棒性或泛化能力更强。时下流行的集成方法有两类,一类是平均方法,如baggingmethods、forestsofrandomizedtrees,通过对各个独立的模型预测结果求平均减弱过拟合,适用于复杂的模型,如fullydevelopeddecisiontrees;另一类是增强方法(boostingmethods),如AdaBoost、GradientTreeBoosting,通过顺序建立预测模型集合降低偏差,适用于弱模型,如shallowdecisiontrees.

α1+α2+α3

1111.经典算法之kNN

KNN是通过测量不同特征值之间的距离进行分类。它的的思路是:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。K通常是不大于20的整数。KNN算法中,所选择的邻居都是已经正确分类的对象。该方法在定类决策上

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论