统计机器学习陈明1introduction_第1页
统计机器学习陈明1introduction_第2页
统计机器学习陈明1introduction_第3页
统计机器学习陈明1introduction_第4页
统计机器学习陈明1introduction_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、,统计机器学习(Statistical Machine Learning),2,什么是机器学习,“机器学习是一门人工智能的科学,该领域的主要研究对象是人工智能,特别是如何在经验学习中改善具体算法的性能。” “机器学习是对能通过经验自动改进的计算机算法的研究。” 本书中的观点:“机器学习是用数据或以往的经验,以此优化计算机程序的性能标准。”,什么是机器学习,总结: 人工智能的重要组成部分 利用经验数据改善系统自身性能 已广泛应用于多个领域; 大数据分析 网络搜索 金融市场预测 ,为什么需要机器学习?,美国航空航天局JPL实验室的科学家在Science(2001年9月)上撰文指出:机器学习对科学研

2、究的整个过程正起到越来越大的支持作用,该领域在今后的若干年内将取得稳定而快速的发展 Machine learning forms the core of may present-day AI applications Gary Anthes, Future Watch: AI comes of age, , 2009.1.26,为什么需要机器学习?,2004年,机器学习被 MIT Technology Review 列入10 Emerging Technologies that will Change Your World 2010年度图灵奖授予机器学习理论创始人、哈佛大学Leslie Val

3、iant教授 2011年度图灵奖授予概率图模型奠基者、加州大学洛杉矶分校Judea Pearl 教授,图灵奖连续两年颁发给机器学习先驱开创者,深度学习与机器学习,深度学习(deep learning)是机器学习领域中一系列试图使用多重非线性变换对数据进行多层抽象的算法,本质上是机器学习中特征学习方法的一类。 至今已有多种深度学习框架:深度神经网络,卷积神经网络,深度信念网络。 已被应用于多个领域:计算机视觉,语音识别,自然语言处理等。,大数据与机器学习,机器学习几乎无处不在,即便我们没有专程调用它,也经常出现在大数据应用中。机器学习对大数据应用的贡献主要体现在: 促进数据科学家们的多产性 发现

4、一些被忽视的方案 上述价值来自于机器学习的核心功能:让分析算法无需人类干预和显式程序即可对最新数据进行学习。这就允许数据科学家们根据典型数据集创建一个模型,然后利用算法自动概括和学习这些范例和新的数据源。,Books and References,主要参考书 Ethem Alpaydn著,范明等译,机器学习导论第2版,机械工业出版社,2014. 更基础的参考书 李航,统计学习方法,清华大学出版社,2012. 罗杰斯,吉罗拉米 著,郭茂祖 等译 ,机器学习基础教程,机械工业出版社,2013 其他更有难度的参考书 迪达等著,李宏东等译, 模式分类,机械工业出版社,2003 Trevor Hasti

5、e, Robert Tibshirani, Jerome Friedman著,范明,柴玉梅,昝红英译,统计学习基础数据挖掘、推理与预测, 电子工业出版社,2004 英文版 The elements of statistical learning第2版,2015年出版 西奥多里蒂斯等著,李晶皎等译,模式识别(第四版),电子工业出版社,2010 Christopher M. Bishop Pattern Recognition and Machine Learning2006 视频教程 斯坦福大学 机器学习,网易公开课,主讲人:Andrew Ng 中国科学院 统计学习教程 主讲人:卿来云,Reso

6、urces: Datasets,UCI Repository: UCI KDD Archive: Statlib: Delve:,9,Resources: Journals,Journal of Machine Learning ResearchMachine Learning Neural Computation Neural Networks IEEE Transactions on Neural Networks IEEE Transactions on Pattern Analysis and Machine Intelligence Annals of Statistics Jour

7、nal of the American Statistical Association .,10,Resources: Conferences,International Conference on Machine Learning (ICML) European Conference on Machine Learning (ECML) Neural Information Processing Systems (NIPS) Uncertainty in Artificial Intelligence (UAI) Computational Learning Theory (COLT) In

8、ternational Conference on Artificial Neural Networks (ICANN) International Conference on AI & Statistics (AISTATS) International Conference on Pattern Recognition (ICPR) .,11,Lecture Notes for E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press (V1.0),12,Training set X,Lecture Notes for

9、 E Alpaydn 2010 Introduction to Machine Learning 2e The MIT Press (V1.0),13,a Supervised Learner,Model: Loss function: Optimization procedure:,Why Learning is Difficult?,Given a finite amount of training data, you have to derive a relation for an infinite domain In fact, there is an infinite number

10、of such relations,三类基本的机器学习问题(1),模式分类问题:输出y是类别标号,两类情况下y=1,-1,预测函数称作指示函数(Indicator Function),损失函数定义见下式,使期望风险最小就是Bayes决策中使错误率最小。,三类基本的机器学习问题(2),回归问题:输出y是连续变量,它是x的函数,损失函数定义见下式:,统计学习的基本方法,有监督/无监督学习 有监督(Supervised):分类、回归 无监督(Unsupervised):概率密度估计、聚类、降维 半监督(Semi-supervised):EM、Co-training 其他学习方法 增强学习(Reinf

11、orcement Learning) 多任务学习(Multi-task learning),有监督学习,标定的训练数据 训练过程:根据目标输出与实际输出的误差信号来调节参数 典型方法 全局:BN, NN,SVM, Decision Tree 局部:KNN、CBR(Case-base reasoning),A11,A12,A1m A21,A22,A2m An1,An2,Anm,n instance,m attributes,Output,-C1 -C2 - - -Cn,Training, ,19,无监督学习,不存在标定的训练数据 学习机根据外部数据的统计规律(e.g. Cohension & d

12、ivergence )来调节系统参数,以使输出能反映数据的某种特性。 典型方法 K-means、SOM.,示例:聚类,A11,A12,A1m A21,A22,A2m An1,An2,Anm,n instance,m attributes,Output,-C1 -C2 - - -Cn,X X ,Task,半监督学习,结合(少量的)标定训练数据和(大量的)未标定数据来进行学习 典型方法 Co-training、EM、Latent variables.,A11,A12,A1m A21,A22,A2m An1,An2,Anm,n instance,m attributes,Output,-C1 -?

13、- - -Cn, X ,21,其他学习方法,增强学习(Reinforcement Learning) :外部环境对输出只给出评价信息而非正确答案,学习机通过强化受奖励的动作来改善自身的性能。,附录、典型机器学习包介绍,23,典型的机器学习开发包,OpenCV:Machine Learning Library 介绍内容来自OpenCV机器学习中文参考手册 Weka:Machine learning/data mining software written in Java 介绍的PPT节选自E. FrankMachine Learning with WEKA SVM开发包 LIBSVM SVM-L

14、ight ,OpenCV structure,CXCORE basic structures and algoritms, XML support, drawing functions,CV Image processing and vision,HighGUI GUI, Image and Video I/O,ML Machine Learning algorithms,CVCam video stream processing,OpenCV-ML: Overview,机器学习库(MLL)是一些用于分类、回归和数据聚类的类和函数 通用类和函数CvStatModel Normal Bayes

15、分类器CvNormalBayesClassifier K近邻算法 CvKNearest 支持向量机CvSVM 决策树CvDTreeSplit Boosting CvBoost Random Trees CvRTrees Expectation-Maximization CvEM 神经网络CvANN_MLP 使用前添加ml.lib及相应的头文件目录,WEKA: the software,By University of Waikato, New Zealand Machine learning/data mining software written in Java (distributed under the GNU Public License) Used for research, education, and applications Complements “Data Mining” by Witten & Frank Main fea

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论