机器学习公开课_第1页
机器学习公开课_第2页
机器学习公开课_第3页
机器学习公开课_第4页
机器学习公开课_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

机器学习入门蒋龙2012年6月17日Outline计算机自动从数据中发现规律,并应用于解决新问题给定数据(X1,Y1),(X2,Y2),…,(Xn,Yn),机器自动学习X和Y之间的关系,从而对新的Xi,能够预测Yi垃圾邮件识别:(邮件1,垃圾),(邮件2,正常),(邮件3,垃圾),…(邮件N,正常)邮件X=>垃圾or正常?从输入规则到输入数据从机器执行到机器决策什么是机器学习基于规则的问题解决框架测试数据发现规律预测预测结果规则邮件XiYi:垃圾or正常发件人邮件地址异常;标题含有“低价促销”…机器学习执行框架训练数据测试数据学习预测预测结果模型训练过程应用过程(X1,Y1)(X2,Y2)…(Xn,Yn)XiYi1,8,27,64,?125f(n)=n^31,3,6,10,?15f(n)=f(n-1)+nf(n)=(n^2+n)/2智商测试1,3,6,10,?151,8,27,64,?125假设构造

f(n)=n^3K=3,a1=1,a2,…,ak,b=0f(n)=(n^2+n)/2K=2,a1=1/2,a2=1/2,a3,..,ak,b=0发现规律的过程模型(族)参数参数参数参数估计假设选择确定策略(目标):准确解释已知数据f(1)=1,f(2)=3,f(3)=6,f(4)=10模型训练:确定模型参数调整参数的值以满足策略需要优化算法K=2,a1=1/2,a2=1/2,a3,..,ak,b=0=>f(n)=(n^2+n)/2发现规律的过程模型问题的影响因素(特征)有哪些?它们之间的关系如何?策略什么样的模型是好的模型算法如何高效的找到最优参数机器学习三要素又一道智商测试:6,34,102,228,?f(n)=3*n^3+2*n^2+n为什么需要机器学习计算能力大数据,快速信息交换能力强不受情绪影响应用人机对弈天气预测图象处理语音识别自然语言处理为什么需要机器学习监督学习给定数据(X1,Y1),(X2,Y2),…,(Xn,Yn)对新的Xi,预测其Yi分类,回归非监督学习给定数据X1,X2,…,Xnf(Xi),f(Xi,Xj)概率估计,降维,聚类监督VS非监督批量在线主动学习(Activelearning)新数据在线VS批量学习效果,真实效果封闭测试(close),开放测试(opentest)交叉验证(crossvalidation)N-foldcrossvalidation验证集Validationdataset效果评测更好的效果?更多数据1,2,?3or4or…?更好的模型泛化能力效果评测什么是机器学习机器学习的执行框架学习过程的阶段机器学习三要素监督学习与非监督学习批量与在线学习效果评测小结Outline最常见的机器学习任务定义:给定一个对象X,将其划分到预定义好的某一个类别yi中输入X输出Y(取值于有限集{y1,y2,…yn})应用:人群,新闻分类,Query分类,商品分类,网页分类,垃圾邮件过滤,网页排序分类类别数量二值分类Y的取值只有两种,如:email是否垃圾邮件多值分类Y的取值大于两个,如:网页分类{政治,经济,体育,…}类别关系水平分类类别之间无包含关系层级分类类别形成等级体系不同类型的分类新闻分类任务为任一新闻,例如{股市,反弹,有力,基金,建仓,加速…}指定其类别=>{军事,财经,科技,生活…}基于规则的方式列举每个类别的常用词军事:导弹,军舰,军费,。。。科技:云计算,siri,移动互联网,。。。问题如果保证列举全?冲突如何处理?苹果:科技?生活?不同的词有不同的重要度,如何决定?如果类别很多怎么办?新闻分类确定模型(线性假设)训练数据(谷歌推出新措施打击Google+垃圾信息,科技)(安信地板否认为万科提供E0级产品,房产)(欧洲央行超预期“撒钱”释放流动…,财经)机器学习策略调整每个词对每个类别的预测能力(wij),尽可能对训练数据正确分类基于机器学习的分类新闻分类特征表示:X={昨日,是,国内,投资,市场…}特征选择:X={国内,投资,市场…}模型选择:朴素贝叶斯分类器训练数据准备:(X,Y)1,(X,Y)2,(X,Y)3,…模型训练:learn.exetrainingDataFilemodel预测(分类):classify.exemodelnewDataFile评测:Accuracy:90%分类任务解决流程概率分类器NB,ME计算待分类对象属于每个类别的概率,选择概率最大的类别作为最终输出空间分割Perceptron,SVM其他KNN1234+++++++****#****####分类技术朴素贝叶斯(NaïveBeyes,NB)分类器概率模型基于贝叶斯原理P(X):待分类对象自身的概率,可忽略P(yi):每个类别的先验概率,如P(军事)P(X|yi):每个类别产生该对象的概率P(xi|yi):每个类别产生该特征的概率,如P(苹果|科技)朴素贝叶斯分类策略:最大似然估计(maximumlikelihoodestimation,MLE)P(Yi)Count(yi):类别为yi的对象在训练数据中出现的次数例如:总共训练数据1000篇,其中军事类300篇,科技类240篇,生活类140篇,….P(军事)=0.3,p(科技)=0.24,p(生活)=0.14,…模型训练/参数估计最大似然估计(maximumlikelihoodestimation,MLE)P(Yi)Count(xj,yi):特征xj和类别yi在训练数据中同时出现的次数例如:总共训练数据1000篇,其中军事类300篇,科技类240篇,生活类140篇,….军事类新闻中,谷歌出现15次,投资出现9次,上涨出现36次P(谷歌|军事)=0.05,p(投资|军事)=0.03,p(上涨|军事)=0.12…模型训练/参数估计P(yi)P(军事)=0.3,p(科技)=0.24,p(生活)=0.14,…P(xi|yi)P(谷歌|军事)=0.05,p(投资|军事)=0.03,p(上涨|军事)=0.12…P(谷歌|科技)=0.15,p(投资|科技)=0.10,p(上涨|科技)=0.04…P(谷歌|生活)=0.08,p(投资|生活)=0.13,p(上涨|生活)=0.18…….模型示例分类原则给定X,计算所有的p(yi|X),选择概率值最大的yi作为输出X={国内,投资,市场…}P(军事|X)=P(国内|军事)*p(投资|军事)*p(市场|军事)…p(军事)同样计算P(科技|X)P(生活|X)…二值和多值分类同样的做法预测测试数据(微软更新必应搜索,科技)(安街首名企精装直降30万,房产)(国际板利空突袭周一大盘堪忧,财经)…混淆表混淆表(confusiontable)分类器预测的类别y1y2实际的类别y1C11C12y2C21C22评测准确度Accuracy:

(C11+C22)/(C11+C12+C21+C22)精确率Precision(y1):C11/(C11+C21)召回率Recall(y1):C11/(C11+C12)混淆表(confusiontable)分类器预测的类别y1y2实际的类别y1C11C12y2C21C22评测指标准确度Accuracy:

(50+35)/(35+5+10+50)=85%精确率Precision(军事):50/(50+5)=90.9%召回率Recall(军事):50/(50+10)=83.3%混淆表(confusiontable)分类器预测的类别军事科技实际的类别军事(60)5010科技(40)535评测指标优点简单有效结果是概率,对二值和多值同样适用缺点独立性假设有时不合理=>最大熵分类朴素贝叶斯分类特点什么是分类?类型有哪些?机器学习处理分类问题的步骤朴素贝叶斯分类模型,策略,方法分类问题评测小结Outline机器学习与自然语言处理课程介绍理论内容分类问题概述(特点,实例,评测)朴素贝叶斯分类最大熵分类SVM分类特征选择实训:文本分类应用(新闻分类/Query分类), 分别用朴素贝叶斯方法,最大熵和SVM方法完成分类算法及应用理论内容回归问题概述(特点,评测)线性回归逻辑回归实训:广告点击率预估应用(逻辑回归)回归模型谷歌,百度的主要收入来源广告广告搜索广告模型给定一个广告和一个特定的Query,预测该广告被点击的可能性特征,即Xi广告质量广告创意与用户query的相关性价格,成交量,…搜索广告CTR预估理论内容马尔科夫模型语言模型隐马尔科夫模型实训:中文分词应用Query拼写纠错图模型及应用Query拼写纠错Query拼写纠错基于隐马尔可夫模型的Query拼写纠错迪斯尼玩具迪士尼玩具迪蒂狄斯士尼妮昵玩完丸具居巨思Query拼写纠错理论内容聚类问题概述(特点,评测)层级聚类与K均值聚类上下文相似度计算实训Query聚类应用(层级聚类和K均值聚类)聚类算法及应用Query聚类

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论