机器学习综述_第1页
机器学习综述_第2页
机器学习综述_第3页
机器学习综述_第4页
机器学习综述_第5页
已阅读5页,还剩54页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

管窥机器学习邹博

2014年10月18日1机器学习在具体学习机器学习的过程中,往往是因为推导造成的障碍了解基本的高等数学知识是必要的机器学习比想象中要简单的多举例:kNN用于分类、基本的聚类过程2本次目标了解机器学习中的相关基本概念和常用方法初步掌握极大似然估计、梯度下降法的一般性计算套路熟悉最小二乘法的目标函数建立和解决方案了解期望最大化算法(EM算法)的思路3若干概念交叉验证泛化能力VC维监督学习无监督学习强化学习4机器学习算法的分类监督K近邻回归SVM决策树朴素贝叶斯BP神经网络非监督聚类AprioriFP-growth5交叉验证交叉验证(Cross-validation)也称为交叉比对,主要用于建模应用中。在给定的建模样本中,拿出大部分样本进行建模型,留小部分样本用刚建立的模型进行预报,并求这小部分样本的预报误差,记录它们的平方加和。这个过程一直进行,直到所有的样本都被预报了一次而且仅被预报一次。把每个样本的预报误差平方加和,称为PRESS(predictedErrorSumofSquares)。交叉验证是常用的精度测试方法,其目的是为了得到可靠稳定的模型。例如10折交叉验证(10-foldcrossvalidation),将数据集分成十份,轮流将其中9份做训练1份做测试,10次的结果的均值作为对算法精度的估计,一般还需要进行多次10折交叉验证求均值,例如:10次10折交叉验证,以求更精确一点。6交叉验证的形式Holdout验证通常来说,Holdout验证并非一种交叉验证,因为数据并没有交叉使用。随机从最初的样本中选出部分,形成交叉验证数据,而剩余的就当做训练数据。一般来说,少于原本样本三分之一的数据被选做验证数据。K-foldcross-validationK折交叉验证,初始采样分割成K个子样本,一个单独的子样本被保留作为验证模型的数据,其他K-1个样本用来训练。交叉验证重复K次,每个子样本验证一次,平均K次的结果或者使用其它结合方式,最终得到一个单一估测。这个方法的优势在于,同时重复运用随机产生的子样本进行训练和验证,每次的结果验证一次,10折交叉验证是最常用的。留一验证意指只使用原本样本中的一项来当做验证资料,而剩余的则留下来当做训练资料。这个步骤一直持续到每个样本都被当做一次验证资料。事实上,这等同于K-fold交叉验证是一样的,其中K为原本样本个数。7泛化能力概括地说,所谓泛化能力(generalizationability)是指机器学习算法对新鲜样本的适应能力。学习的目的是学到隐含在数据对背后的规律,对具有同一规律的学习集以外的数据,经过训练的算法也能给出合适的输出,该能力称为泛化能力。通常期望经训练样本训练的算法具有较强的泛化能力,也就是对新输入给出合理响应的能力。应当指出并非训练的次数越多越能得到正确的输入输出映射关系。算法的性能主要用它的泛化能力来衡量。8VC维对于一个分类H,我们定义它的VapnikChervonenkisdimension,记做VC(H):指的是能够被H打散的最大集合的数目。打散:shatter如果H能够打散任意数目的集合,我们定义VC(H)=∞9VC维考虑如图所示,3个点的集合:103个点可完全分开(zerotrainingerror)11一个集合,不是所有NotethattheVCdimensionofHhereis3eventhoughtheremaybesetsofsize3thatitcannotshatter.Forinstance,ifwehadasetofthreepointslyinginastraightline(leftfigure),thenthereisnowaytofindalinearseparatorforthelabelingofthethreepointsshownbelow(rightfigure):12再次强调在VC维的定义下,为了证明VC(H)至少是d,我们只需要证明至少存在一个大小是d的集合是可以被打散的。如果对于任意的样本数,总能找到一个样本集,它能够被某分类H打散,则该分类H的VC维就是无穷大,这个分类H的学习性能也就是最好的。VC维反映了分类集的学习能力,VC维越大则学习机器越复杂(容量越大),遗憾的是,目前尚没有通用的关于任意分类集VC维计算的理论,只对一些特殊的分类集知道其VC维。例如在N维空间中线形分类器的VC维是N+1。13从下面几个问题入手机器学习k近邻向量距离聚类回归朴素贝叶斯微积分工具:最小二乘法、极大似然估计、梯度下降法14k近邻分类(属于有监督学习)15向量健间相攀似度师计算疫的方愿法欧式犬距离Pe圣ar蹲so论n相关纳系数(P蒸ea紧rs约on给c糠or款re探la穴ti税on园)余弦苗相似联度(c与os降in烘e读si诊mi修la门ri筝ty译)16k-均值当聚类(属于图无监槽督学刷习)创建k个点爹作为很起始经质心(如:苍随机衡选择脚起始旅质心)当任麻意一何个点政的簇酷分配塔结果虑发生法改变平时对数谊据集原中的因每个净数据恢点对每旺个质捏心计算台质心记与数册据点上之间何的距通离将数薄据点连分配愧到距瓣其最争近的竭簇对每韵个簇残,计巡寿算簇寒中所念有点纤的均宾值并宜作为珍质心思考喘:点秤的簇庙分配博结果幕发生牛改变胜的标占准如裁何判饿断?实践笛中可漆以选受择误报差的切平方鹊和最赌小更深身层的纳问题苍:为灿何如灯此选来择?17利用SS慕E进行肥聚类鲜后处捉理SS些E:禁S径um熄o廊f樱Sq断ua贺re阀d蛙Er旧ro酒r误差屯平方棵和18二分k-均值打聚类隆后的适结果19线性缺回归y=ax稍+b20多个厉变量绑的情贝形考虑住两个抗变量21最小尖二乘龄的目坟标函碎数m为样此本个烛数,扬则一具个比糟较“牺符合通常理兰”的增误差拌函数大为:继续访提问饺:如朋何解馅释和载定义清“符讨合常裂理”粗?22使用萌极大饺似然付估计价解释普最小象二乘23似然伪函数24对数是似然25计算赵极大遣似然缝函数曲的最喜优解26最小更二乘吊意义齿下的阀参数逃最优毕解27广义蓝逆矩扁阵(糕伪逆唤)若A为非庙奇异祥矩阵,则线表性方俊程组Ax饼=b的解亿为其中A的A的逆桨矩阵满足(I为单乡丰位矩慨阵)。若A是奇廊异阵悼或长霉方阵,脖x=闭A+b。A+叫做A的伪眼逆阵摸。19真55年R.彭罗鲁斯证旧明了唐对每袜个m×先n阶矩央阵A,都存跑在惟奸一的n×库m阶矩抗阵X,满验足:听①AX因A=促A;②XA书X=寨X;③(A漏X)糊*=I;④(X咐A)伏*=I。通昏常称X为A的穆供尔-彭罗硬斯广奇义逆盖矩阵,简称M-浙P逆,吸记作A+。在矛歌盾线轨性方防程组Ax=b的最勾小二躺乘解圾中,秋x=A+b是范阴数最住小的坡一个救解。在奇骂异值咽分解SV膀D的问那题中逝,将牙继续缎该话责题的滤讨论辞。28用回借归解臭决分龙类问凭题,萄如何声?29最简不单的淹例子隆:一贺维回钻归30Lo的gi怨st灿ic函数31Lo嚼gi鼻st井ic回归晋方程窃的建烈立32梯度减下降33Lo宣gi甩st念ic回归冷的过劳程描蚁述假定肤有M个样款本X,每颗个样烘本都碌是N维的烤。那项么,滩设需晓要求庙的参惕数记预做w,则w是N维向校量。y改=Lo竿gi歉st锹ic上(X仗w)上式俱就是堂要学闯习的泄目标洒函数尼。未知隶参数持是N个实肢参数w。使用彻极大做似然乡丰估计续,能之够建达立关篮于w的方做程。泰用梯钱度下猪降法漆,求庸该方贝程的罚梯度孙,设宇置合考适的跌学习紧率α解这N个参饿数w。34贝叶遣斯准范则条件讽概率志公式P(戒x|唱y)新=P(主x,滑y)反/P(寄y)P(敲x,缩慧y)僵=P(虫x|啦y)云*P(腊y)P(目y|程x)尝=P(径x,步y)尼/P(兔x)P(躲x,垄y)仔=P(政y|挡x)懂*P(柿x)则P(第x|蹲y)记*P(剑y)驶=P(菠y|飘x)枕*P(辰x)从而僚:P(眉x|俊y)番=P(促y|铺x)勺*P(促x)/P(职y)分类名原则阔:在立给定唤的条耍件下粥,哪陡种分概类发趴生的碌概率形大,幸则属高于那五种分碑类。35Ba宵ye隙s的实估例36后验王概率c1、c2表示劲左右纪两个斗信封谎。P(忽R),P(径B)表示阀摸到淋红球梯、黑移球的盲概率悠。P(纵R)高=P棋(R悠|c战1)贱*P海(c娘1)欣+患P筝(R肝|c来2)法*P鉴(c营2):全壤概率膜公式P(繁c1习|R练)=谱P(秤R|惠c1荣)*驴P(乎c1怒)/均P(层R)P(诸R|铲c1移)=絮2/兼4P(侵R|胁c2的)=难1/懂3P(屯c1密)=越P(讯c2刘)=注1/陪2如果押摸到延一个芬红球庭,那梅么,委这个征信封笔有1美元换的概间率是0.增6如果熄摸到板一个活黑球们,那超么,茧这个无信封侧有1美元拢的概棒率是3/坚737朴素销贝叶匀斯的欢假设一个妻特征粱出现地的概波率,丢与它顶相邻钞的特绘征没悼有关代系(付特征锯独立冷性)每个裹特征滚同等羡重要绸(特鸣征均拍衡性看)38以文英本分巨类为任例样本嘱:10啊00封邮抛件,穗每个装邮件骄被标耐记为脂垃圾脱邮件座或者筒非垃柏圾邮耀件分类妄目标急:给便定第10尿01封邮状件,粉确定误它是显垃圾乔邮件堡还是幻玉非垃虎圾邮槽件方法搞:朴妥素贝舒叶斯39分析类别c:垃梅圾邮必件c1,非格垃圾早邮件c2词汇伸表:战统计10忠00封邮冠件中第出现里的所槽有单姥词,粉记单纽奉词数诵目为N,即意形成价词汇泡表。将每拘个样瞧本si向量代化:沟初始两化N维向攻量xi,若甲词wj在si中出哥现,指则xi招j=1,否关则,俩为0。从轰而得居到10院00个N维向痛量x。使用应:P(即c|放x)=P(弱x|成c)*P(跃c)贴/P(血x)40分解P(凝c|似x)=P(制x|钳c)*P(辣c)瞒/P(布x)P(未x|呀c)=从P(驾x1泼,x葵2…xN随|c)=羽P(喷x1低|c富)*遮P(路x2丽|c因)…P(征xN辅|c)P(秀x)=故P(亮x1曾,x稀2…xN)=贡P(守x1凝)*台P(县x2桑)…P(摔xN)带入框公式换:P(奥c|漠x)=P(晨x|缎c)*P(窑c)桥/P(导x)等式刚右侧秩各项絮的含代义:P(绵xi罩|c浅j):在cj(此题狮目,cj要么远为垃枝圾邮脖件1,要纱么为苍非垃眠圾邮忌件0)的前界提下匀,第i个单辉词xi出现雕的概欢率P(层xi):在棚所有按样本影中,个单词xi出现番的概统率P(拴cj):(垃圾辉邮件)cj出现杂的概两率41EM算法倘的典鸦型题读目三硬这币模抽型假设族有3枚硬币币,秃分别写记做A,B,C。抛填硬币泰过程傍中,肢这些青硬币未正面恼出现桃的概承率分资别是π,p,q。进恢行如橡下试谨验:塞先抛台硬币A,如仗果正座面朝观上,尝则抛蛛硬币B;如辈果反矮面朝霜上,兆则抛组硬币C。抛田完B或者C后,描如果刻正面宪朝上疑,记锤为1,否炕则记予为0;独品立重铸复n次试姜验(袄这里没,n=粉10),挨观测颗结果肉如下愚:1,支1,软0,刺1,醋0,眯0,参1,哨0,蚁11。试萄估计π,p,q的值祝。42EM的推享导将观况测变聚量记懂做Y,待孝估计辈参数鸡记做θ(坛π,p,q)P(身y|镜θ)=ΣzP(评y,晃z|母θ)=ΣzP(闲z|出θ)柿P(毅y|庸z,扒θ)=P(蛙z=0阴|θ纠)P紧(y失|z棵=0心,θ)芬+P启(z=1尘|θ略)P右(y楼|z茅=1仇,沿θ)=π倡py(1隶-p拘)1-起y+污(1群-π缘瑞)qy(1镇-q谦)1-良y应用傲极大尸似然仅估计P(探Y|寇θ)=类Π炕πpyi(1凑-p誓)1-踏yi+毙(1捐-π特)qyi(1稠-q桌)1-扫yi43别忘你了机酒器学辆习的颠第一辜步:白建模皇帝刚不是轧穷人台,在危守财笨奴之祖中也寸有穷扩人,蛋所以烈,有颈一些__伟__坛__皱_并不正是__夹__丛__铲_。44使用督离散图数学腔分析扣该题变目p:这裁个人身是皇裙帝q:这用个人吐是穷谁人r:这羞个人抬是守间财奴皇帝脂不是较穷人幻玉:p→棍~q在守瞎财奴絮之中旺也有设穷人升:ョx(霉x∈扑r^x∈避q)45分析动过程r:这雨个人两是守栗财奴p:这悲个人仗是皇橡帝有一宁些守财扯奴并不甚是皇帝。46这部硬分的参考授文献Pr齐of扶.康An同dr迫ew摸N美g,光M锤ac悉hi农ne就L纷ea灶rn目in佩g,垃S攻ta做nf灶or技d陶Un零iv婶er床si晓ty高等过数学香,高再等教予育出鼻版社偏,同忠济大珠学数听学教洗研室呢主吗编,牲19碍96Mi狐a绩Hu调be桃rt案,布Pe融te版r德J.Ro返us搞se说eu俩w,Ka窝rl类ie延nVa印nd炕enBr宪an肯de落n,叮RO仁BP多CA银:留a抢Ne佩w究Ap夜pr毫oa俘ch酒t倡o本Ro孔bu铺st军P皇ri舌nc绍ip冈al邻C草om垦po浸ne类nt破A口na所ly恋si郑s,哥O施ct乡丰ob内er津2染7,熔2饱00厨3(挽PC舒A)ht汽tp仰:/远/b碧ai仅ke漏.b再ai匪du绘.c确om景/v冷ie正w/躬37螺09础18研1.转ht泽m(泛化邮能力)ht衡tp花:/模/p营eo蛛pl椅e.察re件vo赚le色du添.c啄om精/k蜂ar敞di测/t迅ut债or终ia逝l/秆Re竭gr内es捐si翅on床/K漠er扩ne映lR脾eg墨re蜘ss罪io修n/亏Ke窄rn皱el盈Re吨gr厚es举si悉on蔬.h罗tm(核回吃归)ht摄tp泡:/参/w剑ww理.c榴nb誓lo锡gs罪.c酿om害/w牺uy汗ue烘gb狐23青12哭/a夺rc类hi迟ve含/2俊01貌2/确12棵/0浴3/乞27塌99介89皂3.溜ht醉ml(V坟C维)ht菌tp涉:/等/b团lo拍g.利cs炼dn谊.n缺et豆/v益_j作ul槐y_政v/珠ar舰ti踩cl梅e/剃de询ta夺il冲s/雅76售24樱83客7(S乎VM寻)ht佳tp迈:/偿/m践in从dh辱ac响ks齐.c刮n/邪20仇08辽/0卸9/饥21之/t蚂he窑-m润ag鄙ic丸al胞-b华ay般es如ia刺n-花me磁th巩od(B呼ay订es哈)ht型tp赶:/砍/w双ww顽.c府nb艳lo加gs名.c勉om行/j漂er川ry牧le佳ad厅/t伞ag伸/M耳ac娱hi翁ne县%2吼0L础ea亿rn碎in亏g(机器伴学习)ht兄tp谢:/谁/b旬ai胸ke箩.b票ai健du袜.c壶om徐/v州ie奋w/姥30蛾68悔72嫌5.停ht止m(S习VD喉)ht灶tp板:/束/w拼ww透.c致ni如tb乔lo拢g.伶co锹m/潮vi熔nc取en许tf今f7绸/(广义鹊逆矩树阵)ht届tp邻:/焦/z等h.霉wi提ki刊pe孔di视a.财or膨g/终wi猜ki曾/%割E5霞%A评5%诉87垄%E钢5%负BC于%8晓2%抓E5秘%8挨0%罪BC叛%E幸5%神88惩%8艘6%寇E8阴%A滚7%绍A3(S炉VD懂)ht琴tp托:/屡/b朴lo摇g.爪cs来dn括.n绿et求/n肿in冲gy前al科iu怠he恼be哭i/锐ar布ti臭cl章e/彻de皱ta烛il盆s/耍71截04芳95边1(S隐VD期)ht舱tp数:/钞/b稀ai匪ke葵.b这ai痰du决.c崖om约/v泄ie眼w/光18涂64弄28爪.h虏tm(凸函版数)ht程tp评:/牙/ww乳w.坑tu思ic改oo廉l.河co示m/挥ar捎ti揭cl网es翼/a摩uQ亡Fj肢u(L钢og汁is挑ti仍c回归)47复习掏微积乘分当x∈绑U(吧x0,r匹)时,倦有g(炕x)装≤f棒(x)樱≤h(控x)成立享,并牢且恐,遭,那牧么自然臣常数愚:48导数简单荒的说变,导艰数就腰是曲咽线的佳斜率丘,是绣曲线输变化雷快慢躁的反尊应二阶蚁导数是斜匀率变梳化快促慢的博反应早,表团征曲霜线的凸凹姥性在GI队S中,珠往往校一条蛾二阶挂导数耀连续况的曲晕线,急我们劫称之鲜为“光顺”的愤。还记要得高拾中物业理老井师时前常念毅叨的研吗:加速艳度的方软向总蕉是指注向轨锈迹曲砌线凹厦的一鸟侧49常用祸函数抚的导倘数50应用已知哥函数f(裕x)=x^柜x,x>补0求f(撞x)的最药小值附:=?在计血算机备算法瓜跳跃勇表Sk决ip阻L盐is虎t的分棚析中带,用赏到了塘该常低数。51Ta臂yl徐or公式–Ma欢cl冤au船ri轿n公式52Ta杆yl族or公式渐的应渗用数值环计算培:初尤等函使数值默的计嗽算注:绩待验桃证53凸函涨数f(判x)在区冲间I上连黑续,肌如果睁对I上任锡意两杠点x1,x2,恒氏有f(恋(x砖1+共x2箱)/梨2)<密(f吃(x岛1)痰+f妄(x垒2)董)/野2,则摩称f(授x)在I上是呀凸的口。注:愉中国专大陆是数学钻界某调些机德构关出于函吴数凹福凸性蝇定义货和国详外的碌定义抢是相番反的兔。Co辟nv曾ex察F嫁un切ct或io由n在某必些中哗国大反陆的寺数学劲书中疗指凹晌函数菊。Co港nc配av呈e哗Fu丘nc软ti徐on指凸细函数粉。但句在中券国大典陆涉豪及经住济学浴的很留多书佣中

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论