机器学习总结_第1页
机器学习总结_第2页
机器学习总结_第3页
机器学习总结_第4页
机器学习总结_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

算法和方法的区别:方法是一种思想,算法是方法的实现。方法是解决问题的思想,只需要一个大致过程,具体每一步可以有很多的变化,同一种方法也有很多算法。算法是具体到每一步的实现,方便转化成计算机可执行的代码。判别式和生成式的区别:判别式模型,就是只有一个模型,把测试用例往里面一放,label就出来了。生成式模型,是有多个模型,把测试用例放在各个模型里面,选择最优的作为label生成模型,就是生成(数据的分布)的模型;判别模型,就是判别(数据输出量)的模型【适用环境】更进一步,从结果角度,两种模型都能给你输出量(label或yetc.)。但,生成模型的处理过程会告诉你关于数据的一些统计信息(p(x|y)分布etc.),更接近于统计学;而判别模型则是通过一系列处理得到结果,这个结果可能是概率的或不是,这个并不改变他是不是判别的。如,决策树的ifthen说不是这个就是那个(而很多属性都是有分布的),明显是一种判别嘛;而朴素贝叶斯说,p(cancer,fat)=x%etc.,模型生成了一个分布给你了,即使你没意识到/没用到,只用到p(cancer|fat)=y%这个最终的判别。【具体模型】更进一步,可以再理解一下:生成式模型朴素贝叶斯K近邻(KNN)混合高斯模型隐马尔科夫模型(HMM)贝叶斯网络SigmoidBeliefNetworks马尔科夫随机场(MarkovRandomFields)深度信念网络(DBN)判别式模型线性回归(LinearRegression)逻辑斯蒂回归(LogisticRegression)神经网络(NN)支持向量机(SVM)高斯过程(GaussianProcess)条件随机场(CRF)CART(ClassificationandRegressionTree)先验概率、后验概率、条件概率堵车有两个因素:车辆太多、交通事故堵车的概率就是先验概率那么如果我们出门之前我们听到新闻说今天路上出了个交通事故那么我们想算一下堵车的概率,这个就叫做条件概率。也就是P(堵车I交通事故)。这是有因求果。如果我们已经出了门,然后遇到了堵车,那么我们想算一下堵车时由交通事故引起的概率有多大,那这个就叫做后验概率(也是条件概率,但是通常习惯这么说)。也就是P(交通事故I堵车)。这是有果求因百度概念:先验概率是指根据以往经验和分析得到的概率,如全概率公式,它往往作为"由因求果"问题中的"因"出现.后验概率是指依据得到"结果"信息所计算出的最有可能是那种事件发生,如贝叶斯公式中的,是"执果寻因"问题中的"因".最大似然估计:看病,病人说自己是头痛,医生根据自己的经验判断是感冒了。头痛的原因有很多P(感冒I头痛)P(中风I头痛)P(脑溢血I头痛)经过计算之后发现,P(感冒I头痛)是最大的,分析结果产生的最可能的原因。P(脑残I头痛)=头痛的人中脑残的人数/头痛的人数P(BIA)=P(AIB)P(B)/P(A)贝叶斯定理:贝叶斯定理(英语:Bayes'theorem)是概率论中的一个定理,描述在已知一些条件下,某事件的发生概率。比如,如果已知某癌症与寿命有关,使用贝叶斯定理则可以通过得知某人年龄,来更加准确地计算出他罹患癌症的概率贝叶斯公式(发表于1763年)为:通常,事件A在事件B已发生的条件下发生的概率,与事件B在事件A已发生的条件下发生的概率是不一样的。然而,这两者是有确定的关系的,贝叶斯定理就是这种关系的陈述贝叶斯公式的一个用途,即通过已知的三个概率而推出第四个概率。贝叶斯定理跟随机变量的条件概率以及边缘概率分布有关。作为一个普遍的原理,贝叶斯定理对于所有概率的解释是有效的。这一定理的主要应用为贝叶斯推断,是推论统计学中的一种推断法。这一定理名称来自于托马斯•貝葉斯。朴素贝叶斯分类法的数学原理是什么,其中朴素意味着什么/z_x_1996/article/details/709413332朴案贝叶am设tl-KR叶斯廿崟番遷于一亍面单却耳定辭目揮伍时見性迪势1知竝一一泾风叶I#暇ift(NaiveBjytiAiiunpllort)晚口话来iSJSt盘捋iil由■中一个特征的取H井科隣Jlt±15征抽取H"用■!?式耨厅翟眾-p(mn,n真中石下用环如示希一^样3;同鼻中项f呼iiL黒#在壘的昱:话亍录忤中的-相互辦邕立”与’¥立脚鸯H-是有•底丹苗.后苦用£直去示为PM=P(^I心淡工J)恥在我心来Jtt殆别皓捋征彌号分布•下面酋式子不密补案贝叶朗假程也匸题酋:pW*£・…斗|沖二p(禹|刃帆电|耳眄妙仇丨片札禺)・・护(斗和需"■…j_巩珀,珀一一齐Iy)=X*iIy)p(x2I7)XjjI巧j3(斗卜)=口P(xiI刃这牛皆翻配Z在于椰B:分币时计it材闱优!朴素贝叶斯中的“朴素”二字突出了这个算法的简易性。朴素贝叶斯的简易性表现该算法基于一个很朴素的假设:所有的变量都是相互独立的。用贝叶斯定理可以写成P(X〔|F)F(MF)P(F)RXJHXJ但是在很多情况下,所有变量两两之间独立,这几乎是不可能的。什么是二项式分布二项分布是由伯努利提出的概念,指的是重复n次独立的伯努利试验。在每次试验中只有两种可能的结果,而且两种结果发生与否互相对立,并且相互独立,与其它各次试验结果无关,事件发生与否的概率在每一次独立试验中都保持不变,则这一系列试验总称为n重伯努利实验,当试验次数为1时,二项分布服从0-1分布。多项式分布有什么特点多项式分布(MultinomialDistribution)是二项式分布的推广。高斯分布的概率密度函数在二维坐标轴上的形状是什么样的贝叶斯决策首先来看贝叶斯分类,我们都知道经典的贝叶斯公式:

p(x\w}其中:P(w):为先验概率,表示每种类别分布的概率;一:类条件概率,表示在某种类别前提下,某事发生的概率;而’为后验概率,表示某事发生了,并且它属于某一类别的概率,有了这个后验概率,我们就可以对样本进行分类。后验概率越大,说明某事物属于这个类别的可能性越大,我们越有理由把它归到这个类别下。我们来看一个直观的例子:已知:在夏季,某公园男性穿凉鞋的概率为1/2,女性穿凉鞋的概率为2/3,并且该公园中男女比例通常为2:1,问题:若你在公园中随机遇到一个穿凉鞋的人,请问他的性别为男性或女性的概率分别为多少?从问题看,就是上面讲的,某事发生了,它属于某一类别的概率是多少?即后验概率。由已知可得:先验概率卫(叫)=2/3f卩(嗎)=173类条件概率p(x|wJ=l/2,p(x|wJ=2/3男性和女性穿凉鞋相互独立,所以p(x)=p(x\帥)+卩(兀|吗)H叫)=5/9(若只考虑分类问题,只需要比较后验概率的大小,的取值并不重要)。由贝叶斯公式算出:P(x|叫)P(wJ_l/2x2/3_35/9尸仙!工)=尸仙!工)=卩(屈比)"(也)_2/3灯/3_2”(兀)5/95问题引出但是在实际问题中并不都是这样幸运的,我们能获得的数据可能只有有限数目的样本数据,而先验概率和类条件概率(各类的总体分布)■■本数据,而先验概率和类条件概率(各类的总体分布)■■'■■、根据仅有的样本数据进行分类时,一种可行的办法是我们需要先对先验概率和类条件概率进行估计,然后再套用贝叶斯分类器。先验概率的估计较简单,1、每个样本所属的自然状态都是已知的(有监督学习);2、依靠经验;3、用训练样本中各类出现的频率估计。类条件概率的估计(非常难),原因包括:概率密度函数包含了一个随机变量的全部信息;样本数据可能不多;特征向量x的维度可能很大等等。总之要直接估计类条件概率VV.}的密度函数很难。解决的办法就是,把估计完全未知的概率密度’-'丿转化为估计参数。这里就将概率密度估计问题转化为参数估计问题,极大似然估计就是一种参数估计方法。当然了,概率密度函数的选取很重要,模型正确,在样本区域无穷时,我们会得到较准确的估计值,如果模型都错了,那估计半天的参数,肯定也没啥意义了。重要前提上面说到,参数估计问题只是实际问题求解过程中的一种简化方法(由于直接估计类条件概率密度函数很困难)。所以能够使用极大似然估计方法的样本必须需要满足一些前提假设。重要前提:训练样本的分布能代表样本的真实分布。每个样本集中的样本都是所谓独立同分布的随机变量(iid条件),且有充分的训练样本。极大似然估计极大似然估计的原理,用一张图片来说明,如下图所示:求最大似然估计量厂-的一般步骤:(1)写出似然函数;(2)对似然函数取对数,并整理;(3)求导数;(4)解似然方程。最大似然估计的特点:比其他估计方法更加简单;收敛性:无偏或者渐近无偏,当样本数目增加时,收敛性质会更好;如果假设的类条件概率模型正确,则通常能获得较好的结果。但如果假设模型出现偏差,将导致非常差的估计结果。在离线学习中,所有的训练数据在模型训练期间必须是可用的。只有训练完成了之后,模型才能被拿来用。简而言之,先训练,再用模型,不训练完就不用模型。在在线学习中,恰恰相反,在线算法按照顺序处理数据。它们产生一个模型,并在把这个模型放入实际操作中,而不需要在一开始就提供完整的的训练数据集。随着更多的实时数据到达,模型会在操作中不断地更新。线性回归和逻辑回归区别:2.戟性回归和逻辑回JH公式、区别.或性叵归:根据几组12知数据和亂合圉数训练具中未知惫数,使得俭合损失达到最小,然后印所蓿的拟合函数进行预测。逻辑回归:承隠合圉数训除具中未知缕数使得对数像函数杲圮然后用所得fi业焙行二砸■H*lau补二壷拟音函数不问:统在回归:J(a?)=FX=9iXi十屍的+…十豔為逅担叵I归:/(t)=p®=1丨不町=贞庐丸h苴中■扒司=洁7也就足第二&例子標的牝mod禹鼠不曰:的冋旧的祥本的输出*褪鼻许绿債,V£(+x,—X務E(+00,一医)而r谡鐵回归中暫E0,iy€04.只制師和1r在拥生回归中贰X顾测值的拟含儘倾:Tifcgte回归中胪X=0为决磁歟切1%<05.^01P05.正负无努.则是1WK-means:K-means方法是一种非监督学习的算法,它解决的是聚类问题。算法接受参数k,然后将事先输入的n个数据对象划分为k个聚类以便使得所获得的聚类满足聚类中的对象相似度较高,而不同聚类中的对象相似度较小。算法思想:以空间中k个点为中心进行聚类,对最靠近他们的对象归类,通过迭代的方法,逐次更新各聚类中心的值,直到得到最好的聚类结果。3、算法描述:(1)适当选择c个类的初始中心;(2)在第k次迭代中,对任意一个样本,求其到c各中心的距离,将该样本归到距离最短的那个中心所在的类;(3)利用均值等方法更新该类的中心值;(4)对于所有的C个聚类中心,如果利用(2)(3)的迭代法更新后,值保持不变,则迭代结束;否则继续迭代。KNN算法思路:如果一个样本在特征空间中的k个最相似(即特征空间中最邻近)的样本中的大多数属于某一个类别,则该样本也属于这个类别。该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。看下面这幅图:KNN的算法过程是是这样的:从上图中我们可以看到,图中的数据集是良好的数据,即都打好了label,—类是蓝色的正方形,一类是红色的三角形,那个绿色的圆形是我们待分类的数据。如果K=3,那么离绿色点最近的有2个红色三角形和1个蓝色的正方形,这3个点投票,于是绿色的这个待分类点属于红色的三角形如果K=5,那么离绿色点最近的有2个红色三角形和3个蓝色的正方形,这5个点投票,于是绿色的这个待分类点属于蓝色的正方形我们可以看到,KNN本质是基于—种数据统计的方法!其实很多机器学习算法也是基于数据统计的。KNN是一种memory-basedlearning,也叫instance-basedlearning属于lazylearning。即它没有明显的前期训练过程,而是程序开始运行时,把数据集加载到内存后,不需要进行训练,就可以开始分类了。具体是每次来一个未知的样本点,就在附近找K个最近的点进行投票。

KNNK-Means「©N是分类算法2憾督学习乞喂给它的数1S集是带也墟1的数据』已经是完全正确的数据1.K-Mean&SR类算法2非监督学习3一喂给它的数1E集是无label的数扛杲杂乱无童的』经过聚类后才变得有点顺序」先无序,后有■序没有明显的刖期训练过程,memorybasedlearning有明显的前期训练过程直的含义:来了一个祥本心要给它分类,即求出它的力就从数据集中,在x附近找离它最近的《个数据点这K个数据点.,类别匚占的个数最筑就把的abelite氏的含义:K是人工固定好的数字,假设数据集合可以分为K个簇,由于是依靠人工定好』需慕点先验知识相似点:都辺含这样的过程,给定一个点,在数据集中找鵲它最近的点。即—者剖用到TNNfNears乂igtiDoir)算法,一般用KD树来冥现NNo最大熵模型问趣1:为件去是系啊?因沖劇]帶妾的足一个繚橈型,也就是对于样本X,模些!返回耳対应的牺M即懂型应该是f亲件游分布,蒜为P(Y覘间題2:在墨桶翹走兗中,式(6J2}題丢示卄21至思?:&什么娶引入这审釣東虽件?⑴罚磐这个问理首塚式::5.12}等号世右側部分走艮后面距誹魅,理解的同学就不必看了).特征甬飯/K必关于蜉魁力甜P\X,Y)的期范用砂我吞,齢10=工刊&优円7特抚吨ftr(j,y)关于舉璋科TIJO与劭监分布內JT〕阿童弟樂》用Er(f}Jft示.也哉杲说,帀⑴是特征囲频欣y)ffi期劉耳我JD®道当ajM,俶旳=1;否則欣刃=山上面的公麻示,在训鞋中」所有询y可能经咸的并扇中.満足特证鹼欣刃」的赧富*I丁个比方”你鏡计女人怀庄眾臬个男人的原虱回笞肯走专很多利掏i]S变品•:琢書龙或和戏的原風Hy圭示事欢或不京戏「育女綾认为喜瑞的原国良-他很"声"r此吋爭实就足”x=帅,y=«^',拢fl]走殳恃征函故他=删丫=空观=1慕表示这样一^事实;吩有的哥们麴悲具了,固良不玄戏旳原因星认为他"穷”r曲厚实就是、夯,丫=不専敬r玮fi]走交咖1函数躲=娈$=不窘旳=1癥示HHJ.我!□圈竝访7100轴汝主「辭mooM回S.咼屮袖示KIDOOM酩中.収男主的原因是因为那立注忌啟.钱这里只列举了两科募埜并假设通过运两种事实就^很妊他描述找走咖童1血0亍女生的磐Q就是假设丈酚女主胡舷兩种旺劃*由ttTO看出」瑯]qi:用.觸慈荊密同轴瞬t那麋毘删到好0猴型,所M训碣尢W卿时」嗨珈训琢票的事实徊生安*比如上直时醐子中,品好不要走蛙类低逵样的珥字=按时吃渥y=書暇”,因为你觉得在回笞喜欢弧:主中,左育多少是因为“按时吃遊達个原居走欢垂主的?本睦原因惑样的莪存灘恨好站讎已财鼓堀禀.这吓明劃百笔星們是什么呢孑具毂倉斷呈伸足里趾些亍特征函熬(桶上舌示x和病足呈一垣】,对已确壬〔即训驛)的捕址

(2)再看等H(6.12.)左边旳部企豆不是歷现很相111炯?它也是一希明邑和右辺旅的雰(2)再看等H(6.12.)左边旳部企豆不是歷现很相111炯?它也是一希明邑和右辺旅的雰11就是右边细咙內八归变成了內:「)尸⑷时,为什也会是运样?耳实我们也不腿样」拗]删就歆勵的匿合雌分布巴『,口但掏D5羽血H丁川旳.貝雀另想办法.办注就足棍倨全曲率公式巩「川=列时列轴小我1DR要却适巩门即可.但釧]也不知道州玖进死胡社了耶设有,好在卿唧道冋『啊棍据趨定津,在祥本达^一定埶量后,碉冋取羽疑齢布冈H来恚示真郵麟刑他玖復样斎」;!^示EMf題*(3)这两吓明盅丘减算和历,(J■嗨’诃件幺黔?根据(1)中的举例”耳实就是对了血逹女生玄期减不話欢另生羽原因門分布情富,我走义了门侍实”相应的肖"个特征閒敌’宙于不可能去嶺世球上所与女注的回答,百此揖希复调硏的10W*■女生中的原国分布与庚.丈憎况下的分布同嗟近「理熄的骨据柜同!;三言,习屮朗町,⑷齟小于1亂因为本质上其中時呼満吕菜一?实.而对所帥于師⑷世是一样“问题乱Slfl■蛊哲畫中有亍冋"加底用罐的至虫,公式中应该沿肓广柑.牛人认为是为了方愎后直学习过程为推耳,:见下西的鱼耳〕,如母E有弦亍举故下面公去展后—取中的拦訂就提飯不出菲就会逗成在最洁的損业中草在戸“〕步坟而4心'一宦是准确的“即为ft■么乗上冠肚卜呈关棗呃F因为对于给卿训融据吳.戸(刃是一?常救,固此对于后面環対8劇!的楹丈似然估计罡没有影丽的.具佯地・求ItAh)对ZVJ珀的俯导散篇::;m希丽伽恥恥I卜护-工[冷牟叫用2)Ing/VI町+l-wD-£wj(x」}題片来自翊四,溯件细茨对肯帥旳极大般书中肖-右1话,不知會:京注圭到没却球斛妁桌绘优此创喘忸]册…(和切,蓟得出吋承,述足堆大埼镇据学却豹JW.下面給出具林推导-为卄虫会肓宜个姑论?其宴,约束最优壮问题(6.14}7[616)鑽换为惑凍晟忧化的对柜亘题后「求解约束最优《问題就变成了对牆葩數的股大比而对偶霑鼓的扱大忧針:■最丸消撐酎獺大徵然洁计等御〔证明如书中部了页)“最大濟型的損大弘燃估计不就是要求解的P(y|x)吗?4*朴素贝叶斯总绪朴索贝叶肝的优点:1)牛、索贝叶斯惶型务效率龊2)对小规扌鄭阙居亲表现很好,館处理寥分芙问莊适台:徒畑烁尤“娠.缭a出内存后”転们可以ti咖去订輻3)对蹲辱不丈戰苕法匕取简单,常用于文本另真补素闪叶肝的帕;!:■理论上.朴素贝叶磁其他模型柜r虑肓晶■」'■的i县差室,:旦实际上刼不一总因曲卜素贝叶斯引进了答特征z间相卫独竝■

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论