版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
机器学习大作业 学生姓名 1.1机器学习的基本理论机器学习是人工智能的一种分支,是现代计算机技术研究一种重点也是热点问题。顾名思义,机器学习就是计算机模仿人类获取知识的模式,通过建立对应的模型,对外界输入通过记忆"归纳"推理等等方式,获得有效的信息和经验总结,进而不停的自我完善,提高系统的功能。目前,机器学习的定义尚不统一,不一样专业背景的学者出于不一样的立场,对于机器学习的见解是不一样的。下面重要简介两位机器学习专业研究者赋予机器学习的定义。兰利(P.Langley)认为:“机器学习是一门人工智能的科学,该领域的重要研究对象是人工智能,尤其是怎样在经验学习中改善详细算法的性能”。米切尔(T.M.Mitchell)在其著作《机器学习》中谈到“机器学习”关注的问题是“计算机程序怎样伴随经验积累自动提高自身的性能”,也就是重要指的是归纳学习,此外“分析学习和增强学习也是学习的一种不可或缺构成部分”。两位学者的观点类似,都把机器学习当作是计算机或人工智能的一种分支学科,都强调的是归纳学习算法。机器学习在人工智能领域中是一种相对比较活跃的研究领域,其研究目的就是要增些发明应用于各个领域。1.1.2机器学习的发展历程机器学习(machinelearning)是继专家系统之后人工智能应用的又一重要研究领域,也是人工智能和神经计算的关键研究课题之一。作为人工智能研究的一种新崛起的分支,机器学习的发展历程大至可分为如下几种时期:(1)热烈时期:20世纪50年代的神经模拟和决策理论技术,学习系统在运行时很少具有构造或知识。重要是建造神经网络和自组织学习系统,学习体现为阈值逻辑单元传送信号的反馈调整。(2)冷静时期:20世纪60年代初期开始研究面向概念的学习,即符号学习。使用的工具是语义网络或谓词逻辑,不再是数值或者记录措施。在概念获取中,学习系统通过(3)复兴时期:20世纪70年代中期,研究活动日趋兴旺,多种学习措施不停推出,试(4)蓬勃发展时期:从20世纪80年代中后期到目前,可以认为机器学习研究进入一机器学习系统重要由三个部分构成:环境、知识库和执行部分,如图1.1所示。环兼顾4个方面:体现能力强;易于推理;轻易修改知识库;知识表达易于扩展。学习系统在没有任何先验知识的前提下不能凭空获取知识,它需要环境为其提供一定的知识作为基础,然后对其进行扩展和完善,从而完毕学习。整个学习系统的关键在于执行,从而确定了执行部分的关键地位。学习部分进行学习的目的就是改善和完善执行部分的动作。1.2机器学习重要算法决策树可看作一种树状预测模型,它通过把实例从根节点排列到某个叶子节点来分类实例,叶子节点即为实例所属的分类。决策树的关键问题是选择分裂属性和决策树的剪枝。决策树的算法有诸多,有ID3、C4.5、CART等等。这些算法均采用自顶向下的贪婪算法,每个节点选择分类效果最佳的属性将节点分裂为2个或多种子结点,继续这一过程直到这棵树能精确地分类训练集,或所有属性都已被使用过。下面简朴简介最常用的决策树算法—分类回归树(CART)。分类回归树(CART)是机器学习中的一种分类和回归算法。设训练样本集Y是有序的数量值时,称为回归树;当Y是离散值时,称为分类树。在树的根节点t₁处,搜索问题集(数据集合空间),找到使得下一代子节点中数据集的非纯度下降最大的最优分裂变量和对应的分裂阈值。在这里非纯度指标用Gini指数来衡量,它定义为:是节点t中属于j类的样本所占的比例。用该分裂变量和分裂阈值把根节点t₁分裂成t₂和t₃,假如在某个节点ti处,不也许再有深入非纯度的明显减少,则该节点t;成为叶结点,否则继续寻找它的最优分裂变量和分裂阈值进行分裂。对于分类问题,当叶节点中只有一种类,那么这个类就作为叶节点所属的类,若节点中有多种类中的样本存在,根据叶节点中样本最多的那个类来确定节点所属的类别;对于回归问题,则取其数量值的平均值。很明显,一棵很大的树也许过度拟合数据,但应当由数据自适应的选择。一种可取的方略是增长一棵较大的树TO,仅当到达最小节点大小(例如5)时才停止分裂过程。然后运用剪枝方略和5折或10折交叉验证相结合的ANN的研究始于1943年,心理学家W.Mcculloch和数理逻辑学家W.Pitts首先提出从理论探讨付诸工程实践;60年代初期,Widrow提出了自适应线性元件网络,这是一性。随即,研究人员围绕着Hop-field提出的措施展开了深入的研究工作,形成了80年代中期以来ANN的研究热潮。是由一系列简朴单元互相密集连接构成,其中每一种单元有一定数量的实值输入(也许学习算法及其应用上。常见的ANN模型有:多层前向神经网络MLFN、自组织神经网络—SOM和ART、Hopfield对它们进行求和,假如这个和到达或者超过了某个阈值,输出一种量。如有输入值a=(X₁×W₁)+(X₂×W₂)+…+(Xi×W;)+.…+(Xn×Wn),其中Xi是各条记录出现频率或其他参数,Wi是实时特性评估模型中得到的权系数。神经网络是基于经验风险最小化原则的学习算法,有某些固有的缺陷,例如层数和神经元个数难以确定,轻易陷入局部极小,尚有过学习现象,这些自身的缺陷在SVM算法中可以得到很好的处理。1.2.3贝叶斯学习算法Bayes法是一种在已知先验概率与类条件概率的状况下的模式分类措施,待分样本的分类成果取决于各类域中样本的全体。设训练样本集分为M类,记为C={ci1,….,Ci,….,Cm},每类的先验概率为P(ci),i=1,2,...,M。当样本集非常大时,可以认为P(ci)=ci类样本数/总样本数。对于一种待分样本X,其则根据Bayes定理,可得到ci类的后验概率P(ci/X):式(6)是最大后验概率判决准则,将式(5)代入式(6),则有:这就是最大后验概率判决准则,这就是常用到的Bayes分类判决准则。通过长期的研究,Bayes分类措施在理论上论证得比较充足,在应用上也是非常广泛的。Bayes措施的微弱环节在于实际状况下,类别总体的概率分布和各类样本的概率分布函数(或密度函数)常常是不懂得的。为了获得它们,就规定样本足够大。此外,当用于文本分类时,Bayes法规定体现文本的主题词互相独立,这样的条件在实际文本中一般很难满足,因此该措施往往在效果上难以到达理论上的最大值。1.2.4遗传算法遗传算法(GeneticAlgorithm,GA)最早由Holland于1975年初次提出。它是一种模拟达尔文进化论的自然选择和遗传机制的随机优化搜索措施。其重要性质可以描述如1.直接对构造性对象进行操作,不存在求导和函数持续性限定。2.具有隐并行性和全局搜索能力。3.采用概率化的寻优措施,可以自动获取和指导优化的搜索空间,自适应调整搜索方向,不需要确定的规则。由于遗传算法具有这些性质,它已经被广泛地应用于组合优化、信号处理、自适应控制和人工生命等领域。在用遗传算法求解问题时,问题的每一种候选解都被编码成一种“染色体”,即个体。若干个体构成了群体。遗传算法初始时,随机产生某些个体。并根据目的函数对每个个体进行评估,计算出适应度值。根据适应度值,选择个体来通过交叉、变异等遗传操作来生成下一代群体。遗传算法可以看做是有若干可行解构成的群体逐渐进化的过程。图1.2描述了遗传算法的基本流程。该图给出了遗传算法求解优化问题的基本框架,大多数遗传算法均可包括于此框架内。否图1.21.2.5支持向量机支持向量机是Vapnik等人于1995年根据记录学习理论提出的一种学习措施。它是建立在记录学习理论的VC维理论和构造风险最小原理基础上,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最佳的推广能力。其基本思想是:首先选择一种非线性映射,将输入空间映射到一种高维特性空间,在此高维空间中,运用构造风险最小化原则,构造最优决策函数,寻找输入变量和输出变量之间的非线性关{(x1,y1),(x2,y2),,(xi,yi)},xi∈R"为输入向量,yi∈{-1,1},(1≤i≤1)为样本类别标志,1为样本总数。用非线性映射φ·将样本从原空间R"映射到高维特性空间,在此高维空间中构造最优线性决策函数y(x)=sgn[w·φ(x)+b]。其中w为权向量,b为常数。求解支持向量机决策函数的参数可以通过求解对偶问题得到,即:最大化公式得到解参数a=α=(a₁,a₂,…,α),对非支持向量数据点对应的a₁,取值以上算法是为二值分类问题设计的,当处理多类问题时,就需要构造多类分类器。构造支持向量机多类分类器的措施有两大类:一类措施是直接法,直接在目的函数上进行修改,将多种分类面的参数求解合并到一种最优化问题中,通过求解该最优化问题实现多分类。此类措施看似简朴,但其计算复杂度比较高,实现起来就比较困难。另一类措施是间接法,重要是通过组合多种二分类器来实现多分类器的构造,常见的措施有一对多法和一对一法两种:1.一对多法(oneagainstall)。训练时一次把某个类别的样本归为一类,其他剩余的样本归为另一类。这样k个类别的样本构造出k个支持向量机。分类时将未知样本分类为具有最大分类函数值的那一类。样本需要设计k(k-1)/2个支持向量机。当对一种未知样本进行分类时,得到k(k-1)/2个分类成果,分类时采用一种投票方略,最终得票最多的类别即为该样本的类别。支持向量机(SupportVectorMachine)是Cortes和Vapnik于1995年首先提出的,它支持向量机措施是建立在记录学习理论的VC维理论和构造风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最佳的推广能力(或称泛化能力)。自1995年Vapnik在记录学习理论的基础上提出SVM作为模式识别的新措施之后,误差赔偿之间的平衡过程;1996年,Vapnik等人又提出支持向量回归(SupportVector面,但SVR的目的不是找到两种数据的分割平面,而是找到能精确预测数据分布的平用于处理多类分类的SVM措施(Multi-ClassSupportVectorMachines,Multi-SVM),通过将多类分类转化成二类分类,将SVM应用于多分类问题的判断:此外,在SVM算提出的最小二乘支持向量机(LeastSquareSupportVectorMachine,LS—SVM)算法,Joachims等人提出的SVM-light,张学工提出的中心支持向量机(CentralSupportVectorMachine,CSVM),Scholkoph和Smola基于二次规划提出的v-SVM等。此后,台湾大v-SVM是一种软间隔分类器模型,其原理是通过引进参数v,来调整支持向量数占输入数据比例的下限,以及参数p来度量超平面偏差,替代一般依托经验选用的软间隔分类惩罚参数,改善分类效果;LS-SVM则是用等式约束替代老式SVM中的不等式约束,将求解QP问题变成解一组等式方程来提高算法效率;LIBSVM是一种通用的SVM软件包,可以处理分类、回归以及分布估计等问题,它提供常用的几种核函数可由顾客选择,并且具有不平衡样本加权和多类分类等功能,此外,交叉验证(crossvalidation)措施也是LIBSVM对核函数参数选用问题所做的一种突出奉献;SVM-light的特点则是通过引进缩水(shrinking)逐渐简化QP问题,以及缓存(caching)技术减少迭代运算的计算代价来处理大规模样本条件下SVM学习的复杂性问题。与老式记录学理论相比,记录学习理论(Statisticallearningtheory或SLT)是一种专门研究小样本条件下机器学习规律的理论。该理论是针对小样本记录问题建立起的一套新型理论体系,在该体系下的记录推理规则不仅考虑了对渐近性能的规定,并且追求在有限信息条件下得到最优成果。Vapnik等人从上世纪六、七十年代开始致力于该领域研究,直到九十年代中期,有限样本条件下的机器学习理论才逐渐成熟起来,形成了比较完善的理论体系——记录学习理论。记录学习理论的重要关键内容包括:(1)经验风险最小化准则下记录学习一致性条件;(2)这些条件下有关记录学习措施推广性的界的结论;(3)这些界的基础上建立的小样本归纳推理准则;(4)发现新的准则的实际措施(算法)SVM措施是20世纪90年代初Vapnik等人根据记录学习理论提出的一种新的机器学习措施,它以构造风险最小化原则为理论基础,通过合适地选择函数子集及该子集中的鉴别函数,使学习机器的实际风险到达最小,保证了通过有限训练样本得到的小误差分类器,对独立测试集的测试误差仍然较小。支持向量机的基本思想是:首先,在线性可分状况下,在原空间寻找两类样本的最优分类超平面。在线性不可分的状况下,加入了松弛变量进行分析,通过使用非线性映射将低维输入空间的样本映射到高维属性空间使其变为线性状况,从而使得在高维属性空间采用线性算法对样本的非线性进行分析成为也许,并在该特性空间中寻找最优分类超平面。另一方面,它通过使用构造风险最小化原理在属性空间构建最优分类超平面,使得分类器得到全局最优,并在整个样本空间的期望风险以某个概率满足一定上界。其突出的长处表目前:(1)基于记录学习理论中构造风险最小化原则和VC维理论,具有良好的泛化能力,即由有限的训练样本得到的小的误差可以保证使独立的测试集仍保持小的误差。(2)支持向量机的求解问题对应的是一种凸优化问题,因此局部最优解一定是全局最(3)核函数的成功应用,将非线性问题转化为线性问题求解。(4)分类间隔的最大化,使得支持向量机算法具有很好的鲁棒性。由于SVM自身的突出优势,因此被越来越多的研究人员作为强有力的学习工具,以处理模式识别、回归估计等领域的难题。2.3.1.最优分类面和广义最优分类面SVM是从线性可分状况下的最优分类面发展而来的,基本思想可用图1来阐明。对于一维空间中的点,二维空间中的直线,三维空间中的平面,以及高维空间中的超平面,图中实心点和空心点代表两类样本,H为它们之间的分类超平面,H,H₂分别为过各类中离分类面近来的样本且平行于分类面的超平面,它们之间的距离△叫做分类间隔图2.1最优分类面示意图所谓最优分类面规定分类面不仅能将两类对的分开,并且使分类间隔最大。将两类对的分开是为了保证训练错误率为0,也就是经验风险最小(为0)。使分类空隙最大实际设线性可分样本集为(x,,y;),i=1,….,n,x∈R⁴,y∈{+1,-1}是类别符号。d维空间中线性鉴别函数的一般形式为是类别符号。d维空间中线性鉴别函数的一般形式为g(x)=w·x+b,分类线方程为w.x+b=0。将鉴别函数进行归一化,使两类所有样本都满足|g(x)|=1,也就是使离分类面近来的样本的|g(x)=1,此时分类间隔等于2/||w||,因此使间隔最大等价于使|wll(或||wll²)最小。规定分类线对所有样本对的运用Lagrange优化措施可以把上述最优分类面问题转化为如下这种较简朴的对偶α;≥0,i=1,2,..,n根据前面的分析,非支持向量对应的α;均为0,因此上式中的求和实际上只对支持向量进行。b是分类阈值,可以由任意一种支持向量通过式(2-1)求得(只有支持向量才满足其中的等号条件),或通过两类中任意一对支持向量取中值求得。从前面的分析可以看出,最优分类面是在线性可分的前提下讨论的,在线性不可分的状况下,就是某些训练样本不能满足式(2-1)的条件,因此可以在条件中增长一种松弛项参数ε≥0,变成:y;[(w·x;)+b]-1+ε;≥0,i=1,2,..,n对于足够小的s>0,只要使最小就可以使错分样本数最小。对应线性可分状况下的使分类间隔最大,在线性不可分状况下可引入约束:在约束条件(2-6)幂1(2-8)下对式(2-7)求极小,就得到了线性不可分状况下的最优分类面,称作广义最优分类面。为以便计算,取s=1。为使计算深入简化,广义最优分类面问题可以迸一步演化成在条件(2-6)的约束条件下求下列函数的极小值:其中C为某个指定的常数,它实际上起控制对铑分样本惩罚的程度的作用,实目前错分样本的比例与算法复杂度之间的折衷。求解这一优化问题的措施与求解最优分类面时的措施相似,都是转化为一种二次函数极值问题,其成果与可分状况下得到的(1-2)到(1-5)几乎完全相似,不过条件(1-2b)变2.3.2SVM的非线性映射对于非线性问题,可以通过非线性互换转化为某个高维空间中的线性问题,在变换空间求最优分类超平面。这种变换也许比较复杂,因此这种思绪在一般状况下不易实现。不过我们可以看到,在上面对偶问题中,不管是寻优目的函数(1-3)还是分类函数(1-5)都只波及训练样本之间的内积运算(x·x;)。设有非线性映射Φ:R⁴→H将输入空间的样本映射到高维(也许是无穷维)的特性空间H中,当在特性空间H中构造最优超平面时,训练算法仅使用空间中的点积,即φ(x;)·φ(x;),而没有单独的φ(x;)出现。因此,假如可以找到一种函数K使得这样在高维空间实际上只需进行内积运算,而这种内积运算是可以用原空间中的函数实现的,我们甚至没有必要懂得变换中的形式。根据泛函的有关理论,只要一种核函数K(x,·x;)满足Mercer条件,它就对应某一变换空间中的内积。因此,在最优超平面中采用合适的内积函数K(x,·x;)就可以实现某一非线性变换后的线性分类,而计算复杂度却没有增长。此时目的函数(2-3)变为:而对应的分类函数也变为算法的其他条件不变,这就是SVM。概括地说SVM就是通过某种事先选择的非线性映射将输入向量映射到一种高维特性空间,在这个特性空间中构造最优分类超平面。在形式上SVM分类函数类似于一种神经网络,输出是中间节点的线性组合,每个中间节点对应于一种支持向量,如图2.3所示为基于s个支持向量x₁,x₂,…,x,的非线性变换(内积),x=(x¹,x²,….,x⁴)为输入向量。2.3.3.核函数选择满足Mercer条件的不一样内积核丞数,就构造了不一样的SVM,这样也就形成了不一样的算法。目前研究最多的核函数重要有三类:其中q是多项式的阶次,所得到的是q阶多项式分类器。所得的SVM是一种径向基分类器,它与老式径向基函数措施的基本区别是,这里每一种基函数的中心对应于一种支持向量,它们以及输出权值都是由算法自动确定的。径向基形式的内积函数类似人的视觉特性,在实际应用中常常用到,不过需要注意的是,选择不一样的S参数值,对应的分类面会有很大差异。这时的SVM算法中包括了一种隐层的多层感知器网络,不仅网络的权值、并且网络的隐层结点数也是由算法自动确定的,而不像老式的感知器网络那样由人凭借经验确究方面应用了SVM措施,获得了较大的成功。在随即的近几年内,有关SVM的应用研模式输入的直接的SVM措施研究,进入到多种措施取长补短的联合应用研究,对SVMOsuna最早将SVM应用于人脸检测.并获得了很好的效果。其措施是汽接训练非线SVM的更有效的非人脸样本,简化SVM训练的难进行人脸姿态的鉴定,将人脸姿态划提成6个类别,从一种多姿态人练样本集和测试样本集,训练基于支持向量机姿态分类器,分类错误率减少到1.67%。取方面的有效性以及SVM在处理小样本问题和更高的识别率。王宏漫等在PCA基础上深入做ICA,提取愈加有助于分类的面部特性的本的相似度,而SVM的输出成果则体现了异类样本间的差异。为了3.2.3文字/手写体识别贝尔试验室对美国邮政手写数字库进行的试验,人工识别平均错误率是2.5%,专门针对该特定问题设计的5层神经网络错误率为5.1%(其中运用了大量先验知识),而用3种的多层次图像处理框架,到达85%以上的精确率。行检索,使用由9918幅图像构成的图像库进行试验,成果表明,在有限训练样本状目前3D虚拟物体图像应用越来越广泛,肖俊等提出了一种基于SVM对相约减,然后使用SVM进行识别与检索。将该算法用于3D丘陵与山地的地
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 秋季学期学生发展评价体系计划
- 急诊工作的指导计划
- 跨部门合作在年度工作中的关键性计划
- 《机械零件加工》课件第一篇模块一项目一任务一
- 新余学院《新能源专业英语》2023-2024学年第一学期期末试卷
- 新余学院《编排设计》2021-2022学年第一学期期末试卷
- 西南医科大学《卫生学》2022-2023学年第一学期期末试卷
- 西南医科大学《毒理学基础》2023-2024学年第一学期期末试卷
- 西华大学《走进国画》2022-2023学年第一学期期末试卷
- 2024年01月11304管理案例分析期末试题答案
- 专业学位研究生专业实践能力考核表
- 小学道德与法治-五年级上美丽文字民族瑰宝第一课时教学课件设计
- 改革开放史智慧树知到课后章节答案2023年下中国药科大学
- 【肿瘤标志物不同检验方式的临床研究进展综述报告5000字(论文)】
- 游戏综合YY频道设计模板
- 冲压失控行动计划-OCAP程序
- 四年级科学上册粤教版第1单元 生命的延续 单元练习二(含解析)
- 2023年阻碍中国芯片产业发展的主要因素分析
- Unit+5+Reading+Polyglots-+what+are+they+and+who+can+be+one-教学设计 高中英语人教版(2019)必修第一册
- 城市亮化高空作业及安全措施施工方案
- 实验心理学文献阅读报告
评论
0/150
提交评论