版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
致 人类社会从工业时代到信息时代的过渡趋势尤为明显,促使人们对信息资源的重视越来越强,对信息获取的需求也在不断上升。如何从庞大的信息资源中迅速而准确地定位所需要的信息,成为当下社会研究的热点。文本分类的出现与发展很好的解决了这一问题,大大提高了信息资源的使用效率,极大的减少了用户的工作量,并且提高了文本信息的使用率,还能为社会带来巨大的经济效益。文本分类是基于内容的自动信息管理的技术。应用于信息过滤、信息检索、搜索引擎、文本数据库、数字管等领域,有着广泛的应用前景。而SVM是基于统计学习理论的新一代机器学习技术,能很好地处理非线性、数、局部小样本等实际的学习问题,并且利用核函数把非线性问题转化为线性问题来解决,降低了算法的复杂度。现有的文本分类模型主要有决策树(DecisionTreeDT、支持向量机、(SupportVectorMachine,简称SVM)神经网络算法网络K-最邻近法(KNN)、国外对于文本分类的研究起步比较早,19世纪50年代末,..Luhn提出词频思想并应用于文本分类中。1960年,ron教授发表了一篇论文《onrelvnc,probbilisticindxingandinformationrtrivl》,该 对文本的自动分类技术做了深入探讨1962年.Borko等人提出因子分析法并用于文献的自动分类1970年,Salton等学者提出了向量空间模型(ctorSpaceModel,简称为VS),该模型将文本用一系列特征向量进行表示,大大降低了文本表示的复杂程度总的来说国外的文本分类技术发展主要分两大阶段,60~80年代,基于知识工程技术的方法;80年代后期至今,基于机器学习的方法。。国内对于文本分类的研究起步较晚1980年教授从计算机管理分类计算机分类检索、计算机自动分类、机编分类表等四个方面介绍了国外的发展状况。随后,也陆续出现了基于词典法和基于专家系统的自动分类系统两大类。等教授对基于词典法的分类系统进行了研究。武等教授对基于专家系统的自动分类系统进行了研究等人用了n-grm方法对英文文本进行分类实现了文本分类的领19901998Joahims在文本分类技术中引入支持向量机(SV),并实验证明其高效性。。SVM近年来,对支持向量机的研究主要集中于支持向量机本身性质的研究和完善以及加大支持向量机应用研究的深度和广度两方面。首先,理论基础不断扩展。统计学习理论的不断完善和丰富,正则化理论的出现,理论,稀近理论等对于支持向将大的二次规划问题分解为一系列小的二次规划问题,简化了算法的运行成本。C-SVM系列算法、υ-SVM系列算法、n-lassSVM算法、RSVM算法、SM算法和LSSVM算法等变形算法通过增加函数项、变量或系数等方法使变形,形成具有某一方面优势或一定应用范围的算法。最后,应用领域不断扩大。目前,已经成功应用于模式识别、回归估计、数据融合等方面。支持向量机的应用发展应用如下:OsunaSVMSVM分类器完成人脸与脸的分类。利用了PCA在特征提取方面的有效性以及SVMSVM与最近邻距离分类器相说话人识别属于连续输入信号的分类问题,引入隐式马尔可夫模型HMM,建立SVMHMM的混合模型。HMMSVM适合于分类问题;HMM的结果反映了同类样本的相似度,而SVM的输出结果则体现了异类样本间的文字/0~9UK心理测试自动分析系统中组合SVM和其他方法成功地进行了手写数字的识别实验。另外,在手写汉字识别方面,高学等提出了一种基于SVM的手写汉字的识别方法,SVM对手写汉字识别的有效性。由于计算机自动抽取的图像特征和人所理解的语义间存在巨大的差距,图像检索结果难以令人满意。近年来出现了相关反馈方法,有关科研人员以SVM为分类器,在每次反馈中对用户标记的正例和反例样本进行学习,并根据学习所得的模型进行检9918内容:本文的任务是设计基于SVM第一章:介绍了本课题的研究目的意义,文本分类和SVM算法的国内外研究现 第二章:对文本的预处理、特征表示、特征向量提取等分类过程做了简单说明,并介绍了其他四种分类算法。第三章:介绍了支持向量机算法的基本概念和理论基础,SVM算法在分本分类中第四章:成功设计了基于SVM的文本分类器,运用该分类器完成了分类任务,文本分类就是根据预先定义好的类别,按照一定的规则将文本集合中未知类别的文本自动确定一个类别,涉及数据挖掘、计算语义学、信息学、人工智能等个学科,法、数据挖掘技术和其它的新技术被应用到文本自动分类领域中,如:回归模型、最近邻分类器、规则学习算法、相关反馈技术、专家投票分类法、人工神经网络等。这些方法都能对一个预先分好类的文本集进行学习,获取每个类别的特征,自动生成分类规则,建立一个文本分类器。文本分类的整体过程主要分为训练过程和测试过程。利用训练好的模型来对测试样本进行分类,最终确定分类类别。本章主要分析文本分类过程的三大模块,即文本预处理,特征表示以及特征向量提取。文本分类(Textcategorization)就是在给定分类类别的情况下,将未知类型的样对分类器性能文本分类训练过 文本分类测试过图 分类体系结构停用词(StopWords)是指虽然在文本中出现的频率很高,但是对分类效果来说没有起到任何作用的词。它的存在只会增大特征向量的维数,增加分类运算的复杂程度。通常意义上,停用词基本可分为两类。一类是功能词,只在文本中起到结构作用而没有什么实际含义。比如the、a、n、tht、thoe等在文本中帮助描述名词的限定ovrundraboveinon在整个语料库中出现的频率与在每篇文档中出现的频率大致相等的词,对分类来说作用不大。词频统计为了能准确的表示训练文本,基于统计学习理论的方法需要对每个单词出现的频率进行统计。一篇文本中,单词是最小的单位,是能够独立活动并且有意义的语言成分。计算机的所有语言知识都来自机器词典(给出词的各项信息)、句则(以词类的各种组合方式来描述词的聚合现象)以及有关词和句子的语义、语境知识库。英文词频统计一般包括以下几步:利用各种分隔符且分出词;删除数字和分隔符;所有单词转化成小写;删除停用表中的词;所有词都用其同型词根表示。然后,计算机将自动识别文本中的单词,进而统计词频并按出现的频率排序,词频(termfrequn,TF,是指给定单词在该文件中出现的次数,使用出现频率较高的N个单词来表示整个文档,N就是该文本向量的维数。FSTij指示当前字符Sn个字符起和模式的第一个字符进行比较,若相等,则模式字符11用空间小且稳定,但其消耗的时间与集合的大小成正比,算法效率低。基于查找树的统计方法:一颗树的度大于2,树的每个节点不是包含一个或几个关键字,而是含有组成关键字的符号。词频统计时,对集合中的每个词同时进行处理,大大提高了统计效率。并且可根据实际需要在树中查找、计算各个词的相关信息。此方法的分为两部分:树的构造算法和词频统计算法。人类的语言结构是非常复杂的,所以需要将文本数据转化成计算机可以识别和处理的形式,才能对数据进行分析和分类,这是文本分类最基本的问题。下面对布尔模型和向量空间模型这两种特征表示的方法做一简单介绍。布尔(Boolean)模型是基于集合论和布尔代数的一种比较简单的文本表示模型,它是根据特征项是否在文本中出现来为特征项赋值,若特征项出现则为10。目前文本表示最常用的方法是向量空间模型(etorSpaceModelVSM,它是由.Slton于1988年SMT系统就是该模型的成功应用并且广泛应用于文本信息处理领域。在向量空间模型中,将文档空间看作是由一组正交特征矢量所形成的矢量空间,用一个向量来表示一个文本信息,使得文本成为特征空间中的一个点,在向量空间模型中文本集合成一个矩阵,也就是特征空间中点的集合。VSM文本():是由训练集、测试集组成的语料库中的任意一篇文章,也特征项(featureterm)特征项权重(termweight)nD(,),词频矩阵就是应用空间向量模型表示文本的一种形式。如表2.1表2 词频矩阵表示方 ………在词频矩阵中,wordi个j篇文本中出现的频率。特征空间具有稀疏性、性等特点,这大大提高了文本分类的复杂程度,增加了分类时间,并且很大程度降低了文本分类的性能。在空间中,一部分特征对于分类来说是没有任何作用的,甚至部分特征还可以误导分类噪声。所以在文本分类之前,应适当去除部分特征项,即降低文本特征空间的维数。特征选择的任务就是从原然而,怎样才能选择出最适合的文本特征项呢?可分为两步:首先应构造出一个评估函数,对原始的特征集合中的每一个特征项进行计算,从而得到每一个特征项的评估函数值。然后,将所有特征项的评估函数值进行排列,选出适当的维数组成新的特征集合。总的来说,文本中所包含的信息越丰富,处理的语言层次就越高,其特征就越明显,越有代表性。对于分类结果来说,准确率就会越高。TF-IDF(trmfrequency-invrsefrquency)词频-反转文件频率,是评估一个单词在一个文件或一个语料库中的重要程度。实际上,如果一个单词在一个类的文本中出现的频率越高,则说明该单词能很好的代表这个类的文本特征,这样的单词就会被赋予较高的权重,并选择该词作为文本特征以区分其他类别。一个词的重要性与该词在文本中出现的频率的增加而成正比,但与该词在语料库中出现的频率的增加成反比。该算法认为文本频数越小,它区别与其他文本的能力越强。TF表示一个单词t在文本d中出现的频率,即词频。IDF是逆向文件频率,表示在所有文本中,包含单tIDFt能很好的区分类别。文本的分类算法是进行文本分类最的部分。目前,大部分的分类算法都是基于机器学习的方法。大致可分为三类:1.基于统计的方法,如K近邻,朴素,支持向量机;2.3.KKK-NearestNeighborKNN)分类算法,是数据挖掘分类技术中最简单的方法之一。具有算法简单、功能稳定、分类效率高等特点。被广泛应用于文本分类领域。其训练样本就代表了类别的准确信息,而不管样本是使用什么特征表示的。其基本思想是在给定新文档后,计算新文档特征向量和训练文档集中各个文档的向量KK0KNN算法的思想是:如果一个样本在特征空间中的k个最相邻的样本,其中的大多数都属于某一个类别,则称该样本也属于这个类别,且具有这个类别中样本的特性。KNN近的一个或者几个样本的类别来决定待分类样本所属的类别。由于KNN来说,KNN方法较其他方法更为适合。朴素算朴素算法是利用概率统计学的知识来进行分类的,用于表示变量之间的依赖关系。该文档属于某个类别的概率等于文档中每个词属于该类别的概率。而每个词属于该类别的概率又在一定程度上可以用这个词在该类别训练文档中出现的次数(词频)来粗略估计。应用于大型数据库中,方法简单,效率高,速度快。定理将的先验概率与后验概率联系起来。假定随机向量x、的联合pxp(x)p()x为观测向量,是未知参数向量,通过观测向量获得未知参数向量的统计,定理记做2.1SVMVapnik策面,使得正例和反例之间的边缘被最大化。该算法以统计学习理论为基础,更准确的说,支持向量机是结构风险最小化的近似实现。这个原理基于这样的事实:学习机器在测试数据上的误差率(即泛化误差率)VCSVMx(ix一概念是构造支持向量机算法的关键。支持向量机是由算法从训练数据中抽取的小的子集构成。2.22.2决策树(decisiontree)是一个预测模型,运用树状图表示各决策的期望值,它反映的是对象属性与对象值之间的一种映射关系。通过构造树来解决分类问题。首先利用训练样本集来构造一棵决策树,一旦树建立起来,它就可以对未知的样本进行分类。一个决策树包含三种类型三个节点:决策节点---用矩形表示;机会节点---用圆形表示;终节点---用三角形表示。T0F212.3神经网络分两种,一种是生物神经网络,一般指生物的大脑神经元、细胞、触点等组成的网络,用于产生生物的意识,帮助生物进行思考和行动。另一种是人工神经网络(ArtificialNeuralNetworksANNs),也简称为神经网络(NNs)或称作连接模型(ConnectionModel),它是一种模仿动物神经网络行为特征,进行分布式并行信息处理的算法数学模型。由众多的神经元可调的连接权值连接而成,具有大规模并行处理、分布式信息、良好的自组织习能力等特点。这种网络依靠系统的复杂程度,通过调整内部大量节点之间相互连接的关系,从而达到处理信息的目的。该网络具备输入层、隐含层与输出层三个层次,每一个层次都包括很多神经元,文本向量的维数决定输入层的节点数目,输出向量的维数决定输出层的节点数目。输入 隐含 输出图 BP神经网络拓扑结构性能评价是文本分类中的重要环节。主要是率(recall)、准确(precision)、以及用于评价全局性能的宏平均(macro-average)(micro-average)10,2.2分类结果矩阵1ABRP率和准确率是对某一类别进行评价,反映了分类器的分类性能,这两个指标是互补的,想要提高准确率,率就会将低,反之亦然。宏平均是每一类的分类性能指标的算术平均值,宏平均用MPMRmPmRiii宏平均是对类的平均,容易受小类影响,微平均是对文本的平均,容易受大类的影响。总索引、文本过滤、自动产生文档元数据、单词语义消歧、web资源的按层次分类组织SVMSVM算法有很坚实的理论基础,SVM训练的本质是解决一个二次规划问题(QuadrupleProgramming,指目标函数为二次函数,约束条件为线性约束的最优化问题),得到的是全局最优解,这使它有着其他统计学习技术难以比拟的优越性。分类器的文本分类效果很好的分类器之一。同时使用核函数将原始的样本空间向空间进行变换,能够解决原始样本线性不可分的问题。其缺点是核函数的选择缺乏指SVM训练速度极大地受到训练集规模SVMChunking方法、OsunaSMO算法和交互SVM等。SVM全率方面都略优于kNN及朴素方法。VCVC维是统计学习理论的一个概念,它描述了函数集或学习器的复杂性或者学习能力的一个重要指标。VC维越大,函数集合越大,其相应的学习能力就越强。VCVC维的直观定义是:若存在一个样本数量为h2^hhh+1的样本集打散,则函数集的VCh。若对于任意的样本数,总能找到VCR^23.1R^23.23.3 3.1R^23.2R^2R^2VC统计学习理论系统研究了各种类型的函数集,经验风险和实际风险之间的关系即推广误差边界。对于两类分类问题,经验风险和实际风险之间hVCn训练误差),另一部分称作置信范围,它和学VCVC置信范围越大,导致真实风险与经验风险之间可能的差别越大。这就是为什么出现过学习现象的原因。机器学习过程不但要使经验风险最小,还要使VC维尽量缩小置信范围才能取得较小的实际风险,即对未来样本有较好的推广性。h,n,当较小时,称该样本经验风险最小化原则是从处理大样本数据问题出发的,这一原则的合理性可以通3.13.2n/h在结构风险最小化中,先把函数集分解成函数子集序列:这样,每一个子集的置信范围都是相同的,在每一个子集中寻求最小经验风险,会随着子集复杂程度的增加而减小。而要使期望风险达到最小,只需找到使最小经验风险和置信范围之和达到最小值的子集即可。这个子集就是最优函数。在结构风险最小化原则下,一个分类器的设计过程包含两个方面:一是函数模型的选择;二是函数参数的选择。1,如果属于负类,则记为-1。若训练集,这里或,样本数为。支持向量机首先将向量映射到一个更的空间里,在其中建立最大间隔超平面,将数据分开;然后,在超平面两边再设立两个互相平行的超平面;最后,分隔超平面,使两个平行超平面的距离最大化。SVM如果数据是线性可分的,可找到两个超平面,将空间中的训练样本点正确分为两类,在它们之间没有任何其他的样本点,显然,这样的超平面有很多,假设这个超平面的法方向已经给定,平行的向右上方或左下方移动这个超平面可以碰到某个训练点的输入,这样就得到了两个的超平面和,称这两个超平面为支持平面。而使这3.33.3三角形和圆形分别代表了训练样本集合中的两类样本,超平面能够将上述两类样本正确地分隔开来,和分别平行于超平面,并且经过了各类中离最近的样本。这两个超平面之间的距离为,因此需要最小化,因为这两个超平面之间没有任何样本点,所以还需要满足以下两个条件中的一个:如果用一个线性函数可以将两类样本完全分开,则称样本为线性可分的。即存在最优超平面,使得对于一个固定的超平面,参数()不是唯一确定的(相差一个常数因子),因此总能找到一对参数(),使得上述不等式中至少有一个以等式成立,为此,只需令到该超平面的最小距离为。SVM目标是发展一个计算上有效的过程,通过使用训练样本集,找到权值向量和偏置b,3.7其中,解中将只有一部分VapnikVCrSVMVC若训练集是线性不可分的,或者事先不清楚它是否线性可分,希望找到一个最优超平面,它使得整个训练集合平均的分类误差的概率达到最小。为此,引入一组新的非负变量给定训练样本,寻找权值向量和偏置b并且使得和最小化代价函数毕竟超平面的分类能力是有限的,为此需考虑分类曲面。Vapnik提出了核函数概念,就可以避免在特征空间中的运算。要解决非线性可分的情况,就是把样本特征映射到特征空间中,如下图: ,把映射到一个特征空间(Hilbert空间)中,然后在空间H中寻求最优分类超平Lagrange
SVMm3.43.4支持向量机示意K(),或者是一个映射(),把样本空间映射到一个甚至无穷维的特征空间中(Hilbert空间),使得在原来的样本空间中非线性可分的问题转化为在特征空间中的线性可分的问题。简单地说,就是升维和线性化。选择不同的核函数或者不同的映射以及相应的Hilbert将空间的內积运算转化为低的核函数计算,巧妙地解决了“维数”等问题,并且核函数的运用,无需知道非线性变换函数的形式和参数,大大减小了工作量。abaabab—到二的映为了用线性的学习器学个非线性的关系,需要选择一个非线性特征集,其中,是从输入空间到某个特征空间的映射。所以,建立非学习器分两步,首先使H线性学习器的一个重要性质是可以表达成对偶形式。假设函数可以表达为训练点的线性组合,因此决策规则可以用测试点和训练点的内积来表示:式中,为输入样本,即测试样本,为训练样本,即支持向量,为训练样本的数量。SVM4径向基核函数:K(x,y)=exp(-|x-SVM算法是针对二值分类问题的,处理多分类问题时,常常被转化成二值分类问该方法是通过构造一系列二分类器来解决多分类问题的。对于k类分类问题构造k个SVM分类器,其中,第i个SVM分类器是通过将属于第i类的样本视为正类,将ii图3- 基于离散判别i图3- 基于连续判别的为了解决离散的不可分区域问题,InoueAbe在给定的样本中,任意选取两个样本,构造一个二值的SVMKk(k-1)/2SVMijijijkk3-10SVMpnik1995年提出,基于统计学习理论的之上,以VC维理论和结构风险最小化原则为基础,根据有限的样本信息在模型的复杂性(即对特定训练的样本的学习精度)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折中,以期获得最佳的推广力。与传统的机器学习方法相比,SVMVCSVM算法的理论基础是非线性映射,SVM利用内积核函数代替向空间的非线性映射,克服了特征空间中的维数问题。SVMSVM要空间小,算法鲁棒性(Robust)强。尽管在文本分类领域中,SVM分类算法具备很多的优势,但是到目前为止,该算在对样本数比较大的二次规划问题进行求解时,支持向量机模型的训练速度比较慢,难以保证较高的实时性要求。的支持向量,SVM分类器的准确度降低。支持向量机还存在构造学习器及分类效率低的缺点。在训练分类器时,SVM的着眼点在于两类的交界部分,那些混杂在另一类中的点往往无助于提高分类器的性能,反而会大大增加训练器的计算负担,同时它们的存在还可能造成过学习,使泛化能力减弱。总SVM一个在特征空间中构造线性分类超平面的问题。SVMSVM(乘子),所谓“最小优化”的最大好处就是使得我们可以用解析的方法求解每一个最小规模的优化问题,从而完全避免了迭代算法。当然,这样一次“最小优化”Lagrange乘子的最终结果,但会使目标函数向极小值迈进一步。我们再对其它Lagrange乘子做最小优化,KKT条件时,目标函数达到最小,算法结束。两个Lagrange我们在这里不妨设正在优化的两Lagrange乘子对应的样本正是第一个和第二个Lagrangeα1α2,在其他乘子不改变的情况下,它们的约束条件应表达为正方形内的一条4.1:α1α2表示α2求无条件极值,如果目标函数是严格上凹的,最小值就一定在这一极值点(极值点在区间内)或在区间端点(极值点在区间外)。α2确定后,α1也就确定下来了。因此我们先找到α2优化区间的上下限制,再在这个区间中α2求最小值。SMO算SMO算法的目的无非是找出f(x),这个函数能让我们把输入的数据x进行分类,将一个凸二次规划问题转换成下列形式(KKT条件)其中是日乘子对于(1)的情况,表明是正常分类,在边界内部;对于(2)的情况,表明了是支持向量,在边界上(3)KKT(2)(3)以下几种情况出现将会出现不满,但是则是不满足的,而原本,但是则是不满足的而原本,但是或者;则表明不满足的,而原本应该是所以要找出不满足KKT的这些并更新这些但这些又受到另外一个约束即通过另一个方法,即同时更新和,满足以下等就能保证和0的约束。利用上面的式子消得到一个关于单变量的一个凸二次规划问题,不考虑其约束。,可以得其解为其中表示旧值,然后考虑约束,可得a的解析解为:输入是是一个数组,组中每一个值表示一个特征。输出是A类还是类。(正类还是负类)SMO的优即使很多日乘子在界上,SMO仍然能较好的处理SMOSVMSMOSVM的计SVM的计算可以表示为简单的内积,而非线性核的和。SMOSVM训C0.61.0C很大,那么分类器将力图通过分割超平面对所有的样例都正确分类。小圆点标注的是支持向量。如果数据集非线性可分,支持向量会在超平面附近成团。历时四个月的毕业设计即将结束,大学四年的学生生涯也将告一段落。首先,感谢老师对我的指导,感谢老师抽出宝贵时间给我们答疑解惑,老师认真负责的态度给我留下了深刻的印象。每次都很耐心并及时地解决我们课题上所遇到的问题,祝老师工作顺利,桃李满天下。同时,还要感谢同组其他五位同学对我的支持与鼓励,在我遇到时,给我加最后,感谢大学四年给过我帮助的所有老师,是老师们的认真工作和无私奉献才让我学到了如此多的知识,并运用到的中。感谢老师们。[1],.支持向量机及其算法研究[J].与信息化[2].基于SVM的中文文本分类系统的研究与实现[D].吉林大学,[3],.文本信息自动分类系统ITC98(Ⅰ):ITC总体结构与编码子系统[J].中国学报,1999,4(4):74-77.[4].分类法的发展趋势简论[J].科学,1981(1):58-[5].中文文本分类相关算法的研究与实现[D].西学,.SVMD].哈尔滨工程大学,瓦普.统计学习理论的本质[M].,,吕宏伟.基于SVMJ].电脑知识与技术:学术交流,2006(3):162-162..基于SVM的文本分类系统中特征选择与权重计算算法的研究[D].太原理工大学,2011..基于优化理论的支持向量机学习算法研究[D].西安电子科技大学,王国胜.支持向量机的理论与算法研究[D].邮电大学,.统计学习理论与支持向量机方法[J].第二师范学院学报,26(2):14-,,.中文文本分类系统的设计与实现[C]//2006年全 集(三).2006:262-265.,汪东升,.基于VSM的中文文本分类系统的设计与实现[J].学报:自然科学版,2003,43(9):1288-1291.2.b=function[b,alphas]=smoSimple(data,class,2.b=3.[m,n]=4.4.alphas=6.while6.while(iter< alphasChanges= for ek=fxk- fxk=(alphas.*class)'*data*data(k,:)' ek=fxk- if(((ek*class(k)<toler)&&(alphas(k)<C))||((ek*class(k)>toler)&&(alphas(k)> j= fxj=(alphas.*class)'*data*data(j,:)'+ %f= ej=fxj- temp_k= if(class(k)~= if(class(k)~= L=max(0,alphas(j)- H=min(C,C+alphas(j)- L L=max(0,alphas(k)+alphas(j)- H=min(C,alphas(k)+ ifL== eta=2.0*data(k,:)*data(j,:)'-data(k,:)*-data(j,:)* ifeta>= alphas(j)=alphas(j)-class(j)*(ek-ej)/alphas(j)=clipalpha(alphas(j),H,if(abs(alphas(j)-temp_j)<alphas(k)=alphas(k)+class(k)*class(j)*(temp_j--b1=b-ek-class(k)*(alphas(k)-temp_k)*data(k,:)*(alphas(j)-temp_j)*data(k,:)*-b2=b-ej-class(k)*(alphas(k)-temp_k)*data(k,:)*(alphas(j)-temp_j)*data(j,:)*if(alphas(k)>0&&alphas(k)<b=elseif(alphas(j)>0&&alphas(j)<b=b=(b1+alphasChanges=alphasChanges+ iter=iter+ iter=iter+ iter= index= function index= index= index= functionres=clipalpha(a,H, ifa> a= ifa< a= res res= 2.1.2.4.4.load6.6.[r,c]=7.Test=8.8.Label= [b,alphas]=smoSimple(Test,Label,0.6,0.001, %% axis([-2 axis([-212-8 fork= hold ifData(k,3)== % for for ifalphas(k)~= hold QX= QX= y=(-W(1).*Data(:,1:1)-b) [m,n]=1.function[b,res_alphas]=rbf_smoP(data,class,C, [m,n]= iter= entireSet= oS=init(data, oS=init(data,class,C,toler,m, while(((iter<maxIter)&&(alphaPairsChanged>0))||(entireSet== ifentireSet== ifentireSet== fork= [ret,oS]=innerL(k, alphaPairsChanged=alphaPairsChanged+ iter=iter+ nonBoundIs= fork= nonBoundIs=[nonBoundIs if((oS.alphas(k)<C) nonBoundIs=[nonBoundIs fork= fork= index= [ret,oS]=innerL(index, alphaPairsChanged=alphaPairsChanged+ iter=iter+ entireSet= if entireSet= elseifalphaPairsChanged== entireSet= b= res_alphas= functionK=kernelTrans(X,A, [m,n]= forj= forj= deltaRow=X(j,:)- K(j)=deltaRow* K K=exp(K./(- alphas= function alphas= b= b= oS.data= oS.C= oS.C= oS.toler= oS.m= oS.b= oS.b= oS.eCache= oS.K= oS.K(:,j)= for oS.K(:,j)= function[ret,oS]=innerL(k, Ei=calcEk(oS,if(((oS.class(k)*Ei<oS.toler)&&(oS.alphas(k)<oS.C))||((oS.class(k)*Ei>oS.toler)&&k)> temp_k= [j,Ej]= temp_k= temp_j= L=max(0,oS.alphas(j) L=max(0,oS.alphas(j)- H=min(oS.C,oS.C+oS.alphas(j)- H=min(oS.C,oS.alphas(j)+ L= H=min(oS.C,oS.alphas(j)+ ifL== ret= eta eta=2.0*oS.K(k,j)-oS.K(k,k)- i
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年03月山西浦发银行太原分行招考笔试历年参考题库附带答案详解
- 个人工作自我鉴定10篇
- 专业求职信集锦6篇
- 2025年上门服务项目规划申请报告模范
- 无偿献血倡议书汇编15篇
- 2025年污水自动采样器项目立项申请报告模范
- 中职毕业学生自我鉴定
- 2022知危险会避险交通安全课观后感(范文10篇)
- 竞选大队委演讲稿模板八篇
- 《小海蒂》读书笔记15篇
- T∕ZZB 2665-2022 免洗手消毒凝胶
- 特种设备安全知识考核试题与答案
- 教练技术一阶段讲义
- 班主任工作记录手册.doc
- 《工艺流程题的解题指导》教学设计(教案)
- 3.2熔化和凝固-人教版八年级上册课件(21张PPT)pptx
- 山东建设工程施工机械台班单价表
- 平凡之路歌词
- 整理富怡服装CAD的键盘快捷键
- 人教版(PEP)小学英语六年级上册各单元知识点归纳(三年级起点)
- 工作分析案例
评论
0/150
提交评论