(应用数学专业论文)基于遗传支持向量回归的人才需求预测模型.pdf_第1页
(应用数学专业论文)基于遗传支持向量回归的人才需求预测模型.pdf_第2页
(应用数学专业论文)基于遗传支持向量回归的人才需求预测模型.pdf_第3页
(应用数学专业论文)基于遗传支持向量回归的人才需求预测模型.pdf_第4页
(应用数学专业论文)基于遗传支持向量回归的人才需求预测模型.pdf_第5页
已阅读5页,还剩58页未读 继续免费阅读

(应用数学专业论文)基于遗传支持向量回归的人才需求预测模型.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

基于遗传支持向量回归的人才需求预测模型专业:姓名:指导老师:应用数学庄耿洪姚正安教授摘要我国现行高校本科专业设置基本都是在计划经济时期确定,是教育部的专业目录来定的,使得国内大多数高校的专业设置基本一致,教材也基本类似然而,在市场经济条件下,社会对人才的需求是动态变化的,高校很难直观的根据市场需求来调整专业设置,从而导致了专业人才产出与需求间的不匹配因此,国家教育部发布了重大项目“高校本科专业设置预测系统 来对此问题进行研究,本人为该项目组成员,取该项目的子课题行业人才需求的预测进行研究就目前对人才需求的研究状况来说,主要存在以下两点问题:一是没有针对行业级以及产业级的人才需求做系统的研究;二是使用模型和方法比较单一,没能综合考虑各种影响,往往只把它当作时间序列,或者只考虑了经济方面的影响因子针对这两个主要问题,在项目组的前期工作下,本人对行业级的人才需求预测工作进行系统地研究经分析研究,行业人才需求预测有三个主要问题:一、由于早期缺乏合理统计,所涉指标与数据十分庞大,涉及多部门、多地区,采集难度很高,使得这方面的数据比较短缺,可用样本数偏少;二、行业人才需求是一个复杂的量,涉及到的影响因子众多,需要系统的分析其影响指标;三、作为预测系统进行开发,模型的效率不容忽视,在算法方面需要尽可能地降低复杂度针对问题一,通过分析研究,本文选择了适用于“小样本 情况下的支持向量回归模型;针对问题二,本文经项目大组中教育学院和教科所等专家的共同研究,从经济、社会、科学技术、涉外经济四个方面进行分析建立了人才需求预测系统的指标体系;针对问题三,本文尝试了效率比较高的l s s v m 算法,同时对于s s v m 采用遗传算法进行参数选择方面的优化,避免了一般参数选择的效率问题。通过以上几点分析,本文主要建立了基于遗传算法的支持向量回归预测模比实证分析,结果显示g a s v r 的优异性以及l s - s v m 的有效性,于是,在不损失效率的前提下对这两种模型进行组合,使得预测精度得到进一步提高受客观条件限制,数据相对缺乏,预测精度还不算特别理想,然而“高校本科专业设置预测系统”是一个长期的项目,随着时间的推移,数据逐渐丰富,预测质量也必定有所提高关键词:人才需求预测,遗传算法,支持向量机,l s s v r ,g a s v rnf o r e c a s t i n gm o d e l so f t a l e n td e m a n db a s e do ng a s v rm a j o r :a p p l i e dm a t h e m a t i c sn a m e :z h u a n gg e n g h o n gs u p e r v i s o r :y a oz h e n g a l la b s t r a c tm o s to ft h em a j o r so ft h eu n d e r g r a d u a t ec o u r s e w o r ki nt h eu n i v e r s i t i e sw e r ed e c i d e du n d e rab a c k g r o u n do ft h ep l a n n e de c o n o m y ,a c c o r d i n gt ot h ep r o f e s s i o n a lm e n uw h i c hw a sm a d eb yt h em i n i s t 匆o fe d u c a t i o n , a n di t 1 e a d st os o m es e r i o u sp r o b l e m ss u c ha sah i g h - d e g r e es i m i l a rs p e c i a l i z a t i o nd i v i s i o n sa n dt e x t b o o k s h o w e v e r ,t h em a r k e te c o n o m yn o w a d a y sd e m a n d sad y n a m i cs t m c t m eo ft a l e n t ,u n f o r t u n a t e l y ,t h eh i g h e re d u c a t i o ni n s t i t u t ei si n f l e x i b l et ot h ec h a n g eo ft h em a r k e t ,t h e r e f o r e ,ad i s l o c a t i o nb e t w e e nt h et a l e n ts u p p l i e sa n dd e m a n d se m e r g e d t os o l v et h ep r o b l e m sa b o v e ,t h em i n i s t r yo fe d u c a t i o nl a u n c har e s e a r c hp r o g r a mn a m e d“t h ep r e d i c t i n gs y s t e mo ns p e c i a l t ys e t t i n gf o ru n i v e r s i t y su n d e r g r a d u a t e ,a n dt h i sr e s e a r c ht h e s i sm a i n l yf o c u so nt h ef o r e c a s t i n go ft h et a l e n td e m a n d t h e r ea r et w om a i np r o b l e m si nt h ep r e v i o u sr e s e a r c h , f i r s t l y ,ad e t a i lr e s e a r c ho nt h ei n d u s t r y l e v e lt a l e n td e m a n d si ss t i l lr a r e ,s e c o n d l y , t h er e s e a r c hm e t h o d sa r es t i l lt o os i m p l et oc o n d u c tam e a n i n g f u lr e s e a r c h , f o ri n s t a n c e ,t h et i m es e r i e sm e t h o di sf r e q u e n t l yu s e di nt h er e s e a r c h b a s e do nt h ep r e v i o u sr e s e a r c h , 1w i l lf o c u so nt h ei n d u s t r y - l e v e lt a l e n td e m a n d sa n dt h eu t i l i z a t i o no ff o r e c a s t i n gm e t h o dt oa v o i dt h et w od r a w b a c k sa b o v e d t h ep r e v i o u sr e s e a r c hs h o w st h a tt h e r ea r et h r e ep r o b l e m se x i s t e d ,f i r s to fa l l ,i ti st h em u l t i ,s e c t i o na n dm u l t i d i s t r i c tn a t u r eo ft h ed a t at h a tm a k e st h ep r o c e s so ft h ed a t ac o l l e c t i o nt ob ev e r yh a r d ,s e c o n d l y , t h ed e m a n do ft h et a l e n ti sac o m p l e xm e a s u r e m e n tw h i c hi n v o l v e dm a n yf a c t o r s ,l a s tb u tn o tl e a s t ,i ti si m p o r t a n tf o ru st ol o w e rt h ec o m p l i c a t i o no ft h ea l g o r i t h mt om a k eam e a n i n g f u lf o r e c a s t i n g t h r e en is m a l ls c a l ed a t ar e g r e s s i o n , s e c o n d l y , t h ei n d e xs y s t e mi sb a s e do n ad e t a i lr e s e a r c ho nt h ee c o n o m y , s o c i e t y , t e c h n o l o g ya n dt h ee x t e r n a le c o n o m y , t h i r d l y , am u c hm o r ee f f e c t i v ea l g o r i t h mw i l lb eu t i l i z e d o u rm e t h o di sb a s e do nt h eo fg a - s v rr e g r e s s i o nm o d e l s ,t h ec o n t r a s to ft h i sm e t h o da n dt h eo r d i n a r yo l sr e g r e s s i o nm e t h o ds h o w st h a tt h ef o r m e rm e t h o di sm u c hm o r ee f f e c t i v e ,t h e r e f o r e ,w ec o m b i n et h eg a - s v ra n dl s s v mm e t h o d st or e a c ham o r ea c c u r a t er e s u l t s ,b u tt h ef i n a lr e s u l t si sc o n s t r a i n e db yt h el a c ko fl a r g es c a l ed a t a , s ot h ef o l l o w i n gr e s e a r c hm a yg e tab e t t e ro u t c o m ei nt h ef u t u r e k e yw o r d s :t a l e n td e m a n df o r e c a s t i n g ,g e n e t i ca l g o r i t h m , s u p p o r tv e c t o rm a c h i n e ,g a - s v r , l s - s v ri v论文原创性声明本人郑重声明:所呈交的学位论文,是本人在导师的指导下,独立进行研究工作所取得的成果除文中已经注明引用的内容外,本论文不包含任何其他个人或集体已经发表或撰写过的作品成果对本文的研究作出重要贡献的个人和集体,均已在文中以明确方式标明本人完全意识到本声明的法律结果由本人承担学位论文作者签名:鼽鸬日期:锄年g 月二日学位论文使用授权声明本人完全了解中山大学有关保留、使用学位论文的规定,即:学校有权保留学位论文并向国家主管部门或其指定机构送交论文的电子版和纸质版,有权将学位论文用于非赢利目的的少量复制并允许论文进入学校图书馆、院系资料室被查阅,有权将学位论文的内容编入有关数据库进行检索,学位论文作者篝懈导师日期:弘加年乡月日日期1 1 课题背景第一章绪论本课题来源于国家教育部“高等学校本科教学质量与教学改革工程 中公共系统建设项目之一的“高校本科专业设置预测系统研究,该项目由中山大学教育科学研究所、数学与计算科学学院、教育技术中心等机构高等教育学、应用数学、教育技术学、经济学等学科专家、博士后、博士生、硕士生构成组长是中山大学教育科学研究所所长黄崴教授、副组长是数学与计算科学学院副院长姚正安教授和教育技术研究所所长郭清顺教授我国现行高校本科专业设置基本都是在计划经济时期确定,是教育部的专业目录来定的,使得国内大多数高校的专业设置基本一致,教材也基本类似然而,在市场经济条件下,社会对人才的需求是动态变化的,高校很难直观的根据市场需求来调整专业设置,从而导致了专业人才产出与需求间的不匹配再者,很多高校都有“求全 、“求大 、“求热 等现象,盲目发展工、经、管、文、法等综合性学科,在学科建设结构上比较单一,热门专业盲目招生,使得规模过大,专业结构发展不平衡,严重影响了就业,导致高校热门专业反而成为就业难题,专业设置和规模没能跟市场需求做好对接已经出现某些专业的大学生是供过于求的情况,或与社会人才需求不符而另一方面,作为人才培养的高校仍在招生,有些甚至还扩招,这在一定程度上导致了教育资源和人才资源得不到合理的利用依据现状来看,正如全国政协委员、北京师范大学副校长葛剑平所言,加快高校学科调整已是迫在眉睫高校本科专业的招生和就业直接面向人才市场的机制已经初步确立社会对人才市场供求情况将直接影响高校本科专业设置基于此,该系统通过对泛珠江三角区域本科人才供给与需求的预测并比较两者之间的关系,达到对高校本科专业设置进行客观科学分析的目的,促进高校本科人才培养与社会人才需求的衔接,避免高校与社会之间的脱节所以在人才供给和人才需求方面的预测研究至关重要社会对人才的需求历来是多样化和动态性的,多样性指的是社会对人才需求的类型和层次是多种多样的,而动态性主要指的是社会对人才的需求是随着时间的推移而不断变化的本课题的人才需求分析主要遵照这两大原则进行分析,首先从多样化角度进行分析,研究社会对本科层次人才的社会需求问题,而影响社会未来人才需求的情况,则需要更多地从动态性原则出发进行考虑考虑到社会比高校本身更复杂,对于社会的人才需求的考虑不可能做得过于微观,应更加全面的考虑人才需求的影响因素人才需求主要受到经济、科技和社会等多方面因素的影响,为保证预测结果的科学性、准确性、及时性和有效性,有必要建立人才需求预测指标体系和分析系统,综合采用各种科学预测方法,建立多种预测模型,以模拟实现人才需求的变化规律,为高校本科专业设置和调整提供决策支持1 2 人才需求预测研究现状就现状而言,人才需求预测工作在我国的进展不是很好,出现的一些工作也缺乏规范,在宏观指导作用、规范化、制度化、社会化方面的工作没能普遍开展其中出现的人才需求预测大多局限于企业层次,并且在预测方法上也比较传统,通常对只考虑数据本身的时序规律,而不考虑外界因素的影响,因而其预测结果的指导意义不强,一旦在外界环境发生较大变化时,预测结果会有很大的误差同时,目前从行业和产业层次进行人才需求预测的研究非常少,没能形成一定的研究思路与方法,缺乏广泛性和普适性,对国家实施政策调整提供的参考作用不大我国目前人才需求预测研究也有考虑综合影响因素的,但多数还是仅考虑经济方面的因素,以经济发展数据作为预测依据,以需求数量作为预测目标,进行模型的研究设计在以往的工业经济时代,这种思路可能会较为适用,但如今,科学技术作为第一生产力,已成为当代经济发展的决定因素首先,高科技及其产业促进了劳动生产率的大幅度提高据统计,我国现阶段高明科技产业的人均产值,是传统工业人均产值的5 1 0 倍,是手工业的5 0 - - - 1 0 0 倍其次,当代产品中的科技含量高度密集,极大地提高了产品的商业价值因此,科学技术的发展水平和主攻方向的转变引导着国家和地区的产业结构类型和核心竞争能力的转变,势必也会对人才需求的数量及其结构变化产生影响,因而,在我们对人才需2求预测的研究过程中,不能忽略科学技术因素等其他方面的影响由于人才需求影响因素非常复杂,牵涉到的数据体系也具备一定的特性,这给人才需求预测的模型建设带来了一定的困难:首先,人才需求预测涉及面非常广,它涉及社会、经济等多个方面的因素,而在人才统计方面,基本上在1 9 8 8 年后才有涉及,导致可用样本数据非常少,出现了所谓的“维数灾难”问题其次,由于所涉数据比较庞大,容易出现历史数据遗漏和错误的现象,这会影响到定性分析与定量处理的结果目前人才数据统计方面的资料还存在比较多问题,有些数据资料缺省严重因此,在多数情况下需要对历史数据进行修正,而修正后便很容易造成预测结果的不可预料性最后,影响人才需求量的指标种类繁多,有些可以用定量表示,而有些则只能通过定性描述,如人才观念、生活环境等等,怎样把这些定性指标量化,也是人才需求预测的难点之一同时,目前还没有人建立起比较完整的人才需求预测指标体系,使得指标的选择具有随意性,结果很难统一由于上述特点,传统的预测方法在人才需求预测上很难取得有效的结果,使得人才需求预测成为一个研究难题,引起很多专家和学者的关注,因而也取得了这方面的一些研究成果以下是人才需求预测较常用到的一些建模方法:( 1 ) 多元回归模型人才需求的影响因素很多,这类模型主要是在定性分析的基础上,挑选几个主要的影响因素作为解释变量,如国民生产总值、固定资产投资规模等( 通常都是经济因素) ,然后以人才需求总量为目标变量,建立多元回归方程】,= p o + 屈x i + + 尾x m + ,其中y 为人才需求,五,五,以为解释变量,为随机扰动项此类模型,比较容易解释和理解,但存在如下两方面的缺点:一是影响因素的确定具有很强的主观性,容易造成相关因素的遗漏或挑选了非主要因素,导致预测结果的不精确;二是这类模型目标变量的预测值的计算前提是预测时期的解释变量可以提前获得,因而有很大的局限性;三是这类模型要求比较多的历史数据( 2 ) 时序外推预测模型这类模型干脆就不考虑综合影响因素,只考虑与单一时间的关系,以时间因素作为各种影响因素的综合,通过其时序规律来预测采用时序外推模型预测人才需求总量,侧重分析人才需求自身的发展趋势时序外推模型存在多种类型,应用在人才需求预测方面主要有以下几种幂函数预测模型:y ( ,) = a t 6其中y 为人才需求数量,a 、b 为模型参数,该模型可以通过人才需求量的历史数据采用非线性最小二乘法拟合得到l o g i s t i c 预测模型:上:k + a b rj ,( ,)其中y 为人才需求数量,k 、a 、b 为模型参数,该模型可由逻辑增长曲线程序算出生长曲线预测模型:少( r ) = 1 - a a ( o a 1 )其中y 为人才需求数量,a 、a 为模型参数将上式两边取对数得:l n ( 1 - y ) = ( 1 n a ) t + l n a令p = i n ( 1 一y ) ,k = l n a ,b = l n a则可化为一元线性回归模型y = k t + b因而也可以用最小二乘法计算得到a 、口( 3 ) 多元回归和时间外推预测相结合的模型多元回归模型具有较好的解释能力,但是解释变量的未来值较难取得,具有一定的局限性,而时间外推预测模型将所有影响因素全都归结于时间这一个变量,会遗失很多相关信息由于经济因素的变化的周期性比较强,因而可以利用解释变量和目标变量的历史值建立多元回归方程,再用时间外推预测模型对各个解释变量建立模型进行预测,然后将解释变量的未来值带入多元回归方程中计算目标变量的预测值,这就是多元回归与时间外推预测相结合的模型,它可以在一定程度上克服应用单个模型进行预测的缺点然而,这类模型仍然要求历史数据4比较多才可行,因而对社会化的人才需求量预测存在一定的局限( 4 ) 灰色预测模型根据灰色系统理论,将人才系统看成是一个半明半暗的灰色系统,从其内部特性出发,可以灰色预测模型作为人才需求总量预测模型目前用的比较多的有以下两类:g m ( 1 ,1 ) 预测模型:这类模型基于累加生成的数列建立一阶l 变量的微分方程模型,从人才需求的时间序列中去挖掘有关信息,以此预测未来人才需求量该模型的优点是所需数据量少,缺点则是精度不高g m ( 1 ,n ) 预测模型:这类模型是基于累加生成的数列建立一阶n 个变量的微分方程模型,适合于建立各变量的动态关联分析模型采用g m ( 1 ,n ) 预测模型预测人才需求数量,它侧重分析人才需求与其他n - 1 个影响因子的关系,解释性方面要l i :g m ( 1 ,1 ) 模型强( 5 ) 支持向量回归模型支持向量回归( s u p p o r tv e c t o rr e g r e s s i o n ,s v r ) 是上世纪9 0 年代末期在统计学习理论基础上提出的一种机器学习算法s v r 在回归过程中采用的是结构风险最小化原则和核映射技术,因而具备良好的非线性与不精确性信息处理能力,这使得它可为人才需求的预测提供一种有效的技术手段统计学习理论指出:在有限样本下,经验风险最小并不能保证期望风险最小传统的回归学习方法是最小化经验风险,而s v r 模型在机器学习过程中同时最小化经验风险和置信范围使得其在“小样本”情况下的预测具有相当的优势,同时,该模型具有较强的泛化能力和非线性数据处理能力,这是本文重点研究应用的方法( 6 ) 神经网络预测模型神经网络方法是随着计算技术的发展而提出的一种新方法,对于探寻多因素影响的变量之间的关系具有独到之处,不仅预测精度高,而且具有很强的模型适应能力其中最经典的模型是b p 神经网络b p ( b a c kp r o p a g a t i o n ) 神经网络可以看成是输入输出集合之间的一种非线性映射,实现这种映射不需要知道系统的内部结构,而只需通过对有限个样本的学习来达到对系统内部结构的模拟,因此b p神经网络模型是一种隐式模型,相当于黑盒,它将系统的结构隐含于网络的权值之中,能找出各种输入和输出间的非线性关系5由于神经网络方法具有预测未来发展的非连续性变化的能力,采用神经网络方法对未来经济和社会的发展进行预测是一种可行的方法利用b p 神经网络预测人才需求时,可以将g d p 等影响因子等作为网络的输入,人才需求量作为输出,找出人才需求量与各因素的非线性关系但是目前此模型需要先知道影响因子的未来值,因此存在一定的局限性总而言之,当前我国在人才需求预测上的研究还存在着以下几个主要问题:一、指标体系不完善目前大部分研究都是关注于模型的建立,而对指标的选取方面讨论的较少,多数都是定性的选取一些指标作为模型研究的基础,这在一定程度上也就削弱了人才需求预测值的精确性和可靠性二、行业和产业级的数据严重缺乏我国人才需求预测模型方面的研究主要针对的还是较低层次的分析,比如某一企业人才的需求预测,而没有上升到产业、行业等较高层次,这对于政府依据人才需求的预测提前做好专业规划的指导意义不大三、预测模型过于单一目前的研究大部分还是处于建立单一模型的阶段,而由于人才需求的数据体系的特点,这些单一模型都不可避免的存在这样或那样的问题,因而导致最后预测结果的不准确,适用性较局限1 3 本文的研究框架和组织结构通过上述对目前人才需求预测现状的了解和研究,本文选取了支持向量回归模型,结合遗传算法对人才需求预测进行研究,最后得到相对理想的行业人才需求预测模型本文的研究思路与组织架构如下:第一,指标数据体系的研究主要从经济、科学技术、社会以及涉外经济四个方面对人才需求的影响因素进行分析,结合教育学院与教科所众多专家意见,初步选取合适的具有一定影响力的指标第二,对人才需求的指标体系数据建立预测模型,同时通过主成分分析处理指标的冗余度问题第三,建立多种人才需求预测模型:基于s s v r 支持向量回归模型,最小6二乘支持向量回归模型和基于遗传算法支持向量回归模型第四,基于第二、三点基础上,建立基于支持向量回归的人才需求预测模型,模型训练中,以指标数据的主成分为输入,拟合人才需求数量与指标数据之间的非线性关系,再通过指标的预测值输入到训练出来的模型,以获得人才需求的预测值第五,针对人才系统动态性的特征,采用多种支持向量回归模型进行仿真,建立支持向量回归的人才需求预测模型,最后通过组合的方式获得更加精确的预测模型7第二章理论基础2 。1 统计学习理论支持向量机理论( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是依据统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y ,s l t ) 形成的一种新型机器学习方法统计学习理论是一门专门研究小样本情况下机器学习规律的理论研究,它开始于6 0 年代末,在其后的2 0 多年里,涉足这一领域的人并不多这期间,前苏联人v a p n i k 及c h e r v o n e n k i s 做了大量开创性、奠基性的工作这些工作主要是纯理论的,在当时并没有引起人们的重视进入9 0 年代以后,随着统计学习理论的不断发展和成熟,神经网络等学习方法在理论上出现了瓶颈,缺乏实质性的进展,这使得该理论开始受到越来越广的重视统计学习理论是研究小样本统计估计和预测的理论,其主要内容包括四个方面:( 1 ) 经验风险最小化准则下统计学习一致性的条件;( 2 ) 在这些条件下关于统计学习方法推广性的界的结论;( 3 ) 在这些界的基础上建立的小样本归纳推理准则;( 4 ) 实现新的准则的实际方法( 算法) 其中推广性的界是最具指导性的理论结果,与此相关的一个核心概念是v c维支持向量机是建立在统计学习理论的v c 维理论和结构风险最小原理基础上的学习方法,它根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折衷,以获得最好的推广能力一、v c 维为了研究学习过程一致收敛的速度和推广性,统计学习理论定义了一系列函数学习性能相关的指标,其中最重要的便是v c 维( v a p n i k c h e r v o n e n k i sd i m e n s i o n ) 在模式识别中,v c 维的直观定义是:对于一个指示函数集,如果它存在h 个样本能够被函数集中的函数按所有可能的2 5 种形式分开,则称函数集能够把h 个样本打散;定义函数集的v c 维为它能打散的最大样本数目h 若对任意数8目的样本都有函数能将它们打散,则该函数集的v c 维是无穷大的有界实函数可以通过用一定的阂值将它转化成指示函数来定义它的v c 维v c 维反映的是函数集的学习能力,v c 维越大则学习机器越复杂( 容量越大) ,学习能力越强二、推广的界统计学习理论系统地研究了各类函数集的经验风险和实际风险之间的关系,即推广性的界对于两类分类问题,它的结论是:对指示函数集中的所有函数( 包括使经验风险最小的函数) ,经验风险k ( w ) 和实际风险r ( w ) 之间以至少l 一刁的概率满足如下关系:r ( w ) ( w ) + h ( 1 n ( 2 n h ) + 1 ) - i n ( r 4 ) ( 2 1 1 )其中h 是函数集的v c 维,n 是样本数以上结论从理论上说明了学习机器的实际风险是由两部分组成:一部分是经验风险( 训练误差) ,另一部分我们称作置信范围,它和学习机器的v c 维及训练样本数有关式( 2 1 1 ) 可以简单地表示为r ( m ,) 月二咿( m ,) + ( 办刀)( 2 1 2 )它表明,在有限训练样本下,学习机器的v c 维越高( 复杂性越高) 则置信范围越大,导致真实风险与经验风险之间可能的差别越大这就会导致所谓的“过学习 现象机器学习过程不但要使经验风险最小,还要使v c 维尽量小以缩小置信范围,才能取得较小的实际风险,即对未来样本有较好的推广性需要指出的是,推广性的界是对于最坏情况下的结论,在很多情况下是比较宽松的,特别当v c 维比较高时而且,这种界只在对同一类学习函数进行比较时很有效,可以指导我们从函数集中选择最优的函数,但在不同函数集之间比较却不一定成立三、结构风险最小化从以上结论可以看到,传统的经验风险最小化原则在样本有限时是不适用的,因为我们需要同时最小化经验风险和置信范围在传统方法中,选择学习模型和算法的过程实际上就是调整置信范围的过程,如果模型比较适合现有的训练样本( 相当于h n 值适当) ,则可以取得比较好的结果但它缺乏理论指导,更9多地依赖于先验知识和经验,这就造成了如神经网络等方法使用者“技巧 的过分依赖统计学习理论提出了一种新的策略,即利用函数集构造出一个函数子集序列,使各个子集按照v c 维的大小( 即。的大小) 排列:在每个子集中寻找最小经验风险,在子集间折衷考虑经验风险和置信范围,取得最小的实际风险,如图2 - 1所示这种思想称作结构风险最小化( s t r u c t u r a lr i s km i n i m i z a t i o n ,s r m ) 准则统计学习理论还给出了合理的函数子集结构应满足的条件及s r m 准则下实际风险收敛的性质图2 - 1 结构风险最小化示意图有两种思路能够实现s r m 原则,一是在每个子集中求最小经验风险和置信范围之和最小的子集显然这种方法会比较耗时,当子集数目很大甚至是无穷时不可行因此有第二种思路,即设计函数集的某种结构使每个子集中都能取得最小的经验风险( 如使训练误差为零) ,然后只需选择适当的子集使置信范围最小,则这个子集中使经验风险最小的函数就是最优函数支持向量机方法实际上就是这种思想的具体实现9 0 年代中期,基于统计学习理论设计的支持向量机( s u p p o r tv e c t o rm a c h i n e ,简称s v m ) 在解决一系列实际问题中获得非常好的成绩,表现出优良的学习能力,特别是泛化能力,从而引起人们对这一领域的极大关注目前,该技l o术已成为机器学习界的研究热点,并在很多领域得到了成功地应用2 2 支持向量机2 2 1 支持向量分类( s v c ) 理论我们知道传统的神经网络的学习算法是基于经验风险最小化准则提出来的,即最小化经验风险( 训练误差) 从而试图使期望风险最小化而支持向量机( s u p p o r tv e c t o rm a c h i n e - - s v m ) 是在统计学习理论的基础上提出来的类新型的机器学习方法,它由a t & t 贝尔实验室的v a p n i k 及其研究小组于1 9 9 5 年创建它是结构风险最小化准则基本思想的具体实现,为了最小化期望风险,同时做到最小化经验风险和置信范围,也就是说,它以训练误差作为优化问题的约束条件,而以置信范围值最小化作为优化问题的目标来实现这使得支持向量机的泛化能力要明显优于神经网络等传统的学习方法支持向量机的主要思想可以概括为两点:( 1 ) 它一开始只针对线性可分的情况进行分析,后来对于线性不可分的情况,通过引进非线性映射算法将在低维输入空间线性不可分的样本映射到高维属性空间中,从而使其线性可分,这使得在高维属性空间采用线性算法对样本的非线性特性进行分析成为可能;( 2 ) 它通过使用结构风险最小化准则在属性空间构造出最优分割超平面,使得机器学习得到全局最优化,解决了“过学习”的问题,对样本具有很好的泛化能力另外,由于支持向量机的训练问题本质上是一个经典的二次规划问题,避免了出现局部最优解的情况,有效地克服了“维数灾难 ,而且在最优化理论中许多成熟的算法都可以加以利用正是基于支持向量机的以上优势,无论在理论基础上还是在应用前景上,s v m和其它机器学习方法比较,都具有难以比拟的优越性,它己经在模式识别和回归估计方面取得越来越多的进展下面我们分别从这两个方面对支持向量机的训练算法做简要的介绍支持向量机,简称s v m ,是统计学习理论中最年轻的内容,也是最实用的部分支持向量机是从线性可分情况下的最优超平面发展而来的假设给定训练集 ( ,h ) ,( x 2 ,儿) ,( 屯,儿) ) 其中_ e r ,y l 一1 ,1 再假设该训练集能够被一个超平面线性划分,记该超平面为( wx ) + 6 = 0 ,其中,向量w和标量6 决定了分类超平面的位置,( wx ) 表示两个向量的内积如果训练集中的所有向量均能被某超平面正确划分,并且距超平面最近的异类向量之间的距离虽大( 即边缘最大化) ,则该超平面为最优超平面,如图2 2 所示,其中距离超平面最近的异类向量被称为支持向量( s u p p o r tv e c t o r ) 一组支持向量可以唯一地确定一个超平面- h 1 - 。j - 毒- - :影。气l j 与“一! 一璐。图2 2 线性二类划分的最优超平面2 2 2 线性可分的情况对于线性可分的问题,不失一般性,我们假定训练集中的向量满足:h 【( w ) 一b 】l ,i = l ,2 ,f( 221 )我们知道 支持向量与超平面之间的距离为而币,支持向量之间的距离也为斋币,因此构造最优超平面的问题就转化为在式( 2 21 ) 约束下求最小值巾( 砷= | | w 旷( 22 2 )使分类距离最大实际上就是控制其推广能力,这便是s v m 的核心思想之一统计学习理论指出,在n 维空间中,设样本分布在一个半径为r 的超球范围内,则满足条件i iwi l o 求其最大值需要注意的是,式( 2 2 4 ) 是一个凸二次规划问题,它存在唯一最优解在鞍点上,解w o ,2 j b 和口。必须满足以下条件:( i ) 对最优超平面,系数钟必须满足约束条件:( 第一方程),群儿= o ,q o 0 , i = 1 ,2 ,( 2 2 6 )f = l丛丛警警塑墼( 2 ) 最优超平面( 向量) 可以表示为训练集中向量的线性组合:,w o - e y , a o x i ,钟o ,i = 1 ,2 ,( 2 2 7 )f i l( 第二方程)( 3 ) 支持向量是不等式( 2 2 3 ) 中等式成立的向量,而且,只有支持向量可以在的展开式中具有非零的系数钟因此我们得到:w o - - e y , 口o x , o( 2 2 8 )宣v 根据k a r u s h k u h n t u c k e r 条件可知,最优超平面的充分必要条件是分类超平面满足条件:群 葺w o - b o y , 一1 = o ,f - 1 ,2 ,( 2 2 9 )把的表达式代入l a g r a n g e 函数中,并考虑到k a r u s h - k u h n - t u c k e r 条件,我们可以得到下面的泛函:形 ) = q 一去口j y , y j ( x , x j )i 茸1二i = l问题可以变为在条件q 0 ,汪1 ,2 ,下求得最大这一泛函,而且满足约束条件:,a y e = of = l根据式( 2 2 8 ) ,最优超平面由拉格朗日乘子和支持向量决定,因而要构造最优超平面,我们需要解决的是一个二次规划问题:在约束条件式( 2 2 11 ) 和式( 2 2 1 2 ) 式下使式( 2 2 1 0 ) 的二次型最大化假设= ( 群,钟) 为这个二次优化问题的解,那么与最优超平面对应的向量的模等于:w o1 1 2 = 2 形( ) = o 吁o ( 葺x ) - b o( 2 2 1 3 )s v 基于最优超平面的分类规则就是下面的指示函数:1 4f ( x ) - - s g n ( - g c 0 :仪0 j b i x ) - b o )其中薯为支持向量,群为对应的拉格朗日系数,6 0 是常数:6 0 = 兰【( w 0 而) + ( t 。) 】其中,x l 为属于第一类支持向量,t 。为属于第二类支持向量2 2 3 非线性可分的情况对于非线性可分的情况下,其基本思想是通过事先确定的非线性映射将输入向量x 映射到一个高维特征空间( h i l b e r t 空间) 中,然后在此高维空间中构造最优超平面然而,即使最优超平面有好的推广性并且理论上可以被找到,在如何处理高维特征空间的情况仍然存在技术问题后来,人们发现在特征空间中构造最优分类超平面,并不需要以显式形式来考虑特征空间,而只需要能够计算支持向量在特征空间中的向量内积而这种内积运算是可以用原空间中的函数来实现的,我们甚至不用理会变换的具体形式根据泛函的有关理论,只要找到一种核函数k ( 薯x v ) 满足m e r c e r 条件,它就能够和某一变换空间中的内积对应因此在最优分类面中采用适当的核函数k ( x t x ,) 就可以实现某一非线性变换后的线性分类,而计算复杂度却没有增加具体过程可以表述如下:首先将输入向量通过映射中:r ”一h 映射到高维h i l b e r t 空间h 中再设核函数k 满足:k ( 一x j ) = ( 薯) ( ) ,则二次规划问题的目标函数变为:,1形( 口) = q 一去q 以乃 ( 薯) ( _ ) 】i = lj ,、= 哆一去q 咒乃【k ( 薯_ ) 】( 2 2 1 6 )i = li ,j寻找该目标函数的最大值,约束条件为,q 以= o ,o在训练完成之后,我们构造出相应的分类函数:( x ) = s g n 只q k ( 一x j ) - b 只需计算出分类函数的值即可对样本进行分类其图解如图2 3 所式:一一图2 3 支持向量机示意图通常,不必要显式地知道w 和h ,只需选择合适的核函数k 便可确定一个支持向量机,m e r c e r 定理给出了核函数k 满足的充要条件:对任意满足式( 2 2 1 9 )的函数g ( x ) ,式( 2 2 2 0 ) 成立2 2 4 核函数弦 ) d x 0不同核函数可以生成不同的支持向量机,得到不同的模型,常用核函数的有以下几种:1 ) 线性s v m s :k ( 为) = ( 薯) ( ) ;2 ) 多项式s v m s :k ( 薯0 ) = 阮一+ ,r :1 63 ) 高斯径向基函数s v m s :k ( 而_ ) - - - e x p ( - i ix , - x j1 1 2 2 0 2 ) ;4 ) 神经网络s v m s :k ( 薯x j ) - t a n h ( k x ;x j 一万) 2 3 支持向量函数回归( s v r ) 理论s v m 主要分为支持向量分类( s u p p o r tv e c t o rc l a s s ,s v c ) 和支持向量函数回归( s u p p o r tv e c t o rr e g r e s s i o n ,s v r ) 两个方面s v c 用来处理分类问题,既可以处理两类分类问题,又可以处理多类分类问题;s v r 则用来处理函数回归问题s v r 己经成功的应用于系统识别、非线性系统的预测等方面,并且取得了很好的效果支持向量函数回归的基本思想是:对于给定的训练样本集 ( 五,m ) ,( 而,乃) ) c 彳j j c ( 其中x 表示输入样本的空间,r 表示实数域) ,通过支持向量机训练回归出一个函数f ( x ) ,使得每个输入样本对应的函数值和目标值相差不超过误差占,同时使回归出的函数尽量的平稳2 3 1 线性回归的情况对于线性回归的情况假设函数的形式为:f ( x ) = ( w x ) + 6其中,w e x ,b r ,( ) 表示x 内的点积为了使回归出的函数f ( x ) 尽量光滑,我们需要寻求一个尽可能小的w 为此,可以把上述问题描述成一个凸优化问题:m i n i l | 1 w i l 2( 2 3 1 )珐 嬲并芝冀汜3 在实际运算中,我们通常会忽略掉一些小的误差,故此引入松弛因子六参,所以上述公式通常写成如下形式:m i n 却w i l 2 + c ( 磊+ 等)( 2 3 3 )1 7( 2 3 4 )常数c 0 是平衡因子,它决定函数的光滑程度与函数值误差超过:的样本点数目之间的平衡上述公式中,引入了g 一不敏感损失函数j 孝l 。,其表达形式为:乱描之巍( 2 3 5 )该损失函数描述的是这样一种占一不敏感模型,如果预测值和实际值之间的差别小于s ,那么损失等于0 在本论文的g s v r $ ) i i 练中均采用了该种损失函数图2 4 描述了g 一不敏感损失函数:图2 - 4g 一不敏感损失函数以上问题是一个是凸二次优化问题,为得到其解,引入l a g r a n g e 函数:三= 扣1 1 2 + c 喜( 磊蝴 眯+ 点一咒+ ( w 嘲+ 6 )tt一 + 当一咒+ ( w 鼍) 一6 ) 一( 仍当+ 芴等)( 2 3 6 )f = l,= l其中:q 西,仍,坑o ,i = i ,2 ,函数l 在极值点对于变量( w ,b ,毒,等) 的偏导数都等于零,即:,吼= ( z 一) = o( 2 3 7 ),a 。三= w 一( 彳一q ) 五= o( 2 3 8 )l l l磊等+g占v iv im 叫x6咖砂咒a 护= c 一妒一矿= o( 2 3 9 )式( 2 3 9 ) 中的变量管“,q “,仇表示变量当,q ,r l i 与毒,q ,r l , 中的任意一个,把以上三个等式代入到函数l 中,则得到相应的对偶最优化问题:m a x 一寺( 口,一口从口,一z ) ( 薯t ) 一s ( 口,+ 西) + 占乃( 哆+ z ) ( 2 3 1 0 )。j ,。ii = lj = lfl趾j 善( ”西) - o( 2 3 【q ,西【o ,c 】等式a 。l = w - ( 茸一q ) 五= o 可以写成w 一( z q ) 而,所以回归函数可以表为,厂( x ) = ( 一z ) ( 而x ) + 6f 毫l以上的计算中,偏差b 没有被计算,在实际当中,可以利用k a r u s h k u h n t u c k e r ( k k t ) 条件求出k k t 条件要求在求出最优解时,必须满足以下各式:( 占+ 磊- z + ( w t ) + 6 ) = 0( s + 磊- y j + ( w 五) 一6 ) = o( c 一) 考= 0( c - f z j ) 毒= 0由上面式子可以得出如下结论:1 ) 只有拉格朗日乘子耐- c 的样本点位于回归函数的占误差管道之外2 ) 哆= 0 ,即:,嘭不能同时为非零值3 ) 当耐( o ,c ) 时,由式( 2 3 1 4 ) 得鲁= o ,式( 2 3 1 3 ) 中的第二项0 + 参- z + ( w 毛) + 6 ) 也必须为零,由此可以求出偏差b 的值即:b = 只- ( w x ) 一g ,o t i ( 0 ,c ) 时b = 乃- ( w x ) - e - ,当( o ,c ) 时1 9在实际计算中,偏差b 通常由( 2 3 1 5 ) 和( 2 3 1 6 ) 两式

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论