已阅读5页,还剩47页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 随着人们对机器学习( l m ) 理论的深入研究和对数据挖掘( d m ) 技术的不 断改进,在九十年代初期由v a p n i k v 等人提出了支撑向量机( s v m ) 技术。它是 建立在统计学习理论基础( s l t ) 之上的,借助最优化方法来解决机器学习理论和 数据挖掘中问题的新方法。与传统的统计学和人工神经网络( a n n ) 不同的是, 支撑向量机主要是研究中小样本条件下的统计学习规律和方法,并且它所采用的 样本不像是在统计学中那样为了某个目标而专门生成的样本。实践表明,以统计 学习理论为基础的支撑向量机不仅结构简单,而且具有很强的理论和实践推广能 力。目前,关于支撑向量机的研究工作已经成为了国际人工智能、数据库等领域 的热点问题。本文深入系统的对支撑向量机技术进行了探讨。 本论文的主要工作如下: 首先,在第一章中简单了介绍了机器学习和数据挖掘理论的基本概念和目前 国际上关于它们的研究情况,并概括性地引进了支撑向量机技术。接下来的第二 章介绍了统计学中的回归问题,如线性回归、l o g i s t i c 回归等问题的模型。 再次,在论文第三部分中,把前两章中的支撑向量机技术和回归分析问题结 合起来,系统的讨论了支撑向量机中的数据回归方法,同时运用最优化工具把问 题简化,得到了结构简单合理的问题模型。 最后,为了解决在支撑向量机数据回归方法中的不光滑性,特别是在一些拐 点上的不可微问题,在文中第四章系统的研究了光滑技术在支撑向量机回归问题 中应用,给出了三个在理论和实践中都具有很好性能的光滑的支撑向量机回归方 法。 目前,关于支撑向量机问题的研究主要是从统计学、人工智能、数据库方面 入手,而对支撑向量机回归问题的光滑性进行研究的工作比较少。因此,本文对 支撑向量机技术的研究无论是在理论还是在实际应用方面的,都具有重要的意义。 关键词:统计学习理论,支撑向量机,回归分析,光滑函数 a b s t r a c t a b s t r a c t w i t ht h ei n d e p t hs t u d yo nt h et h e o r yo fm a c h i n el e a r n i n g ( l m ) a n dt h ec o n s t a n t i m p r o v e m e n to nd a t am i n i n g ( d m ) t e c h n o l o g y ,v a p i k vp u t s f o r w a r dt h es u p p o r t v e c t o rm a c h i n e ( s v m ) t e c h n o l o g yi nt h ee a r l y9 0 s b a s e do nt h es t a t i s t i c a ll e a r n i n g t h e o r y ( s e t ) ,i ti san e wm e t h o dt os o l v et h ep r o b l e m so fm a c h i n el e a r n i n ga n dt h en e w d a t am i n i n gw i t ht h eh e l po fo p t i m i z a t i o n d i f f e r e n tf r o mt r a d i t i o n a ls t a t i s t i c s a n d a r t i f i c i a ln e u r a ln e t w o r k ( a n n ) ,s u p p o r tv e c t o rm a c h i n ei s t os t u d yt h es t a t i s t i c a l m e t h o da n dl a wo ft h es m a l ls a m p l e s f u r t h e r m o r e ,t h es a m p l eu s e di ns u p p o r tv e c t o r m a c h i n ei sn o tt h es a m ea si nt h a tu s e di ns t a t i s t i c s ,w h i c hi ss p e c i f i c a l l yd e s i g n e df o ra c e r t a i nt a r g e t i ti sp r o v e dt h a tt h es u p p o r tv e c t o rm a c h i n eb a s e do nt h e s t a t i s t i c a l l e a r n i n gt h e o r yi sn o to n l ys i m p l ei ns t r u c t u r e ,b u th a sas t r o n ga b i l i t y t op r o m o t et h e t h e o r ya n dp u ti np r a c t i c e a tp r e s e n t ,t h er e s e a r c ho ns u p p o r tv e c t o rm a c h i n eh a s b e c o m eah o ti s s u ei nt h ef i e l do fi n t e r n a t i o n a la r t i f i c i a li n t e l l i g e n c ea n dd a t a b a s e i n t h i sp a p e r , t h es u p p o r tv e c t o rm a c h i n et e c h n o l o g yi se x p l o r e ds y s t e m a t i c a l l ya n d d e e p l y t h em a i nt h e s i so ft h i sp a p e ri sa sf o l l o w s :f i r s t ,t h e r ei sab r i e fi n t r o d u c t i o nt o t h eb a s i cc o n c e p t so ft h em a c h i n el e a r n i n ga n dd a t am i n i n ga sw e l la st h e i ri n t e r n a t i o n a l c u r r e n tr e s e a r c h t h es u p p o r tv e c t o rm a c h i n e st e c h n i q u ei sg e n e r a l l yb r o u g h tf o r w a r d i nt h es e c o n dc h a p t e r , t h e r ei s a ni n t r o d u c t i o nt ot h er e g r e s s i o ni s s u e si nt h e s t a t i s t i c s ,s u c ha sl i n e a rr e g r e s s i o na n dl o gi s t i cr e g r e s s i o nm o d e l s i nt h et h i r dp a r t ,t h r o u g hu n i t i n gt h es u p p o r tv e c t o rm a c h i n et e c h n o l o g yw i t ht h e r e g r e s s i o na n a l y s i si s s u e s ,t h ed a t ar e g r e s s i o n i ns y s t e ms u p p o r tv e c t o rm a c h i n ei s s y s t e m a t i c a l l yd i s c u s s e d ;m e a n w h i l e ,o p t i m i z a t i o nt o o l s a r ea d o p t e dt os i m p l i f yt h e i s s u et og e tas i m p l eb u tr e a s o n a b l em o d e l f i n a l l y , i no r d e rt or e s o l v en o n s m o o t h n e s si nt h es u p p o r tv e c t o rm a c h i n ed a t a r e t u r n ,e s p e c i a l l y t h en o n d i f f e r e n t i a b l ep r o b l e mo fs o m ei n f l e c t i o np o i n t s ,t h e a p p l i c a t i o no ft h e s m o o t ht e c h n o l o g yi ns u p p o r tv e c t o rm a c h i n er e g r e s s i o ni si n _ d e p t h s t u d i e di nc h a p t e rf o u r , a n dt h r e es m o o t hs u p p o r tv e c t o rm a c h i n er e g r e s s i o nm e t h o d s w h i c ha r ee f f i c i e n ti nt h e o r ya n dp r a c t i c ea r eb r o u g h tf o r w a r d i i a b s t r a ( 了r a tp r e s e n t ,t h er e s e a r c hi nt h es u p p o r tv e c t o rm a c h i n ei sm a i n l yi nt h ef i e l do f s t a t i s t i c s ,m e n t a li n t e l l i g e n c e ,a n ds t a t i s t i c a ld a t a h o w e v e r , t h e r ei sl i t t l es t u d yo nt h e s m o o t h n e s so ft h e s u p p o r t v e c t o rm a c h i n er e g r e s s i o ni s s u e t h i s p a p e rh a s a m a g n i f i c e n tm e a n i n g i nt h er e s e a r c ho nt h es u p p o r tv e c t o rm a c h i n et e c h n o l o g yi nt h e o r y a sw e l la si np r a c t i c e k e y w o r d s :s t a t i s t i c a ll e a r n i n gt h e o r y , s u p p o r tv e c t o rm a c h i n e ,r e g r e s s i o na n a l y s i s , s m o o t h i n gf u n c t i o n i i i 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工 作及取得的研究成果。据我所知,除了文中特另t l ;b u 以标注和致谢的地 方外,论文中不包含其他人已经发表或撰写过的研究成果,也不包含 为获得电子科技大学或其它教育机构的学位或证书而使用过的材料。 与我一同工作的同志对本研究所做的任何贡献均已在论文中作了明 确的说明并表示谢意。 日期:叩年月,日 关于论文使用授权的说明 本学位论文作者完全了解电子科技大学有关保留、使用学位论文 的规定,有权保留并向国家有关部门或机构送交论文的复印件和磁 盘,允许论文被查阅和借阅。本人授权电子科技大学可以将学位论文 的全部或部分内容编入有关数据库进行检索,可以采用影印、缩印或 扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后应遵守此规定) 矿1 签名:拭簟导师签名:三之遂 日期:矽习年,月,日 第一章机器学习与数据挖掘理论 第一章机器学习与数据挖掘理论 1 1 机器学习理论 1 1 1 什么是机器学习 学习是人类所具有的一种重要的智能行为,是人类获得外界知识的重要手段, 同时也是机器学习的核心问题。顾名思义,机器学习是一种系统,这种系统采用 与人类学习类似的方法或手段来对各种数据样本进行学习推理,从而获得更高层 次的关系和对问题的求解策略,即是利用计算机获取新的知识和技能、判别现有 知识、不断自我发展和自我完善的方法。一般来说,机器学习研究的有人类学习 的认知模型、通用学习算法、构造面向任务的专用学习系统方法等目标。在描述 机器学习中的各个理论和算法时通常是用枚举的方法,它主要包括概念学习、决 策树、神经网络、贝叶斯学习、遗传算法、规则学习、基于解释的学习和增强学 习等。 1 1 2 机器学习问题的表示 机器学习的目的是根据给定的训练样本求对输入输出量之间的依赖关系的估 计,使它能够对未知的或无法观测的输出量做出尽可能准确的预测,它一般地可 以表示为:输出变量y 与输入变量x 之间存在一定的未知依赖关系,即遵循某一未 知的联合概率分布f o ,y ) ,( x 和y 之间的确定性关系可以看作是其特例) ,机器 学习问题就是根据邝个独立同分布观测样本 瓴,m ) ,也,y :) ,瓴,n ) ( 1 1 ) 在一组函数 , ,奶 中求一个最优的函数f ( x ,) 对输入输出变量之间的依赖关 系进行估计,使期望风险 r ( ) 一f l ( ) ,o ,纠) d f ,y ) ( 1 2 ) 最小。其中 f ( x ,奶) 称作预测函数集,c o 为函数的广义参数, f ( x ,c o ) ) 可以表 电子科技大学硕士学位论文 示任何函数集;l ( y , ,) ) 为由于f ( x ,埘) 对y 进行预测而造成的损失,不同类型 的学习问题有不同形式的损失函数。预测函数也称作学习函数、学习模型或学习 机器。 由上可知,机器学习问题的基本模型是: 输 图1 - 1 机器学习的基本模型 在模型中,输出变量y 是训练系统根据输入变量x 得到的,预测变量歹是机 器学习后得到的。学习的目标就是使预测变量歹尽可能的接近输出变量y 。 在机器学习中有三类基本问题,即模式识别、回归分析和概率密度估计问题。 下面将分别给予介绍。 1 1 2 1 模式识别 在模式识别问题,输出变量y 是一个范畴变量,其一般取值为:y 一 o ,l 或 l 一1 l ,预测函数称作指示函数,损失函数可以定义为 砌施加代霎多二嬲 c - 哪 这样,学习的模式识别问题就变成了在联合概率分布f 0 ,) ,) 未知,但独立同 分布观测样本( 1 1 ) 已知的情况下使风险泛函r ( 珊) 最小,也就是b a y e s 决策中使错 误率最小。 1 1 2 2 回归估计 在回归估计问题中,输出变量y 是连续变量( 这里假设为单值函数) ,损失函 数可定义为 工( y ,0 ,) ) 一( y f ( x ,) ) 2( 1 - 4 ) 采用最小平方误差准则来使得风险泛函r ( ) 最小。这样,回归估计问题就是在在 联合概率分布f 0 ,y ) 未知,但独立同分布观测样本( 1 - 1 ) 已知的情况下利用损失函 数( 1 4 ) 使风险泛函r ( ) 最小。 2 第一章机器学习与数据挖掘理论 1 1 2 3 概率密度估计 对于概率密度估计问题,学习的目的是根据训练样本确定x 的概率密度,记估 计的密度函数为p o ,吐,) ,则损失函数可以定义为 l ( p ( x ,n ,) ) 一- l o g p ( z ,功( 1 _ 5 ) 因此,数据估计概率密度问题就是在相应的概率测度f o ) 未知,但给出了独 立同分布数据黾,x 2 ,的情况下,使风险泛函月( 最小。 从上面三个学习的基本问题可知,它们都是基于最小风险的估计,只是所采 用的损失函数不同而已。 1 2 数据挖掘理论 1 2 1 数据挖掘的定义 随着现代信息技术、通讯技术和计算机技术的高速发展,数据库应用的范围、 深度和规模不断扩大。传统的信息系统大部分是查询驱动的,数据库作为历史知 识库对于一般的查询过程是有效的,但当数据和数据库的规模急剧增长时,传统 的数据库管理系统的查询检索机制和统计分析方法已远远不能满足现实的需求, 它迫切要求能够自动、智能和快速地从数据库中挖掘出有用的信息和知识。在这 种需求的指引下,一种新的知识获取技术一机器学习( m a c h i n el e a r n i n g ) 产生了, 它指的是借助计算机等通过一定的程序、方法来达到从经验中得出结论。 数据库知识发现( k n o w l e d g ed i s c o v e r yi nd a t a b a s e ) 也是为了适应这种需要而 产生的一个新兴的机器学习的重要方向。它是指识别出存在于数据库中有效的、 新颖的、具有潜在价值的、最终可理解的、模式的、非平凡知识的过程。数据挖 掘( d a t a m i n i n g ) 是数据库知识发现的一个重要步骤,它被视为以信息为目的的“数 据簇聚”或“数据产生”过程。数据为信息处理者提取新的和有用的规则服务,并 能够根据已有的信息对实际未发生行为的结果做出预测。数据挖掘是从大量数据 中挖掘出隐含的、先前未知的、对决策有潜在价值的知识和规则。这些规则蕴含 了数据库中一组对象之间的特定联系,揭示出一些有用的信息,为经营决策、市 场策划、经营预测、工业控制等提供依据。通过数据挖掘,有价值的知识、规则 或高层次的信息就能从数据库的相关数据集合中抽取出来,并从不同角度显示, 从而使大型数据库作为一个丰富可靠的资源为知识归纳服务。 3 电子科技大学硕士学位论文 数据挖掘的结果知识可能是:概念( c o n c e p t s ) 、模式( p a t t e r n s ) 、规则( r u l e s ) 、 规律( r e g u l a r i t i e s ) 、可视化( v i s u a l i z a t i o n s ) 或者特殊数据( s p e c i a ld a t a ) 等。知识发 现的整个过程包括在指定的数据库中用数据挖掘算法提取模型,以及围绕数据挖 掘进行的预处理和结果表达等一系列计算步骤。 数据挖掘算法是整个过程的核心,通常占整个过程1 5 2 5 的工作量。数据 挖掘是知识发现的一个关键步骤,包括特定的数据挖掘算法,具有可接受的计算 效率,生成特殊的模式;知识发现强调知识是数据发现的最终产品,利用相应的 数据挖掘算法,按指定方式和阈值提取有价值的知识,包括数据挖掘前对数据的 预处理、抽样及转换和数据挖掘后对知识的评价解释过程。 数据挖掘是一个众多学科相互交融形成的、有广阔应用前景的新兴领域,其 中包括数据库、统计学、最优化技术、粗糙集、人工知识、模式识别、并行计算、 机器学习、神经网络、数据可视化、信息检索、图象与信号处理和空间数据分析 等。 图1 - 2 融合其他学科的数据挖掘技术 目前,对于实现这种深层次的次数据分析技术有很多算法,如建立树分类器 的c a r t 算法、用于回归和分类的多层感知器、关联规则学习的a p r i o r i 算法、检 索文本的向量空间算法等。尽管现在有多种数据挖掘技术,但所有的数据挖掘方 法都采用基于归纳的学习。而各种数据挖掘算法的产生和在实际的应用中都有对 它们的评价,这就是在数据挖掘中有重要作用的评分函数,从根本上说使用评分 函数的目的是用函数的形式来评价一个模型对于数据挖掘者来说的有用程度。常 用的评分函数包括经典的误差平方和、对数似然、偏差与方差平衡的均方误差以 及考虑复杂模型的惩罚评分函数。 对于数据挖掘而言,它的任务或目标一般可以包括:聚类分析、线性回归、 树模型、神经网络、不确定性测量和推理、非参数模型、图模型等。而在图模型 4 第一章机器学习与数据挖掘理论 中主要是贝叶斯信念网络:概率分布的图表示。同时,在数据的处理中也会遇到 诸如结构化的、非结构化的。而结构化的数据挖掘在算法处理等方面有很多研究, 在对非结构化的数据挖掘研究中应用了向量空间模型,因此能够使用一些成熟的 线性代数方法,例如奇异值分解( s v d ) 方法和特征根方法,对数据对象进行有 数学深度的加工处理。 1 2 2 数据挖掘中的新方法一支撑向量机 在各种数据挖掘中,数据挖掘模型的建立以及采取有效的算法乃是整个过程 中的关键,目前有很多研究工作就集中在模型和算法上。不过,现在大多数的工 作都是从数据库i i l 、统计学的观点 2 1 来分析的。在不断研究的挖掘方法中,出现了 一种新的方法,即是支撑向量机( s u p p o r tv e c t o rm a c h i n e ,s v m ) ,它是v a p n i k 等 人在长期的研究工作中逐渐提出来的1 3 - 7 1 ,其核心内容是在1 9 9 2 年到1 9 9 5 年提出 来的,是基于统计学习理论的。从2 0 0 0 年以来,支撑向量机理论和方法研究逐渐 成为机器学习、人工智能以及模式识别领域一个重要而且热门的研究主题。从近 几年发表的以支撑向量机为主题的论文数量来看,符合指数增长模型,不完全统计, 在e l s e v i e r 出版的杂志上,2 0 0 6 年将刊登以支撑向量机为主题的论文数量在3 4 0 篇以上:在s p r i n g e r 出版的杂志上2 0 0 5 年已经刊登以支撑向量机为主题的论文数 量超过5 6 0 篇。如果在g o o g l e 上以“s u p p o r tv e c t o rm a c h i n e s ”为主题搜索,约有 4 1 5 0 0 项查询结果。由此可见其研究发展速度非常快。 统计学习理论的一个核心概念是v c 维,它影响了机器学习理论的推广能力。 由于统计学习理论是在建立在一套较为完整的坚实的理论基础之上,它包含了很 多学习方法,在此基础上发展了支撑向量机这一通用的学习方法。由于支撑向量 机方法建立在统计学习理论的v c 维和结构风险最小原理基础上的,根据有限的样 本信息在模型复杂性( 即对特定训练样本的学习精度,a c c u r a c y ) 和学习能力( 即 无错误地识别任意样本的能力) 之间寻求最佳折衷,以期获得最好的推广能力。 支撑向量机方法的几个主要优点有: 1 它是专门针对有限样本情况的,其目标是得到现有信息下的最优解而不仅仅是样 本数趋于无穷大的最优值; 2 算法最终将转化成为一个二次型寻优问题,从理论上说,得到的将是全局最优点, 解决了在神经网络方法中无法避免的局部极值问题; 3 算法将实际问题通过非线性变换转换到高维的特征空间,在高维空间中构造线性 5 电子科技大学硕士学位论文 判别函数来实现原空间中的非线性判别函数,特殊性质能保证机器有较好的推 广能力,同时巧妙地解决了维数问题,其算法复杂度与样本维数无关。 在支撑向量机中,只要给出了内积函数的定义,就可以实现多项式逼近、贝 叶斯分类器、径向基函数方法、多层感知器网络等许多现有的学习算法。 目前关于支撑向量机的研究正在进行中,无论是分类问题、回归问题还是现 在的支撑向量机与最小二乘之间的关系 8 1 都还不成熟,其基本原理和方法将在下 面给予详细的介绍。由于支撑向量机所表现出来的许多优点,使得它在众多领域 得到广泛的应用,比如时间序列【9 1 0 l 、人脸识别n 1 】【”j 、三维物体识别i “、中医研 究应用【l ”、高分辨率遥感图象及其遥感影象睁”】等。 1 3 机器学习和数据挖掘的研究意义 1 3 1 机器学习的研究意义 机器学习是研究如何有效的利用计算机等工具来模拟人类学习过程的学科, 是一个致力于有关学习过程中计算方法的开发和研究,以及应用计算机系统解决 实际问题的研究领域。 在人类漫长的发展过程中,学习一直是一个相当缓慢而又艰苦的过程,要受 到身体发育成长和生理规律以及外界各种条件的限制。而机器学习却能以惊人的 速度进行,并且机器不会感到疲劳,因此其学习速度是人类自身无法比拟的。 和人类的知识不具有继承性相比,机器的知识却可以具有很好的继承性。特 别是在当今信息技术高速发展的今天,各种知识以爆炸的方式在不断的增长。在 此面前人类学习显得有些捉襟见肘,但是如果计算机可以学习的话,那么情况就 大不相同了,它可以把学习不断的延续下去,避免大量的重复学习,使知识积累 达到新的高度。此外利用机器学习还将极大的促进知识的传播。 总之,机器学习速度快、便于知识积累、学习结果易于传播,因此人类在机 器学习领域的每一点进步,都会使计算机的能力显著增强,从而对人类社会产生 影响,尤其对今天信息化社会来说,这种影响将是十分深远的。 1 3 2 数据挖掘的研究意义 在当今网络信息时代,在给人们带来方便的同时也带来了一堆难以解决的问 题如信息过量难以消化等,特别是当积累的数据越来越多时,由于缺乏挖掘数据 6 第一章机器学习与数据挖掘理论 背后隐藏的知识的手段,人们无法发现数据中存在的关系和规则,也无法根据现 有的数据预测未来的发展趋势,导致了数据爆炸但知识贫乏的现象,这些都促进 了数据挖掘技术的产生,并成为近年来的研究热点。 利用数据挖掘工具从数据集中所发现的知识,是有特定提前和约束条件的、 面向特定领域的,同时还要能够易于被用户理解。而在实际商业应用中,数据挖 掘是一种新的商业信息处理技术,从大量的数据中经过深层次分析得到有用的模 型。 综上所述,数据挖掘技术在处理海量数据中起到了举足轻重的作用,为人们 在实际的庞大数据分析中提供了强有力的工具和保障,这也就是研究数据挖掘的 意义所在。 1 4 论文的研究主题和内容 支撑向量机分类问题是研究变量的未来状态或者类别,目前是支撑向量机研 究的一个重要方向。支撑向量机回归问题是研究变量具体的数值,也就是说,学 习输出结果是连续的数值。比如说,在金融序列预测时,预测状态即分类,要容 易得多,预测股票价格即回归,要难很多。正因为困难才具有挑战性,目前国际 上,研究支撑向量回归机的理论和求解方法也是一个非常热的机器学习课题。 目前来说,对于支撑向量回归机的研究主要是借助于统计学习理论中的一些 回归分析方法,如线性回归、多项式回归等,在本文的第二部分将就一些经典的 回归分析方法做初步的探讨,以对在第三部分中详细地系统地介绍支撑向量回归 机做出坚实的理论基础。但是在许多现有的回归分析方法中,所采用的损失函数 如线性不敏感损失函数等在对问题模型的建立过程中存在一个问题,即在某一点 或某一区域这些损失函数是不可微的,这就导致了依据它建立起来的整个模型在 相应区域性能的下降。鉴于此,本文采用数值分析方法,提出了三种函数来解决 上述问题,即是采用光滑技术来建立支撑向量回归机模型,以期在预测和推广能 力上表现出较好的性能。 7 电子科技大学硕士学位论文 2 1 线性回归问题 第二章数据回归问题 线性回归问题是数据回归问题中的一类最基本的回归问题,同时也是最重要 的回归问题之一,因为它是其他回归问题的原始形式与基础。线性回归问题就是 在给定的训练数据集s 一 瓴,m ) ,( 屯,儿) ,“,”) ) ,而e x 彤,y ,y 咒 i 一1 , 2 ,f 中,寻求线性函数 , ) ; + 6 ,w 彤 其中w 和b 称为回归系数,w 是线性回归的方向向量,b 是直线偏离原点的距离, 可以参看图2 - 1 。线性回归的目标就是确定回归系数,使得它能够很好的拟合训练数 据集s 中的给定量y r 。从几何的角度来说,就是寻找一个拟合给定点的超平面。 图2 - 1 一维线性回归问题 在求回归系数的方法中,最小二乘法是一种比较常用的方法,下面对其进行 简单介绍。 给定训练集s 一 瓴,n ) ,( 屹,y :) ,“,咒) ) ,其中鼍x 彤,y t e y c c _ r , i - 1 , 2 , ,f ,考虑线性函数,来对给定训练数据建模: ,( x ) 暑 + 6l 毒w + b( 2 - 1 ) 最小二乘法就是在选择参数( 嵋6 ) 的时候,采用最小平方误差准则的一种参数 选择方法,具体模型如下: 8 第二章数据回归问题 l1 m i n l ( w , b ) 2 善 一,“) ) 2 。善( 咒- 一6 ) 2 ( 2 - 2 ) 函数工表示训练数据集s 上函数,的总体误差,它被称作是平方误差函数。最 d x - 乘法的目标是求函数的最小值点,根据极值的必要条件,通过对应于参数 ( w ,6 ) 求偏导所得的珂+ 1 个表达式为0 ,建立方程组求解。 令4 一 五 屯 : 而 ,y = m y 2 : m 硝,亭一( ) ,一a w b e ) ,于是误差函数可以表示 为: ( w 6 ) ,1 1 0 1 1 :- i l y a w b e 嵯= ( y a w - b e ) ( y - a w - b e ) ( 2 3 ) 其中宇m y a w b e 称为输出偏差向量。 通过误差函数l 对参数w , b 求偏导为0 ,得到如下方程组: 掣。一2 x l ( y a w 一6 p ) 。o 帆 o l = _ ( w 一b ) 。一2 2 2 ,( y 一彳w 一6 e ) ,o批 掣。一2 x l ( ) ,一4 ,一6 e ) 。o 挑 o l ( w , b ) :一2 e ,( y 一4 w b e ) ;0 o b 、。 求解上面方程组可以找到最优的w , b ,写成向量形式为 j a a w - 磐= 6 :( 2 - 4 ) 1 e e b p ( y 一爿w ) 如果4 么的逆存在,最优回归系数就可以求出;如果彳么的逆不存在或者说 彳么是奇异的,则可以使用伪逆的方法来进行求解,此时的回归被称作岭回归呻1 。 9 电子科技大学硕士学位论文 2 2 非线性回归问题 2 2 1 多项式回归 在众多非线性回归方法中,多项式回归是最常用的一种,也是比较简单的一 种回归方法,尤其是二次和三次多项式。 对于单变量的简单多项式,我们可以很容易的得到下面的回归方程: ,( t ) = a o + 4 卉+ a z x j 2 ,i 一1 ,2 , 上述方程就是一元二次多项式回归模型。相应的一元三次多项式回归模型有如下 形式: f ( x i ) 暑4 0 + 口1 五+ a z x i 2 + 4 彳,i 耸1 ,2 ,z 一元三次多项式函数,在工程应用中常常也称作样条函数,它在造船、航天等诸 多领域有广泛的用途。 对于一般的多元多项式回归问题,如果回归函数记为 f ( x ) 昌a o + a l x + a 2 x 2 + 4 声3 + + 吒矿 其中a 0a l ,a 2 ,口3 ,a n 是回归系数。 如果x a ,x 2 ,而是已经知道的回归样本点,一般多项式回归的问题可以写成 矩阵的形式如下 如果令 4 一 ( x o ,( 屯) : ,) 1 x a 1 x z 1 而 1 x a 1 x 2 。 1 而 恐“ 吖 x ; f f 一 ( x d 厂也) : ,) 4 0 q : 口n ,w 1 口o q : 吒 则一般多项式回归的问题可以写成矩阵的形式。我们利用矩阵工具可以得到它的 模型: 第二章数据回归问题 j 。= 4 其中,是回归系数向量,f 是回归样本点的对应多项式函数值。此时对应的问 题是求矿使得f 和真实值y = 0 。,y 。,m ) 之间的误差极小。关于多元多项式回归 问题的更多内容可以参考文献1 1 9 。 无论是一元还是多元的多项式回归问题,其系数的确定一般都可以使用上面 介绍的最小二乘法来实现。 2 2 2l o g is t i c 回归 由于常规最小二乘模型的不适宜性,建议对于二分类因变量的分析使用非线 性函数。事件发生的条件概率是p - 1 i x s ) - 与鼍之间的非线性关系通常是单调函 数。即是当薯增加时,p 增加;当鼍减少时,p 也减少。 如果假设在反应变量并和自变量葺之间存在一种线性关系,即 ) = 口+ 卢玉+ ( 2 - 5 ) 由公式( 2 5 ) 我们可以得到 p ( n - 1 i x , ) = p 【( 口+ 芦鼍+ ) 0 】一p 【毛 ( - a 一卢玉) 】( 2 6 ) 这里假设公式( 2 - 5 ) 中的误差项岛有l o g i s t i c 分布。于l o g i s t i c 分布是对称的,因此 公式( 2 6 ) 可以改写为: ,( 略= 1 l t ) = p e s ( 口+ 卢而) 】一f ( a + 卢而) ( 2 - 7 ) 其中f 为毛的累积分布函数。于是就得到下面的l o g i s t i c 函数,它具有s 型分布。 1 p 瓴1 1 k ) 。p 【8 + 卢而) 卜五i ( 2 8 ) 1 1 电子科技大学硕士学位论文 图2 - 2l o g i s t i c 函数的曲线图 为了根据l o g i s t i c 函数取得l o g i s t i c 回归模型,我们将公式( 2 - 8 ) 重写为: p 魄_ l k ) 。百万1 丽( 2 - 9 ) 其实,这就是当取值为 + f i x , ) 时的累积分布函数。 将事件发生的条件概率标注为p ( m 一1 k ) 一只,我们就能得到下列l o g i s t i c 回 归模型: a 。i 。等( 2 - 1 0 ) a 5 百两 其中p f 为第f 个案例发生事件的概率,它是一个由解释变量墨构成的非线性函数。 关于l o g i s t i c 回归的更详细的理论研究与应用可参考文献【2 0 】。 2 2 2 偏最, b - - 乘回归 偏最d x - - 乘回归是一种新型的多元统计数据分析方法,于1 9 8 3 年由s w o l d 和c a l b a n o 等人首次提出。由于它具有较好的理论性能和广泛的应用前景,密西 根大学的f o r n e l l 教授称偏最小二乘回归为第二代回归分析方法。 设有q 个因变量 y 。,y :,y 。 和p 个自变量 鼍,镌, 。为了研究因变量与 自变量的统计关系,我们观测了恕个样本点,由此构成了自变量与因变量的数据表 x k ,x 2 ,x ,l 。,和y 一【y 1 ,y :,_ ) ,。l 。为了数学推导方便起见,首先将数据做 标准化处理。x 经标准化处理后的数据矩阵记为昂;( 日,点矗,乓,) 。,y 经标 准化处理后的数据矩阵记为昂;( 磊,j k ,届。) 。具体步骤如下p ”: 第一步:记是e 0 的第一个成分,f l e 0 w 1 ,m 是毛的第一个轴,它是一个 第二章数据回归问题 单位向量,即1 1 w , 1 1 = 1 ,u o 是昂的第一成分,。= ,c 1 是晶的第一个轴,并且 = 1 a 为了满足f 1 ,啊能分别很好地代表x 与y 中的数据变异信息及f 1 与“。的相关度 应达到最大值,考虑求解下列优化问题: m a x c 毛m ,磊c l 豇艨二1 j p 1 1 l 锕一 对( 2 1 1 ) 式采用拉格朗日乘子算法得:记s w i 昂铂一 ( 以w l 一1 ) 一九( c :c 1 1 ) 苎l = 反f 矗一2 m 。0 粤。s g s o w , 一2 确。0 熹。一一1 ) 0 ( r a m - 0 瓦1 ) 要,一嗡一1 ) 一0 瓦一一 。 f l 一日m ,1 1 1 一 然后分别求e o 和昂对岛,u i 的三个回归方程: 毛一“+ 置 昂一“矗+ 耳 磊m t l r ;+ 互 式中,回归系数向量是: 胪静 爵 吒音 而目,耳,互分别是三个回归方程的残差矩阵 第二步:用残差矩阵层和e 取代昂和磊,然后求第二个轴屹和c 2 以及第二个 成分f 2 与“:,有乞- 置w 2 ,搿:一五c 2 - 同样有回归方程: 电子科技大学硕士学位论文 回归系数: 巨;t 2 p ;! + e 2 e = t 2 r 2 + e 磊- t l p l + t 2 p 2 + + t a p 届t “+ f z + + ,二+ 只 ( 2 - 1 2 ) 由于f l ,均可以表示成。,e 。,e 0 ,的线性组合,因此,式( 2 1 2 ) 还可以写 成戎一v o 。关于一磊,的回归方程形式,即 ) ,:i 吼1 + 口i + + a 姆工:+ f 北,j 耳1 2 ,碍 匕是残差矩阵只的第七列。 2 3 小结 在应用和计算数学领域,数据回归问题是统计学和数值分析等学科研究的重 要问题之一,它对于数据拟合、预测数值特别是无法直接测量和观测到的数据起 到了举足轻重的作用,它在工程技术中得到广泛的应用,特别是在机器学习、人 工智能和数据挖掘等领域。 利用统计学习理论得到回归系数是目前关于它的研究中比较热门的课题,其 中支撑向量机数据回归技术是近几年发展较快的方向。在下一章,我们将主要介 绍这个方向的基本理论。 1 4 盛盯 l 乞 , 有蛊帅烩 = 见 a 是秩的 y 果如去l算比如 第三章支撑向量机数据回归方法 第三章支撑向量机数据回归方法 3 1 支撑向量机数据回归的基本理论 首先我们简单引入支撑向量机的基本理论概念。支撑向量机起源与数据二分 类问题。 考虑训练数据集: s = “,y 。) ( 毪,y :) ,( 而,m ) ) 工r 4 ,) , 1 ,一1 ) 可以被一个超平面 帆工 + b 1 0 分开。如果这个向量集合被超平面没有错误地分开,并且离超平面最近的向量与 超平面之间的距离是最大的,则我们说这个向量集合被这个最优超平面或最大问 隔超平面分开,并且这个间隔就是南。 图3 - 1 最优分类超平面示意图 于是对于上述问题就得到如下的分类模型: 给定一个数据训练集: 1 5 s = ( 五,y ,) ,( z :,y :) ,y ,) ) z r “,y 1 ,一1 ) ( 3 1 ) 砌荆2 坳,咖) ,抑1 2 一套比( c m p 删i l 】 ( 3 3 ) 丝mw-多刚舻oo 。n ,, ,臼 ( 3 4 ) 芸a 跏一。 卜 w 一嘲y 五 0 一q y f 钾 ( m 抚口) 一割圳2 一塞q 眦( ( w ,乇) + 6 ) 一1 】 _ i , 一薹呸眇f “嵋j + 一q, 。, 。壹荟慨吣确 京城蚂v ,荟q 。蓍q 一壹磊珊吧 第三章支撑向量机数据回归方法 而在高维空间中,只需将最优分类在低维中的点积c 鼍,t ,换成内积圈矗,工j ) 即可。这种转换实质上就是通过定义适当的内积形式的非线性交换将输入空间变 换到一个新的特征空问中,然后在这个空间中求取最优分类超平面。这个时候支 撑向量机的分类函数形式上接近于一个神经网络,输出的是若干中间层节点的线 性组合,而每一个中间层节点对应于输入样本与一个支撑向量的内积,如下图所 示: 图3 - 2 支撑向量机示意图 对于给定的回归数据集,s 一 “,n ) ,如,儿) ,“,y 1 ) ) x e r ”, y r 。用于 回归的基函数集合为g a 岛,g :,矗) ,它们的组合形式形成了如下的估计函数: 歹。荟呐 通过计算g 中的函数在给定回归数据集中的数据,确定上述估计函数的系数 。这一问题等价于求解下面的方程组: a w 叠b 其e e
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 果品收购合同范本
- 新房渠道合同范本
- 工地消防合同范本
- 物业公司出租大厅合同范本
- 护士员工合同范本
- 买卖电器合同范本
- 货车借车合同范本
- 2024至2030年蚝干项目投资价值分析报告
- 2024至2030年封口打印机项目投资价值分析报告
- 2024至2030年一体化呼叫中心交换机项目投资价值分析报告
- 国开电大《农村社会学》形成考核1答案
- 个人理财课程房产规划课件
- 混凝土浇筑及振捣措施方案
- 《思想道德与法治》 课件 第四章 明确价值要求 践行价值准则
- 网红直播基地孵化建设方案电商直播基地建设
- 离高考200天主题班会课件
- 施工现场消防安全验收表(总平面布置)
- 小学数学教师家长会ppt
- 幼儿园绘本故事:《这是我的》 课件
- 君子自强不息课件
- 2022人教版高二英语新教材选择性必修全四册课文原文及翻译(英汉对照)
评论
0/150
提交评论