




已阅读5页,还剩123页未读, 继续免费阅读
(无机化学专业论文)变量选择和变换的新方法研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 摘要 2 1 世纪被誉为生命科学的世纪,仪器和分析技术快速发展,化学和生物学 数据的积累呈指数级增长。然而,对于这些不断增长的海量数据,如何从中发 现更多、更有价值的信息是对化学和生命科学研究的一个巨大挑战。 在解决这些超大规模数据问题时,经常碰到的问题之一就是“维数灾难”。 在低维空间里计算上可行的办法,在高维空间里可能变得全无实际意义。如何 处理含大量变量的超大规模数据集,需要提出新的思路和新的解决办法。对于 这样的高维数据,一个很直观的想法便是选择并保留一些重要变量( 变量选择) 或者通过原有变量的线性非线性组合来代替原来的变量( 变量变换) 。 本论文的主要内容就是变量选择和变换的新方法的研究。 首先简述了定量构效关系的基本原理,实现步骤以及研究现状,简单介绍 了一些传统的变量选择方法:同时简述了超大规模数据常用的降维方法,包括 变量变换和从统计学角度进行变量选择的一些方法。 接着从三个层次的研究策略提出了变量选择及变换的新方法,包括核函数 方法,多阶统计量变换方法,模式变量方法等。 核函数近年来在机器学习等许多领域获得了重要的应用,本文将其引入偏 最小二乘方法。以样本之间的关系代替原变量之间关系的方式,用于数据的回 归以及分类等。这样数据不需进行变量选择,避免了不同选择方法选择出的变 量不相同的结果,取得了不错的结果。 其次提出了多阶统计量变换方法。统计矩可以反映数据集整体的变化方式, 这里用多阶统计矩构建新的特征变量。将数据分为若干区域,得到每个分区的4 阶统计量,并以此分区信息作为新的变量进行计算,变量数目减少,分类效果 进一步提高。 上述两种方法考虑到了数据的整体和局部信息,但是都没有反映出特征变 量的具体贡献,因此又提出了模式变量的方法。探索了连续变量的模式表达方 法,将连续变量转换成模式变量,进一步减少了变量数,简单地说,模式的组 合就构成了模式变量。针对肿瘤和对照集分别提取出各自特异的表达模式,也 取得了较好的结果。 摘要 在应用研究方面,选取了几个实际应用体系,将上述方法应用于复杂疾病 的诊断、计算蛋白质组学、环境污染物重要性质的预测以及药物辅助设计等研 究,具有很好的应用前景及重要的理论和实际意义。 复杂疾病诊断的应用包括蛋白质芯片( s e l d i t o f ) 卵巢癌分类和基因芯片 白血病分类,都得到了令人满意的结果,对复杂疾病的早期诊断提供了有价值 的参考结果。 在计算蛋白质组学应用中,对多肽保留时间进行了预测,对蛋白质的定性定 量分析提供了一个比较可靠的方法。 预测持久性环境污染物d i o x i n s 保留时间和保留特征值,并结合其与芳烃受 体的对接结果预测毒性,为进一步建立环境中持久污染物的分析体系提供有价 值的理论依据。 本文将k p l s 应用于计算机辅助药物分子设计,尝试通过利用分子对接的结 果如对接能量、配体和受体的原子间距离等建立构效关系模型,研究了细胞周 期蛋白依赖性激酶2 ( c d k 2 ) 抑制剂、神经氨酸酶抑制剂环己烯衍生物,今后还 需要进一步深入的研究。 关键词:变量选择,变量转换,核函数,构效关系,多阶统计量,模式变量 a b s t r a c t i nt h e2 1c e n t u r y ,t h eb o o m e dd a t ao fc h e m i s t r ya n d b i o l o g y ,q u i c k l yd e v e l o p e d e q u i p m e n t sa n da n a l y s i st e c h n o l o g i e s h e l pu so b l a i rm o r ei n f o r m a t i o na b o u t 翻r u c n l r e sa n df u n c t i o n s h o wt oo b t a i nv a l u a b l ek n o w l e d g ei sal a r g ec h a l l e n g et o l i f es c i e n c er e s e a r c h i no r d e rt or e s o l v et h i sp r o b l e m , w es h o u l di m p r o v ea l g o r i t h m s o rp r o p o s en e w a l g o r i t h m s c u r s eo fd i m e n s i o n a l i t yi so n eo ft h em o s td i f f i c u l tp r o b l e m si nl a r g es c a l ed a t a a n a l y s i s n e wm e t h o d sa n ds o l u t i o n sa l ep r o p o s e d v a r i a b l es e l e c t i o na n dv a r i a b l e t r a n s f o r m a t i o na l eu s e dt or e s o l v et h i sp r o b l e m t h i s m a i ns t u d y o f d i s s e r t a t i o n i s t h es t u d y o f n e w v a r i a b l e s e l e c t i o n a n d v a r i a b l e t r a n s f o r m a t i o nm e t h o d s f i r s t , r e s e a r c hb a c k g r o u n d , t h ec o n c e p t sa n da c h i e v e m e n t sa r eb r i e f l yi n t r o d u c e d a b r i e f d e s c r i p t i o no f t h eq s a rp r i n c i p l e r e a l i z a t i o np r o c e s sa n dr e s e a r c hs t a t u s 黜 g i 、恤d i m e n s i o n a lr e d u c t i o nm e t h o d so f h u g ed a t aa r ci n t r o d u c e d , i n c l u d i n gv a r i a b l e s e l e c t i o na n dv a r i a b l et r a n s f o r m a t i o n k e r n e lm e t h o di sd e s c r i b e di nd e t a i l s t h e n , m e t h o d so fv a r i a b l es e l e c t i o na n dv a r i a b l et r a n s f o r m a t i o na r ep r o p o s e d , i n c l u d i n gk e r n e lm e t h o d ,s t a t i s t i c a lm o m e n t st r a n s f o r m a t i o nm e t h o da n dp a t t e r n v a r i a b l e sm e t h o d k e r n e lf u n c t i o n sa l eu s e ds u c c e s s f u l l yi nm a c h i n el e a m i n ge t c i np r e v i o u s g t u d i e $ ,d i f f e r e n tv a r i a b l es e l e c t i o nm e t h o d so b t a i nd i f f e r e n tr e s u l t s i no r d e rt oa v o i d t h i sc o n d i t i o n , k e r n e lp a r t i a ll e a s ts q u a r e si su s e di nt h i ss t u d y t b er e l a t i o n s h i p so f o n g i :n a lv a r i a b l e sa r er e p l a c e db yt h er e l a t i o n s h i p so fs a m p l e s s a t i s f i e dr e s u l t sa r e o b t a i n e d s t a t i s t i c a lm o m e n t sa r eu s e dt ot r a n s f 0 1 1 1 1v a r i a b l e s 1 1 圮d a t aa r cd i v i d e di n t o s e v e r a li n t e r v a l s 1 1 壕s t a f f s t i c a lm o m e n t so fe a c hi n t e r v a la u s e da sn e wv a r i a b l e s t h en u m b e ro f v a r i a b l e si sd e c r e a s e d 1 1 1 ec l a s s i f i c a t i o nr e s u l t sa r ei m p r o v e d 1 1 1 ea b o v et w om e t h o d su f i l l la n dl o c a li n f o r m a t i o no ft h ed a t a t h o u g ht h e c o n t r i b u t i o n so f v a r i a b l e sa r en o tc o n s i d e r e d t h e nt h em e t h o do f p a t t e r nv a r i a b l e si s p r o p o s e d i nt h i sm e t h o d , c o n t i n u e sv a r i a b l sa r ct r a n s f o r m e di n t op a t t e r nv a r i a b l e s a b s t r a c t t h en u m b e ro fv a r i a b l e si sf u r t h e rd e c r e a s e d n 抡s p e c i f i cp a t t e r n so fc a n c , e ra n d n o r m a la r ee x t r a c t e dr e s p e c t i v e l y t h e s em e t h o d sa r ea p p l i e di ns o m er e a lc a s e i nd i a g n o s i so f o v a r i a nc a n c e ra n d l e u k e m i a , g o o d r e s u l t sa r eo b t a i n e d n 圮r e t e n t i o nt i m e so fp e p t i d ea l ep r e d i c t e db yt h r e ev a r i a b l e s ( s u mo fr e t e n t i o n t i m eo fa 1 1 1 i h oa c i d s , v a nd e rw a a l sv o h u na n dn - o c t a n 0 1 w a t e rp a r t i t i o nc 0 e m c i e n t ) n l er e s u l t so f k p l sa r es u p e r i o r t ot h o s eo f l i n e a rm e t h o d k p l si su s e dt op r e d i c tt h er e t e n t i o n t i m eo fd i o x i n s t w ok i n d so fm o l e c u l a r m o d e l i n gm e t h o d sa r eu s e dt op r e d i c tt h eb e h a v i o ro fd i o x i n s k p l sa r es u p e rt h a n p l si nb e t hm o d e l i n ga n dp r e d i c t i n g q s a rm o d e l sb a s e do nt h er e s u l t so fm o l e c u l a rd o c k i n ga r ec o n s t r u c t e d 1 1 1 e d i s t a n c e so f i n h i b i t o ra n da c t i v es i t e so f n aa r ea p l l i e da sv a r i a b l e si nq s a r k e yw o r d s :v a r i a b l et r a n s f o r m a t i o n , k e r n e l ,q s a r , s t a t i s t i c a lm o m e n t s ,p a t t e r n v e c t o r s 学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学位论文作者签名:庄瓤、l 乞 扣g 年3 月f 日 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、己公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均已在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者签名:压吻f l 乞 a 一8 年;月i e t 第1 章前言 第1 部分前言和方法综述 第1 章前言 1 1 化学计量学和化学信息学的发展和新任务 化学家们很早就认识到化合物结构与其物理、化学以及生物性质之间的关 系是非常复杂的,这就要求高度复杂的计算,或是要求在相应数据进行分析后 进而对这些性质进行预测。进入2 1 世纪,那些长期从事化学与计算机科学交叉 研究的先行者的成果被广泛认识和正式接受,从而形成了一门完整的新的交叉 学科“化学信息学”【”。 化学信息学已为化学特别是分析化学的发展作出积极贡献。与此同时,在 以生命科学为代表的复杂体系研究中,疾病的早期诊断、药物设计、蛋白质组 学、代谢组学、系统生物学等方面的疑难问题,使化学计量学与化学信息学面 临更严峻的挑战,同时也带来难得的机遇。近年来人们逐步认识到海量数据的 利用十分困难,而且不充分,一些更具价值和规律性的信息和知识还隐蔽在数 据内部。如何从数据中发现更多、更有价值的规律正逐步成为科学家们关注的 焦点。2 0 0 5 年1 0 月,化学计量学与化学信息学专家学者从战略高度讨论了学科 的发展方 2 1 ,重点在以下几方面:要面向生命科学,以生命体系和各种“组学” 为研究对象;增强解决化学、生命、环境、材料等学科中的各种复杂实际问题 的能力;对海量的化学结构数据和化学测试数据进行深层次挖掘,进行化学结 构与各种化学性质和化学行为的定量关系研究;结合实际问题进行新算法研究 等等。 1 2 生物统计和生物信息学 生物信息学是生物学与计算机科学以及应用数学等学科相互交叉而形成的 一门新兴学科。它通过对生物学实验数据的获取、加工、存储、检索与分析, 进而达到揭示数据所蕴含的生物学意义的目的。由于当前生物信息学发展的主 要推动力来自分子生物学,生物信息学的研究主要集中于核苷酸和氨基酸序列 的存储、分类、检索和分析等方面,所以目前生物信息学可以狭义地定义为: 第1 章前言 将计算机科学和数学应用于生物大分子信息的获取、加工、存储、分类、检索 与分析,以达到理解这些生物大分子信息的生物学意义的交叉学科。 生物学研究的对象是生物有机体,与非生物学相比,它具有更加特殊的复 杂性。生物有机体的生长发育,生理活动,生长变化及有机体受外界各种随机 因素的影响,都使生物学研究的实验结果有较大的差异性,这种差异性往往会 掩盖生物体本身的特殊规律。在生物学研究中,大量实验数据内在的规律性, 也容易被杂乱无章的现象所迷惑,从而被人们所忽视。因此,在生物学研究中, 应用生物统计学就显得特别重要。生物统计是数理统计在生物学研究中的应用, 它用数理统计的原理和方法来分析和解释生物界各种现象和实验调查资料。随 着生物学研究的不断发展,统计学方法已经越来越广泛地运用于认识,推断和 解释生命过程中的各种现象【3 】。生物学研究的实验证明,只有正确地应用生物统 计原理和分析方法对生物学实验进行合理设计,对数据进行客观分析,才能得 出科学的结论。 生物统计能发现生物序列里面潜在的规律。与生物体功能和进化相关的链 状分子具有一种基本特性,即它们能够以数字化符号序列的形式表示。d n a 、 r n a 以及蛋白质分子中的核苷酸和氨基酸单体是确定的。虽然它们在生理环境 中常常会经历复杂的化学修饰,但仍然可以使用很少的字符表示其分子链的组 成。 另外,生物序列数据的数字化特征对算法的类型产生了深刻的影响,这些 算法用于计算分析并发展成熟。使用这些算法不仅能研究特定的序列及其分子 结构和功能,还能常常用于对一组序列的综合研究,包括:特定序列在不同物 种中的不同形式,以及在具有多态性的情况下,相同物种中序列的不同形式。 为了更好地对不同物种的序列模型进行比较研究,还必须考虑到生物序列的内 在“噪声”,这种噪声表现为序列片段的多样性,这种多样性部分地来自被进 化放大了的随机事件。由于具有特定功能和结构的d n a 和氨基酸序列存在一些 不确定的差异,序列模型必然是基于概率理论的模型。 1 3 课题来源 很多年来生物信息学和化学信息学一直是科学领域内两个互不相干的领 域。但是近年来很多相关公司的合并、收购与合作表明,它们之间的这种壁垒 2 第1 章前言 正在消除。现在实验研究中产生的各种数据越来越多。一方面是庞大的基因组 数据库,另一方面是每天可以筛选数百万种化合物的高通量化学筛选方法,为 了最有效的利用这些信息,理解其中涉及的各种机制,生物信息学和化学信息 学的联合已成了必然的趋势。化学信息学目前涉及的研究领域非常广泛,除了 传统的统计方法的应用和改进,在波谱解析、分子的编码、描述、结构性质以 及生命科学领域都有着长足的发展。 定量结构性质活性关系研究( q s a r q s p r ) 是信息学研究中十分活跃的研 究领域之一,生物统计也可理解为广义上的构效关系。有关q s a r 的研究论文 每年都超过几千篇。q s a r q s p r ( 在本文中下面统一称为q s a r ) 的研究对象包 括药物的生物活性、毒性、药物的各种代谢动力学参数和生物利用度以及分子 的各种物理化学性质和环境行为等,研究领域涉及生物、化学以及环境科学等。 q s a r 可以建立预测化合物的各种物理化学性质以及生物活性的理论模型,还可 以发现和确定对化合物的各种性质起决定作用的结构因素,从而在分子水平上 了解物质的微观结构对各种宏观性质的影响,对分子设计起一定的指导作用。 q s a r 研究同时在很多其它领域都有很高的实用价值,如化工过程设计以及有机 化合物环境行为的评价等等【】,提高了化工生产的效率,降低了生产成本。总 之,q s a r 研究在化学、生命科学以及环境科学中都有着重要的理论和应用价值。 可以说,q s a r 是将方法和应用结合得非常成功的研究领域之一。 q s a r 研究的基本假设是分子性质的变化依赖于其结构的变化,而且分子的 结构可以用反映分子结构特征的各种参数来描述,即物质的性质或生物活性可 以用结构的函数来表示【s 司,y = 厂( 柳。本实验室一直致力于这方面的研究【7 。 本文认为q s a r 的研究重点主要在以下方面:( 1 ) x 中跟y 相关的变量的选择, ( 2 ) 构造x 与y 的关系,( 3 ) 参数的确定,( 4 ) 其他一些方砸。在这几个方面, 科学家们已经做了大量的工作,也取得了许多实际成果。 随着生命科学世纪的到来,快速发展的先进的测序和分析技术帮助科学家 们获取越来越多的与结构功能相关的信息。生物数据与传统的化学数据最大的 不同就在于它的变量比样本往往要多出2 3 个数量级,可以称之为海量数据或者 超大规模数据。如何从不断增长的海量数据中挖掘出最有用的信息,是对化学 信息学和生物信息学的一个巨大挑战。有两部分数据信息影响着模型的建立和 解释,一部分是重复的冗余数据信息;另一部分是无用的数据信息。对于较为 复杂的数据分析问题,由于常含有上述两类数据信息的影响,常规的分析方法 3 第1 章前言 很难得到稳健性和预测能力均好的模型。因此,如何从大量的繁杂的数据中排 除无用和冗余的数据信息,提取有用的数据信息成为建模的一个重要问题。 对于海量数据引发的这些问题,有的是可以用现有的统计学或数学方法来 进行分析解决的,而更多的是现有的方法无法解决的,这就需要改进已有算法 或者发展新的算法。例如希望通过变量选择找到有意义的生物标志物,目前可 供使用的变量选择方法有很多种,但是用于超大规模数据时,不同的方法选择 出的变量往往并不相同,有时候甚至大相径庭,这就给处理数据解释结果带来 了很大的困扰。 根据这些情况,本文认为现在q s a r 的研究除了上文所提的那些重点外, 还应该考虑变量的转换,也就是以充分反映变量特征的新变量代替原有变量进 行计算。这样只提取有用信息,既避免使用很多高度相关的变量,又实现了数 据降维,使用传统方法也可以处理而不会出现维数灾难的问题。 1 4 本文的主要内容和成果 生命科学数据的积累呈指数级增长,如何从中挖掘出最有用的信息,这是 当前信息学研究的重点。生命科学数据一个很重要的特点就是变量数远大于样 本数,这对传统的方法提出了很大的挑战。本文主要是在化学信息和生物信息 学领域,运用化学和生物统计的一些方法,对变量选择和变换的方法展开了研 究。 主要有以下几个成果: 1 、运用l ( p l s 方法对多变量少样本数据进行处理得到良好结果。 对于多变量少样本的超大规模数据先将其利用函数映射至特征空间,转换 得到的矩阵维数等同于样本维。经转换之后的变量以样本之间的关系代替了原 先的变量之间的关系,将样本空间的样本映射至特征空间,变换了观测样本数 据的视角。这样不必确知具体的映射函数就能得到良好的计算结果。 2 、提出一种新的变量变换的方法,多阶统计量的计算。 在处理s e l d i t o f 数据时,考虑到单个的质荷比不如波形更能代表谱类数 据的特点,因此寻找能够代表各个波形特性的变量。将原始数据分为若干区间, 在每个区间分别计算其4 阶统计量,将得到的反映了波形特性的多阶统计量作 4 第1 章前言 为新的变量进入计算。这样不仅使用了数据的局部信息,变量数也明显减少。 用k p l s 方法分类,分类效果也进一步提高。 3 、提出一种新的模式变量的方法,寻找生物标志物。 提出了一种对连续变量进行转换从而寻找特异模式的方法。在多阶统计量 的基础上将连续变化的谱转为离散变量。统计在肿瘤和对照中各自出现的模式; 经过模式比较,计算找到完全覆盖整个样本的模式最后经模式简并等一系列运 算,找出两类各自特有的模式变量,并用k p l s 进行分类。结果得到了有生物意 义的模式位置。 4 、基于核函数的方法应用于其他生物和化学体系。 ( 1 ) 白血病基因芯片数据的分析,对肿瘤和正常进行分类。 ( 2 ) 在计算蛋白质组学应用中,对多肽保留时间进行了预测,对蛋白质的定 性定量分析提供了一个比较可靠的方法。 ( 3 ) 对持久性环境污染物d i o x i n s 保留时间和保留特征值的预测,研究了毒性 与结构以及对接结果的关系,为进一步建立环境中持久污染物的分析体系提供 有价值的理论依据。 ( 4 ) 结合对接结果,k p l s 用于药物小分子的构效关系研究,探索计算机辅助 药物分子设计的新思路。 第2 章方法综述 第2 章方法综述 2 1q s a r 2 1 1q s a r 的发展 q s a r 的发展,可以追溯到1 8 6 8 年提出的c r u m - b r o w n 方程,该方程认为 化合物的生理活性可以用化学结构的函数来表示,但是并未建立明确的函数模 型。有机反映性相关分析( c a o c ) 这一研究领域可看成是定量构效关系研究的前 身。h a m m e r 在其经典著作中提出线形自由能关系( l f e r ) 可作为q s a r 的起点 1 0 1 。最早的可以实施的定量构效关系方法是美国波蒙拿学院的h a n s c h 在1 9 6 2 年提出的h a n s c h 方程i n 。随后,h a n s c h 和日本访问学者藤田稔夫等人一道改 进了h a n s c h 方程的数学模型,引入了指示变量、抛物线模型和双线性模型等修 正,使得方程的预测能力有所提高【n 】。几乎在h a n s c h 方法发表的同时,f r e e 等人发表了f r e e w i l s o n 方法,这种方法直接以分子结构作为变量对生理活性进 行回归分析【1 3 1 。h a n s c h 方法、f r e e w i l s o n 方法等方法均是将分子作为一个整体 考虑其性质,因而又被称作二维定量构效关系。 二十世纪8 0 年代前后人们开始探讨基于分子构象的三维定量构效关系的可 行性。c r i p p e n 提出距离几何学的3 d - q s a r 【1 1 5 】;h o p f m g c r 等人提出分子形状 分析方法i l 虮7 】;c r a m e r 等人提出了比较分子场方法( c o - - 。- - j m l 。比较分子场方 法一经提出便成为广泛应用的基于定量构效关系的药物设计方法。由于分子场 信息数据量很大,属于高维化学数据,因而在回归分析过程中必须采取数据降 维措施,最常用的方式是偏最小二乘回归。 3 d q s n r 方法一般均选用化合物的一个最低能量构象代表活性构象进行叠 加。但是化合物,特别是结构柔性的化合物,可能有几个最低能量构象,选用 构象进行叠加时可能出现任意性,会影响结果的可靠性,这些都限制了3 d q s a r 的应用。 2 1 2q s a r 的步骤 进行q s a r 的主要步骤包括:( 1 ) 活性性质数据的采集。( 2 ) 分子结构描述 符的获取。( 3 ) 具体模型的建立。“) 模型评价、验证和应用。 6 第2 苹方法综述 在这些步骤中,分子结构的描述、分子结构参数的选择以及建立模型的方 法决定了一个q s a r 模型的质量,下面简单介绍分子结构的描述f 也就是结构参 数) 、分子结构参数的选择以及建立模型的方法这三个步骤。 2 12 1 分子结构参数 q s a r 研究中一个最基本的问题就是化合物结构在计算机中的描述。为了使 计算机能方便地处理分子结构信息,需要采用结构编码( 通常称为结构参数) 全面 地反映分子的结构特征。模型的好坏在很大程度上取决于所选择的结构参数。 结构参数可以用于定量描述分子的二维,三维以及电子结构特征,常用的结构 参数大体上可以分为两大类:经验参数和理论计算参数。 2 122 建模方法 应用数学方法建立化合物性质活性与其分子结构参数之间的定量函数关系 是q s a r 研究中的主要步骤,建立模型的方法直接决定了模型质量。 目前,一些q s a r 研究仍采用多元线性回归建立q s a r 模型【1 9 ,2 0 ,2 1 , 2 2 , 2 3 , 2 4 1 。 一般来说,多元线性回归分析要求所有的预测变量相互独立,而且样本数目至 少是预测变量数目的4 5 倍。但是事实上,一些实际的q s a r 研究问题并不满 足多元线性回归分析的两个初始条件,如果仍采用多元线性回归分析,则不能 得到令人满意的模型结果。对于此类问题,研究将从两个方面入手:一方面对 原始的预测变量进行筛选,以得到较优的模型,这在变量选择部分加以介绍, 另一方面采用其他的建模方法,如p c r ,p l s ,a n n ,s v m 等等。 1 、主成分回归( p r i n c i p l ec o m p o n e n tr e g r e s s i o n ) 主成分回归分析【2 5 】采用一种成分提取的方法。它不再直接考虑因变量与原 始预测变量的回归建模,而是对变量系统中的信息重新进行综合筛选,从中选 取若干对系统具有最佳解释能力的新综合变量( 又称为成分) ,用它们进行回归建 模。由于对变量进行了综合,就能克服多重共线性造成的信息重叠;由于对系 统中的信息进行了筛选,就能有效地区分系统中的信息和噪声,提高建模的准 确性。对于主成分数目的选取,主要采用交叉验证法( c r o s sv a l i d a t i o n ) 1 2 5 , 2 6 , 2 7 。 虽然主成分回归分析对原始数据中的信息进行了综合和筛选,可以有效地 解决变量间的多重共线性问题,但是由于它在数据综合和筛选以得到主成分的 时候,仅考虑预测变量一方的信息,而未考虑与因变量的关系,因此它得到的 7 第2 章方法综述 第一主成分并不一定与因变量存在最强的相关性,即它所得模型并不一定具有 较好的拟合效果和预测能力。为此,人们对其进行了改进,引入了偏最小二乘 回归分析。 2 、偏最小二乘法 p l s 【迥2 9 3 0 1 源于2 0 世纪6 0 年代欧洲经济学家对经济和社会数据的分析处 理。1 9 7 5 年,瑞典经济学家h e r m a nw o l d 提出的非线性迭代偏最小二乘算法 ( n i p a l s ) 解决了p l s 的算法问题,并且在经济和社会学领域得到了一定的应用。 2 0 世纪8 0 年代,对存在着多重共线性问题的大量数据进行建模成为当时人们研 究的热点。经s v a n t ew o l d 改进的p l s 在此方面显示出良好的性能,并在化学领 域得到较好的应用,由此p l s 引起人们广泛的关注和讨论,p l s 的理论、方法 和应用也得到长足的发展。p l s 同样采用成分提取的方法。但它与p c a 的不同 在于:它在成分提取的时候,不仅考虑了预测变量数据中的信息,而且考虑了 因变量数据中的信息,并且使预测变量数据和因变量数据中提取的信息之间的 相关性达到最大【3 1 翊。 由于偏最小二乘回归分析对原始数据信息进行综合和筛选,有效地解决了 变量间的多重共线性问题,并且充分考虑了预测变量中提取的成分对因变量的 解释作用,因此它建立的模型具有较好的稳健性和较强的预测能力。目前偏最 小二乘回归分析已成为q s a r 研究中最为常用的建模方法。并被扩展用于非线 性问题的求解【3 3 朋5 】。许青松和梁逸曾等人 a 6 , a t 提出了广义p l s 算法,并研究了 m o n t ec a r l o 交叉验证法用于p l s 成分数目的确定:本实验室1 7 , s , 9 1 把g a ,g p 和 p l s 结合起来用于非线性问题的求解。 p l s 模型中主成分数目的确定是一个权衡的问题:如果选择较少的成分数 目,则对因变量有解释意义的一些因素不被包含在模型中,所建立的模型就不 能准确完整地表达因变量和预测变量之间的相关关系;如果选择较多成分的数 目,则所建的模型包含一些不必要的冗余信息噪声信息,产生所谓的过拟合现 象,影响模型的稳健性和预测能力。因此人们提出以下几种方法用于p l s 模型 中的成分数目的确定。 ( 1 ) 残差分析 通过前i 个p l s 成分建立模型后,判断因变量剩余信息量的大小,来确定 模型中应选用的p l s 成分数目。可以先定义一个足够小的量,当因变量剩余信 8 第2 章方法综述 息量小于其时,表明前f 个p l s 成分己经能够很好地表征地解释了因变量中的 信息,这时就取前f 个p l s 成分建立模型。 ( 2 ) 利用交叉验证确定主成分的数目 根据每次从数据集中删去样本点的数目,交叉验证可以分为l e a v e o n e - o u t 和l e a v e g r o u p - o u t 两种。有些研究者推荐使用l e a v e - g r o u p - o u t 法确定模型中p l s 成分数目p ”t 柚】。 p l s 的主要优点是:对自变量之间的相关性要求不苛刻;当自变量的数目多 于样本的数目时,仍可获得较好的结果;同时考虑了自变量和因变量方面的信 息。 3 、人工神经网络 人工神经网络( a r t i f i c a l n e u r a l n e t w o r k , a n n ) 是q s a r 研究中处理非线性问 题的常用方法。理论上已证明,具有一个隐含层的a n n 即可实现对任意连续函 数的逼近,实现任何非线性映射。己有许多综述和专著对a n n 在化学和药物设 计中的应用作了详细的评述1 4 1 , 4 2 。从网络的结构和训练算法来分,神经网络有多 种类型,其中在化学研究中应用较多的有:反向传播( b a c kp r o p a g a t i o n ) 、径向基 函数神经网络( g s f n n ) 、自组织映射( s o m ) 、对传神经网络( c p t 帅和小波神经 网络( w n n ) t 蜘等。 但人工神经网络方法还存在很多不足,需要不断地发展和完善。( 1 ) 由于神 经网络具有很好的非线性拟合能力,当采用小的训练集时,往往会出现过拟合。 ( 2 ) 神经网络相当于一个“黑箱”,输入与输出之间的关系很不明确。( 3 ) 神经网络 由于权重初始化的随机性,结果可重复性不高。 4 、支持向量机( s v m ) 统计学习理论( s t a t i s t i c a ll e a r n i n gt h e o r y 或s l d 是一种专门研究小样本情 况下机器学习规律的理论。统计学习理论 4 4 1 的一个核心概念就是v c 维h 5 1 概念, 它是描述函数集或学习机器的复杂性或者说是学习能力的一个重要指标,在此 概念基础上发展出了一系列关于统计学习的一致性、收敛速度、泛化性能等的 重要结论。 支持向量机方法( s u p p o r tv e c t o rm a c h i n e ,s v m ) 是建立在统计学习理论的 v c 维理论和结构风险最小化原理基础之上的。支持向量机由v a p n i k 及其合作 者提出【4 5 ,4 6 1 ,根据有限的样本信息在模型的复杂性和学习能力之间寻求最佳折 衷,以期获得最好的泛化能力。在1 9 9 2 年计算学习理论的会议上被引入机器学 9 第2 章方法综述 习领域之后受到了广泛的关注,于2 0 世纪9 0 年代中后期得到了全面深入地发 展。支持向量机方法有以下几个主要优点: ( 1 ) 它是专门针对有限样本情况的,其目标是得到现有信息下的最优解而不 仅仅是样本数趋于无穷大时的最优值; ( 2 ) 算法最终将转化成为一个二次寻优问题,从理论上说,得到的将是全局 最优,解决了在神经网络方法中无法避免的局部极值问题; ( 3 ) 算法将实际问题通过非线性变换转换至0 高维的特征空间( f e a t u r es p a c e ) , 在高维空间中构造线性判别函数来实现原空间中的非线性判别函数,特殊性质 能保证机器有较好的泛化能力,同时它巧妙地解决了维数问题,其算法复杂度 与样本维数无关。 s v m 是从线性可分情况下的最优分类面发展而来的,基本思想可用图2 1 的两维情况说明。图中,实心点和空心点代表两类样本,h 为分类线,h i 、h 2 分别为过各类中离分类线最近的样本且平行于分类线的直线,它们之间的距离 叫做分类间隔( m a r g i n ) 。 h 马 图2 1 支持向量机最优分类面 所谓最优分类线就是要求分类线不但能将两类正确分开( 训练错误率为o ) , 而且使分类间隔最大。分类线方程为x _ + b = 0 ,可以对它进行归一化,使得 对线性可分的样本集( 五,y ,) ,b 1 ,以,工r 。,y + l ,一1 ,满足 y , e ( w 毛) + 6 】一l 0 ,f 2 1 ,栉 但1 ) 此时分类间隔等于2 川w 1 ) ,使间隔最大等价于使f l 训l 2 最小。此分类面就叫 最优分类面,h 1 、h 2 上的训练样本点就称作支持向量。 1 0 第2 章方法综述 对非线性问题,可以通过非线性变换转化为某个高维空间中的线性问题, 在变换空间求最优分类面。这种变换可能比较复杂,因此这种思路在一般情况 下不易实现。设有非线性映射中:r d 斗h 将输入空间的样本映射到高维( 可能是 无穷维) 的特征空间h 中。当在特征空间h 中构造最优超平面时,训练算法仅使 用空间中的点积,即似x i ) 似x j ) ,而没有单独的似x i ) 出现。因此,如果能够找 到一个函数k 使得k ( x i ,x i 产似x i ) 巾( 均) ,这样,在高维空问实际上只需进行内积 运算,而这种内积运算是可以用原空间中的函数实现的,甚至没有必要知道变 换m 的形式。根据泛函的有关理论,只要一种核函数k ( x i , x j ) 满足m e r c e r 条件, 它就对应某一变换空间中的内积。 因此,在最优分类面中采用适当的内积函数k ( k ,x i ) 就可以实现某一非线性 变换后的线性分类,而计算复杂度却没有增加。这就是支持向量机。这一特点 提供了解决算法可能导致的“维数灾难”问题的方法:在构造判别函数时,不是对 输入空间的样本作非线性变换,然后在特征空间中求解;而是先在输入空间比 较向量( 例如求点积或是某种距离) ,对结果再作非线性变换 4 7 1 。这样,大量的工 作将在输入空间而不是在高维特征空间中完成。函数k 称为点积的卷积核函数, 它可以看作在样本之间定义的一种距离。 尽管s v m 算法的性能在许多实际问题的应用中得到了验证,该算法还存在 着一些问题,包括训练算法速度慢、算法复杂而难以实现以及检测阶段运算量 大等等,在计算中采用的支持向量个数也无法事先确定。 2 1 2 3q s a r 中的变量选择方法 从上面的讨论可知,通过分子的结构信息可以计算出许多类型的大量的结 构参数,如何从大量的结构参数中选择与所研究的性质最密切相关的结构参数 是q s a r 研究中非常关键的问题之。从统计学的角度出发,希望用尽可能少 的变量来表征尽可能多的结构信息,过多的变量不仅会增加计算量,还会导致 所建立的数学模型不稳定,使建立的模型的预测结果变差。同时,用不同的变 量的组合所得的结果可能差别很大,也需要采用一定的算法对变量进行选择。 对于变量选择,最简单也是最烦琐的方法是所有可能回归法【艟,伽,即建立因 变量和预测变量全部子集组合的回归模型,然后从中选择最好的模型。对于含 有p 个预测变量的问题,有2 p - 1 个组合方式,即会产生2 p 1 个回归模型。随着 第2 章方法综述 预测变量数目的增多,需要筛选的模型的数目呈指数增加。当p 1 0 0 ,现有的 计算机系统很难实现对如此众多的模型的筛选。 因此人们提出了许多不同的变量选择算法,按照化学信息学方法大致可以 分为以下三类: 1 、传统的基于多元线性回归分析的变量选择方法| 4 s , 4 9 , 5 0 , 5 1 ,如向前选择变 量法、向后删除变量法、逐步回归法、l e a p sa n db o u n d s 法【5 2 】以及基于m a l l o w s c p 准则【岛,5 4 1 和a k a i k e 信息量准则明的变量选择法等。 2 、基于p l s 的变量选择法,包括修正p l s 权重或系数以消除模型中无用变 量的方法,如f r a n k 的i l s 法 s o l ,l i n d g r e n 等人的i v s - p l s 法 5 7 , s a ,c e n t n e r 等 人的u v e p l s 法嗍,f o r i n a 等人的i p w 法 6 0 l ,以及按照一定方式选择变量组 合以得到较优模型的方法,如b a r o n i 等人的g o l p e 法,v i p 方法蚓等。 基于多元线性回归分析的变量选择方法和基于p l s 的变量选择法两种方法 仅搜索变量空间的某些范围,因此它们得到的常常是变量空间的局部最优解, 而非全局最优解;另一方面,效果的好坏依赖于其临界值的选取,而临界值的 选取往往取决于研究者的主观选择,因此上述一些方法具有一定的随意性。 g a u c h i 和c h a g n o n 在一篇文献中总结并比较了1 3 种基于p l s 的变量选择方法 呻】。l a z r a q 等人i “1 选择4 种基于p l s 的变量选择方法用于g a u c h i 和c h a g n o n 分析处理的4 个数据集,发现没有哪一种变量选择方法在4 种数据集上均得到 较好的结果。 3 、基于搜索
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 厦门安防科技职业学院《科技写作及文献检索2》2023-2024学年第一学期期末试卷
- 山东阳谷县达标名校2025年中考考前信息卷中考英语试题含答案
- 吉林水利电力职业学院《中药与生药学》2023-2024学年第一学期期末试卷
- 重庆科技学院《物理化学实验H》2023-2024学年第二学期期末试卷
- 江西省赣州市蓉江新区潭东中学2025年第二学期初三年级一模考试数学试题试卷含解析
- 重庆市2025届初三五月月考物理试题试卷含解析
- 揭阳职业技术学院《外汇交易模拟操作》2023-2024学年第二学期期末试卷
- 四川省金堂县2024-2025学年初三5月学段考试数学试题含解析
- 上海震旦职业学院《数据结构》2023-2024学年第一学期期末试卷
- 浙江师范大学行知学院《建筑结构BM》2023-2024学年第二学期期末试卷
- 警察执法记录仪使用培训
- DB51T 2943-2022 四川省一体化政务服务平台系统接入规范
- 飞机空气动力学课件:翼型的空气动力特性
- 2024年10月自考00015英语二试卷及答案解释
- 《地方铁路运输企业安全生产标准化建设规范》
- 农业科技的智能灌溉
- 医务人员思政课课件
- 疫苗管理法培训课件
- GB/T 44770-2024智能火电厂技术要求
- 了凡四训培训
- 《塑料材质食品相关产品质量安全风险管控清单》
评论
0/150
提交评论