(分析化学专业论文)非负矩阵因子分解算法及其在化学波谱解析中的应用研究.pdf_第1页
(分析化学专业论文)非负矩阵因子分解算法及其在化学波谱解析中的应用研究.pdf_第2页
(分析化学专业论文)非负矩阵因子分解算法及其在化学波谱解析中的应用研究.pdf_第3页
(分析化学专业论文)非负矩阵因子分解算法及其在化学波谱解析中的应用研究.pdf_第4页
(分析化学专业论文)非负矩阵因子分解算法及其在化学波谱解析中的应用研究.pdf_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

非负矩阵因子分解算法及其在化学波谱解析中的 应用研究 摘要 化学计量学新方法的研究一直是化学计量学的热点和推动力,它们不断改变着 化学量测的面貌,推动着化学量测的发展。在发展化学计量学方法的过程中,分析 化学工作者不断将在统计学、模式识别、图像分析等领域的数据分析方法,引入分 析化学进行化学量测数据分析处理。 非负矩阵因子分解是一种针对黑色体系的数据分析方法。与传统的化学计量学 方法不同,它在非负数据分解中采用了乘法更新公式,无需再采用其它的方法加以 限制,就能保证解析结果非负。对于不含有负值的化学量测信号而言,n m f 分解产 生的“非负”的因子矩阵有可能线性表征化学波谱信号,具有比较直接的物理化学意 义。n m f 是基于矩阵元素的点对点的标量计算,而不是像s v d 分解那样的向量计 算。所以,n m f 分解结果更有可能表征数据的局部特征。 本文的主要研究目标就是对非负矩阵因子分解进行理论和应用研究,将其引入 化学计量学进行化学波谱解析。研究工作包括以下几方面的内容: 基本原理与算法:非负矩阵因子分鳃( n m 伍) 是在“非负”限制约束条件下的一 种矩阵分解方法。它的基本思路是把一个非负矩阵分解成两个非负因子矩阵的线性 组合,通过少数几个变量来表征原始数据。同p c a 相类似,它也是一种多元统计分 析方法,有可能将其引入分析化学计量学进行实验数据分析处理。 n m f 算法改进:根据化学波谱的特征( 如色谱的单峰性、光谱的平滑性以及质 谱的稀疏性) 对n m f 算法进行了改进,减小了可行性解域的范围。 n m f 应用研究:探讨了化学波谱解析的条件,应用n m f 进行了模拟数据和实 际样品的波谱解析。 n m f 与其他曲线分辨方法比较:将n m f 与两种广泛应用的化学计量学方法 一直观推导演进特征投影( h e l p ) 和交替最小二乘( m c r a l s ) 进行了比较。 关键词:化学计量学新方法;非负矩阵因子分解;算法改进;波谱解析 t h er e c h e a r c ho fn o n - n e g a tlv em a t rix f a o t o r i z a t l 0 a n di t sa p p l i o a t l 0 nl n c h e mic a ls p e c t r ar e s o l u tl0 n a b s t r a c t t h en c = 、, vm e t h o d o l o g i e sa r et h e h o tr e s e a r c ha n dd r i v et h ee v o l u t i o no f c h e m o m e 埘c s n o n n e g a t i v em a t r i xf a c t o r i z a t i o n ( n m f ) w i t ht h ec o n s t r a i n t so fn o n - n e g a t i v i t y , h a s b e e nr e c e n t l yp r o p o s e df o rm u l t i v a r i a t ed a t aa n a l y s i s b e c a u s ei ta l l o w so n l ya d d i t i v e ,n o t s u b t r a c t i v e ,c o m b i n a t i o n so ft h eo r i g i n a ld a t a , n m fi sc a p a b l eo fp r o d u c i n gr e g i o no r p a r t sb a s e dr e p r e s e n m f i o no fo b j e c t s i th a sb e e nu s e df o ri m a g ea n a l y s i sa n dt e x t p r o c e s s i n g u n l i k ep c a ,t h er e s o l u t i o n so fn m fa r en o n n e g a t i v ea n dc a nb ee a s i l y i n t e r p r e t e da n du n d e r s t o o dd i r e c t l y t h ea u t h o rf o c u s e so nt h er e s e a r c ho ft h et h e o r ya n da p p h c a t i o n so fn o r m e g a t i v e m a t r i xf a e t o r i z a t i o n ( n m f ) t h ew o r ki n c l u d e st h ef o l l o w i n gs e c t i o n s f i r s t l y , t h ea u t h o ri n v e s t i g a t e st h ep r i n c i l :l l ea n da r i t h m e t i co fn o n - n e g a t i v em a m x f a c t o r i z a t i o n n m fi sam e t h o dt oo b t a i nar e p r e s e n t a t i o no fd a t au s i n gn o n n e g a t i v i t y r e s t r a i n t a no n i g i n a la n a l y t i c a lm a t r i xc a r lb ed e c o m p o s e dt ot w of a c t o r i z a t i o nm a t r i c e s n m fc a nd i r e c t l yo b t a i nar e p r e s e n t a t i o no fn o n n e g a t i v ed a t ab yu s i n gm u l t i p l i e su p d a t e r u l e s n m fi m p l e m e n t a t i o ni sb a s e do ne l e m e n t s ,n o to nv e c t o r s i ti sd i f f e r e n tf r o mt h e c o n v e n t i o n a lf a c t o ra n a l y s i s j u s td u et oi t ,n m fc a nl e a r nt h el o c a lr e p r e s e n t a t i o n so f d a t a ,a n dt h ef a c t o r i z a t i o nr e s u l t sh a v er e a l i s t i cp h y s i c a lc h e m i s t r ym e a n i n ga n dc a nb e d i r e c t l yu n d e r s t o o dw i t h o u ta d d i t i o n a lo p e r a t i o n s ,s u c ha sr o t a t i o na n dp r o j e c t i o n s e c o n d l y , t h ea u t h o rd o e ss o m er e s e a r c ho nt h ei m p r o v e m e n to fn m fa l g o r i t h m a c c o r d i n g t ot h e p r o p e r t i e s o fc h e m i c a ls i g n a l s ( s u c ha st h eu n i m o d a l i t 3 7o f c 1 1 r o m a t o g a m s ,e t c ) t h ef e a s i b l es o l u t i o nr e g o i li sn a r r o w e du n d e re x p e r i m e n t a le r r o r t h i r d l y , t h ec o n d i t i o n sf o rt h er e s o l u t i o no fc h e m i c a ls p e c t r aa r ea l s od i s c u s s e d b o t h t h es i m u l a t e dd a t aa n dt h ea n a l y t i c a ld a t aa r er e s o l v e ds u c c e s s f u l l yb yt h ei m p r o v e dn m f a d d i t i o n a l l y , t h ea u t h o ra l s oc o m p a r e sn m fw i t ha n o t h e rt w oc u w cr e s o l u t i o n m e t h o d s :h e u r i s t i c e v o l v i n g l a t e n t p r o j e c t i o n s ( h e l p ) a n d m u l t i v a r i a t ec u w c r e s o l u t i o n a l t e r n a t i n gl e a s ts q u a r e s ( m c r - a l s ) k e yw o r d s :c h e m o m e t r i c sm e t h o d o l o g y ;n o r m e g a t i v em a m xf a c t o r i z a t i o n ; a l g o r i t h mi m p r o v e m e n t ;s p e c t r ar e s o l u t i o n 青岛科技大学硕:k 学位论文 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取得的研 究成果。尽我所知,除了文中特别加以标注和致谢中所罗列的内容以外,论文中 不包含其他人已经发表或撰写过的研究成果,也不包含本人己用于其他学位申请 的论文或成果。与我一同工作的同志对本研究所做的任何贡献均已在论文中做了 明确的说明并表示了谢意。 申请学位论文与资料若有不实之处,本人承担一切相关责任。 本人签名:日期:年月 丑 关于论文使用授权的说明 本学位论文作者完全了解青岛科技大学有关保留、使用学位论文的规定,有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权学校可以将学位论文的全部或部分内容编入有关数据浑进行检索, 可以采用影= e | 、缩印或扫描等复制手段保存、汇编学位论文。本人离校后发表或 使用学位论文或与该论文直接相关的学术论文或成果时,署名单位仍然为青岛科 技大学。( 保密的学位论文在解密后适用本授权书) 本学位论文属于: 保密口,在年解密后适用于本声明。 ? 不保密口。 ( 请在以上方框内打“”) 本人签名 导师签名 日期 日期 年月曰 年月日 第一章绪论 1 1 化学计量学的发展及成就 分析化学是一门研究化学量测与表征的科学,其发展依赖于理论、技术与对 象三者的相互作用。学科之间的相互渗透( 包括分析方法中不同技术的联用) 是分 析化学发展的基本规律。分析化学还是一门计量科学,它发展、优化、应用量测 过程,以获取全局或局部性的化学品质信息,解决所提出的量测课题。所以,分 析化学实际上是一门化学信息科学。化学量测数据中蕴含着丰富的化学信息, 而有些化学信息并不能直接由化学量测得到,对于复杂体系尤其如此。由于化学 信息表征着化学组分的组成,如何最大限度提取化学量测中蕴含的丰富信息是摆 在分析化学工作者面前的任务。化学量测中有关化学组分的性质及属性通常由合 适的数学关系确定,数学在分析化学中起着越来越重要的作用,数学应用到化学 量测上以确定那些不能直接量测得到的化学信息,就产生了化学计量学【2 3j 。 化学计量学是将数学、统计学、计算机科学以及其它相关学科知识应用于分 析化学的交叉学科,它提供化学量测的理论和方法学,从化学量测数据中获取、 表述、显示相关化学信息。化学计量学经过近3 0 年的发展,取得了令人瞩目的 成就,正日益得到国内外学者的重视f 4 。l 。化学计量学不仅为化学量测提供理论和 方法,而且为各类波谱及化学量测数据解析、化学化工过程的机理研究和优化提 供新途径,它涵盖了化学量测的全过程,包括采样理论与方法、试验设计与化学 化工过程优化控制、化学信号处理、分析信号的校正与分辨、化学模式识别、化 学过程和化学量测过程的计算机模拟、化学定量构效关系、化学数据库、人工智 能与化学专家系统等,是一门内涵相当丰富的化学学科分支。化学计量学的发展 为化学各分支学科、其中特别是分析化学、环境化学、药物化学、有机化学、化 学工程等,提供了不少解决问题的新思路、新途径和新方法| 9 j 。8 0 年代以来,我 国化学计量学研究得到了迅速的发展,到现在“已发展成为一门在国际上有一定 影响的独立的化学学科分支” 1 0 j 。自2 0 0 0 年以来,国内出现了多本化学计量学 专著与教材o | 1 - 1 7 。 化学计量学已发展成为化学与分析化学学科的一个独特分支,两个重要的条 件和因素推动了这方面的发展。首先,化学与分析化学中大量涌现的现代化学量 测仪器,使化学与分析化学家比以往任何时候都更容易获得火量化学量测数据。 取得数据甚至火量数据已不是最困难的一步,最雉解决的瓶颈问题是这些数据的 解析以及如何从中提取所需的有用化学信息。化学家与分析化学家首次遇到类似 非负矩肼:因子分解舜沾及j l 芷化学波普解析巾的应川研究 行为科学家或经济学家所遇到的大量数掘如何处理的问题。化学家与分析化学家 比较幸运,因为大量现代分析测试仪器出现带来的“数据爆炸时代”,也正是计 算机普及的时代。这就构成了化学计量学发展的第二个条件。为了对极为复杂的 化学量测数据进行解析,化学家、分析化学家利用可在计算机上实现的许多强有 力的数学方法,包括一些相关学科发展的数据与信号处理新方法,从多维化学量 测数据中提取有用的相关化学信息。如果说经典分析化学是依赖费时而麻烦的化 学或物理的方法来对很多复杂化学体系进行纯组分分离,即采用单变量校正方法 进行定性定量分析的话,那么,现代分析化学家面对的则是各种分析分离技术集 于一体的高维仪器所产生的巨量分析信号,藉化学计量学发展的新型分析信号的 多元校正与分辨方法来进行复杂多组分体系的定性定量解析。高维数据解析的化 学计量学方法现已进入可用来解决分析化学中实际难题的程度,将这些方法用于 复杂环境样本、中草药中单位药及复方分析等取得了很多令人振奋的结果。 1 ,2 化学计量学的挑战与对策 化学计量学已经成为分析化学中一个重要领域,它的研究成果不但丰富了分 析化学的理论,而且大大提高了分析化学家解决问题的能力,为分析化学开拓了 前所未有的广阔天地。然而,我们也看剑分析化学和化学计量学面l 艋着严峻的挑 战,一方面人们对分析化学和化学计量学提出了越来越高的要求,比如复杂的样 品分析,实际环境和中药分析,生物样品分析和蛋白质分析等等,要求分析化学 和化学计量学提出切实可行的复杂样品和生物样品分析方法:另一方面随着新技 术新领域的不断开拓,使分析化学和化学计量学进入一个新的境界,比如人类基 因组计划的完成,后基因组计划和蛋白质组的实施计划等,要求分析化学和化学 计量学提供相应的新理论、新技术和新方法。 近年来,在模式识别、图像分析以及声音处理和无线通讯等研究领域出现了 很多新的数据分析方法,如非负矩阵因子分解f n o n - n e g a t i v em a m xf a c t o r i z a t i o n , n m f ) 、独立组分分析( i n d e p e n d e n tc o m p o n e n ta n a l y s i s ,i c a ) 、自组织映射 ( s e l f - o r g a n i z i n gm a p ,s o m ) 和投影寻踪( p r o j e c t i o np u r s u i t p p ) 等等。非负矩阵因子 分解1 1 8 , 1 9 1 町以将一个非负矩阵分解为两个非负因子矩阵的线性组合,葡j 用于“非 负”限制条件下的数据降维。独立组分分析1 2 0 2 1 1 是从多元统计数据中寻找主因子 的一种分析方法,它与其它方法的不l 刊在于它寻找的组分不仅是不相关的而且是 相互统计独立( 即非高斯) 的。自组织映射阻:3 驯可将高维数据1 白j 的复杂的1 f 线 性统计学关系表述为简单的低维空间的几何关系,同时,它可以在保存主要数据 的重要拓扑关系和几何关系的同时,显示和提炼出有用的信息。投影寻踪是种 青岛i 拽大学研究,| 学忙沧文 探索性的多几统计数扼分析方法1 1 5 ”i ,其丛0 二心悠l 是通过将高维数扼投影到低维 空间( 1 3 维) 并通过在低维空间中极大或极小化某个投影指标向寻找能反峡 高维数据结构特征的投影( 我们最感兴趣的投影j ,在低维卒间中对数据进行分 析,以达到分析高维数据的目的。这些数据分析处理方法普遍具有较强的分析问 题、解决问题能力,可以引入到分析化学中进行分析实验数据的分析。 i 3 化学计量学新方法 粱逸曾将分析化学中复杂多组分混合物分析体系分为白、灰、黑三种研究体 系,并将那些对于分析试样毫无验前信息,即有关其物种数,哪几种化学物种及 其浓度范围皆不清楚的研究体系称为黑色体系。黑色体系的分析问题就是“盲源 分离( b l i n d s o u r c es e p a r a t i o n ,b s s ) 问题”,这是分析化学中最难的一类体系。 分析化学的任务是首先确定其物种数,进_ 而提取出备纯物种的化学信息。针对黑 色体系,分析化学工作者做了不少尝试,研究出了一些基于单矩阵数据结构和张 量数据结构的化学计量学解析方法。在化学计量学的发展过程中,人们不断将在 数学、统计学和物理等其它领域中比较成功的统计分析方法引入分析化学进行化 学量测数据的分析处理,以提取出更丰富的化学信息。 化学计量学新方法的研究一直是化学计量学的热点和推动力,它们不断改变 着化学量测的面貌,推动着分析量测的发展。一方面,化学计量学新方法表现出 了较强的数据分析能力,能够部分或全部解决我们面临的新问题,最大限度地提 取出化学纯物种信息;另一方面,化学计量学新方法在增强人们认识问题和解决 问题能力的同时,也为人们提供了分析问题的新思路。比如,在以前的化学计擐 学方法中,人们往往根据化学量测信号的非负性来约束限制计算过程中的负值, 而非负矩阵因子分解采用了乘法更新公式来获得非负的因子分解结果。 发展化学计晕学新方法一直是我们实验室的任务和挑战性课题。本文选取了 近年来在模式识别,图像分析、无线通讯和声音处理等领域得到应用并引起广泛 关注的非负矩阵因子分解算法进行研究。对非负舸阵因子分解算法进行了系统研 究。研究了非负矩阵因子分解算法的基本原理、算法特征:对算法进行了改进和 发展:首次成功地将n m f 应用于化学信号解析:将n m f 与两种j “泛应用的化学 计量学方法直观推导演进特征投影r h e l p ) 和交替最小二乘f a l s ) 进行了比较。 d d l e e 和h s s e u n g 在1 9 9 7 年的一篇有关非监督学习方法的论文中提出 了非负矩降斟子分解( n o n 。n e g a t i v em a t r i xf a c t o r i z a t i o n ,n m f ) 的概念【l ,1 9 9 9 年他 们的论3 e ( 1 e a r n i n gt h ep a r t so f0 1 ) _ i e c t sb yn o n n e g a t i v em a t r i xf a c t o r i z a t i o n ) ) 在n a t u r e 上发表后引起了人们的广泛关注i j ,目前广泛用于图像分析、声音和文本的分类 j e 负矩阡吲子分解锋法及其化学彼普解析巾的应川研究 处理以及模式识别等领域口o ”1 。 非负矩阵因子分解是在“非负”限制约束条件下的一种矩阵分解方法,它的 基本思路是把非负矩阵v 分解成两个非负冈子矩阵w 和h ,因子矩阵w 的列数 要远少于矩阵v 的列数,矩阵h 的行数要远少于矩阵v 的行数,即它通过少数 几个变量来表征原始数据v 。因而同p c a 相类似,它也是一种多元统计分析方法, 有可能将其引入分析化学计量学进行实验数据分析处理。 自d d l e e 等提出了n m f 的简单算法后,n m f 的算法也在不断发展之中 “8 ,1 9 3 “。例如,t f e n g 等提出了局部非负矩阵因子分解( 1 0 c a ln o n n e g a t i v em a t r i x f a c t o r i z a t i o n ,l n m f ) 并将其用于图像识别 3 “;d g u i l l a m e t 和j v i t r i a 提出了加权 非负矩阵因子分解( w e i g h t e dn o n n e g a t i v em a t r i xf a c t o r i z a t i o n 。w n m f ) 并将其用 于图像分类以使n m f 更能捕捉局部正特征【33 1 :p a t r i k o h o y e r 提出了非负稀疏编 码( n o n n e g a t i v es p a r s ec o d i n g ,n s c ) 方法并用于视神经科学中的非负变量分析 口4 】;w x l i u 等对n m f 的更新法则进行丫探讨,采用相对梯度对算法进行提速 1 3 5 1 。n m f 在化学领域的探讨和应用在国际上还未见有报道。 非负矩阵因子分解足一种针对黑色体系的数据分析方法。与传统的化学计量 学方法不同,它在非负数据分解中采用了乘法更新公式,因而对于“非负”无需 再采用其它的方法加以限制,就能保证分析结果非负。对于不含有负值的化学量 测信号而言,n m f 分解产生的“非负”的因子矩阵有可能线性表征化学波谱信 号,具有比较直接的物理化学意义。n m f 算法中计算是基于矩阵元素的点对点的 元素计算,而不是像s v d 分解那样的向量计算。所以,:n m f 分解结果更有可能 表征数据的局部特征。综合以上特征,n m f 特别适合化学波谱信号的解析。当然, n m f 也有不少问题,如计算速度慢、“零值”问题和多解问题等等。我们根据化 学信号的特点进行针对性的研究,对n m f 算法做了改进,使之适合化学信号解 析。 1 4 论文基本内容 本文主要对非负矩阵因子分解化学计量学新方法进行了研究,包括n m f 基 本原理和算法:研究了n m f 的算法特征并根据化学信号的特点对n m f 算法进行 了改进;采用模拟数据探讨了n m f 应用于化学波谱解析的条件;成功应用n m f 解析实测g c m s 和h p l c d a d 两维数据:将n m f 与两种广泛应用的化学计量 学方法直观推导演进特征投影( h e l p ) 和交替最j , - - 乘( m c r a l s ) 进行了比较。 4 第二章基本原理与算法 主成分分析( p r i n c i p l ec o m p o n e n ta n a l y s i s ,p c a ) 是分析化学计量学中的一种基 本每变量统计分析方法,它根据方差最大的原9 l l ,通过寻找相互正交、互不相关 的主成分f 或称潜变量) 表征数据,提取化学信息,并使蕈构误差最小。重构后的 数据可以看成是原数据在几个主成分构成的空间上的线性投影。p c a 广泛用于化 学实验数据的降维、压缩、变量的选择、去相关,以及与其他方法联用进行数据 处理。 p c a 可将化学量测矩阵 ) 分解成两个因子矩阵得分矩阵( t ) 和载荷矩阵( p ) 。 得分矩阵和载荷矩阵的元素既有正值、零值,也有负值,没有实际的物理化学意 义,它们通过旋转( r o t a t i o n ) 或投影转换( p r o j e c t i o nt r a n s f o r m a t i o n ) 重新组合( 信号叠 加或消减) 成相应组分信号。而l ;日台信号不一定总是非负值。对于化学量测信号来 说,负值是没有实际意义,也不能合理解释。 如果限制矩阵分解后产生的基向量为非负,即矩阵分解后的因子矩阵为非 负,则有可能解决这一问题。p a a t e r o 和t a p p e r 在分析影响环境变化的因素时较 先提出了“非负因子”的概念1 3 。在实际环境分析问题中,影响因素要么存在( 正 影响) 要么不存在f 不影响) ,不会存在“负”因素,他们在对所得环境数据进行因 子分析时却得到了很难解释的“负因素”。为了解决这一问题他们采用迭代最小 二乘( a l t e r n a t i n gl e a s ts q u a r e s ,a l s ) 以及正矩阵分解( p o s i t i v em a t r i xa n a l y s i s ,p m f ) 来解决这一问题p “。 非负矩阵因子分解是在“非负( n o n n e g a t i v i t y ) ”限制约束条件下的一种矩 阵分解方法。它的基本思路是把非负矩阵v 分解成两个非负因子矩阵w 和h , 因子矩阵w 的列数要远少于矩阵v 的列数,矩阵h 的行数要远少于矩阵v 的行 数即它通过少数几个变量来表征原始数据v 。同p c a 相类似,它也是一种多元 统计分析方法,有可能将其引入分析化学计量学进行实验数据分析处理。 在这一部分,作者丰要研究了非负矩阵因子分解的理论和应用。包括n m f 摹本臆理和算法、算法改进、n m f 进行波谱解析的条件、n m f 应用解析、n m f 与其它曲线分辨方法的比较。 非负矩阵因了= 分解( n m f ) 是对非负矩阵的一种数据分解方法,用于多变量数 据的统计分析。与p c a 相娄似,n m f 可以通过少数几个基函数( 或特征) 柬表征 原始非负数据矩阵。但与p c a1 i 同,n m f 的基函数空间小一定是正交的,基函 青岛 拉人学 z 4l 学1 、,咆 第二童基本原理与算法 主成分分析( p r i n c i p l ec o m p o n e n ta n a l y s i s ,p c a ) 是分析化学计量学中的一种基 本名变量统计分析方法,它根据方差最大的原则通过寻找相互正交、互不相关 的主成分( 或称潜娈量) 表征数据,提取化学信息,并使蕈构误差最小。重构后的 数据可以看成是原数据在几个主成分构成的空间上的线性投影。p c a 广泛用于化 学实验数据的降维、压缩、变量的选择、去相关,以及与其他方法联用进行数据 处理。 p c a 可将化学量测矩阵 ) 分解成两个因子矩阵得分矩阵( t ) 和载荷矩阵( p ) 得分矩阵和载荷矩阵的元素既有正值,零值,也有负值,没有实际的物理化学意 义,它们通过旋转( r o t a t i o n ) 或投影转换( p r o j e c t i o nt r a n s f o r m a t i o n ) 重新组合( 信号叠 加或消减) 成相应组分信号。而组合信号不一定总是非负值。对于化学量测信号来 说,负值是没有实际意义,也不能合理解释。 如果限制矩阵分解后产生的基向量为非负,即矩阵分解后的因子矩阵为非 负,则有可能解决这一问题。p a a t e r o 和t a p p e r 在分析影响环境变化的因素时较 先提出了“非负因子”的概念”“。在实际环境分析问题中,影响因素要么存在( 正 影响) 要么不存在( 不影响) ,不会存在“负”因素,他们在对所得环境数据进行因 子分析时却得到了很难解释的“负因素”。为了解决这一问题他们采用迭代最小 二乘( a l t e r n a t i n gl e a s ts q u a r e s ,a l s ) 以及正矩阵分解( p o s i t i v em a t r i xa n a l y s i s ,p m f ) 来解决这一问题i j “。 非负矩阵因子分解是在“非负( n o n n e g a t i v i t y ) ”限制约束条件下的一种矩 阵分解方法。它的基本思路是把非负矩阵v 分解成两个非负因子矩阵w 和h , 因子矩阵w 的列数要远少于矩阵v 的列数,矩阵h 的行数要远少于矩阵v 的行 数,即它通过少数几个变量来表征原始数据v 。同p c a 相类似,它也是一种多元 统计分析方法,有可能将其引入分析化学计量学进行实验数据分析处理。 在这一部分,作者丰要研究了非负矩阵因子分解的理论和应用。包括n m f 基本燎理和算法、算法改进、n m f 进行波谱解析的条件、n m f 应用解析、n m f 与其它曲线分辨方法的比较。 非负钮阵因了分解( n m f ) 是对非负箭阵的一种数据分解方法,用于多变景数 据的统计分析。与p c a 相类似,n m f 可以通过少数几个基函数l 或特征) 来表征 原始非负数据矩阵。但与p c a 矸i 同,n m f 的基函数空间1 i 一定是正交的,基函 非负矩阵因了:分解算泫及其在化学波普解十i f j 的应刖研究 数线性组合产生的i 向量中的所有元素为非负值。正足由于以上两点使得n m f 口j 能优于以p c a 为基础的多变量分析方法。首先,当变量之问相互交盖、重叠比较 严蕈时,n m f 仍然能找到表征数据结构的“基函数”,而p c a 分解产生的具有 正交特性的潜变量很难很好地表征变量之间的关系:其次,n m f 的“基函数”通 过线性加和组合成各组分信号,这更符合不同化学组分响应波谱的加和特征。由 于n m f 的以上特性,它可以引入化学计量学用于多变量分析。n m f 的解析结果 是非负的,易于理解,可以得到很好的解释,这有可能克服p c a 分解时的基本向 量存住负值的问题。 2 2 模型 假设存在基本线性统计模型: v n 。= 、7 吒。,h 。+ e 。 ( 2 1 ) 其t 1 一v 。表示观测数据矩阵:w 。,和h 。表示因子矩阵;e 。为误差矩阵。为讨论问题 的简单起见,不考虑误差的因素式1 1 可以写成以下形式: v n 。= w n 。,h 。 ( 2 2 ) 式2 - 2 表示:任意非负数据矩阵v 口。可以因子分解成两个非负因子矩阵w 。, 和h 。的乘积;或者说任意的一个非负数据矩阵v 。可以用两个非负矩阵( w 。 和h ) 的乘积表示组分之间的线性组合。其中v 。为任意非负数据矩阵,n 为变 量数,m 为样本( 或变量) 数。r 表示体系的主成分数,通常r 的选取要比n 和m 都 要小得多,对其数值要求是:m + m ) r e 则加入单峰性限制,使得c j _ l 。= g 。( 或o 或1 0 - 1 5 ) ;同样在极大值点后向上若发 现e + 1 。 c | ,。则g + 1 ,= g ,。( 或0 或1 0 j 5 ) 。采取这样的措施之后,在结果中就能保 证色谱有且只有一个全局最大值。 3 2 3 稀疏数据的处理 联用质谱数据在质谱方向上会有比较多的零值,我们把这种包含较多零值的 数据称为稀疏性数据。在处理稀疏性数据时,n m f 计算过程中会发生“除以零” 的情况,而得不到正确合理的解析结果,这也是零值问题的一种表现形式。分母 i , 只要有零值出现,我们就要采取措施使得上生一为有意义的解。在分母为零时, f w h ) 。 我们对不同取值进行了尝试,最后选定了其取值结果,零值问题的三种不同情况 和处理方式列于表3 - 1 。 表3 - 1 矩阵零值的处理 t h b l e 3 1t h es e t t l e m e n t , o ft h ez e r o sv a l u e s 1 分子为零,分母不 7 为零 = 0( 唧) m 0 0、, ( h 倒) 。 一 o 2 分子分母同时为零= 0( i 昭) m = 0设定最小值1 0 ” 、 ( w h ) 。 设定最大值n o r m ( v ) 3 分子不为零,分母 上: 0 为零 y m 0( w h ) 。= 0 设定最小值1 0 。5 ( w h ) 。 设定最大值n o r m ( v ) p a t r i ko h o y e r 也提出了稀疏编码方法,其做法是在算法中加入一个参数来 对稀疏数据进行调节,有关讨论可参阅文献m 】。我们在实际应用中采用了强行设 定给定值的方法( 见表3 1 ) ,也能得到合理的解析结果。 当n m f 直接用于混合化学波谱解析时,往往得不到唯一解,而只能得到一 个可行性的解域。解域随波谱峰的重叠程度的不同而变化,这使得n m f 的解析 结果很难解释。采用这三种约束条件改进n m f 后,n m f 解域减小,n m f 可以 应用化学波谱数据解析。还必须注意:应用改进后的n m f 进行化学波谱解析时, 得到结果仍然不是唯一解。但是在大多数情况下,可行性解域已经减小到实验误 1 9 非负矩降凶子分解锋法及d t l n 化学彼普解析中的应片j 研究 差可以接受的程度。 3 3 化学波谱解析的条件 作者采用g a u s s i a n 函数模拟化学波谱,色谱采用一个g a u s s i a n 函数模拟,紫 外( u v ) 光谱采用两个g a u s s i a n 函数模拟,将二者交叉相乘可以得到一个 h p l c d a d 类型数据矩阵。 为了讨论问题的方便,我们从色谱峰( 单高斯峰) 的峰位置、半峰宽、峰高度 和峰拖尾以及误差因素等五个方面的变化来探讨n m f 算法对解析结果的影响。 解析波谱采用最大值归一化的方法进行标准化,采用相关系数( c o r r e l a t i o n c o e f f i c i e n t ) 来表示解析波谱与原始波谱的相似性。 3 3 1 峰位置的影响 固定光谱维不变,色谱维的相对峰位置发生变化,峰位置的变化对解析结果 的影响见图3 3 和图3 - 4 。图3 3 和图3 - 4 分别表示峰位置的变化对色谱和光谱解 析结果的影响,横坐标表示两峰的相对峰位置的变化,纵坐标表示解析波谱与原 波谱的相关系数。图3 3 至图3 2 0 中的两条线分别表示两组分的解析谱和原始谱 的相关系数。 图3 - 3 峰位置对n m f 色谱解析的影响 f i g 3 3 :t h ei n f l u e n c eo fr e l a t i v ep e a kp o s i t i o n o nt h er e s o l u t i o no fc h r o m a t o g r a p h yb yn m f 舒n 装n 惦 霉n m o 9 7 n 9 6 5 峰位置对n m f 解析结裂的影响光谱 o l 。一 1 8 ”丰m 妇6 4 2o 图3 _ 4 峰位置对n m f 光谱解析的影响 f i g 3 - 4 :t h ei n f l u e n c eo fr e l a t i v ep e a t :p o s i t i o n o nt h er e s o l u u o no fs p e c 廿ab yn m f 由图3 3 和图3 - 4 可见,峰位置的相对变化对n m f 解析结果影响较小,其中 解析色谱与原色谱的相关系数 o 9 9 ,解析光谱与原光谱的相关系数 0 9 6 7 ,解析 结果是能令人满意的。表3 1 列出了色谱峰位置( 色谱分离度) 的变化列n m f 解析 结果的影响。 。重曩曩;汐。 、t 、 青岛 拉大学硕l 学位论文 表3 - 1 色谱分离度的变化对n m f 解析结是的影响 ! 生! 叠:! :! 垫! ! 堕! ! ! ! 堡竺! ! 垒! 竺望兰塑芏! 苎p 垒! 呈! 呈! q ! 坚坐竺望2 翌尘! 堡:2 1 :呈垒! 宝! 型坠垃塑丛至 韶;分离度i i 面了竖塑飞忑 3 3 2 半峰宽的影响 固定光谱维不变,色谱维的相对半峰宽发生变化,分别讨论了两个色谱在部 分重叠和完全重叠两种情况下,色谱半峰宽的变化对解析结果的影响。图3 5 和 2 l 非负矩阵因子分解算法及其在化学波普解析中的应崩研究 图3 - 6 分别表示两色谱部分重叠时,色谱半峰宽的变化对色谱和光谱解析结果的 影响,横坐标表示两峰的半峰宽的比值,纵坐标表示解析波谱与原波谱的相关系 数。 半蜂宽 r f 解析结果的影响也谐 相对半峰宽 图3 5 牛峰宽对n m f 色谱解析的影响( 部分 重叠) f i g 3 5 :t h ei n f l u e n c eo fh a l f - p e a k w i d t ho l l t h er e s o l u t i o no fc h r o m a t o g r a p h yb yn m f 半峰奄对f 解析结果的影响一光谱 相对半峰宽 图3 6 半峰宽对n m f 光谱解析的影响( 部分 重叠) f i g 3 6 :t h ei n f l u e n c eo fh a l f - p e a k w i d t h o i l t h er e s o l u t i o no fs p e c t r ab yn m f 图3 7 和图3 8 分别表示两色谱完全重叠( 或重叠程度比较严重) 时,色谱半峰 宽的变化对色谱和光谱解析结果的影响,横坐标表示两峰的半峰宽比值,纵坐标 表示解析波谱与原波谱的相关系数。 相对半峰宽 图3 7 半峰宽对n m f 色谱解析的影响( 完全 重叠) f i g 3 7 :t h ei n f l u e n c eo f h a l f - p e a k w i d t ho n t h er e s o l u t i o no fc h r o m a t o g r a p h yb yn m f 兰一 帽对f 峰览 图3 8 半峰宽对n m f 光谱解析的影响( 完全 重叠) f i g 3 8 :t h ei n f l u e n c eo fh a l f - p e a k - w i d t ho n t h er e s o l u t i o no fs p e c t r ab yn m f 由图3 5 至图3 8 可见,当两色谱峰半峰宽比值 = o 3 时,无论色谱部分重叠 还是完全重叠,n m f 都能给出较理想的解析结果,解析波谱与原始波谱的相关系 数均大于0 9 7 。表3 2 列出了半峰宽对n m f 解析结果的影响。 青岛科技大学硕士学论上 表3 - 2 半峰宽对n m f 解析结果的影响 ! ! ! 里i :;:里! ! 些! ! ! ! ! ! ! ! ! ! 生! ! 垦! ! i 坐! ! 虫! ! ! ! ! ! ! ! ! 堡! ! ! ! ! ! y 盟丛呈 嚣分离度1 磊r 1 赢笋塑百1 3 3 3 峰高度的影响 固定光谱维不变,色谱维的相对峰高度发生变化,分别讨论了两个色谱峰高 度变化对解析结果的影响。图3 - 9 和图3 1 0 分别表示对色谱和光谱解析结果的影 响,横坐标表示两峰的峰高度的比值变化,纵坐标表示解析波谱与原波谱的相关 系数。 蜂高度对删f 解析结果的影响也谱 0 10 2n 30 40 50 60 - 7n 8o 9 相对峰高度 图3 - 9 峰高度对n m f 色谱解析的影响 f i g 3 - 9 :t h ei n f l u e n c eo fp e a k h i g h to nt h e r e s o l u t i o no fc h r o m a t o g r a p h yb yn m f 厂、 相对峰高度 图3 一1 0 峰高度对n m f 光谱解析的影响 f i g 3 - 1 0 :t h ei n f l u e n c eo f p e a k h i g h to nt h e r e s o l u t i o no fs p e c t r ab yn m f 非负矩阵凶子分解算法及其在化学波普解析中的应抖j 研究 由图3 - 9 和图3 1 0 可以看出,色谱峰的高度对结果的影响不大,当两峰高度 比值 = o 1 5 时,利用n m f 进行重叠峰 解析总能得到理想结果。 图3 - 1 1 和图3 1 2 为通过针式搜索( n e e d l es e a r c h ) 改进迭代初值的选择后, 峰高度对解析结果的影响。由图3 1 1 和3 1 2 可见,选择好的迭代初值后,n m f 解析结果几乎不受峰高度的影响,解析结果较好。可以得出结论,迭代初值对 m 仃解析结果有较大的影响,选择好的迭代初值有利于n m f 解析。表3 3 列出 了峰高度对咀:解析结果的影响。详细讨论见下节。 啊j 埘峰高度 图3 1 1 峰高度对n m f 色谱解析的影响( 改进 后完全重叠) f i g 3 一1 1 :t h ei n f l u e n c eo fh a l f - p e a k w i d t ho n t h er e s

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论