(环境科学专业论文)基于贝叶斯推理的bp网络用于杭州西湖富营养化预测的研究.pdf_第1页
(环境科学专业论文)基于贝叶斯推理的bp网络用于杭州西湖富营养化预测的研究.pdf_第2页
(环境科学专业论文)基于贝叶斯推理的bp网络用于杭州西湖富营养化预测的研究.pdf_第3页
(环境科学专业论文)基于贝叶斯推理的bp网络用于杭州西湖富营养化预测的研究.pdf_第4页
(环境科学专业论文)基于贝叶斯推理的bp网络用于杭州西湖富营养化预测的研究.pdf_第5页
已阅读5页,还剩28页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

丫浙江大掌硕士掌位论文 a b s t r a c t ab a y e s i a nb a c k p r o p a g a t i o n ( b b p ) n e u r a ln e t w o r kw a ss t u d i e d ,w h o s e g e n e r a l i z a t i o nw a si m p r o v e db yb a y e s i a na r i t h m e t i c a n dt h em o d e lw a sa p p l i e dt o p r e d i c tt h ee u t r o p h i c a t i o no fw e s tl a k ei nh a n g z h o u ,w eh a v ee s t a b l i s h e d8s a m p l i n g s p o t si nw e s tl a k e ,a n ds e l e c t e ds p o t7a sm a i ns t u d yo b j e c tt os e tu pab b pn e t w o r k , w h i c hc a nm o s tr e p r e s e n tt h ew a t e rq u a l i t ys t a t u so ft h el a k e t h e nw eu s e ds p o t3t o t e s tt h ep e r f o r m a n c eo ft h en e t w o r k ,a tt h es a m et i m e ,t w oo t h e rn e t w o r k sw e r eb u i l t f o rc o m p a r a t i o nw i t ht h eb b pn e t w o r kw eh a v es e t t h er e s u l t ss h o w e dt h a tb b ph a s b e t t e rg e n e r a l i z a t i o nt h a nc o n v e n t i o n a lb pa r i t h m e t i ca n do t h e ra r i t h m e t i c s ( e a r l y s t o pf o re x a m p l e ) i nt h es a m en e t s c a l e a n dw a i m n g e i r or ,a n dh i g h e rs p e e di n c o n v e r g e n c e t h ec o r r e l a t i v ec o e f f i c i e n t sr c o u l db e0 8 8 6 7 ,w i t ht h em e a na b s o l u t e e r r o r ( m a e ) a n dt h em e a ns q u a r ee r r o r ( m s e ) b e i n g15 0 7a n d3 7 7 4r e s p e c t i v e l yf o r t h et r a i n i n gs e t w h i l et h ep r e d i c t i n gp r e c i s i o nw e r e3 5 a n d1 6 5 f o rt h e c o r r o b o r a n ts e t + t h i sn e t w o r kc o u l da l s os o l v et h eu n c e r t a i n t ya n dn o n l i n e a ra m o n g f a c t o r si ne u t r o p h i c a t i o ns oa st og e th i g h e rp r e c i s i o ni np r e d i c t i o n ,a n dt h i sw i l lb e u s e f u li np l a n n i n ga n dc a r r y i n gt h ew o r ko u tt oi m p r o v et h ew a t e ri nw e s tl a k e t h i s i n d i c a t e st h a tb b pn e t w o r ki sa ne f f e c t i v em e t h o df o rf o r e c a s t i n gt h e c o n c e n t r a t i o no f c h l o r o p h y l l a a n d i tc a np r o v i d et h es c i e n t i f i cb a s i sf o rt h ec o n t r o lo ft h e e u t r o p h i c a t i o no f w e s tl a k e k e y w o r d s :b a y e s i a na r i t h m e t i c ;b pn e u r a ln e t w o r k ;e u t r o p h i c a t i o n ;p r e d i c t i o n ; w e s ti ,a k e 3 节浙江大掌硕士掌位论文 第一章绪论 1 1 湖泊富营养化研究 1 1 1 湖泊富营养化定义 湖泊富营养化是湖泊水体在自然因素和人类活动的影响下,逐步由生产力低 的贫营养状态向生物生产力较高的富营养状态变化的一种现象,指水体中含有大 量的磷、氮等植物生产所需要的营养赫,造成藻类植物和其它浮游生物的爆发性 繁殖,致使水的溶氧量大幅度卜降,水质恶化,导致鱼类和其他生物大量死亡的 现象。 湖泊富营养化虽然是一个自然过程,但人类的活动可能会加速这一过程,这 种情况下的富营养化称为人为富营养化。湖泊人为富营养化的主要原因,是由于 人类经济活动加强,含有大量氮、磷的生活污水或工业废水流入湖泊后,使其在 水体内部一系列的物理的、化学的,特别是生物的转化过程中输入、输出的不平 衡,输入大于输出,从而导致营养物质在水体中的富集。水生植物由于得到这些 营养素,而大量生长繁殖。这些植物死亡之后,在其分解过程中,要消耗水中溶 解氧,造成水中鱼类等浮游动物的死亡:藻类的大量繁殖可使水变成绿色或棕红 色,透明度下降,使水产生臭味,终于导致水质剧烈恶化。 1 1 2 研究现状及其发展趋势 富营养化已成为一个全球性的重大水环境问题,我国在经济持续高速增长的 同时,所带来的最大负效应就是环境污染日益严重。湖泊、水库主要的环境问题 就是水体富营养化,特别是人类活动比较集中的区域内的湖泊,水体富营养化过 程加快,水质恶化,可利用功能丧失,制约着人类社会和经济的发展,引起了世 界各国的普遍关注。 自湖泊富营养化问题出现以来,人们就一直尝试对其进行研究控制。湖泊富 营养化的理论研究日益成熟,经历了调查评价、模拟预测以及治理恢复等多个阶 段,尤其生态预测已成为近年来一种新兴的必然趋势2 1 ,人们不断探索和改进新 的富营养化生态预测模型,来为其治理恢复提供科学工具。 丫浙江大学硕士学位论文 杭州西湖位于杭州西侧,面积约为5 6 6 平方公里( 不包括西湖西进工程后 增加的面积) ,是中困著名的风景游览湖泊。对于杭州西湖的富营养化,各学者 分别从底泥、营养鼎、藻类、微生物等多角度进行了研究。吴根福等对西湖异养 细菌生【受的限制【墨子进行了研究,结果表明生物可利用的有机碳是主要限制性营 养因子,而氮源和磷源的影响相对较小;湖水的高p h 值、丰富的藻类和浮游动 物生物量也制约了异养细菌的牛长拉j 。谷庆宝等计算了含磷洗涤剂的磷负荷贡献 率,分析了禁磷前后城市内河和西湖水体中磷负荷浓度的变化行为。研究结果表 明,洗涤剂中磷酸盐磷占杭州市生活污水中总磷负荷的3 0 7 ,实施禁磷后钱塘 江和运河中磷负荷有不司程度的降低,但西湖水体的磷负荷变化不明显。从而可 认为,在杭州市实施禁磷可以作为控制水体富营养化的一个辅助手段,町以遏制 水体进一步恶化,而全面消除水体富营养化还需建设城市三级污水处理厂、控制 面源污染等其它手段的协作刁能实现1 4 j 。裴洪平等分别建立了杭州西湖总磷动态 预测模型”、引水后磷循环模型 6 】、藻类动态模型7 1 和西湖富营养化生态模型【8 , 主要模拟了西湖采取引水工程、底泥疏浚等措施后,西湖水体中总磷、藻类的变 化趋势,即评价了这些整治措施对西湖水质的改善效果,为科学决策和管理西湖 水质提供了科学依据。由于在运用模型进行湖泊富营养化管理的过程中,不确定 性是不容忽视的。因此,裴洪平等对杭州西湖富营养化生态模型在应用于实际管 理过程中可能遇到的不确定性进行了定量分析,开发了一个整合富营养化模拟、 不确定性分析、随机优化以及其他的管理模型框架 9 1 。裴洪平等还运用b p 人工 神经网络模拟富营养化进程中的非线性行为,预测西湖水体中叶绿素a 的含量的 短期变化趋势,客观评价了各种管理策略和整治措施所能实现目标的可能性,为 西湖水质的预警预报以及富营养化管理策略的程序的制定提供了科学依据【l 。 未来的湖泊富营养化的研究趋势之一仍将是富营养化的模拟和管理。因此本 研究工作的重点是:( 1 ) 进一步研究能精确模拟湖泊富营养化变化趋势的生态预 测模型,探讨更为科学的预测方法,拓展模型的泛化性能,即提高模型的适用能 力,这是模型研究中的难点;( 2 ) 将建立的模型更好的应用于湖泊富营养化的管 理过程,使研究成果更好更快的应用于实践,而不是仪仅停留在理论阶段。 丫浙江大掌硕士学位论文 1 2b p 人工神经网络 1 2 1 人工神经网络 人:i :神经网络( a r t i f i c i a ln e u r a ln e t w o r k s ,简称a n n ) 是对人脑或自然的神 经网络若下基本特征的抽象和模拟,是一种非线性的动力学系统【】。a n n 是生 物神经网络的抽象和模拟,它是由大量人工神经元广泛连接而成的超大规模的非 线性动力学系统,除具有一般非线性动力学系统的共性,如不可预测性、吸引性、 耗散性、非平衡性、不可逆性、高维性等特性外,a n n 还具有以下几方面的特 征:如大规模并行处理能力和信息的分布式存储、容错性和稳健性、自学习功能 等。 目前,人工神经网络己经渗透到各个领域,并在智能控制、模式识别、计算 机视觉、自适应滤波和信号处理、非线性优化、自动目标识别、连续语音识别、 知识处理、传感技术与机器人、生物医学工程等方面取得了令人鼓舞的进展,而 且该种方法同益成熟,具有重要的理论和应用价值”1 。人工神经网络主要有以下 几种典型模型:b p 网络( 反向传播算法) 、h o p f i e l d 网络模型、随机型神经网络、 自组织神经网络、联想记忆神经网络、c m a c ( 感知器) 模型等。 1 2 2b p 人工神经网络 存a n n 模型中应用较多的是具有非线性传递函数神经原构成的前馈网络中 采用误差反传算法作为其学习算法的前馈网络( b a c kp r o p a g a g t i o na l g o r i t h m , b p ) ,简称b p 网络。b p 网络属于多层状型的人工神经网络,由若干层神经元组 成,它们可分为输入层、隐层和输出层,各层的神经元作用是不同的,如图1 1 所示。输入层接受外部信息:隐层用来表示和存储知识;输出层输出结果。3 层 神经网络几乎可以对所有非线性函数进行模拟。 输入层中间层输出层 图i - 1b p 神经阿络模型 f i g 1 一it h e s t r u c t u r eo fb pn e u r a ln e t w o r k b p 刚络中的信息传递是单向的,同一层中的神经,i 不存在相互联系,而层 丫浙江大掌硕士掌位论文 与层之间则多采用全连接方式,连接程度由连接权重( w 0 表示,并在学习过程中 根据误差进行调节。每层神经元状态都将影响下一层的神经元状态。每一个神经 元都有一个作用函数厂和闽值。,其中,输入层神经元阂值为0 ,且厂( z ) 可: 而隐含层和输出层的作用函数为非线性的s i g m o i d 型函数,一般采用:f ( x ) = 1 ( 1 + 矿) 。 b p 模型的学习思路是:当给定一个网络的输入模式时,它有输入层单元传 递到隐层单元,经处理后,然后再传递到输出层单元。由输出层处理后产生一个 输出模式,这个过程称为前向传播。如果输出响应与期望输出模式有误差而不满 足要求时,就转入误差后向传播,将误差值沿连接通路逐层反向传递并修改各层 的连接权值和闽值。这样不断重复向前传播和误差后向传播过程,直到各个训练 模式都满足要求时,结束学习过程。 b p 网络模型的优点:是自学习、白组织、白适应的非线性模拟系统;能够 大规模并行处理数据;可用于分类、模式识别和函数逼近等;通用性比较好。缺 点l o l :隐层神经,二个数难以确定;复杂性难以控制;易陷入局部最小点等。 1 3 贝叶斯神经网络 贝叶斯神经网络即基于贝叶斯推理的神经网络,它首先利用了神经网络的最 基本原理,并目通过在神经网络中引入贝叶斯推理来有效地控制模型的复杂度, 克服过拟合,从而能更好地解决建模过程中的非线性和不确定性等问题。 1 3 1 国外研究现状 对贝叶斯神经网络的研究首先在其理论方面取得了巨大成就,国外大量统计 学家及相关专家如y o s h i f u s ai t o 13 1 ,m a c k a y 16 1 ,r o r r e 17 1 ,m a nl e u n g w o n g 1 8 1 ,j o u k ol a m p i n e n j 9 l 等都对贝叶斯神经网络的应用和推广奠定了坚实的 理论基础。在应用方面,贝叶斯神经网络方法目前贝叶斯神经网络受到越来越多 的重视,广泛地应用于网络安全、自动控制、人i :智能、生物医学等各个领域。 p j gl i s b o a 等刚在b p 网络中引入贝叶斯结构执行自相关测定( a r d ) 来 模拟审查数据,用于乳腺癌预后审查,并和比例风险模型作了比较。表明二者结 果是一致的,而前者在对病人的预后配置中更为精确,且贝叶斯f 则化神经网络 模型结构易于估计权重参数,有助于模型选择。 丫浙江大掌硕士掌位论文 m n h a j m e e r 等 2 i j 构建了基于贝叶斯神经网络整合方法的细菌生长不生长 概率模型,用于预测受由外在因素和操作条件所决定的一系列参数影响的目标菌 种的生长概率,模型也定义了给定菌种生长不生长的概率边界,从而可以定义 并预测那些对其生长起关键作用的参数值。所构建的模型和包括传统线性与非线 性逻辑哀减模型在内的其他统计方法作了比较,结果表明整合模型在众多参数中 提取其特定关系方而的精确度和灵活性方面都比其他方法要好。最后提出叭叶斯 神经网络模型可应用于生长概率可确定的风险评价,并有望成为实际操作参数的 在线实时监测系统。 h a e j i n h a 等2 2 埔含1 0 个水质变量输入、隐层为4 个神经元、目标变量为5 种土地利用类型的贝叶斯神经网络来调查雨水水质与不同土地利用类型的关系, 获得了9 2 3 的正确分类率,用建立模型时未使用的已知数据对土地利用类型进 行了模拟预测,取得了满意的结果。 a k iv e h t a r i 等”1 将贝叶斯多层感知器( b a y e s i a nm l p ) 神经网络模型用于 定位森林场地的树木中继点,通过贝叶斯m l p 可以自动挖掘应用其中潜在的许 多特征和先验并确定它们之间的相关性,也显示了其对处理多维问题的鲁棒性。 贝叶斯神经网络近年来也逐渐被成功地应用于生物序列分析方面 2 3 - 2 5 】,其 突出的例子是在识别以大肠杆菌d n a 序列启动子方面的应用 2 ”,利用贝叶斯神 经网络成功地解决对d n a 序列中肩动子序列和非启动子序列进行的分类问题, 用已经标记的包含启动子序列和非启动子序列作训练集,通过对网络的有监督的 训练把未标记的d n a 序列进行了正确分类。 1 3 2 国内研究现状 国内对贝叶斯神经网络理论方面的研究还并不多见,但随着对人工神经网 络理论和应用研究的同益成熟和贝叶斯统计研究的不断深入,对贝叶斯神经网络 的研究也将逐渐成为一个新的热点。 蒋惠凤等闲应用贝叶斯f 则化算法优化神经网络,通过多维经济数据与用 电量的相关分析确定网络拓扑结构,建立用电量的贝叶斯神经网络模型。用从江 苏省统计年鉴和江苏省电力局取得的1 7 年历史数掘为输入、用电量为输出来训 练建立好的网络,经仿真表明该网络能很好地解决用电量多个影响因素之间的不 确定性和非线性,模型的预测精度较高,对合理的制定用电计划不仅有一定的理 丫浙江大学硕士学位论文 沦意义,更具有巨大的实用价值。 李惠娟等【2 ”提出了一种基于贝叶斯神经网络b n n ( b a y e s i a nn e u r a ln e t 、v o r k l 的垃圾邮件过滤方法,利用贝叶斯推理和神经网络相结合的贝叶斯神经网络算法 对用户给定的正常垃圾邮件集合进行训练,得到邮件过滤模型,并且提出了一 种有效的特征选择方法有效降低了特征维数,经过实验测试表明该方法可以实现 对垃圾邮件的有效过滤。 郑为中等28 1 提出将贝叶斯神经网络组合模型应用于短期交通流量预测,介 绍了该模型的基本原理及在示范路网中的实际应用,结果表明模型的预测性能整 体上优于单一的神经网络模型,并且确保了模型预测的稳定性。 孙伟等肚9 1 将贝州斯规整化误差反向传播神经网络( b r b p n n ) 应用于环境领 域的q s p r 模型,建立了8 7 种氯代芳香族化合物结构与电化学还原电位定量关 系的6 2 0 1 b r b p n n 模型,对电化学还原电位拟合及预测能力明显优于逐步线 性回归模型,其训练集和预测集的相关系数平方( r ) 和均方根误差( m s e l 分别 达到o 9 9 9 和0 0 0 0 1 0 5 ,0 9 6 5 和o 0 0 1 5 9 。结果表明,贝叶斯规整化方法大大方 便了网络规整化参数选择,保证了l 而4 络的优良概括能力和稳健性。 神经网络方法具有较强的处理相互矛盾样本的能力,尤其对非线性水生态 污染问题,而引入贝叶斯推理的神经网络能自动控制模型复杂度,并能利用超参 数的先验信息和分级模型从而给出网络输出的预测分布。目前,水生态污染领域 的贝叶斯神经网络研究刚开始起步,在很多方面仍存在较多空白,相信随着新的 更完善的贝叶斯神经网络模型的开发应用,必将引起人们的极大兴趣和重视。 1 4 本课题研究意义 湖泊富营养化模型研究的目的主要有【3 0 l :( 1 ) 通过检验湖泊养分负荷与湖泊 响应之问的因果关系,进一步加深对富营养化湖泊内部有关物理、化学和生物过 程的认识,如研究湖泊内部的养分循环和生物学过程;( 2 ) 预测在不同养分水平 下,湖泊富营养化的发展趋势和识别湖泊最适负荷目标值;( 3 ) 预测湖泊对4 i 同 管理措施的响应,找出减少养分负荷的最佳途径;( 4 ) 估算在磷负荷降低到目标 水平以后,湖泊生态系统恢复健康所需要的时间;( 5 ) 弥补测定数据的不足等。 本研究的意义是为了准确模拟反映西湖水环境的质量和污染状况,预测将 来的发展趋势,为开展环境污染和综合治理、环境规划及管理提供科学依据。但 丫浙江大掌硕士学位论文 水环境变化复杂,充满不确定性因素,真实、有效的模拟水环境的富营养化状况 就显的较为困难了。因此,探索和研究新的预测理论和方法,仍是水环境研究的 一个重要课题。通过以上文献可发现,贝叶斯b p 网络结合了贝叶斯推断和神经 网络,吸取了传统b p 网络收敛快速和贝叶斯统计充分利用先验信息的优点,具 有稳健、数据拟合良好且概括能力强等特点。用贝叶斯b p 网络模拟研究西湖水 环境富营养化,会取得比传统方法更为科学的结果,因此我们用贝叶斯b p 网络 来预测两湖富营养化是。u 。行的。 虽然贝叶斯b p 网络方法在理论e 得到了较充分论证,也在某些领域得以成 功应用,但在水质研究中鲜见应用报道。因而本课题有着一定的研究必要性。本 课题即采用贝叶斯b p 神经网络对西湖富营养化状况进行建模研究,模拟预测其 富营养化趋势,并尝试进行网络信息的挖掘,从而为西湖富营养化管理决策提供 科学依据和有效方法。 节浙江大掌硕士掌位论文 第二章材料与方法 2 1 西湖及其概况 杭州西湖是中幽著名的风景游览湖泊,位 于杭州西侧, 面濒临市区,三面环山,湖水 面积约为5 6 6 平方公里,平均水深1 5 6 米,流 域面积2 7 - 2 5 平方公早( 不包括西湖西进工程 后增加的面积) 。湖内苏堤和白堤把西湖分隔成 5 个湖区:外湖( 主体湖) 、北里湖、岳湖、西 罩湖和小南湖,各湖区水体籍桥洞沟通( 图 2 】) 。 西湖为半封闭性湖泊,水的更新程度差, 图2 - 1 西湖湖区及采样点分布图 加_ | :流域内经济迅速发展,致使氨、磷等营养f 。g 2 一is a m p l i n gs p o t si nw e s tl a k e 物质大量累积,水质f | 益富营养化,藻类过度繁殖,影响了水色和透明度以及它 的旅游价值。为改善西湖水质,在八十年代前后,实施了环湖砌岸、截污,局部 疏浚、引水等一系列综合整治措施,使西湖水质得到了一定程度的改善,但西湖 富营养化趋势仍未得到有效控制。 本课题组前期曾进行过“关于保护杭州西湖的生态环境和历史景观的中日合 作研究”,对西湖的富营养化作了深入研究,建立了各种富营养化模型,并提出 了具体的防治对策和管理措施。本项研究就是在这项课题研究的基础上进行的。 2 2 研究概况 2 2 1 主要内容 西湖水生生态系统是一具有多因素耦合的复杂系统,生态要素问的关系错综 复杂,表现出极大的随机性、不确定性和非线性。基于误差反传算法的多层前馈 神经网络( 简称b p 网络) 是目前应用最广、通用性最好的能用于分类、模式识别 和函数逼近的网络,在水生生态领域,己用于水体的水质评价【3 ,海岸的藻类水 节浙江大掌硕士掌位论文 华模拟。靶等方面。但传统b p 算法在解决非线性函数拟合时存在泛化能力不强和 易于陷入局部最小点等问题,基于贝叶斯理论和b p 网络的贝叶斯b p 神经网络 模雪 ! ( b b p n n s ) 盼3 4 1 吸取了传统b p 网络收敛快速和贝叶斯统计充分利用先验信 息的优点,具有鲁棒好、数据拟合良好等特点,新近在医学预后审查【3 5 】、生物序 列分析、生长概率预测川、垃圾邮件过滤等领域的研究中取得了可喜成绩, 但在环境领域研究中鲜见应用报道。本文采用贝叶斯b p 神经网络对西湖富营养 化进行建模研究,并尝试进行网络信息的挖掘,从而为西湖富营养化管理提供科 学依据。 本文以影响西湖水质的主要因子作为网络的输入变量,以叶绿素a 为输出变 量,构建b b p 网络,用了:模拟预测西湖富营养化趋势,并尝试进行网络信息的 挖掘,从而为及时有效地控制西湖水质提供科学依据。 2 2 2 技术路线 本研究的结构流程图如图2 2 所示。 上 网络的训l 练、测试、泛化及性能比较 上 结果分析与讨论 图2 - 2 结构流程图 f i g 2 - 2f l o w c h a r to f t h es t u d y 丫浙江大学硕士掌位论文 2 3 研究方法 2 3 1 采样点的布设及测定 西湖由苏堤及白堤等分隔成五个湖区,分别为北里湖、外湖、岳湖、西罩湖 和小南湖。根据湖区的分布,近岸环境状况及游船往来等情况,共设8 个采样点 ( 图2 一1 ) ,其中8 号点( 小南湖) 是西湖引水工程的入水口,1 号点( 少年宫) 是出水口。每月进行一次水质分析,监测项目中包括水温t w ( 。c ) 、透明度s d ( c m ) 、溶解氧d o ( m g 1 ) 、电导率e c ( m s ) 、p h 值、总磷t p ( m g 1 ) 、可溶 性磷d p ( m g 1 ) 、总氮1 n ( m g 1 ) 、氨氮n h 4 - n ( m g 1 ) 、硝基氮n 0 3 - n ( m g 1 ) 、 亚硝基氮n 0 2 - n ( m g 1 ) 和叶绿素c h l a ( u 鲋) 等共1 2 个物理、化学和生物等 水质因子。其中t w 、p h 、s d 、d o 和e c 用仪器在现场测定,t p 、t n 、n h 4 - n 、 n 0 3 n 、n 0 2n 等按常规化学方法在实验室测定,c h l a 的测定按 a p h a ( 1 9 7 6 ) 1 0 0 2 g 1 项的方法进行,采用1 0 0 2 g 3 项公式计算。从图中可以看出, 7 号点位于西湖中央,可以代表湖心附近较大的一片水域。 2 3 2 输入变量的选择 为了能使神经网络有很好的预测能力,模型参数的选择相当重要。以往有模 型将藻类种类的细胞数量作为输出值,而将叶绿素a 浓度作为输入量,而在实际 情况中,这两者正是我们所未知的;现在也有模型将营养物浓度作为网络的输入 量,而这个只有通过连续的监测系统才能获得。还有模型将所有可能获得的环境 参数作为输入变量,但是如果有过多的输入变量,其效果可能被复制了,比如藻 类的浓度和水体透明度有很好的相关性,若将两者都作为输入变量,这势必会影 响模型的预测能力,产生很多噪音”而不是有用的信息f 3 8 l 。所以,参数选择的 不全面或过于复杂,就是说所选参数包含的信息不够完善或有所重复,均会影响 预测模型的客观真实性。 因此,本研究通过因子分析法对网络的输入变量进行选择,既减少神经网络 的输入变量,加快网络的收敛,又起到了过滤“噪音”的目的。 2 3 3 1 基本原理 因予分析方法是用有限个不可观测的变量来解释原变量间的相关性或协方 差关系。这是一种降维方法,降维后使变量或标本具有更明确的意义,更能反映 节浙江大学硕士学位论文 ! 。! 。! e ! !。! ! ! ! ! ! ! ! ! ! ! ! ! e ! ! ! 自! ! ! ! ! ! ! ! ! ! ! ! ! ! s ! ! ! j ! 环境间内在的关系。对变量进行因子分析,通过计算因子载荷矩阵,找出影响结 果的主要公共因子,从而进一步选择主要表征变量4 0 4 3 1 。 2 3 3 2 步骤 设原始变量为x ix :,并已标准化:ft 产l ,1 ,朋) 为公共因子, 它们是不可观察的,其含义要根据具体问题来解释:a 。为第i 个指标x ,在第,个 公共因子,的系数,称为因子载荷。通过求出相应的载荷矩阵a ,选出最有影 响的公共因子,进而觯释各个公共因子的含义。 进行因子分析的步骤如下: ( 1 ) 为了排除数量级和量纲不同带来的影响,首先对原始数据进行标准化 处理: x := b ,一墨j s ,i = 1 , 2 ,h ;,2 1 , 2 ,p 式中矗为第f 个指标第个分区的原始数据,i 和s 。分别为第f 个指标的样本均值 和标准差。 ( 2 ) 根据标准化数据表k l 。,计算相关系数矩阵r = h l 其中 。= 去窆k = l g r i 一巧) 蝇一 ( 3 ) 计算r 的特征值和特征向量。根据特征方程陋一甜l = 0 ,计算特征根 , 并使其从大到小排列:丑五: ,同时可得对应的特征向量 ,“z ,“。它 们标准正交,“i ,“:,“。称为主轴。 ( 4 ) 计算贡献率q = 丑窆 和累计贡献率= 乏善 。 ,仁l j 一 。 ( 5 ) 确定公共因子个数:选择特征根个数m 的常用方法是根据公共因子累 积贡献率8 5 的准则确定。 ( 6 ) 计算初始凶子载荷矩阵爿= ( 唧) ,其中 = 托“, = 1 ,1 2 ,p ;j = l ,2 ,州 丫浙江大掌硕士掌位论文 ( 7 ) 因子旋转:当获得的公共因子和因子载荷矩阵不便于解释实际问题时, 呵以通过正交变换使公共因子载荷矩阵有明显的实际意义。本文采用方差最 大l f 交旋转,使因子载荷矩阵的元素的绝对值按列尽可能向两极分化,少数 元素取最大的值,而其他元素尽可能地接近零值。 ( 8 ) 解释公共因子的实际含义 ( 9 ) 计算相关系数矩阵尺的逆矩阵r ,估训被评价对象的因子得分: = a r 一、x 其中a 1 为因子载荷矩阵的转置矩阵,肖为原始变量的数据矩阵。 2 3 3 贝叶斯b p 网络 2 3 3 1 贝叶斯方法 贝叶斯方法是基于贝叶斯定理而发展起来用于系统地阐述和解决统计问题 的方法0 4 ”。贝叶斯统计缘于英国学者贝叶斯( b a y e s 。t r ) 去世后发表的一篇论 文“论机遇问题的求解”,文中提出了著名的贝叶斯公式,随后拉普拉斯( l a p l a c e , p c ) 等人用贝叶斯方法导出了一些有意义的结果,但当时理论上不完整,应用 中也出现了一些问题。此后直到2 0 世纪5 0 年代以后贝叶斯统计得到了充分发 展,进人六、七十年代,其发展达到鼎盛时期。越来越多的科技工作者投身于其 中,并做出了巨大的贡献,其中h a r o l dj e f f r e y s ,l i n d e r l y ,s a v a g e 部曾做过大量 有意义的工作,为建立统一的理论体系和方法论奠定了基础。2 0 世纪9 0 年代以 来,由贝叶斯基本原理发展起来的贝叶斯网络为因果关系的表示提供了一个便利 的框架,是一个功能强大的能处理不确定性的工具,近年来被广泛地用作专家系 统中对不确定性知识表达和处理的主要工具之一,应用于多个领域实际问题的研 究和处理【4 8 。 贝叶斯学派的最基本的观点 4 5 - 4 7 1 是:任一个未知量目都可看作一个随机变 量,应用一个概率分布去描述对目的未知状况,这个概率分布是在抽样前就有的 关于口的先验信息的概率陈述,被称为先验分布,简称为先验( p r i o r ) 。贝叶斯 统计的任务即是对口作出统计推断,在没有样本信息时,只能根据先验分布对曰 作出推断;而在有样本观测值z = ( 工,x e ,) 之后,应根据融入了总体、样本 和先验三种信息的联合分布 ( x ,臼1 来对目作出推断。 节浙江大掌硕士学位论文 凼此,贝叶斯公式就叫表不为: 冲i 小荫船 而p ( x i 口) z p ) d 口实质上是样本x 的边缘分布,是不依赖于目的常数,i v 起到正则化因子的作用。因此,贝叶斯公式又可等价为: z ( 0 | z ) * p ( x l o ) 7 p ) 可见,后验分布z ( 0i x ) 是反映人们在抽样后对口的认识,其与先验分布 x = ( x ,x 2 ,矗) 2 _ i n j 的差异是由于样本x 出现后人们对口认识的一种调整a 所 以,后验分布万( p ;x ) 可看作是人们抽样信息( 总体信息和样本信息的综合) 对先 验分布z ( 臼) 作调整的结果。 2 0 世纪9 0 年代以来,由贝叶斯基本原理发展起来的贝叶斯网络为因果关系 的表示提供了一个便利的框架,是一个功能强大的能处理不确定性的工具,近年 来被广泛地用作专家系统中对不确定性知识表达和处理的主要工具之一,应用于 多个领域实际问题的研究和处理【4 8 】。 2 3 3 2b p 网络的贝叶斯学习 记神经网络模型训练集d = x m ,) ,其中脚一j ,2 ,| v ,n 为训练的样 本总数。在给定网络框架爿和网络参数初始值的条件下,网络输出 e 。( d i ,a ) 可惟一由输入向量x 确定,网络训练的目标函数为某一误差函数, 这里假设为: e 。( d i w ,一) = ( ,( z “,一) ,) 2 学习的目的是找出使误差函数岛( d 1 w ,a ) 为最小的网络参数w o 为克服 学习过程中的过拟合问题,常在误差函数后面加上权衰减项:。( i a ) 2 手扣? 于是总误差变为: m ( ) = “e ,( w i a ) + e 。( d i 矿,a ) 其中口,为超参数,用以控制其他参数( 权及阈值) 的分布形式,m ( 形) 中包 含一系列自由参数和超参数,对于超参数的设定问题必须在训练过程中优化。 1 6 ¥浙江大掌硕士学位论文 在上述框架下的神经网络模型存在的问题是如何为自由参数的设定和可供 选择解之间的比较( 这些解只依赖训练集) 建立客观标准等问题。m a c k a y 在上述 概率框架下提出了贝叶斯方法,网络学习的概率解释为: ( 1 ) 似然性在网络框架a ,参数w ,及输入x 给定的条件下,网络目标输出的 鳓率絮麓唧( 砌m i x , w , a ) ) 尸( 叩,) = 型掣茅型 ( 2 ) 先验网络参数的先验概率为: 巾i 州) = 巫烈掣 ( 3 1 后验概率给定观察数据后的网络参数的后验概率为 p ( w i d ,d ,a ) 其巾,e ( ,p ,爿) = ( y ( x ,爿) 一,) ,乙( 功,磊( 口) ,乙( a ,) 为归一 化冈子。在以上框架一卜最小化总误差函数m ( 矿) 与最可能网络参数,一致,最 小化e 。( d 1 w ,a ) 与网络参数最大似然估计一致。 至于如何确定超“,卢,m a c k a y 提出t n _ 过贝叶斯方法在线优化超参数的 思想。根据贝叶斯规则,超参数的后验概率分布为: ,p ( n ,卢i j d ,a ) = v ( o l a ,卢,4 ) p ( 口,) p ( d i a ) 7 5 。 p ( d i 口,卢,4 ) = p ( d l ,d ,卢,a ) p ( w i 口,卢,a ) d w = f e ( o i ,卢,a ) p ( wo r , a ) d w p ( d i w , f l , a ) = 巫掣 若已知p ( a ,卢1 ,可得到超参数a ,卢的显著度为 p ( d i a ,卢,a ) = p t ,id ,a ) p ( d i4 ) p ( 口,卢) 同样,贝叶斯神经网络也可通过各模型的显著度p ( 驯砷p ( d l 儡届4p ( 岛句d a d 卢 对不同的网络模型作出评价。 、l ,一 p e 一 口p一, 一一 一忙 口一w 卜一z n r 一 坠 丫浙江大掌硕士掌位论文 2 3 3 3 贝叶斯b p 网络算法 贝叶斯推理提供了一种以概率分布为基础的推理方法,它是基于如下假设 的:令人感兴趣的变量受概率分布的控制,人们结合观测数据,对这些概率进行 推理便可做出最优的决策。其优势在于:贝叶斯推理不区分是前向推理还是后向 推理,网络中的每个节点都可以输入信息和输出信息,具有灵活的信息推断能力。 贝叶斯b p 网络算法可概括如f : ( 1 ) 确定网络结构,初始化超参数a ,口,根据 先验分布对网络参数赋初值。( 2 ) 用b p 算法训练 网络,使总误差a 盯即最小。( 3 ) 优化超参数d ,。 f 4 1 对不同的网络参数初始值重复以上三步,发现 不同的极小值点。( 5 ) 对不同的模型重复以上四 步,比较它们的显著度。 贝叶斯方法训练神经网络是个迭代过程,每个 迭代过程涉及两层贝叶斯推断:第一层推断是在给 定超参数条件下通过最大化p r 吲口,纠推断出 最可能的第二层推断是优化超参数a ,鼻,推 断出最可能的超参数。贝叶斯神经网络训练流程 图 15 】如图2 3 。 确定网络结构,初始化超参数 0 第一层推断:寻找最可能权 0 第二层推断:优化超参数 i :j 、 图2 - 3 贝叶斯b p 网络训练流程图 f i g 2 - 3f l o wc h a r to ft r a i n i n g w i t hb a y e s i a na r i t h m e t i c 传统神经网络由丁= 存在难以控制模型复杂度和克服数据过拟合问题,阻碍 了神经网络的“泛化”,而基于贝叶斯推理的贝叶斯神经网络很好地解决了这些 问题。贝叶斯神经网络有利于估计结果的置信区间,通过与其他模型选择技术的 比较,更能揭示出模型中的错误假设。贝叶斯神经网络的主要优点是:( 1 ) 自动 控制复杂度,无需独立的训练集和测试集;( 2 ) 能利用超参数的先验信息和分级 模型:( 3 ) 能给出网络输出的预测分布。 2 3 4 相关软件 2 3 4 1s p s s s p s s 的全称是:s t a t i s t i c a lp r o g r a mf o rs o c i a ls c i e n c e s ,即社会科学统计程 序,s p s s 向用户提供包括统计分析和数据挖掘的专业软件产品,是公认的最优 秀的统计分析软件包之一【4 9 1 。8 0 年代初率先推出了微机版本( 版本为s p s s p c + 亨浙江大掌硕士掌位论文 x x ) ,占领了微机市场,大大地扩大了自己的用户量。 8 0 年代末,s p s s 迅速向w i n d o w s 移植。与以往的s p s sf o r d o s 版本相比, s p s sf o r w i n d o w s 显得更加直观易用。首先,它采用现今广为流行的电子表格形 式作数据管理器,使用户变量命名、定义数据格式、数据输入与修改等过程一气 呵成,免除了原d o s 版本在文本方式下数据录入的诸多不便;其次,采用菜单 方式选择统计分析命令,简明快捷,无需死记大量繁冗的语法语句:第三,采用 划象连接和嵌入技术,使计算结果可方便地被其他软件调用,数据共享,提高 作效率。作为统计分析工具,s p s s 理论严谨、内容丰富,数据管理、统计分析、 趋势研究、制表绘图、文字处理等功能,几乎无所不刨5 0 1 。 本研究采用s p s sf o r w i n d o w s1 3 o 进行因子分析等数据挖掘工作。 2 3 4 2m a t l a b m a t l a b 是m a t h w o r k s 公司推出的一套高性能的数值计算和l j 丁视化软件, 它集数值分析、矩阵运算、信号处理和图形显示于一体,构成了一个方便的、界 面友好的用户环境。 m a t l a b 强大的功能在于它的开放式的可扩展环境以及诸多的面向不同应 用领域的工具箱( t o o l b o x ) ,主要包括信号处理( s i g n a lp r o c e s s i n g ) ,控制系统 ( c o n t r o ls y s t e m ) ,神经网络( n e u r a ln e t w o r k ) ,图象处理( i m a g ep r o c e s s i n g ) , 鲁棒控制( r o b u s tc o n t r 0 1 ) ,非线性系统控制设计( n o n l i n e a rc o n t r o ls y s t e m d e s i g n ) ,系统辨识( s y s t e mi d e n t i f i c a t i o n ) ,最优化( o p t i m i s a t i o n ) ,模糊逻辑( f u z z y l o g i c ) 等工具箱5 ”2 1 。 本研究采用的是目前应用较为成熟的m a t l a b 6 5 正式版( r e l e a s e1 3 ) ,用 m a t l a b 编写了贝叶斯b p 网络训练、测试等各种程序。 亨浙江大掌硕士学位论文 第三章结果与讨论 3 1 采样点及水质指标分析 3 1 1 采样点分析 表3 一l 给出了水质因子年平均值的变化情况。从表中可以看出,2 号样点( 北 里湖) 和4 号样点( 岳湖) 的t p 和c h l a 的年平均含量最高,这是因为两者都 处于引水死角,水流缓慢,且排污较多造成的。8 号样点( 小南湖) 地处钱塘江 引水口,而钱塘江水中的t p 和c h l a 含量显著低于西湖,这样水体经常得到更 换,营养盐能不断被稀释,且底部有少量沉水植物生长,水体尚有较强的自净能 力,所以其t p 和c h l a 的含量最低,e c 值最大,水质明显偏好。同时,从大部 分引水的走向来看,其t p 、c h l a 的含量逐点增加,e c 渐次下降。而钱塘江水 中的t n 含量与西湖基本一致,因此各样点的t n 含量变化不大。这表明t p 、 c h l a 含量的高低与该样点距离引水口的远近有关。 表3 - 1 西湖主要水质因子年平均值随监测点的变化 t a b 3 1 v a r i a t i o n o f a n n u a l m e a n v a l u e s o f m a i n w a t e r q u a l i t y f a c t o r s a t e a c hs a m p l i n gs p o t 样点12345678 r、r 均1 81 31 81 61 82 61 8 3 l1 8 3 i1 8 4 9i8 ,5 51 85 3 ( 5 c )范刚6 1 3 2864 3 32 6 4 3 336 2 3 356 i 3 2 ,858 3 3 26 2 3 3 ,i7 - - 3 34 s d、f 均4 954 6 85 085 475 525 035 1 37 75 ( c m )范刷 3 0 8 52 6 8 03 0 9 33 2 9 83 2 9 83 9 23i 9 25 6 9 0 d o平均7 3 364 776 870 79 1 88 8 788 570 4 ( m e d l )扎刖30 5 1 02 642 3 97 l45 1 05 737 3 - - 9 6 64

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论