(系统分析与集成专业论文)非均匀信息扩散及其在保险中的应用.pdf_第1页
(系统分析与集成专业论文)非均匀信息扩散及其在保险中的应用.pdf_第2页
(系统分析与集成专业论文)非均匀信息扩散及其在保险中的应用.pdf_第3页
(系统分析与集成专业论文)非均匀信息扩散及其在保险中的应用.pdf_第4页
(系统分析与集成专业论文)非均匀信息扩散及其在保险中的应用.pdf_第5页
已阅读5页,还剩53页未读 继续免费阅读

(系统分析与集成专业论文)非均匀信息扩散及其在保险中的应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

上海大学硕士学位论文 摘要 小样本问题在保险中比比皆是,比如豁免数据、巨灾原始记录等 等。如何研究和处理小样本问题一直是国内外学者所感兴趣的。以信 息分配和信息扩散为核心的模糊信息优化处理技术是种处理小样 本问题行之有效的方法。这项技术是1 9 8 5 年由国家地震局工程力学研 究所刘贞荣研究员和北京师范大学黄崇福教授在震害嚣积估计的研 究中首次提出的,现在已广泛应用到气象、人寿保险、采矿、土木工 程、测绘、信号处理、决策支持系统、故障诊断、地质灾害、计算机 仿真、风险分析等众多领域。在国际上许多国家和地区也进行了该技 术的研究和探索,比如日本、美国、德国、比利时、香港等。2 0 0 0 年n a f i p s 第1 9 次国际会议上专门设立了“d i f f u s i o n 的分会场。同 年,第4 届f l i n s 国际会议也设立了“i n t e l l i g e n tt e c h n i q u e sa n ds o f t c o m p u t i n gi nn u c l e a rs c i e n c ea n de n g i n e e r i n g 专题讨论,国外把信息 扩散技术看作是s o f tc o m p u t i n g ( 软计算) 和c o m p u t a t i o n a li n t e l l i g e n t ( 计算智能) 技术,应用前景广泛。 在国内,复旦大学数学研究所尚汉冀教授、上海大学数学系陆余 楚教授致力于该问题的研究已有近十年。他们的主要成果是:l 、将 信息扩散技术成功地应用于保险精算中的风险分析、风险判别中去; 2 、对均匀扩散从有限维到无限维、从低维到高维进行研究;3 、提出 小样本扩散判别的两个准则;4 、建立了个参数选择的优化模型, 上海丈学硕士学位论文 从而将均匀信息扩散方法应用于实际课题中。 2 0 0 5 年起我们从扩散方程出发,进行非均匀扩散的研究,即将 扩散方程的扩散系数由常数改为与浓度有关的函数,并解决了二维 乃至高维德非均匀扩散问题。本文所介绍的就是2 0 0 5 年开始的主要 研究成果,并运用到两个实际保险课题中去。第一个课题是“富裕 性疾病的统计分析及其在保险中的应用”,这是由复旦大学、新华医 院等单位合作的课题( 美国大都会入寿保险总公司赞助) ,第二个课 题是“上海市某医院高于体检的数据分析 ,这是由复旦大学、新华 医院等单位合作的课题( 复旦瑞士再保险研究基金资助) 。前者所 用数据库共有1 8 5 2 7 条记录;后者的数据包括基本情况表与体检情 况表,分别有1 9 0 6 条记录和8 4 2 6 条记录。 本文所涉及到的数学范畴有数理方程、模糊数学技术、信息扩 散理论、数值计算方法和最优化技术等。数值计算的编程主要是基 于数学软件m a t l a b 这个平台,另有部分在e x c e l 界面下完成。 本文将非均匀信息扩散结果与其他方法进行比较,结果表明非 均匀扩散方法在处理二维和高维小样本问题时均是可行的且有效 的。 关键词:小样本,优化模型,非均匀信息扩散,m a c c o r m a c k 方法 v i i 上海大学硕士学位论文 a b s t r a c t s m a l l - s a m p l ep r o b l e m sc a nb ef o u n de v e r y w h e r ei nt h ef i e l do f i n s u r a n c e 。e g 。e x e m p td a t a ,t h eo r i g i n a lr e c o r d so ft r e m e n d o u s d i s a s t e r sa n ds oo n t h ed o m e s t i ca n do v e r s e a ss c h o l a r sa r e a l w a y si n t e r e s t e di nh o w t od e a lw i t ht h es m a l ls a m p l ep r o b l e m s t h e f u z z yi n f o r m a t i o np r o c e s s i n gt e c h n i q u ei sa ne f f e c t i v em e t h o d t od e a lw i t ht h es m a l l s a m p l ep r o b l e m ,w h o s ec o r ei si n f o r m a t i o n d i s t r i b u t i o na n di n f o r m a t i o nd i f f u s i o n 。t h i st e c h n i q u ei sf i r s t p u t f o r w a r di n19 8 5b yr e s e a m h e rz h e n r o n gl i uo fe n g i n e e r i n ga n d m e c h a n i c sg r a d u a t es c h o o lo fc h i n ae a r t h q u a k ea d m i n i s t r a t i o n a n dp r o f e s s o rc h o n g f uh u a n go fb e i j i n gu n i v e r s i t yd u r i n gt h e e v a l u a t i o no ft h ea r e a se n d a n g e r e db yt h ee a r t h q u a k e n o wi ti s w i d e l yu s e di nt h ef i e l d s o fw e a t h e r ,l i f ei n s u r a n c e ,m i n i n g ,c i v i l e n g i n e e r i n g ,m a p p i n g ,s i g n a ld i s p o s a l ,t h es u p p o r ts y s t e mo f d e c i s i o n m a k i n g , f a i l u r e d i a g n o s i s ,g e o l o g i c a ld i s a s t e r s , c o m p u t a t i o n a le m u l a t i o n ,r i s ka n a l y s i s ,e t c 。m a n yc o u n t r i e sa n d r e g i o n sh a v e b e e nr e s e a r c h i n gt h ep r o b l e m 。s u c ha sj a p a n , a m e r i c a ,g e r m a n ,b e l g i u m ,h o n gk o n ga n ds o f o r t h t h e p r o c e e d i n go f 19 t hn a f i p si n t e r n a t i o n a lc o n f e r e n c es e tt h e b r a n c hf o r u mo fd i f f u s i o ns p e c i a l l yi n2 0 0 0 d u r i n gt h es a m ey e a r v i i i 上海大攀硕士学位论文 t h e4 t hf l in si n t e r n a t i o n a lc o n f e f e n c ea l s od i s c u s s e dt h es p e c i a l t o p i co ni n t e l l i g e n tt e c h n i q u e sa n ds o f tc o m p u t i n gi nn u c l e a r s c l e n c ea n d匕n g l n e e 巍n g 1 n 事o r m a t j o nu l t t u s j 0 nle c h m q u el s 一 - 一 - 1 oo_ r e g a r d a st h es o f tc o m p u t i n ga n dc o m p u t a t i o n a l i n t e l l i g e n t t e c h n i q u ew h i c hw i l ls u r e l yh a v eal i g h f f u lf u t u r ef o ra p p l i c a t i o n d o m e s t i c a l l y ,p r o h a n j is h a n go ff u d a nu n i v e r s i t ya n dp r o y u c h u l uo fs h a n g h a iu n i v e r s i t yh a v ee n g a g e di nt h i sp r o b l e mf o rn e a r l y t e ny e a r s 。t h e i rm a i na c h i e v e m e n t sa r ea sf o l l o w s :1 。s u c c e s s f u l l y a p p l yi n f o r m a t i o nd i f f u s i o nt e c h n i q u eo np r a c t i c a lp r o j e c t so fr i s k a n a l y s i sa n dr i s kd i f f e r e n t i a t i o no fa c t u a r i a ls c i e n c ei ni n s u r a n c e ;2 s t u d ya n da p p l yt h ei n f o r m a t i o nd i f f u s i o nm e t h o df r o ml i m i t e dt o u n l i m i t e d ,f r o ml o w e rd i m e n s i o nt oh i g h e rd i m e n s i o n ;3 p r o p o s e t w op r i n c i p a l s o 、fs m a l l - s a m p l ed i f f u s i o n ;4 s e tu pap a r a m e t e r - o p t i m i z e dm o d e l s i n c e2 0 0 5 ,w eh a v eb e e ns t u d y i n gt h eg e n e m li n f o r m a t i o n d i f f u s i o nw h i c hi sd e r i v e db yd i f f u s i o n e q u a t i o n n a m e l y ,w e c h a n g e dt h ed i f f u s i o nc o e f f i c i e n to ft h ed i f f u s i o ne q u a t i o nf r o ma c o n s t a n tt oaf u n c t i o nw h i c hc o r r e l a t e dw i t hi n f o r m a t i o n c o n s i s t e n c y f u r t h e rm o r e ,w es o l v e d2 - da n dh i g h e rd i m e n s i o n 上海大学硕士学位论文 g e n e r a ld i f f u s i o np r o b l e m s t h i sp a p e ra i m e dt oi n t r o d u c et h e m a i nr e s u l to fo u rr e s e a r c hw o r kf r o m2 0 0 5a n da p p l i e di tt ot w o p r a c t i c a li n s u r a n c ep r o j e c t s t h ef i r s tp r o j e c tw a ss t a t i s t i ca n a l y s i s o fd i s e a s e sr e l a t e dt ob e t t e rl i v i n gc o n d i t i o n s ( d b lqa n di t s a p p l i c a t i o n i ni n s u r a n c ew h i c hw a sc a r r i e do u t b y f u d a n u n i v e r s i t y a n dx i n h u a h o s p i t a la n ds p o n s o r e db ya m e r i c a m e t r o p o l i t a n l i f ei n s u r a n c ec o m p a n y t h es e c o n do n ew a s c h e c k - u pd a t ao ft h el e a d e r s h i p ,m a n a g e m e n t , a n ds e n i o rs t a f f f r o ms o m eh o s p i t a li ns h a n g h a iw h i c hw a su n d e r t a k e nb yf u d a n u n i v e r s i t ya n dx i n h u ah o s p i t a l ,s u p p o s e db ys w i s s r e f u d a n r e s e a r c hf o u n d a t i o n 丁h ef o r m e ru s e dad a t a b a s ew h i c h c o n t a i n e d18 5 2 7r e c o r d s ,w h i l et h el a t t e r sd a t ai n c l u d e dag e n e m l i n f o r m a t i o nt a b l ea n dam e d i c a lc h e c k - u pt a b l er e s p e c t i v e l yh a d 19 0 6 a n d8 4 2 6r e c o r d s t h em a t h e m a t i c c a t e g o r i e s i n v o l v e di nt h i s p a p e r w e r e m a t h e m a t i c a la n dp h y s i c a le q u a t i o n ,f u z z y m a t h e m a t i ct e c h n i q u e , i n f o r m a t i o nd i f f u s i o nt h e o r y ,n u m e r i c a lc o m p u t a t i o nm e t h o da n d o p t i m i z a t i o nt e c h n i q u e ,e t c 。t h ep r o g r a m m i n go fn u m e r i c a l c o m p u t a t i o ni nt h i sp a p e rw a sm o s t l yb a s e do nt h ei n t e r f a c eo f m a t h e m a t i c a ls o f t w a r em a t l a b a d d i t i o n a l l y ,s o m e p a r tw a s x 上海大学硕士学位论文 f i n i s h e db ye x c e l t h i sp a p e rc o m p a r e dt h er e s u l tp r o d u c e db yg e n e r a li n f o r m a t i o n d i f f u s i o nm e t h o dw i t ht h a to fo t h e rm e t h o d sa n dd r e wac o n c l u s i o n t h a tg i d mw a sf e a s i b l ea n de f f e c t i v ei nd e a l i n gw i t ht w o d i m e n s i o n o re v e nh i g h e rd i m e n s i o ns m a l l s a m p l ep r o b l e m s k e y w o r d s :s m a l ls a m p l e ,o p t i m a lm o d e l ,g e n e r a l i n f o r m a t i o n d i f f u s i o n ,m a c c o r m a c km e t h o d x i 上海大学硕士学位论文 原创性声明 本人声明:所呈交的论文是本人在导师指导下进行的研究工作。 除了文中特别加以标注和致谢的地方外,论文中不包含其他入已发 表或撰写过的研究成果。参与同一工作的其他同志对本研究所做的 任何贡献均已在论文中作了明确的说明并表示了谢意。 本论文使用授权说明 本人完全了解上海大学有关保留、使用学位论文的规定,即: 学校有权保留论文及送交论文复印件,允许论文被查阅和借阅;学 校可以公布论文的全部或部分内容。 ( 保密的论文在解密后应遵守此规定) 签名:逝- - , 4 t * 导师签名:生兰堕日期: i i i o ,甚。毛。t 上海大学硕士学位论文 本文结构图 x l i 上海大学硕士学位论文 1 1 研究背景 第l 章引言 在进行风险分析和评估过程中,经常会遇到信息不充分、数据不完备的情况, 即小样本情况。严格来说,假设x 是这样一个样本:它将被用来支持一个数学模型以 发现某种因素闯的关系,如果x 很小,那么依据它用传统概率统计方法找到的关系将 是无效的,这就称为小样本问题。 小样本客观存在于金融、精算、信息、地震灾害、故障诊断等等十分广泛的领 域。比如股市中的全球性股灾灾前数据,大地震( 七级以上) 的震前征兆数据,保 险中的豁免数据,还有像前一阶段爆发的非典和禽流感的数据等等,这些风险事件 可能几十年甚至几百年才发生一次,能采集的数据极少,因此它们是小样本。 在某些情况下,即使存在大样本,由于种种原因,我们也只能搜集到小样本。 在诸如高原、海洋等等恶劣条 牛下,进行大样本搜集所耗费的成本往往十分臣大。 比如,在房地产开发中定要考虑当地的地震烈度,其往往就是根据历史的地 震数据作出分析的,而由于种种客观条件限制,这样的数据往往少而又少。所以, 如何通过分析少量的数据来估测该地区地震烈度情况具有非常重要的意义。这就要 求我们必需充分利用有限的样本数据,挖掘出尽可能多的有用信息,分析出尽可能 精确的结果,这就是我们所要关注的。本文关注的是利用信息扩散解决小样本闻题。 1 2 国内外研究概况 謦前小样本处理的方法主要是多元统计等等,比如核估计等。本文中用米处理 小样本的信息扩散理论和技术在国外被看作是s o f tc o m p u t i n g ( 软计算) 和 c o m p u t a t i o n a li n t e l l i g e n t ( 计算智能) 技术。这项技术最早是1 9 8 5 年由国家地震 局工程力学研究所刘贞荣研究员和北京师范大学黄崇福教授在震害面积估计的研究 中首次提出的,现在已广泛应用到气象、入寿保险、采矿、土木工程、测绘、信号 上海大学硕士学位论文 处理、决策支持系统、故障诊断、地质灾害、计算枫仿真、风险分析等众多领域。 黄崇福教授的代表作有两篇模糊信息优化处理技术及其应用( 1 9 9 5 ,北京航 空航天大学如版卒) 和t o w a r d se f f i c i e n tf u z z yi n f o r m a t i o n 胁c e s s 加g 黼g t h ep r i n c i p l eo f i n f o r m a t i o nd i f f u s i o n ( 2 0 0 2 ,德国s p r i n g e r 出版社) 。 在国际上,美国、日本、德国、比利时、罗马尼亚等国以及我国香港地区也对 该技术也进行了深入研究。不仅如此,他们还极为重视这门技术的应用、发展和推 广,因此在许多国际会议上专设了“d i f f u s i o n 的分会场,比如第1 9 次n a f i p s 国 际会议、第4 属f l i n s 国际会议等等。 在国内,复旦大学数学研究所尚汉冀教授与上海大学数学系陆余楚教授合作研 究该问题已有近十年,并应用到保险精算的实际项目中去。他们前8 年的研究重点 是均匀扩散,作了一系列工作,主要有:l 、将信息扩散技术应用予保险精算中的风 险分析和评估中去:2 、对均匀扩散从有限维到无限维、从低维到高维进行研究;3 、 提出小样本扩散判别的两个准则;4 、建立了一个参数选择的优化模型,从而将有限 维均匀信息扩教方法应用于实际课题中。链们的论著发表在i n t e r n a t i o n a lj o u r n a lo f g e n e r a ls y s t e m 、中国数学年报等期刊上,主要代表著作为a c t u a r i a l s c 挺狮c e 一劝e o a n d m e t h o d o l o g y ( 2 0 0 6 ,高等教育出版社) 。从2 0 0 5 年开始, 我们从均匀扩散转向非均匀扩散的研究。首先应用非均匀信息扩散方法成功解决了 一维小样本问题,相关论文a n a l y s i so fs m a l l - s a m p l ei n f o r m a t i o ni ni n s u r a n c e 发 表在第1 0 属a p r l a ( 东京2 0 0 6 7 ) 上。 1 3 课题介绍 第一个课题名为“富裕性疾病的统计分析及其在保险中的应用,由复旦大学、 薪华医院等单位合作,美国大都会人寿保险总公司赞助。数据来源于上海市延吉社 区从1 9 9 7 年开始实施的一项富裕性疾病( 高血压,糖尿病,冠心病,高血脂,肥胖 症) 普查。这项调查在该社区全体1 6 岁以上常住户口居民中进行,历时约年半。 调查所得到的数据库中共有1 8 5 2 7 条记录,其中共有包括身体基本素质( 年龄,身 2 上海大学獗学位论文 高,体重等),高血压病,冠心病,离血脂等疾病的有关情况。 我们重点研究其中翡高血压疾病,选取年龄,b l d i ( b o d ym a s si n d e x ,其是世 界雎组织) 雳来渊嘴的参考僦其公姚脚= 器) 作为风险因素,研究二维情况下其对高血压患病率的影响。 第二个课题名为“上海市某医院高干体检的数据分析 ,由复星大学、新华医 院等合作,复量瑞士荐保险磷究基金资助。数据包括基本情况表与体检情况表。基 本情况表共有调查记录1 9 0 6 条,内容包括性别,身高,体重,吸烟史,心血管系统、 呼吸系统、消化系统等的过往病史等。体检情况表共有调查记录8 4 2 6 条,内容包括 葡萄糖,甘油三脂,低密度脂蛋白等。 我们重点研究其中的冠心病疾病,选取t g ( 甘油三脂) 、l d l ( 低密度脂蹑白) 和g l u ( 葡萄糖) 作为风险因素,研究三维情况下其对冠心病患病率的影响。 1 4 本文工作 2 0 0 5 年起我们从扩散方程出发,进行了从机理、模型、方程的数值解到建立优 化模型等一系列研究,并应用到上述的两个实际课题中去,结果是理想的。 本文主要作了以下工作: 1 、在均匀信息扩散与维非均匀扩散所做工作基础上,本文对高维的非均匀扩散的 情况进行研究。首先,本文从高维扩散方程出发,考虑当扩散系数为一与浓度有关 的函数( 均匀扩散的情况下扩散系数为常数) ,推导得到高维的非均匀信息扩散方 程。随后,基于数学软件m a t l a b 这个平台,利用m a c c o r m a c k 数值计算方法对二维非 均匀信息扩散方程进行求解,再根据小样本扩散的两个准则( “最小波动准则 和 “有限偏离度准则) 进一步得到最优的扩散解。 2 、将非均匀信息扩散方法应用到实际项目中。 ( 1 ) 将非均匀信息扩散方法应用到二维小样本,研究高血压患病率与两种风险因素 ( 年龄,b m i ) 之间的关系。具体研究方法是:以项目原始数据终为大样本,以核估 计方法处理后豹大样本信息作为客观近似标准,利用非均匀信息扩教方法,对二维 3 上海大学硕士学位论文 隧机抽样小样本进行研究,并与近似的大样本客观标准僮进行比对,结果表明这种 方法在处理二维的小样本闯题时是有效的且可行的,所得到的最优扩散值结果与大 样本是吻合的。 ( 2 ) 将非均匀信息扩散拓展到高维( 三维) 的情况,对冠一t l , 病患病率与三种风险因 素t g ( 甘油三脂) ,l d l ( 低密度脂蛋白) 和g l u ( 葡萄糖) 之间的关系进行研 究。在缺少大样本的情况下,将去除问题记录后的所有1 6 3 3 条数据全部作为三维小 样本,用均匀扩散方法、优化豹均匀扩散方法、非均匀扩教方法分剔对小样本进行 处理,将结果进行互相毖对验证。结果表明非均匀扩散结果与均匀扩散、优化均匀 扩散的结果是基本一致的。 ( 3 ) 探讨小样本点数波动对风险分析造成的影响。仍以患病率估计的实际应用项目 为例,本文从两方面进行了探索:1 从理论上推导小样本点数波动与患病率估计的 期望与方差的关系;2 对理论推导的结论进行数值验证。值得提出的是,这项工作 是我们首先提出的,在国内至今未见有其她入傲过。2 0 0 7 年6 胃我们在北师大进行 学术交流时,黄崇福教授也十分推崇我们的工作。 本文所涉及到的数学范畴有数理方程、模糊数学技术、信息扩散理论、数值计 算方法和最优化技术等。数值计算的编程主要是基于数学软件m a t l a b 这个平台, 另有部分在e x c e l 界丽下完成。 4 上海大学矮学像论文 第2 章数学方法与数学模型 2 1 信息扩散原理 1 9 2 5 年,在f i s h e r 的评估理论著作中,信息作为一种技术第一次被提出。之后, s h a n n o n 和w i e n e r 在1 9 4 8 年分别在各自的著作中描述了信息的对数方法在传输理论 中的应用。在s h a n n o n 的论文中,他将信息的产生和传输都用数学形式进行定义,可 以量化,并在此基础上推导帮证明了著名的“s h a n n o n 信息理论。壶于在该理论中 所指的“信息”并不要求具备人们理解所需要的所有讯息,所以我们可以将此“信 息”著作为“不确定信息”。而这个定理的产生正是基于这样的个客观事实:世 枣难料。打个比方,空中的一架飞机,我们看不到它,但通过使用雷达,我们便 可以探测到它的外形与状态。这一系列的雷达图像就是信息。此时,信息是一种能 将监测飞机的速度、几何形状等等信息编码转化成物体形象传达给接收者的技术。 如采人们所感受的信息不能够清楚地反映客观事物的存在方式或运动状态,这种信 息就目q 模糊信息。1 9 6 5 年,z a d e h 提出模糊集理论。模糊集理论帮助人们认识到,用 人为滚晰化的方法会丢失一些信息,不利于人们对客观事物的认识,而用模糊集方 法处理模糊信息,更为合理。模糊信息优化处理的对象是不完备信息,主要是小样 本信息( 仅仅依靠它们,我们不可能清楚地认识有关的统计规律) ,主要的依据是 信息扩教原理。 信息扩教原理及图示 设震是空间ucx 上的一个关系,令a = 蕞石陋= l ,2 ,靠) 是一可估计关系 炎的样本。当且仪当爿中的样本数玎太少以至于不能提供足够的糙确度来估计震, 此时的么称为小样本。当且仅当通过彳的任何算法不可能找到一个估计爻使得 晨= r ,此时的样本么称为是不完备的。因此可知,小样本是不完备的。 如果直接使用给定样本点集a = x k x l k = l ,2 ,1 ) 去估计关系疋,称为非扩散 估计。如果使用由非平凡信息扩散函数得到的模糊样本集a ( u ,) 去估计关系r , 称为扩散估计。 上海大学硕士学位论文 信息扩散原理令么= 稚x 降= l ,2 ,玎 是一可用来在空间u 中估计关系灭 的给定样本。设y 是一个合理算法,z 如,豁) 是对应的特征函数,得到r 的一个非扩 散信计: j l ( 芦,- ) = y ( z 薯,甜) ) | g 么,ueu 当且仅当么是不完备对,一定存在一个适当的扩教函数( 鼍,材) 改变么成为一个 模糊集a ( u ,u ) ,相应地可找到一个算法y 得到贝的一个扩散估计; 爰( ,么( ,u ) ) = ,( ( t ,甜) ) i t 爿,ueu 使待扩散估计晨与实关系足之间的距离小于非扩散估计爻与实关系r 之间的距 离,即: l i r - j i 9 昂) ,则称垦主堕为夕相对于d 的可减少误差。 , 2 2 扩散方程的推导 扩散方程的导出与我们所学过的热传导方程的导出极为类似。下边我们用分予 扩散过程来模拟信息扩散的过程。一般地,我们在三维空间对扩散方程进行推导。 根据物理学中的扩散定律和质量守恒定律: 咖= 一d ( x , y , z ) 娑d s d t ff cd 铷= 缈m 舭咿脚舭t , ) a x a y d z 设n ( x ,y ,z ,f ) 表示表示在位置( z ,y ,:) 及时刻,扩散物质的浓度,d m 表示在无穷 7 上海大学硕士学位论文 小时段d t 内沿法线方向两,经过一个无穷小面积d s 的扩散物质的质量,式中 移( x ,歹,z ) 称为扩散系数,式中的负号表示物质豹扩数方向总是由浓度高处往浓度低 处扩散。 得到扩散方程 i o n :0d i o n ) + 烈0d i o n ) + 曩0d i o n ) ( 1 ) 劣苏、苏却却7 玉龙7 ”7 ( 1 ) 式称为非均匀的各网i 司性体的扩敖方程。 若各方向扩散效果不同,扩散系数分别为或,q ,见,则得到 百o n = 麟o ( d , , o 劣n - ) i d yo n - ) + 瓦0 【也i o n 4 - )一= - i - i 丰一f ,j l 魂麟懿。 1 8 z ”2 娩 与( 1 ) 类似,将 占 或 模型二( 使吻合度c ( 力) 最大 1 0 上海大学硕士学位论文 m a x e ( 五) s t ,( a ) x :步长h l ,等距划分,等分 y :步长魏2 ,等距划分,等分 t :步长f ,等距划分s 等分 在初始时刻f = 0 时,用n u o 表示五= 扛口,y ,= h :o j 处的浓度。 设时间方向扩散至第j 步时薯= 腰,y ,= 红町处的浓度为蟛,利用m a c c o r m a c k 格式,递推可以得到扩散第s + l 步时t = 巍口,乃= 町处的浓度m ;1 。 m a c c o r m a c k 方法分成预测步和校正步,将其应用到具体二维非均匀扩散方程( 5 ) 中 去,差分格式如下: 预测步: 警吨 幸c 2 吒帆,+ 嘉c 2 + c 半ne 半,2 蟊富岷+ 母 校正步: 掣= 税幸c 就:一2 或;1 十张+ 专c 躲,一2 砣1 + 叠如 + c 亟专盟) 2 + c 煎专盟,2 翌咖:三f 翌+ 翌- s + l1 d t 2 l - a ta t _ j 咐巩+ 警a n s , i 鼬r 将该数值解作为扩散函数,即小样本信息在空间中非均匀地进行扩散,得到扩散估 计,我们称此方法为非均匀信息扩散方法g i d m ( g e n e r a li n f o r m a t i o nd i f f u s i o n m e t h o d ) ,特别地,当扩散系数为常数时,即为均匀信息扩散方法。 上海大学硕士学键论文 2 4 3 非均匀扩散方法实施步骤 样本点集= 彬= ( 以n ,彬 ,w 7 ) ,i = 1 ,2 ,撑 控制点集矿= v j2 ( 哆,v ;舶,t 一) ,= 1 ,2 ,m 菲均匀扩散函数扩教了露个时间步长,即当f ;r k 时,记此时控制点从样本 点w 处得到的信息量为材( _ ,m ) 。 矿心2 善材巧,m 为f 。m 时控制点_ 从所有样本点得到的信息量之和。 根据以上方法,在下文的实际项目中,可以得到f = 七宰f 时控制点从所有患病 样本点得到的信息量之和( 匕) ,以及从所有健康者样本点得到的信息量之和 “:( ) a 于是,得到在f = j | 木r 时,控制点处患病率( p r h ) : 咿搞 2 4 4 优化准则在菲均匀扩散模型中的运用 信息扩散的性质不仅依赖于给定的样本,也与扩散的时间f 有密切的关系。当 时间步长f 给定时,即与步数k 的选择有关。随着步数七的变化,从几何上讲会辱l 起 曲线或益面的波动的增加或减小,因此通过优化扩教的时间f ( 步数露) ,对扩散函 数进行改进,这也是本文一个重要工作之一。其原则是既要从一定程度上反映给定 样本的性质,同时又希望曲线或曲面的波动性尽量的小。为此,要将复旦大学尚汉 冀教授提出的两个优化判别准则运用到非均匀扩散模型中: 根据最小波动准则,信息扩散函数参数的选择应该使患病率曲线( 面) 波动最小。 对二维问题,第k 步扩散结果的波动性为: ,= rf ( ( 筘 2 + ( 筘m ” 1 4 上海大学硕士学位论文 根据有限偏离度准员4 ,信息扩教所得到的患病率偏离给定样本不远。 当偏离度最小时,我们可以理解为信息扩教所得到的患病率与给定样本点之闯的吻 念度最大。 对二维问题,第七步扩散结果的吻合度为: 叫,= 卉钾= 一 其中只表示原始小样本在给定子域q ,上的患病率,。表示经过信息扩散七步后, 褥到的在给定予域q ,上的患病率。 则建立离散的非均匀信息扩散的优化参数模型: 其中层为吻合度指标 m i n f ( 七) s j e ( 露) 若 上海大学矮士学位论文 3 。王二维 3 1 1 数据库 第3 章实际项目 二维问题本文所用数据库来源于上海市某社区从1 9 9 7 年开始实施的一项富裕 性疾病普查,1 8 6 2 7 条记录数据,重点研究其中的高血压疾病。经相关性分析,发 j 2 现年龄和b m i 是影响高血珏疾病的主要因素,用元检验其互相独立性值为 1 1 8 e - 0 5 ,完全独立,故不会相瓦影响。选取年龄和b m i 作为风险因素,研究其对 高血压患病率的影响。 3 1 。2 大样本标准与小样本的选取 挑选年龄在3 0 至7 4 ,b m i 在1 8 至2 7 的1 5 8 4 7 条数据,共4 5 1 0 = 4 5 0 个控制 点。对大样本各控制点上的样本数作统计,如下: 表一:各控制点大样本数统计 3 03 l 3 23 33 4 3 53 63 73 8 3 94 0 6 97 07 l7 27 37 4 秘 41 681 31 43 02 33 02 42 84 091 97322 麴 1 9l o1 l2 33 24 84 74 84 36 16 91 61 91 51 51 09 韵1 42 02 84 06 07 27 78 59 01 2 41 1 83 63 23 l2 52 l1 9 纛 2 12 03 43 96 96 3 7 69 58 31 1 21 1 54 92 73 24 22 2 2 2 笼1 52 42 64 36 86 08 79 9 1 0 61 3 21 4 45 94 25 03 83 0 3 9 怒 91 71 92 84 64 7 5 67 28 79 21 1 53 44 23 l3 72 53 l 黪 791 492 33 53 04 85 86 66 64 83 32 74 22 31 9 黟l5771 61 71 91 62 92 44 02 51 71 92 l1 31 2 筠 2 7l 4886l ll l1 8 2 4 2 l 1 59l l2 8 彰 o0224748 1 2 69 1 41 3 71 0 83 即使是大样本,某些控制点数据量仍过少,如果用频率统计计算,得到的结果 振荡很厉害,如图二,且有缺失点,晁然是不确切的。本文用大样本核估计方法得 到各控制点的患病率,将其作为标准更准确。大样本核估计p r h 曲面图显然更光滑, 1 6 l * 大 论立 如图二 图:大样本患病罩曲面( 每点频率统计 圈三:大杆木患病率曲面( 核估训) t 海太学# 位姥女 将年龄风险因素划分予区域: 3 0 ,3 3 ) , 3 3 ,3 6 ) ,【7 2 ,7 4 】,则大样本区域被划分 成1 5 x 1 0 个子区域,在每个子城抽取2 个点t 共3 0 0 个点,远小于大样本数1 5 8 4 7 条,可作为小样本。该小样本用频率统计计算患痛牵如图四。 图四:小样本频率统计患病率 3 1 3 二维非均匀信息扩散方法 ,洲啪信息扩散方程詈讲譬剖悖弩 斯信息獭 首先网格破分:取爿方向步长l ,等距划分9 l 等分;取r 方向步长i ,等距划 分2 3 等分:取t 方向步长o o l 。用m a c c o r m a c k 格式扩散1 0 0 0 , 步 第k 步波动性 = r r f ( 筘) 2 + ( 籍m m 川” 。擎鄯。: * # ¥位论文 ( p ,- ) 叩2 匿寺忑了下 根据模型求最优解 r a i n f r n s , l c 他1 e 当取s :0 4 2 时,得到最优解 = 4 8 9 ,即当r = f + 女= 0 0 1 * 4 8 9 = 48 9 时的扩散结果 最符合给定的要求。此时f ( 4 8 9 ) = o0 0 1 9 0 5 】。得到的患病率曲面图如图五。 瞽 候 鼬 图五:优化的小样本患病率喵面图( 非均匀扩散) 3 l 4 项目误差分析 ( i ) 绝对误差( a b s o l u t e e r r o r ) 绝对误差a e 刊,r其中,是最优扩散时各控制点的患病率,胄是作为标 期引斟。 准的大样本核估计得到的各控制点的患病率,画出a e 等高线图如下: 图六:优他的小样本扩教( g 王溅) 误差等高线豳 寝- - 绝对误差( a e ) 统计明细表 绝对误蓑值( a e )在4 5 0 个控制点中的个数个数4 5 0 0 2 1 0 99 2 4 2 2 2 4 9 60 2 1 3 3 4 巧9 5o 2 l l l 6 一8 6 5 o 1 4 4 4 8 一1 0 2 8 0 0 6 2 2 1 0 1 2 1 50 0 3 3 3 1 2 扣l4 1 30 0 4 0 0 1 4 1 6 ll 0 0 2 4 4 1 6 1 8 0 o 1 8 oo 从表二可见有8 1 。1 的绝对误差均小于8 。 ( 2 ) 可减少误差( r e d u c i b l ee r r o r ) 2 0 上海大学矮学位论文 本项目中,将大样本核统计得到的各控制点患病率作为标准,小样本频率统计、 小样本j 均匀扩散分别与之比较,结果如下 表三:t s b l 和u i d m 的绝对误差总和、可减少误差统计 方法4 5 0 个控制点绝对误差( a e ) 总和可减少误差( r e ) 小样本频率统计( t s m ) p r s m = 8 0 0 4 9 小样本菲均匀扩散( u i d m ) 仇h d m = 2 3 1 7 2 7 l 。0 5 3 显然小样本菲均匀扩散的计算结果更精确。槌较子频率统计,小样本菲均匀扩 敖误差大大降低,减少误差7 1 。0 5 3 。且其所做的患病率曲线更加地光滑,与给定 样本的偏离度也更低。 3 。2 三维 3 2 1 数据库 三维问题中本文所用数据库是一组新华医院高干体检数据,包括基本情况表与 体检情况表,重点研究冠心病疾病,选取t g ( 甘油三脂) ,l d l ( 低密度脂蛋白) 和 g l u ( 葡萄糖) 作为风险因素,研究其对冠心病患病率的影响。 3 2 2 项目实施 将基本情况表与体检情况表进行归并,势去除疑问数据后的所有1 6 3 3 条数据作 为小样本。 由于缺少大样本仅有小样本,故分别用三维均匀扩散方法( i d m ) ,优化的均匀 扩散方法( o i d m ) 和非均匀扩散方法( g i d m ) 作扩散,进行相互比对验证。 将每个风险因素划分子区域如下: t g :,一o 5 ,【o 5 ,1 5 ) ,【l 。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论