




已阅读5页,还剩61页未读, 继续免费阅读
(计算机应用技术专业论文)基于商空间的气象数据挖掘研究.pdf.pdf 免费下载
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
安徽大学2 0 0 7 届硕士学位论文摘要 摘要 数据挖掘,是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数 据中,提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的 过程。目前对于数据挖掘技术的研究越来越多,并且已在多个领域中应用,其应 用范围涉及银行、电信、保险、交通等诸多领域。分类和预测是数据挖掘领域中 两种重要的数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数 据趋势。本文将分类和预测等数据挖掘方法应用于农作物的产量预测,是对气象 数据进行数据挖掘的应用和研究。预测农作物产量的变化对政策宏观调控和区域 结构调整都有着十分重要的意义。 为了更加有效的进行气象数据挖掘,本文引入了商空间粒度计算理论、灰色 模型、构造性机器学习算法等。粒度计算理论是信息处理的一种新的概念和计算 范式,覆盖了所有有关粒度的理论、方法、技术和工具的研究,现已成为人工智 能领域研究的热点之一。目前国际上三大粒度计算模型为模糊集、粗糙集以及商 空间理论。商空间理论模型是由张铃、张钹教授提出的,该理论使用粒度的观点 分析描述世界,从不同粒度层次对事物进行分析使认识更加全面合理,而且可以 降低问题的计算复杂性。例如启发式搜索、路径规划等问题的应用实例都反映了 该理论框架的实际应用价值。灰色系统预测模型是通过时序数据累加生成的模块 建立起来的,滤去原始序列中可能混入的随机量,从上下波动的时间序列中寻找 某种隐含的规律性,得到随机性弱化而规律性强化了的新数列,挖掘出原始序列 的内在特征。而构造性机器学习方法,其主要特点是对给定的具体的数据处理过 程中,同时给出网络的结构和参数。即所得到的结构是在处理数据过程中逐步构 造的,而不是在学习之前事先给定的。 本文的主要工作: ( 1 ) 概述了粒度计算理论的发展和基本模型,重点介绍了商空间粒度计算 理论框架及构造性机器学习算法( 覆盖算法) 。 ( 2 ) 研究了气象数据挖掘( 农作物产量预测) 的几种主要模型的原理和实 现,并且针对农作物产量预测的特点,由基本单产预测模型,农作物的产量可以 分解为趋势产量和气象产量,趋势产量可以反映社会生产力因素对农作物产量的 安徽大学2 0 0 7 届硕士学位论文摘要 作用,而气象产量则是反映气象变化对农作物产量的影响,通过二者的结合能够 更好的进行产量预测,提高预测的准确率,因此本文重点研究了针对趋势产量和 气象产量的不同组合模型。 ( 3 ) 针对当前预测模型的不足,采用了一种新的气象数据挖掘组合模型, 即首先采用张铃教授提出商空间粒度计算模型对气象数据( 光、温、水等气象因 子) 进行分层次的多粒度分析,构造气象产量预测的商空间模型,利用商空间理 论中的性质及定义,对分层后不同粒度的复杂气象特征时间序列进行集成,使气 象数据的特征更为明确,以更好的进行机器学习。对于趋势产量的预测,文中采 用的是灰色模型g m ( 1 ,1 ) ,而气象产量的预测则是构造性机器学习方法( 覆盖算 法) ,通过二者的结合能够取长补短提高作物的产量预测准确率。 ( 4 ) 通过对于安徽省五个具体地区的冬小麦产量预测试验,可以分析出基 于商空间的组合模型具有更好的预测效果。 本文研究的产量预测模型是气象数据挖掘的重要研究领域之一,同时 也是数据挖掘中分类预测方法的一个典型应用,而且为商空间粒度计算理 论在不同领域中的应用提供了新的参考。其基本思路和具体设计也可扩展 到其他领域类似的应用中,具有较好的应用前景。 关键词:数据挖掘;产量预测;商空间;灰色模型;构造性机器学习算法 安徽大学2 0 0 7 届硕士学位论文 a b s t r a c t a b s t r a c t d a t am i n i n gi sac o u r s ef o rm i n i n gl a t e n t ,u n k n o w nb u tu s e f u lk n o w l e d g ea n d i n f o r m a t i o nf r o mp r a c t i c a ld a t aw h i c hi s p l e n t i f u l ,i n c o m p l e t e ,n o i s y f u z z ya n d s t o c h a s t i c n o w a d a y s ,t h et e c h n o l o g i e so fd a t am i n i n ga r er e s e a r c h e da n da p p l i e dt o m a n yf e l d si n c l u d i n gb a n k , t e l e e o m ,i n s u r a n c e ,t r a f f i ca n ds oo n c l a s s i f i c a t i o na n d p r e d i c t i o na r et w ok i n do fi m p o r t a n tf o r m sf o rd a t aa n a l y s i sw h i c h c a l lb eu s e df o r c o n s t r u c t i n gm o d e lt h a tc a nd e s c r i b et h ei m p o r t a n td a t ac l a s so rf o r e c a s t i n gt h ed a t a t r e n di nf u t u r e c l a s s i f i c a t i o na n dp r e d i c t i o na t ea d o p t e df o rc r o py i e l df o r e c a s tw h i c h i st h er e s e a r c ha n da p p l i c a t i o ni nt h ef i e l do fm e t e o r o l o g i c a ld a t am i n i n g c r o py i e d f o r e c a s th a si m p o r t a n tm e a n i n gf o rl n a c r oc o n t r o lp o l i c ea n di n f l u e n c ei nr e g i o n a l s t r u c t u r e f o rm o r ee f f e c t i v em e t e o r o l o g i c a ld a t am i n i n g , t h i st h e s i si n t r o d u c e st h eq u o t i e n t s p a c eg r a n u l a rc o m p u t i n gt h e o r y 、g r e ym o d e l 、s t r u c t u r a lm a c h i n el e a r n i n ga l g o r i t h m a n ds oo n g r a n u l a rc o m p u t i n gt h e o r yi san e wc o n c e p ta n dp a r a d i g mf o ri n f o r m a t i o n p r o c e s s i n g j u s t a sag r e a tu m b r e l l a , i tc o v e r sa l lr e s e a r c h e so nt h e o r i e s , m e t h o d o l o g i e s ,t e c h n i q u e s ,a n dt o o l st h a tm a k eu s eo fg r a n u l e s ,w h i c hh a sb e , c o m e o n eo ft h em a i ns t u d ys t r e a mi na r t i f i c a li n t e l l i g e n c e n o w a d a y s ,t h r e em a i ng r a n u l a r c o m p u t i n gm o d e l sa r ef u z z ys e tt h e o r y , r o l l g hs e tt h e o r ya n dq u o t i e n ts p a c et h e o r y q u o t i e n ts p a c et h e o r yi si n t r o d u c e db yp r o f e s s o rz h a n gl i n ga n dp r o f e s s o rz h a n gb o t h i st h e o r yu s e sg r a n u l a rv i e wt oa n a l y z ea n dd e s c r i b et h ew o r l d t oa n a l y z et h e w o r l df r o md i f f e r e n tg r a n u l a rl e v e l si sag o o dw a yt or e c o g n i z et h i n g sm o r e c o m p r e h e n s i v ea n dr e a s o n a b l e ,a n di tc a nr e d u c et h ec o m p u t a t i o n a lc o m p l e x i t y f o r e x a m p l e ,t h ea p p l i c a t i o ni nt h ef i e l do fh e u r i s t i cs e a r c ha n dp a t hp l a n n i n gs h o wi t s v a l u ef o rp r a c t i c a l i t y g r e ys y s t e mm o d e li sf o r m e db ya c c u m u l a t e dt e m p o r a ld a t a s e r i e sa n df i l t e r sp r o b a b l es t o c h a s t i cd a t af r o mo r i g i n a ld a t a i tc a nf i n dc o n n o t a t i v e r u l ef r o mt e m p o r a ld a t as e r i e sa n dg a i nl e s ss t o c h a s t i cb u tm o r ed i s c i p l i n a r i a nd a t a s e r i e st om i n ei n h e r e n c ec h a r a c t e r t h em a i nc h a r a c t e ro fs t r u c t u r a lm a c h i n el e a r n i n g i st h a ti t sn e ts t r u c t u r ea n dp a r a m e t e rs h o u l db ec o n s t r u c t e db yp r o c e s s i n gp r a c t i c a l i i i 塞丝盔兰! 塑:旦塑主兰堡堡塞垒生型 d a t a t h a ti st os a yt h a tt h en e ts t r u c t u r ea n dp a r a m e t e ri sn o tp r e a r r a n g e db u tb y p r o c e s s i n gd a t a t h ep r i m a r yw o r ko ft h et h e s i si sl i s t e db e l o w : ( 1 ) t h i st h e s i ss u m m a r i z e st h ed e v e l o p m e n to fg r a n u l a rc o m p u t i n ga tf i r s t t h e ni t l a y ss t r e s so nt h ei n t r o d u c t i o no ft h eq u o t i e n ts p a c et h e o r ya n dt h es t r u c t u r a l m a c h i n el e a r n i n ga l g o r i t h m ( c o v e r i n ga l g o r i t h m ) ( 2 ) t h ep r i n c i p l ea n dr e a l i z a t i o no fs e v e r a lm o d e l sf o rm e t e o r o l o g i c a ld a t am i n i n g ( c r o py i e l df o r e c a s t ) i si n t r o d u c e d f o rt h ec h a r a c t e ro fc r o py i e l df o r e c a s t , w i t h t h eb a s i cf o r m u l af o ry i e l dp e ru n i tf o r e c a s t , c r o py i e l dc a nb cd i v i d e di n t of i e n d y i e l da n dm e t e o r o l o g i c a ly i e l d t h et r e n dy i e l dc a l lr e f l e c tt h ef a c t o ro fs o c i a l p r o d u c t i v ef o r c e a n dt h e m e t e o r o l o g i c a ly i e l dc 蛆r e f l e c ti n f l u e n c e b y m e t e o r o l o g i c a lf a c t o r b yt h ec o m b i n a t i o no ft h et w ok i n d so fy i e l d , t h ec r o p f o r e c a s tw o u l db cm o r er e a s o n a b l ea n de x a c t s ot h i st h e s i sl a y ss t r e s s o nt h e i n t r o d u c t i o no fd i f f e r e n tc o m p o s i t i v em o d e l s ( 3 ) f o rt h es h o r t a g eo ft h ep r e s e n tm o d e l s ,t h i st h e s i si n t r o d u c e sai l e wk i n do fm o d e l f o rm e t e o r o l o g i c a ld a t am i n i n g f i r s t l y , g r a n u l a rc o m p u t i n g t h e o r ym o d e lw h i c hi s i n t r o d u c e d b yp r o f e s s o rz h a n gi sa d o p t e dt oa n a l y z et h em e t e o r o l o g i c a ld a t a ( s u n l i g h t ,m e a nt e m p e r a t u r e ,p r e c i p i t a t i o n ) f r o md i f f e r e n tg r a n u l a rl a y e r s b yt h e p r o p e r t ya n dd e f i n i t i o n i n q u o t i e n ts p a c ec o m p u t i n gm o d e l ,t h ec o m p l e x m e t e o r o l o g i c a ld a t af r o md i f f e r e n tg r a n u l a rl a y e r sa r ei n t e g r a t e d ,w h i c hc a nm a k e t h ec h a r a c t e ro fm e t e o r o l o g i c a ld a t am o r ec l e a rt os a t i s f yt h em a c h i n el e a r n i n g f o rt h et r e n dy i e l df o r e c a s t , t h i st h e s i sa d o p t st h e g r e ym o d e lg m ( 1 ,1 ) b u tf o r t h em e t e o r o l o g i c a ly i e l df o r e c a s t ,t h i st h e s i su s e ss t r u c t u r a lm a c h i n el e a r n i n g ( c o v e r i n ga l g o r i t h m ) b yt h ec o m b i n a t i o no ft w oa l g o r i t h m s ,t h ev e r a c i t yo f p r e d i c t i o nw o u l d b ci m p r o v e d ( 4 ) b y t h ee x p e r i m e n to f c r o py i e l df o r e c a s tf o rf i v ed i s t r i c t si na n h u ip r o v i n c e i tc a l l b ea n a l y z e dt h a tt h ev e r a c i t yo ft h em o d e lb a s e do nq u o t i e n ts p a c et h e o r yi sb e t t e r t h a no t h e rm o d e l s t h e c r o py i e l df o r e c a s ti nt h i st h e s i si sa l li m p o r t a n tf i e l do fm e t e o r o l o g i c a ld a t a m i n i n ga n di ti sat y p i c a la p p l i c a t i o no fc l a s s i f i c a t i o na n dp r e d i c t i o na l g o r i t h m s i t i v 安徽大学2 0 0 7 届硕士学位论文a b s t r a c l m a yb ean c wr e f e r r e n c zf o ra p p l i c a t i o ni n d i f f e r e n tf i e l d sw i t h q u o t i e n ts p a c e c o m p u t i n gm o d e l i t sg e n e r a li d e a sa n dd e t a i ld e s i g nc a nb ee x p a n d e d t oo t h e r a p p l i c a t i o na r e a sw i t ht h es i m i l a rt a s k so fc l a s s i f y i n g , a n d i th a sap r o s p e r o u sf u t u r e k e yw o r d s :d a t am i n i n g ;y i e l df o r e c a s t ;q u o t i e n ts p a c e ;g r e ym o d e l ;s t r u c t u r a l m a c h i n el e a r n i n ga l g o r i t h m v 独创性声明 本人声明所呈交的学位论文是本人在导师指导下进行的研究工作及取得的 研究成果。据我所知,除了文中特别加以标注和致谢的地方外,论文中不包含其 他人已经发表或撰写过的研究成果,也不包含为获得安徽大学或其他教育机 构的学位或证书而使用过的材料。与我一同_ y - 作的同志对本研究所做的任何贡献 均已在论文中作了明确的说明并表示谢意。 学位论文作者签名: 乃柄 签字日期:2 。0 7 年4 月2 0 日 学位论文版权使用授权书 本学位论文作者完全了解安徽大学有关保留、使用学位论毒的龆定,有 权保留并向国家有关部门或机构送交论文的复印件和磁盘,允许论文被查阅和借 阅。本人授权安徽大学可以将学位论文的全部或部分内容编入有关数据库进 行检索,可以采用影印、缩印或扫描等复制手段保存、汇编学位论文。 ( 保密的学位论文在解密后适用本授权书) 学位论文作者签名: 石 匀 导师签名: 谈毫犁 l 签字日期: 20 0 7 年4 月20 日 签字日期:2 0 0 7 年4 月2 3 日 学位论文作者毕业去向: 工作单位:电话: 通讯地址:邮编: 安徽大学2 0 0 7 届硕士学位论文第一章引论 第一章引论 1 1 研究的背景、目的及意义 随着农业市场化的不断发展,农作物品种和种植结构已有很大变化,政府、 农业生产管理部门以及广大农业生产者和涉农企业,对农业气象服务信息和产量 预测信息的要求越来越高,而安徽省现有产量预报模式仅有冬小麦、水稻( 一季 稻) 、棉花等几种作物,难以满足要求。通用模型的建立可以满足对多种农作物 产量预测的需求。 目前安徽省气象科学研究所开展的农业气象产量预报主要包括:冬小麦、油 菜、中稻、棉花、秋粮及全年粮食总产。预报方法:目前一般采用以作物统计模 型结合卫星遥感监测、苗情动态监测、实地调查以及社会经济因素和专家经验等 进行农作物单产预测,分析作物在各发育期的农业气象条件,进行农作物全生育 期农业气象条件评述,并根据省农委提供的面积资料进行农作物总产预测。 大部分作物模型是九十年代甚至是八十年代研究确定的,无论从数量上、质 量上以及针对性、准确性均已很难满足当前农业气象业务服务需求,特别是当前 各地农业结构的大幅度调整、作物品种和种植结构的变化、农业生产水平的快速 发展以及气候环境的变异,原有的农业气象服务指标以及产量预报模式已缺乏针 对性、准确性,制约了农业气象服务质量的提高和农业气象服务领域的拓展,迫 切需要更新、完善和新方法的补充。 此外,气候变化使得气候呈变暖趋势,气候极端事件增多,使产量形成的不 确定因素增加,预测难度增大,迫切需要研究新的预测方法。 因此在商空间粒度计算理论框架下,建立较为通用的预测模型,进行气象信 息的数据挖掘( 农作物产量预测) 研究,可以加强农业气象服务的针对性,增加 预测的准确度,满足更高的农业气象服务需要。通过进行较为准确的产量预测, 还可以提高农业及相关产业的生产率,增强对农业生产的指导作用。 安徽大学2 0 0 7 届硕士学位论文基于商宅问的气象数据挖掘研究 1 2 数据挖掘概述 1 2 1 数据挖掘的概念 数据挖掘,也称为数据库中的知识发珊, ( k n o w l e d g ed i s c o v e r y i nd a t a b a s e ) , 是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中,提取隐含 在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程。数据挖掘 伴随着数据仓库技术的发展而发展。数据挖掘是一门涉及面很广的交叉性新兴学 科,它涉及到数据库、人工智能、数理统计、并行计算、可视化等领域。数据挖 掘与传统分析方法( 如查询、报表、联机应用分析等) 的本质区别是,它是在没 有明确假设的前提下去挖掘信息、发现知识的。数据挖掘所得到的信息应具有先 前未知、有效和实用这三个特征。数据挖掘作为- - f l 新兴的热门技术,其应用范 围涉及银行、电信、保险、交通、零售等诸多领域,如电讯公司和信用卡公司率 先用数据挖掘检测欺诈行为,医疗部门用数据挖掘来预测外科手术、医疗实验和 药物治疗的效果。数据挖掘技术是伴随着数据仓库技术的发展而逐步完善起来 的,但是这并不意味着数据挖掘一定要基于数据仓库,但是由于数据挖掘是在集 成的、一致的、经过清理的数据上进行挖掘,这需要在数据挖掘中有一个费用昂 贵的数据清理、数据变换和数据集成过程,作为数据挖掘的预处理。而已经完成 上述工作的数据仓库,完全有能力为数据挖掘提供平台,使其免除数据准备的繁 杂过程,这可以大大节约数据挖掘的实现成本。总之,数据仓库是数据挖掘技术 一块很好的平台。根据数据仓库观点,数据挖掘可以看作联机分析处理( o l a p ) 的高级阶段。然而,通过结合更高级的数据理解技术,数据挖掘比数据仓库的汇 总型分析处理走得更远。 影响数据挖掘成功与否的因烈1 】主要有: ( 1 ) 准确的问题定义。缺少关于研究对象的背景知识就无法为数据挖掘准 备数据,无法正确解释得到的结果,定义准确的问题通常会带来最好的回报。 ( 2 ) 正确的数据。选定了你所得到的数据,需要对这些数据作有效的数据 整合和转换。如果用到的数据量不够或噪声数据太多,都会对挖掘结果产生影响。 ( 3 ) 选择正确的算法。对于一个实际的问题,需要从众多数据挖掘算法中 选择最为适合的算法,这样才能得到有效的结果。 ( 4 ) 领域专家的参与。数据挖掘只是一种进行数据分析、处理的工具。若 安徽大学2 0 0 7 届硕士学位论文第一章引论 要把数据挖掘投入实用,必须和领域专家合作。根据领域的专业知识指导数据挖 掘的过程,并对挖掘出来的知识进行评价。 目前数据挖掘技术已经获得了很大的进展,但是仍然有许多问题有待解决。 在实施数据挖掘时需要认真考虑数据挖掘的方法、用户交互、性能和各种数据类 型等问题。特别是大型数据库中有效的数据挖掘对于研究者和开发者提出了较高 的要求。常用的数据挖掘技术可以分为概率统计分析类、知识发现类和其它类型 的数据挖掘技术三大类。其中概率统计分析类使用的数据挖掘模型有线性分析和 非线性分析、回归分析和聚类分析等。利用这些技术可以检查那些异常形式的数 据,然后利用各种统计模型和数据模型解释这些数据,解释隐含在这些数据背后 的规律和信息。知识发现型数据挖掘技术是与统计类数据挖掘技术完全不同的一 种数据挖掘技术【2 】。它可以从数据仓库的大量数据中筛选信息,寻求市场可能出 现的运营模式,发现人们所不知的事实,它包括人工神经元网络、决策树、遗传 算法、租糙集、规则发现等。其它数据挖掘技术包含文本数据挖掘、w e b 数据 挖掘、分类系统、可视化系统、空间数据挖掘和分布式数据挖掘等。 另外,数据挖掘也可以被分为概率统计类数据挖掘技术和知识类数据挖掘技 术。概率统计在数据挖掘中的应用是相当成功的,如现有的挖掘技术包括回归数 据挖掘技术、聚类数据挖掘技术、b a y e s i a nn e t w o r k 等等。知识类数据挖掘技术: 在用统计分析类数据挖掘进行数据分析时,企业管理人员或管理顾问必须在分析 开始之前知道变量是什么,需要分析什么。如果他们不知道所分析的对象或对所 分析对象不清楚,就难以对数据仓库中如此众多的数据和对象采用统计类数据挖 掘技术进行分析。数据挖掘中的知识发现技术按照其不同的技术特点,可以分为 规则型知识挖掘技术、神经网络型知识挖掘技术、遗传算法型知识挖掘技术和粗 糙集数据挖掘技术。 1 2 2 分类与预测 数据库内容丰富,蕴藏大量信息,可以用来作出智能的商务决策。分类和预 测是两种数据分析形式,可以用于提取描述重要数据类的模型或预测未来的数据 趋势。然而,分类是预测分类标号( 或离散值) ,而预测建立联系值函数模型, 例如,可以建立一个分类模型,对银行贷款的安全或风险进行分类;同时可以建 立预测模型,给定潜在顾客的收入和职业,预测他们在计算机设备上的花费。许 3 安徽大学2 0 0 7 届硕士学位论文基于商空间的气象数据挖掘研究 多分类和预测方法已被机器学习、专家系统、统计学和神经生物学方面的研究者 提出。大部分算法是内存驻留算法,通常假定数据量很小。最近的数据库挖掘研 究建立在这些工作之上,开发了可伸缩的分类和预测技术,能够处理大量的、驻 留磁盘的数据。这些技术通常考虑并行和分布式处理【l 】o 数据分类的基本技术如判定树归纳、贝叶斯分类和贝叶斯网络、神经网络。 k 最邻近分类、基于案例的推理、遗传算法、粗糙集和模糊逻辑技术。预测方法, 包括线性、非线性的和广义线性回归模型。 数据分类是一个两步过程i “。第一步,建立一个模型,描述预定的数据类集 或概念集。通过分析有属性描述的数据库元组来构造模型。假定每个元组属于一 个预定义的类,有一个称作类标号属性( c l a s sl a b e la t t r i b u t e ) 的属性确定。对于分 类,数据元组也称作样本、实例或对象。为建立模型而被分析的数据元组形成训 练数据集。训练数据集中的单个元组称作训练样本,并随机地由样本群选取。由 于提供了每个训练样本的类标号,该步也称作有指导的学习( 即模型的学习在被 告知每个训练样本属于哪个类的“指导”下进行) 。它不同于无指导的学习( 或 聚类) ,那里每个训练样本的类标号是未知的,要学习的类集合或数量也可能事 先不知道。通常,学习模型用分类规则、判定树或数学公式的形式提供。例如, 给定一个客户信用信息的数据库,可以学习分类规则,根据他们的信誉优良或相 当好来识别顾客。这些规则可以用来为以后的数据样本分类,也能对数据库的内 容提供更好的理解。第二步,使用模型进行分类。首先评估模型( 分类法) 的预 测准确率。模型在给定测试集上的准确率是正确被模型分类的测试样本的百分 比。对于每个测试样本,将已知的类标号与该样本的学习模型类预测比较。如果 认为模型的准确率可以接受,就可以用它对类标号未知的元组或对象进行分类。 例如,通过分析现有顾客数据学习得到的分类规则可以用来预测新的或未来顾客 的信誉度。 预测是构造和使用模型评估无标号样本类,或评估给定样本可能具有的属性 值或值区间。在这种观点下,分类和回归是两类主要预测问题,其中分类是预测 离散或标称值,而回归用于预测连续或有序值。分类和预测具有广泛的应用,包 括信誉证实、医疗诊断、性能预测和选择购物。 分类和预测的预处理问题【”。可以对数据使用下面的预处理,以便提高分类 4 安徽大学2 0 0 7 届硕士学位论文第一章引论 和预测过程的准确性、有效性和可伸缩性。 数据清理:是旨在消除或减少数据噪声( 例如使用平滑技术) 和处理空缺值 ( 例如,用该属性最常出现的值,或根据统计,用最可能的值替换空缺值) 的数 据预处理。尽管大部分分类算法都有处理噪声和空缺值的机制,但该步骤有助于 减少学习时的混乱。 相关性分析:数据中许多属性可能与分类和预测任务不相关。例如,记录银 行贷款申请是星期几提出的数据可能与申请的成功不相关。此外,其他属性可能 是冗余的属性。在机器学习中,这一过程称为特征选择。包含这些属性将减慢和 可能误导学习步骤。在理想情况下,用在相关性分析上的时间,加上从“压缩的” 特性子集上学习的时间,应当少于由原来的数据集合上学习所花的时间。因此, 这种分析可以帮助提高分类的有效性和可伸缩性。 数据变换:数据可以概化到较高层概念。概念分层可以用于此目的。对于连 续值属性,这一步非常有用。例如,属性i n c o m e 的数字值可以概化为离散的区 间,如l o w , m e d i u m 和h i g i l 。类似地,标称值,如s t r e e t ,可以概化到高层概念, 如c i t y 。由于概化压缩了原来的训练数据,学习时的输入,输出操作将减少。数据 也可以规范化,特别是在学习阶段使用神经网络或涉及距离度量的方法时。规范 化涉及将给定属性的所有值按比例缩放,使得它们落入较小的指定区间,如1 0 到1 0 ,或0 0 到1 o 。例如,在使用距离度量的方法中,这可以防止具有较大初 始域的属性相对于具有较小初始域的属性权重过大。 分类和预测方法可以根据下列标准进行比较和评估: ( 1 ) 预测的准确率:这涉及模型正确地预测新的或先前未见过的数据类标 号的能力。 ( 2 ) 速度:这涉及产生和使用模型的计算花费。 ( 3 ) 强壮性:这涉及给定噪声数据或具有空缺值的数据,模型正确预测的 能力。 ( 4 ) 可伸缩性:这涉及给定大量数据,有效地构造模型的能力。 ( 5 ) 可解释性:这涉及学习模型提供的理解和洞察的层次。 安徽大学2 0 0 7 届硕士学位论文基于商空间的气象数据挖掘研究 1 3 气象数据挖掘( 产量预测) 简介 1 3 1 基本单产预测模型 农作物的单产是由各种各样的因子决定的,如作物品种、耕作管理水平、施 肥水平、灌溉技术、政策措施、地形地势、土壤肥力、气象因子等。这些因子可 以概括成两类因素,一是社会经济因素,它对单产的影响是非常复杂的,但它体现 的是社会生产力水平对单产的决定作用,对单产的影响相对稳定。另一个是自然 因素。相对来说,耕地自身短期内变化较小,而气象因素,如温度、降水、日照等 却在不断变化,真正造成单产波动的主要是气象因素,于是利用气象因子与单产 建立关系就能得到很好的预测效果嗍。农业气象单产预测的基本模型是: y = y 。+ y ,( 1 1 ) 其中y 为实际产量,y 为趋势产量,是时间函数,反映了一定时期的社会生 产力发展水平对农作物产量的影响,是一个逐渐的、比较平稳的过程;y 。为气 象产量,反映了气象因素( 如光温水、大气环流、海温因子等) 对农作物产量的 影响,是不稳定的随机过程。 趋势产量和气象产量可以使用不同的预测方法。例如:1 、气象产量使用逐 步回归分析模型,趋势产量使用滑动平均( 三点平滑、五点平滑、七点平滑) 。2 、 气象产量用马尔柯夫链方法,趋势产量用灰色系统模型。 前人利用此公式对国内【4 , 5 , 6 1 、国外1 7 】各种作物的单产进行预测,达到了很高的 精度。本文提出的农作物单产预测模型也是基于此公式的基本原理实现的。 1 3 2 主要的产量预测方法 预测粮食作物产量的变化趋势对国家粮食安全、政策宏观调控和区域结构调 整有着十分重要的意义。目前国内、国际上预测作物产量较为流行的有灰色马尔 柯夫模型预测法、遥感技术预测法、统计动力学生长模拟法和系统综合因素预测 法4 种【8 , 9 , 1 0 , 1 1 l 。此外像b p 神经网络【1 3 】、混沌理论预测模型【1 2 l 、多元模糊回归 分析【1 4 1 、最优加权组合预测i 蚓等也获得了不错的预测效果。 灰色马尔柯夫模型结合灰色模型预测趋势产量和马尔柯夫模型预测气象产 量的方法,比较合理和准确m o j 。灰色系统预测是根据过去及现在已知的或非确 安徽大学2 0 0 7 届硕士学位论文第一章引论 知的信息,建立一个从过去引伸到将来的灰色模型,简称g m 模型,依此模型确 定系统未来发展变化的趋势。广泛使用的是g m ( 1 , 1 ) 模型。灰色系统预测是一 种中长期预测方法。马尔柯夫模型用概率统计的方式来预测气象产量。该模型把 气象产量随时间的变化当作随机过程来处理,并以最大转移概率预测状态,预测 总体水平提高了,但却忽略了小概率事件发生的可能性,在小概率事件发生的年 份,预测误差较大。 遥感估产具有快速、宏观、动态等优点,是大范围田面平整、种类单一的作 物长势监测和产量预测的有效手段1 1 1 l 。但遥感估产受到分辨率、时相等因素的影 响,对地形复杂、作物种类多、面积狭小的农田产量预测成本较高。 统计动力学生长模拟在区域参数化的基础上动态模拟作物生长进程,反映产 量形成机理,其预测效果受气候预测水平制约,难于及时获得大面积的各种数据, 该方法仍处于小范围实验阶段l 引,难以满足大面积较长时效的产量预测要求。 系统综合因素预测充分考虑气象条件、社会经济和科技水平等各种因素的影 响,在作物产量预测方面取得了精度高、预测时效长等成果【哪。但这种方法要求 的基础数据量大、计算复杂,难以在数据缺乏的区域普及。 1 4 本文研究的主要内容及各章节概述 本文的主要内容: 概述了粒度计算理论的发展和基本模型,重点介绍了商空间粒度计算理论框 架,研究了气象数据挖掘( 产量预测) 的几种主要模型的原理和实现,通过实验 分析了不同模型的预测效果,并针对当前预测模型的不足,采用了一种新的数据 挖掘模型,即首先通过商空间粒度计算模型对气象数据( 光、温、水等气象因子) 进行分层次的多粒度分析,构造气象产量预测的商空间模型,利用商空间中理论 中的性质、定义及多侧面递进算法的思想,对分层后的不同粒度的复杂气象特征 时间序列进行集成,使气象数据的特征更为明确,以更好的进行机器学习,由基 本单产预测模型,农作物的产量可以分解为趋势产量和气象产量,对于趋势产量 的学习,本文是采用的是灰色模型g m ( 1 ,1 ) ,而气象产量的预测采用的则是构造 性机器学习方法( 覆盖算法) ,通过二者的结合能够取长补短,提高农作物产量 预测的准确度。 总之,通过商空间粒度计算理论框架从宏观上分析海量复杂数据集( 气象数 7 安徽大学2 0 0 7 届硕士学位论文基于商空间的气象数据挖掘研究 据) ,能够降低问题的复杂度,增强预测的目的性、提高预测的准确度,给数据 挖掘带来良好的宏观指导,而灰色模型与覆盖算法组合模型在商空间构建出的数 据集合基础上,能够进行较为准确的产量预测。通过安徽省五个地区的实验测试 比较,该模型的预测效果优于其它几种组合模型。 各章节概述: 第一章介绍了本文的研究背景、目的及意义,然后对数据挖掘理论进行了 概述,并且重点介绍了本文使用到的分类与预测的理论知识。然后介绍了气象数 据挖掘中产量预测的特点,及主要的农作物产量预测方法。 第二章首先介绍了粒度计算理论的发展和主要的粒度计算模型,然后重点 介绍了商空间粒度计算理论和构造性机器学习算法( 覆盖算法) 以及二者相结合 构建出的数据挖掘模型。 第三章介绍了气象数据挖掘( 农作物产量预测) 的主要模型,包括灰色模 型g m ( 1 ,1 ) 、马尔柯夫模型、r b f 神经网络、支持向量机s v m 等及其组合模型 灰色马尔柯夫模型、灰色r b f 神经网络、g m s v m 模型,并采用了一种新的模 型即在商空间粒度计算理论框架下,g m ( 1 ,1 ) 与覆盖算法组合模型。 第四章论述了商空间粒度计算理论在气象数据信息分析中的应用,并且通 过实验,使用四种作物产量预测的组合模型对安徽省5 个地区的冬小麦产量进行 了预测。通过试验比较了灰色马尔柯夫模型、灰色r b f 神经网络模型、g m s v m 模型以及g m ( 1 ,1 ) 与覆盖算法组合模型的预测效果。 第五章对本文进行了总结和展望。 安徽大学2 0 0 7 届硕士学位论文第二章商空间粒度计算理论框架 第二章商空间粒度计算理论框架 2 1 粒度计算理论概述 粒度计算是信息处理的一种新的概念和计算范式,覆盖了所有有关粒度的理 论、方法、技术和工具的研究【1 9 1 ,现已成为人工智能领域研究的热点之一。目前 国际上三大粒度计算模型为模糊集、租糙集、以及商空间理论。 1 9 6 5 年,美国著名数学家z a d e h 提出模糊集合论,在此基础上,于1 9 7 9 年 提出的模糊信息粒度化概念,引入了元素属于给定概念( 信息粒度) 的隶属程度, 推动了了模糊逻辑理论及其应用的发展。 9 0 年代,7 a d e h 在文献【2 1 硒l 中讨论模糊信息粒度理论时,提出人类认知的3 个主要概念,即粒度( g r a n u l a t i o n ,包括将全体分解为部分) 、组织( o r g a n i z a t i o n , 包括从部分集成全体) 和因果( c a u s a t i o n ,包括因果的关联) ,并进一步提出了粒度 计算。他认为,粒度计算是一把大伞,它覆盖了所有有关粒度的理论、方法论、 技术和工具的研究。他指出,“粗略地说,粒度计算是模糊信息粒度理论的超集, 而粗糙集理论和区间计算是粒度数学的子集”。 z a d e h 的工作激起了学术界对粒度计算研究的兴趣,y y y a o 和他的合作者 对粒度计算进行了一系列的研究【1 9 , 弘嘲,并将其应用于数据挖掘等领域。其工 作要点是,用决策逻辑语言( d l - 语言) 来描述集合的粒度( 用满足公式西元素的 集合来定义等价类所( 妒) ) ,建立概念之间的i f - t h e n 关系与粒度集合之间的包含 关系的联系,并提出利用由所有划分构成的格来求解一致分类问题。这些研究为 知识挖掘提供了新的方法和角度。随后,大量的关于粒度计算研究的文献相继发 表,而且在国际上形成了专门的研究群体,定期召开关于粒度计算的国际研讨会。 波兰学者p a w l a k ! 驯提出了一个假设:人的智能( 知识) 就是一种分类的能力。 这个假设可能不是很完备但却非常精炼。在此基础上,他提出概念可以用论域中 的子集来表示。于是在论域中给定一个等价关系以后,就为论域给定了一个知识 基( ) ( r ) 。然后,讨论一个一般的概念j 如何用知识基中的知识来表示,即用知 识基中的集合的并来表示,对于那些无法用( ) ( ,r ) 中的集合的并来表示的集
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030中国半干红葡萄酒行业市场发展现状及发展趋势与投资策略研究报告
- 2025-2030中国企业大学行业现状供需分析及市场深度研究发展前景及规划可行性分析研究报告
- 2025-2030中国书架行业市场发展分析及发展前景与投资研究报告
- 2025-2030中国8K电子技术行业市场发展趋势与前景展望战略研究报告
- 2025-2030GCC国家组氨酸行业市场现状供需分析及重点企业投资评估规划分析研究报告
- 2025-2030轮胎翻新产业市场深度调研及发展趋势与投资战略研究报告
- 2025-2030屏蔽复合材料行业市场深度调研及前景趋势与投资研究报告
- 2025-2030动物用清洗剂行业发展分析及发展趋势与投资前景预测研究报告
- 2025-2030低能量饮料行业市场发展分析及前景趋势与投资战略研究报告
- 2025-2030中国酸奶市场销售渠道与投资战略规划研究报告
- 《教育心理学(第3版)》全套教学课件
- 联合体施工双方安全生产协议书范本
- 农行反洗钱与制裁合规知识竞赛考试题库大全-下(判断题)
- 24.1.4-圆周角-第1课时说课课件-
- (正式版)SH∕T 3507-2024 石油化工钢结构工程施工及验收规范
- 土石坝设计计算书
- 重庆市两江新区2023-2024学年七年级下学期期末考试语文试题
- 思念女声三部合唱简谱
- 福建省厦门市第一中学2022-2023学年八下期中考试数学试卷(解析版)
- SGT756变压器技术说明书
- 中国痔病诊疗指南(2020版)
评论
0/150
提交评论