已阅读5页,还剩49页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
摘要 随着“数字林业”发展,人们获取了大量的森林资源数据,如何从这海量的 数据中提取出有用的信息用于指导林业经营管理成为人们关注的问题。数据仓库 和数据挖掘技术能从这海量的数据中提取人们感兴趣的信息,用于指导林业的生 产。 本文根据林业管理者的需求,从分析二类调查数据的特征入手,并从概念模 型、逻辑模型、物理模型上设计了林业数据仓库。在概念模型设计中,主要进行 需求分析并创建了信息包图;在逻辑模型中,运用o l a p 知识设计多维的联机分 析的模型并在粒度设计问题上,选择了双重粒度;在物理模型设计上本文采用并 行的存储结构r a i d ( r e d u a n d a n t a r r a yo f i n e x p e n s i v ed i s k ,廉价冗余磁盘陈列) 结构和位图索引( b i t m a p ) 方法来优化性能。 在数据挖掘模型中,运用了粗糙集理论设计了立地质量评价模型和用模糊神 经网络方法实现了福建省杉木的蓄积量预测模型。在立地质量评价模型中主要运 用属性的重要度来确定各评价因子的权重,运用总分值来确定各评价等级。在福 建省杉木的蓄积量预测模型,由于b p 神经网络在大样本的学习中,速度非常慢, 为了解决该该问题,选用模糊聚类算法先对学习样本进行分类并从不同类别中选 取部分学习样本作为新的学习样本。并运用三种b p 算法( l m 优化算法、贝叶 斯正则化算法、动量梯度下降算法) 来设计该预测模型,并在m a t l a b 上实现。 最后经过比较确定福建省杉木的蓄积量预测模型为贝叶斯正则化算法,中间隐含 层的结点为1 5 。 最后,提出了二类清查数据仓库的系统结构,并指出了本文需要进一步讨论 和研究的内容。 关键词: 数据仓库o l a p 数据挖掘粗糙集模糊集神经网络 t h eb u i l d i n go ff o r e s td a t aw a r e h o u s eb a s e do hs u r v e yd a t a a b s t r a e t w i t ht h er a p i dd e v e l o p m e n to f “d i g i t a lf o r e s t ”,p e o p l eh a v ea c q u i r e dag r e a td e a l o fd a t u ma b o u tf o r e s t r yr e s o u r c e s c u r r e n t l yi th a sb e c o m eap r o b l e ma b o u th o wt o o b t a i nu s e f u li n f o r m a t i o na n dk n o w l e d g ef r o mt h o s ed a t aa n dh o w t os e r v ew e l lt ot h e f o r e s tm a n a g e m e n t d a t aw a r e h o u s ea n dd a t am i n i n gc a ne x t r a c ti n f o r m a t i o nf r o m d a t u ma n dt h e ni n s t r u c tf o r e s tp r o d u c t i o n a c c o r d i n gt o t h ef o r e s t r yg o v e r n o r sd e m a n d ,t h i sp a p e ra n a l y z e dt h e c h a r a c t e r i s t i c so fi n v e s t i g a t e df o r e s t r yi n f o r m a t i o na n dd e s i g n e dt h ef o r e s t r yd a t a w a r e h o u s eb yu s i n gc o n c e p tm o d e l ,l o g i cm o d e la n dp h y s i c a lm o d e l i nt h ec o n c e p t m o d e ld e s i g n i n g ,t h i sp a p e ra n a l y z e dt h em a n a g e r sr e q u i r e m e n ta n ds e q u e n t i a l l y m a d ei n f o r m a t i o np a c k e t s t h i sp a p e ra l s ou s e do l a pt od e s i g nl o g i cm o d e la n d o b t a i n e dd u a lg r a n u l a r i t y r a i d ( r e d u n d a n ta r r a yo fi n e x p e n s i v ed i s k ) a n db i t m a p i n d e xa r ea l s ou s e dt oo p t i m i z et h es y s t e m i np h y s i c a lm o d e ld e s i g n ,s i t eq u a l i t y e v a l u a t i o nm o d e la n dp r e d i c t e df i rs t o r a g em o d e li nf u j i a na r cp r e s e n t e di nt h ed a t a m i n i n g r o u g hs e tt h e o r yw a su s e di ns i t eq u a l i t ye v a l u a t i o n ,w i t ht h es i g n i f i c a n c e so f a t t r i b u t i o nb e i n gu s e da sf a c t o ro fw e i g h te v a l u a t i o n w ea p p l i e dt h et o t a ls c o r c p r i n c i p l et os p e c i f yd i f f e r e n ta p p r a i s a ls t a n d a r d s i no r d e rt os o l v et h ep r o b l e mo f s l o ws p e e dw h e n b pn e u r a ln e t w o r ki sg a i n i n gk n o w l e d g ei nl a r g es a m p l e ,t h em o d e l o ff i rs t o r a g ei nf u j i a nw a s d e s i g n e dw i t l lf u z z yn e u r a ln e t w o r km e t h o da n dw e r e p r o g r a m m e di nt h r e eb pa l g o r i t h ms u c ha sb a y e s i a nr e g u l a r i z a t i o nm e t h o d 、g r a d i e n t d e s c e n t 、i t l lm o m e n t u m a l g o r i t h m a n d l e v e n b e r g - m a r q u a r d to p t i m i z a t i o n a l g o r i t h mb ym a t l a bs oi tc a ns e l e c tp a r t i a ls a m p l ef r o mt h eo r i g i n a ls a m p l e sa s n e ws a m p l e sf o rs t u d y t h i sm o d e lc o n s i s t so f t r e e - h e i g h ti n d e x ,d i a m e t e r a n dd e n s i t y a f t e rm a n ye x p e r i m e n t sa n dc o m p a r i s o n s ,b a y e s i a nr e g u l a r i z a t i o n m e t h o di s c o r t f m n e da st h em o d e lf o rf i rs t o r a g eo f p r e d i c t i o ni nf u j i a np r o v i n c e ,w i t h1 5a st h e n o d ei nm i d d l et r a n s p a r e n tl a y e r a tl a s t , t h i sp a p e rp r o p o s e dt h es t r u c t u r eo ff o r e s td a t aw a r e h o u s eb a s e do n s u r v e yd a t aa n dp o i n t e do u ts o m ed i s c u s s i o nw h e r ei tm a yn e e daf u r t h e rr e s e a r c h k e yw o r d s :d a t aw a r e h o u s e ,o l a pd a t am i n i n g ,r o u g hs e t ,f u z z ys e t ,n e u r a l n e t w o r k 独创性声明 本人声明,所呈交的学位( 毕业) 论文,是本人在指导教师的指导下独立完 成的研究成果,并且是自己撰写的。尽我所知,除了文中作了标注和致谢中已作 了答谢的地方外,论文中不包含其他人发表或撰写过的研究成果。与我一同对本 研究做出贡献的同志,都在论文中作了明确的说明并表示了谢意,如被查有侵犯 他人知识产权的行为,由本人承担应有的责任。 学位( 毕业) 论文作者亲笔签名: 同期 论文使用授权的说明 本人完全了解福建农林大学有关保留、使用学位( 毕业) 论文的舰定即学 校有权送交论文的复印件,允许论文被查阅和借阅;学校可以公布论文的全部或 部分内容,可以采用影印、缩印或其他复制手段保存论文。 保密,在 年后解密可适用本授权书。口, 不保密,本论文属于不保密。 口 学位( 毕业) 论文作者亲笔签名: 特刻酥链较彳z 乞 日期: 日期:二巩石厶f 乞 福建农林大学2 0 0 6 届硕土毕业生毕业论文 第1 章绪论 1 1 研究背景 随着“数字林业”的发展,人们需要处理各种各样的大量的数据,如何 对这些分布式、异构、多数据源海量数据进行存储与管理,是“数字林业” 所必须解决的问题之一。 数据的存储与管理方法直接决定了系统访问的速 度与效率,这些数据可能采用多服务器,分布式管理的方式存放在不同系 统、不同数据库中,其数据结构、数据格式也不尽相同。如何从这海量的数 据中发现并提取出有用的信息和知识,促进数据的自动化处理、智能分析和 决策支持等,成了人们迫切需要解决的问题。事务或关系数据库中的数据挖 掘理论、技术、方法和应用己经得到了充分的发展,为解决上面的的问题提 供了技术上的可行性。 国外学者也把数据仓库和数据挖掘技术应用到农林上,如c h u n c h i e h y a n g ,m t c r is l e i ,r m s t r i c k l a n d ,d r e ss ,s d p a rs o i l s 等已经把 数据仓库和数据挖掘技术应用到农林业上。研究的国内学者已经开始把数据 仓库技术引入到林业上,如:空间数据挖掘技术在林业中的应用“1 、分布式 数据挖掘在森林资源信息管理中的应用“1 、林业数据仓库的设计“4 3 等 等。 福建省是我国南方重点林业省份之一,其土地总面积1 2 1 5 0 1 万公顷,其中: 林地面积9 0 1 8 3 万公顷,占土地总面积7 4 2 2 ;非林地面积3 1 3 1 8 万公顷, 占土地总面积2 5 7 8 。在林地中:有林地面积7 3 5 3 7 万公顷,占8 1 5 4 :疏林 地面积1 8 2 8 万公顷,占2 0 3 ;灌木林地面积2 3 0 9 万公顷,占2 5 6 ;未成 林造林地面积1 2 2 7 万公顷,占1 3 6 ;无林地面积1 1 2 8 2 万公顷,占1 2 5 1 。 在有林地面积中:林分面积5 4 9 :9 0 万公顷,占7 4 7 8 ;经济林面积1 0 3 4 4 万 公顷,占1 4 0 7 ;竹林面积8 2 0 3 万公顷,占1 1 1 5 ( 来源于福建省林业厅公 众信息网一福建省森林资源概况) 。丰富的林业资源对福建省的经济起重要的影 响作用,福建省的“数字林业”也得到了迅速发展。2 0 0 6 年2 月1 4 同,福建省 数字办组织有关专家对其林业厅所承担的福建省数字林业工程项目( 一期) 进行 验收林业部门收集了大量的数据,如何从这些数据中提取出隐藏在数据背后的 重要信息,并加以分析,用以指导林业生产实践和科学研究,成为人们关心的问 基于二类清查林业数据仓库的建立 题之一。建立全省的林业数据仓库,对于决策者来说是至关重要的。利用林业数 据仓库,决策者可以根据全省林业资源及需求的变化作出一些经营管理决策,当 然也能预测全省林业资源发展的趋势。 1 2 本文研究的主要内容 传统的林业信息管理系统构建在关系数据库的基础上,存储的数据基本是 短期的,主要用于事务处理。由于关系数据库中的数据缺乏组织性,也没有系统 的、集成的历史记录,所以很难对这些数据作出具体详细的分析。而在9 0 年代, 数据仓库作为种新兴并日益成熟的技术引起人们的广泛关注。d w + d m + o i a p 的 结构已被认为是d s s ( 决策支持系统) 的有效解决方案。与传统的面向事务性处 理的数据库相比,数据仓库面向复杂的分析型数据,解决了数据集成、数据综合、 数据不一致等问题,把它运用到林业上,使林业的业务操作环境和信息分析环境 分离,从而有效地为决策提供实时的信息服务。再配合以数据挖掘技术,就可以 构成实用的决策支持系统。 本文在概述和总结有关数据仓库和数据挖掘理论与方法的基础上,针对森林 资源二类调查数据设计一个林业数据仓库原型系统,在决策模块中讨论了粗糙集 理论在立地质量评介中的运用和模糊神经网络在福建省杉木的蓄积量预测模型 的运用;显示了所得知识的有效性和应用价值并为林业决策提供了依据。 本文的基本框架分为四部分: 第一部分比较详细的叙述数据仓库技术的有关理论和数据挖掘的含义、可以 发现的知识类型、现有的技术方法。 第二部分是本文讨论的重点之一。简述了林业二类调查数据特征和组织方 式,运用三级数据模型设计方法分析并设计t - - 类清查数据仓库的概念模型、逻 辑模型、物理模型。在概念模型设计中,主要进行需求分析并创建了信息包图; 在逻辑模型中,运用o l a p 知识设计多维的联机分析的模型并在粒度设计问题 上,选择了双重粒度;在物理模型设计上本文选择了采用并行的存储结构r a i d ( r e d u a n d a n ta r r a yo fh e x p e n s i wd i s k ,廉价冗余磁盘陈列) 结构和位图索引 ( b i t m a p ) 方法来优化性能。 第三部分是本文讨论的重点之二。数据挖掘模型的设计主要针对决策暑关 心的问题进行设计挖掘模型,在数据挖掘模型中,运用了粗糙集理论设计了立地 福建农林大学2 0 0 6 届硕土毕业生毕业论文 质量评价模型和用模糊神经网络方法实现了福建省杉木的蓄积量预测模型。在该 立地质量评价模型中主要运用属性的重要度来确定各评价因子的权重,运用总分 值方法来确定各评价等级。在福建省杉木的蓄积量预测模型中,运用三种b p 算 法( l m 优化算法、贝叶斯正则化算法、动量梯度下降算法) 来设计该预测模型, 并在m a t l a b 上实现,最后经过比较确定福建省杉木的蓄积量预测模型为l m 优 化算法,中间隐含层的结点为1 5 。该模型能较好地用于指导福建省林业经营管 理。 第四部分结论。提出了二类清查数据仓库的系统结构以及在本系统中仍需 进一步研究和讨论的问题。 1 3 本文的创新之处 本文用信息打包法来设计林业数据仓库,并把粗糙集理论运用在立地质量 评价上,运用属性的重要度来作为各评价因子的权重,用总分值来确定立地质量 的各评价等级。肖化顺的基于粗糙集理论的立地类型分类规则探讨4 7 l 把数据挖掘 应用到立地类型分类规则中,国内学者在立地质量评价方法上大都使用层次分析 法,本文尝试把粗糙集理论应用在立地质量评价中。另外,在福建省的杉木蓄积 量预测模型中,使用了模糊聚类的方法先对样本进行选择,再用b p 的三种不同 方法进行设计预测模型,选出最优模型,跟李际平等的基于人工神经网络的森林 资源预测研究使用的方法不同。 基于二类清查林业数据仓库的建立 第2 章数据仓库和数据挖掘技术 2 1 数据仓库技术 2 1 1 数据仓库的产生 从计算机应用初期的电子数据处理系统( e d p ) 到今天的执行信息系统和决 策支持系统,始终伴随着人们对数据仓库的探求。企业内部各系统的系统结构、 数据结构和开发环境各异,决策者很难从中得到企业的全局决策信息,更难获取 连续的历史数据进行复杂分析、趋势预测、隐含信息挖掘,来有效支持企业经营 决策。对这个问题的探求,导致了对多数据库系统( m u l t i d a t a b a s e s ) 的研究,导 致了对数据如何集成,如何面向问题进行分析,以支持决策过程的研究,这就产 生了另一新的信息处理技术一数据仓库。 数据仓库这一概念起源于2 0 世纪8 0 年代初期。美国著名信息工程学家wh i n m o n 曾在记录系统( r e c o r ds y s t e m ) 、本原数据( a t o m i cd a t a ) 和决 策支持数据库( d e c i s i o ns u p p o r td a t a b a s e ) 等论文中提出数据仓库的概念。 数据仓库早期比较重要的文献是m a r t i nh u b e l 的“d a t ab a s ea n dt h ed a t a w a r e h o u s i n gc o n c e p t ”,发表在i n s u r a n c ea c c o u n t i n ga n ds y s t e m s a s s o c i a t i o n ,o c t o b e r3 0 ,1 9 8 6 :b a d e v i l i n 与pt m u r p h y 的“a n a r c h i t e c t u r ef o ra b u s i n e s sa n di n f o r m a t i o ns y s t e m ”,发表在i b m s y s t e m s j o r u n a l ,v o l 2 7 ,n o 1 ,1 9 8 8 。特别是d e v i l i n 和m u r p h y 在论文中披 露了i b m 的一项内部研究计划,这个计划的目的是构造一种“以关系数据库为基 础的公司数据的集成化仓储。”这个仓储的使用者不是信息技术的专业人员,而 是各级决策者。决策者将使用“一组相容工具”从仓库中提取决策辅助信息,这 组工具应该得到“业务数据字典的有效支持,这个“业务数据字典”描述了决镱 者的可用信息。1 9 9 1 年i b m 正式宣布了其研制的数据仓库构架i n d e p t h ,成功地 开发了数据仓库。 2 1 2 数据仓库的概念 数据仓库概念的定义很多,但比较权威的概念是w i l lj a mi n m o n 博士手9 0 年代初给出的。数据仓库是一个面向主题的、集成的、随时间变化的、但信息 4 福建农林大学2 0 0 6 届硕土毕业生毕业论义 本身相对稳定的数据集合,用于对管理决策过程的支持。“。对于数据仓库的概 念我们可以从两个层次上理解,首先,数据仓库用于支持决策,面向分析型数据 处理,它不同于现有的操作型数据库;其次,数据仓库是对多个异构的数据源有 效集成,集成后按照主题进行了重组,并包含历史数据,而且存放在数据仓库中 的数据一般不再修改。 根据数据仓库概念的定义,数据仓库拥有以下四个特点: 1 面向主题。数据仓库中的数据是按照一定的主题域进行组织。主题是一个 抽象的概念,是在较高层次上将企业信息系统中的数据综合、归类并进行分析利 用的抽象。在逻辑意义上,它是对应企业中某一宏观分析领域所涉及的分析对象, 是针对某一决策问题而设置的。面向主题的数据组织方式,就是在较高层次上对 分析对象的数据的一个完整的、统一的、一致的描述,能完整、统一地刻画各个 分析对象所涉及的企业的各项数据,以及数据之间的联系。” 2 集成的。面向事务处理的操作型数据库通常与某些特定的应用相关,数据 库之间相互独立,并且往往是异构的。而数据仓库中的数据是在对原有分散的数 据库数据抽取、清理的基础上经过系统加工、汇总和整理得到的,必须消除源数 据中的不致性,以保证数据仓库内的信息是一致的全局信息“。 3 相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发 生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数 据查询,一旦某个数据进入数据仓库以后,一般情况下将被长期保留,通常只需 要定期的加载、刷新嗍旧。 4 反映历史变化。操作型数据库主要关心当前某一个时间段内的数据,而数 据仓库中的数据通常包含历史信息,系统记录了从过去某一时点( 如丌始应用数 据仓库的时点) 到目前的各个阶段的信息,通过这些信息,可以对企业的发展历 程和未来趋势做出定量分析和预测御”。 数据仓库的建设,是以现有大量数据的积累为基础。数据仓库不是静态的概 念,只有把信息及时交给需要这些信息的使用者,供他们做出改善其业务经营的 决策,信息才能发挥作用,信息才有意义。而把信息加以整理归纳和重组,并及 时提供给相应的管理决策人员,是数据仓库的根本任务。因此,从产业界的角度 看,数据仓库建设是一个工程,是一个过程。 2 1 3 数据仓库的组成 数据仓库体系结构如下图所示: 操作型 据和外 报表查询,e i s 工 o l a p 工具 城据挖掘工具 图( 2 1 ) :数据仓库体系结构 f i g ( 2 - 1 ) s t r u c t u r es y s t e mo f d a m w a r e h o u s e 数据仓库数据库:是整个数据仓库环境的核心,是数据存放的地方和提供对 数据检索的支持。相对于操纵型数据库来说其突出的特点是对海量数据的支持和 快速的检索技术。 数据抽取、转换和装载工具:主要功能是从数据源中抽取数据后检验和整理 数据,并根据数据仓库的设计要求重新组织和加工数据,装载到数据仓库的目标 数据库中。 一 元数据:元数据是描述数据仓库内数据的结构和建立方法的数据。可将其按 用途的不同分为两类,技术元数据和商业元数据【i 】。 技术元数据是数据仓库的设计和管理人员用于开发和日常管理数据仓库是 用的数据。包括:数据源信息;数据转换的描述;数据仓库内对象和数据结构的 定义;数据清理和数据更新时用的规则;源数据到目的数据的映射:用户访问权 限,数据备份历史记录,数据导入历史记录,信息发布历史记录等川。 商业元数据从商业业务的角度描述了数据仓库中的数据。包括:业务主题的 6 福建农林大学2 0 0 6 届硕士毕业生毕业论文 描述,包含的数据、查询、报表。 元数据为访问数据仓库提供了一个信息目录( i n f o r m a t i o n d i r e c t o r y ) ,这个目 录全面描述了数据仓库中都有什么数据、这些数据怎么得到的、和怎么访问这些 数据。是数据仓库运行和维护的中心,数据仓库服务器利用他来存贮和更新数据, 用户通过他来了解和访问数据。 访问工具:为用户访问数据仓库提供手段。有数据查询和报表工具;应用开 发工具;管理信息系统( e i s ) 工具:在线分析( o l a p ) 工具;数据挖掘工具。 数据集市( d a t a m a r t s ) 为了特定的应用目的或应用范围,而从数据仓库中 独立出来的一部分数据,也可称为部门数据或主题数据( s l l b j e c ta r e a ) 。在数据 仓库的实施过程中往往可以从一个部门的数据集市着手,以后再用几个数据集市 组成一个完整的数据仓库。需要注意的就是再实施不同的数据集市时,同一含义 的字段定义一定要相容,这样再以后实旎数据仓库时才不会造成大麻烦。 数据仓库管理工具:为数据仓库的运行提供管理手段,包括安全管理和存储 管理等。 信息发布系统:把数据仓库中的数据或其他相关的数据发送给不同的地点或 用户。基于w e b 的信息发布系统是对付多用户访问的最有效方法。 2 1 4o l a p ( 联机分析处理1 6 0 年代,关系数据库之父e e c o d d 提出了关系模型,促进了联机事务处理 ( o l t p ) 的发展( 数据以表格的形式而非文件方式存储) 。1 9 9 3 年,e e c o d d 提出了 o l a p 概念,认为o l t p 旦不能满足终端用户对数据库查询分析的需要,s q l 对 大型数据库进行的简单查询也不能满足终端用户分析的要求。用户的决策分析需 要对关系数据库进行大量计算才能得到结果,而查询的结果并不能满足决策者提 出的需求。因此,e e c o d d 提出了多维数据库和多维分析的概念,即o l a p 。o l a p 是决策支持系统s s ) 和业务分析系统的重要组成部分,支持交互环境下的即时 分析。o l a p 主要是对用户当前及历史数据进行分析,辅助领导决策,其最大的 特征是能满足分析和获取有效信息的需要,有快速性、可分析性、多维性和信息 性的特点。目前,最常见的o l a p 主要有基于多维数据库的m o l a p 和基于关 系数据库的r o l a p 在数据仓库系统中o l a p 一般是数据仓库应用的前端工具 7 1 。因而o l a p 要解决两个关键问题:一是使用户方便地通过视图分析复杂数据: 基于二类清查林业数据仓库的建立 二是数据的存储和描述要使视图最有效。 下面表格是o l t p 和o l a p 的比较: 表( 2 1 ) :o l a p 与o l t p 比较表 t a b l e ( 2 - 1 ) c o m p a r i s o nb e t w e e no l a pa n d0 l t p o l t p 数据o l a p 数据 原始数据 导出数据 细节性数据综合性和提炼性数据 当前值数据历史数据 可更新不可更新,但周期性刷新 次处理的数据量小 一次处理的数据量大 面向应用,事务驱动面向分析,分析驱动 面向操作人员,支持日常操作面向决策人员,支持管理需要 l o l a p 的定义 定义:o l a p ( 联机分析处理) 是使分析人员、管理人员或执行人员能够从多 种角度对从原始数据中转化出来的,能够真正为用户所理解的、并真实反映企业 维特性的信息进行快速、一致、交互地存取,从而获得对数据的更深入了解的 类软件技术。( o l a p 委员会的定义) o l a p 的目标是满足决策支持或多维环境特定的查询和报表需求,它的技术核心 是“维”这个概念,因此o l a p 也可以说是多维数据分析工具的集合。 2 o l a p 的基本概念。 维:是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成 一个维,如( 时间维、地理维等归。 维的层次:人们观察数据的某个特定角度( 即某个维) 还可以存在细节程度不 同的各个描述方面,如( 时间维:日期、月份、季度、年1 f 8 】。 维的成员:维的一个取值。是数据项在某维中位置的描述阍,如( “某年某月某日, 是在时间维上位置的描述) 多维数组:维和变量的组合表示。一个多维数组可以表示为:( 维l ,维2 , 维n ,变量) ,如( 时间,地区,产品,销售额) 3 o l a p 的特点如下: 福建农林大学2 0 0 6 届硕土毕业生毕业论文 快速性:用户对o l a p 的快速反应能力有很高的要求。系统应能在5 秒内 对用户的大部分分析要求做出反应。 可分析性:o l a p 系统应能处理与应用有关的任何逻辑分析和统计分析。 多维性:多维性是o l a p 的关键属性。系统必须提供对数据的多维视图和分 析,包括对层次维和多重层次维的完全支持。 信息性:不论数据量有多大,也不管数据存储在何处,o l a p 系统应能及时 获得信息,并且管理大容量信息。 4o l a p 多维数据结构 超立方结构( h y p e r c u b e ) :超立方结构指用三维或更多的维数来描述一个对 象,每个维彼此垂直。数据的测量值发生在维的交叉点上擞据空间的各个部分都 有相同的维属性。( 收缩超立方结构。这种结构的数据密度更大,数据的维数更少, 并可加入额外的分析维1 。 多立方结构( m u l t i c u b e ) :即将超立方结构变为子立方结构。面向某一特定应 用对维迸行分割,它具有很强的灵活性,提高了数据( 特别是稀疏数据) 的分析效 率。 5o l a p 爱雏数据分析 埘荤i 和切块e s t i e e 时d ;e 咄覆爹繁栩巾,接二臻进静囊辩a 安互煳芬, 行切块,可得到所需要的数据。如在“城市、产品、时间”三维立方体中进行切 块和切片,可得到各城市、各产品的销售情况。 钻取( d r i l l ) :钻取包含向下钻取( d r i l l - d o w n ) 和向上钻取( d r i l l u p ) ,上卷 ( r o l l - u p ) 操作,钻取的深度与维所划分的层次相对应。 旋转( r o t a t e ) f 转轴口i v o t ) :通过旋转可以得到不同视角的数据。 2 2 数据挖掘 在这信息爆炸时代里各行业都各积累了海量的、以不同形式存储的数据资 料,这些资料非常复杂,要从中发现有价值的信息或知识,达到支持决策的目的, 成为非常艰巨的任务。数据挖掘a t a m i n i n g ) 方法的提出,让人们有能力最终认 识数据的真正价值,即发现蕴藏在数据中的信息和知识擞据挖掘,指的是从大 型数据库或数据仓库中提取人们感兴趣的知识,这些知识是隐含的、事先未知的 潜在有用信息。数据挖掘是目前国际上数据库和信息决策领域的最前沿研究方向 9 基于= 类清查林业数据仓库的建立 之一,引起了学术界和工业界的广泛关注一些国际上高级别的工业研究实验室, 例如i b ma l m a d e n 和g t e 。 2 2 1 数据挖掘的概念 数据挖掘的历史虽然较短,但从2 0 世纪9 0 年代以来,它的发展速度很快, 已经在各个学科上得到了广泛的应用,显示出强大的生命力。由于它是多学科综 合的产物,目前还没有一个统的定义。人们提出了多种数据挖掘的定义,例如: g a r t n e rg r o u p :“数据挖掘是通过仔细分析大量数据来揭示有意义的新的关 系、模式和趋势的过程。它使用模式认知技术、统计技术和数学技术。” t h em e t ag r o u p 的a a r o nz o m e s :“数据挖掘是个从大型数据库中提取 以前不知道的可操作性信息的知识挖掘过程。” s a s 研究所:“在大量相关数据基础之上进行数据探索和建立相关模型的 先进方法”。 b h a v a n i :“使用模式识别技术、统计和数学技术,在大量的数据中发现有 意义的新关系、模式和趋势的过程”。 h a n de t a l :“数据挖掘就是在大型数据库中寻找有意义、有价值信息的过 程”。 f a y y a d :数据挖掘是一个确定数据中有效的,新的,可能有用的并且最终 能被理解的模式的重要过程。 z e k u l i n :数据挖掘是一个从大型数据库中提取以前未知的,可理解的,可 执行的信息并用它来进行关键的商业决策的过程。 f e r r u z z a :数据挖掘是用在知识发现过程,来辩识存在于数据中的未知关 系和模式的一些方法。 一 简单的说,数据挖掘( d a t am y ) 就是从大量的、不完全的、有噪声的、 模糊的、随机的实际应用数据中,提取隐含在其中的、人们事先不知道的、但又 是潜在有用的信息和知识的过程。 准确的说,数据挖掘是数据仓库中的数据集 合,在面向主题的预操作的作用下,转化成面向主题的数据挖掘集合,然后数据 挖掘集合在挖掘算法他数据转化操作的作用下转化成相应的信息,最后,在信息 输出时对信息进行度量和滤除。 2 2 2 数据挖掘的功能 1 0 福建农林大学2 0 0 6 届硕土毕业生毕业论文 数据挖掘通过预测未来趋势及行为,做出前摄的、基于知识的决策。数据 挖掘的目标是从数据库中发现隐含的、有意义的知识,主要有以下血类功能一j 。 l 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量手工分析 的问题如今可以迅速直接由数据本身得出结论。一个典型的例子是市场预测问 题,数据挖掘使用过去有关促销的数据来寻找未来投资中回报最大的用户,其它 可预测的问题包括预报破产以及认定对指定事件最可能作出反应的群体。 2 关联分析 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或多个变量 的取值之间存在某种规律性,就称为关联。关联可分为简单关联、时序关联、因 果关联。关联分析的目的是找出数据库中隐藏的关联网。有时并不知道数据库中 数据的关联函数,即使知道也是不确定的,因此关联分析生成的规则带有可信度。 3 聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增强了人们 对客观现实的认识,是概念描述和偏差分析的先决条件。聚类技术主要包括传统 的模式识别方法和数学分类学。8 0 年代初,m c h a t s k i 提出了概念聚类技术及其 要点是,在划分对象时不仅考虑对象之间的距离,还要求划分出的类具有某种内 涵描述,从而避免了传统技术的某些片面性。 4 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关特征。概 念描述分为特征性描述署呕别性描述,前者描述某类对象的共同特征,后者描述 不同类对象之间的区别。生成一个类的特征性描述只涉及该类对象中所有对象的 共性。生成区别性描述的方法很多,如决策树方法、遗传算法等。 5 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有意义。偏 差包括很多潜在的知识,如分类中的反常实例、不满足规则的特例、观测结果与 模型预测值的偏差、量值随时间的变化等。偏差检测的基本方法是,寻找观测结 果与参照值之间有意义的差别。 2 2 3 数据挖掘常用技术 基于二类清查林业数据仓库的建立 数据挖掘是许多学科的交叉,运用了统计学,计算机,数学等学科的技术。 以下是常见和应用最广泛的算法和模型踟1 0 】i l l l 【1 2 】: l 神经网络方法 神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分布存储和 高度容错等特性非常适合解决数据挖掘的问题,因此近年来越来越受到人们的关 注。典型的神经网络模型主要分3 大类:以感知机、b p 反向传播模型、函数型 网络为代表的,用于分类、预测和模式识别的前馈式神经网络模型;以h o p f i e l d 的离散模型和连续模型为代表的,分别用于联想记忆和优化计算的反馈式神经网 络模型;以a r t 模型、k o h o l o n 模型为代表的,用于聚类的自组织映射方法。 神经网络方法的缺点是”黑箱”性,人们难以理解网络的学习和决策过程。 2 遗传算法 遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是一种仿生 全局优化方法。遗传算法具有的隐含并行性、易于和其它模型结合等性质使得它 在数据挖掘中被加以应用。 s u n i l 已成功地开发了一个基于遗传算法的数据挖掘工具,利用该工具对两 个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传算法是进行数据挖 掘的有效方法之一。遗传算法的应用还体现在与神经网络、粗集等技术的结合上。 如利用遗传算法优化神经网络结构,在不增加错误率的前提下,删除多余的连接 和隐层单元;用遗传算法和b p 算法结合训练神经网络,然后从网络提取规则等。 但遗传算法的算法较复杂,收敛于局部极小的较早收敛问题尚未解决。 3 决策树方法 决策树是一种常用于预测模型韵算法,它通过将大量数据有目的分类,从中 找到一些有价值的,潜在的信息。它的主要优点是描述简单,分类速度快,特别 适合大规模的数据处理。最有影响和最早的决策树方法是由q u i n l a n 提出的著名 的基于信息熵的i d 3 算法。它的主要问题是:i d 3 是非递增学习算法;i d 3 决策 树是单变量决策树,复杂概念的表达困难;同性间的相互关系强调不够;抗噪性 差。针对上述问题,出现了许多较好的改进算法,如s c h l i m m e r 和f i s h e r 设计 了1 1 9 4 递增式学习算法;钟鸣,陈文伟等提出了i b l e 算法等。 4 粗集方法 福建农林大学2 0 0 6 届硕士毕业生毕业论文 粗集理论是一种研究不精确、不确定知识的数学工具。粗集方法有几个优点: 不需要给出额外信息;简化输入信息的表达空间;算法简单,易于操作。粗集处 理的对象是类似二维关系表的信息表。目前成熟的关系数据库管理系统和新发展 起来的数据仓库管理系统,为粗集的数据挖掘奠定了坚实的基础。但粗集的数学 基础是集合论,难以直接处理连续的属性。而现实信息表中连续属性是普遍存在 的。因此连续属性的离散化是制约粗集理论实用化的难点。现在国际上已经研制 出来了一些基于粗集的工具应用软件,如加拿大r e g i n a 大学开发的k d d r ;美国 k a n s a s 大学开发的l e r s 等。 5 覆盖正例排斥反例方法 它是利用覆盖所有正例、排斥所有反例的思想来寻找规则。首先在下例集合 中任选一个种子,到反例集合中逐个比较。与字段取值构成的选择子相容则舍去, 相反则保留。按此思想循环所有正例种子,将得到正例的规则( 选择子的合取式、。 比较典型的算法有m i c h a l s k i 的a q l l 方法、洪家荣改进的a q l 5 方法以及他的 a e 5 方法。 6 统计分析方法 在数据库字段项之间存在两种关系:函数关系( 能用函数公式表示的确定性 关系) 和相关关系( 不能用函数公式表示,但仍是相关确定性关系) ,对它们的分析 可采用统计学方法,即利用统计学原理对数据库中的信息进行分析。可进行常用 统计( 求大量数据中的最大值、最小值、总和、平均值等) 、回归分析( 用回归方程 来表示变量间的数量关系) 、相关分析( 用相关系数来度量变量间的相关程度) 、差 异分析( 从样本统计量的值得出差异来确定总体参数之间是否存在差异谗# 。 7 模糊集方法 一 即利用模糊集合理论对实际问题进行模糊评判、模糊决策、模糊模式识别 和模糊聚类分析。系统的复杂性越高,模糊性越强,一般模糊集合理论是用隶属 度来刻画模糊事物的亦此亦彼性的。李德毅等人在传统模糊理论和概率统计的基 础上,提出了定性定量不确定性转换模型云模型,并形成了云理论。 随着“数字林业”的迅速发展以及计算机计算能力的发展和业务复杂性的 提高,数据量是越来越大,数据的类型会越来越多、越来越复杂,数据仓库和数 据挖掘将发挥出越来越大的作用。 基于二类清查林业数据仓库的建立 第3 章二类调查数据仓库模型的建立 3 1 三级数据模型设计方法 数据仓库的建模方法目前尚无统一规范,在国内外的很多论文中都有介绍, 本文采用常用的三级建模方法,即建立概念数据模型、逻辑数据模型和物理数据 模型。 1 概念数据模型 概念模型是联系主观与客观的桥梁,它是一个为定的目标设计系统、收 集信息而服务的概念性工具,具体到计算机系统设计中,概念模型是客观世界到 计算机世界的一个中间层次。人们首先将显示世界抽象为信息世界,然后将信息 世界转化为计算机世界。概念模型的作用就是信息世界的一种架构。因此,概念 模型的设计要求创建一种基于对象的,代表实际业务的模型【1 3 】。 2 逻辑数据模型 逻辑模型指数据仓库数据的逻辑表现形式。目前数据仓库一般建立在关系 数据库基础之上;因此在该数据仓库的设计中采用的逻辑模型就是关系模型。由 于数据仓库是面向主题,所以无论是主题还是主题之间的联系,都用关系模式定 义来表示。 3 物理数据模型 数据仓库的物理模型是逻辑模型在数据仓库中的实现,如确定数据的存储 结构、索引策略、数据存放位置、存储分配等。确定数据仓库实现的物理模型, 要求做到以下几方面【8 j :、 ( 1 ) 要全面了解所选用的数据库管理系统,特别是存储结构和存取方法: ( 2 ) 了解数据环境、数据的使用频度、使用方式、数据规模以及响应时间要 求等,这些是对时间和空间效率进行平衡和优化的重要依据; ( 3 ) 了解外部存储设备的特性,如分块原则,块大小的规定,设各的i 0 特 性等。 3 2 二类调查数据的特征 以福建省林业部门运营的基本情况为例,详见下图可知福建省林业数据库由 市、县、乡级别的二类调查数据组成。福建是中国四大林区之一,合理分析、利 福建农林大学2 0 0 6 届硕土毕业生毕业论文 用这些数据并从挖掘出有用的信息对福建的经济起重要的促进作用。 稍矬竹林业j : 鬓 羹篱器冀一 掣掣掣一率 行炎朴_ k渊a数州 图( 3 1 ) 福建省林业部门运营图 f i g ( 3 q ) m a n a g e m e n lo f f o r e s t r yd e p a r t m e n ti nf u j i a
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 家具导购实战训练绝对成交吴飞彤
- 2024至2030年中国弹力罗缎面料行业投资前景及策略咨询研究报告
- 制造业主要经济业务的核算
- 2024至2030年中国分布移动式切割机数据监测研究报告
- 2024年中国防滑剂市场调查研究报告
- 2024年中国豪华型易拉宝市场调查研究报告
- 2024年中国耐温耐碱消泡剂市场调查研究报告
- 2024年中国塑胶五金制品市场调查研究报告
- 高中数学总复习系列之集合
- 大学三年专科专升本规划计划书
- 浴血百年路启航新征程含内容
- 甲状腺危象的观察及护理汇报
- 2024年广东省广州市市中考数学试卷真题(含答案解析)
- 年兽来了课件
- JBT 12403.1-2015 数控深孔珩磨机床 第1部分:精度检验
- 租赁合同增加承租人补充协议
- 语文五年级下册第六单元大单元整体教学设计
- QCT267-2023汽车切削加工零件未注公差尺寸的极限偏差
- DZ∕T 0173-2022 大地电磁测深法技术规程(正式版)
- MOOC 中国天气-南京信息工程大学 中国大学慕课答案
- 生命生态安全教学计划初中生
评论
0/150
提交评论