(油气田开发工程专业论文)数据仓库和数据挖掘技术在防砂工艺中的研究与应用.pdf_第1页
(油气田开发工程专业论文)数据仓库和数据挖掘技术在防砂工艺中的研究与应用.pdf_第2页
(油气田开发工程专业论文)数据仓库和数据挖掘技术在防砂工艺中的研究与应用.pdf_第3页
(油气田开发工程专业论文)数据仓库和数据挖掘技术在防砂工艺中的研究与应用.pdf_第4页
(油气田开发工程专业论文)数据仓库和数据挖掘技术在防砂工艺中的研究与应用.pdf_第5页
已阅读5页,还剩87页未读 继续免费阅读

(油气田开发工程专业论文)数据仓库和数据挖掘技术在防砂工艺中的研究与应用.pdf.pdf 免费下载

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

t h er e s e a r c h e sa n da p p l i c a t i o n so fd a t a w a r e h o u s ea n d d a t am i n i n gt e c h n o l o g yi n s a n dc o n t r o l y i n h o n g w e i ( d e v e l o p m e n te n g i n e e r i n go f o i l & g a sf i e l d l d i r e c t e db yv i c ep r o f e s s o rf a nl i n g a b s t r a c t t h ed a t aw a r e h o u s et e c h n o l o g yi sak i n do fc o m p u t e rt e c h n o l o g yw h i c h a p p e a r e da n dg o tr a p i dd c v d o p m e n ti nt h er e c e n ty e a r si nt h ei n f o r m a t i o n f i e l d i tc a r l c a r r yo u tv a r i o u st r e a t m e n t s o n p r i m i t i v eo p e r a t i o nd a t a , c h a n g i n gt h e m i n t ou s e f u li n f o r m a t i o n , f u l l yu t i l i z i n gt h ei n f o r m a t i o n , a n a l y z i n ga n dt h e nm a k i n gs t r a t e g i c a ld e c i s i o n t h ed a t am i n i n gt e c h n o l o g y , b a s e di nt h ed a t ao fd a t a b a s eo rd a t aw a r e h o u s e ,i so n ek i n do fc o m p u t e r t e c h n o l o g yw h i c hc a no b t a i nk n o w l e d g e ,r u l eo rt h eh i g h l e v e li n f o r m a t i o n , u s i n gp o l i c y - m a k i n gt r e e ,n e r v en e t w o r k ,c o n n e c t i o nr u l ea n dg a t h e r i n g m e t h o d s s a n dc o n t r o lt e c h n o l o g yi so n eo f t h ee s s e n t i a lm a i nt e c h n o l o g i e s i nt h e w o r k i n go fs a n dc o n t r o l ,h i s t o r i c a ld a t a , t h ec u r r e n tw o r kd a t aa n dm a n y k i n d so fd o c u m e n t sa n dm a t e r i a l se x i t h o wt os a v ea n dm a n a g et h e s e m a s s i v ed a t ad o c u m e i l 协a n dm a t e r i a l se f f e c t i v e l ya sw e l la sh o wt ou s e t h e s er i c hd a t ad o c u m e n t sa n dm a t e r i a l st oo b t a i nv a l u a b l ek n o w l e d g ei sa l l u r g e n tq u e s t i o ni nt h ed e v e l o p m e n t o f s a n dc o n t r o li nt h eo i l f l e l d t h i sp a p e rp r o p o s e st oc o n s t r u c td a t aw a r e h o u s ei nt h es a n dc o n t r o l t e c h n o l o g y , e s t a b l i s h i n g t h ed a t a m i m n gs y s t e m ,g e t t i n g t h eu s e f u l i n f o r m a t i o na n do b t a i n i n gv a l u a b l et e c h n o l o g yi nt h es a n dc o n t r 0 1 t h i sa r t i c l ef i r s ts y s t e m a t i c a l l yi n t r o d u c e dt h eb a s i cc o n c e p t so fd a t a w a r e h o u s et e c h n o l o g ya n dt h ed a t am i n i n gt e c h n o l o g y , t h e nt a r g e t i n ga tt h e d e s i g na n di m p l e m e n to fd a t a w a r e h o u s ei ns a n dc o n t r 0 1 a b o v et h i s f o u n d a t i o n ,w es t u d yt h ed a t am i n i n gb a s e di n t h ed a t aw a r e h o u s eo fs a n d c o n t r o lt e c h n o l o g y i nt h ep a r to ft h ed a t am i n i n ga p p l i c a t i o n ,g r o u p e dd a t a m i n i n gt e c h n o l o g yi su s e dt os o l v et h es a n dp r e d i c t i o nb a s e do nt h en e u r a l n e ta n dt h eo p t i m i z eo f t h es a n dc o n t r o lm e t h o d sb a s e do nd e c i s i o nt r e e k e y w o r d s :d a t aw a r e h o u s e ,d a t am i n i n g ,d e c i s i o n - m a k i n gt r e e ,o p t i m i z a t i o no f s a n dc o n 仃0 1 s a n dp r c d i c f i o n 独创性声明 本人声明所呈交的论文是我个人在导师指导下进行的研究工作及取 得的研究成果。尽我所知,除了文中特别加以标注和致谢的地方外,论 文中不包含其他人已经发表或撰写过的研究成果,也不包含为获得石油 大学或其它教育机构的学位或证书而使用过的材料。与我一同工作的同 志对本研究所做的任何贡献均己在论文中作了明确的说明并表示了谢 意。 签名: ,口1 年中月, e l 关于论文使用授权的说明 本人完全了解石油大学有关保留、使用学位论文的规定,即:学校 有权保留送交论文的复印件及电子版,允许论文被查阅和借阅;学校可 以公布论文的全部或部分内容,可以采用影印、缩印或其他复制手段保 存论文。 ( 保密论文在解密后应遵守此规定) 学生签名:、翌丝纠7 年v 月日 导师签名:攀臻:研乒月,日 中国石油大学( 华东) 硕士论文第1 章前言 第1 章前言 1 1 研究背景 1 1 1 研究的背景 随着科学技术的飞速发展,人类己进入新的信息时代,信息己成为 社会和经济发展的重要支柱之一。大量复杂信息的产生和传播,信息技 术的高度发展,推动着社会的进步和经济的发展,同时也增加了个人和 组织处理信息的难度。特别是最近十年来,数据库规模日益扩大,数据 量可达数g b 甚至t b 级,这些数据中包含了大量的潜在的有价值的信息。 如何有效地管理和利用数据库中的数据以及怎样才能发现其中潜在的知 识,由此需求就产生了数据仓库和数据挖掘技术。 数据仓库作为服务于企业级的应用,减轻系统负担、简化日常维护 和管理;改进数据的完整性、兼容性和有效性;提高数据存取的效率; 提供简单、统一的查询和报表机制。并且数据仓库采用统一的数据管理 方式和灵活多变的数据访问方式,使决策者可以从不同的角度了解、掌 握企业自身现状,并对未来的发展做出预测。 数据挖掘技术虽然不一定要建立在数据仓库的基础上,但是基于数 据仓库的数据挖掘能更好的满足高层战略决策的要求。而且数据仓库完 成了数据的收集、集成、存储、管理等工作,数据挖掘面对的是经过初 步加工的数据,更专注知识的发现。所以,数据挖掘技术能自动分析数 据,对它们进行归纳性推理和联想,寻找数据间内在的某些关联,从中 发掘出潜在的、对信息预测和决策行为起着十分重要作用的模式,从而 建立新的业务模型,以帮助决策者制定生产规划和市场策略最终达到做 出正确决策的目的。因此,把数据仓库和数据挖掘技术应用于油田防砂 工艺中去,虽然还属一种新的尝试,但它必将更进一步推动油田的信息 中国石油大学( 华东) 硕士论文第1 章前言 化建设,为油田的防砂工作起着巨大的推动作用,必将为油田产生巨大 的经济效益。 1 1 2 问题的提出 油气井的防砂工艺措施是油气开采中经常采用的工艺方法,采油厂 每年要有上千口油井进行防砂作业,每次防砂作业都产生大量的防砂数 据资料,随着油气田开发的不断发展,各个采油厂积累了大量的有关防 砂的数据资料,这些激增的数据背后隐藏着许多重要的知识模式,传统 的数据库管理系统虽然可以高效地实现数据的录入、查询、统计等功能, 但无法获得这些数据的内在联系和隐含的知识模式,即不能获得重要的 知识模式从而出现数据爆炸但知识贫乏的现象。于是,建立防砂工艺数 据仓库和基于防砂工艺数据仓库的数据挖掘变得十分重要。 随着石油工业的发展,基于对信息资源开发应用的需求和生产管理 的需要,为了使防砂数据信息能够发挥更大的作用,决策层需要根据最 新的信息及过去的信息做出决策以指挥现场的工作。建立数据仓库并在 数据仓库的基础上充分进行数据挖掘,发挥数据仓库和数据挖掘在决策 支持中的长处,以便掌握全油田的防砂作业状况和防砂的经济效果等情 况,增强防砂作业系统的应变能力,提高防砂作业管理水平,使全油田 从总体上提高生产率、生产资金的利用率,进而达到提高经济效益的目 的。 1 2 研究现状 1 2 1 数据仓库的研究现状 随着企业对数据管理不断提出新的要求和计算机技术的飞速发展, 人们要求计算机在处理日常简单数据的同时,能够更多地参与数据分析 和决策支持。数据库系统作为一种有效的数据管理手段,主要用于数据 2 中国石油大学( 华东) 硕士论文第1 章前言 的事务管理,却无法直接支持数据分析。由此出现了一种可用于数据分 析处理和决策支持的数据存储和组织技术,即数据仓库( d a t aw a r e h o u s e 。 d w ) 技术。 9 0 年代初期,时任p r i s ms o l u t i o n 公司副总裁的w h i n m o n 因在其著 作建立数据仓库( b u i l d i n gt h ed a t aw a r e h o u s e ) 中首次提出了“数 据仓库”的概念而被尊成为“数据仓库之父”“。9 0 年代中期,数据仓 库就已经形成潮流。国外许多大型的数据仓库在1 9 9 6 1 9 9 7 年首先被金 融、电信、保险等主要传统数据处理密集型行业建立。在美国,数据仓 库已经成为仅次于i n t e r n e t 之后的又一技术热点。据美国m e t ag r o u p 市 场调查机构的资料表明,幸福杂志所列的全球2 0 0 0 家大公司中已有 超过9 0 将i n t e r n e t 网络和数据仓库这两项技术列入企业计划,而且有 很多企业为使自己在竞争中处于优势地位己经率先采用。大型企业几乎 都在建立自己的数据仓库,数据库厂商也纷纷推出自己的数据仓库软件。 目前,已建立和使用的数据仓库应用系统都获得了良好性能,并对此系 统提出了更高的要求,这些系统也都取得了明显的经济效益,从而使其 在市场竞争中显示出了强劲的活力。 国内的数据仓库应用才刚刚起步,虽然最近几年涌现出像国内的招 商银行、国信证券公司的数据仓库系统,但是中国与发达国家的差距仍 然很大,仍有加大的趋势,具体表现在以下几点: ( 1 ) 计算机应用水平较低,无法提出决策支持要求,所以很多企业 无法马上实施数据仓库; ( 2 ) 缺乏数据仓库方面的人才; ( 3 ) 缺乏国内背景的范例和成功应用; ( 4 ) 数据仓库概念过大,很多用户感到可望不可及。 如今,大部分数据库系统的建立是用来进行传统的联机事物处理业 中国石油大学( 华东) 硕士论文第1 章前言 务( o n - l i n et r a n s a c t i o np r o c e s s i n g ,o l t p ) ,虽然有一些单位己经建 立了数据仓库系统,但真正发挥效用的并不多见,如何开拓国内的数据 仓库市场,提高国内企业的竞争能力,成为国内企业关注的焦点。 1 2 2 数据挖掘的研究现状 从数据库中发现知识( k n o w l e d g ed i s c o v e ri nd a t a b a s e ,k d d ) 一词 首次出现在1 9 8 9 年举行的第十一届国际联合人工智能学术会议上。到目 前为止,由美国人工智能协会主办的k d d 国际研讨会的研究重点也逐渐从 发现方法转向系统应用,注重多种发现策略和技术的集成,以及多种学 科之间的相互渗透。从总体上,国外在数据挖掘领域中的研究内容十分 广泛,从挖掘的知识的种类看,己经取得了明显的成果。 随着数据挖掘与知识发现研究逐步走向深入,人们越来越清楚地认 识到,数据挖掘与知识发现的研究主要有三个技术支柱“1 ,即数据库、 人工智能和统计学。统计学在计算机发明之前就诞生了,迄今己有几百 年的发展历史。然而,统计学和数据库技术结合得并不算快,就当前的 数据挖掘软件包而言,其统计分析过程包括:决策树推断、规呱叮推断、 最近邻方法、聚类方法、联合规则、特征提取、可视化。现在数据挖掘 应用过程中,将会遇到超大规模数据库和高维数据问题、函数数据的分 析问题、数据丢失问题、变化的数据和知识问题等。这些问题的出现对 数据挖掘技术提出了严峻的挑战,使人们有了从数据查询到知识发现、 从数据演绎到数据归纳的要求,这样,在数据挖掘与知识发现这个结合 点上统计学就有了新的生命力。 与国外相比,国内对数据挖掘与知识发现的研究稍晚,没有形成整 体力量。1 9 9 3 年国家自然科学基金首次支持对该领域的研究项目。目前, 国内从事数据挖掘研究的人员主要在大学,也有部分在研究所或公司。 他们所涉及的研究领域很多,一般集中于学习算法的研究、数据挖掘的 4 中国石油大学( 华东) 硕士论文第1 章前言 实际应用以及有关数据挖掘理论方面的研究。目前进行的大多数研究项 目是由政府资助进行的,如国家自然科学基金、8 6 3 计划、“九五”计划 等。 1 2 3 防砂工艺信息管理的研究现状 随着油田数字化的不断发展,油井防砂工艺的信息管理由非计算机 管理发展为以计算机管理为主的形式。目前建立了许多防砂工艺信息管 理系统,如:防砂工艺信息查询管理系统、防砂方案设计管理系统和防 砂辅助决策系统等。现已建立的这些防砂工艺信息系统都是基于数据库 的,而数据库是对事务处理,尽管也获得了巨大的成功,但它对分析处 理为主的决策分析和以知识发现为主的数据挖掘系统的支持存在严重的 不足,要提高防砂工艺的分析和决策的效率和有效性,必须把分析型数 据从事务处理环境中提取出来,按照决策分析处理的需要进行重新组织, 建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处理环 境而出现的一种数据存储和组织技术。 防砂系统经过多年信息化建设,已经建立了防砂信息管理系统基础 架构,初步实现了防砂数据的信息化。然而信息化面临的后续问题也是 巨大的,。防砂系统信息化建设以往主要侧重于数据的采集、统计、管理 和查询。而对于大量数据中隐含的知识规律的提取和总结,以及数据的 分析总结。面对知识缺乏而数据爆炸的情况,必须采用数据挖掘技术解 决这一问题。 1 3 研究目的及意义 1 3 1 研究目的 本文研究目的是数据仓库和数据挖掘技术在防砂信息管理中的应用 研究。根据胜利油田孤岛采油厂现有的防砂基础数据库和历史的防砂作 中国石油大学( 华东) 硕士论文第1 章前言 业文档资料,建立起防砂工艺数据仓库。并在此基础上,利用先进的数 据挖掘技术,针对出砂井识别和防砂工艺方法优选的问题,对防砂工艺 数据仓库进行数据挖掘和知识发现,生成出砂井识别知识模型和防砂方 法优选知识模型,最后生成丰富、全面、高效和庞大的防砂工艺数据仓 库和数据挖掘系统,更好地支持油田防砂的决策分析处理。提高防砂的 效果,为油田防砂系统提供完善的知识支持。 1 3 。2 研究意义 随着信息技术的发展,全球经济面临着日益激烈的竞争,各行各业 纷纷采用先进的信息技术手段提升自身竞争实力。目前防砂作业中己经 并继续产生大量的数据,为了避免由于这些数据不能有效结合而形成“信 息孤岛”的情况,需要引入数据仓库技术对其数据进行有效管理,然后 再通过数据挖掘技术自动处理数据仓库中的海量数据,发现出分析人员 发现不了的隐含的关系、模式以及出人意料但有价值的事实、趋势、例 外和异常等,从而得到人们所需的目标知识。因此,其在防砂信息化过 程中具有广阔的应用前景,所以数据仓库和数据挖掘在防砂作业信息中 的应用研究具有重大的理论意义和实践意义。 1 4 研究内容 本论文主要研究内容是在对于数据仓库的设计、构建和数据挖掘技 术进行研究的基础上,结合防砂工艺的具体需求,设计并建立了防砂工 艺数据仓库模型,并且在此模型的基础之上构建了数据挖掘系统。在应 用方面,针对油井出砂预测和油井防砂工艺方法优选的问题,从数据仓 库的数据中挖掘出解决该问题的知识模式。 6 中国石油大学( 华东) 硕士论文第2 章数据仓库与数据挖掘技术概述 第2 章数据仓库与数据挖掘技术概述 2 1 数据仓库概述 2 1 1 从数据库到数据仓库 数据库系统作为数据管理手段,主要用于事务处理。在这些数据库 中已经保存了大量的日常业务数据。传统的联机事务处理( o l t p ) 一般是 直接建立在这种事务处理环境上的。数据库技术一直力图使自己能胜任 从事务处理、批处理到分析处理的各种类型的信息处理任务。尽管数据 库在事务处理方面的应用获得了巨大的成功,但它对分析处理的支持一 直不能令人满意,尤其是当以业务处理为主的o l t p 应用与以分析处理为 主的决策支持系统( d s s ) 应用共存于一个数据库系统时,这两种类型的处 理发生了明显的冲突。人们逐渐认识到,事务处理和分析处理具有极不 相同的性质,直接使用事务处理环境来支持d s s 是行不通的。具体来说, 事务处理环境不适宜d s s 应用的原因概括起来主要有以下几点: ( 1 ) 事务处理和分析处理的性能特性不同 在事务处理环境中,用户的行为特点是数据的存取操作频率高而每 次操作处理的时间短,因此,系统可以允许用户以分时方式使用系统的 资源,同时保持较短的响应时间,o l t p 是这种环境下的典型应用。在分 析处理环境中,用户的行为模式与此完全不同,某个d s s 应用程序可能需 要连续运行几个小时,从而消耗大量的系统资源。将具有如此不同处理 性能的两种应用放在同一个环境中运行显然是不适当的。 ( 2 ) 数据集成问题 全面和正确的数据是有效分析和决策的首要前提,相关数据收集得 越完整,得到的结果就越可靠,因此,d s s 不仅需要整个企业内部各部门 的相关数据,还需要企业外部、竞争对手的相关数据。当前绝大部分企 中国石油大学 华东) 硕士论文第2 章数据仓库与数据挖掘技术概述 业内数据的真实状况是分散而非集成的。d s s 对数据集成的迫切需要可能 是数据仓库技术出现的最重要动因。 ( 3 ) 数据动态集成问题 由于每次分析都进行数据集成的开销太大,些应用仅在开始对所 需数据进行了集成,以后就一直以这部分的数据作为分析的基础,不再 与数据源发生联系,这种方式的集成为静态集成。静态集成的最大缺点 在于,如果在数据集成后数据源中数据发生了改变,这些变化将不能反 映给决策者,导致决策者使用的是过时的数据。对于决策者来说,虽然 并不要求随时准确地探知系统内的任何数据变化,但也不希望他所分析 的是几个月以前的情况。因此,集成数据必须以定的周期进行刷新, 这种方式称其为动态集成。 ( 4 ) 历史数据问题 事务处理一般只需要当前数据,在数据库中一般也只存储短期数据, 且不同数据的保存期限也不一样,即使有一些历史数据保存下来了,也 被柬之高阁,未得到充分的利用。但对于决策分析而言,历史数据是相 当重要的,许多分析方法必须以大量的历史数据为依托。没有对历史数 据的详细分析,是难以把握企业的发展趋势的。 ( 5 ) 数据的综合问题 在事务处理系统中积累了大量的细节数据,一般而一言,d s s 并不对 这些细节数据迸行分析。这主要有两个原因,一是细节数据量太大,会 严重影响分析的效率:二是太多的细节数据不利于分析人员将注意力集 中于有用的信息上。因此,在分析前,往往需要对细节数据进行不同程 度的综合。而事务处理系统不具备这种综合能力,根据规范化理论,这 种综合还往往因为是一种数据冗余而加以限制。 以上这些问题表明,在事务型环境中直接构建分析型应用是一种失 中国石油大学( 华东) 硕士论文第2 章数据仓库与数据挖掘技术概述 败的尝试。数据仓库本质上是对这些存在问题的回答。建立在事务处理 环境上的分析系统无法达到这一要求。要提高分析和决策的效率和有效 性,分析型处理及其数据必须与操作型处理及其数据相分离。必须把分 析型数据从事务处理环境中提取出来,按照d s s 处理的需要进行重新组 织,建立单独的分析处理环境,数据仓库正是为了构建这种新的分析处 理环境而出现的一种数据存储和组织技术。 2 1 2 数据仓库的定义 建立数据仓库的目的,是把企业的内部数据和外部数据进行有效的 集成,为企业的各层决策者使用。 社会的需求和计算机技术的不断发展,人们开始尝试对原来数据库 中的数据进行再加工,形成一个综合的、面向分析的环境,以支持科学 决策的产生。由此,数据仓库的思想、技术、产品逐渐开始形成。对于 什么是数据仓库,许多人提出了不同的看法。一般公认的定义是数据仓 库概念的创始衣w h i n m o n 在建立数据仓库一书中指出的:“数据仓 库是面向主题的、集成的、稳定的、随时间变化的数据集合,用以支持 经营管理中的决策制定过程“1 。” 传统的数据库存储的数据与数据仓库存储的数据之间的区别如表 2 1 所示: 表2 1 数据与数据仓库存储的数据的区别 对比内容数据库数据仓库 数据内容当前值 历史的,存档的,归纳的, 分析的,计算的数据 数据目标面向业务操作程序,重复处理面向主题域,分析应用 数据特性动态变化,按字段更新 静态,不能直接更新,只能 定时添加、刷新 数据结构高度结构化,复杂,适合操作简单、适合分析 计算 9 中国石油大学( 华东) 硕士论文第2 章数据仓库与数据挖掘技术概述 续表2 一l 对比内容数据库数据仓库 使_ j 频率 高中到低 数据访问量每个事务只访问少量记录 有的事务可能需要访问火量 的记录 对响应时间的要以秒为单位 时间长 求 2 1 3 数据仓库的基本特征 ( 1 ) 面向主题 操作型数据库的数据组织面向事务处理任务,各个业务系统之间各 自分离,而数据仓库中的数据是按照一定的主题域进行组织。主题是一 个抽象的概念,是指用户使用数据仓库进行决策时所关心的重点方面, 一个主题通常与多个操作型信息系统相关。 ( 2 ) 集成的数据 面向事务处理的操作型数据库通常与某些特定的应用相关,数据库 之间相互独立,并且往往是异构的。而数据仓库的数据是在对原有分散 的数据库数据抽取、清理的基础上经过系统加工的、汇总和整理得到的, 必须消除数据中的不一致性,以保证数据仓库内的信息是关于整个企业 的致的全局信息。 ( 3 ) 相对稳定的 操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。 数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数 据查询,一旦数据进入数据仓库以后,一般情况下将被长期保留,也就 是数据仓库中一般大量的查询操作,但修改和删除操作很少,通常只需 要定期的加载、刷新。 ( 4 ) 数据随时间不断变化 1 0 中国石油大学( 华东) 硕士论文第2 章数据仓库与数据挖掘技术概述 操作型数据库主要关心当前某一时间段内的数据,而数据仓库中的 数据通常包含历史信息。系统记录了企业从过去某一时点( 如开始应用数 据仓库的时点) 到目前的各个阶段信息,通过这些信息,可以对企业的发 展历程和未来趋势做出定量分析和预测。 2 1 4 数据仓库的体系结构 目前,两个基本的数据仓库体系结构类型是:企业数据仓库和数据 集市。企业数据仓库包含了来自企业范围内多个操作型数据源的综合信 息。一般情况下,企业数据仓库包含了几个主题,不仅支持战术决策, 还支持战略决策。企业数据仓库包含了详细的时间点数据和概括数据。 企业数据仓库是非常昂贵的,创建它要耗费许多时间,管理也需要很多 精力。所以它主要在从上到下的中心信息服务组织中使用。 数据集市包含了企业级数据的一个子集,主要是面向组织的单个部 门或机构,与企业数据仓库不同,数据集市主要是从底层开始创建的, 面向专业的决策支持。数据集市通常包含了关于一个主题领域的概括数 据和细节数据。企业级数据仓库与数据集市的管理有相似之处,可以使 用类似的方法管理。 数据源数据准各区数据仓库数据库数据集市显示服务 图2 1 数据仓库体系结构 1 1 中国石油大学( 华东) 硕十论文 第2 章数据仓库与数据挖掘技术概述 如图2 1 所示是带有数据准备区和数据集市的数据仓库体系结构。从 图中可以看出数据仓库体系结构由数据源、数据准备区、数据仓库数据 库、数据集市、显示服务组成”1 。 ( 1 ) 数据源 数据仓库用于为决策者提供信息。为此,数据仓库必须将来自单位 中许多源的数据聚集合并为一致的数据集,以准确地反映单位的业务动 作情况和历史记录。 单位通常有多个业务处理系统来捕获日常的业务运作情况。这些业 务处理系统很少与数据仓库同时设计。它们甚至可能是由不同单位设计 的。尤其当单位是通过并购得到壮大的情况下。数据库架构和数据元素 标识键在数据库之间通常是不同的。从这些业务处理系统中析取的数据 必须转换为常用表示法。 对业务分析至关重要的数据甚至可能驻留在个别台式机上的个人数 据库和电子表格中,尤其当单位是在没有中央信息技术组的情况下发展 壮大的时候,必须将这些数据捕获到数据仓库中。数据仓库中使用的数 据源必须被标识,并且进行技术开发以便从中析取数据。 ( 2 ) 数据准备区 用于数据仓库的数据必须从数据源中析取,进行清理及格式化以保 持一致性,并转换为数据仓库架构。数据准备区有时称为数据中间存储 区。它是关系数据库,在这里从数据源中析取数据,将数据转换为常用 格式,检查致性和引用完整性,并准备装入数据仓库数据库。在某些 数据仓库实施方案中,数据准备区和数据仓库数据库可以组合在一起, 只要清理和转换操作不影响为数据仓库数据的最终用户提供服务的性能 或操作即可。由于数据源不同以及数据准备操作强加在联机事务处理系 统上的处理负荷,几乎无法选择在源数据库中执行准备操作。用于数据 2 中国石油大学( 华东) 硕士论文第2 章数据仓库与数据挖掘技术概述 准备操作的关系数据库无论在何处执行,都必须具有强大的数据操作和 转换功能。 最初装载数据仓库后,需不断地利用数据准备区为更新数据仓库准 备新数据。在大多数数据仓库系统中,这些不断进行的操作是定期执行 的,常被调度以使对可操作数据源系统的影响最小。使用数据仓库和独 立于数据源的数据准备区可提高管理数据仓库的效率。尝试转换数据源 系统中的数据会对联机事务处理的性能造成不良影响,而许多传统系统 没有高效的或容易执行的转换功能。很少能够协调从不同数据源中析取 的不一致的数据,直到将数据收集到公用数据库中,才可以更轻松地识 别和纠正数据完整性错误。 数据准备区应将原始数据同数据仓库数据隔离开,以保护数据仓库 的完整性并允许数据仓库执行其准备显示信息和支持客户端访问的主要 功能。在将数据仓库数据库用于数据准备时应小心,避免将错误引入数 据仓库数据并尽量减小数据准备处理对数据仓库性能的影响。许多数据 仓库数据库操作要求高效的查询和能够处理大量数据,数据清理会对这 些操作造成不良影响。 数据准备区是关系数据库,它为数据准备操作的常规工作区提供服 务。它包含源数据的相关的表、转换数据的表,以及许多临时表,还包 含从源数据系统中析取数据的进程和过程。 ( 3 ) 数据仓库数据库 关系数据库是为数据仓库提供强大功能的基础引擎。许多特性和功 能已经开发出来并得到增强,使得关系数据库成为联机事务处理系统的 主力,而且这些特性和功能可直接应用于数据仓库。关系数据库用于数 据仓库系统,其作用是在数据准备数据库中临时存储、清理和转换传入 的数据,容纳和管理数据仓库数据库中的大量数据,并支持数据集市。 中国石油大学( 华东) 硕士论文第2 章数据仓库与数据挖捌技术概述 数据仓库存储、管理和操作巨大的数据量,这些数据常由数亿行历 史信息组成。关系数据库必须提供快速的数据传输和灵活高效的索引, 以及先进高效的查询能力,以便组织和检索数据仓库的数据。在o l t p 系 统中,先进的锁定机制和高度的多表事务吞吐量可能比在数据仓库中更 重要,但这样的功能通常基于极其高效的关系引擎进行设计,而这在数 据仓库操作中非常重要。 ( 4 ) 数据集市 在有些数据仓库版本中,数据集市是微型的数据仓库;而在有些版 本中,数据集市仅仅是数据仓库的一段。数据集市通常用于为单位的职 能部门提供信息。数据集市还可用于将数据仓库数据分段以反映按地理 划分的业务,其中每个地区都是相对自治的。例如,大型服务单位可能 将地区运作中心视为单独的业务单元,每个这样的单元都有自己的数据 集市以补充主数据仓库。 在有些设计中,数据集市是完全独立的数据仓库,作为分布式数据 仓库成员补充总体结构。而在有些设计中,数据集市则通过定期更新, 接收来自主数据仓库的数据,在这种情况下,数据集市的功能经常受限 于客户端的显示服务。无论数据集市提供何种功能,它们都必须被设计 为主数据仓库的组件,以使数据的组织、格式和架构在整个数据仓库内 保持一致。表的设计、更新机制或维度层次结构如果不一致,可能会使 数据无法在整个数据仓库内重新使用,并可能导致由相同的数据生成不 一致的报表的情况。没有必要为获得一致而将一个数据视图强加在所有 数据集市上,通常可以设计一致的架构和数据格式,使得可以有很多不 同的数据视图同时保持互操作性。应从作为数据仓库组件的角度设计数 据集市,而无需考虑它们各自的功能或构造。这使得信息在整个单位内 保持一致和可用。根据数据集市的设计方式,o r a c l e 中用于数据集市的 1 4 中国石油大学( 华东) 硕士论文第2 章数据仓库与数据挖掘技术概述 工具可以包括任何用于数据仓库的工具。如果数据集市在本地创建和维 护并作为独立的实体参与单位的数据仓库,则数据集市的创建和维护将 涉及对数据仓库的所有操作。如果数据集市是从中央数据仓库分发数据 的本地访问点,则只可能包含工具的子集。 ( 5 ) 显示服务 数据仓库的目的是表现业务信息,供单位的决策者使用。如果没有 工具帮助它分析和评估,包含数亿条数据的数据仓库对决策者将毫无用 处。这些分析工具在简单的报表和高级的数据挖掘算法之间可能有所不 同。应用程序接口还必须能够支持开发使用数据仓库信息的自定义应用 程序。 a 联机分析处理 联机分析处理很适合探测分析。分析者希望在数据中发现趋势和异 常,并探测数据的不同区域以找到趋势和异常的根源。联机分析处理 ( o l a p ) 是一个分析工具,旨在帮助对大量的数据仓库数据进行这种分析。 为探测数据仓库中的数据,管理人员询问有关数据的问题,然后根据答 案询问相关的或不同的问题。 b 数据挖掘 o l a p 将数据组织为预定义的多维结构以便于探测,而数据挖掘与 o l a p 相反,其目的是执行探测分析并识别信息中有趣且有价值的东西, 如将数据分组以供分析者或管理人员检查。数据挖掘还可创建决策树, 用于根据现有数据元素的特性预测将来的数据。 c 预定义报表 预定义报表很适合其特殊目的。简单的预定义汇总报表可以定期或 根据需要,为管理人员提供某个即时点的业务状态快照。更高级的报表 可以显示预定义的业务变化的趋势。这样的报表很有用,并且一直都是 中国石油大学( 华东) 硕十论文第2 章数据仓库与数据挖掘技术概述 从联机事务系统中生成的。若要捕获最新状态,必须不断地从数据源系 统中生成快照的详细信息和汇总报表。定期报表与数据仓库的更新相协 调,并且可以转换到数据仓库以减少可操作系统的负荷。使用历史数据 评估趋势的报表应在数据仓库中完成,数据仓库中包含具有适当格式且 随时可用的历史数据,并且可以处理大量的汇总数据。 2 1 5 数据仓库的相关概念 数据仓库除了具有上述的四个基本特征外,还有几个与数据仓库相 关的重要概念,了解这几个概念有助于理解数据仓库的设计过程。 ( 1 ) 粒度:粒度问题是设计数据仓库的关键。粒度是指数据仓库中 数据细化或综合程度的级别。细化程度越高,粒度级别就越小;反之, 细化程度越低,粒度级就越大。在操作型环境中,应用程序可以访问原 子级别的数据,因此,数据的粒度很小;而在数据仓库环境中,一些访 问是相对概括的、而某些时候又需要访问细节的数据;另外,数据的粒 度与数据仓库的存储容量也有关系,粒度越小,数据存储量就大;粒度 越小,数据存储量就相对较小。在设计数据仓库时,应该在存储容量以 及访问效率和数据粒度之间权衡。 ( 2 ) 分割:分割是指将数据分散到各自的物理单元中去以便能分别 独立的处理,以提高数据处理效率。数据分割以后的数据单元称为分片。 数据分割的标准可以根据实际情况来取定,通常可以选择日期、地域或 业务领域来进行分割,也可以按多个分割标准来进行。分割之后,小单 元内的数据相对独立,处理起来更快,更容易。数据分割使数据更易于 重构、索引、重组、恢复、监控和顺序扫描。 ( 3 ) 元数据:元数据是关于数据的“数据”,用来描述数据的含义, 有了元数据就可以更好地理解、管理和使用企业所拥有的数据。一个典 型的例子就是图书馆中的图书目录,人们进入图书馆,首先要根据图书 6 中国石油大学( 华东) 硕十论文第2 章数据仓库与数据挖掘技术概述 目录来查找自己想要的图书,然后再根据查到的书号到相应的位置提取 所需的图书。事实上,图书目录就是关于图书的“元数据”。在数据仓 库系统中,元数据的内容很多,概括起来主要有两种:技术元数据和业 务元数据。 2 2 数据挖掘概述 2 2 1 数据挖掘的定义 数据挖掘( d a t am i n i n g ) 就是从大量的、不完全的、有噪声的、模糊 的、随机的数据中,提取隐含在其中的、人们事先不知道的、但又是潜 在有用的信息和知识的过程。还有很多和这一术语相近似的术语,如 从数据库中发现知识( k d d ) 、数据分析、数据融合( d a t af u s i o n ) 以及决 策支持等。人们把原始数据看作是形成知识的源泉,就像从矿石中采矿 一样。原始数据可以是结构化的,如关系数据库中的数据,也可以是半 结构化的,如文本、图形、图像数据,甚至是分布在网络上的异构型数 据。发现知识的方法可以是数学的,也可以是非数学的i 可以是演绎的, 也可以是归纳的。发现了的知识可以被用于信息管理,查询优化、决策 支持、过程控制等,还可以用于数据自身的维护。 2 ,2 2 数据挖掘的过程 基于数据库的数据挖掘和知识发现的过程,如图2 2 所示: 图2 - 2 知识挖掘过程图 从图中可见,知识挖掘过程是多个步骤相互连接起来,反复进行人 机交互的过程9 ”1 。具体说明如下: 中国石油大学( 华东) 硕士论文第2 章数据仓库与数据挖掘技术概述 ( 1 ) 学习某个应用领域:包括应用中的预先知识和目标。 ( 2 ) 建立一个目标数据集:选择一个数据集或在多数据集的子集上 聚焦。 ( 3 ) 数据清理和预处理:去除噪声或无关数据,去除空白数据域, 考虑时间顺序和数据的变化等。 ( 4 ) 数据转换:找到数据的特征进行编码,减少有效变量的数目。 ( 5 ) 选定数据挖掘算法:决定数据开采的目的,用知识发现过程中 的准则选择某一个特定数据开采算法( 如汇总、聚类、分类、回归等) 用 于搜索数据中的模式,它可以是近似的。 ( 6 ) 数据挖掘:通过数据挖掘方法产生一个特定的感兴趣的模式或 一个特定的数据集。 ( 7 ) 解释:解释某个发现的模式,去掉多余的不切题意的模式,转 换某个有用的模式为知识。 ( 8 ) 评价知识:将这些知识放到实际系统中,查看这些知识的作用, 或者证明这些知识,用预先可信的知识检查和解决知识中可能的矛盾。 2 2 3 数据挖掘的功能 数据挖掘的功能和目标是从数据库中发现隐含的、有意义的知识, 主要有以下五类功能“: ( 1 ) 自动预测趋势和行为 数据挖掘自动在大型数据库中寻找预测性信息,以往需要进行大量 手工分析的问题如今可以迅速直接由数据本身得出结论。一个典型的例 子是市场预测问题,数据挖掘使用过去有关促销的数据来寻找未来投资 中回报最大的用户,其它可预测的问题包括预报破产以及认定对指定事 件最可能做出反应的群体。 ( 2 ) 关联分析 中国石油大学( 华东) 硕士论文第2 章数据仓库与数据挖掘技术概述 数据关联是数据库中存在的一类重要的可被发现的知识。若两个或 多个变量的取值之间存在某种规律性,就称为关联。关联可分为简单关 联、时序关联、因果关联。关联分析的目的是找出数据库中隐藏的关联 网有时并不知道数据库中数据的关联函数,即使知道也是不确定的,因 此关联分析生成的规则带有可信度。 ( 3 ) 聚类 数据库中的记录可被化分为一系列有意义的子集,即聚类。聚类增 强了人们对客观现实的认识,是概念描述和偏差分析的先决条件。聚类 技术主要包括传统的模式识别方法和数学分类学。8 0 年代初,m c h a l s k i 提出了概念聚类技术其要点是,在划分对象时不仅考虑对象之间的距离, 还要求划分出的类具有某种内涵描述,从而避免了传统技术的某些片面 性。 ( 4 ) 概念描述 概念描述就是对某类对象的内涵进行描述,并概括这类对象的有关 特征。概念描述分为特征性描述和区别性描述,前者描述某类对象的共 同特征,后者描述不同类对象之间的区别。生成一个类的特征性描述只 涉及该类对象中所有对象的共性。生成区别性描述的方法很多,如决策 树方法、遗传算法等。 ( 5 ) 偏差检测 数据库中的数据常有一些异常记录,从数据库中检测这些偏差很有 意义。偏差包括很多潜在的知识,如分类中的反常实例、不满足规则的 特例、观测结果与模型预测值的偏差、量值随时间的变化等。偏差检测 的基本方法是,寻找观测结果与参照值之间有意义的差别。 2 2 4 数据挖掘的算法 数据挖掘的算法就是对数据对象进行建模的方法“1 。它通常是一 1 9 中国石油大学( 华东) 硕士论文第2 章数据仓库与数据挖掘技术概述 个能够用语言来描述的、具有相似特征的算法集合。一种算法可以同时 完成多种数据挖掘知识模型。常用的数据挖掘算法有神经网络方法、遗 传算法、决策树方法、粗集方法、覆盖正例排斥反例方法、统计分析方 法和模糊集方法等。 ( 1 ) 神经网络方法 神经网络由于本身良好的鲁棒性、自组织自适应性、并行处理、分 布存储和高度容错等特性非常适合解决数据挖掘的问题,因此近年来越 来越受到人们的关注。典型的神经网络模型主要分3 大类:以感知机、 b p 反向传播模型、函数型网络为代表的,用于分类、预测和模式识别的 前馈式神经网络模型:以h o p f i e l d 的离散模型和连续模型为代表的,分 别用于联想记忆和优化计算的反馈式神经网络模型;以a r t 模型、 k o h o l o n 模型为代表的,用于聚类的自组织映射方法“。神经网络方法 的缺点是“黑箱”性,人们难以理解网络的学习和决策过程。 ( 2 ) 遗传算法 遗传算法是一种基于生物自然选择与遗传机理的随机搜索算法,是 一种仿生全局优化方法“”“4 。遗传算法具有的隐含并行性、易于和其它 模型结合等性质使得它在数据挖掘中被加以应用。 s u n i l 已成功地开发了一个基于遗传算法的数据挖掘工具,利用该 工具对两个飞机失事的真实数据库进行了数据挖掘实验,结果表明遗传 算法是进行数据挖掘的有效方法之一“。遗传算法的应用还体现在与 神经网络、粗集等技术的结合上。如利用遗传算法优化神经网络结构, 在不增加错误率的前提下,删除多余的连接和隐层单元;用遗传算法和 b p 算法结合训练神经网络,然后从网络提取规则等。但遗传算法的算法 较复杂,收敛于局部极小的较早收敛问题尚未解决。 ( 3 ) 决策树方法 中国石油大学( 华东) 硕士论文第2 章数据仓库与数据挖掘技术概述 决策树是一种常用于预测模型的算法,它通过将大量数据有目的分 类,从中找到一些有价值的,潜在的信息“”“”。它的主要优点是描述简 单,分类速度快,特别适合大规模的数据处理。最有影响和最早的决策 树方法是由q u i n l a n 提出的著名的基于信息熵的i d 3 算

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论