(管理科学与工程专业论文)基于高校复杂科研信息的数据仓库与知识发现应用研究.pdf_第1页
(管理科学与工程专业论文)基于高校复杂科研信息的数据仓库与知识发现应用研究.pdf_第2页
(管理科学与工程专业论文)基于高校复杂科研信息的数据仓库与知识发现应用研究.pdf_第3页
(管理科学与工程专业论文)基于高校复杂科研信息的数据仓库与知识发现应用研究.pdf_第4页
(管理科学与工程专业论文)基于高校复杂科研信息的数据仓库与知识发现应用研究.pdf_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

中文摘要摘要随着知识型社会的到来,科研水平成为衡量高校综合实力的重要指标。为了发现科研管理中存在的问题,管理者迫切需要利用历史科研数据来获取决策支持信息。由于历史科研数据是面向事务处理的,不能直接为管理者提供需要的信息,因此需要构建数据仓库并进行数据的分析和挖掘。联机分析处理技术能让管理者从多个不同的角度来观察和分析感兴趣的数据。数据挖掘能发现数据之间隐藏的联系。使用这些技术能够获取有价值的信息来辅助管理决策。本文通过对数据仓库的数据组织结构进行研究,提出了科研项目数据仓库的数据组织与分析结构模型,依据该模型能够得到多层次的管理信息。首先,搜集某高校历史科研数据作为模型中的第一层次数据。在分析原始数据和管理需求的基础上,设计了科研项目多维数据集的雪花模型并完成了相应数据的抽取、清洗和转换工作。处理后的细节数据存储在s q ls e r v e r2 0 0 0 关系数据库中,成为数据仓库的第二层次数据。然后利用s q ls e r v e r2 0 0 0a n a l y s i ss e r v i c e s 作为o l a p 分析工具实现了科研项目多维数据立方体的创建,并进行了切片和钻取等多维分析操作,该立方体中的综合数据成为数据仓库的第三层次数据。在科研项目数据仓库建立完成之后,利用s p s s1 7 0 统计分析工具,基于k m e a n s 聚类算法先后进行了项目情况和教师合作情况两个层次的数据挖掘。最后,利用表格和图形对整理后的挖掘结果和综合数据进行了分析和展示。分析结果显示,2 0 0 7 年之后的年份中高层次的纵向项目数量少,主要纵向经费来源于省级和市级项目。尽管项目的总数量在增加,但是近两年增加的主要都是2 0 万以下的项目。高级职称是科研主干力量,但是他们之间相互合作较少。5 0万以下的项目主要由一个高级职称或副高级职称独立完成项目。在5 0 万以上的项目中,一个高级职称与副高级职称的合作的项目增多,但是近两年中,1 0 0 万以上纵向项目中教师之间的合作非常少。本文的研究为管理者提供了不同层次的管理信息,对制定有效科研政策来引导教师科研行为具有重要意义。关键词:数据仓库;科研项目信息:o l a p ;k - m e a n s 聚类;知识发现英文摘要a b s t r a c tw i t ht h ec o m i n go fk n o w l e d g es o c i e 够, s c i e n t i f i cr e s e a r c hl e v e lb e c o m e sa ni m p o r t a n ti n d i c a t o rt om e 删r et h ec o m p r e h e n s i v es t r e n g t ho fc o l l e g e s i no r d e rt of i n do u tp r o b l e m si nr e s e a r c hm a n a g e m e n t , m a n a g e r sa r ea r l x i o u st om a k eu s e f u lo ft h eh i s t o r i c a lr e s e a r c hd a t at oo b t a i nd e c i s i o ns u p p o r ti n f o r m a t i o n a st h eh i s t o r i c a lr e s e a r c hd a t ai st r a n s a c t i o no r i e n t e da n d c a nn o tp r o v i d en e e d e di n f o r m a t i o nd i r e c t l yt om a n a g e r s ,s oi ti sn e c e s s a r yt ob u i l dd a t aw a r e h o u s ea n di m p l e m e n td a t aa n a l y s i sa n dd a t am i n i n g o n l i n ea n a l y t i c a lp r o c e s s i n ge n a b l e sm a n a g e r st oo b s e r v ea n da n a l y z et h ed a t at h e ya r ei n t e s t e di nf r o md i f f e r e n ta n g l e sa n dl e v e l s d a t am i n i n gc a nf i n dt h ec o n c e a lr e l a t i o n s h i pa m o n gd a t a t h e s et e c h n o l o g i e sc a nb eu s e dt oo b t a i nv a l u a b l ei n f o r m a t i o nt os u p p o r tm a n a g e m e n td e c i s i o n b ys t u d y i n gd a t ao r g a n i z a t i o ns t r u c t u r eo fd a t aw a r e h o u s e ,t h i sp a p e rp r o p o s e sad a t ao r g a n i z a t i o na n da n a l y s i ss t m c t u r em o d e lo fs c i e n t i f i cr e s e a r c hp r o je c t ,s oi n f o r m a t i o na td i f f e r e n tl e v e l sc a nb eo b t a i n e d f i r s t , t h eh i s t o r i c a lr e s e a r c hd a t ai sc o l l e c t e da st h ef i r s tl e v e ld a t ai nt h i sm o d e l b a s e do nt h ea n a l y s i so fo r i g i n a ld a t aa n dm a n a g e m e n tr e q u i r e m e n t s ,as t a rs c h e m ao fr e s e a r c hp r o j e c th a sb e e n d e s i g n e da n dt h ea c c o r d i n gd a t ae x t r a c t i o n , d a t ac l e a n i n ga n dd a t at r a n s f o r m a t i o nh a v eb e e ni m p l e m e n t e d t h ep r o c e s s e dd e t a i ld a t ai ss t o r e di nr e l a t i o n a ld a t a b a s es q ls e r v e r2 0 0 0a n db e c o m e st h es e c o n dl e v e ld a t a t h e nm u l t i - d i m e n s i o n a ld a t ac u b eh a sb e e nc r e a t e du s i n gs q ls e r v e r2 0 0 0a n a l y s i ss e r v i c e sa st h et o o lo fo l a p ,a n dd a t as l i c i n ga n dd r i l l i n gh a v eb ed o n eo nt h ed a t ac u b e t h ei n t e g r a t e dd a t ai nt h ec u b eb e c o m e st h et h i r dl e v e ld a t a w h e nt h ed a t aw a r e h o u s ei sc r e a t e d ,t w ol e v e l so fd a t am i n i n go fp r o j e c ta n dt h ec o l l a b o r a t i o na m o n gt e a c h e r sh a v eb e e nd o n eb a s e do nk - m e a n sc l u s t e r i n ga l g o r i t h mu s i n gs p s s17 0 f i n a l l y ,t h ef i n a lr e s u l t so fd a t am i n i n ga n di n t e g r a t e dd a t af r o mc u b ea r ea n a l y z e da n dd i s p l a y e db yt a b l e sa n dg r a p h i ct o o l st h er e s u l t so fa n a l y s i ss h o w st h a ti nt h ey e a ra f t e r2 0 0 7 ,t h e r ea r el e s sh i 曲l e v e ll o n g i t u d i n a lp r o j e c t sa n dm a i nl o n g _ j i t u d i n a lf u n d sc o m ef r o mp r o v i n c i a ll e v e lp r o j e c t sa n dc i t yl e v e lp r o j e c t s a l t h o u g ht h et o t a ln u m b e ro fp r o j e c t si si n c r e a s i n g ,t h em a i ni n c r e a s i n gp r o j e c t sa r eb e l o w2 0 0 ,0 0 0 r m b s e n i o rt i t l e sa r et h em a i nw o r kf o r c eo fr e s e a r c hw o r k ,b u tt h e ys e l d o mc o l l a b o r a t ew i t he a c ho t h e r m o s tp r o j e c t sb e l o w英文摘要5 0 0 ,0 0 0 r m ba r ea c c o m p l i s h e do n l yb yo n es e n i o rr i f l eo ro n ev i c e - s e n i o rt i t l e i np r o j e c t sa b o v e5 0 0 ,0 0 0 r m b ,t h en u m b e ro fp r o j e c t sa t t e n d e db yo n es e n i o rr i f l ea n ds o m ev i c e s e n i o rr i f l e si n c r e a s e s h o w e v e r ,i n2 0 0 8a n d2 0 0 9 ,t e a c h e r ss e l d o mc o l l a b o r a t e 、) l ,i me a c ho t h e ri nl o n g i t u d i n a lp r o j e c t sa b o v eo n em i l l i o nr m b t h er e s e a r c hi n t h i sp a p e rp r o v i d e sd i f f e r 铋tl e v e l si n f o r m a t i o nt om a n a g e r sa n di sm e a n i n g f u lf o rt h e mt om a k ee f f e c t i v es c i e n t i f i cr e s e a r c hp o l i c yt og u i d et h ea c t i o no fr e s e a r c ho ft e a c h e r s k e yw o r d s :d a t aw a r e h o u s e ;s c i e n t i f i cr e s e a r c hp r o j e c ti n f o r m a t i o n ;o l a p ;k - m e a n sc l u s t e r i n g ;k n o w l e d g ed i s c o v e r y大连海事大学学位论文原创性声明和使用授权说明原创性声明本人郑重声明:本论文是在导师的指导下,独立进行研究工作所取得的成果,撰写成硕士学位论文= = 基王直撞复苤型婴焦星的数握垒定量塑识筮现廑旦班塞:。除论文中已经注明引用的内容外,对论文的研究做出重要贡献的个人和集体,均已在文中以明确方式标明。本论文中不包含任何未加明确注明的其他个人或集体已经公开发表或未公开发表的成果。本声明的法律责任由本人承担。学位论文作者签名:嚣烫至学位论文版权使用授权书本学位论文作者及指导教师完全了解大连海事大学有关保留、使用研究生学位论文的规定,即:大连海事大学有权保留并向国家有关部门或机构送交学位论文的复印件和电子版,允许论文被查阅和借阅。本人授权大连海事大学可以将本学位论文的全部或部分内容编入有关数据库进行检索,也可采用影印、缩印或扫描等复制手段保存和汇编学位论文。同意将本学位论文收录到中国优秀博硕士学位论文全文数据库( 中国学术期刊( 光盘版) 电子杂志社) 、中国学位论文全文数据库( 中国科学技术信息研究所) 等数据库中,并以电子出版物形式出版发行和提供信息服务。保密的论文在解密后遵守此规定。本学位论文属于:保密口在年解密后适用本授权书。不保密口( 请在以上方框内打“)论文作者签名:豫暑至导师签名:弋日期:年月日基于高校复杂科研信息的数据仓库与知识发现应用研究第1 章绪论1 1课题背景及意义数据仓库和数据挖掘技术是现代信息技术的研究热点,已经广泛运用于市场分析、电子商务、金融、生产等领域,但是在教育领域运用较少,主要是因为高校科研信息系统的使用时间短,数据积累量小,相关的研究也比较少。近年来,很多高校的科研管理系统中都积累了大量的数据,但是这些数据未得到充分利用。由于科研水平是衡量高校综合实力的一个重要指标,也关系到国家的科技自主创新能力,所以高校管理者迫切需要利用历史数据发现管理中存在的问题,有利于调整科研政策。高校科研工作的主干力量是教师,教师的科研工作主要为项目、论文和著作三个方面,其中科研项目是科研经费的主要来源,也是科研工作的重点。目前关于科研信息的分析和挖掘存在分析范围广而不深入的缺点,挖掘出的信息层次较低,往往不能真正为管理决策所用。本文只针对最重要的科研项目数据进行深层次的信息挖掘和分析。影响项目科研水平的两个重要方面是科研项目的数量、经费结构和教师之间的合作。科研项目大类分为纵向项目和横向项目。横向项目侧重应用研究,创新性相对比较低。纵向项目侧重理论研究,创新性较高。纵向项目也有不同的级别,纵向项目的数量和经费对科研项目水平有着重要的影响,所以分析项目的结构是否合理对提高高校科研水平有重要意义。另一方面,教师是从事科研活动的主要工作者,他们的科研行为对项目结构和科研水平有着直接的影响。教师之间的合作,有利科研团队人员的优势互补,有利于新的科研力量的培养,也有利于经费多的纵向项目和横向项目的申请。研究不同职称教师之间的合作情况,制定更好的科研政策来引导他们的科研行为,对于提高科研水平有着重要意义。本文分析的信息层次较高,与管理需要紧密结合,能真正为管理者做决策提供有用的信息,具有非常重要的意义。第1 章绪论1 2 课题主要技术及其国内外研究现状1 2 1 数据仓库研究现状数据仓库( d a t aw a r e h o u s e ,d w ) 并不是一个新概念,j o h n s t o n ( 2 0 0 1 ) 追溯到关于数据仓库最早的研究是从1 8 5 4 年开始的【1 1 。2 0 世纪9 0 年代以来,数据仓库作为一种有效提高商业计划和决策水平的手段,一直位于信息技术应用的前沿。1 9 9 3 年,公认的数据仓库之父w h h l m o r l 博士正式提出了数据仓库的概念【2 】,数据仓库的理论研究逐步深入。数据模型和元数据的管理是国外数据仓库理论研究的重点。国内的研究重点主要集中在数据仓库的架构研究方面,包括数据仓库结构的设计,多维数据立方体的建模、计算和操作等。随着计算机应用的普及,各行各业都积累了大量的历史数据,迫切需要使用数据仓库来增大效益。数据仓库技术发展迅速,已经出现比较成熟的通用产品,但是还不能与具体应用很好地融合。目前数据仓库在各种领域的应用研究成为国内外研究的热点【3 】。近年来,o r a c l e 、s a s 、m m 、m i c r o s o f t 、s y b a s e 等公司纷纷推出了自己的数据仓库产品,占据全球近9 0 的市场份额,形成了比较成熟的通用数据仓库产品市场 4 】。据r r 领域著名的调研与咨询机构m e t ag r o u p 指出,数据仓库技术已经在制造业、零售业、金融服务业、交通、通信、医疗等领域成功运用【5 】。在国内,数据仓库已经在金融、通信、电子商务和市场分析中开始得到运用。但是对于大多企业来说,数据仓库还是一个新事物,加上数据仓库的建立、实施和维护耗时长、价格昂贵,常常需要几亿美元的费用,而数据仓库项目的失败率却在6 0 左右【5 】,所以国内的数据仓库应用还比较落后。对于数据仓库失败的原因,f o x ( 2 0 0 0 )指出8 5 的数据仓库项目失败是因为没有满足预期的目标【1 】。目前,数据仓库在高校科研领域的研究和应用还相对较少。文献f 9 ,3 3 ,3 4 q b 开展了对高校科研管理信息集成和信息挖掘的研究并建立了数据仓库系统,但是模型的构建也过于简单,不能满足实际的管理需要。随着高校科研数据的不断积累和管理需求的不断加大,对数据仓库在科研领域的应用研究会不断深入。基于高校复杂科研信息的数据仓库与知识发现应用研究1 2 2 联机分析处理技术研究现状1 9 9 3 年,关系数据库之父e f c o d d 提出联机分析处理( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 的概念【6 】,届时,o l a p 作为一类产品同在线事务处理( o n l i n e t r a n s a c t i o np r o c e s s i n g ,o l t p ) 明显区分开来。经过十几年的发展,国外涌现出许多o l a p 工具,例如c o g n o s 公司的p o w e r p l a y 、m i c r o s o f t 公司的s q ls e r v e ro l a ps e r v i c e s 、o r a c l e 公司的o r a c l ee x p r e s ss e r v e r 、i b m 公司的d b 2o l a ps e r v e r 、i n f o r m i x 公司的i n f o r m i xm e t a c u b e 、e s s b a s e 公司的h y p e r i o ne s s b a s e 、s y b a s e 公司的p o w e rd i m e n s i o n 、b u s i n e s so b j e c t s公司的b u s i n e s so b j e c t s 和b r i o 公司的b r i oe n t e r p r i s e 等用。相对于国外此类技术的蓬勃发展,国产软件才刚刚起步。目前o l a p 技术已经比较成熟,正朝着与其他技术相结合的方向发展,出现了几个新的研究热剧8 】:1 ) 数据挖掘和网络的集成,称为基于网络的联机分析挖掘( o n l i n ea n a l y t i c a lm i n i n g ,简称o l a m ) ,成为o l a p 技术发展的一个新方向。2 ) 随着数据库技术的发展,联机分析处理的对象出现空间数据库、多媒体数据库、超文本数据库、面向对象数据库、时序数据库等,对各种高级数据库的联机分析处理是o l a p 研究的又一个新的热点。3 ) 分布式的o l a p 技术是o l a p 技术在分布式数据仓库上的应用,这也是o l a p 研究的一个方向。1 2 3 数据挖掘技术研究现状数据挖掘( d a t a m i n i n g ,d m ) 的诞生可追溯到2 0 世纪8 0 年代。“数据挖掘的概念最早是由u s a m af a y a a d 于1 9 9 5 年在加拿大蒙特利尔的第一届知识发现和数据挖掘国际会议上提出的【9 1 。作为数据库研究和应用的活跃分支,数据挖掘成为许多国际学术会议的焦点。近年来,国内外数据挖掘的研究重点己从算法研究向具体应用过渡,逐步走向商品化阶段 1 0 】。目前国外已经拥有很多技术成熟、有较强产业化能力的数据挖掘软件,主要有【l l 】:第1 章绪论1 ) s p s sc l e m e n t i n e :s p s s 是出现较早的分析软件,能够用于多种商业平台。1 9 9 8 年末s p s s 获得了英国i s l 公司的c l e m e n t i n e 数据挖掘包,使用该产品可以在同一个工作流环境中实现数据清理、数据转换和数据构建。2 ) s a s 公司的e n t e r p r i s em _ i i l e r :s a s 全称是s t a t i s t i c sa n a l y s i ss y s t e m ,是使用最为广泛的三大著名统计分析软件之一。s a se n t e r p r i s em i n e r 为用户提供了用于建模的一个图形化流程处理环境。3 ) o r a c l e :o r a c l e9 i 包含了基于贝叶斯和关联的一组数据挖掘算法,o r a c l e1 0 9包含更多的数据挖掘工具和算法,其中o r a c l ed a t am i n i n g 提供了包括关联挖掘、分类、回归、预测等一系列数据挖掘功能。4 ) m i c r o s o f t :m i c r o s o f t 公司的s q ls e r v e r2 0 0 0 中包含了决策树和聚类算法,s q ls e r v e r2 0 0 5 将多种数据挖掘功能平滑地合并到关系数据库系统和数据仓库环境中。我国数据挖掘研究于2 1 世纪方才起步,但也出现不少新兴的数据挖掘软件,如上海复旦德门软件公司开发的d m i n e r 和海尔青大公司开发的i d m i n e r 等。虽然数据挖掘产品尚不成熟,但是越来越多的大中型企业开始利用数据挖掘来分析公司的数据。数据挖掘的典型应用领域包括:市场分析和预测、工业生产、金融、科学研究、w e b 数据挖掘、工程诊断等。随着数据挖掘的发展和成熟,数据挖掘的功能越来越强大,数据挖掘的对象形式逐渐多样化,目前数据挖掘方法上的研究热点有:全局和局部相结合的数据挖掘、基于数据粒度表示的挖掘、基于局部模式的全局模型挖掘和基于局部模式的全局信息获取等。应用上的研究热点主要有w e b 挖掘、空间数据库挖掘、多媒体数据库挖掘、文本挖掘、生物信息或基因的数据挖掘、关系数据挖掘、数据流挖掘、隐私保护数据挖掘等几个方向【1 0 1 。1 一论文的研究内容本文研究的关键内容分为以下四个方面:1 1 数据仓库基层数据的获取,主要包括对数据抽取、数据清洗、数据集成和数据转换技术的研究。基于高校复杂科研信息的数据仓库与知识发现应用研究2 ) 数据仓库多维数据集的模型设计、多维立方体的创建和多维分析操作。3 ) 数据仓库的数据组织层次。4 ) 如何使用s p s s 工具对科研项目数据进行基于k - m e a n s 算法的多层次挖掘。通过以上研究找出科研项目的经费和数量变化动态以及各级职称教师之间的合作情况。1 4 论文的内容结构本文内容的章节安排如下:第1 章简单介绍课题的研究背景及意义,并对本文涉及的数据仓库、联机分析处理和数据挖掘技术的研究现状做综述性论述。第2 章详细阐述数据仓库、联机分析处理和数据挖掘技术的基本理论,主要包括数据仓库的数据组织级别和建模方法、联机分析处理的体系结构和多维分析操作、数据挖掘的经典算法和步骤等。第3 章分析管理需求并提出本文的数据组织和分析模型。建立科研项目多维数据集的雪花模型,在o l a p 中实现项目多维数据立方体的创建与数据浏览,并对数据进行切片和钻取等多维分析操作。利用s p s s 统计分析工具,基于k - m e a n s算法实现对科研项目数据的多层次数据分析和挖掘。第4 章分析和展示实验结果,包括科研项目信息分析、高级职称科研数据分析、副高级职称科研数据分析和中级职称科研数据分析。第5 章主要总结本文的研究工作,并对以后的工作提出展望。基于高校复杂科研信息的数据仓库与知识发现应用研究第2 章高校科研信息知识发现理论基础及关键技术2 1 数据仓库理论2 1 1 数据仓库的定义及特征对数据仓库最普遍的定义由数据仓库之父w i l l i a mh i l l m o r l 在( ( b u i l d i n gt h ed a t a w a r e h o u s e ) ) 一书中提出的,他对数据仓库的定义是:“面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用以支持经营管理中的决策制定过程”【2 】。数据仓库的数据与企业的操作型数据库数据是相分离的。数据仓库的作用是存储和管理大量从事务型操作系统中抽取、集成的商业数据并为联机分析处理和数据挖掘提供数据基础,并便于知识分析者和管理者获取有用的信息。其主要的目标是提供企业的完整的、实际的业务情况来帮助管理者提高决策质量而不是实时响应。在数据仓库中,关心的是历史的、汇总的数据,而不是实时的、细节的数据。与传统数据库相比,数据仓库具有以下四个特征【1 1 】:( 1 ) 面向主题数据仓库是面向主题的是因为它把重点从面向应用的数据转移到了决策支持的数据上。换句话说,数据仓库中的数据不再是按功能来组织的支持业务的数据,而是按主题来组织的支持决策的数据。操作型数据库的数据组织是面向事务处理任务的,各个业务功能系统之间各自分离f 9 】比如商品的采购信息位于采购子系统,销售信息位于销售子系统。与操作型数据库不同,数据仓库的数据是按主题来组织的。主题是用户决策时所关心的重点方面,一个主题对应一个分析领域,所以主题的抽取应该是按照分析的要求来确定的。主题应该具有独立性和完备性两个特征1 6 。独立性要求主题必须具有独立内涵,有明确的界限。完备性要求一切关于主题的分析处理都能在主题中找到相应的内容。与一个主题相关的数据常常来自多个不同的操作型信息系统,建立面向主题的数据仓库常常需要集成、整合这些数据 1 2 】。比如超市管理者希望了解有关商品的所有情况,那么商品就是一个主题。商品主题包括了商品的基本信息、采购信息、销售信息和库存信息。第2 章高校科研信息知识发现理论基础及关键技术( 2 ) 集成的面向事务处理的操作型数据通常与某些特定的应用相关,数据库之间相互独立,并且往往是异构的【1 2 】。很多企业由于各个部门或者各个子公司运用信息系统的时间不一致,往往各自拥有一套独立的信息系统,形成企业的信息孤岛。虽然每个子系统都能支持日常运营,但是管理者无法从各个独立、异构的数据库中获取关于企业的全局信息去辅助决策。数据仓库的集成性是指数据进入数据仓库之前,要对源数据进行抽取、清洗、加工、整理、集成,消除数据不一致性,并且数据的组织要从面向应用转变为面向主题,以保证数据仓库内的信息是关于整个企业的一致的全局的信剧1 2 】。( 3 ) 相对稳定的相对稳定是指数据仓库中的数据很少修改或者根本不修改。操作型数据库中的数据通常需要实时更新,数据根据需要及时发生变化,比如超市销售数据是随着商品销售实时更新的。而数据仓库中的数据是历史数据,不需要实时更新,并长期保留在数据仓库中。数据仓库的数据主要是供企业决策分析之用,所涉及的数据操作主要是数据查询,修改和删除操作很少,数据只需进行定期的加载、刷新【12 1 。( 4 ) 反映历史变化数据仓库反映历史变化是指数据仓库是不同时间的数据集合。操作型数据库主要关心当前某一个时间段内的数据。比如销售经理经常会关心本月的销售额是否达标,本月的销售冠军产品是什么,很少会去关心过去几年的销售额。但是作为企业的管理者,仅仅关心本月、本季度的销售情况是不够的。比如管理者想要知道自从开店以来几年内的销售情况是怎样的,这就需要知道过去几年的历史销售数据。考虑运行效率,操作型系统中往往不会包括大量的历史信息,历史销售数据往往被存放到物理介质设备中保存,管理者无法获取历史的、汇总的数据信息。构建数据仓库之后,数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一时点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历基于高校复杂科研信息的数据仓库与知识发现应用研究程和未来趋势做出定量分析和预n t l 2 , 1 3 】。数据仓库的数据是定期更新的,不可更新是针对应用来说的,不是永远不变的。2 1 2 数据仓库的数据组织级别和系统结构( 1 ) 数据仓库的数据组织级别数据仓库中的数据分为四个级别,如图2 1 所示【9 1 。早期细节数据是源数据,经过抽取综合后形成面向主题的当前细节数据,再根据应用需求进行预聚合形成轻度综合级和高度综合级数据,轻度综合和高度综合是相对而言的。当前细节数据通常存储在关系数据库中,例如s q ls e r v e r2 0 0 0 数据库。综合数据通常存储在分析服务器的数据库中,如o l a p 服务器数据库。赢度综合级轻度综合级当前细节级早前细节级图2 1 一个典型的数据仓库的数据组织结构f i g u r e2 1at y p i c a ld a t ao r g a n i z a t i o ns t r u c t u r eo fd a t aw a r e h o u s e( 2 ) 数据仓库的系统结构数据仓库的体系结构主要包括数据源、数据仓库的存储和管理、数据访问三个部分,是一种典型的c s 结构。图2 2 显示了一个典型的数据仓库架构 1 0 , 1 4 】。数据源:数据源包括企业内部的多个操作型数据库和企业外部数据源( 包括市场调查报告、法律法规文件和竞争对手信息等) 。数据仓库管理:在确定数据仓库信息需求后,首先进行数据建模,然后确定从数据源到数据仓库的数据抽取、清理和转换过程,最后划分维度及确定数据仓第2 章高校科研信息知识发现理论基础及关键技术库的物理存储结构。元数据是关于数据的数据,在数据仓库中,元数据的内容反映数据仓库存储的数据内容及其与数据源之间的关系,是联系数据仓库各个部分的纽带 1 5 , 1 6 。通过元数据库,数据管理员可以实现对数据仓库的全面管理维护。数据仓库的管理包括对数据的安全、归档、备份、维护和恢复等工作,这些工作需要利用数据库管理系统的功甜10 1 。敏摄滋仓糍赞韪数据仓簿分析上其图2 2 数据仓库系统结构f i g 2 2a r c h i t e c t u r eo fd a t aw a r e h o u s e数据仓库:数据仓库中的数据包括从源数据中抽取、整理和集成后形成的数据仓库基础细节数据和经过多维立方体处理后形成的综合数据。数据仓库是数据的另一种存储形式,数据的组织是面向主题的。除了中心数据仓库外,还有许多数据集市。数据集市可以理解为面向主题的或者部门级的数据仓库,是数据仓库的组成部分。数据仓库是企业级的,能为整个企业提供决策支持。数据集市的出现是因为构建关于企业全局的数据仓库耗时长并且非常复杂,所以常常针对某个特定的主题或者目标来建立数据集市。数据仓库和数据集市中的数据由一个或多个数据仓库服务器存储和管理。基础数据一般存储在企业服务器中,综合数据一般存储在o l a p 服务器中。基于高校复杂科研信息的数据仓库与知识发现应用研究前端工具:数据仓库通过前端工具提供多维、多角度的数据视图来进行数据展示。前端工具主要包括查询工具、报表输出工具、多维数据的o l a p 分析工具和数据挖掘( d m ) 工具。其中数据分析工具主要针对o l a p 服务器,报表工具和数据挖掘工具主要针对数据仓库。利用分析工具对数据仓库的查询不是指对记录级别数据的查询,而是对分析要求的查询。数据挖掘工具用于从大量数据中挖掘出规律性知识。2 1 3 数据仓库的设计步骤数据仓库的设计大概包括以下几个步骤【6 】:概念模型设计、技术准备工作、逻辑模型设计、物理模型设计、数据仓库生成和数据仓库运行与维护,如图2 3 所示。一数据仓库运 :j j 维护卜卜概念 ;:f 犁没诗二孓t 异 l 鲡h 出生1 i 、 l 石、;訾,;j 饿 哇j 1 锵? j ,黼。彪l 十蛹 毋刀丁j i 五磁坝节i y 坶j 眨止【j y 一川u :k 廿巴订1 上二珏2 三峨1 ,羿定系绕边拌逻辚模型渡讣物躞搂型殴讣数掘仓簿的j ! :威2 ,镌忿 :趣域j 、粒盘版次戡旁i 、赡之f j 锗绀如j 、没拓f3:、数抒:钐剐麓谚1 2 瓯疋霰 纷峨1 2 ,敬 :l :爱九il技术准错:作3 汪采系统定义3 确定仃放位敛1 、_ 抟术:中矗,i- _ -4 关系梭式定义4 、确;打自舒匠:、技_ :珥境凇裕图2 3 数据仓库设计步骤f i g 2 3d e s i g ns t e p so fd a t aw a r e h o u s e( 1 ) 概念模型设计:在这个阶段中,界定系统边界主要是要弄清要做的决策类型是什么,决策者对什么样的问题感兴趣,这些问题需要用到什么信息,这些信息与数据库中哪些数据相关? 然后根据要分析的要求确定主要的主题域。如商场经营者想要了解商场经营情况,跟踪市场,了解客户的购买情况。那么经营者就需要分析商品供应市场变化趋势、顾客购买趋势、供应商信用等级等信息。分析第2 章高校科研信息知识发现理论基础及关键技术这些信息需要用到商品的采购、库存、销售数据、顾客的信息和供应商的信息。最后,根据分析要求,确定商场数据仓库的三个基本主题:商品、供应商和顾客。( 2 ) 技术准备工作:这个阶段要定义数据仓库的结构,计划数据仓库存储容量,选择数据库、o l a p 服务器和前端数据展示工具。配备网络,整合服务器、存储器和客户端工具。( 3 ) 逻辑模型设计:这个阶段进一步分析主题域,适当划分粒度,合理进行数据分割,适当划分表并确定数据来源。逻辑设计阶段要进行多维数据集的模型设计,多维数据集是数据仓库和o l a p 的基础,主要设计方法有星形模型和雪花模型。( 4 ) 物理模型设计:物理模型是逻辑模型的实现。这个阶段设计数据仓库数据的物理存储结构,确定数据的存储和存取办法,主要考虑存取时间和空间利用率。( 5 ) 数据仓库的生成:这个阶段要设计和执行数据抽取、清洗、转换、装载和刷新的脚本,根据逻辑模型设计和物理存储结构设计,实现数据仓库的数据装入。( 6 ) 数据仓库运行与维护:完善系统并管理数据仓库,如刷新数据,调整粒度级别,清除不再使用的数据等。2 1 4 数据仓库的建模方法在数据仓库的逻辑模型设计阶段,常常根据主题来建模,主要采用星形模型和雪花模型来设计多维数据集。( 1 ) 星形模型如图2 4 所示,星形架构由中心事实表和链接到该事实表的一系列组织好的维表组成。一个简单的星形模型只有一个事实表,复杂的星形模型可以包含上百个事实表 1 7 , 1 8 】。事实表中包括两种类型的属性:维属性和度量值。维属性以外键的形式指向每个维表,对事实表的查询就是获取指向维表的指针表。维属性主要在有关分组的表达语句或者与维表建立连接时使用【1 9 】。星形模型的优点【2 0 】:星形模型围绕一个确定的主题,体现了数据仓库数据要面向主题组织的要求;模型简单、结构清晰、易于理解;星形模型维表包含了经基于高校复杂科研信息的数据仓库与知识发现应用研究常查询的属性,维表和事实表之间查询路径短,不涉及多表连接,使查询过程简单、直接;星形模型提高了o l a p 的使用性能。星形模型的缺点【2 0 】:星形模型不规范,提高了多维数据的查询速度,牺牲了存储空间,冗余使得数据切片变得更加复杂;由于事实表的主键是由各个维表的主键组合构成的,当维不能满足分析要求时,维的变化非常复杂、耗时;当维的属性比较复杂时,维的层次关系处理比较困难;星形模型无法描述“多对多”的关系。顾客维产品维图2 4 星形模型结构f i g 2 4s t r u c t u r eo fs t a rs c h e m e( 2 ) 雪花模型雪花模型是对星型的维表进一步范式化、层次化处理的结果。雪花模型的本质是对数据表进行规范化处理,以消除数据冗余,节省存储空间【2 1 1 。图2 5 显示了雪花模型的一个示例。雪花模型的优点:数据冗余小,节省空间;可以处理诸如“多对多 关系的结构和层次结构【2 2 】;易于进行切片和维层次处理。第2 章高校科研信息知识发现理论基础及关键技术雪花模型的缺点:在处理雪花模型时,需要在事实表、位于中间位置的维表和与中间位置维表相连的维表之间进行二次连接运算,这样会增加o l a p 的处理时间,增加数据库优化器的负载,大量的表以及它们之间的联系降低了查询性能 2 3 , 2 4 】o2 20 l a p 技术图2 5 雪花模型结构f i g 2 5s t r u c t u r eo fs n o ws c h e m e2 2 10 l a p 的定义及特征联机分析处理技术( o n l i n ea n a l y t i c a lp r o c e s s i n g ,o l a p ) 的概念是1 9 9 3 年由数据仓库之父e f c o d d 提出的:“联机分析处理是针对特定问题的联机数据访问和分析,通过对信息的很多可能的观察形式进行快速、稳定一致和交互性的存取,允许管理决策人员对数据进行深入观烈6 】,。o l a p 是数据仓库的一项主要应用技术,以数据仓库数据为基础,可以支持我们对数据仓库中的数据进行复杂、高效的分析和查询。o l a p 的作用是在多维环境下提供特定的查询和报表需求。随着数据量的迅速增长,利用o l a p 来进行数据分析显得异常重要。基于高校复杂科研信息的数据仓库与知识发现应用研究o l a p 以数据仓库为分析基础,有两个非常重要的特征【2 5 】:( 1 ) 具有多维性,能够提供数据的多维视图,使用户能够多角度、多层次地观察和分析数据,从而深刻理解数据内涵。( 2 ) 直接面向用户,能够快速响应用户的分析请求。对于o l a p 能处理的任何应用相关分析,系统都能够在几秒钟的时间内对用户的大部分分析要求做出响应。另外,由数据仓库支持的o l a p 的功能和性能都与事务型数据库支持的o l t p在应用上有很大的不同。o l t p 重点强调收集和管理数据,而o l a p 则重点强调从数据中抽取出信息。两者的不同主要体现在以下几个不同的特征【2 6 】:( 1 ) 使用者不同:o l a p 主要由普通职员使用,使用人数多;o l a p 主要由业务决策与管理人员在决策过程中使用,使用人数相对较少。( 2 ) 数据不同:o l t p 中的数据是当前的、准确的、详细的、面向应用的数据,o l a p 中的数据是历史的、多维的、汇总的、面向主题的数据。( 3 ) 操作处理方面不同:o l t p 中的操作常常是简短的s q l 查询语句,对响应时间要求非常高;在o l a p 中,知识发现人员需要处理非常复杂的嵌套查询,响应时间合理。( 4 ) 访问的记录数量不同:多数情况下,o l a p 服务器访问的记录数量比o l t p访问的要大很多。吞吐量是o l t p 应用的主要性能指标,而o l a p 应用的主要性能指标是查询能力和响应时间。只有当o l a p 的响应时间非常理想才会对数据分析人员有吸引力。( 5 ) 数据模型不同:多数情况下,o l t p 的数据模型是面向应用的,通过e r图设计,这样的模型对决策支持不够有效。o l a p 的数据模型是面向主题的,o l a p常常使用的模型是星型模型和雪花模型。2 2 20 l a p 系统的体系结构o l a p 属于数据仓库应用,它以数据仓库为基础。根据c o d d 的观点,o l a p采用客户机服务器模式。因为它需要对来自基层的操作数据进行多维化处理或预聚合处理,因此它不是o l t p 软件的两层c s 结构,中间增加一层分析服务器,构成三层c s 结构,如图2 6 所示【l o 】。第一层为客户机,使最终用户能方便地浏览第2 章高校科研信息知识发现理论基础及关键技术数据,生成数据立方体,支持o l a p 的切片、切块、旋转等分析操作。第二层为分析服务器,存储数据仓库中综合数据,形成多维分析模型。第三层是企业服务器,存储数据仓库中来自基层数据库的细节数据。第毖:客户桃第二二层:分柢服舞器第二层:企业服务器图2 60 l a p 体系结构f i g 2 6a r c h i t e c t u r eo fo l a p2 2 30 l a p 中的基本概念想要理解o l a p 技术,必须先弄清它的几个相关概念【2 7 】【2 8 1 。( 1 ) 多维数据集( m u l t i d i m e n s i o n a ld a t a s e t ) :多维数据集是数据的一种多维结构,由于其多维的特征常常被形象地称为数据立方体( c u b e ) ,是联机分析处理的主要对象。多维数据集由维度和度量值的集合进行定义,以多维方式建立数据模型可以简化o l a p 分析,提高查询性能。图2 7 是数据立方体的示意图【2 6 】:( 2 ) 度量值:度量值是分析的目标,是决策者所关心的具有实际意义的值。度量值是数值型的,可以有

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论