(系统工程专业论文)基于数据仓库技术的海量综合交通信息OLAP系统研究与实现.pdf_第1页
(系统工程专业论文)基于数据仓库技术的海量综合交通信息OLAP系统研究与实现.pdf_第2页
(系统工程专业论文)基于数据仓库技术的海量综合交通信息OLAP系统研究与实现.pdf_第3页
(系统工程专业论文)基于数据仓库技术的海量综合交通信息OLAP系统研究与实现.pdf_第4页
(系统工程专业论文)基于数据仓库技术的海量综合交通信息OLAP系统研究与实现.pdf_第5页
已阅读5页,还剩102页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

摘要 摘要 近年来随着经济的发展,城市交通拥堵状况的日趋严重,已成为制约社会 发展和人类生活的重要因素之一。随着信息技术的应用,一方面我们能够科学 有效地获取和存储各种交通数据,另一方面,获得的数据量也以空前的速度急 剧增长,与其它领域一样,交通管理中这些海量数据将造成所谓的“信息过剩 问题。因此,如何合理有效地处理和利用这些数据及信息,使其能够为决策服 务也就顺理成章地成为智能化城市交通管理决策研究的重点问题之一。 为此,上海市科委启动了2 0 0 6 年社会发展重大专项城市综合交通信息 平台关键技术研究与开发。本文依据“基于数据仓库技术的平台海量信息集成 管理技术研究 为课题背景,以上海综合交通信息平台为基础,将海量综合交 通信息有效的组织、集合和管理,构建综合交通信息数据仓库。一方面为综合 信息平台提供全面、高质量的综合数据中心;另一方面在综合交通信息数据仓 库的基础上,结合o l a p 多维分析技术,可以对数据进行多角度( 按时间、区域、 断面、交通流量等) 的o l a p 分析,为交通拥堵管理提供决策支持,提高交通管 理和控制的效率,改善智能交通系统的服务水平。本文主要研究内容包括: 1 在研究数据仓库关键技术的基础上,结合海量交通信息基础数据分析,对交 通数据仓库的e t l 技术、数据粒度划分技术、分区技术和索引技术进行研究, 为综合交通信息数据仓库的成功构建打下基础。 2 以交通多维数据为基础,对o l a p 核心技术进行研究,包括q l a p 数据组织、 多维数据分析、多维计算公式及算法等。 3 以海量综合交通数据为研究内容,结合数据仓库的关键技术,提出了交通信 息数据仓库的系统体系结构,并构建综合交通信息数据仓库。 4 在所建立的交通数据仓库基础上,同时结合o l a p 的多维数据分析技术研究, 最终研制基于数据仓库的海量综合交通信息o l a p 系统,为交通数据平台的 分析提供了新途径。 关键词:数据仓库,联机分析处理,e t l 技术,多维数据分析,交通拥堵 a b s t r a c t a b s t r a c t i nr e c e n ty e a r sw i t ht h ed e v e l o p m e n to fe c o n o m y , t h es i t u a t i o no fu r b a nt r a f f i c c o n g e s t i o nb e c o m e sw o r s ea n dw o r s e ,w h i c hh a sb e c o m e o n eo ft h ei m p o r t a n tf a c t o r s t h a tr e s t r i c ts o c i a ld e v e l o p m e n ta n dp e o p l e sl i f e a l o n gw i t ht h ea p p l i c a t i o no f i n f o r m a t i o nt e c h n o l o g y , o nt h eo n eh a n dw ec a l ls c i e n t i f i c a l l ya n da v a i l a b l yo b t a i n a n ds a v ea l lk i n d so ft r a f f i cd a t a , o nt h eo t h e rh a n dd a t aq u a n t i t ym o u n tu ps h a r p l y w i t hu n p r e c e d e n t e ds p e e d a so t h e rf i e l d s ,t h e s em a s sd a t aw i l lr e s u l ti ns o - c a l l e d ”i n f o r m a t i o ne x c e s s ”p r o b l e mi nt r a f f i cm a n a g e m e n t t h e r e f o r e ,h o wt op r o c e s sa n d m a k eu s eo ft h ed a t aa n di n f o r m a t i o nr e a s o n a b l ya n de f f e c t i v e l y , i no r d e rt om a k ei t s e r v ef o rd e c i s i o n m a k i n gh a sb e c o m eo n eo ft h em a i np r o b l e m so fd e c i s i o n - m a k i n g r e s e a r c hi ni n t e l l e c t u a l i z e du r b a nt r a f f i cm a n a g e m e n t t h e r e f o r e ,s c i e n c e a n dt e c h n o l o g yc o m m i s s i o ni n s h a n g h a il a u n c h e d a s i g n i f i c a n tp r o j e c ta b o u ts o c i a ld e v e l o p m e n ti n2 0 0 6 ”r e s e a r c ha n dd e v e l o p m e n t o fk e yt e c h n o l o g yo fc o m p r e h e n s i v et r a f f i ci n f o r m a t i o np l a t f o r mi nc i t y ”w i t ht h e b a c k g r o u n do ft h ep r o j e c t ,c a l l e d ”c o m p r e h e n s i v em a n a g e m e n tt e c h n o l o g yr e s e a r c h o fm a s si n f o r m a t i o nb a s e do nd a t aw a r e h o u s et e c h n o l o g y ”,b a s e do nc o m p r e h e n s i v e t r a f f i ci n f o r m a t i o np l a t f o i mo fs h a n g h a i ,m a s si n f o r m a t i o na b o u tc o m p r e h e n s i v e t r a f f i ci n f o r m a t i o nh a sb e e no r g a n i z e d 、i n t e g r a t e da n dm a n a g e dt os e tu pd a t a w a r e h o u s eo fc o m p r e h e n s i v et r a f f i ci n f o r m a t i o n o nt h eo n eh a n di t p r o v i d e c o m p r e h e n s i v ei n f o r m a t i o np l a t f o r mw i t ha l l r o u n da n dh i g hq u a l i f i e dc o m p r e h e n s i v e d a t ac e n t e r ;o nt h eo t h e rh a n d ,o nt h eb a s i so fd a t aw a r e h o u s eo fc o m p r e h e n s i v e t r a f f i ci n f o r m a t i o n ,c o m b i n e dw i t ho l a pm u l t i d i m e n s i o n a la n a l y s i st e c h n o l o g y , t h e d a t ac a nb ea n a l y z e di nm a n yd i m e n s i o n s ,t h a tc a np r o v i d ed e c i s i o n - m a k i n gs u p p o r t f o rt r a f f i cc o n g e s t i o nm a n a g e m e n t ,i m p r o v et h ee f f i c i e n c yo ft r a f f i cm a n a g e m e n ta n d c o n t r o l ,r e f o r mt h es e r v i c el e v e lo fi n t e l l e c t u a l i z e dt r a f f i cs y s t e m t h em a i nr e s e a r c h c o n t e n t sa lel i s t e da sf o l l o w s : 1 b a s e do nt h er e s e a r c ho fk e yt e c h n o l o g yi nd a t aw a r e h o u s e ,c o m b i n e dw i t h t h em a s st r a f f i ci n f o r m a t i o na n a l y s i s ,t h ee t lt e c h n o l o g yi nd a t aw a r e h o u s e , a b s t r a c t g r a n u l a r i t yp a r t i t i o nt e c h n o l o g y , p a r t i t i o nt e c h n o l o g ya n di n d e xt e c h n o l o g yh a db e e n s t u d i e d ,w h i c h w a st h ef o u n d a t i o nf o r s e r i n gu p t h ed a t aw a r e h o u s eo f c o m p r e h e n s i v et r a f f i ci n f o r m a t i o ns u c c e s s f u l l y 2 b a s e do nt h em u l t i d i m e n s i o n a lt r a f f i cd a t a ,c a r r y i n go nar e s e a r c ho nt h e o l a pt e c h n o l o g y , i n c l u d i n gd a t ao r g a n i z a t i o no fo l 腿m u l t i d i m e n s i o n a ld a t a a n a l y s i s ,m u l t i d i m e n s i o n a lf o r m u l aa n da r i t h m e t i ce t c 。 3 w i t ht h er e s e a r c ho ft h em a s sc o m p r e h e n s i v et r a f f i cd a t a ,c o m b i n e dw i t ht h e k e yt e c h n o l o g yi nd a t aw a r e h o u s e ,p u tf o r w a r dt h es y s t e ms t r u c t u r eo ft h et r a f f i cd a t a w a r e h o u s e ,a n ds e tu pt h ec o m p r e h e n s i v ed a t aw a r e h o u s eo ft h et r a f f i ci n f o r m a t i o n 4 b a s e do nt h et r a f f i cd a t aw a r e h o u s ee s t a b l i s h e d ,a l o n gw i t ht h er e s e a r c ho f m u l t i d i m e n s i o n a la n a l y s i st e c h n o l o g yi no l a p , f i n a l l yd e v e l o pt h ec o m p r e h e n s i v e t r a f f i ci n f o r m a t i o no l a ps y s t e mb a s e do nt h ed a t aw a r e h o u s e ,w h i c hp r o v i d e dan e w p a t hf o rt h ea n a l y s i so ft r a f f i cd a t ap l a t f o r m k e yw o r d s :d a t aw a r e h o u s e ,o l a p ,e t lt r c h n o l o g y ,m u l t i d i m e n s i o n a ld a t a a n a l y s i s ,t r a f f i cc o n g e s t i o n 1 1 1 学位论文版权使用授权书 本人完全了解同济大学关于收集、保存、使用学位论文的规定, 同意如下各项内容:按照学校要求提交学位论文的印刷本和电子版 本;学校有权保存学位论文的印刷本和电子版,并采用影印、缩印、 扫描、数字化或其它手段保存论文;学校有权提供目录检索以及提供 本学位论文全文或者部分的阅览服务;学校有权按有关规定向国家有 关部门或者机构送交论文的复印件和电子版;在不以赢利为目的的前 提下,学校可以适当复制论文的部分或全部内容用于学术活动。 学雠文储虢瑭囊琢 2 卯7 年歹月肜日 同济大学学位论文原创性声明 本人郑重声明:所呈交的学位论文,是本人在导师指导下,进行 研究工作所取得的成果。除文中已经注明引用的内容外,本学位论文 的研究成果不包含任何他人创作的、已公开发表或者没有公开发表的 作品的内容。对本论文所涉及的研究工作做出贡献的其他个人和集 体,均己在文中以明确方式标明。本学位论文原创性声明的法律责任 由本人承担。 学位论文作者妣福延桴 2 卯7 ,年3 月么日 第1 章引言 第1 章引言 1 1 论文的研究背景和意义 近年来随着信息技术、通信技术及计算机技术在城市交通管理与控制中的 应用,交通管理部门按业务操作类型,在各个环节分别建立了各种计算机信息 管理系统,例如交通地理信息系统,1 1 0 、1 2 2 道路交通事故报警系统、交通流 量检测信息系统、电视监控系统、g p s 车辆定位系统等u 1 ,这些系统能够存储、 处理多种类型的数据和信息,所以积聚了相当丰富的数据资源。但是,获得的 数据量也以空前的速度急剧增长,与其它领域一样,交通管理中这些海量数据 将造成所谓的“信息过剩”问题。因此,如何合理有效地处理和利用这些数据 及信息,使其能够为决策服务也就顺理成章地成为智能化城市交通管理决策研 究的重点问题之一。 为此,上海市科委启动了2 0 0 6 年社会发展重大专项城市综合交通信息 平台关键技术研究与开发。本文依据“基于数据仓库技术的平台海量信息集成 管理技术研究”为课题背景,以上海综合交通信息平台为基础,将海量综合交 通信息有效的组织、集合和管理,构建综合交通信息数据仓库,一方面为综合 信息平台提供全面、高质量的综合数据中心;另一方面在海量综合交通信息数 据仓库的基础上,结合o l a p 多维分析技术,可以对数据进行多角度( 按时间、 区域、断面、交通流量等) 的o l a p 分析,为交通拥堵管理提供决策支持,提高 交通管理和控制的效率,改善智能交通系统的服务水平。 数据仓库作为一种决策支持新技术,它经过对大量静态数据库进行提取, 在传统的业务数据库基础上,形成数据仓库数据,并可以通过o l a p ( 联机分析 处理) 以及数据挖掘技术为决策者提供决策支持。因此,利用o l a p 技术与数据 仓库的结合可以较好地解决传统决策支持系统既需要处理大量数据又需要进行 大量数值计算的问题。 本课题将在阐述数据仓库关键技术的基础上,通过分析交通拥堵疏导决策 过程中所涉及的数据内容,将各种交通数据以统一的格式,集成、存储在一起, 根据主题通过专业模型对不同源数据库中的原始数据进行抽取和聚集,形成一 第1 章引言 个多维视角,从而为城市交通管理提供了一个适应决策分析的综合的、统一而 全面的详尽数据环境。同时结合o l a p 的多维数据分析技术研究,最终构建基于 数据仓库的海量综合交通信息o l a p 系统。通过对多维数据的维度进行剖切、钻 取和旋转来实现对数据库所提供的交通数据进行深入分析,为决策者提供决策 支持,具有非常重要的理论意义和现实意义。 1 2 国内外研究概况 1 2 1 数据仓库技术 随着数据库技术的应用越来越普及,人们正逐步陷入“数据丰富,知识贫 乏”的尴尬境地。因此,从庞大的数据库中抽出有用的信息已是当务之急,要 成功地进行信息抽取首先要建立数据仓库n 1 。 传统的数据库技术是以单一的数据源为中心,主要进行事务处理工作,而 难于实现对数据的分析处理,已经无法满足数据处理多样化的要求。数据仓库 技术的出现满足了这一需求,同时也使决策支持系统的发展跃上了一个新的台 阶。数据仓库已经成为数据分析、联机分析处理和数据挖掘的一个日趋重要而 有效的数据平台。 数据仓库的思想于9 0 年代初提出,w h i n m o n 在b u li d i n gt h ed a t a w a r e h o u s e 一书中提出数据仓库( d a t aw a r e h o u s e ) 的概念“数据仓库是一个面 向主题的( s u b j e c t o r i e n t e d ) 、集成的( i n t e g r a t e d ) 、时变的( t i m e v a r i a n t ) 、 非易失( n o n v o l a t i l e ) 的数据集合,支持管理部门的决策过程髓m 。这一概念和 引入联机分析处理( o l a p ) 方法解决了在信息技术发展中存在的拥有大量数据及 如何利用其中有价值信息的问题,为构筑合理可行的d s s e i s 系统提出了解决方 案。 数据仓库应用则开始于1 9 9 5 年,主要被应用于金融、电信、保险等主要的 传统数据处理密集型行业。国外许多大型的数据仓库在1 9 9 6 - - - 1 9 9 7 年建立。数 据仓库为商务运作提供结构与工具,以便系统地组织、理解和使用数据进行战 略决策。大量组织机构已经发现,在当今这个充满竞争和快速发展的世界上, 数据仓库是一个有价值的工具。在过去的几年中,许多公司已花费了数百万美 元,用以建立企业范围的数据仓库。根据m e t ag r o u p 的研究报告,在其调查的 2 第1 章引言 2 0 0 0 多家企业中,9 0 以上的企业计划在两三年内建设自身的数据仓库,而大约 8 0 的已经投资数据仓库的企业都认为获得了巨大的成功。其中最有名的就是 n c r 公司为w a l - m a r t 建设的数据仓库,该数据仓库建设于2 0 世纪8 0 年代,迄今2 0 余年,w a l m a r t 也由此获得了巨大的回报。因此,许多人感到,随着工业竞争 的加剧,数据仓库成了必备的最新营销武器一种通过更多地了解客户需求 而保住客户的途径。近年来发展迅速的商业智能系统就是建立在数据仓库之上。 一些软件公司也相继推出了自己的数据仓库解决方案来占领市场,当前成熟且 具有代表性的是包括i b m ! 、o r a c l e 、s y b a s e 、m i c r o s o f t 等在内的九大数据仓库 方案。 目前我国的数据仓库市场仍处于概念推广的阶段。虽然有很多大学和研究 机构从事数据仓库技术的研究,但到目前为止还没有成熟的数据仓库解决方案。 我国企业信息化程度还不高,不少单位的数据库规模还比较小,甚至还没有完 善的数据库系统,数据仓库的应用还处于初级阶段,只是在银行业、电信业、 保险业等行业才开始建立数据仓库,在其他行业还没有得到广泛的应用:。 本课题以海量综合交通数据为研究内容,将各种交通数据从操作数据库中 抽取出来,经过清洗、转执、装载等一系列处理,集成到统一的本地交通信息 数据仓库,为交通数据平台的分析提供了新途径。 1 2 20 l a p 技术 随着数据仓库技术的发展,o l a p ( o n 1 i n ea n a l y t i c a lp r o c e s s i n g ) 己成为决策 支持和商业智能的有力工具之一同。与传统的o l t p 不同,o l a p 要求以多维方 式对数据进行即席分析,其分析对象是数据仓库中大量的历史数据,对于查询 的快速响应至关重要。因此,o l 需要解决的两个核心问题是:( 1 ) 如何建立 一个完善的多维数据模型( m d d m ) ,以满足现实应用对多维数据表示和操作的需 求。( 2 ) 如何实现o l a p 系统,使得对于大量历史的、高度稀疏的多维数据的分 析查询,能够做出快速响应。 第一个用于多维分析的o l a p 产品e x p r e s s 诞生于1 9 7 0 年,几乎与关系 模型同时出现,现为o r a c l e 数据库的一部分。然而,早期的o l a p 产品大多面 向特定领域,运行在大型主机系统之上,价格昂贵,没能得到广泛普及。进入 2 0 世纪9 0 年代,随着磁盘存储成本的大幅度降低,以及企业级数据仓库的广泛 第1 章引言 建立,迫切要求将长期积累的大量历史数据转变为可用的信息,为企业的决策 提供支持。于是,1 9 9 3 年e e c o d d 等人将这类应用命名为o l a p 阳1 ,此后学术 界对这一领域开展了广泛深入的研究。 目前一个简洁清楚的o l a p 定义是n i g e l 在1 9 9 5 年给出的f a s m i n l ,它是 “f a s ta n a l y s i so f s h a r e dm u l t i d i m e n s i o n a li n f o r m a t i o n ”的缩写。其中,f a s t :快 速响应用户查询;a n a l y s i s :系统可以处理任何与应用相关的商业逻辑和统计分 析;s h a r e :实现多用户环境中的安全和并发控制;m u l t i d i m e n s i o n a l :这是o l a p 最本质的需求,即系统必须提供数据的多维概念视图;i n f o r m a t i o n :指应用所需 的数据及其导出信息。 现在回头去看o l a p 技术在过去几年走的道路,可以发现o l a p 技术和其 他技术一样都是从昂贵走向合理,从专业走向普及。从此我们也不难推测出 o l a p 技术的一些新的发展方向,可以从下面几个方面来考虑岸3 : ( 1 ) 管理方向 虽然o l a p 技术发展了这么多年,也有了一大批成熟的产品,但是在这一 方面,一直有一个比较困难的问题就是对o l a p 应用当中用户的管理,o l a p 数据权限的管理,模型的建立和维护,模型数据的备份与恢复等,这些都是一 些实际而且迫切需要解决的问题。 ( 2 ) 使用与设计方面 大家都觉得o l a p 应用非常强大,可以让用户非常容易地对数据进行分析, 但是在o l a p 模型的设计,数据的装载方面,让很多用户望而却步,同时,关 于o l a p 的元数据管理也是一个很重要的发展方向,期望可以通过元数据的利 用来引导用户自主的d r i l lt od e t a i l 功能。 ( 3 ) 可扩展性方面 当o l a p 应用的用户数增多、维度增加、数据量增加的时候,如何实现o l a p 处理能力的扩展,是否能够支持多机并行结构或者c l u s t e r 结构或者分布式结构 等,这是在超大数据量的数据仓库应用中必须面临的一个问题。 ( 4 ) 用户不满足局限于工具内的o l a p 分析 如何利用一种统一的或简单的界面来提供一种基于a p i 的调用接口,也是 一个已经争论了多年,但至今都没有最终答案的问题。 ( 5 ) 联机数据挖掘方面 还有就是o l a p 技术和数据挖掘技术整合起来的联机分析挖掘的发展方向, 4 第l 章引言 也为o l a p 的发展开辟了一个新的方向。 ( 6 ) o l a p 与关系型数据库技术的结合方面 o l a p 技术和关系型数据库技术的整合也才刚刚开了一个头,在这个方面还 会有非常多的机会和方向。 ( 7 ) o l a p 技术的可视化问题 由于目前o l a p 技术在本质上,还无法跳出报表系统的范畴,因此如何丰 富o l a p 的表现形式,提高数据分析结构的可视化也是o l a p 技术下一步研究 的重点。 另外,从技术的角度,o l a p 技术正在结合一些先进的技术理论,出现了面 向对象的联机分析( 0 3 l a p - - o b j e c t o r i e n t e do l a p ) 、对象关系的联机分析 o r o l a p ( o b j e c tr e l a t i o n a lo l a p ) 、分布式联机分析d o l a p ( d i s t r i b u t e do l a p ) 和时态联机分析处理o l a p ( t e m p o r a lo l a p ) 等内容。 1 3 交通信息o l a p 系统特点 “海量综合交通信息o l a p 系统 的存储与管理以及数据的表现完全自主开 发,是应用于交通管理行业的一套交通信息的组织、集合和管理并进行0 l a p 分 析的软件系统。系统主要包括以下特点: 应用及理论框架:探讨了数据仓库在城市交通信息0 l a p 决策分析系统中的 应用及理论框架。提出了基于数据仓库的海量综合交通信息数据管理方法,按 主题组织数据,以星型模型建模,提供有效的数据抽取和集成功能,经过加工 的数据是面向决策的,从而为进行智能化决策提供了一个集成的公用数据平台。 在此基础上,交通拥堵管理决策人员不仅能够有效整合多种异构数据源,获得 对整个交通路况状态信息的集成视图,而且还为进一步进行数据挖掘提供了数 据基础。 数据存贮与管理:系统将包含道路交通空间数据和属性数据,并具有良好 的数据集成能力,能够为交通检测数据、交通仿真、预测数据等提供良好的数 据接口。并在此基础上,建立起一个信息完备、可持续、滚动发展、多层次的 道路交通基础数据库。 基础信息的查询:为管理工作人员提供一个使用方便、操作简单的可视化 操作平台,实现对关心的交通信息数据( 基础线圈、断面数) 的管理和交叉查 5 第1 章引言 询。 信息o l a p 分析功能:在数据仓库基础上使用联机分析处理技术。联机分析 技术的主要功能是进行多维数据分析和生成报表,专门用于支持复杂的分析操 作,侧重对高层管理人员和决策人员的决策支持,可以应分析人员要求快速、 灵活地进行交通流大数据量的复杂查询处理,并且以一种直观易懂的图表将查 询结果提供给决策人员。可以实现对数据立方体( d a t ac u b e ) 进行下钻( d r i i i d o w n ) 、上卷( r o l lu p ) 、切片( s l i c e ) 操作,实现不同角度、不同层次的数据联 机分析处理。从而使决策者对任意区域、路段、时间的交通流状况有所了解, 提供一定的决策支持。 数据的定时更新:数据的更新属性不同。般数据仓库中的数据是不可更 新的,而此系统数据仓库中的某些数据( 例如路网划分数据、基础的实时线圈数 据等) 有时是必须更新的。系统会定时对新数据进行增量抽取,以保证数据的实 时性、准确性和一致性。 交通数据挖掘的数据准备:为交通流状况的分析、交通问题成因分析( 例 如时间、天气、环境影响) 、交通事件自动检测提供相应的数据支撑,以便在交 通拥堵或紧急事件情况下提供一定的交通诱导,从而达到排堵保畅的目的。 扩展功能:交通领域涵盖范围广泛,要求数据仓库具有很强的可伸缩性: 目前系统中所存储的只有基础线圈交通流数据,因而只建立了交通拥堵信息主 题( 即按断面对交通流数据进行处理) 。此系统将数据模型进行转换,抽取、转 换映射过程进行重新部署,可以分不同的主题集成智能交通领域交通流采集系 统、信号控制系统、电视监控系统、违章取证系统、公路车辆监测系统、1 2 2 接 处警系统、g p s 车辆定位系统、可变情报板显示系统等各个应用系统提供的交通 信息,又可以针对特定应用系统,以其工作数据库为基础构建。 由上,软件主要包括8 个功能模块:系统登陆模块、多维数据集关系定制、 o l a p 分析方式选择、查看模式选择模块、图表显示模块、报表输出模块、地理 信息维护模块、地理信息查询模块。 1 4 论文的主要内容 课题以海量综合交通数据为研究内容,将各种交通数据从操作数据库中抽 取出来,经过清洗、转换、装载等一系列处理,集成到统一的本地交通信息数 6 第1 章引言 据仓库,同时结合o l a p 的多维数据分析技术,构建基于数据仓库的海量综合交 通信息o l a p 系统。为交通数据平台的交通决策管理提供了新途径。 本文的研究内容有: 第1 章引言。论述了本文的研究背景和意义,介绍了数据仓库技术和o l a p 技术的国内研究现状,并概括了交通信息o l a p 系统特点。 第2 章交通信息数据仓库中的关键技术研究。论述了数据仓库基本概念, 并重点研究了面向数据集成的e t l 技术、数据粒度划分、分区技术和索引技术。 第3 章交通信息o l a p 技术研究。主要论述了o l a p 的数据组织、多维数据 分析、多维计算公式以及多维数据存储和压缩算法。 第4 章综合交通信息o l a p 系统设计与实现。本章内容较多,详细介绍了 交通信息数据仓库和o l a p 系统的设计和实现过程。设计交通信息数据仓库体系 结构,结合数据仓库的关键技术,构建海量综合交通信息数据仓库。根据系统 功能需求,提出交通信息o l a p 系统的设计方案,并详细介绍了系统设计流程, 最后简要描述了系统主要模块的设计与实现。 第5 章交通数据仓库和o l a p 系统的实例应用。基于上海交通数据平台的 数据仓库,通过聚类分析算法研究了上海高架路的交通状态分析范围;并提出 交通拥堵分析模型,最后结合实例进行交通拥堵分析。 第6 章结论与展望。对论文的工作进行总结,并对后续的研究工作进行展 望。 具体的框架如图1 1 所示: 7 第1 章引言 交通信息数据仓库关键技术研扫 交通信息的o l a p 技术研究 海量综合交通信息o l a p 系统设计与实现 图1 1 本文的研究内容及框架 8 第2 章交通信息数据仓库关键技术研究 第2 章交通信息数据仓库技术研究 2 1 交通信息数据仓库概述 数据仓库的提出是以关系数据库、并行处理和分布式等技术的飞速发展为 基础,用于解决实际当中拥有大量数据,但是有用信息贫乏的一种综合解决方 案。顾名思义,数据仓库就是数据的仓库,它在存放大量数据的同时又能像仓 库一样将大量数据有效地管理起来,主要侧重于对海量数据的组织和管理,提 供有效的数据访问手段,同时,结合一些分析工具,如联机分析处理( o n l i n e a n a l y t i c a lp r o e e s s i n g ,o l a p ) 和数据挖掘( d a t am i n i n g ,d m ) i 具,面向中高层 管理人员,在数据仓库中进行统计、分析和挖掘,以获得用于决策的信息或发 现相关规律。可以说,数据仓库主要用于决策支持,数据处理的方式以分析为 主,也称为分析型处理,可发挥大量数据的作用和价值。 目前,大家公认w h i n m o n 在其所著的b u l i d i n gt h ed a t aw a r e h o u s e ) ) 一 书中对数据仓库的定义最具权威性。他认为数据仓库是面向主题的、集成的、 不可更新的、随时间不断变化的数据集合,用来支持管理决策口1 。 交通信息数据仓库( d a t aw a r e h o u s ef o rt r a f f i ci n f o r m a t i o n ) 是交通系统各专 用性数据库系统中数据的中央仓库,这些数据采用统一的模式进行集成。进一 步,可以采用数据转换、管理及分析工具,对各种异源数据库中的动、静态交 通数据进行多维深入分析及深度挖掘,根据主题对数据进行抽取和聚集,形成 一个多维视角,为交通拥堵疏导决策形成一个统一的视图,提供一个综合的、 面向分析的决策支持环境。与其它集成的交通数据管理系统( 例如基于开放体系 结构的数据集成技术构建的信息系统堋m 伸j ) 及其它行业的数据仓库相比较而言, 交通信息数据仓库有其自身的特点,主要在于: ( 1 ) 面向主题。传统的交通数据管理系统是面向应用的,其数据管理只是为 处理某一具体应用而组织在一起的,数据结构只对单一的工作流程是最优的, 对于高层次的决策分析未必合适。而交通信息数据仓库是为制定决策提供支持 服务的,它的数据应该是尽可能全面、及时、准确,数据和信息的组织应以交 通管理工作的主题内容为主线,数据结构也要从面向应用转为面向主题。从决 策分析的需求出发,以交通路况分析作为处理的主体,围绕此来组织数据,使 9 第2 章交通信息数据仓库关键技术研究 系统具有知识性和综合性,所以决策者可以从整体、全局的角度来进行交通决 策分析。 ( 2 ) 集成性。在交通信息数据仓库中集成性以多种形式表现出来,如一致的 数据编码体系,一致的数据格式等。由于交通管理涉及多个信息系统,其信息 的表示方式各不相同,这样就存在编码、命名习惯、实际属性、属性度量等方 面的不一致。当这些数据进入数据仓库时,必须采用某种方法来消除应用问题 中存在的许多不一致,消除原始数据的矛盾之处。从而,在操作上,源数据由 异构变为同构,消除了数据模型及语法、语义的差异,数据库可直接被数据库 管理系统d b m s 访问,加快了查询和分析处理的速度。访问仓库的数据不需要占 用信息源,不会像直接访问信息源那样增加开销。 ( 3 ) 时态性。数据仓库的数据含有时间项这个主键,以标明该数据的历史日 期。交通路况分析涉及的数据具有很强的时态性,任何形式的交通流都是在一 定的时空条件下发生并进一步发展演化,为满足交通路况趋势分析的需要,所 以其空间数据与时间数据结合紧密 ( 4 ) 空间序列的方位数据。交通信息数据仓库与商业数据仓库有所不同,由 于交路况分析依赖于路网所反映的空间数据,故获得的相关监测数据是具有空 间属性的数据群体。商业数据仓库是完全建立在关系数据库管理系统基础之上, 空间数据又包括属性数据、几何数据及拓扑数据。一般而言,属性数据可用关 系数据库管理系统进行管理;但是,由于几何数据及拓扑数据都是不定长的( 几 何数据可分为点、线、面,拓扑数据有邻接、关联、包含等类型) ,因此它们未 能完全用关系型数据库来管理。在建立交通信息管理数据仓库时,地理信息系 统是一种可以借助的技术n 们。 ( 5 ) 数据的更新属性不同。一般数据仓库中的数据是不可更新的,而交通信 息据仓库中的某些数据( 例如路网划分数据、地理信息数据等) 有时是必须更 新的。一旦有新的数据出现,必须立即覆盖旧的数据,以保证数据的准确性和 一致性。当然,在城市交通发展趋于稳定的情况下,数据的刷新频率还比较慢, 这一点也符合分析型数据的特点。 总之,作为一种从数据库发展而来的新兴技术,数据仓库弥补了许多传统 数据库的不足之处,其最大的用途就是提供给决策者一种全新的方式从宏观或 微观的角度来观察多年积累的数据,从而使决策者可以迅速掌握对决策有意义 的重要信息,以利于做出更加准确、科学的决策。 l o 第2 章交通信息数据仓库关键技术研究 2 2 交通数据仓库的e t l 技术研究 e t l 中三个字母分别代表的是e x t r a c t 、t r a n s f o r m 、l o a d ,即抽取、转换、 加载1 2 1 。 ( 1 ) 数据抽取:从源数据源系统抽取目的数据源系统需要的数据: ( 2 ) 数据转换:将从源数据源获取的数据按照业务需求,转换成目的数据 源要求的形式,并对错误、不一致的数据进行清洗和加工; ( 3 ) 数据加载:将转换后的数据装载到目的数据源。 e t l 原本是作为构建数据仓库的一个环节,负责将分布的、异构数据源中的 数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成, 最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。现 在也越来越多地将e t l 应用于一般信息系统中数据的迁移、交换和同步。一个 简单的e t l 体系结构如图2 1 所示。 图2 1 数据仓库e t l 体系结构 2 2 1 交通信息数据的特点 根据上海市道路交通设施的装备及管理控制系统发展的现状,目前能够为 交通拥堵状态及发展趋势分析提供数据的数据源主要包括:监控系统数据库、 道路信息系统数据库、交通事故事件报警数据库以及包括天气、特勤( 或特警) 数据等的外部数据库。这些来自多个数据源的数据所属类型可能是结构化数据, 也可能是非结构化数据( 如路网拓扑的图形或图象表示) ,存储载体亦可能是对 第2 章交通信息数据仓库关键技术研究 象库、关系库或文件系统等,所以要求决策支持系统首先能够对各种数据源及 其数据具有全面的分析和认识。这些数据库中的主要数据内容如表2 1 所示”: 表2 1 城市交通决策过程所涉及的数据内容 交通信息数据源数据内容 1 各路段的年平均日交通量,路段平均车速,路段5 分钟 流量与地点车速的抽样数据等; 监控系统2 事故发生时,发生路段的交通流量、交通流车速等; 3 各路段单位时段的平均流量、路段车速情况和路段交通 状况图象等。 1 道路电子地图( 数据更新) ; 道路信息系统2 道路交叉口坐标位置、互通式立交形式、道路路段里程 及车道数等; 3 道路监控设各配各情况。 报警系统1 - 交通事件事故发生时间、地点、类型、程度等; 2 交通事件事故相关数据及信息。 1 天气及环境状况; 其它z 道路施工养护信息: 3 特勤信息。 在海量综合交通数据仓库和o l a p 系统的设计和研究中,要充分考虑到以上 交通信息数据内容的如下特点: ( 1 ) 数据处理流量大。交通信息o l a p 系统主要用于城市交通拥堵决策支持, 涉及到多种信息系统,导致数据有各种各样的数据来源,许多特殊的属性,复 杂的内部结构以及特殊的处理方式。而且由于交通拥堵状况的随机性、突发性、 阶段性,数据的处理量会呈现骤增骤减之势,其特点难以把握,这将是交通信 息数据仓库的数据存储管理中需要解决的问题之一。 ( 2 ) 实时性强。在城市交通拥堵状况日益严重的今天,拥堵处理和决策的 实时能力将成为至关重要的因素之一,只有对拥堵信息做出最快的响应,才能 在最短的时间内缓解拥堵状况,使交通恢复正常。 ( 3 ) 信息源多。城市交通系统中的每个检测系统就是一个数据源,它们各 自的信息和数据组织形式都不一样,构成一个异构的数据环境。如果想要利用 1 2 第2 章交通信息数据仓库关键技术研究 这些数据进行数据挖掘,首先必须要研究数据源之间异构数据之间的集成问题。 因为只有将这些数据源的数据都集成起来,提供给用户一个统一的视角,才有 可能从数据资源中获取所需的东西。 ( 4 ) 现状数据与历史数据积累的需求差异。综合交通信息o l a p 系统对数据 的时间要求存在着一定的需求差异,如通过监控系统获得的是现状数据( 包括道 路交通流量、车速等) ,通过道路管理系统获得的是历史数据( 包括道路网络拓 扑关系、监控设备铺装情况等) ,在进行决策分析时,系统关注的是累积的历史 数据和现状数据的结合。 ( 5 ) 数据详细程度的需求差异。综合交通信息o l a p 系统提出的交通状态分 析决策,有的要求路段平均交通流量、速度等就基本能够满足需要( 如交通流量 预测) ,而有的需要的数据则要细致得多( 如事故信息分析处理) 。所以应采用共 用数据详细程度层次化方法,来满足不同的数据服务需求。 2 2 2 交通信息数据抽取技术 数据抽取是从数据源中抽取数据的过程。实际应用中,数据源较多采用的 是关系数据库。从数据库中抽取数据一般有以下几种方式: ( 1 ) 全量抽取 全量抽取类似于数据迁移或数据复制,它将数据源中的表或视图的数据原 封不动的从数据库中抽取出来,并转换成自己的e t l 工具可以识别的格式。全 量抽取比较简单。 ( 2 ) 增量抽取 增量抽取只抽取自上次抽取以来数据库中要抽取的表中新增或修改的数 据。在e t l 使用过程中。增量抽取较全量抽取应用更广。如何捕获变化的数据 是增量抽取的关键。对捕获方法一般有两点要求:准确性,能够将业务系统中 的变化数据按一定的频率准确地捕获到;性能,不能对业务系统造成太大的压 力,影响现有业务。目前增量数据抽取中常用的捕获变化数据的方法有: ( 1 ) 触发器:在要抽取的表上建立需要的触发器,一般要建立插入、修改、 删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数 据写入一个临时表,抽取线程从临时表中抽取数据,临时表中抽取过的数据被 第2 章交通信息数据仓库关键技术研究 标记或删除。触发器方式的优点是数据抽取的性能较高,缺点是要求业务表建 立触发器,对业务系统有一定的影响。 ( 2 ) 时间戳:它是一种基于快照比较的变化数据捕获方式,在源表上增加一 个时间戳字段,系统中更新修改表数据的时

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论