




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一种多数据源的数据仓库数据填充方案
1控制数据的市/数据仓库inhou搜索行支持行政决策过程、主题、集成、数据存储和永久性数据集。在数据仓库构建时,可以采用数据集市/数据仓库、数据驿站/数据集市/数据仓库,或者是分布式数据集市/数据仓库等结构。不论是什么样的体系结构,其最外层的数据总是要从其它形式的数据源获取的。对于一个具体的企业或单位来说,信息化程度决定了其各类数据的管理方式。比如有的企业信息化水、平较高,已经建立了业务数据、财务数据和客户数据的收集和存储机制,而有的企业则还停留在或部分地停留早“纸和笔”的时代。这样在获取数据对数据仓库进行填充时,主要的数据来源是联机事务处理(OLTP)数据库的数据,又不能仅仅是OLTP数据库的数据,也要考虑从日常上作的相关文档中获取,或从基于Web模式的信息系统中获取,等等。因此,为了保持数据仓库数据的全面性、完整性和数据仓库的质量.如何从不同数据源有效地提取数据来填充数据仓库,则是数据仓库构建时必须要解决的问题。2多数据源数据填充方案2.1减少无效数据的处理数据的填充是数据仓库构建过程中较为复杂的个环节,需要完成的工作有:(1)数据采集:从业务处理系统中提取所需要的数据。在从数据源提取数据之前,确保数据的完整有效是非常必要的。对数据的任何变化和修改应该足在其被填入数据仓库之前,不应该在数据仓库中对数据进行修改,所以对数据进行检验,保证数据的有效性是必须要做的工作如果发现有无效的数据,应该尽可能找出错误的原因并更正它。(2)数据清理:去除不同系统中数据的不一致性。有时候为了保证数据输入的准确性,需要用一个简单的算法来处理数据。在复的情况下,可以调入人工智能的一些子程序把输入的数据清理为数据仓库可接受的输出形式。(3)数据转换:把数据转换为数据仓库所需要的数据结构和数据类型。数据的填充涉及到各种关系数据库和ODBC数据源之间的数据转换,以及文本文件和Web页面文件等。最初的转换是通过程序手工完成的,这样来所有的数据转移规则都隐藏在程序的内部,不利于系统的进一步改进和扩展。现在可以使用厂商的转换工具,例如IBM公司的Visualwarehouse、CA公司的PlatinumDecisionBase等,也可以根据具体要求开发转换工具。(4)数据集成:把业务处理系统中的明细数据、其它方面的数据聚合为汇总的数据。(5)数据加载:把完成上述处理过的数据加载到数据仓库中去。2.2数据输入方案根据数据仓库数据填充的要求和多数据源的特点,本文提出了一种数据仓库多数据源的填充方案。2.2.1这个团队的脚本数据仓库的数据填充涉及到数据源、数据转换、数据载入等过程,其流程如图1。2.2.2数据库模块设计(1)联机事务处理(OLTP)数据库模块:是正在使用的各种业务数据库系统,具体的可以是SQLServer、Oracle、IBM的DB2或Sybase数据库等。(2)文本文档模块:与数据仓库系统主题相关的文本文件数据。(3)Web页面数据源模块:与数据仓库系统主题相关的Web页面数据。(4)数据转换(DT)模块:提供数据传输和转换服务。此模块又可分为数据库厂商的DT工具模块、文本文档DT模块和Web页面数据源DT模块。(5)中间数据库模块:此模块可以设置数据库的增量更新,并叮以在中间数据库中建立中间表,实现数据表示方法的转换。如Oracle数据库中时间类型一般是整型,而在SQLServer2000数据库中,时间类型一般为Datetime型,这时就需要建立中间表,将整型时间转换为Datetime型时间。(6)增量更新模块:实现数据仓库中数据立方的增量更新,方便数据仓库的数据管理,可以做到对数据仓库的修改不是在数据仓库的内部数据库中进行。(7)数据仓库:数据仓库系统的核心部分,各种数据源的数据加工后被存储在数据仓库中,供决策人员决策分析使用。2.3基于op的otp数据源采集方案数据采集时,数据源可能主要来自于各种OLTP系统,部分来自于非OLTP系统的数据源,如各种格式的文本文件、Web页面等。在本文提出的填充方案中,把各种OLTP数据源(即数据库数据源)采集分为同质数据库数据源和非同质数据库数据源的采集;对非OLTP数据源(即非数据库数据源),主要考虑了文本文件数据和Web页面数据的采集。2.3.1数据库数据源(1)数据安全功能对于同质的数据源数据,大部分数据库厂商提供了将数据从源数据库移入数据仓库的工具,根据所用的数据库系统,可以选择与其相应的移入工具。如IBM提供的VisualWarehouse(VW)是一个功能很强的集成环境,可用于数据抽取、转换、装载和调度,OracleWarehouseBuilder集成了数据建模、数据抽取、数据转移和装载、聚合等功能,Sybase公司的PowerStage、ReplicationServer、CarletonPASSPORT是其相应的数据抽取与转换工具,Microsoft公司的数据传输服务DTS(DataTransformationServices)提供了数据输入/输出和自动调度等功能。此外其它数据库厂家也提供了相应的产品工具。(2)a平台的as-b、c这部分数据的转换,数据库厂商也有相应的转换工具,与同质数据库转换相同,可以使用厂商的工具方便地转换异质数据库的数据。如Microsoft公司的数据传输服务DTS就提供了异质数据库的数据转换功能。但有的转换可能仅限于Windows平台,如ODBC、BDE等。有些厂商提供的工具,如Oracle的网关技术实现了对大部分数据源的透明访问,但它是单独提供的。在实际工程中也可以利用JavaJDBC强大的数据库连接功能,在功能上实现与Oracle网关类似的产品。如果使用Oracle的网关技术产品,在实际操作时,利用数据库厂商提供的连接工具(JDBCDriver)即可实现。具体步骤是在源数据库和目标数据库系统上分别安装各自的驱动器(Driver)后,在程序中指明源和目标驱动器、URL地址、用户名、口令,建立连接。若在源和目标数据库间只进行复制等简单的数据提取任务,程序逻辑极易实现,参照任一个JDBC数据库应用即可完成。由于Java的平台无关特性,程序尤其适用于非Windows平台下异质数据库数据源的采集。2.3.2非数据库数据源(1)基于脚本描述的文本转换工具设计由于计算机的使用是从无到有,逐渐发展起来的,数据仓库所需的数据不一定都来自现有的数据库。通常情况下,有许多文本文件的信息需要导入数据库,这些文本文件的格式有的是能被数据导入工具直接导入的格式,而有的可能是一些复杂的格式。目前存在的简单文本文件,其格式主要有SYLK(符号连接)格式、CSV(逗号分隔文件)等,对这些固定格式的文件,可以使用有关ODBC驱动工具将其转入数据仓库中,也可以针对具体文本,编写简单的程序代码来完成数据的转换。对于具有复杂格式的文本文件,可以使用现有的数据抽取转换工具中称为代码生成工具的产品,利用这些产品生成编译代码(如C语言代码或Java代码),从复杂的文本文件数据源抽取数据仓库所需要的数据信息,即可以设计基于脚本描述的文本转换工具程序。程序可以由脚本描述语言、脚本解释程序、提取控制程序3部分组成。脚本描述语言实现了对数据源及信息格式的描述,对字符串进行分割处理、设置数据从数据源到目标数据库的转换规则,以及对关系型数据库表的Insert操作等的描述和基本的流程控制描述。脚本解释程序则实现对脚本的解释,并生成可执行的提取、连接代码。提取控制程序负责对整个连接、提取过程的控制以及与系统其它部分的通信。(2)通过rss档案的检查数据,将数据转化为数据仓库在Web页面中有大量丰富的文本、图片、声音、图像等数据,这些数据多存在于HTML文件中,没有严格的结构及类型定义,被称为半结构化的数据。在Web中主要存在两种结构:地种是超文本结构,依据此结构,逻辑上相关联的结构信息在物理上被链接,利用标签能够将文件以及图像的区域链接到本地计算机或Internet其它地力的文档中去;另一种是由HTML文本特点决定的文本组织结构,通过HTML语言,用不同的力法将数据组织在文本中。例如给定一个HTML页,通过HTML标签容易识别出该页面的标题(title)或一些复杂结构,如表格(table)、项目列表(list)等。对于Web页面数据源的数据填充,用户感兴趣的往往是这此半结构化的数据。在一个具体的HTML文档中,一般情况下,数据所在的行是些没有完整语法结构的语句片段,从这种文档中提取数据不能简单套用传统的信息提取方法。因为Web半结构数据的特点给Web页面数据的提取带来了先天的困难,对此可以将原先用HTML写的Web数据转化为XML(ExtensibleMarkupLanguage)形式的Web数据,通过XML浏览器能对数据进行排序和过滤,能根据样式表按用户的特定喜好把数据表示出来,从而利用XML优势构建填充数据仓库数据。XML是近儿年发展起来的新代标记语言。与HTML标记语言比较,XML有儿个明显的优点:①HTML语言不仅可以表达数据的内容,同时可以表达数据的结构;②针对特定时应用,开发人员可以创建特定的数据类型;③使用XML语言非常有助十结构化和非结构化数据的集成。现在已出现很多XML标记语言工具,比如FrameMaker+SGML(用于编辑和排版)、ADEPTEdit(用于内容管理的编辑器)、Xmetal)友好的XML编辑器)、XMLStyle图形化的XSL样式表编辑器)等,都可以根据系统需要定义XML的样式,将HTML文档转化为XML文档。在数据仓库填允时,考虑到这些XML文档不仅仅包括我们感兴趣的数据,同时也包括了数据的结构信息和其它相关的元数据,因此把XML数据加载到一个数据仓库中需要解决两个问题。是把XML的语义映射为合适的关系语义,例如把XML中的个人元素类型映射为数据仓库中的个人表单。一是怎样把层次结构的XML数据映射为平面关系,即平面化XML数据,以便把它们存储在数据仓库中。解决这两个问题需要重构XML数据。般情况重构XML数据可采用如下方法:是自定义脚本,这是最容易的方法,但不是最普遍的方法,它可以创建个自定义程序来读取和解析XML文档,并且把数据插入到合适的表单中。是采用受限的结构,可以使用XSL样式表把XML传输到一个结构中,这个结构类似于关系型数据库中的平面关系,通过使用合适的值和标识符来代替嵌入的元素,并且把它们的内容存放在另一个将要创建的文档中。在具体转换时,可以使用XSL样式表把XML数据转换为个由“记录”和“字段”标记组成的XML文档.“记录”和“字段”标记包括了要被加载表的信息和其它指定加载的元数据,然后使用解析工具把“记录/字段”数据导入到数据仓库中。3rosoft数据概述本文提出的数据填充方案已经在个银行数据仓库系统中使用。该系统是利用Microsoft公同的SQLServer2000构建的数据仓库系统。SQLServer2000是套完全的数据库和数据分析系统,用户可以快速创建面向上题的、可扩展的电了商务和数据仓库解决方案。Microsoft将联机分析处理(OLAP)功能集成到MicrosoftSQLServer中,提供可扩充的填于COM(ComponetObjectModel)的OLAP接口,可以利用MicrosoftOffice2000套件中的Access和Excel作为数据展现工具以及支持第三方数据展现工具。在数据转换和填充方面,数据传输服务DTS工具提供了数据输入/输出和自动调度的功能,在数据传输过程中,可以完成有关数据的验证、清洗以及转换等操作。我们在具体操作时,对来源于数据库的数据直接使用数据传输服务DTS工具,完成从OLTP数据库的数据到SQLServer2000数据仓库的填充:对复杂的文本数据源,则通过编写的脚本程序,完成数据的格式转换进行填充:对We
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 校园科技节活动合作合同(2篇)
- 2025农业产业合作投资合同
- 浙江省台州市十校2024-2025学年高二下学期4月期中考试 化学试题(含答案)
- 中毒性表皮坏死松解症的临床护理
- 阴囊皮炎的临床护理
- 眼睑恶性黑色素细胞肿瘤的临床护理
- 2025房地产营销协作服务合同协议范本
- 小儿汞中毒的临床护理
- α1-抗胰蛋白酶缺乏症的临床护理
- 《展览物流协调管理》课件
- 新生儿肠胀气课件
- 物业管理中英文对照外文翻译文献
- 专题17浮力与液面升降问题(选择、填空题)- 中考物理一轮复习专题练习(解析版)
- 《麻醉后苏醒延迟》课件
- 《物业客服培训》课件
- 06J403-1 楼梯、栏杆、栏板图集
- 实习中遇到的问题
- 供货合同终止申请书范本
- 中国军力报告2023全文
- 深圳市南山区教育系统招聘公办幼儿园园长考试题库2023
- 【管理会计在华为公司中的应用现状、问题及优化建议分析9600字(论文)】
评论
0/150
提交评论