数据仓库的数据标准化思路x_第1页
数据仓库的数据标准化思路x_第2页
数据仓库的数据标准化思路x_第3页
数据仓库的数据标准化思路x_第4页
免费预览已结束,剩余1页可下载查看

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库的数据标准化思路数据标准化对于大型公司而言,各个下层子公司都使用自己本地的业务系统,当这些子公司数据往上汇总到总公司时,常常出现代码不一致,数据歧义等等各种各样的问题,在这种情况下,数据标准化就变得不得不行了。典型的例子,比如医院,大型医院往往包含多个分院,而分院都是用自己的业务系统。业务数据采集汇总后,发现数据结构及数据本身出现歧义,无法直接使用。因此,就不得不对本院及分院的业务数据进行标准化处理,避免歧义,使数据更真实可用,简单易理解。数据标准化处理应当注意两个关键点:1 .一号对应一对象。以病人为例,病人可能在各分院及本院都注册建档,因此同一病人可能在各分院都有不同的ID号,但数

2、据采集到本院,与本院数据合并后,进行标准化处理,应保证此病人具有新的唯一ID号。同时需保留病人曾经的各分院及本院ID号,便于其他分院数据的关联(如分院的病人缴费数据需要关联原始分院号码,之后以标准化后唯一ID号,进入本院系统)。2 .事实数据标明数据来源。如病人缴费信息,因为缴费事实产生的位置不同,需要进行来源标注,分清本院及各分院,便于数据理解及之后的查询和统计。在构建DW6寸的数据标准化处理流程上,可以考虑通过以下方式来完成。标准化准备在标准化处理之前,需要对DW麦格结构进行一些处理,使得标准化过程易于实施,也保证标准化的结果更易于理解。对于不同的表格上,所需新增的字段也不尽相同。下面分类

3、进行说明:维表比如病人信息,科室信息,员工信息,设备信息等,新加字段如下:字段名类型说明备注ID数字代理键,主键由序列生成,新的唯一ID号HISTORY_IDLIST文本曾经使用的编号列表对应分院+分院ID号,以;分隔START_DATE日期记录生效时间拉链使用,可选END_DATE日期记录失效时间拉链使用,可选事实表如病人缴费,医生处方,手术记录等,新加字段如下:字段名类型说明备注表示数据来源;SOURCE_ID数字数据来源,本院、分院应新增本院/分院信息维表,记录source_id对应的分院名,地址,热线等信息对于已处理完成的信息,如病人已出院,进行可归ARCHIVE_FLAG文本记录是否

4、可归档(Y/N)档标记;DW保留一段时间后,可考虑部分归档数据迁移到二级存储,减轻压力START_TIME日期记录生效时间拉链使用,可选END_DATE日期记录失效时间拉链使用,可选数据标准化处理在数据标准化的处理过程中,也应分为两步进行处理,先进行维表的代码(如ID号)标准化,然后将事实表中的记录以标准化后的代码配合原来的事实信息(如缴费)及数据来源标记(哪个分院)采集到DW标准事实表中。维表标准化1.维表标准化以病人维表为例进行说明2,将本院及各分院的维表数据采集到DW标准库的缓冲区(可将本院及各分院数据放置于缓冲区的不同用户下)3 .首先标准化本院数据,标准化后的数据写入标准表格。以病人

5、身份证号进行区分,身份证号第一次出现时,取新的序列值为病人的标准化ID号,并将病人的原始信息(本院编号+原始ID号)记入history_idlist字段;同一身份证号之后重复出现时,将病人的原始信息添加到history_idlist字段即可。4 .之后标准化分院数据,对于本院中未出现的身份证号,取新的序列值为病人的标准化ID号,并将病人的原始信息(分院编号+原始ID号)记入history_idlist字段;同一身份证号之后重复出现时,将病人的原始信息添加到history_idlist字段即可。注:在病人的原始信息记入history_idlist字段时,可选择同时将标准化的病人ID号和原始ID号

6、写入一个代码转换表,便于之后分院事实表通过此代码转换表,根据原始ID号,找到新的标准化ID号。当然,分院事实表也可通过对标准化病人维表的history_idlist字段的全文搜索,找到对应的标准化ID号。实际实施中,以实施效率进行灵活调整即可。事实表标准化1 .将本院及分院的事实表数据采集到DW标准库的缓冲区2 .本院及分院事实表需与上一步生成的代码转换表关联(或搜索history_idlist字段),根据原始病人ID号,找到新生成的标准化ID号,联合其它的事实数据(如缴费),写入到新的标准化事实表3 .本院及分院事实表数据写入DW标准库的同时,在标准化事实表的source_id字段中标注事实数据来源(本院或分院的编号)DW数据标准化实施在实施标准化时,可分为标准化初始化-增量标准化来实施,标准化初始化处理数据量最大,之后增量标准化,只要采集增量数据到缓冲区即可。标准化初始化标准化初始化示意图如下:DW标准库初始化主要完成以下工作:1 .以某个时间点为界,采集本院、分院数据到DW标准库缓冲区2 .在缓冲区进行数据标准化后,写入DW标准库3 .写入完成后,清理缓冲区,但建立了代码转换表的话,代码转换表可保留标准化增量标准化增量示意图如下:DW标准库标准化增量主要完成以下工作:1

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论