版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS35.240.01CCSL70DB5120资阳市市场监督管理局发布IDB5120/T19.4—2023 12规范性引用文件 13术语和定义 14缩略语 2 26命名规范 47开发规范 7参考文献 DB5120/T19.4—2023本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。本文件由资阳市政务服务和大数据管理局提出并归口。本文件由资阳市市场监督管理局批准并发布。本文件起草单位:资阳市大数据服务中心、资阳数智科技有限公司。本文件主要起草人:刘桄序、戢培全、邵柏华、袁嘉、刘光乾、杨建康、张亚琴、李爱民、刘西北、郑雪梅、邓森林、彭国林、陈杜宇、杨通、李强、夏荣、张润泽、任良华、冷耀、陈熙。本文件为首次发布。1DB5120/T19.4—2023数据资源体系技术指南第4部分:数据仓库建设指南本文件规定了资阳市域数据仓库建设相关术语和定义、缩略语、综述、命名规范、开发规范等工作规范。本文件适用于资阳市域的数据仓库建设。2规范性引用文件下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB/T5271.1信息技术词汇第1部份:基本术语GB/T11457信息技术软件工程术语GB/T18492信息技术系统及软件完整性级别GB/T20270信息安全技术网络基础安全技术要求GB/T20271信息安全技术信息系统通用安全技术要求GB/T22032系统工程系统生存周期过程GB/T21062.3政务信息资源交换体系第3部分:数据接口规范GB/T25000系统与软件工程(所有部分)GB/T28452信息安全技术应用软件系统通用安全技术要求GB/T29264信息技术服务分类与代码GB/T29765信息安全技术数据备份与恢复产品技术要求与测试评价方法GB/T35295信息技术大数据术语GB/T36625.3智慧城市数据融合第3部分:数据采集规范GB/T38667信息技术大数据数据分类指南GB/T40094.2电子商务数据交易第2部分:数据描述规范GB/T40094.3电子商务数据交易第3部分:数据接口规范行GB/T42450信息技术大数据数据资源规划DB51/T3056政务数据数据分类分级指南3术语和定义GB/T5271.1、GB/T11457、GB/T18492、GB/T20270、GB/T20271、GB/T21062.3、GB/T25000、GB/T28452、GB/T29264、GB/T29765、GB/T35295、GB/T36625.3、GB/T38667、GB/T40094.2、GB/T40094.3、GB/T42450、DB51/T3056界定的以及下列术语和定义适用于本文件。3.1数据仓库datawarehouse数据仓库是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。2DB5120/T19.4—20233.2贴源层operationaldatastore数据准备区,与数据源的数据同构,是数据仓库层加工数据的来源,主要目的是简化后续数据加工处理的工作。3.3标准层standarddata贴源层的数据进行清洗、转化后的数据,为后续数据加工提供标准数据。3.4明细层datawarehousedetail保存通过标准层标准化之后的所有历史数据,为后续数据加工提供统一的、标准的数据视图。3.5汇聚层datawarehousesummary按主题对明细层数据进行综合、归类。3.6集市层datamart在汇聚层的基础上,满足特定的部门或者用户的需求,按照多维的方式进行存储,包括定义维度、需要计算的指标、维度的层次等,生成的面向决策分析需求的数据立方(一个全局数据表与其多个重要字段的索引组成的一个类似于立方体的数据组织结构)。4缩略语下列缩略语适用于本文件。ODS:贴源层(OperationalDataStore)STD:标准层(STandardDat)DWD:明细层(DataWarehouseDetail)DWS:汇聚层(DataWarehouseSummary)DM:集市层(DataMart)5综述本文件的拟制是为了规范数据仓库的建设过程,降低开发难度,保障开发质量,避免因开发不规范文档导致的重复开发及返工等问题。5.2原则数据仓库建设的基本原则主要有三条:a)统一性:为了保持开发风格一致,使得各类命名、各类规则、各类数据格式、开发过程阶段、问题处理方式等保持统一,数据仓库的建设需符合“统一性”原则。3DB5120/T19.4—2023b)明确性:为了保证开发内容的可理解和易运维,数据仓库的建设需符合“明确性”的原则,命名明确、代码明确、规则明确、处理流程明确、各类分层明确等。c)可扩展性:为了保障后续数据仓库在各个维度的易扩展能力,需要遵循“可扩展性”原则,要求在模型设计、字段设计、代码设计等阶段关注此原则。。5.3数据架构(数据采集过程与采集规范一致),如图1所示图1数据架构5.4分区选取原则5.4.1表分区原则:a)有数据更新的表需要做分区,若表数据量少则每个分区存当前全量数据,数据量大则每个分区放增量数据;b)分区列尽量选择能够让数据均匀分布的列,避免数据倾斜;c)有必要时可以选择多级分区(如:地区/年/月/日);d)需要频繁查询且数据量较大的表。5.4.2表不分区原则:a)数据几乎不更新的表不需要做分区,如字典表;b)数据量少于100万条。。5.5任务调度任务调度是配置任务的运行周期,主要基于数据资源中心数据开发平台或其他大数据平台的工作流配置。主要包括以下属性:a)调度周期:工作流调度频率,支持分钟/小时/天/周/月/年。b)起止时间:调度将在有效日期内生效并自动调度,每次调度生成工作流实例。c)依赖上一周期:工作流的本次运行需要依赖上一周期的运行结果。如果上一周期运行失败,则需要手动将上一周期的工作流实例修复并重跑成功,才能继续进行下一周期。d)补数据:若设置的调度起始时间早于当前时间一个调度周期及以上,则缺失的调度周期会被立刻执行,实现补数据的目的。例如:如果调度起始时间早于当前时间2个小时,调度周期1个小时,会把之前2个小时的2个工作流实例也生成运行。4DB5120/T19.4—2023e)调度依赖:即只有指定的上游工作流实例已按依赖策略执行成功,才会调度执行本工作流实例。如果添加了多个上游工作流,则需要所有上游工作流同时满足。。6命名规范6.1模型层命名命名要求如表1所示。表1模型层命名分层名英文全称中文名层次定义实现功能:业务源系统数据接入到此层,此层数据不做任何加工,禁实现功能:该层为标准数据层,主要是ODS层的数据进行清洗、转化后,导入到这一层,为DWD层提供标准数据,并把清洗后的脏数据保实现功能:该层为数据明细层,主要按主题对数据进行综合、归类。保留通过STD层标准经之后的所有历史数据,为DWS、DM层提供统一实现功能:该层为数据汇聚层,主要从DWD层的数据进行粗粒度聚合汇总;按业务需求对事实进行拉宽形成宽表,共性汇总加工。此次支实现功能:该层为数据集市层,根据应用要求,生成相关结果数据,6.2数据表命名6.2.1ODS层实体/表名命名形式:ods_{数源单位简称的拼音首字母}_{业务系统拼音首字母}_{数源单位原有表名称},如表2所示。表2ODS层表名模型事实表名称模型事实表描述命名规则:a)使用英文小写字母,单词之间用下划线分开。5DB5120/T19.4—2023b)ODS表会根据情况进行分区,但表名称不体现分区情况,因为ODS表名称需要与源业务系统名称保持一致。c)日期分区字段名称为dt,具体取值格式参见:6.2.6章节d)添加数据加载日期字段load_time,数据类型为String,值格式为:YYYY-MM-DD6.2.2STD层实体/表名命名形式:std_{数源单位简称的拼音首字母}_{业务系统拼音首字母}_{根据真实表名称提取中文首字母},如表3所示。表3STD层表名模型事实表名称模型事实表描述std_sgaj_jzpt_czrkxxstd_市公安局_警综平台_常驻人口信息std_sscjgj_frxxpt_fddbrstd_市市场监管局_法人信息平台_法定代表人命名规则:使用英文小写字母,单词之间用下划线分开。6.2.3DWD层实体/表名命名形式:dwd_{一级类目}_<二级类目>[_数据描述]_{拉链标识},如表4所示。表4DWD层表名模型事实表名称模型事实表描述dwd_jbxx_djxx_jtyjsyjbxxbdwd_基本信息_登记信息_交通域驾驶员基本信息表dwd_jbxx_djxx_jtyjsyjbxxb_hisdwd_基本信息_登记信息_交通域驾驶员基本信息表历史拉链表dwd_jbxx_djxx_jtykklldwd_基本信息_登记信息_交通域卡口流量命名规则:a)使用英文小写字母,单词之间用下划线分开。b)一级类目、二级类目、数据描述均采用中文首字母。c)如果是历史拉链表则在表名称加“_his”后缀。6.2.4DM层实体/表名命名形式:dm_<模型名称缩写>_<数据内容描述>,如表5所示。表5DM层表名模型事实表名称模型事实表描述dm_alarm交通域失衡预警次数日表dm_index交通域失衡指数日表命名规则,如表6所示:(1)使用英文小写字母,单词之间用下划线分开;(2)模型名称缩写、数据内容描述均采用中文首字母。表6DM命名规则模型名称对应缩写区域人口分布qyrkfb各地区各年龄分性别人口分布gdqgnlfxbrkfb各少数民族人口分布gssmzrkfb各地市分受教育程度人口数量gdsfsjycdrksl分地区新生儿性别分布fdqxsexbfb6DB5120/T19.4—2023表6(续)DM命名规则模型名称对应缩写各地市历年出生、死亡人口统计gdslncsswrktj迁移人口分布情况qyrkfbqk三次产业分性别迁入人口sccyfxbqrrk各地市城镇化率趋势gdsczhlqs分年龄不同文化程度不同性别婚姻情况fnlbtwhcdbtxbhyqk各地区近年离婚率趋势gdqjnlhlqs各地区养老保险参保人数gdqtlbxcbrs6.2.5临时表命名规范临时表指数据加工处理过程中,用于临时存储的过渡表。命名形式:tmp_<模型层表命名规范>_[XX]a)以tmp打头,中间为该事实表的名称,b)以XX结尾,XX为从01~99的数字。6.2.6分区字段命名及取值规范针对表需要分区的情况,所有的一级分区字段名称都为“dt”,如果需要有二级分区,则添加相应的二级分区字段,dt分区的具体的分区周期,可从模型的命名规范中得知,每种分区的取值规范如表7所示。表7分区取值规范分区周期取值规范备注日数据格式:YYYY-MM-DD,如:2021-03-12周数据格式:YYYYWW00,YYYY表示某年,WW表示为某年的第几周,00为数字的零;月数据格式:YYYYMM,如202103年数据格式:YYYY,如20216.3节点命名,如表8所示。表8节点命名规范节点、资源类型命名规范示例备注数据集成节点etl_{节点含义}etl_开始根节点启动任务SparkSQL节点sql_{节点含义}sql_用水量异常统计Mlab节点mlab_{节点含义}mlab_用水量异常统计数据清洗节点clean_{节点含义}clean_用水量异常统计PhoenixSQL节点ph_{节点含义}ph_异常分析数据直通节点Hbase_{节点含义}hbase_日异常分析SubWorkflow节点sub_{工作流名称}sub_指标系统并发节点并发并发使用默认名称不需要更改结合结合结合使用默认名称不需要更改python资源{脚本名称}.pyGetLinkDailyVolume.py用英文字母,首字母大写{脚本名称}.jarGetLinkDailyVolume.jar用英文字母,首字母大写6.4工作流命名,如表9所示。7DB5120/T19.4—2023表9工作流命名规范节点、资源类型命名规范示例备注DataBridge转换任务名}_{all/inr}zh_ods_gat_jdcdjxx_allall为全量inr为增量DataBridge作业管理周期}zy_ods_gat_jdcdjxx_all_dd:天w:周m:月y:年DataRiver标准层清洗周期}_{all/inr}bz_std_gat_jdcdjxx_d_allall为全量inr为增量,itg为integration,inr为incrementd:天w:周m:月y:年DataRiver明细层周期}_{all/inr}mx_dwd_jbxx_d_all天w:周m:月y:年DataRiver汇聚层周期}_{all/inr}hj_dws_jbxx_czrkdall天w:周m:月y:年DataRiver集市层周期}_{all/inr}js_dm_nlrk_inrd:天w:周m:月y:年DataRiver工作调度流程dd_{业务流程含义}_{运行周期}dd_kk_flow_sd_dd:天w:周m:月y:年DataRiver或DataStudio工作流job_{工作流含义}_{all/inr}job_kk_flow_sd_allall为全量inr为增量7开发规范7.1统一数据格式在STD层实施过程中,需要将各源系统的数据格式进行统一,如表10所示,主要需统一的数据格表10数据格式标准化格式类型统一格式示例YYYYMMDD,默认为1900010120190612YYYYMMDDHHMMSS,默认为1900010100000020190905120000年份YYYY,默认为19002019年月YYYYMM,默认为19000120190905时间(分)YYYYMMHHMM默认为190001010000201909051200身份证18位字符,合规性判断,15位身份证通过数据加工系统统一转化字符串去除头尾空格;去除回车;全角转半角Trim(‘数梦工8DB5120/T19.4—2023表10(续)数据格式标准化格式类型统一格式示例整型默认为0(可根据具体业务类型调整去除空格字符、换行回车双精度默认保留4位小数位(可根据具体业务调整)主键去重去空值域清洗对于数值类型进行检查以查看它们是否位于可接受的范围内,假如默认值为空,则不做数据转换,否则需要赋为默认值数值清洗对于数值类型进行检查以查看它们是否位于可接受的范围内,假如默认值为空,则不做数据转换,否则需要赋为默认值强制转换对该字段进行强制转换为默认值,如:密码字段转为"0"空格清洗判断字段是否都为空格,假如默认值为空,则不做数据转换,否则需要赋为默认值7.2统一数据维度应合并来自不同数据源的数据,每个维度进行标准化、统一化,在数据仓库中为每个维度建立一致性的标准,记录在维度表中,并通过元数据与数据映射组合的方式进行描述,方便后续的数据交叉探查等工作。应为每个维度建立标准化的编码方式,以及数据格式。在建立标准化的编码方式后,将各源系统中数据中的维度数据进行关联转换,将不同数据源标识同一事物的不同属性值进行统一。对于不同系统的不同维度,创建维度的映射关系表,将其映射到标准化后的维度上。7.3处理重复数据常见的重复场景及处理方式如表11所示表11重复数据处理方式重复场景处理方式每日全量入库使用数据加工系统中去重的功能;大部分字段一样,但仅某些时间字段不一致,通常为后续添加的操作时间字段取最新操作时间;业务主键一致的情况下
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑工程拆除新施工合同范本
- 薪酬体系与员工流动率
- 泰安市河道景观雕塑设计规范
- 2024年设计稿保密协议3篇
- 城市供水工程电子合同
- 2024年道路施工起重机械租赁及安全管理协议3篇
- 酿酒行业对账自动化方案
- 2025民间抵押借款合同范本2
- 2025民间借款合同潜规则
- 生产信息化管理实施手册
- 2024-2025学年部编版(2024)七年级历史上册知识点提纲
- 铁路技术管理规程-20220507141239
- 2024年公安机关招警面试题及参考答案
- 国家开放大学2024年(202401-202407)《2667绩效与薪酬实务》期末考试真题
- 植物学智慧树知到答案2024年浙江大学
- 房地产抵押贷款公证合同模板
- 矿山开采与生产管理
- 糖尿病的预防及治疗幻灯片
- 综合能力测试(一)附有答案
- 大学体育与健康智慧树知到期末考试答案章节答案2024年齐鲁师范学院
- 化学实验操作评分细则表
评论
0/150
提交评论