DB5120T 19.4-2023数据资源体系技术指南 第4部分:数据仓库建设指南_第1页
DB5120T 19.4-2023数据资源体系技术指南 第4部分:数据仓库建设指南_第2页
DB5120T 19.4-2023数据资源体系技术指南 第4部分:数据仓库建设指南_第3页
DB5120T 19.4-2023数据资源体系技术指南 第4部分:数据仓库建设指南_第4页
DB5120T 19.4-2023数据资源体系技术指南 第4部分:数据仓库建设指南_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.240.01CCSL70 DB5120四川省(资阳市)地方标准DB5120/T19.4—2023420232023122220231229资阳市市场监督管理局发布DB5120/T19.4DB5120/T19.4—2023DB5120/T19.4DB5120/T19.4—2023目  次前 言 II范围 1规范性引用文件 1术语和定义 1缩略语 2综述 2命名规范 4开发规范 7参考文献 10II前 言本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利,本文件的发布机构不承担识别这些专利的责任。本文件由资阳市政务服务和大数据管理局提出并归口。本文件由资阳市市场监督管理局批准并发布。本文件起草单位:资阳市大数据服务中心、资阳数智科技有限公司。本文件为首次发布。IIII数据资源体系技术指南第4部分:数据仓库建设指南范围本文件适用于资阳市域的数据仓库建设。规范性引用文件(包括所有的修改单适用于本文件。GB/T5271.1信息技术词汇第1部份:基本术语GB/T11457信息技术软件工程术语GB/T18492信息技术系统及软件完整性级别GB/T20270信息安全技术网络基础安全技术要求GB/T20271信息安全技术信息系统通用安全技术要求GB/T22032系统工程系统生存周期过程GB/T21062.3政务信息资源交换体系第3部分:数据接口规范GB/T25000系统与软件工程(所有部分)GB/T28452信息安全技术应用软件系统通用安全技术要求GB/T29264信息技术服务分类与代码GB/T29765信息安全技术数据备份与恢复产品技术要求与测试评价方法GB/T35295信息技术大数据术语GB/T36625.3智慧城市数据融合第3部分:数据采集规范GB/T38667信息技术大数据数据分类指南GB/T38667信息技术大数据数据分类指南GB/T40094.2电子商务数据交易第2部分:数据描述规范GB/T40094.3电子商务数据交易第3部分:数据接口规范行GB/T42450信息技术大数据数据资源规划DB51/T3056政务数据数据分类分级指南3术语和定义GB/T5271.1、GB/T11457、GB/T18492、GB/T20270、GB/T20271、GB/T21062.3、GB/T25000、GB/T28452、GB/T29264、GB/T29765、GB/T35295、GB/T36625.3、GB/T38667、GB/T40094.2、GB/T40094.3、GB/T42450、DB51/T3056界定的以及下列术语和定义适用于本文件。3.1数据仓库datawarehouse13.2贴源层operationaldatastore3.3标准层standarddata贴源层的数据进行清洗、转化后的数据,为后续数据加工提供标准数据。3.4明细层datawarehousedetail保存通过标准层标准化之后的所有历史数据,为后续数据加工提供统一的、标准的数据视图。3.5汇聚层datawarehousesummary按主题对明细层数据进行综合、归类。3.6集市层datamart(一个全局数据表与其多个重要字段的索引组成的一个类似于立方体的数据组织结构)。(一个全局数据表与其多个重要字段的索引组成的一个类似于立方体的数据组织结构)。4缩略语下列缩略语适用于本文件。ODS:贴源层(OperationalDataStore)STD:标准层(STandardDat)DWD:明细层(DataWarehouseDetail)DWS:汇聚层(DataWarehouseSummary)DM:集市层(DataMart)5综述目的原则数据仓库建设的基本原则主要有三条:a)统一性:为了保持开发风格一致,使得各类命名、各类规则、各类数据格式、开发过程阶段、问题处理方式等保持统一,数据仓库的建设需符合“统一性”原则。2明确性:为了保证开发内容的可理解和易运维,数据仓库的建设需符合“明确性”的原则,命名明确、代码明确、规则明确、处理流程明确、各类分层明确等。可扩展性:为了保障后续数据仓库在各个维度的易扩展能力,需要遵循“可扩展性”原则,要求在模型设计、字段设计、代码设计等阶段关注此原则。。数据架构(数据采集过程与采集规范一致)1图1数据架构分区选取原则表分区原则:有数据更新的表需要做分区,若表数据量少则每个分区存当前全量数据,数据量大则每个分区放增量数据;分区列尽量选择能够让数据均匀分布的列,避免数据倾斜;c)有必要时可以选择多级分区(如:地区/年/月/日);d)需要频繁查询且数据量较大的表。表不分区原则:a)数据几乎不更新的表不需要做分区,如字典表;b)100任务调度主要包括以下属性:调度周期:工作流调度频率,支持分钟/小时/天/周/月/年。起止时间:调度将在有效日期内生效并自动调度,每次调度生成工作流实例。依赖上一周期:工作流的本次运行需要依赖上一周期的运行结果。如果上一周期运行失败,则需要手动将上一周期的工作流实例修复并重跑成功,才能继续进行下一周期。补数据:若设置的调度起始时间早于当前时间一个调度周期及以上,则缺失的调度周期会被立21把之前2个小时的2个工作流实例也生成运行。3数据表命名ODS数据表命名ODS/表名_{业务系统拼音首字母}_22ODS命名规则:a)使用英文小写字母,单词之间用下划线分开。4命名规范模型层命名命名要求如表1所示。表1模型层命名分层名英文全称中文名层次定义ODSOperationalDataStore贴源层实现功能:业务源系统数据接入到此层,此层数据不做任何加工,禁止重复进入。数据来源范围:业务源系统。数据存储时长:永久。实施环境:数据资源中心数据开发平台或其他大数据平台STDStandardData标准层ODSDWD数据来源范围:ODS。数据存储时长:根据业务需求状况。实施环境:数据资源中心数据开发平台DWDDataWarehouseDetail明细层实现功能:该层为数据明细层,主要按主题对数据进行综合、归类。STDDWS、DM数据来源范围:此层数据来源于STD。数据存储时长:根据业务需求保留。实施环境:数据资源中心数据开发平台或其他大数据平台DWSDataWarehouseSummary汇聚层DWD数据来源范围:DWD。数据存储时长:根据业务需求状况。实施环境:数据资源中心数据开发平台或其他大数据平台DMDataMart集市层实现功能:该层为数据集市层,根据应用要求,生成相关结果数据,支撑应用使用数据来源范围:DWD、DWS。数据存储时长:根据业务需求状况。实施环境:数据资源中心数据开发平台或其他大数据平台模型事实表名称模型事实表描述ods_sgaj_jzpt_czrkxxODS_市公安局_警综平台_常驻人口信息ods_sjj_frxxpt_fddbrODS_市监局_法人信息平台_法定代表人ODSODSdt,具体取值格式参见:6.2.6load_timeString,值格式为:YYYY-MM-DDSTD/表名命名形式:std_{数源单位简称的拼音首字母}_{业务系统拼音首字母}_{根据真实表名称提取中文33STD模型事实表名称模型事实表描述std_sgaj_jzpt_czrkxxstd_市公安局_警综平台_常驻人口信息std_sscjgj_frxxpt_fddbrstd_市市场监管局_法人信息平台_法定代表人命名规则:使用英文小写字母,单词之间用下划线分开。DWD/表名命名形式:dwd_{一级类目}_<二级类目>[_数据描述]_{拉链标识},如表4所示。命名规则:使用英文小写字母,单词之间用下划线分开。一级类目、二级类目、数据描述均采用中文首字母。c)如果是历史拉链表则在表名称加“_his”后缀。6.2.4DM层实体/表名命名形式:dm_<模型名称缩写>_<5命名规则:使用英文小写字母,单词之间用下划线分开。一级类目、二级类目、数据描述均采用中文首字母。c)如果是历史拉链表则在表名称加“_his”后缀。6.2.4DM层实体/表名命名形式:dm_<模型名称缩写>_<55DM命名规则,如表6所示:使用英文小写字母,单词之间用下划线分开;模型名称缩写、数据内容描述均采用中文首字母。6DM5模型事实表名称模型事实表描述dwd_jbxx_djxx_jtyjsyjbxxbdwd_基本信息_登记信息_交通域驾驶员基本信息表dwd_jbxx_djxx_jtyjsyjbxxb_hisdwd_基本信息_登记信息_交通域驾驶员基本信息表历史拉链表dwd_jbxx_djxx_jtykklldwd_基本信息_登记信息_交通域卡口流量模型事实表名称模型事实表描述dm_alarm交通域失衡预警次数日表dm_index交通域失衡指数日表模型名称对应缩写区域人口分布qyrkfb各地区各年龄分性别人口分布gdqgnlfxbrkfb各少数民族人口分布gssmzrkfb各地市分受教育程度人口数量gdsfsjycdrksl分地区新生儿性别分布fdqxsexbfb表6(续)DM命名规则模型名称对应缩写各地市历年出生、死亡人口统计gdslncsswrktj迁移人口分布情况qyrkfbqk三次产业分性别迁入人口sccyfxbqrrk各地市城镇化率趋势gdsczhlqs分年龄不同文化程度不同性别婚姻情况fnlbtwhcdbtxbhyqk各地区近年离婚率趋势gdqjnlhlqs各地区养老保险参保人数gdqtlbxcbrs临时表命名规范临时表指数据加工处理过程中,用于临时存储的过渡表。命名形式:tmp_<模型层表命名规范>_[XX]a)tmpXXXX01~99分区字段命名及取值规范表7分区取值规范6.38表8节点命名规范6.4表7分区取值规范6.38表8节点命名规范6.496分区周期取值规范备注日数据格式:YYYY-MM-DD,如:2021-03-12周月数据格式:YYYYMM,如202103年数据格式:YYYY,如2021节点、资源类型命名规范示例备注数据集成节点etl_{节点含义}etl_开始根节点启动任务SparkSQL节点sql_{节点含义}sql_用水量异常统计Mlab节点mlab_{节点含义}mlab_用水量异常统计数据清洗节点clean_{节点含义}clean_用水量异常统计PhoenixSQL节点ph_{节点含义}ph_异常分析数据直通节点Hbase_{节点含义}hbase_日异常分析SubWorkflow节点sub_{工作流名称}sub_指标系统并发节点并发并发使用默认名称不需要更改结合结合结合使用默认名称不需要更改python资源{脚本名称}.pyGetLinkDailyVolume.py用英文字母,首字母大写jar{脚本名称}.jarGetLinkDailyVolume.jar用英文字母,首字母大写7开发规范7.17开发规范7.1统一数据格式STD10式。表10数据格式标准化7表9工作流命名规范节点、资源类型命名规范示例备注DataBridge转换任务zh_{目标表名}_{all/inr}zh_ods_gat_jdcdjxx_allall为全量inr为增量DataBridge作业管理zy_{目标表名}_{运行周期}zy_ods_gat_jdcdjxx_all_dd:天w:周m:月y:年DataRiver标准层清洗bz_{目标表名}_{运行周期}_{all/inr}bz_std_gat_jdcdjxx_d_allallinrintegration,inrincrementd:天w:周m:月y:年DataRiver明细层mx_{目标表名}_{运行周期}_{all/inr}mx_dwd_jbxx_d_allallinr天w:周m:月y:年DataRiver汇聚层hj_{目标表名}_{运行周期}_{all/inr}hj_dws_jbxx_czrk_d_allallinr天w:周m:月y:年DataRiver集市层js_{目标表名}_{运行周期}_{all/inr}js_dm_nlrk_inrallinrdwm:月y:年DataRiver工作调度流程dd_{业务流程含义}_{运行周期}dd_kk_flow_sd_dd:天w:周m:月y:年DataRiver或DataStudio工作流job_{工作流含义}_{all/inr}job_kk_flow_sd_allall为全量inr为增量格式类型统一格式示例日期YYYYMMDD,默认为1900010120190612时间YYYYMMDDHHMMSS,默认为1900010100000020190905120000年份YYYY,默认为19002019年月YYYYMM,默认为19000120190905时间(分)YYYYMMHHMM默认为190001010000201909051200身份证18位字符,合规性判断,15位身份证通过数据加工系统统一转化为18位字符串去除回车;全角转半角Trim(‘数梦工场’)表10(续)数据格式标准化格式类型统一格式示例整型默认为0(可根据具体业务类型调整),去除空格字符、换行回车双精度默认保留4位小数位(可根据具体业务调整)主键去重去空值域清洗对于数值类型进行检查以查看它们是否位于可接受的范围内,假如默认值为空,则不做数据转换,否则需要赋为默认值数值清洗对于数值类型进行检查以查看它们是否位于可接受的范围内,假如默认值为空,则不做数据转换,否则需要赋为默认值强制转换对该字段进行强制转换为默认值,如:密码字段转为"0"空格清洗判断字段是否都为空格,假如默认值为空,则不做数据转换,否则需要赋为

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论