智慧城市数据中台建设方案_第1页
智慧城市数据中台建设方案_第2页
智慧城市数据中台建设方案_第3页
智慧城市数据中台建设方案_第4页
智慧城市数据中台建设方案_第5页
已阅读5页,还剩38页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、智慧城市数据中台建设方案智慧城市数据中台软硬件建设清单序号类别设备/功能名称设备/功能描述单位数呈一、软件开发1数据共享交换数据共章交换数据共享交换软件套12大数据资源中心大数据资源中心大数据资源中心软件套13与各委办局教据对接与各委办局数据对接平台和各委办局进行对接个404软件及服务大数据治理中心主要进行教据元标准制定、代码标准制定、元数据的管理、数据标签管理、数据质星管理。套13大数据服务中心(核心产品)大数据服务中心为整个数据中台以服务形式提供数据的能力,支撑其它系统数据调用。大数据智能分析系统:提供自主开发的报表等功能。套16大数据智能分析系统(核心产品)大数据智能分析系统为整个数据中

2、台提供底层支撑。套17大数据基础平台大数据基础平台多源教据汇集,提供数据采集的能力。套18大数据集成中心(核心产品)大数据集成中心多源数据汇集,提供数据采集的能力。套19大数据开发平台大数据开发平台主要集成离线计算引擎和在线计算引華。套110大数据安全中心大数据安全中心提供数据采集安全、数据传输安全、数据存储安全、数据使用安全的能力。套111数据沙箱平台数据沙箱平台模拟生产教据,在测试环境进行模型训练,通过训练好的模型在生产环境运行返回结果数据。套1二、规范编制1标准体系技术管理规范数据模型管理规范,数据共亭交换平台开发规范,基础库开发规范,专题库开发规范套12数据标准教据资源目录规范,代码类

3、标准规范,墓础数据元标准规范(人口分册),基础数据元标准规范(法人分册)套13数据管控规范数据标准管理办法,数据质長管理办法,教据安全管理办法,数据隐私保护指南,数据资产管理办法,元数据管理办法套14运营管理规范数据共享服务管理办法,数据采集管理办法,数据交换共享平台管理办法套1丄智慧城市数据中台软件功能淸单序号系统名称一级功能模块名称二级功能三级功能123456土b享享平台期升级数据共享交换敌据交换系统数据归集数据共辜政务资源目录管理系统需求清单霑求和责任清单处理需求清单确认需求清单发布7共享责任清单目录关联8资源编目数据雲求梳理驱动编目9数据资源反向快速编目10统一门户11应用中心12数据

4、目录13资源超市14数据开放平台共享成效15政策法规16互动交流17个人中心18系统管理19数据政务数据米集20数据归集开发数据米集社会数据米集21集成广域感知教据米集22免协调业务管道采集23与应用支撑赋能平台的接口24系统接口开发系统间接口开发与数宇李生城市平台的接口25接与广域感知平台的接口口26与应用系统的关系的接口27数沙箱开发数据支檸创津基于信创体系的测试安全空间据28数据处理数据直换规则设计开发29沙箱机器模型设计30机器模型开发31开放数据服务32安全审核数据安全审计33数据治理开发融台库数据质星稽核数据校验规则设计34数据校验规则开发35基础库人贝类数据兀36机构类数据兀37

5、位直类数据兀38数扌居兀标准制疋时、间类数据兀39公文类数据元40金融类数据兀41其他类教据兀42代码标准开发代码标准开发43数据质昱稽核数据校验规则设计44数据校验规则开发45专题库数据质星稽核数据校验规则设计46数据校验规则开发47数据建模型设计逻辑模型逻辑模型设计与开发48物理模型物理模型设计与开发49基础库数据模型分析人口基础库数据模型分析50法人基础库数据模型分析51信用基础库数据模型分析52电于证照基础库数据模型分析53自然资源和地理空间墓础库教据模型分析54社会保除基础庠数据模型分析55房产交易基础库数据模型分析56电于档案基础库教据模型分析57数据模型开发人口基础库数据模型开发

6、58法人基础库数据模型开发59信用基础库数据模型开发60电于证照基础库数据模型开发61自然资源和地理空间基础库教据模型分析62社会保除基础库数据模型开发63房产交易基础库数据模型开发64电于档案倚息基础库数据模型开发65专题库数据模型分析城市I建康发展体验场景专题库数据模型分析66李生城市市政规划专题库数据模型分析67产业园区教宇李生试点专题库数据模型分析68城市综台态势专题库数据模型分析69城帀女全专题库敦据蟆型TrVT70城市泊理专题库数据模型分析71城市服务专题库数据模型分析72文化旅游专题库数据模型分析73交通运行专题库数据模型分析74人口专题库数据模型分析75法人专题库数据模型分析7

7、6宏观经济决策专题库数据模型分析77数据模型开发城市健康发展体验场景专题库敌据模型开发78辛生城市市政规划专题库数据模型开发79产业园区敌宇李生试点专题库数据模型开发80城市综台态势专题库数据模型开发81城帀女全TftS库欽据模型卄友82城市油理专题库数据模型开发83城市服务专题库数据模型开发84文化旅游专题库数据模型开发85交通运行专题库数据模型开发86人口专题库数据模型开发87法人专题库数据模型开发88宏观经济决策专题库数据模型开发89人口础库数据服务开发模型査询服务人口信息査询90死亡信息査询91婚姻信息査询92人脉关系査询93人口分布信息査询94人口结构査询95区域人口信息査询96人口

8、基本信息分析97自然人多维检索分析98模型分析服务人口年龄结构分析99区域人口统计分析100暂住人口统计分析101常住人口统计分析102法人信息査询103模型査询服务行政处罚信息査询104法行政许可信息査询105人法人信用报告査询106础数据服务开发法人基本信息统计107库区域分布分析108模型分析服务行业分布情况分析109法人信用情况分析110法人从业人员分析111信信用公示信息査询112用数据服务开发模型査询服务企业信用承诺査询113础企业信用评价査询114库信用监管信息査询137单位基础信息査询138就业创业信息査询139社会保险信息査询140劳动关系査询141社重点监察企业筛査142会

9、保险人社三i像标签设计143人社IIi像基础144人社信用评价145库模型分析服务主要行业求人倍率预测146关键职业求人倍率预测147失业预测预普148失业根因分析149高校毕业生就业情况跟踪150新房信息査询151二手房信息査询152房产出租房信息査询153商铺信息査询154交易数据服务开发模型査询服务写宇楼信息査询155础库厂房信息査询156仓库信息査询157土地信息査询158车位信息査询159模型分析服务新房多维检索分析160二手房多维检索分析161出租房多维检索分析162商铺多维检索分析163写宇楼多维检索分析164厂房多维检索分析165仓库多维检索分析166土地多维检索分析167车位

10、多维检索分析168商品房房价趋势分析169公积金/商贷占比分析170手房成交長占比分析171电档案础库数据服务开发数据査询电于档案査询172知识库检索173全文检索174智能搜索175统计分析档案利用情况分析176档案专题推送服务177档案统计178档案年报179档案知识视图180指标开发区域生态宜居指标展示区域开发强度专题指标加工301城市健康发展题库城市人口密度专题指标加工城市开发强度专题指标加工区域1建康舒适指标展示社区便民服务设施覆盖率指标加工社区养老服务设施覆盖率指标加工普惠性幼儿园覆盖率指标加工区域安全韧性指标展示城市建成区积水內涝点密度指标加工城市万车死亡率指标加工城市每万人年度

11、较大逹设事故发生数指标加工区域交通便捷指标展示高峰时间平均机动车速度指标加工城市道路网密度指标加工城市常住人口平均单程通勤时间指标加工居住区停车泊位与小汽车拥有昱的比例公共交通出行分担率()指标加工区域风貌特色指标展示城市历史文化街区保存完整率指标加工工业遗产利用率指标加工城市历史逹筑平均密度指标加工区域整洁有序指标展示城市生活垃圾回收利用率指标加工城市生活污水集中收集率指标加工建成区公厕设直密度指标加工区域多元包容指标展示常住人口基本公共服务建盖率指标加工公共空间无障碍设施復盖率指标加工18118218318418518618718818919019119219319419519619719

12、8199200202房租收入比指标加工203区域创新活力指标展示非公经济增长率指标加工204万人咼新技术企业教指标加工205全社会R&D支出占GnP比重指标加工206区域傩康体检分析区域I建康体检结果展示指标加工207区域I建康体检擢吿输出指标加工208市政规划专库指标开发规逹馆一张图一张蓝图指标加工209综合査询指标加工210辅助决策指标加工211李生城市规划分析城市区位分析指标加工212法定规划展示指标加工213城市五线分布指标加工214选址规划场景选址意向提交指标加工215选址数据校验指标加工216规划选址库指标加工217城市综合态势专题库指标开发城市总体概况指标加工218经济态势指标加

13、工219人口态势指标加工220指标开发安全隐患指标加工221222城市安全专安全生产指标加工治安安全指标加工库223城市治理事件泊理概览指标加工224指标开发12345指标加工225题数宇化城管指标加工库226城市社会保障服务指标加工227服务专库指标开发就业服务教据统计228教育服务指标数据泊理229文化旅游出行服务指标数据加工230旅游专指标开发旅游住宿服务指标加工231公共服务资源指标加工库232交城市道路交通平均车速指标加工233运实时交通运行监测城市道路交通实时路况指标加工234行专题指标开发城市道路交通拥堵等级指标加工235主题交通运行监测公交日均运行速度指标加工236库公交出行分

14、担率指标加工237公共交通准点率指标加工238人口专库指标开发人口属性指标加工239信用属性指标加工24()消费特征指标加工241法人专题库指标开发法人基础信息指标加工242组织机构代码信息指标加工243机构注册或登记信息指标加工244宏观经济决策题库指标开发经济总体状况指标加工245产业经济运行指标加工246中小企业经济运行分析指标加工247企业信用分析指标加工248财政税收分析指标加工智慧城市数据中台软件建设2.1.数据共享交换将共享交换平台一期进行升级。具备数据共享交换能力,实现数据归集和数据共享;具备政务资源Ll录管理系统,提供需求清单整理、需求和责任清单处理、需求清单确认、需求清单发

15、布、共享责任清单录关联等服务;支持数据需求梳理驱动编U结合数据资源反向快速编U的方式,实现资源编目。具备数据开放平台,提供统一门户、应用中心、数据目录、资源超市、共享成效、政策法规、互动交流、个人中心、系统管理等功能。2.2.大数据资源中心数据集成把不同来源、格式的数据在逻辑上或物理上有机地集中,主要解决数据的分布性、异构性、有效性和及时性的问题。此外,数据集成是个长期不断持续的过程,需要有易用的工具、长期可鼎的运行环境和全面有效的监控管理共同支撑。提供工作流的设计客户端,支持作业流设计、脚本类设计和图形化设计。支持实现政务数据采集、社会数据采集、广域感知数据采集、免协调业务管道采集的功能。系

16、统接口支持实现与应用支撑赋能平台、数字挛生城市平台、广域感知平台、与应用系统的接口开发并发布服务。数据沙箱提供数据支撑、数据处理、安全审核等功能,实现创建基于信创体系的测试安全空间、配置数据置换规则、机器模型设计、机器模型开发、开放数据服务、数据安全审计。数据治理开发提供数据质量稽核、数据元标准制定、代码标准开发功能。实现融合库的数据质量稽核工作。实现基础库的数据元标准制定(人员类数据元、机构类数据元、位置类数据元、时间类数据元、公文类数据元、金融类数据元、其他类数据元)、代码标准开发、数据质量稽核工作。实现专题库的数据质量稽核工作。数据建模实现逻辑模型设讣与开发;实现物理模型设计与开发;实现

17、数据模型分析:人口基础库数据模型分析、法人基础库数据模型分析、信用基础库数据模型分析、电子证照基础库数据模型分析、自然资源和地理空间基础库数据模型分析、社会保险基础库数据模型分析、房产交易基础库数据模型分析、电子档案基础库数据模型分析、城市健康发展体验场景专题库数据模型分析、学生城市市政规划专题库数据模型分析、产业园区数字李生试点专题库数据模型分析、城市综合态势专题库数据模型分析、城市安全专题库数据模型分析、城市治理专题库数据模型分析、城市服务专题库数据模型分析、文化旅游专题库数据模型分析、交通运行专题库数据模型分析、人口专题库数据模型分析、法人专题库数据模型分析、宏观经济决策专题库数据模型分

18、析。实现数据模型开发:人口基础库数据模型开发、法人基础库数据模型开发、信用基础库数据模型开发、电子证照基础库数据模型开发、自然资源和地理空间基础库数据模型分析、社会保险基础库数据模型开发、房产交易基础库数据模型开发、电子档案信息基础库数据模型开发、城市健康发展体验场景专题库数据模型开发、李生城市市政规划专题库数据模型开发、产业园区数字李生试点专题库数据模型开发、城市综合态势专题库数据模型开发、城市安全专题库数据模型开发、城市治理专题库数据模型开发、城市服务专题库数据模型开发、文化旅游专题库数据模型开发、交通运行专题库数据模型开发、人口专题库数据模型开发、法人专题库数据模型开发、宏观经济决策专题

19、库数据模型开发。人口基础库实现人口基础库的信息整合,和数据基础服务,包括:人口信息查询、死亡信息查询、婚姻信息查询、人脉关系查询、人口分布信息查询、人口结构查询、区域人口信息查询、人口基本信息分析、自然人多维检索分析、人口年龄结构分析、区域人口统计分析、暂住人口统计分析、常住人口统计分析。实现法人基础库的信息整合,和数据基础服务,包括:法人信息查询、行政处罚信息查法人基础库询、行政许可信息查询、法人信用报告查询、法人基本信息统讣、区域分布分析、行业分布情况分析、法人信用情况分析、法人从业人员分析。信用基础库实现数据基础服务,包括:信用公示信息查询、企业信用承诺查询、企业信用评价查询、信用监管信

20、息查询、失信被执行人信息查询、企业信用服务等查询、法人、企业、自然人监测分析、信用评价分析、人口信用情况分析。电子证照基础库实现数据基础服务,包括:年检电子证照查询、电子证照有效期查询、电子证照照面信息查询、电子证照发证查询、电子证照发证部门统计分析、电子证照类别统计分析、电子证照持有者统计分析、电子证照Ll录数统计分析、电子证照生成数统计分析。地理空间基础库实现数据基础服务,包括:地质灾害信息查询、城市网格化数据查询、土地利用遥感监测信息查询、水环境信息查询、水生态水景观水文化信息查询、防洪排涝信息查询、矿产资源统计分析。社会保险基础库实现数据基础服务,包括:人员基础信息查询、单位基础信息查

21、询、就业创业信息查询、社会保险信息查询、劳动关系查询、重点监察企业筛查、人社画像标签设计、人社画像、人社信用评价、主要行业求人倍率预测、关键职业求人倍率预测、失业预测预警、失业根因分析、高校毕业生就业情况跟踪。实现数据基础服务,包括:新房信息查询、二手房信息查询、出租房信息查询、商铺信房产交易基础库息查询、写字楼信息查询、厂房信息查询、仓库信息查询、土地信息查询、车位信息查询、新房多维检索分析、二手房多维检索分析、出租房多维检索分析、商铺多维检索分析、写字楼多维检索分析、厂房多维检索分析、仓库多维检索分析、土地多维检索分析、车位多维检索分析、商品房房价趋势分析、公积金/商贷占比分析、手房成交量

22、占比分析。电子档案基础库实现数据基础服务,包括:电子档案查询、知识库检索、全文检索、智能搜索、档案利用悄况分析、档案专题推送服务、档案统讣、档案年报、档案知识视图。城市健康发展专题库实现数据加工服务,包括:区域开发强度专题指标加工、城市人口密度专题指标加工、城市开发强度专题指标加工、社区便民服务设施覆盖率指标加工、社区养老服务设施覆盖率指标加工、普惠性幼儿园覆盖率指标加工、城市建成区积水内涝点密度指标加丄、城市万车死亡率指标加工、城市每万人年度较大建设事故发生数指标加工、高峰时间平均机动车速度指标加工、城市道路网密度指标加工、城市常住人口平均单程通勤时间指标加工、居住区停车泊位与小汽车拥有量的

23、比例、公共交通出行分担率(%)指标加工、城市历史文化街区保存完整率指标加工、工业遗产利用率指标加工、城市历史建筑平均密度指标加工、城市生活垃圾回收利用率指标加工、城市生活污水集中收集率指标加工、建成区公测设置密度指标加工、常住人口基本公共服务覆盖率指标加工、公共空间无障碍设施覆盖率指标加丄、房租收入比指标加工、非公经济增长率指标加工、万人高新技术企业数指标加工、全社会R&D支出占GDP比重指标加工、区域健康体检结果展示指标加工、区域健康体检报告输出指标加工。市政规划专题库实现数据加工服务,包括:一张蓝图指标加工、综合查询指标加工、辅助决策指标加工、城市区位分析指标加工、法定规划展示指标加工、城

24、市五线分布指标加工、选址意向提交指标加工、选址数据校验指标加工、规划选址库指标加工。城市综合态势专题库实现数据加工服务,包括:城市总体概况指标加工、经济态势指标加工、人口态势指标加工。城市安全专题库实现数据加工服务,包括:安全隐患指标加工、安全生产指标加工、治安安全指标加工。城市治理专题库实现数据加工服务,包括:事件治理概览指标加工、12345指标加工、数字化城管指标加工。城市服务专题库实现数据加工服务,包括:社会保障服务指标加工、就业服务数据统计、教育服务指标数据治理。文化旅游专题库实现数据加工服务,包括:旅游出行服务指标数据加工、旅游住宿服务指标加工、公共服务资源指标加工。交通运行专题库实

25、现数据加工服务,包括:城市道路交通平均车速指标加工、城市道路交通实时路况指标加工、城市道路交通拥堵等级指标加工、公交日均运行速度指标加工、公交出行分担率指标加工、公共交通准点率指标加工。人口专题库实现数据加工服务,包括:人口属性指标加工、信用属性指标加工、消费特征指标加工。法人专题库实现数据加工服务,包括:法人基础信息指标加工、组织机构代码信息指标加丄、机构注册或登记信息指标加工。宏观经济决策专题库实现数据加工服务,包括:经济总体状况指标加工、产业经济运行指标加工、中小企业经济运行分析指标加丄、企业信用分析指标加工、财政税收分析指标加工。2.3.各委办局数据对接针对部分委办局数据不能或者比较难

26、获取的情况下,提供合理、合法、合规、安全的数据对接功能。24大数据治理中心数据标准管理具备数据标准配置、数据标准管理、数据标准化处理、数据标准图谱等功能。系统内置数据标准元模型,可自定义追加数据标准数据项,设置数据项类型。支持扩展的控件类型包括输入框、单选框、下拉框,支持数据项与代码集进行绑定,其中代码集可以在线维护,通过对数据标准元模型的定义,动态渲染出数据标准定义、审批、查询界面,从而达到数据标准内容个性化拓展。提供从数据标准制定、修订到审批、发布、执行以及版本管控全生命周期管理,管控数据标准化建设每一环节。扫描指定范围元数据,识别并提炼核心数据元,支持将扫描结果快速设定为数据标准,扫描范

27、围控制支持全库、数据表集合随意切换。数据标准建设一定时期后,难免会出现相似数据标准,降低数据标准质量和可信度。提供数据标准冗余检测能力,检测数据标准间的冗余情况,输出检测结果,并呈现冗余占比。支持对基础数据标准、标准代码、指标标准进行冗余检测。支持在数据标准定义阶段检测,将新增数据标准与已存在数据标准进行检测。支持对现行标准库进行检测,检测所有现行数据标准的兀余情况。根据业务系统代码,自动推荐匹配的标准代码,为后续业务代码转换为标准代码提供对照关系。将标准化处理逻辑抽象为通用程序,在标准化清洗加工时选择标准化程序即可完成数据标准化加工。标准化程序能够快速移植支持导入、导出操作。提供数据标准化清

28、洗加丄的能力,加工为规范的标准化数据。支持前端可视化操作模式,通过配置数据表,选择标准化程序,山系统按照规则自动创建Ll标表、生成加工脚本,并完成数据标准化清洗。其中标准化程序支持前端配置,可重复使用。针对复杂标准化清洗逻辑支持在线编写脚本,在线联调测试脚本。标准化清洗加工任务支持手动和周期运行两种模式。元数据管理元数据的标准规范遵循GBT21063.3-2007政务信息资源目录体系、四川政务信息资源U录编制指南。具备元模型管理、元数据Ll录管理、元数据釆集、元数据总览、元数据版本管理、血缘分析、影响分析、元数据维护、元数据检索和元数据字典等功能。数据标签管理具备标签工厂、标签空间、标签计量等

29、功能。支持构建灵活的标签体系分类,标签生命周期管理,支持标签生命周期管理,构建衍生标签,标签检索,标签详情查看、包括标签主体对象管理,对象关联原料数据集管理,标签Ll录管理,并支持批量导入/导出标签类止及标签基本属性初始化。支持标签做相应的权限控制(私有公有),以及标签的操作权限控制;支持将分布在不同数据库(大数据平台或普通关系型数据库)里主体关联的“碎片”数据进行逻辑整合,实现主体对象的跨域建模。具体业务动作为对标签对象主体关联的数据集进行维护,支持选择表、字段与主体绑定,用作标签加工的“原材料”。通过批量指定表字段与标签的映射关系,快速进行离线加工标签的初始化。平台应支持用户自定义标签规则

30、、标签加工引擎读取规则自动加工加工结果自动落表。具体应该包含以下三种动态打标模式:1SQL模式:提供可以基于标准SQL语法操作原料数据集进行动态打标的标签定义功能;2拖拽模式:提供基于已有标签轻松拖拽实现组合运行并配合一定的业务限定条件产生新的标签的标签定义功能;3.手动打标模式:提供通过导入名册的形式直接圈定部分个体并人工的为其打上特定标签的功能;支持批量选择单个主体对象的标签在线化配置快捷发布为APl服务;平台应提供完毕的标签计量功能,实现标签主体对象成本效益分析,具体要求从标签容量、标签运行惜况、标签调用情况三个维度进行综合计量:标签容量计量:对单个主体对象相关标签存储占用情况进行irf

31、i,Irft指标应包含存储容量、月存储增长率、标签记录数、记录增长率、表数量等,同时应对存储变化趋势从存储量及记录数两个维度进行综合分析;标签运行计量:对单个主体对象相关标签的运行情况进行计量,计量指标应包含标签数、等待运行数、运行中标签数、等待运行数、运行报错数以及暂停使用标签数等,同时应对标签运行耗时进行趋势分析;标签调用汁量:对单个主体对象相关标签的调用情况进行计量,Ii量指标应包含开放标签数、标签服务总数、本日新增标签服务、本日调用失败次数等,同时应对标签调用情况进行趋势分析。平台应向用户提供个性化的标签空间,提供包含标签概览、标签检索及个人空间三个子功能。实现对全局标签总览、标签检索

32、查找、个人发布、收藏标签管理、生成主题表、我的草稿及标签详情查看功能。平台应提供标签详情查看功能,应支持标签基本信息、标签值域分布、标签血缘、运行情况、调用情况、变更记录、业务规则等信息的查看。数据资产管理具备数据资产概览、数据地图、数据规划、资产管理、资产评估等功能。提供异构数据源的字段类型映射关系的自定义配置,便于在自动建表时精确依据源端表所在数据源的类型,来生成Ll标端表的建表语句,无需人工编写和调整建表语句。多任务配置模式,满足复杂场景。支持向导、脚本、整库迁移三种模式,支持单次全量、周期全量、周期增量三种数据集成调度模式,全方位覆盖各类数据集成场景。向导模式采用图形化方式配置数据源、

33、数据表和字段映射关系,可以进行多表集成并自定义同步范圉,并支持在Ll标端在无Ll标表的情况下使用自动建表配置规则进行自动建表功能完成任务配置,无需用户提前在LI标端手动建表。数据质量管理具备质量规则管理、核检规则配置、可视化流程配置、数据校验组件库、流程化问题修复、数据质量报告等功能。通过数据质量平台总览,快速洞察平台的整体运行情况。按照不同的时间维度,查看表异常数据量排名、作业告警排名、平台质量问题趋势、质量维度的分布情况等。质量检核规则提炼和定义,是数据质量管理平台的重点和难点,也是平台的基础。平台支持高效灵活的讲质量检核的业务规则,通过脚本定义的方式,高效的转化为平台规则模板,在质量检核

34、作业配置中,进行高效复用。规则模板经过不断积累,逐步形成各个行业的质量规则库,沉淀形成平台的重要资产。质量规则管理人员将业务中提炼的数据质量规则,通过自定义脚本的方式,创建到系统中,进行高效复用和灵活配置。新建规则时,关联质量维度、规则分类和规则Ll录,设置表参数和字段参数,调用规则函数,设置多个规则检核结果。数据质量检核作业的业务场景总体分为两种类型:第一种,基于数据库的基础检核作业;第二,基于业务属性的场景化作业。两种作业的特性各不相同,数据库基础质量检核作业是常规作业,规则相似度高且可复用;场景化作业往往是基于具体的业务场景,规则往往比较复杂,不可复用。新建作业时,系统会提示是否应用上次

35、编辑的作业草稿(编辑后未保存提交的作业信息),选择“确定”,即可回显之前的编辑内容,在之前作业编辑基础上,继续完成编辑。向导模式适用于数据库的基础检核作业,无需编码,基于规则模板,通过可视化配置,便可轻松实现数据质量检核。自定义模式适用于个性化、面向具体业务场景,较为负责的检核作业,多是对业务的数据表进行检核,这种检核规则往往不可复用,需要即配即用。自定义模式支持灵活定义字段与阈值,字段与字段的规则,和快速创建规则脚本。质量检核作业可以在不同时间多次执行,每次检核生成一个作业运行实例,平台会监控并记录作业每一次运行的状态和检核结果。在作业实例管理列表中,支持查看作业量、运行时间、作业进度等与作

36、业运行相关的全部指标,包括检核结果数据:规则告警数、异常数据量。作业进度,系统每30秒刷新一次;当前作业性能,执行效率为每秒检核100万条数据。系统会提前24小时,加载定时调度的作业到列表中待运行,对于待运行的作业,质量检核人员可以根据需要终止运行。对于运行异常的作业,系统会自动重启,用户端无感知。对于运行成功的作业实例,质量检核人员可以进行异常确认,异常确认分为确认治理和规则异常两种情况。作业检核的结果与实际相符,需要确认治理,从而推送给相应的责任人,让责任人了解质量情况及时治理。如果检核结果与实际不相符,比如检核的表被删除了,检核结果异常,就需要报规则异常,让作业创建人重新编辑作业配置。作

37、业实例详情和作业详情的区别,是非常明确的。作业运行实例详情是统讣分析作业单次运行的结果数据,而作业详惜是汇总作业每一次运行的结果数据。进入报告管理页面,可以查看并管理已经生成的质量报告,并进行推送和下载操作。一份报告可以多次推送,系统会记录并跟踪报告的签收情况。作业运行结束后,平台就可以基于多次作业运行的综合结果,选定数据范围和报告周期,配置并生成质量报告。系统支持对单库多表进行质量分析,基于选定的运行时间区间,汇总报告配置范围内符合条件的最新数据,进行综合分析。如果配置的报告有价值,质量管理人员就可以点击生成报告,系统会分配唯一的报告编号并生成标准格式的质量检核报告。已生成的报告,支持推送、

38、预览和下载,还可以管理列表中管理查看。系统支持质量报告下载,下载成PDF、Word形式到本地,便于打印和分发传阅。质量报告的样式,贴近于政府公文的形式,简洁大气,重点明确,数据详实。同时,报告还具备图文服务,内容详实的特点,对实际业务和数据治理具有较强的指导性。25大数据服务中心具备APl管理、APl服务集市、APl服务台、APl监控分析、服务与授权、订阅推送等功能。平台应支持将单个主体对象的标签集发布为APl服务的能力。且应具备基于标签快速构建主题对象明细查询接口服务以及基于标签构建针对主体对象多维聚合分析接口的能力。平台应通过以API市场的形式实现数据服务的复用和广域赋能。平台应提供数据服

39、务Ll录便于用户按需检索所需的数据服务,支持通过服务名称、访问权限类型、APl类型等条件便捷检索所需数据服务;支持数据服务详情查看;支持数据服务的在线调试和申请试用操作。平台应面向API服务构建者提供细致的管理功能,应支持对自有APl的分类管理,支持APl的批量上线、下线操作,支持单个API详悄査看、调用监控及接入应用管理功能。APl调用监控内容应包含APl调用情况、接入应用T0P5报错日志等信息;接入应用管理应以列表形式展示调用该APl的所有应用列表,列表应包含应用名称、应用描述、授权时间、到期时间、剩余次数等信息。平台应以图形化的形式对APl调用及费用情况进行专项计量。费用计量应包含管理应

40、用数、累计调用APl数量、本月累计总调用次数、本月费用等指标,同时分费用、次数两个维度对APl调用变化趋势进行分析。平台应支持数据消费者按需自行注册应用,且单用户可注册应用数最高可达I00个。数据消费者可以对单个应用接入的APl进行运行状态监控及调用余量监控,监控的指标应包含调用次数、失败率、平均耗时等,同时应支持对最近24小时、最近一周、最近一月的调用次数进行分析。2.6.大数据智能分析系统(1)自助分析支持新增、编辑等管理,支持分组管理;支持基于查询条件、二维表展示、附带图文进行可视化配置的功能;支持最终用户使用配置完成的分析功能对Ll标数据进行自助分析。(2)数据看板支持新增、编辑等管理

41、,支持分组管理;支持内置数据看板模板,用户可以基于模板快速定制数据看板,同时可以将已有设计另存为模板;支持可视化设讣,能够拖拽组件、设置组件属性、页面布局等功能;最终用户使用配置完成的数据看板模型对目标数据进行分析。3)智能报告支持新增、编辑等管理,支持分组管理;支持内置智能报告模板,用户可以基于模板快速定制智能报告,同时可以将已有设计另存为模板;支持可视化设计,能够拖拽组件、设置组件属性、页面布局,类WOrd操作完成智能报告设计;支持对设计完成的报告进行订阅,让报告周期性自动产生,并发送至指定的邮箱。(4)数据门户支持将自助分析、智能报告、驾驶舱集合组织起来,提供外部链接的功能。2.7.大数

42、据基础平台分布式存储提供线性扩展、高可靠、开放等能力。提供多租户安全可黑的分布式对象存储能力,支持适配国产芯片处理器和国产操作系统体系。离线计算引擎基于分布式离线计算框架,支持将MR/Spark/Tez等复杂任务,通过结构化语言对海量结构化数据进行统一处理分析汇总的高性能分析引擎,适配国产芯片处理器和国产操作系统体系。实时计算引擎基于批流一体框架和分布式复杂流式处理引擎,支持对无边界和有边界的数据流,提供低延迟、可扩展、高容错的有状态的实时流式复杂计算,适配国产芯片处理器和国产操作系统体系。全文检索支持PB级海量结构化和非结构化文本数据存储能力,提供故障探测、自动报警及集群高可用能力,支持高性

43、能、高并发、低延时的查询能力,适配国产芯片处理器和国产操作系统体系。2.8.大数据集成中心具备数据集成、数据共享交换(前置交换)、万物互联感知、免协调业务管道采集等功能。平台提供异构数据源的字段类型映射关系的自定义配置,便于在自动建表时精确依据源端表所在数据源的类型,来生成Ll标端表的建表语句,无需人工编写和调整建表语句。任务配置满足复杂场景。支持向导、脚本、整库迁移三种模式,支持单次全量、周期全量、周期增量三种数据集成调度模式,全方位覆盖各类数据集成场景。向导模式采用图形化方式配置数据源、数据表和字段映射关系,可以进行多表集成并自定义同步范围,并支持在U标端在无U标表的情况下使用自动建表配置

44、规则进行自动建表功能完成任务配置,无需用户提前在Ll标端手动建表。系统提供定时任务,对集成任务中配置的源端表进行扫描,通过配置信息和源端表实时信息进行比对,及时发现源端表结构变化,并判断是否影响任务运行,同时,对影响任务运行的变化提供修复功能,在线修复任务配置信息,有效减少任务报错次数。任务运行完成后,通过比对源端数据量和U标端数据量,列出产主脏数据的任务清单,支持查看对应的脏数据明细信息以及造成脏数据的原因,并提供补数据功能,用户只需点击补数据,就可实现一步完成数据修补,保证数据量的完整性。实时监控集成任务的运行情况,可对任务进行冻结、解冻、重跑、终止等操作以及一体化的可视化界面,任务属性、

45、运行日志、运行代码、结果预览同步展示,用户只需通过简单的切换就可清楚查看任务的相关信息。29大数据开发平台离线计算支持对大数据处理过程进行可视化管理与控制。屏蔽底层复朵的分布式讣算引擎,构建基于Web的数据开发平台。面向数据开发人员可提供可视化数据开发IDE,实现数据开发、数据同步、任务调度、任务运维一体化作业。应具备良好的兼容性,兼容主流开源或商业化大数据平台;支持离线同步、ShelL类SQL、MR等多种节点类型,通过节点之间的相互依赖,对复杂的数据进行计算处理;支持分钟、小时、天、周和月多种调度周期配置,支持根据时间、依赖关系,进行任务触发的机制。支持通过项J空间来实现组织、人员、数据源、

46、计算资源的安全隔离。项Ll空间初始化时支持为单个项Ll空间分配独立的调度资源池来实现汁算资源的精准调控和分配。项LI配置时支持对项LI的基本属性、成员、资源访问权限进行维护以及对数据源、计算引擎进行查看。其中基础配置应支持对项LI空间中是否启用“周期调度”、“能下载SeleCt结果”、允许编辑任务”、“允许运行任务”、“允许脚本建表”、“启用数据同步”等进行控制,同时对查询结果的记录条数及上传文件大小限制进行预设置。资源访问权限则是对当前项Ll人员能够访问其他项Ll空间数据表资源进行限制,在保证数据安全隔离的同时保证了项LI空间间正常的数据协同。平台提供任务管理、脚本管理、资源管理、函数管理、

47、表查阅五种功能,实现海量数据的离线计算和数据“下云”,满足数据开发人员不同编码习惯不同业务场景需要。平台应提供可视化引用数据标准创建数据模型的能力,实现模型创建的标准化和便捷化。开发者可上传本地自定义的jar、txt或json文件作为资源,在节点运行时使用(如创建自定义函数、加载数据等)。支持系统函数和自定义函数,系统函数主要包括字符函数、数学函数,日期函数,聚合函数等,同时支持自定义函数。支持对当前项LJ空间所有能使用的表的字段信息、分区信息进行查看,对表数据进行预览;提供字段引用、表名拖拽方式,快速生成SQL语句;支持在线可视化建表。对整个运维中心的任务(流)进行统一查看,包括任务总数、运

48、行成功、失败、运行中、等待资源的任务总数,动态展示任务(流)的执行情况等。支持对任务的冻结、解冻、补数据操作,可以查看任务每次运行实例的运行日志、运行代码。针对单个任务可自定义预警项目(任务完成、任务未完成、任务出错、任务超时),确定任务接收人,当系统检测到对应任务有触发预定规则的,将通过邮件、系统消息、短信等告警方式向相关接收人推送预警信息。(2)实时计算支持通过项Ll空间来实现组织、人员、数据源、计算资源的安全隔离。项IJ空间初始化时支持为单个项Ll空间分配独立的调度资源池来实现计算资源的精准调控和分配。项LI配置时支持对项Ll的基本属性、成员进行维护以及对数据源、计算引擎进行查看。其中基

49、础配置应支持对项Ll空间中是否启用实时采集”、“上传资源”、FImkSQL脚本模式”等进行控制。同时对任务的并行度及上传文件大小限制进行预设置。平台应在提供实时计算脚本在线编辑的基础功能之上,将脚本编写过程中常用的算子封装为可视化的组件,用户只需轻松拖拽组件简单配置便可实现实时数据处理。屏蔽脚本开发的复杂性,降低对实时数据开发人员的技术要求,提升实时数据开发效率。要求提供的组件应包含数据源表、数据维表、数据处理、结果表四类,其中数据处理组件应包含连接、过滤、聚合、字段转换等组件。开发者可上传本地自定义的jar、PythOn或文件作为资源,在节点运行时使用(如创建自定义函数)。支持系统函数和自定

50、义函数,系统函数主要包括字符函数、数学函数,日期函数,聚合函数等,同时支持自定义函数。对实时采集任务、实时计算任务的运维管理功能,支持任务运行状态总览、查看单任务运行状态及对当前任务进行修改,提交,停止,续跑操作。应支持单个任务的运行监控、运行日志查看、运行代码查看及告警配置功能。其中运行监控的指标项应包含输入/输出RPS,输入/输出BPS,累计输入/输出记录数,累汁输入/输出数据量等。针对单个任务可自定义预警项目(任务失败,任务停止、消费延迟),确定任务接收人,当系统检测到对应任务有触发预定规则的,将通过邮件、系统消息等告警方式向相关接收人推送预警信息。2.10.大数据安全中心从数据釆集安全

51、、数据存储安全、数据传输安全、数据使用安全四个方面来全面管理控制数据全流程安全。提供对数据库表、文件、图片、视频等结构化和非结构化数据的安全管理功能。2.11.数据沙箱平台(1)数据源管理支持通过与数据源进行数据连接(支持HDFS、MySQL、OraCle、HiVe、CaChe、SQLSerVerA种类型连接数据源)方式连接/获取数据源信息。支持CSV、xlsxlsxZlP四种文件类型上传数据,支持UTF-8、GBK两种数据编码格式。支持对数据源的批量操作,包括同步、删除、启用、禁用;支持管理和查询数据表、数据字段。支持数据预览。支持导入数据字典文件。(2)沙箱环境初始化支持用户的批量导入、导

52、出,支持导入用户时创建用户组、并且将用户加入到用户组当中。支持通过控制用户的IP地址(黑名单或白名单)和MAC地址(黑名单或白名单)以及访问时段控制,限制用户访问。支持用户的批量修改,包括重置密码、修改有效期、修改登录时段、修改IP限制、修改MAC限制。(3)数据空间管理支持为每个数据空间独建租户,在多租户环境下,各个数据空间共用相同的系统或程序组件,并且可确保彼此间数据的隔离。支持系统管理员查询数据空间的资源情况,并对相应的存储资源使用进行授权。(4)表空间管理对数据管理员进行授权,用于在沙箱的宿主数据库上进行数据库表空间的管理,数据管理员只需要把业务信息填写到表单上,后台即可自适配SQL语

53、法生成相应的语句来执行。所填写的业务信息主要有表空间的名称,表空间文件的路径,初始化大小(G)等。管理员可创建一个大的表空间,给所有沙箱用户使用。并且可以对表空间的默认分配容量进行设置。当业务用户进行空间申请时,默认的按此容量分配空间额度。管理员可以查看表空间Ll前的数据库用户列表信息,以及各用户Ll前的数据情况和空间使用情况。当察觉到异常情况时,可以先对数据库用户进行锁定操作,以待核查后再决定是否解锁。当后台监控统讣发现表空间容量超过90%时,推送短消息给系统管理员,以便通知其进行扩容操作。数据同步支持新建抽样任务,配置项包含数据源、输出到调试环境、数据置换策略等。支持预览抽样结果(文件数据

54、和数据表均支持)。支持批量运行、终止、上送、删除抽样任务。支持上送样本数据到调试环境。数据置换支持结构化、非结构化数据的数据置换。支持对诸如姓名、身份证号、手机号、邮箱、通讯地址等个人敏感信息实体设置不同的置换算法和算法参数。对结构化数据支持至少三种不同置换算法,如敬感数据替换、敬感数据遮掩、敬感数据擦除。对非结构化数据支持马赛克遮罩算法,支持针对不同实体配置选择遮罩颜色。支持批量删除、批量启用、批量禁用数据置换策略。支持脱敬后结果输出到指定数据库或sftp/ftp文件。数据访问控制支持基于深度学习的NLP技术对个人隐私信息进行识别,包括人名、机构名、地址等。支持基于深度学习的OCR技术对图片

55、中的文字信息进行识别。具备识别结果上下文语境的动态感知能力,进而对识别精度进行优化调节。支持批量删除、批量启用、批量禁用墩感数据发现规则。支持对任意敬感数据发现规则的自定义设置,基于传统正则表达式和字典两种模式设置匹配规则。支持通过DLP技术与规则匹配实现敏感数据自动发现,支持系统自动发现与手工调整相结合。支持对用户、样本数据进行数据访问控制。支持批量删除、批量启用、批量禁用策略。机器学习工作台支持交互式NOtebook编程,提供基于PythOn编程语言的代码编程和调试环境,支持pandas八PytOreh、Skleam等框架。支持数据分析师导出ZIP格式数据文件或模型文件。支持查看组件运行错误日志,查看全量数据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论