数据仓库云平台建设方案_第1页
数据仓库云平台建设方案_第2页
数据仓库云平台建设方案_第3页
数据仓库云平台建设方案_第4页
数据仓库云平台建设方案_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、数据仓库云平台建设方案 目 录TOC o 1-4 h u HYPERLINK l _Toc40121042 1项目概述 PAGEREF _Toc40121042 h 1 HYPERLINK l _Toc40121043 1.1背景 PAGEREF _Toc40121043 h 1 HYPERLINK l _Toc40121044 1.2建设目标 PAGEREF _Toc40121044 h 2 HYPERLINK l _Toc40121045 2项目建设规范 PAGEREF _Toc40121045 h 3 HYPERLINK l _Toc40121046 2.1应用范围 PAGEREF _T

2、oc40121046 h 3 HYPERLINK l _Toc40121047 2.2引用规范 PAGEREF _Toc40121047 h 3 HYPERLINK l _Toc40121048 3设计原则 PAGEREF _Toc40121048 h 5 HYPERLINK l _Toc40121049 3.1仓库层级设计原则 PAGEREF _Toc40121049 h 5 HYPERLINK l _Toc40121050 3.1.1缓存层(ODS) PAGEREF _Toc40121050 h 5 HYPERLINK l _Toc40121051 3.1.2仓库层(DW) PAGEREF

3、 _Toc40121051 h 5 HYPERLINK l _Toc40121052 3.1.3集市层(DM) PAGEREF _Toc40121052 h 6 HYPERLINK l _Toc40121053 3.2模型设计原则 PAGEREF _Toc40121053 h 6 HYPERLINK l _Toc40121054 4业务架构 PAGEREF _Toc40121054 h 8 HYPERLINK l _Toc40121055 4.1概述 PAGEREF _Toc40121055 h 8 HYPERLINK l _Toc40121056 4.2源数据层(SRC) PAGEREF _

4、Toc40121056 h 9 HYPERLINK l _Toc40121057 4.2.1人口信息 PAGEREF _Toc40121057 h 9 HYPERLINK l _Toc40121058 4.2.2法人信息 PAGEREF _Toc40121058 h 13 HYPERLINK l _Toc40121059 4.3缓存层(ODS) PAGEREF _Toc40121059 h 19 HYPERLINK l _Toc40121060 4.4仓库层(DW) PAGEREF _Toc40121060 h 20 HYPERLINK l _Toc40121061 4.4.1人口库 PAGE

5、REF _Toc40121061 h 20 HYPERLINK l _Toc40121062 4.4.2法人库 PAGEREF _Toc40121062 h 21 HYPERLINK l _Toc40121063 4.5集市层(DM) PAGEREF _Toc40121063 h 22 HYPERLINK l _Toc40121064 5技术架构 PAGEREF _Toc40121064 h 22 HYPERLINK l _Toc40121065 5.1概述 PAGEREF _Toc40121065 h 22 HYPERLINK l _Toc40121066 5.1.1源数据层(SRC) PA

6、GEREF _Toc40121066 h 23 HYPERLINK l _Toc40121067 5.1.2缓存层(ODS) PAGEREF _Toc40121067 h 23 HYPERLINK l _Toc40121068 5.1.3仓库层(DW) PAGEREF _Toc40121068 h 25 HYPERLINK l _Toc40121069 5.1.4集市层(DM) PAGEREF _Toc40121069 h 25 HYPERLINK l _Toc40121070 5.1.5数据服务 PAGEREF _Toc40121070 h 25 HYPERLINK l _Toc401210

7、71 5.2运行架构及数据流向 PAGEREF _Toc40121071 h 26 HYPERLINK l _Toc40121072 5.3安全设计 PAGEREF _Toc40121072 h 27 HYPERLINK l _Toc40121073 5.3.1应用安全 PAGEREF _Toc40121073 h 27 HYPERLINK l _Toc40121074 身份鉴别 PAGEREF _Toc40121074 h 28 HYPERLINK l _Toc40121075 访问控制 PAGEREF _Toc40121075 h 28 HYPERLINK l _Toc40121076 安

8、全审计 PAGEREF _Toc40121076 h 30 HYPERLINK l _Toc40121077 资源合理控制 PAGEREF _Toc40121077 h 31 HYPERLINK l _Toc40121078 5.3.2数据安全 PAGEREF _Toc40121078 h 32 HYPERLINK l _Toc40121079 5.4元数据管理 PAGEREF _Toc40121079 h 33 HYPERLINK l _Toc40121080 5.4.1元数据设计规范 PAGEREF _Toc40121080 h 33 HYPERLINK l _Toc40121081 数据

9、库表、视图、存储过程命名规范 PAGEREF _Toc40121081 h 33 HYPERLINK l _Toc40121082 数据库表字段命名规范 PAGEREF _Toc40121082 h 34 HYPERLINK l _Toc40121083 工作流命名规范 PAGEREF _Toc40121083 h 34 HYPERLINK l _Toc40121084 5.4.2元数据管理 PAGEREF _Toc40121084 h 34 HYPERLINK l _Toc40121085 数据库表管理 PAGEREF _Toc40121085 h 34 HYPERLINK l _Toc40

10、121086 脚本管理 PAGEREF _Toc40121086 h 38 HYPERLINK l _Toc40121087 工作流管理 PAGEREF _Toc40121087 h 40 HYPERLINK l _Toc40121088 5.5模型设计 PAGEREF _Toc40121088 h 41 HYPERLINK l _Toc40121089 5.5.1逻辑模型设计 PAGEREF _Toc40121089 h 41 HYPERLINK l _Toc40121090 5.5.2物理模型设计 PAGEREF _Toc40121090 h 43 HYPERLINK l _Toc4012

11、1091 5.6ETL设计 PAGEREF _Toc40121091 h 44 HYPERLINK l _Toc40121092 5.6.1数据抽取 PAGEREF _Toc40121092 h 45 HYPERLINK l _Toc40121093 5.6.2数据清洗 PAGEREF _Toc40121093 h 45 HYPERLINK l _Toc40121094 5.6.3数据转换 PAGEREF _Toc40121094 h 46 HYPERLINK l _Toc40121095 5.6.4ETL日志 PAGEREF _Toc40121095 h 47 HYPERLINK l _To

12、c40121096 5.7数据分析挖掘 PAGEREF _Toc40121096 h 47 HYPERLINK l _Toc40121097 5.7.1功能特性 PAGEREF _Toc40121097 h 48 HYPERLINK l _Toc40121098 5.7.2算法特性 PAGEREF _Toc40121098 h 48 HYPERLINK l _Toc40121099 5.8工作流调度设计 PAGEREF _Toc40121099 h 49 HYPERLINK l _Toc40121100 5.8.1工作流设计 PAGEREF _Toc40121100 h 49 HYPERLIN

13、K l _Toc40121101 5.8.2工作流调度 PAGEREF _Toc40121101 h 51 HYPERLINK l _Toc40121102 5.8.3工作流监控 PAGEREF _Toc40121102 h 52 HYPERLINK l _Toc40121103 5.9数据质量稽核 PAGEREF _Toc40121103 h 53 HYPERLINK l _Toc40121104 5.9.1稽核规则设计 PAGEREF _Toc40121104 h 53 HYPERLINK l _Toc40121105 5.9.2稽核报告 PAGEREF _Toc40121105 h 55

14、 HYPERLINK l _Toc40121106 5.10数据服务 PAGEREF _Toc40121106 h 56 HYPERLINK l _Toc40121107 5.10.1数据接口 PAGEREF _Toc40121107 h 56 HYPERLINK l _Toc40121108 5.10.2DB同步 PAGEREF _Toc40121108 h 58 HYPERLINK l _Toc40121109 5.10.3FTP PAGEREF _Toc40121109 h 58 HYPERLINK l _Toc40121110 5.10.4数据总线 PAGEREF _Toc401211

15、10 h 59 HYPERLINK l _Toc40121111 5.11系统运行监控 PAGEREF _Toc40121111 h 59 HYPERLINK l _Toc40121112 5.11.1简介 PAGEREF _Toc40121112 h 59 HYPERLINK l _Toc40121113 5.11.2特性要求 PAGEREF _Toc40121113 h 61 HYPERLINK l _Toc40121114 5.12硬件配置 PAGEREF _Toc40121114 h 61 项目概述背景2015年8月,国务院印发促进大数据发展行动纲要,将大数据应用定义为国家战略,大数据

16、已成为提升政府治理能力的新途径。发展大数据,要通过大数据技术,及时掌握我省政治经济民生的发展情况,准确引导社会预期,通过大数据技术,敏锐把握社会舆论热点,及时回应社会关切;通过大数据技术,用数据说话,用数据管理,用数据决策,推进政务公开,不断提升基本民生保障水平,提升基层社会管理服务水平,提升服务国防和军队建设水平,提升社会组织建设管理水平,提升专项社会事务管理服务水平,创新民政设施建设管理和民政服务供给方式。大数据应用能够揭示传统技术方式难以展现的关联关系,推动政府数据开放共享,促进社会事业数据融合和资源整合,将极大提升政府整体数据分析能力,为有效处理复杂社会问题提供新的手段。 2015年1

17、0月出台的中共中央关于制定国民经济和社会发展第十三个五年规划的建议,提出要“实施国家大数据战略,推进数据资源,推进数据资源开放共享”。在国家战略的引领下,各省市已经发布了促进大数据发展的政策文件,一些动作快的省份已经布局,现已规划建设成255个数据中心。全球范围内,运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力正成为趋势,有关发达国家相继制定实施大数据战略性文件,大力推动大数据发展和应用。为贯彻落实党中央、国务院决策部署,全面推进大数据发展和应用,以人为本、惠及民生服务新体系。围绕服务型政府建设,在公用事业、减灾救灾、社会救助、养老服务、社工管理、社区服务等领域全面推广大数据应用

18、,利用大数据洞察民生需求,优化资源配置,丰富服务内容,拓展服务渠道,扩大服务范围,提高服务质量,提升城市辐射能力,推动公共服务向基层延伸,缩小城乡、区域差距,促进形成公平普惠、便捷高效的民生服务体系,不断满足人民群众日益增长的个性化、多样化需求已势在必行。建设目标通过楚天云数据仓库建设,将楚天云当前运行的在不同时期、运用不同技术及标准规范、多个异构的、运行在不同的软硬件平台上的信息系统进行数据整合, 建立全省的统一数据规范与接口规范,将各厅局内现行的所有业务系统数据均按照统一规范进行数据抽取与清洗转换,建设统一标准化数据仓库。在此基础上,建设符合自身业务管理和满足公众服务的人口、法人基础数据仓

19、库及各类主题库,面向省政府业务管理和公众提供服务,实现数据查询统计分析以及用户画像、数据挖掘等应用。最终应用大数据技术,在楚天云数据集成系统之上构建省政府电子政务管理系统,实现全链路的数据管理及应用,管理海量的多源异构数据,帮助政府管理数据资源,让数据可视化,并对这些数据进行丰富的数据分析和建模工作,挖掘数据价值,为政府提供多角度、多层次的数据服务支撑。通过对政府大数据的分析挖掘为政府社会公共业务开展与教育、民生服务提供更智慧、更科学的信息,为领导层提供更精准智能的数据分析、帮助科学决策。项目建设规范应用范围本数据规范针对人口库、法人库在整个数据仓库建设过程中的元数据规划、分层数据建模、维度成

20、员信息规范等方面进行描述。用于指导基础数据仓库建设中的设计、开发、实施等工作。引用规范以国家电子政务信息化标准体系和各部委信息化标准体系为蓝本,结合电子政务信息化建设的实际情况,基层数据仓库建设过程中遵循以下的标准:、有国家(行业)标准的,优先遵循国家(行业)标准;、即将形成国家(行业)标准的,争取在标准基本成熟时,将该标准率先引入试用;、无国家(行业)标准,等效采用或约束使用国际标准;、无参照标准,按标准制定规范,自行进行研制;、制定标准规范时要考虑未来发展与变化。现行参考引用的国家(行业)标准如下:中华人民共和国行政区划代码(GB/T 2260-2007)国民经济行业分类(GB/T 475

21、4-2011)数据元和交换格式信息交换日期和时间表示法(GB/T 7408-2005)公民身份证号码(GB 11643-1999)全省组织机构代码编制规则(GB 11714-1997)经济类型分类与代码(GB/T 12402-2000)表示货币和资金的代码(GB/T 12406-1996)信息技术通用多八位编码字符集(UCS) 第一部分体系结构与基本多文种平面(GB 13000.1-1993)组织机构代码信息数据库(基本库)数据格式(GB/T 16987-2002)电子政务数据元第1部分:设计和管理规范(GB/T 19488.1-2004)组织机构类型(GB/T 20091-2006)计算机软

22、件需求规格说明规范(GB9385-2008);功能建模方法IDEF0(IEEE 1320.1-1998);信息建模方法(IEEE 1320.2-1998);计算机软件产品开发文档编制指南(GB8567-2006);计算机场地通用规范(GB/T 2887-2000); 信息技术 信息交换用汉字编码字符集 基本集的扩充(GB 18030-2000);信息交换用汉字编码字符集基本集(GB 2312-1980);政务信息资源交换体系GB/T 21062.2-2007;民政业务数据共享与交换标准(MZ/T 012-2004)设计原则仓库层级设计原则基于用空间换取时间、简化数据清洗过程、过程化拆解业务规则

23、几点考虑,数据仓库设计分层级设计。楚天云基础数据仓库共划分数据缓存层(ODS)、数据仓库层(DW)、数据集市层(DM)三层。 缓存层(ODS)数据缓冲层是接口数据的临时存储区域,为后一步的数据处理做准备。目的:数据临时存储,为后续数据清洗、ETL过程做准备;用作数据查询比对校验;一定程度上替代源系统的查询工作,减轻源系统性能压力。规范:数据多数和源系统的数据是同构的。数据粒度:来源于各个厅局同步的明细数据,此层级数据粒度为最细级别。存储周期:数据存储周期较短,一般存储3-5个月的数据。 仓库层(DW)数据仓库层是整个数据仓库建设中的核心部分。目的:存储企业一致性、准确性、干净的数据,为数据集市

24、、数据应用提供全量的、历史的、准确一致、统一标准的数据。规范:数据库建模设计遵循3NF标准,保证数据一致性、完整性、准确性。数据粒度:此层级既有对各个厅局同步数据规范后的明细数据,也有对事实度量表的轻度汇总数据。存储周期:可存储全生命周期数据,可通过扩展存储达到历史数据全存储。 集市层(DM)数据集市层是直接面向应用和报表查询的数据组织和存储,数据集市层可以看做是多个小型仓库的应用实例。目的:面向主题设计,主要供数据分析应用,如个人征信、企业征信、精准扶贫等有针对性的、高效率、易用的主题辅助决策政府各部门工作。规范:采用星型结构设计,满足多维分析需求。数据粒度:此层基本上属于汇总类数据,但针对

25、人口、法人信息的常用查询也会有规范归一后的明细数据。存储周期:可针对不同主题有实时全量数据、3年左右的分析型数据,较DM层相比存储周期短。模型设计原则模型设计完整性模型的完整性包含两类:业务覆盖范围的完整性、模型设计的完整性。业务覆盖范围的完整性:通过对数据环境与应用环境的分析,对模型的域、子域和实体进行覆盖性测试,以保证模型覆盖到工程要求的数据整合范围。模型设计的完整性包括:模型实体完整性、模型参照完整性。模型设计稳定性为保证模型的稳定性,将实体基本属性与实体业务分类属性分离,在实体分类属性发生变化时,只需要增加实体分类关系数据记录即可,对模型本身不产生影响。模型设计可扩展性模型设计需要考虑

26、对未来需求变更和增加带来的模型变动,考虑到模型兼容性和可用性,需要在设计模型时考虑可扩展性。可扩展性表现在实体的扩展和实体属性信息的扩展两方面。模型的扩展性扩展性子类说明实体的扩展性业务实体扩展模型设计中实体内只保留最细粒度的基本维对未来可能增加的属性信息通过预留字段、采用Hbas列式存储数据库等方式动态灵活扩展属性;扩展实体通过基本维度信息的关联实现对现有实体和扩展实体的关系拉通。 通常情况下,数据仓库实体属性的扩展,不会影响核心实体和核心实体关系。编码扩展实体属性的扩展性业务实体口径更改实体编码内容扩展业务实体指标扩展表格 STYLEREF 2 s 3.2 SEQ 图 * ARABIC s

27、 2 1模型设计规范性数据模型承载着数据仓库的核心设计和实现模式,它需要应对后续的各类业务需求变化,对外的数据服务请求,以及运维期间的演进优化,所以需要执行严格的设计规范,建立高度统一的、标准化的、基于成熟仓库理论的规范体系,通过规范化模型实现数据仓库的建设支撑目标。模型设计继承性数据仓库面对的外部数据环境往往是复杂的、多变的,如何在这样的环境下保持仓库结构的稳定一致,是需要考虑数据模型的继承性问题。通过数据模型的分层设计和业务逻辑抽象,用以屏蔽生产环境的变化,从而保证数据仓库模型的在变化前后的一致继承。统一维度规范维,是人们观察数据的特定角度,是考虑问题时的一类属性,属性集合构成一个维。维度

28、建模在数据仓库建设中处于十分关键的地步,数据集市层面的多维模型为OLAP应用提供底层数据模型支撑。维度与事实表的关联通过代理键(Surrogate key)衔接,代理关键字一般是指维度表中使用顺序(序列)分配的整数值作为主键。使用代理键具有以下的优势:带来性能上的提升;更方便的处理一些不存在的维度成员;用来处理缓慢变化维。数据仓库维度建模中通常使用到如下类型:缓慢变化维、退化维度、微型维度、一致性维度、杂项维度。业务架构概述业务架构体系遵循数据仓库建模分层的理念,从源数据、数据缓存层、仓库层、集市层四个层级展开,贯穿整个过程的是统一的数据标准体系,架构图如下所示: 图 STYLEREF 2 s

29、 4.1 SEQ 图 * ARABIC s 2 1源数据层(SRC)数据源(SRC)层来之50余厅局级业务系统,经楚天云系统归集后形成人口、法人、宏观经济、自然资源与地理空间四大基础数据体系,此部分数据假设为统一的关系型数据库存储。此部分业务数据范围定义如下描述(以人口和法人信息为例):人口信息、人口基本信息人口基础信息基础信息应是能唯一标识社会人的信息,并且不同其他人口信息重叠。个人敏感信息(户籍信息)公安厅提供:籍贯(省市县区)、籍贯国家(地区)、死亡日期、迁出日期、户别、与户主关系、人员状态、派出所、街路巷、门(楼)号、门(楼)详址、乡镇(街道)、居(村)委会。、人社厅就业信息就业状况、

30、企业名称、单位性质、经济类型、用工性质、首次参加工作日期、办理就业登记日期、失业批文时间、失业登记时间、劳动合同起始日期、劳动合同结束日期;从事公益性岗位人员信息从业所在街道、岗位名称、从业时间;就业证信息就业证号、证件类型、就业证发放时间、就业证有效时间;就业资格信息职业资格证书编号、职业资格类别、职业资格等级、职业资格证发证机构、职业资格发证日期;灵活就业人员信息协议编号、协议开始时间、协议停止时间、签订协议所在街道;单位招用人员备案信息招用单位编码、招用单位名称、录用备案时间、录用备案机构;就业援助证证件信息援助证编号、发证机构、发证日期、证件有效期限、年检记录、是否可享受税收扶持政策、

31、原工作单位名称、原工作单位性质、领取失业保险金情况;小额贷款信息证件编号、贷款金额、贷款期限、还款日期;失业信息失业保险证书、最近一次失业登记日期、月失业保险金支付标准、失业保险信息更新日期、失业保险累计缴费年限、失业保险有效缴费年限、应享受月份、已享受月份;失业证信息失业证号、发证机关、发证日期、证件有效期限、审核记录、最近一次失业登记时间、失业原因、居住地址、联系电话、所属区、所属街道、所属社区、本次失业登记后接受职业介绍记录、推荐次数、培训次数;失业人员职业介绍信息推荐工作单位、推荐工作岗位、推荐结果;失业保险金领取信息失业证号、是否可以享受失业保险待遇、失业保险累计缴费年限、能领取失业

32、保险金月数、已领取失业保险金月数、失业保险金标准、医疗补助金额;失业人员职业培训信息培训日期、培训项目、职业(工种)等级、培训单位;医保基本信息医保卡号、是否公务员、医保参保单位名称、首次参保日期、医疗证号、医疗待遇类型、注销标志、当年基本医疗保险个人账户余额、历年基本医疗保险个人账户余额、医疗保险办理离休、退休或退职日期、参保单位地址、参保单位联系人、参保单位联系电话、参保单位编号、低保、特困标志、医疗人员类别、就业援助标志、劳动模范标志、协缴标志;社保补贴信息补贴金额、补贴开时日、补贴截止日、补贴发放时间;社会保险缴费信息参保类型、缴费金额;养老基本信息养老个人账户、养老参保单位名称、养老

33、首次参保日期、基本养老保险个人账户更新日期、养老保险费累计缴纳月数、基本养老保险个人账户个人缴纳部分本息存储额、基本养老保险个人账户单位缴纳部分本息存储额、养老保险信息更新日期、养老保险账户余额、是否领取养老保险金、月养老金支付金额、办理离休、退休或退职日期;工伤信息工伤保险登记日期、工伤发生时间、工伤发生原因、工伤申请登记日期、工伤等级、丧失劳动能力鉴定日期、丧失劳动能力鉴定结论、丧失劳动能力鉴定机构名称、工伤护理依赖程度、工伤待遇类别、工伤待遇月支付金额、工伤待遇累计支付月数;军转干部生活补助费信息失业证编号、原工作单位、隶属单位、领取失业保险金期满日期、申请军转干部生活补助日期、首次补发

34、金额、补发期限与标准、补助金额标准、累计补助金额;、公积金中心公积金账户信息当前账户状态、单位名称、公积金卡号、合计余额;、工商局个体工商户基本信息个体工商户名称、执照号码、发招时间、经营期限截至时间、登记单位代码、经营场所、注册资金、个体户内码、经营范围及方式、经营范围主营、其他经营范围及方式、联系电话、登记状态标志、个体户组织机构代码、登记日期、换照标志(年度)、验照标志、其他状态标志;、民政局救助信息救助证证号、救助证发证时间、有效期(起止日期)、最近一次低保金发放时间、最近一次低保金发放金额;烈士遗属信息军人姓名、军人性别、遗属与军人关系;革命伤残军人信息残废等级;退役士兵信息入伍时间

35、、退役时间、是否已安置就业;、人事局人事信息职称、职务、所在单位、单位性质、组织机构代码、职业、职称批准单位、职称批准单位;、教育局学历信息毕业学校、专业、学历;、残联伤残信息残废类型、残废等级、残废证编号;、计生委卫生计生信息身高、体重、血型、健康状况、家族病史、家族病史发病时间、慢性病史、慢性病史发病时间、传染病史、传染病史发病时间、药物过敏及其他过敏史、药物过敏及其他过敏史发病时间。生育情况、健康情况、生殖情况;法人信息、质监部门组织机构代码赋值信息包括企业注册号、组织机构代码、机构名称、机构注册类型、颁证日期;组织机构代码变更信息组织机构代码、机构名称、变更事项、变更内容、变更日期;组

36、织机构代码废置信息组织机构代码、机构名称、废置日期;代码对照表注册号(营业执照注册号、事业单位法人登记号、民间组织登记证号)、组织机构代码、机构名称、注册类型。、工商部门开业登记信息企业注册号、企业名称、法定代表人、身份证件号码、住所、邮政编码、联系电话、前置许可经营项目、一般经营项目、行业代码、企业类型、成立日期、登证机关;变更登记信息组织机构代码、企业注册号、变更事项、变更内容、核准日期;注销登记信息企业名称、企业注册号、注销事由、注销日期、注销机关;吊销营业执照信息企业名称、企业注册号、吊销原因、吊销日期;年报告信息企业注册号、企业名称、年运行状况信息。、国税部门税务登记信息企业注册号、

37、组织机构代码、纳税人识别号、纳税人名称、法定代表人、注册地址、税务登记日期、税务登证机关、纳税人类型、纳税人状态;注销税务登记信息组织机构代码、企业注册号、纳税人识别号、纳税人名称、注销原因、注销日期、注销机关;税务登记验证、换证信息组织机构代码、企业注册号、纳税人识别号、纳税人名称、验换证日期;非正常户信息组织机构代码、企业注册号、纳税人识别号、纳税人名称、非正常户认定日期、非正常户解除日期;提请工商行政管理部门吊销营业执照信息企业注册号、企业名称、提请吊销原因、提请吊销日期;行政处罚信息组织机构代码、企业注册号、纳税人识别号、纳税人名称、违法违章手段、行政处罚结果、行政处罚日期;无照经营企

38、业信息企业名称、住所。、地税信息税务登记信息企业注册号、组织机构代码、纳税人识别号、纳税人名称、法定代表人、注册地址、税务登记日期、税务登证机关、纳税人类型、纳税人状态;注销税务登记信息组织机构代码、企业注册号、纳税人识别号、纳税人名称、注销原因、注销日期、注销机关;税务登记验证、换证信息组织机构代码、企业注册号、纳税人识别号、纳税人名称、验换证日期非正常户信息组织机构代码、企业注册号、纳税人识别号、纳税人名称、非正常户认定日期、非正常户解除日期、提请工商行政管理部门吊销营业执照信息企业注册号、企业名称、提请吊销原因、提请吊销日期;行政处罚信息组织机构代码、企业注册号、纳税人识别号、纳税人名称

39、、违法违章手段、行政处罚结果、行政处罚日期;无照经营企业信息企业名称、住所。 、发改部门企业基本信息企业名称、企业注册号、组织机构代码、法定代表人姓名、法定代表人身份证件号;固定资产投资项目备案证信息项目编号、申请备案时间、组织机构代码、股东、申请单位经济类型、建设类别、建设性质、所属行业代码、所属区县代码、建设规模、总投资。、公安部门企业基本信息企业名称、企业注册号、组织机构代码、法定代表人姓名、法定代表人身份证件号;治安处罚信息监管日期、监管部门、企业名称、监管原因、监管结果;危险物品管理单位名称、负责人、地址、守卫人员、主管部门、保管人员、批准单位、批准时间、四邻距离、核定储存量;消防管

40、理申报单位、消防安全负责人、消防安全管理人、申报事项、场所或活动名称、地点、拟定使用、开业或者举办日期、建筑物耐火等级、座位(人)或摊位数、安全出口数量、是否经消防设计审核合格、是否经消防验收合格、(疏散通道、安全出口、疏散指示)标志是否符合规定、消防设施;重点消防单位预案管理单位名称、单位地址、道路或小区名称、起始门牌、终止门牌、邻近道路、辖区中队、概况、措施、出动预案、备注。、安监部门企业基本信息企业名称、企业注册号、组织机构代码、法定代表人姓名、法定代表人身份证件号;主要化学危险品生产、经营或使用单位信息单位名称、单位地址、业务范围、使用化学危险品情况、负责人、联系电话;重点矿山企业管理

41、企业名称、企业地址、经营或生产范围、负责人、联系电话、备注。、人社部门社保信息组织机构代码、纳税人识别号、企业名称、企业地址、法定代表人、单位编码、发证日期、参保日期、社会保障代码、各参保险种人数、年份。医保信息基本信息企业名称、法定代表人、企业注册号、组织机构代码、分中心、经办人员、单位名称、联系电话、单位类别、隶属关系、所属行业、档案编号、所属系统、开户银行、所属地区、单位人数、邮政编码、所在部门、通讯地址、生育缴费比例、户名、工商缴费比例、投保日期、公务缴费比例;医保单位员工信息在职职工、在职医疗保险情况、退休(职)医疗保险情况、退休医疗保健人员、下岗职工、参加险种、险种单位代码。 、商

42、务部门对外贸易经营者备案信息编号、经营者中文名称、经营英文名称、组织机构代码、经营者类型、住所、经营场所(中文)、经营场所(英文)、联系电话、邮政编码、注册日期、注册号、企业法定代表人姓名、有效证件号;进出口经营权企业基本信息管理进出口企业代码、进出口经营权、企业名称、企业类型、组织机构代码、批准文号、批准日期、发证日期、发证机关、企业英文名称、主管机关、企业地址、主管部门、法定代表人、企业所有制、经营年限、投资总额、投资币制、注册资本金、注册资金币制、经营范围、进出口商品目录、投资者、投资方式、投资金额、到位资金、投资日期、投资国别、投资者英文名称、投资者注册地、合作方、合作方投资比例、就业

43、人数、安置城镇下岗、待业人员数量;重点企业经营情况信息企业名称、工业总产值、产品销售收入、利润总额、利税总额、产成品存货、应收帐款、流动资产平均余额、产销率、两金占用比例、资产负债率;危险化学用品管理危险化学品名称、储存方式、运输工具、分布情况、使用单位名称、经营单位名称、经营单位地址、经营单位许可证号;药厂管理企业名称、企业地址、法人代表、企业行业分类、企业经济类型、所属省份、主管部门、注册资本(万元)、经营年限、单位类型、单位编号;、统计部门法人单位基本情况组织机构代码、单位名称、法定代表人(负责人)、单位所在地及行政区划、联系方式、行业类别、机构类型、营业状态、年末从业人员数;产业活动单

44、位基本情况组织机构代码、单位名称、单位负责人、单位所在地及行政区划、联系方式、单位类别、行业类别、机构类型、归属法人单位情况、开业(成立)时间、企业营业状态、年末从业人员数;年度书面审查信息组织机构代码、代码、企业名称、审查结果、审查机关、审查日期。 、食药监部门药品经营许可信息证号、企业名称、经营方式、注册地址、经营范围、法定代表人、企业负责人、质量负责人、仓库地址、有效日期、发证机关、发证日期、注销日期;开办药品生产企业资格审批企业名称、注册地址、邮政编码、电话、生产地址、邮政编码、电话、隶属单位、企业性质、法人代表、生产范围、生产品种、注册资本、企业名称、地址、邮政编码、经济性质、经营方

45、式、电话、法人代表、经营范围、固定资产;开办医疗器械生产企业企业名称、注册地址、邮政编码、电话、生产地址、邮政编码、电话、隶属单位、企业性质、法人代表、生产范围、生产品种、注册资本、企业名称、地址、邮政编码、经济性质、经营方式、电话、法人代表、经营范围、固定资产;麻醉药品、精神药品经营单位资格审核企业名称、注册地址、邮政编码、电话、企业性质、法人代表、经营品种、规格、数量;放射性药品生产许可、经营企业许可证核发企业名称、地址、邮政编码、电话、企业性质、法人代表、经营品种、规格、数量;药用罂粟壳经营企业批准及购进计划审核企业名称、地址、邮政编码、电话、企业性质、法人代表、经营品种、规格、数量。、

46、海关部门海关注册备案信息企业海关注册号、注册海关、企业海关注册名称、企业有效日期、组织机构代码、企业性质、企业注册日期、年审通过日期、工商注册名称、对外(英文)名称、工商注册地址、对外(英文)地址、营业执照注册号、邮政编码、法人代表、法人电话、证件类别、法人证件号码、进出口权批准机关、批准文号、总经理、电话、注册资本(万)、注册资金币制、开户银行、银行帐号、税务登记证号。缓存层(ODS)数据缓存层(ODS)是直接和SRC层交互的,按照数据仓库建设范围和目标对源数据进行过滤筛选,选取对数据仓库建设有关联联系的业务数据。人口数据仓库依据自然人身份证号码唯一标识,首先过滤能确定身份证号信息的记录,对

47、过滤记录合并去重操作形成全局唯一且完整的人口基本信息。法人数据仓库依据社会统一信用代码将所有企业单位归并,按照不同行业进行分类过滤。仓库层(DW)人口库人口数据仓库按照主题建设,大致划分以下业务主题:人口基础信息基础信息是人从出生到死亡整个生命周期中相对固定不经常变化的信息,此部分信息稳定可以标识一个人的基本形态。如姓名、身份证号码、性别、出生日期、民族等。人口扩展信息扩展信息是人在生命周期活动中随着人的活动和生活的活动而从属在自然人上的标签属性,如婚姻状况、年龄状态、身份类别等。人口求学信息求学信息涵盖一个自然人从幼儿园、中小学、高中、大学等不同学习阶段的求学经历,从时间轴上贯穿人的整个求学

48、经历。人口就业信息就业信息涵盖一个自然人从首次参加工作至退休所从事的工作,供职的单位等有关职业相关的信息。人口医疗信息医疗信息涵盖一个自然人不断年龄段、不同时间段、不同医疗救治经历,整合所有就医过程和结果,为疾病预防控制提供数据决策。人口社保类信息社保类信息包含社保信息、医疗保险信息、失业保险信息、生育保险信息、工伤保险信息、公积金信息;涵盖企业、事业、机关单位。人口资源类信息资源类信息范围广阔,涵盖房产、汽车、不动产等有形资产;股票、股权、债券等无形资产;已经社会活动中所含有的其他资源。人口法律法规类信息法律法规类信息涵盖人社会活动中所从事的民事、刑事行为所造成的结果信息,如交通违法违章、人

49、事考试违规信息、银行借贷款违规信息等。法人库法人数据仓库按照主题建设,大致划分以下业务主题:法人基础信息基础信息包含社会统一信用号、组织机构代码、注册登记号码、税务登记号、法人名称等基本信息。法人税务信息法人税务包含企业经营过程中的日常纳税信息,偷漏税信息等税务相关活动。法人经营信息法人经营信息含日常经营活动,违反违规经营信息,经营范围信息等相关营业信息。法人行政处罚信息法人行政处罚信息包含有各个部门的行政处罚信息,如消防安全处罚、税务偷漏税信息、安全监察违规信息等;行业内违规信息,如律师行业处罚信息、教师行业违规信息等。法人奖励信息法人奖励信息包含企业经营期间对社会、国家所做出的贡献所受到国

50、家、地方政府、行业所颁布的奖励信息。集市层(DM)数据集市为特定应用场景和业务查询所设计。可根据不同业务部门、厅局单位建设特定业务集市,如:公安部门人口信息查询、民政部门人口信息查询、工商部门企业基础信息查询等。也可根据具体的业务场景和业务服务建设特有集市,如个人征信集市、精准扶贫集市等。技术架构概述技术架构体系遵循数据仓库建模分层的理念,从源数据、数据缓存层、仓库层、集市层四个层级展开。BD-OS提供大数据平台支持,平台上安全管理、数据稽核、数据管理、统一调度、实时监控、集群部署等功能特性为数据仓库建设提供功能支撑。图 STYLEREF 2 s 5.1 SEQ 图 * ARABIC s 2

51、1源数据层(SRC)楚天云四大基础数据仓库作为政务系统的统一数据采集、交换、存储、更新、共享、管理平台,在数据仓库的整个技术架构中位于SRC层,为数仓的建设提供基础数据支持。数据仓库建设的前提条件是基础数据通过交换平台或其他方式已经收集到楚天云做集中管控。缓存层(ODS)缓存层存储采用Hive。Hive是建立在Hadoop基础上的开源的数据仓库,提供类似SQL的Hive QL语言操作结构化数据存储服务和基本的数据分析服务。数据接入方法根据结构化、非结构化两种类型分采用以下接入形式:Sqoop接入。数据通过Sqoop从楚天云(SRC层)同步至缓冲层,Sqoop是一个用来将Hadoop和关系型数据

52、库中的数据相互转移的工具,可以将一个关系型数据库(例如 :MySQL,Oracle,Postgres等)中的数据导入到Hadoop的HDFS中,也可以将HDFS的数据导进到关系型数据库中。FTP接入。File Transfer Protocol是文件传输协议,用于网络上的控制文件的双向传输。同时,它也是一个应用程序(Application)。BD-OS大数据操作系统支持FTP文件传输,并针对网络异常有断点续传功能,楚天云数仓使用FTP接入有两种形式:一是对非结构化文件进行上传下载,如人口照片信息的接入,供服务查询和使用;二是对半结构化文件进行FTP上传、转换、加载入Hive数据库,如GIS地理

53、文件信息。图 STYLEREF 2 s 5.1 SEQ 图 * ARABIC s 2 2JDBC 通过数据驱动桥接方式同步数据,数据库或Java程序通过JDBC方式连接SRC数据,增量或全量方式实时读取数据至ODS层。Flume 对SRC中存在的日志信息可通过Flume形式接入ODS层Hive数据库。Flume是一个分布式、可靠和高可用的海量日志聚合系统,支持在系统中定制各类数据发送方,用于收集数据。同时,Flume提供对数据进行简单处理,并写入各种数据接受方(可定制)的能力。仓库层(DW)数据仓库是对企业业务按照主题方式创建的数据大集合,具备集成性、历史性等特点,数据仓库存储数据库的选型除了

54、考虑这些因素外还需要具备灵活的扩展性,以应对不同设计时期的需求和业务的扩展需求。鉴于以上特点,数据仓库层存储我们选取HBase数据库。提供海量数据存储功能,是一种构建在HDFS之上的分布式、面向列的存储系统,HBase面向列式的存储可以在今后非常方便灵活的增加新的扩展字段信息。另外HBase还具有大数据量存储,大数据量高并发操作的优点。集市层(DM)数据集市相当于多个小的数据仓库,其特性和要求和仓库层基本一致。所以集市层的技术选型和DW一样采用HBase。数据服务数据服务平台提供支持标准数据接口、自定义数据接口、FTP、DB连接、数据总线等多种技术形式。有关数据服务详细设计请参考5.10章节。

55、运行架构及数据流向图 STYLEREF 2 s 5.2 SEQ 图 * ARABIC s 2 1数据仓库建设过程中的数据流向及整体运行架构如上图所示,分为6个主要步骤。、采用Sqoop、FTP等开源技术,将楚天云基础库中的结构化数据、半结构化接入到BD-OS大数据平台,存储在Hive数据库中。、对进入Hive数据库的数据,按照不同来源和业务规则,使用Spark SQL对数据进行以下三种类型的操作,三种类型操作根据不同业务规则可做一种或多种操作。(Spark是基于内存进行计算的分布式计算框架。能够使用Hadoop HDFS,提供比 MapReduce 高 10 到100 倍的性能。Spark 作

56、为计算引擎,还支持小批量流式处理、离线批处理、SQL 查询、数据挖掘,避免用户在这几类不同的系统中加载同一份数据带来的存储和性能上的开销)。对脏数据进行清洗、转换。将不同来源的信息通过人口身份证号码进行人口信息拉通;社会统一信用代码进行法人信息的拉通。将所有人口、法人相关的信息进行规范、整合。、通过2步骤的处理,将Hive数据库数据加载到HBase数据库。、写入HBase的数据有两种操作。对基础类的详细信息查询通过Rest API的方式对外提供服务,比如人口信息基本信息、人口教育经历信息等。对现有信息进一步加工处理,做统计分析和多维建模分析。、对人口扩展信息、人口就业信息、人口教育信息、法人违

57、法违章类信息等基于人口、法人类可做多维分析、统计分析类数据创建索引文件,索引创建存储技术采用ElasticSearch。通过Rest API的服务方式对外提供数据查询数据使用服务。Rest API从ElasticSearch存储中获取数据,数据包含有明细数据查询、多维数据查询、聚合统计类数据查询等。安全设计应用安全应用安全是指应用系统自身的安全,包括:身份鉴别、访问控制、安全审计、资源控制等方面。身份鉴别应用系统登录必须进行身份验证。过于简单的标识符和口令容易被穷举攻击破解。同时非法用户可以通过网络进行窃听,从而获得管理员权限,可以对任何资源非法访问及越权操作。因此必须提高用户名/口令的复杂度

58、,且防止被网络窃听。百分点BD-OS大数据操作平台使用时必须申请用户,每人拥有一个独立的账户,且用户密码必须达到规定的安全等级:必须包含大小写、数字、特殊字符中的两种;长度为8-16位字符;密码不得与用户名正反序重名。图 STYLEREF 2 s 5.3 SEQ 图 * ARABIC s 2 1访问控制访问控制主要为了保证用户对应用系统资源的合法使用。非法用户可能企图假冒合法用户的身份进入系统,低权限的合法用户也可能企图执行高权限用户的操作,这些行为将给应用系统带来了很大的安全风险。用户必须拥有合法的用户标识符,在制定好的访问控制策略下进行操作,杜绝越权非法操作。BD-OS大数据操作平台在访问

59、控制策略上有三级对象安全和三级资源安全。三级对象安全是管理员、租户、用户;三级资源安全是功能权限控制、资源权限控制、数据安全控制。超级管理员/管理员:系统级管理员,用于管理租户,给租户分配权限,将普通成员从租户A转到租户B等操作。租户(组织):通常租户对应现实中的一个公司或者一个部门组织。一个租户仅有一名租户所有者(租户所有者可在安全中心进行修改),它是一个多人协作的工作空间,组内可以有多个项目和成员。用户:系统普通成员,代表租户内具体的一个人。可由租户所有者分配租户内角色。功能权限控制:功能的控制粒度细化到按钮级别,不同用户角色具有的功能权限不同,登录到系统后所展示的功能权限即为该用户所有的

60、权限,当前用户不具备的功能权限会直接被屏蔽。数据权限控制:控制用户所能访问的数据内容。对于不同数据库数据内容细分的粒度不同。Hive数据库的可精确到库、表、列;HDFS数据控制可精确到文件;HBase数据控制可精确到列;Storm数据控制可精确到任务。资源权限控制:通过设定租户实现对资源独立管理,实现多租户之间的资源彼此隔离;同时每个租户Owner可以为其成员用户进行资源授权,不同用户所拥有的资源权限不同,避免不同用户对未经授权资源的访问。典型的架构应用如下图所示:图 STYLEREF 2 s 5.3 SEQ 图 * ARABIC s 2 2安全审计应提供覆盖到每个用户的安全审计功能,对应用系

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论