大数据平台深化设计方案_第1页
大数据平台深化设计方案_第2页
大数据平台深化设计方案_第3页
大数据平台深化设计方案_第4页
大数据平台深化设计方案_第5页
已阅读5页,还剩222页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据平台

深化设计说明书

大数据平台深化设计说明书

目录

1实现架构及功能逻辑1

1.1设计思路1

1.2系统架构3

1.2.1系统体系结构3

1.2.1.1功能架构3

1.2.1.2技术架构5

1.2.1.3物理组架构9

1.2.2系统设计原则10

1.2.2.1适用性原则10

1.2.2.2标准化、规范化原则10

1.2.2.3先进性原则10

1.2.2.4实用性原则10

1.2.2.5开放性原则11

1.2.2.6安全性原则11

1.2.2.7可扩展原则11

1.2.3功能模块描述12

1.2.3.1重构社会治理大数据存储结构12

1.2.3.2提供通用全文检索与分析应用工具12

1.2.3.3面向社会治理应用的大数据服务能力13

大数据平台深化设计说明书

2大数据中心应用模块详细设计13

2.1首页设计13

2.1.1概要说明13

2.1.2界面设计13

2.1.3主要功能详细设计14

2.2数据仓库设计26

2.2.1ODS数据库28

2.2.1.1数据库命名28

2.2.1.2表命名规则28

2.2.1.3分区规则29

2.2.1.3.1同步类型29

2.2.1.3.2分区类型29

2.2.1.4审计字段30

2.2.1.5索引规则30

2.2.2DWS数据库30

2.2.2.1表命名规则31

2.2.2.2索引规则31

2.2.2.3分区规则31

2.2.2.3.1创建分区表:32

2.2.2.3.2创建多级分区32

2.2.2.4审计字段33

大数据平台深化设计说明书

2.2.3DM数据库33

2.2.3.1数据库命名33

2.2.3.2表命名34

2.2.3.3专题库34

2.2.3.3.1列数据设计原则34

2.2.3.3.2Hbase创建表35

2.2.3.3.3HbaseRowKEY设计35

2.2.3.3.4Hbase数据分散设计37

2.3标准管理40

2.3.1数据字典管理40

2.3.1.1功能描述40

2.3.1.2实现框架41

2.3.1.2.1设计思路41

2.3.1.3接口设计44

2.3.1.3.1新建数据字典接口44

2.3.1.3.2唯一性校验接口47

2.3.1.3.3修改数据字典48

2.3.1.3.4数据字典列表50

2.3.1.3.5数据字典删除51

2.3.1.3.6批量导入数据字典52

2.3.1.3.7导出数据字典54

大数据平台深化设计说明书

2.3.1.3.8查询数据字典详情55

2.3.1.3.9根据版本查询字典项56

2.3.1.3.10标准文件下载58

2.3.2数据元管理59

2.3.2.1功能描述59

2.3.2.2实现框架60

2.3.2.2.1设计思路60

2.3.2.3接口设计62

2.3.2.3.1数据元列表展示查询接口62

2.3.2.3.2数据元新增接口62

2.3.2.3.3数据元查询详情接口63

2.3.2.3.4数据元修改接口65

2.3.2.3.5数据元删除和批量删除接口66

2.3.2.3.6数据元批量导入模板下载67

2.3.2.3.7数据元批量导入67

2.3.2.3.8数据元批量导出68

2.3.2.3.9数据元名称和编码是否唯一68

2.3.2.3.10数据元版本号验证69

2.3.2.3.11数据元版本号信息查询69

2.3.2.3.12数据元版本信息更新70

2.3.3数据标准管理70

大数据平台深化设计说明书

2.3.3.1功能描述70

2.3.3.1.1设计思路71

2.3.3.2接口设计72

2.3.3.2.1数据标准管理列表查询接口72

2.3.3.2.2数据标准管理新增接口73

2.3.3.2.3数据标准管理修改接口73

2.3.3.2.4数据标准管理删除接口74

2.3.3.2.5数据标准查看详情接口74

2.3.3.2.6数据标准名称、代码、标准号、英文名称是

否唯一75

2.4数据资源共享管理76

2.4.1编目管理76

2.4.2前段码管理76

2.4.2.1功能描述76

2.4.2.2实现框架77

2.4.2.2.1设计思路77

2.4.2.3接口设计78

2.4.2.3.1前段码管理列表接口78

2.4.2.3.2前段码新增接口79

2.4.2.3.3前段码修改接口80

2.4.2.3.4校验前段码名称和编码是否唯一80

大数据平台深化设计说明书

2.4.2.3.5前段码删除81

2.4.2.3.6前段码导入81

2.4.2.3.7前段码导出82

2.4.2.3.8前段码批量导入模板下载83

2.4.3资源目录管理83

2.4.3.1功能描述83

2.4.3.2实现框架84

2.4.3.2.1设计思路84

2.4.3.3接口设计87

2.4.3.3.1资源编目87

2.4.3.3,2编目修改91

2.4.3.3.3资源删除93

2.4.3.3.4列表查询94

2.4.3.3.5批量撤销95

2.4.3.3.6批量导入95

2.4.3.3.7批量导出97

2.4.3.3.8编目详情97

2.4.3.3.9获取数据项100

2.4.3.3.10唯一性校验101

2.4.4文件102

2.4.4.1功能描述102

大数据平台深化设计说明书

2.4.4.2实现框架103

2.4.4.2.1设计思路103

2.4.4.3主要逻辑实现描述103

2.4.4.4界面设计104

2.4.4.5接口设计105

2.4.4.5.1资源发布105

2.4.4.5.2获取注册文件列表106

2.4.4.5.3查看编目信息107

2.4.4.5.4发布撤销110

2.4.5数据库/数据集110

2.4.5.1实现框架110

2.4.5.1.1设计思路110

2.4.5.2界面设计112

2.4.5.3接口设计113

2.4.5.3.1数据库发布113

2.4.5.3.2获取注册数据库列表115

2.4.5.3.3查看编目信息117

2.4.5.3.4发布撤销119

2.4.5.4需求管理119

2.4.5.5功能描述119

2.4.5.6实现框架120

大数据平台深化设计说明书

2.4.5.6.1设计思路120

2.4.5.6.2类图及描述122

2.4.5.7接口设计123

2.4.5.7.1平台初审需求列表查询接口123

2.4.5.7.2门户数据申请接口123

2.4.5.7.3平台初审各申请状态下的数据信息数量接

口124

2.4.5.7.4平台初审125

2.4.5.7.5平台数据申请详情查询125

2.4.5.7.6部门受理反馈接口126

2.4.5.8功能描述126

2.4.5.9实现框架127

2.4.5.9.1设计思路127

2.4.5.10界面设计129

2.5重点人员监控平台130

2.5.1业务场景130

2.5.2设计原则和设计要求131

2.5.3获取字典项值131

2.5.3.1请求方式post131

2.5.3.2请求url131

2.5.3.3请求参数131

大数据平台深化设计说明书

2.5.3.4返回结果131

2.5.3.5获取指定重点人员列表132

2.5.3.5.1请求方式post132

2.5.3.5.2请求url132

2.5.3.5.3请求参数132

2.5.3.5.4返回结果133

2.5.3.6获取指定重点人员个人关系133

2.5.3.6.1请求方式post133

2.5.3.6.2请求url133

2.5.3.6.3请求参数133

2.5.3.6.4返回结果134

2.5.3.7获取指定重点人员活动轨迹134

2.5.3.7.1请求方式post134

2.5.3.7.2请求url134

2.5.3.7.3请求参数135

2.5.3.7.4返回结果135

2.5.3.8获取指定重点人员重点记录136

2.5.3.8.1请求方式post136

2.5.3.8.2请求url136

2.5.3.8.3请求参数136

2.5.3.8.4返回结果136

大数据平台深化设计说明书

2.5.3.9获取指定重点人员个人信息基本信息137

2.5.3.9.1请求方式post137

2.5.3.9.2请求url137

2.5.3.9.3请求参数137

2.5.3.9.4返回结果137

2.5.3.10获取指定重点人员活动轨迹用于地图展示……138

2.5.3.10.1请求方式post138

2.5.3.10.2请求url138

2.5.3.10.3请求参数139

2.5.3.10.4返回结果139

2.5.3.11数据库设计139

2.5.3.11.1表结构139

2.5.3.12实现逻辑145

2.6舆情监测分析147

2.6.1网络爬虫系统147

2.6.1.1业务场景147

2.6.1.2设计原则和设计要求147

2.6.1.3数据库设计147

2.6.1.4实现逻辑149

2.6.2舆情数据分析150

2.6.2.1功能逻辑描述150

大数据平台深化设计说明书

2.6.2.2功能模块结构图151

2.6.3分析过程数据模型151

2.6.3.1数据库表:152

2.6.4软件体系架构描述155

2.6.5设计思路156

2.6.6详细设计157

2.6.6.1热词分析157

2.6.6.1.1概要说明157

2.6.6.1.2类图及描述157

2.6.6.1.3流程图及描述158

2.6.6.2热点聚类158

2.6.6.2.1概要说明158

2.6.6.2.2类图及描述159

2.6.6.2.3流程图及描述160

2.6.6.3话题提取160

2.6.6.3.1概要说明160

2.6.6.3.2类图及描述161

2.6.6.3.3流程图及描述162

2.7智慧搜162

2.7.1功能模块结构图162

2.7.2软件体系架构描述164

大数据平台深化设计说明书

2.7.3业务场景164

2.7.3.1.1精确查询164

2.7.3.1.2模糊查询165

2.7.3.1.3指定类型查询165

2.7.4数据来源165

2.7.5接口设计166

2.7.5.1智慧搜首页查询接口166

2.7.5.1.1请求方式post166

2.7.5.1.2请求url166

2.7.5.1.3请求参数166

2.7.5.1.4返回结果167

2.7.5.2按照条件分页搜表数据169

2.7.5.2.1请求方式post169

2.7.5.2.2请求url169

2.7.5.2.3请求参数169

2.7.5.2.4返回结果170

2.7.5.3按照条件和表名分页搜表数据171

2.7.5.3.1请求方式post171

2.7.5.3.2请求url171

2.7.5.3.3请求参数171

2.7.5.3.4返回结果172

大数据平台深化设计说明书

2.7.5.4按照身份证号和表分类搜表数据173

2.7.5.4.1请求方式post173

2.7.5.4.2请求url173

2.7.5.4.3请求参数173

2.7.5.4.4返回结果174

2.7.6页面设计174

2.7.6.1搜索主页174

2.7.6.2搜索详情页175

2.8消息中心、关注对象175

2.8.1模块架构175

2.8.2个人消息管理UI页面176

2.8.2.1消息订阅176

2.8.2.2个人消息176

2.8.3消息管理中心UI页面177

2.8.3.1消息定义177

2.8.3.2消息订阅178

2.8.3.3消息推送178

2.8.4概念模型179

2.8.4.1消息实体179

2.8.4.2消息中心179

2.8.4.3消息推送180

大数据平台深化设计说明书

2.8.5物理模型181

2.8.6类图181

2.8.7对外接口182

2.9平台管理模块182

2.9.1单点登录182

2.9.1.1交互图182

2.9.1.2访问流程184

2.9.2用户组权限184

2.9,2.1实现框架185

2.9.2.1.1设计思路185

2.9.2.1.2获取用户组列表查询接口187

2.9.2.1.3查看用户组接口187

2.9.2.1.4用户组关联用户接口188

2.9.2.1.5新增用户组接口188

2.9.2.1.6修改用户组接口189

2.9.2.1.7删除/批量删除用户组接口189

2.9.2.1.8数据授权190

2.9.3用户管理191

2.9.3.1功能描述191

2.9.3.2实现框架192

2.9.3.2.1设计思路192

大数据平台深化设计说明书

2.9.3.3接口设计194

2.9.3.3.1获取用户列表查询接口194

2.9.3.3.2新增用户接口195

2.9.3.3.3修改用户接口197

2.9.3.3.4删除/批量删除用户组接口200

2.9.3.3.5用户导入和导出201

2.9.3.3.6校验唯一性202

2.9.3.3.7上传头像204

2.9.4角色管理205

2.9.4.1功能描述205

2.9.5权限管理207

2.9.5.1权限管理数据模型207

2.9.5.2物理模型207

2.9.5.3类图208

2.9.5.4对外接口209

3深化功能209

3.1高分大屏209

3.2权限管理210

3.2.1角色管理210

3.2.2用户管理210

3.2.3红名单210

大数据平台深化设计说明书

3.3日志管理210

3.3.1用户操作日志210

3.3.2数据处理日志210

大数据平台深化设计说明书

1实现架构及功能逻辑

1.1设计思路

1.标准规范及统一架构

业务标准规范:按照政务数据共享交换的纲领,总体设计思路严格遵

守政务数据共享交换的规范化、标准化原则。遵循国家政务信息资源管理、

交换、共享有关标准及国家政策要求。按照系统建设标准与规范设计设计

数据内容、数据分类与编码、精度与标准等。

建立统一的技术架构:统一的技术路线、统一的产品支撑、统一的技

术支撑、统一的业务支撑,为应用系统提供多层面的支撑架构。

建立统一的、标准化的应用集成架构,以约束不同开发商的应用服务

接口开发。

2.松耦合、高灵活、可重用设计

政务数据共享交换平台的业务多样,需求复杂,如果按传统的设计思

路,就特定问题给出特定方案,将难以满足平台的业务需求的变化及扩展

的需求。

系统、模块独立化,采用顶层设计原则,自顶向下设计实现,将业务

系统高度抽象,归纳,组织为相对独立的子系统,子模块,采用统一的接

口标准,统一的数据格式与数据结构标准,将一个复杂的大平台解耦,增

加平台扩展性,灵活性与生命力。

提供可扩展的功能模块封装,包括数据源管理、编目管理、资源管理、

1/246

大数据平台深化设计说明书

交换管理、共享管理、用户管理、权限管理、数据分析管理,日志管理,

等通用模块的封装,提升各业务系统的质量,提高系统的复用性,减少重

复投资

3.系统、数据的安全性设计

数据访问授权,对注册的数据和服务进行访问权限控制。基于账号

粒度,控制消费者用户可以访问的信息资源。基于唯一设备ID,控制设

备消费者可以访问的信息资源。

安全防护,全方位、多角度对系统、数据、服务、设备进行安全防护。

证书系统,自带CA认证的证书,各节点通过证书安全的组建网络,

保证节点可信、不可抵赖,不可更改等安全特性。

4、技术先进性设计

1)具有良好的开放性,支持对结构化、非结构化等不同类型数据的查

询接口封装,支持关系型数据库、NOSQL数据库、分布式数据库、内存数

据库等多种类型数据存储模式,符合以Hadoop/Spark为代表的主流技术

发展趋势要求,能够兼容开源Hadoop体系中的各类组件。

2)采用J2EE技术路线,提供在UNIX、Linux等操作系统上部署。

3)系统应采用B/S架构,支持兼容JDK1.7及以上版本,支持Websphere、

WebLogic.TOMCAT等主流应用服务器。

4)版本统一要求,需遵循统一业务规范、统一数据标准、统一数据架

构要求。

5)系统支持包括IE8及以上版本的IE浏览器、google浏览器、FireFox

2/246

大数据平台深化设计说明书

等主流浏览器。

6)系统应遵循公安部关于信息系统管理的各类技术、业务要求、检测

标准、功能标准和数据标准。

7)系统结构遵循工程统一要求,采用多层结构开发部署,实现业务流

程与数据处理相分离,内容与表现相分离,使系统真正具备可扩展性。

1.2系统架构

社会治理大数据应用服务平台是一个为网格化社会治理用户提供社会

治理全要素数据服务的大数据平台。平台建设可以分为四个层次。分别为

社会治理大数据存储结构、全文检索与分析应用、面向社会治理应用

在大数据服务能力,实现省级平台数据级联和共享。

1.2.1系统体系结构

1.2.1.1功能架构

社会治理大数据应用平台采用面向服务架构设计技术,平台总体分

层架构由大数据汇集、大数据整合、大数据存储计算分析平台、大数据资

源池、大数据研判分析、大数据服务、大数数据可视化展示、大数据管理

等7大核心部分组成。

平台架构下图所示:

3/246

大数据平台深化设计说明书

平台用户苣理统一授权统一认证单点登录笆慧搜通知通告待办事务数

门户据

人员詈理全局态势信息要素王题信息卷蝇就人像比对服务信息推送服务

三康地图要素对象信息舆情分析即席杳询服更信皂订阅服务

Afi蜒三维建筑网格力量舆情监湾智盘搜服务关注对象服务

人员预警视频图像接入视频短信指拄舆情简报数据核查服务

平人员关系研判模型人员轨迹研判模型事件分析处理模型网络事件动春监测网格人员动态监测

民生热点问题监浏精准帮茨动态监测社会治安质态评估网格员动杳配置校园周边全规

'维

自然语言文本处理大

入机器学习标至营理数据分忻模型

恚崖处理计算流计算内存计算国计算隙

t源

M列式数据库口图数据库I全文检索效先库内存数据库关系型政据库油

-r台-

分布式文件系统(HDFS)

会批地J口我数据实时接入数克质量稽核质

S量

数受抽取webServiceAPI接口标准化处理

综治大数室公安大数据.政三•我有社会大数据上级大数据互联网大数樨

计算资源存储费源网络绫源政等■外网互联网转治专网边界接入平台

其中大数据存储计算分析平台依托Hadoop开源生态技术栈搭建分布

式存储和计算框架。提供基于离线计算、实时计算、内存计算、图计算等

计算框架开发社会治理大数据分析应用。提供关系型数据库、列式数据库、

图数据库、内存数据库和全文检索数据库五种数据库,以存储各种类型的

社会治理数据资源。提供数据资源的存储、转换、增量导入、数据清洗等

功能。经导入和清洗的数据资源,根据其不同的性质、数量和应用方式,

将数据存放在相应的数据库系统中。提供标签管理、数据分析模型管理功

能,使用图形化的数据建模环境,通过数据分析过程和算法编排形成数据

分析计算工作流,完成数据建模应用的开发。

4/246

大数据平台深化设计说明书

1.2.1.2技术架构

技术架构,平台系统功能可分为4个层次:数据服务层、数据计算层、

数据存储层DWS、数据采集层。另外加上数据源层ODS层,数据源层为系

统外部业务系统、业务数据库、业务文档库提供。为共享数据交换平台提

供数据的支撑。

数据接口

数据服务层监控告警交互图表大屏展示

(API\REST)

______,_______7

11一-——

/\

|SQL引擎数据Club数据仓库]数据挖掘Manager

数据计算层

[数据探索)[数据窿模|

""实时计[系统管理)

[Spark||Storm|[MapReduce|

[SSO)

I分类T回归I聚合『关联

安全管理

MahoutMlib

数据存偌层一•;集群管理

DWSI懿色也

X._________

\(机器学习靠法睾|/茶集管理

[演式管理I

一HDFS数据治理<-4»

I』务模型I

数据采集层

抽取|[转换]]清洗)|题合||一也化]引领|

ETLI亩讦管理

数据湖

结构化数据非结构化数据I日志管理|

救据源ODS

|Oracle](Oracle]|Oracle][Oracle)Spider

Spider

公安人社民政交通里论热点

图-2:综治中心数据应用架构

数据源0DS层:从业务系统,异构结构化数据如公安、人社、民

政、政法,和非结构化数据,如新浪微博、百度帖吧、论坛,新闻新点抽

取数据到数据湖中存储。作数据规约化,标准化处理。

数据ETL采集层:

5/246

大数据平台深化设计说明书

♦数据采集层使用可视化的开发开具,通过图形化拖拉拽,敏捷开

发模式,集数据建模和ETL设计于一体,能快速响应开发,灵

活应对,需求变动,开发者与应用者视角隔离,支持多人协同定

义,共享资料库,内置数仓分层结构,提供数仓全局一体化视图,

可视化管理和可视化定义,内置丰富的清洗、转换、抽取,支持

多种文件格式,如TXT、EXCEL多种数据库类型,关系型数据库

Oracle、MySql、SQLService、非关系数据HIVE,

HBase,Elasticseach,消息中心件Kafka、MQActive,ETL定义

支持数据抽样,转换过程支持边设置边预览,基于时间或事件的

调度触发模式,批量加载和并行计算机制。

♦数据抽取是根据预设的抽取机制从原始数据中读取数据,包括结

构化数据的抽取和非结构化数据的抽取。抽取机制支持定时抽取、

全量抽取、增量抽取、时间戳抽取、触发抽取等。

♦预处理层支持对结构化与非结构化数据的数据去重处理;对于结

构化数据,判断在指定时间窗口内,所有字段如果相同,则合并

为一条记录。对于非结构化数据,在指定时间窗口内,对非结构

化数据指定范围计算md5值,相同MD5值的文件体只保留一个原

始文件。

数据存储DWS层:

♦基础库:

基础库包含HBase数据库和HDFS。前者用于存储生产库中关系型

6/246

大数据平台深化设计说明书

数据库数据,后者存储生产环境中的结构化数据和非结构化数据,

包括文本、视频、图片、网页等。

♦HBase数据库:

基础库中的HBase数据库可以看做是生产库中关系型数据库的镜像库,

其数据结构按照关系型数据库中表结构建设,如下图:

Rowkeycollcol2col3

(Hashvalue)

coll、col2等,与生产库表字段保持一致,统一在一个列组(列

组名为F)下。Rowkey采用hashcode的算法生成散列的hash值。

表名的命名采用B_来源_tablename的方式,其中B代表BasicDB,

是基础库的意思,来源是生产库用途的拼音的大写缩写,例如来

源是旅馆,那么其缩写就是LG。tablename取自生产库本身的表

名。

数据计算层:

大数据计算层是从大量的原始数据中抽取有价值的信息,即数据转换

成信息的过程。主要对所输入的各种形式的数据进行加工整理,这一过程

包含对数据的收集、存储、加工、分类、归并、计算、排序、转换、检索

和传播的演变与推导。大数据计算层包括两大基本因素:数据处理和数据

管理。如下图所示:

7/246

大数据平台深化设计说明书

大数据平台计算层

收集存储加工

分支[归并[计算

排序转换检索

数据平台计算层

数据服务层:

数据服务层通过数据接口如API,RESTFUL接口对外提供数据服务。

同时通过数据服务提供BIDashboard指标功能展示,及前端的大屏展示。

基础设施层:

包括计算设施、存储设施、网络设施、安全设施等。是所有上层软件能力

的物理承载,提供了强大的计算能力、大数据量访问与可靠的存储能力、

高吞吐的能力、安全可靠的服务能力。

8/246

大数据平台深化设计说明书

物理组架构

/uUaogS入

奉贤综治数据应用服务平台是由web服务,数据库服务,hadoop和es的

集群环境组成

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论