公共数据平台数据归集规范_第1页
公共数据平台数据归集规范_第2页
公共数据平台数据归集规范_第3页
公共数据平台数据归集规范_第4页
公共数据平台数据归集规范_第5页
已阅读5页,还剩10页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

DB3209/T1258-2023

公共数据平台数据归集规范

1范围

本文件界定了公共数据平台数据归集的术语和定义,规定了归集流程、数据归集要求、数据更新要

求及数据归集安全。

本文件适用于指导盐城市各级公共管理和服务机构归集数据至盐城市公共数据平台。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T22239信息安全技术网络安全等级保护基本要求

GB/T35273信息安全技术个人信息安全规范

GB/T35295信息技术大数据术语

GB/T37973信息安全技术大数据安全管理指南

3术语和定义

GB/T35295-2017界定的以及下列术语和定义适用于本文件。

3.1

数据归集dataingestion

指将来源于不同数据源的数据按照一定的规则进行采集、清洗加工、整合和更新,以支持公共数据

平台的数据分析和应用。

3.2

公共数据commondata

指各级行政机关、法律法规授权的具有管理公共事务职能的组织、公共企事业单位为履行法定职责,

提供公共服务收集、产生的各类数据资源,包括文件、资料、图表、图像、音频、视频、电子证照、电

子档案等。

3.3

结构化数据structureddata

一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用

关系模型予以有效描述。

[来源:GB/T35295-2017,2.2.13]

3.4

结构化文件structuredfile

按照特定结构或格式组织的文件,并便于机器解析和读取。结构化文件通常用于存储和组织大量的

数据,如数据库文件、CSV文件、JSON文件等。

-1-

DB3209/T1258-2023

3.5

非结构化文件unstructuredfile

不具有预定义模型或未以预定义方式组织的文件,通常以二进制格式或自由文本形式存储,没有固

定的结构和格式,如办公文档、图片、HTML、各类报表、图像和音频/视频等。

4归集流程

4.1明确归集范围

按照“按需归集、应归尽归”的原则,将相关部门及机构所有可归集的公共数据持续归集至公共数

据平台。

4.2明确归集方式

结合归集数据的范围、数据传输要求等,确定数据的归集方式。归集方式主要包括库表、文件、服

务接口三种,其中库表、文件方式适用于对数据传输速度和实时性无特殊要求的情况,服务接口方式适

用于对数据传输速度和实时性有较高要求的情况。

4.3开展数据归集

应将数据库表结构发送至公共数据主管部门,并根据数据归集方式和数据实际情况,做好数据归集

前准备工作并开展数据归集:

a)将原始数据不进行处理地采集存放在公共数据平台的贴源层中;

b)对贴源层中的数据进行清洗加工使其满足公共数据平台使用的质量要求,清洗加

工后的数据存放在公共数据平台的公共层中;

c)对公共层中的数据进行个性化面向应用、业务的整合,最终数据存放在公共数据

平台的主题层。

4.4归集结果确认

数据归集结果确认应包含:

a)数据清洗加工:对采集到的数据进行清洗加工,去除无效和冗余数据,对缺失数据进行填补,

确保数据的准确性和完整性;

b)数据整合:将清洗加工后的数据进行整合,将不同来源的数据进行融合和映射,形成统一的数

据格式和标准;

c)数据更新:定期对数据进行更新,通过数据采集、清洗加工、整合等环节,保障数据的实时性

和准确性。

5数据归集要求

5.1总体要求

在数据归集过程中,明确数据的归集要求,从数据完整性、及时性、安全性等方面确保数据归集的

质量和高效。

a)数据完整性:确保所归集的数据准确、完整且没有重复。在数据归集过程中,需要对数据源进

行充分的调研和验证,确保数据被完整地收集并没有遗漏,同时,需要进行数据清洗和数据校

验,排除无效数据和错误数据,保持数据的准确性和一致性;

-2-

DB3209/T1258-2023

b)数据安全性:采取相关安全防护措施,确保归集的数据不会受到未经授权的访问、篡改或泄露

的风险。采用严格的身份认证、权限控制和脱敏加密技术,保障数据的安全;

c)数据及时性:建立高效的数据归集机制,需定期检查数据源的更新频率,设置合理的数据归集

周期,确保数据能够及时归集和更新,确保归集的数据始终具备实时性和可信度,满足各级部

门和公众对数据的需求。

5.2库表归集

5.2.1前置库

在前置机中建设前置库,用于临时存储业务数据表、对账数据表等,可根据业务需要创建多个前置

库。前置库应支持国产数据库,字符编码应支持包括但不限于:UTF-8、GB2312、UTF-16。

5.2.2业务数据表

业务数据表存储待归集的业务数据,包含记录ID、批次号、业务操作标识、更新时间及业务

字段,字段说明如下:

a)记录ID:业务数据的唯一记录标识,使用UUID主键策略;

b)批次号:业务数据按批次更新时生成,是数据日期和数据序号的组合,应保证唯一性。其中数

据日期指数据更新的日期,格式为YYYYMMDD:数据序号为8位数字,每日从00000001顺

序递增;

c)业务操作标识:用于标识业务数据的操作属性,数据新增为“I”,数据修改为“U”,数据删

除为“D”;

d)更新时间:业务数据写入业务数据表的时间,格式为YYYY-MM-DDhh:mm:ss。

示例:2023-10-0108:10:56。

业务数据表字段名称和数据格式见表A.1。

5.2.3对账数据表

对账数据表存储数据的对账情况,包含对账记录唯一标识、表名、批次号、批次条数、批次

时间、批次状态字段,字段说明如下:

a)对账记录唯一标识:对账表主键,使用UUID主键策略;

b)表名:该批次更新数据所在业务数据表的名称;

c)批次号:与业务数据表中批次号一致;

d)批次条数:该批次更新的数据条数,应与业务数据表中该批次数据实际更新条数一致;

e)批次时间:对账数据写入对账表的时间,采用数据库时间函数的值,格式为YYYY-MM-DD

hh:mm:ss;

示例:2023-10-0108:10:56。

f)批次状态:本批次数据归集状态,0为初始默认值,1为完成归集,-1为对账数据表批次数量

与业务数据表实际数量不一致。

对账数据表字段名称和数据格式见表C.1。

5.3文件归集

-3-

DB3209/T1258-2023

5.3.1文件系统

在前置机中建设文件系统,用于临时存储待归集的文件。文件系统可采用FTP、SFTP等。

5.3.2文件要求

命名约束

文件夹的命名格式为:/目录名称/业务名称/年/月/日/。文件夹、文件的命名应由阿拉伯数字(0~9)、

英文字符(a~z、A~Z)、下划线“_”组成。

示例:文件夹命名:/公司资料/销售数据/2023/12/05/,文件命名:daily_sales_report_20231205.xlsx。

文件大小

需设置文件大小阈值,文件超出阈值应拆分成多个小文件。

文件类型

文件类型包括结构化文件和非结构化文件,结构化文件格式包括CSV、TXT、XLS、XLSX等,非结构

化文件格式包括PDF、DOC、DOCX、WPS、ZIP以及图片、音频、视频等资源的常用格式。CSV、XLS、XLSX

的首行数据应为列名,字符编码应支持包括但不限于:UTF-8、UTF-16、GBK,且不应存在特殊字符,不

应存在行或列的合并,不应存在相同列名,不应有空白行等。

5.3.3文件信息表

文件信息表用来存储待归集的文件信息,包含记录ID、批次号、文件名、文件路径、文件大

小、文件格式、业务操作标识、文件完整性校验、文件拆分标志、拆分数量、更新时间,字段说明如下:

a)记录ID:业务数据主键,是业务数据的唯一记录标识,使用UUID主键策略;

b)批次号:业务数据按批次更新时生成,是数据日期和数据序号的组合,应保证唯一性。其中数

据日期指数据更新的日期,格式为YYYYMMDD,数据序号为8位数字,每日从00000001顺

序递增;

示例:2023100100000001,表示2023年10月1日第1批次数据。

c)文件名:该文件的存储名称;

d)文件路径:该文件的存储路径;

e)文件大小:该文件占用的存储空间,单位为KB;

f)文件格式:文件的格式;

g)业务操作标识:用于标识业务数据的操作属性,数据新增为“I”,数据修改为“U”,数据删

除为“D”;

h)文件完整性校验:该文件对账使用的完整性校验码;

i)文件拆分标识:用于标识该文件是否进行了拆分,1为已拆分,0为未拆分;

j)拆分数量:该文件被拆分的数量;

k)更新时间:业务数据写入业务数据表的时间,格式为YYYY-MM-DDhh:mm:ss。

示例:2023-10-0108:10:56。

文件信息表字段名称和数据格式见表B.1。

5.3.4文件拆分信息表

-4-

DB3209/T1258-2023

文件拆分信息表用来存储文件拆分信息,包含记录ID、文件信息表记录ID、文件名、文件路

径、文件大小、文件完整性校验、更新时间,字段描述如下:

a)记录ID:业务数据的唯一记录标识,使用UUID主键策略;

b)文件信息表记录ID:拆分文件对应文件信息表的记录ID;

c)文件名:拆分文件的存储名称;

d)文件路径:拆分文件的存储路径;

e)文件大小:拆分文件占用的存储空间,单位为KB;

f)文件完整性校验:该文件对账使用的完整性校验码;

g)更新时间:业务数据写入业务数据表的时间,格式为YYYY-MM-DDhh:mm:ss。

示例:2023-10-0108:10:56。

文件拆分信息表字段名称和数据格式见表B.1。

5.3.5对账数据表

文件的对账数据表包括对账记录唯一标识、文件路径、文件类型、批次号、批次时间、批次

状态,其中结构化文件对账数据表还应包括批次条数等字段,文件类型字段以“SD”标识,非结构化文

件对账数据表还应包括批次个数、批次大小等字段,文件类型以“UD”标识,字段描述如下:

a)对账记录唯一标识:对账表主键,使用UUID主键策略;

b)文件路径:拆分文件的存储路径;

c)文件类型:区分结构化文件、非结构化文件;

d)批次号:与文件信息表中批次号一致;

e)批次时间:对账数据写入对账表的时间,采用数据库时间函数的值,格式为YYYY-MM-DD

hh:mm:ss;

示例:2023-10-0108:10:56。

f)批次条数:该批次更新的数据条数,应与该批次结构化文件中数据实际更新条数一致;

g)批次个数:该批次的文件的个数,应与该批次非结构化文件的实际个数相符;

h)批次大小:该批次的文件占用的存储空间,应与该批次文件实际大小相符,单位为KB;

i)批次状态:本批次数据归集状态,0为初始默认值,1为完成归集,-1为对账表批次条数或文

件个数与实际不一致。

文件对账数据表字段名称和数据格式见表C.2。

5.4接口归集

5.4.1基本要求

公共数据主管部门根据提供的库表结构开发服务接口,挂载到相关公共数据资源目录下,通过公共

数据平台发布。各机构依据服务接口要求,开发服务接口调用程序,调用服务接口推送本机构数据至公

共数据平台,可采用压缩、加密等技术实现数据高速传输、保障数据推送和调用的安全。

5.4.2服务接口调用形式

服务接口调用形式为:<protocol>://<hostname>:<port>/<URI>,其中:

a)protocol支持HTTPS、HTTP;

-5-

DB3209/T1258-2023

b)hostname指IP设备的IP地址;

c)port指端口号;

d)URI指资源URI,由接口唯一标识、数据传输流水序列号、分布式存储标识、资源唯一标识

符组成。

5.4.3服务接口资源描述

服务接口资源采用RESTful的数据标准协议格式,其中编码方式为UTF-8,每个接口资源的资源标

识唯一,接口返回的消息体要包含接口的自描述信息、消息的自描述信息。接口的返回数据格式示例见

附录D.1。

5.4.4服务接口功能

服务接口主要分为增删改类数据服务接口和只增类数据服务接口,增删改类数据服务接口的功能包

含增加信息、增加压缩信息、删除信息、删除压缩信息、修改信息、修改压缩信息,只增类数据服务接

口的功能包含只增信息、只增压缩信息。服务接口内容描述见附录D表D.1~表D.4。

6数据更新要求

6.1数据更新方法

对存在更新标识的数据应支持增量更新;对不存在更新标识的数据应支持全量更新。

6.2数据更新策略

确定数据更新的策略和周期,实时性和频率需根据实际需求确定。根据公共数据平台的使用情况和

业务需求,制定数据更新的频率,可以是实时更新、每日更新、每周更新等。此外,也要考虑相关数据

源的更新频率和数据变动性,确保及时获取最新数据。

7数据归集安全

数据归集安全应符合GB/T22239中等级保护三级的要求,个人信息安全应符合GB/T35273的要求,

其他安全要求应符合GB/T37973的要求。归集功能应满足数据源鉴别安全技术要求,数据提供方在归

集数据过程中应采用身份鉴别、数据源认证等安全机制保障公共数据来源的真实性。

-6-

DB3209/T1258-2023

附录A

(资料性)

库表归集业务数据表字段名称和数据格式

业务数据表字段名称和数据格式见表A.1。

表A.1业务数据表字段名称和数据格式

字段名称字段标识符字段类型字段长度主键标识非空

记录IDVARCHAR64主键是

ID

批次号VARCHAR20--是

BATCH

业务操作标识VARCHAR1--是

OPERATION

更新时间DATETIME8--是

TIME

-7-

DB3209/T1258-2023

附录B

(资料性)

文件归集信息表字段名称和数据格式

文件信息表、文件拆分信息表字段名称和数据格式见表B.1。

表B.1文件信息表、文件拆分信息表字段名称和数据格式

字段名称字段标识符字段类型字段长度主键标识非空

记录IDVARCHAR64主键是

UD_ID

批次号VARCHAR20--是

UD_BATCH

文件名VARCHAR64--是

UD_FILE_NAME

文件路径VARCHAR250--是

UD_FILE_PATH

文件大小LONG----是

UD_FILE_SIZE

文件格式VARCHAR64--是

UD_FILE_TYPE

文件中文名VARCHAR64--是

UD_FILE_CNAME

文件完整性校验VARCHAR128--是

UD_FILE_CHECK

业务操作标识VARCHAR1--是

UD_OPERATION

文件拆分标识INT1--是

UD_IS_SPLIT_FILE

拆分数量INT----是

UD_SPLIT_COUNT

更新时间DATETIME8--是

UD_TIME

文件信息表记录IDVARCHAR64--是

UD_FILE_INFO_ID

-8-

DB3209/TXXX-2023

附录C

(资料性)

对账数据表字段名称和数据格式

C.1库表归集对账数据表字段名称和数据格式

库表归集对账数据表字段名称和数据格式见表C.1。

表C.1库表归集对账数据表字段名称和数据格式

字段名称字段标识符字段类型字段长度主键标识非空

对账记录唯一标识IDVARCHAR64主键是

表名TABLE_NAMEVARCHAR100--是

批次号DATA_BATCHVARCHAR20--是

批次条数DATA_COUNTINT----是

批次时间DATA_DATEDATETIME8--是

批次状态DATA_STATEVARCHAR1--是

C.2文件归集对账数据表字段名称和数据格式

文件归集对账数据表字段名称和数据格式见表C.2。

表C.2文件归集对账数据表字段名称和数据格式

字段名称字段标识符字段类型字段长度主键标识非空

对账记录唯一标识IDVARCHAR64主键是

文件路径FILE_PATHVARCHAR250--是

文件类型UD_SDVARCHAR2--是

批次号FILE_BATCHVARCHAR20--是

批次个数FILE_COUNTINT----是

批次大小FILE_SIZELONG

批次时间FILE_DATEDATETIME8--是

批次状态FILE_STATEVARCHAR1--是

1

DB3209/TXXX-2023

附录D

(资料性)

服务接口数据示例及内容描述

D.1json格式消息体示例

以test内容传输格式为例,定义数据模板,数据模板标识为test,json消息体数据示例为:

200OK

Content-Type:application/json

Content-Length:xxx

{

“url”:"<serialnumber>/<dstributedStorageIdentifier>/<resouceIdentifier>"

“ineterfaceIdentifier”:“addoObjects”,

“label”:"test信息新增接口",

“items_url”:“<serialnumber>/<distributedStorageIdentifier>/<resouceIdentifier>”,

“status”:“success”,

“data”:[

{

“id”:“XXX”,

“name”:“XXX”,

……

},

{

“id”:“XXX”,

“name”:“XXX”,

……

}

……

]

}

2

DB3209/TXXX-2023

D.2增加服务信息接口描述

增加信息服务接口信息描述见表D.1。

表D.1增加服务信息接口描述

名称内容备注

https://<hostname>:<port>ineterfaceIdentif

接口

<ineterfaceIdentifier>/<serialnumber>/<distributedStorageIdentifier>/<resouceier为addObjects

地址

Identifier>或addObjects_GZIP

功能批量增加信息

方法post

ineterfaceIdentifier=addobjects时消息体为application/json,字符集编码为UTF-8

消息的标准json格式数据;

体ineterfaceIdentifier=addObjects_GZIP时数据格式为application/json,字符集编码

为UTF-8的压缩json格式数据;

200OK{status}=0,数据格

Content-Type:application/json式正确,{err}为空

Content-Length:xxx{status}不为0,数

返回

{据格式错误,{err}

结果

“status”:“{status}”,为错误描述

“err”:“{err}”

}

注释----需主键信息

D.3删除服务信息接口描述

删除信息服务接口信息描述见表D.2。

表D.2删除服务信息接口描述

名称内容备注

接口https://<hostname>:<port>ineterfaceIdentifier为

<ineterfaceIdentifier>/<serialnumber>/<distributedStorageIdentifier>/<resouceIdentifier>deleteObjects或

地址

deleteObjects_GZIP

功能批量删除信息

方法post

ineterfaceIdentifier=deleteObjects时消息体为application/json,字符集编码为UTF-8的

标准json格式数据;

消息

ineterfaceIdentifier=deleteObjects_GZIP时数据格式为application/json,字符集编码为

体UTF-8的压缩json格式数据;

200OK{status}=0,数据格式正

Content-Type:application/json确,{err}为空{status}不

返回Content-Length:xxx为0,数据格式错误,

{{err}为错误描述

结果

“status”:“{status}”,

“err”:“{err}”

}

注释----需主键信息

3

DB3209/TXXX-2023

D.4修改服务信息接口描述

修改信息服务接口信息描述见表D.3。

表D.3修改服务信息接口描述

名称内容备注

接口https://<hostname>:<port>ineterfaceIdentifier为

<ineterfaceIdentifier>/<serialnumber>/<distributedStorageIdentifier>/<resouceIdentifier>updateObjects或

地址

updateObjects_GZIP

功能批量修改信息

方法post

ineterfaceIdentifier=updateObjects时消息体为application/json,字符集编码为UTF-8的

消息标准json格式数据;

ineterfaceIdentifier=updateObjects_GZIP时数据格式为application/json,字符集编码为

UTF-8的压缩json格式数据;

200OK{status}=0,数据格式正

Content-Type:application/json确,{err}为空{status}

返回Content-Length:xxx不为0,数据格式错误,

{{err}为错误描述

结果

“status”:“{status}”,

“err”:“{err}”

}

注释----需主键信息

D.5只增服务信息接口描述

只增信息服务接口信息描述见表D.4。

表D.4只增服务信息接口描述

名称内容备注

https://<hostname>:<port>ineterfaceIdentifier为

接口地址<ineterfaceIdentifier>/<serialnumber>/<distributedStorageIdentifier>/<resouceIdentifieraddEventInfos或

>addEventInfos_GZIP

功能批量归集只增信息

方法post

ineterfaceIdentifier=addEventInfos时消息体为application/json,字符集编码为UTF-8

的标准json格式数据;

消息体ineterfaceIdentifier=addEventInfos_GZIP时数据格式为application/json,字符集编码

为UTF-8的压缩json格式数据;

200OK{status}=0,数据格式正

Content-Type:application/json确,{err}为空{status}

Content-Length:xxx不为0,数据格式错误,

返回结果{{err}为错误描述

“status”:“{status}”,

“err”:“{err}”

}

注释----无

4

ICS35.020

CCSL70

DB3209

盐城市地方标准

DB3209/T1258—2023

公共数据平台数据归集规范

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论