《智慧电子商务园区大数据平台数据接入质量规范》_第1页
《智慧电子商务园区大数据平台数据接入质量规范》_第2页
《智慧电子商务园区大数据平台数据接入质量规范》_第3页
《智慧电子商务园区大数据平台数据接入质量规范》_第4页
《智慧电子商务园区大数据平台数据接入质量规范》_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

ICS35.240

CCSL70

T/CASME

中国中小商业企业协会团体标准

T/CASMEXXX—2024

智慧电子商务园区大数据平台数据接入质

量规范

Dataaccessqualityspecificationforbigdataplatforminsmarte-

commercepark

(征求意见稿)

2024-XX-XX发布2024-XX-XX实施

中国中小商业企业协会发布

T/CASMEXXX—2024

前言

本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定

起草。

请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。

本文件由中移物联网有限公司提出。

本文件由中国中小商业企业协会归口。

本文件起草单位:中移物联网有限公司、XXX。

本文件主要起草人:XXX。

II

T/CASMEXXX—2024

智慧电子商务园区大数据平台数据接入质量规范

1范围

本文件规定了智慧电子商务园区大数据平台(以下简称“大数据平台”)的数据质量评价维度、数

据接入质量技术要求、数据质量评价方法和安全要求。

本文件适用于智慧电子商务园区接入大数据平台过程中的数据质量保障工作。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T5271.1信息技术词汇第1部分:基本术语

GB/T24662电子商务产品核心元数据

GB/T24663电子商务企业核心元数据

GB/T36318—2018电子商务平台数据开放总体要求

GB/T36344信息技术数据质量评价指标

GB/T37973信息安全技术大数据安全管理指南

3术语和定义

GB/T5271.1和GB/T36344界定的术语和定义适用于本文件。

4概述

大数据平台支持结构化数据、半结构化数据和非结构化数据等异构数据源采集数据,实现各类离线

数据、实时数据的采集与接入。针对大数据平台的数据接入,执行相应的质量评价标准,保证数据质量,

为智慧电子商务园区提供优质的数据服务。

5数据质量评价维度

指标框架

数据质量的评价主要包括八个维度:完整性、规范性、一致性、准确性、唯一性、关联性、时效性

和可访问性,数据质量评价指标框架见图1。

1

T/CASMEXXX—2024

数据质量评价指标框架

完规一准唯关时可

整范致确一联效访

性问

性性性

图1数据质量评价指标框架

指标说明

5.2.1完整性

按数据规则要求,数据信息不应存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可

能是数据中某个字段信息的记录缺失。不完整的数据所能借鉴的价值会大大降低。完整性评价指标见表

1。

表1完整性评价指标

指标名称指标描述计算方法

计算公式:푋=퐴/퐵

按照业务规则要求,数据集中应被赋值的数据元素的赋式中:

数据元素完整性

值程度。A=被赋值的数据集中元素的个数;

B=预期被赋值的数据集中元素的个数

计算公式:푋=퐴/퐵

按照业务规则要求,数据集中应被赋值的数据记录的赋式中:

数据记录完整性

值程度。A=被赋值的数据集中元素的个数;

B=预期被赋值的数据集中元素的个数

5.2.2规范性

5.2.2.1数据应符合数据标准、数据模型、业务规则、元数据或权威参考数据,规范性评价指标见表

2。

5.2.2.2电子商务园区企业核心元数据应符合GB/T24663的规定,产品核心元数据应符合GB/T24662

的规定。

表2规范性评价指标

指标名称指标描述计算方法

数据符合数据标准的度量

注1:评价数据质量时需要收集数据在命名、创建、定计算公式:푋=퐴/퐵

义、更新和归档时遵循的标准,包括国际标准、国家标式中:

数据标准准、行业标准、地方标准或相关规定等。A=满足数据标准要求的数据集中元素的

注2:和数据归档一样甚至更重要,在一个完整的数据个数;

规则中,旧数据的销毁一般也有一个比较详细且具有可B=被评价的数据集中元素个数

行性的规定。

2

T/CASMEXXX—2024

表2规范性评价指标(续)

指标名称指标描述计算方法

数据符合数据模型的度量计算公式:푋=퐴/퐵

注1:数据模型是一种直观描述组织数据结构的手段,式中:

数据模型是数据表达的规范。A=满足数据模型要求的数据集中元素的

注2:评价数据质量时需要检查是否存在清晰且可理解个数;

的数据模型定义以及这些数据的组织形式。B=被评价的数据集中元素个数

计算公式:푋=퐴/퐵

数据符合元数据定义的度量

式中:

注:元数据标注、描述或刻画其他数据、以使检索或

元数据A=满足元数据定义的数据集中元素的个

使用数据更容易。评价数据质量时需要检查是否提供可

数;

解读的元数据文档。

B=被评价的数据集中元素个数

数据符合业务规则的度量

计算公式:푋=퐴/퐵

注1:业务规则是一种权威性原则或业务方针,用来描

式中:

述业务交互,并建立行动和数据行为结果及完整性的规

业务规则A=满足业务规则的数据集中元素的个

则。

数;

注2:评价数据质量时需要检查是否存在良好归档的业

B=被评价的数据集中元素个数

务规则。

计算公式:푋=퐴/퐵

参考数据是系统、应用软件、数据库、流程、报告及交式中:

权威参考数据易记录和主记录用来参考的数值集合和分类表A=满足参考数据规则的数据集中元素的

注:评价数据质量时需要收集参考数据列表。个数;

B=被评价的数据集中元素个数

计算公式:푋=퐴/퐵

式中:

安全规则是安全和隐私方面的规则,包括数据权限管

安全规则A=满足安全规范的数据集中元素的个

理数据脱敏处理等

数;

B=被评价的数据集中元素个数

5.2.3一致性

数据与其他特定上下文中使用的数据应无矛盾,即数据是否遵循了统一的规范,数据集合是否保持

了统一的格式。数据质量的一致性主要体现在数据记录的规范和数据是否符合逻辑。一致性评价指标见

3。

表3-致性评价指标

指标名称指标描述计算方法

计算公式:푋=퐴/퐵

同一数据在不同位置存储或被不同应用或用户使用式中:

相同数据一致性时,数据的一致性,数据发生变化时,存储在不同位A=满足一致性要求的数据集中元素的个

置的数据的同一数据被同步修改数;

B=被评价的数据集中元素个数

3

T/CASMEXXX—2024

表3-致性评价指标(续)

指标名称指标描述计算方法

计算公式:푋=퐴/퐵

式中:

关联数据一致性根据一致性约束规则检查关联数据的一致性A=满足一致性要求的数据集中元素的个

数;

B=被评价的数据集中元素个数

5.2.4准确性

数据应准确表示所描述的真实实体(实际对象)真实值,即指数据记录的信息不应存在异常或错误。

准确性评价指标见表4。

表4准确性评价指标

指标名称指标描述计算方法

计算公式:푋=퐴/퐵

式中:

数据内容正确性数据内容是否是预期数据A=满足数据正确性要求的数据集中元素

的个数;

B=被评价的数据集中元素个数

计算公式:푋=퐴/퐵

式中:

数据格式包含(数据类型、数据范围、数据长度、精

数据格式合规性A=满足一满足格式要求的数据集中元素

度等)是否满足预期要求

的个数;

B=被评价的数据集中元素个数

计算公式:푋=퐴/퐵

式中:

数据重复率特定字段、记录、文件或数据集意外重复的度量

A=重复数据集中元素的个数;

B=被评价的数据集中元素个数

计算公式:푋=퐴/퐵

式中:

数据唯一性特定字段、记录、文件或数据集唯一性的度量A=满足唯一性要求的数据集中元素的个

数;

B=被评价的数据集中元素个数

计算公式:푋=퐴/퐵

式中:

脏数据出现率正确字段、记录、文件或数据集之外无效数据的度量A=有脏数据出现的数据集中元素的个

数;

B=被评价的数据集中元素个数

5.2.5唯一性

4

T/CASMEXXX—2024

应度量哪些数据是重复数据或者数据的哪些属性是重复的。

5.2.6关联性

应度量哪些关联的数据缺失或者未建立索引,关联性评价因素如下:

——查找到的信息和主题不完全一致,但确是其中某一方面的阐述;

——查找到的信息集合多数在用户需要的检索主题内;

——提供的信息主题与用户检索主题相匹配;

——查找到的信息多数与用户需要的信息无关;

——信息应和用户需求有相关性。

5.2.7时效性

时效性评价指标见表5。

表5时效性评价指标

指标名称指标描述计算方法

计算公式:푋=퐴/퐵

式中:

基于日期范围内的记录数或频率分布符合业务需求的程

基于时间段的正确性A=有脏数据出现的数据集中元素的个

数;

B=被评价的数据集中元素个数

计算公式:푋=퐴/퐵

式中:

基于时间戳的记录数、频率分布或延时时间符合业务需

基于时间点的及时性A=有脏数据出现的数据集中元素的个

求的程度

数;

B=被评价的数据集中元素个数

计算公式:푋=퐴/퐵

式中:

时序性数据集中同一实体的数据元素之间的相对时序关系A=有脏数据出现的数据集中元素的个

数;

B=被评价的数据集中元素个数

5.2.8可访问性

可访问性评价指标见表6。

表6可访问性评价指标

指标名称指标描述计算方法

计算公式:푋=퐴/퐵

式中:

可访问数据在需要时的可获取性A=满足可访问性要求的数据集中元素的

个数;

B=被评价的数据集中元素个数

5

T/CASMEXXX—2024

表6可访问性评价指标(续)

指标名称指标描述计算方法

计算公式:푋=퐴/퐵

式中:

可用性数据在设定有效生存周期内的可使用性A=满足可用性要求的数据集中元素的个

数;

B=被评价的数据集中元素个数

6数据接入质量技术要求

总则

大数据平台为了保障数据质量,应从四个层面进行数据质量控制,数据标准体系质量控制、数据采

集质量控制、数据存储质量控制、数据使用质量控制进行全流程数据质量管控。

数据标准体系质量控制

6.2.1标准制定

6.2.1.1数据标准的制定按照数据标准管理的业务分类和定义规范指导要求,基于电子商务数据管控

需求,进行数据标准规范的制定,要求大数据平台按照该标准规范进行统一的数据管理。

6.2.1.2数据标准制定包括数据标准的编制、审核、发布。数据标准化管理组织将数据标准以正式发

文的方式在内部进行发布,并在发布后将数据标准、版本说明保存备案。最终将发布的数据标准更新至

数据标准管理模块中。

6.2.2标准执行

数据标准执行的流程步骤描述如下:

——数据标准制定发布后,将数据标准录入到数据标准管理模块;

——数据标准管理执行者按照发布的数据标准,制定和发布数据标准接口;

——数据标准管理模块将标准要求提供给数据质量管理,根据已录入系统的数据标准形成稽查规

则,对数据标准管理执行者制定和发布的数据标准接口中的内容进行相关的标准核监控;

——将标准稽核结果发送给数据标准管理模块,并反馈给数据标准管理决策者和数据标准管理执

行者。

6.2.3标准维护

数据标准维护流程描述如下:

——对执行的相关数据标准进行变更请求的申请,组织该数据标准相关执行层和各数据运维者进

行讨论和变更需求汇总;

——由数据标准管理组织协调机构进行标准变更的审核;

——讨论审议数据标准项的变更内容,并形成标准变更需求审批表提交给数据标准管理决策层进

行审批;

——决策层将审批结果反馈给标准管理组织协调者,并由其进行数据标准发布及版本维护。

6.2.4标准监控

6

T/CASMEXXX—2024

数据标准监控实现对数据标准执行过程的监控,包括对数据标准的执行、效果、问题进行监控管理,

为后期数据标准维护管理提供依据。数据标准的监控通过数据标准管理和元数据管理、数据质量管理协

司实现落地。

数据采集质量控制

6.3.1数据采集

6.3.1.1数据采集活动的目标是获得数据,数据采集方式包括但不限于:

——网络数据采集:通过网络爬虫或公开API等方式获取数据;

——从其他组织获取:通过线上或线下等方式从组织外获取数据;

——通过传感器获取:传感器包括温度传感器、电视、汽车、摄像头等公共和个人的智能设备;

——系统数据:组织内部的系统在运行过程中采集和产生的业务数据,以及各种系统、程序和服

务运行产生的大量运维和日志数据等。

6.3.1.2数据采集活动主要操作包括但不限于:发现数据源、传输数据、生成数据、缓存数据、创建

元数据、数据转换、数据完整性验证等。

6.3.2质量控制

6.3.2.1待采集数据字段长度、精度、类型等应优先遵循国家标准、行业标准的约定。

6.3.2.2采集过程支持元数据的保留,包含技术元数据和业务元数据。

6.3.2.3支持对元数据的监控,控制数据库和表结构的异常修改,保证数据质量。

6.3.2.4支持采集阶段初步数据检核。

数据存储质量控制

6.4.1一般要求

6.4.1.1数据存储指将数据静态保存在大数据平台,存储的数据包括采集的数据、分析和处理的结果

数据等。存储系统可以是关系数据库、非关系数据库等,应支持对不同类型和格式的数据存储,且提供

多种数据访问接口,如文件系统接口、数据库接口等。直到数据被彻底删除之前,存储的数据均应由大

数据平台提供恰当的安全保护。

6.4.1.2数据存储活动的主要操作包括但不限于:数据编解码、数据加解密、冷热数据分级存储、数

据归档持久存储、数据备份、数据更新、数据访问等。

6.4.2检核要求

大数据平台在数据存储阶段需通过多种检核规则及任务调度方式对数据进行检核,数据存储阶段

要求如下:

——保证数据完整性、规范性、准确性、唯一性、关联性;

——检核规则包含空值校验、值域校验、格式校验、长度校验、精度校验、唯一性约束校验主外

键校验;

——自定义检核规则指根据具体业务场景,用户可以通过自定义SQL语句的方式完成对数据质量

的检核;

——支持检核任务的创建,检核规则的设定;

——支持检核任务的创建和检核任务调度方式的设定;

——支持对数据质量报告的查看的下载;

——支持数据的全生命周期管理;

7

T/CASMEXXX—2024

——支持对元数据的版本管理。

6.4.3检核流程

质量检核流程如下:

——接入待检核数据源;

——创建检核方案;

——关联检核方案,创建检核任务;

——配置检核任务的调度方式,可通过定时器实现自动调度,亦可通过人为实现手工调度;

——任务被调度后是查看任务执行日志;

——生成数据质量报告并提供下载,基于质量报告可实现异常数据发现并处理。

数据使用质量控制

6.5.1要求

数据使用要求如下:

——支持对数据进行监控,明确数据的来源和去向;

——支持数据地图、血缘分析、影响分析等方式的数据展现;

——支持对数据资产的安全性管控;

——支持对操作日志以及用户登录、退出的日志审计;

——支持数据质量报告分析的查看及下载;

——支持问题数据的告警;

——支持对问题数据进行整改分析;

——在数据采集和数据存储基础上,实现血缘分析、数据地图、影响分析、版本管理、质量报

告、问题数据整改分析、数据告警、质量评分;

——使用阶段支持数据及功能的权限控制;

——支持系统审计,包含操作日志审计和登录登出日志审计。

6.5.2使用

大数据平台数据使用应符合GB/T36318—2018中5.1.3的规定。

7数据质量评价方法

重复值分析法

在非冗余的情况下,将每条数据记录中的部分数据项或者所有数据项的取值,与所有的数据记录进

行逐一比对,识别重复记录。

缺失值分析法

对每条数据记录的所有数据项进行逐一检查,识别数据记录的数据项是否为空。

值域分析法

将数据项的取值与字段的取值区间进行比对,识别是否超出取值区间。

逻辑关系分析法

8

T/CASMEXXX—2024

通过对数据记录中相关数据项取值的内在逻辑关系进行分析,识别违背逻辑关系的数据记录。

词组比对分析法

将数据记录目标数据项的取值与目标敏感词、常见错词等词库内容进行比对,识别与词库相同的数

据记录。

实验观察法

设置某些条件,通过控制行为过程,观察符合条件的结果是否出现。

经验分析法

对比验证数据取值与日常生产生活中产生的经验取值,证实或证伪数据内容。经验分析法常与逻辑

关系分析法、词组比对分析法联合使用。

8安全要求

大数据平台进行数据采集、数据处理、数据存储等的安全要求应符合GB/T37973的规定。

9

T/CASMEXXX—2024

目次

前言.................................................................................II

1范围...............................................................................1

2规范性引用文件.....................................................................1

3术语和定义.........................................................................1

4概述...............................................................................1

5数据质量评价维度...................................................................1

指标框架.......................................................................1

指标说明.......................................................................2

6数据接入质量技术要求...............................................................6

总则...........................................................................6

数据标准体系质量控制...........................................................6

数据采集质量控制...............................................................7

数据存储质量控制...............................................................7

数据使用质量控制...............................................................8

7数据质量评价方法...................................................................8

重复值分析法...................................................................8

缺失值分析法...................................................................8

值域分析法.....................................................................8

逻辑关系分析法.................................................................8

词组比对分析法.................................................................9

实验观察法.....................................................................9

经验分析法.....................................................................9

8安全要求...........................................................................9

I

T/CASMEXXX—2024

智慧电子商务园区大数据平台数据接入质量规范

1范围

本文件规定了智慧电子商务园区大数据平台(以下简称“大数据平台”)的数据质量评价维度、数

据接入质量技术要求、数据质量评价方法和安全要求。

本文件适用于智慧电子商务园区接入大数据平台过程中的数据质量保障工作。

2规范性引用文件

下列文件中的内容通过文中的规范性引用而构成本文件必不可少的条款。其中,注日期的引用文件,

仅该日期对应的版本适用于本文件;不注日期的引用文件,其最新版本(包括所有的修改单)适用于本

文件。

GB/T5271.1信息技术词汇第1部分:基本术语

GB/T24662电子商务产品核心元数据

GB/T24663电子商务企业核心元数据

GB/T36318—2018电子商务平台数据开放总体要求

GB/T36344信息技术数据质量评价指标

GB/T37973信息安全技术大数据安全管理指南

3术语和定义

GB/T5271.1和GB/T36344界定的术语和定义适用于本文件。

4概述

大数据平台支持结构化数据、半结构化数据和非结构化数据等异构数据源采集数据,实现各类离线

数据、实时数据的采集与接入。针对大数据平台的数据接入,执行相应的质量评价标准,保证数据质量,

为智慧电子商务园区提供优质的数据服务。

5数据质量评价维度

指标框架

数据质量的评价主要包括八个维度:完整性、规范性、一致性、准确性、唯一性、关联性、时效性

和可访问性,数据质量评价指标框架见图1。

1

T/CASMEXXX—2024

数据质量评价指标框架

完规一准唯关时可

整范

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论