![DB35T 2240-2024公共数据清洗技术要求_第1页](http://file4.renrendoc.com/view14/M00/2C/2E/wKhkGWenBz-AUAJGAAB76snInRA517.jpg)
![DB35T 2240-2024公共数据清洗技术要求_第2页](http://file4.renrendoc.com/view14/M00/2C/2E/wKhkGWenBz-AUAJGAAB76snInRA5172.jpg)
![DB35T 2240-2024公共数据清洗技术要求_第3页](http://file4.renrendoc.com/view14/M00/2C/2E/wKhkGWenBz-AUAJGAAB76snInRA5173.jpg)
![DB35T 2240-2024公共数据清洗技术要求_第4页](http://file4.renrendoc.com/view14/M00/2C/2E/wKhkGWenBz-AUAJGAAB76snInRA5174.jpg)
![DB35T 2240-2024公共数据清洗技术要求_第5页](http://file4.renrendoc.com/view14/M00/2C/2E/wKhkGWenBz-AUAJGAAB76snInRA5175.jpg)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
ICS01.040.35CCSL7035TechnicalrequirementsforpublicdataIDB35/T2240—2024前言 2规范性引用文件 3术语和定义 4基本原则 25过程要求 26方法要求 57安全要求 7附录A(资料性)数据清洗的常见方法 8参考文献 9DB35/T2240—2024本文件按照GB/T1.1—2020《标准化工作导则第1部分:标准化文件的结构和起草规则》的规定起草。请注意本文件的某些内容可能涉及专利。本文件的发布机构不承担识别专利的责任。本文件由福建大数据一级开发有限公司提出。本文件由福建省信息化标准化技术委员会(SAFJ/TC11)归口。本文件起草单位:福建大数据一级开发有限公司、福建省数字经济发展促进中心、福建省市场监督管理局行政服务中心、福建省网络与信息安全测评中心、福建省建设信息中心、福建奇比特信息科技有限公司。本文件主要起草人:李喆、陈国清、徐侃、涂平、王宇奇、邹建红、黄炜、石福仁、游鄂平、梁煜、张镇晖、李元、傅腾宇、李海、吴春华、马腾、陈闪闪、谢丹丹、张健文。公共数据清洗技术要求GB/T35274信息安全技术大数据服务安全能力要求GB/T36344—2018信息技术数据质量评价公共数据资源目录publicdata源的特征,便于公共数据资源的检索、定位与数据集存在两条及以上完全相同的记录,或在某一字段内存在多个相2DB35/T2240—20244基本原则数据在清洗过程中应防止数据泄露、篡改或非法访问。4.2合法性数据清洗过程和数据内容应符合《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》等相关法律法规的要求。4.3可审计性数据清洗的全过程应跟踪和记录,确保数据的来源、处理步骤、结果输出等可追溯。5过程要求数据清洗基本流程应包含检测分析、确定清洗范围、定义清洗规则、数据抽取、清洗转换、结果核验、数据标识和数据加载等环节(见图1)。5.2检测分析b)从数据量、类型、内容、关系、数值范围等维度进行检测分析;c)检测分析颗粒度达到字段级别,对数据中的每个字段、每个值进行检测分析;e)检测分析结果包含数据基本属性分析、数据的分布情况、数据的相关性和趋势、检测时间、5.3确定清洗范围c)将不符合业务使用目标的数据存入问题数据库表,用于后续查证或重新使用。5.4定义清洗规则a)缺失值清洗规则:根据业务规则,对缺失数据进行填充或删除;b)重复值清洗规则:根据唯一性约束,去除数据集的重复值;c)异常值清洗规则:根据业务逻辑和规则,对异常数据进行删除、修正、标记;d)数据格式清洗规则:根据业务规则,5.5数据抽取5.6清洗转换c)数据清洗转换任务结束后,及时删除5.7结果核验5.7.1核验内容a)检查数据集是否存在缺失值、重复值、异常值;b)检查字段的类型与预期的数据类型是否一致,字段的长度是否符合预定的长度限制;c)检查数据集的记录数量或总数据量是否符合预期值;d)检查数据是否满足特定的业务规则,包括数据依赖关系是否正确,数据的时序性是否合理,5.7.2核验要求d)当数据核验不通过时,进行数据标识。5.8数据加载b)明确数据安全加载的具体要求、规则c)通过对比源数据和目标环境中的数据来确认数据的完整性、准确性和一致性等进行数据加载d)详细记录加载过程中出现的异常状况,包括异常类型、发生时间、影响范围等信息;f)提供数据加载通道的冗余备份机制,防g)加载完成后,删除数据加载通道中的缓存数据,释放系统资源。5.9数据标识a)对每个核验不通过的数据进行唯一性标识;c)对标识的数据进行检测分析,以确定a)根据业务规则,使用编程语言的库函数或数据库处理工具扫描数据集并标识缺失值;b)利用统计工具及可视化方法(如箱线图、散点图)对数据集的缺失数据进行统计和识别。a)当数据集某个字段的缺失率超过预设的阈值,且该字段对业务分析的重要性较低时,直接删b)通过插值、固定值、均值、中位数、众数等方法补齐无法删除的缺失值,常见的缺失值补全b)对比处理前后的非空值数量或缺失值比例,检查填充后的值是a)通过编程语言的库函数或数据库处理工具,比较数据集的所有字段或选定的关键字段,识别b)利用统计工具计算每列(或每行)的重复数据的数量或比例,通过模糊匹配技术处理拼写错b)重复数据中包含不同的信息,根据业务规则和数据统一性约束,将信息合并成一条记录。a)对比处理前后的重复数量或重复数据比例,计算出重复数据去除率;a)根据业务规则,识别数据中的异常值,如超出预定范围的数值、逻辑错误的数据等;b)利用统计方法、聚类方法、密度估计方法及机器学习模型识别异常值,常见的异常值识别方b)异常值为关键重要信息时,根据业务规则采用固定值、均值、中位数、众数等方法进行修正a)根据业务逻辑和规则对清洗结果进行核验;b)对比处理前后的异常值数量,核验所有异常值是否已被正确删a)利用编程语言的库函数或数据库处理工具,将数据与元数据进行对比,识别出格式不一致的b)通过预设的数据验证规则,如数据类型、数据单位和数据值范围等,利用规则引擎对数据集b)利用规则引擎匹配和替换不符合要求的数据,在替换过程中,新数据要符合数据规范和质量a)与原始数据比对确认数据格式已修正;数据清洗过程应符合GB/T35274数据清洗网络安全等级保护应符合GB/T22239的相a)记录管理员和用户的各类操作日志,对身份鉴别、策略管理、备份作业、恢复作业、数据库A.1常见的缺失值补全方法缺失值的补全方法需要根据数据的性质以及缺失值的分布情况进行评估,包括但不限于:a)均值/中位数/众数填充:根据数据分布特性,选择合适的统计量填充缺失值;e)K近邻填充:根据数据点的相似性,使用K个最近邻的数据点填充缺失值;A.2常见的异常值识别方法异常值的识别方法需要根据具体的数据集和业务背景来决定,包括c)百分位数法:选择将超过某个上/下分位数阈值的数据点视为异常d)密度估计法:利用概率密度函数估):A.3常见的数据格式处理方法a)日期时间格式处理:将包含日期和时间的数据转换为统一的日期时间格式,如将字符串类型b)字符串处理:对数据中的字符串进行清理和处理,如去除多余空格、删除特殊字符、转换大d)数据单位转换:统一数据中的单位,如将温度从摄氏度转换为华氏度,或将长度从厘米转换9DB35/
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 老年人居住的小户型公寓设计要点
- 二手房转让合同样本大全
- 中外双向投资合同
- 专业派遣人员劳务合同范本
- 上海市设备采购合同模版
- 不动产附条件赠与合同协议书
- 个人借款延期还款合同模板
- 个人房产互换合同
- 乳制品购销合同-牛奶供应合同-奶粉销售协议
- 五保户分散养护合同:标准版
- SWITCH暗黑破坏神3超级金手指修改 版本号:2.7.6.90885
- 2023高考语文全国甲卷诗歌阅读题晁补之《临江仙 身外闲愁空满眼》讲评课件
- 数字营销广告技术行业rta巨量引擎实时接口
- 化工企业静电安全检查规程
- 线性系统理论郑大钟第二版
- 宁骚公共政策学完整版笔记
- 项目负责人考试题库含答案
- GB/T 7251.5-2017低压成套开关设备和控制设备第5部分:公用电网电力配电成套设备
- 2023年湖南高速铁路职业技术学院高职单招(数学)试题库含答案解析
- 勇者斗恶龙9(DQ9)全任务攻略
- 经颅磁刺激的基础知识及临床应用参考教学课件
评论
0/150
提交评论