数据清洗需求设计V1.1_第1页
数据清洗需求设计V1.1_第2页
数据清洗需求设计V1.1_第3页
数据清洗需求设计V1.1_第4页
数据清洗需求设计V1.1_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、GB8878185555334563BT9125XW创作编号上创凤呜大王*数据清洗时间序列数据TSDtimeseriesData需求设计DataCleaningModuleDCM应该属于DAX的一个模块.1、数据清洗的目的原始采集的数据会受到传感器、变送器、信号传输、环境干扰电磁、潮湿、高热、人为造假等各种因素的影响,数据中会包含一些受到“污染的数据.如果直接利用这些数据进行限制、绘图、制表、数据分析、数据挖掘,那么不可防止的会影响分析过程和结果,总的来说:低质量的数据无法获得高质量的分析结果.任何规模的数据在分析以前,有必要对原始数据进行预处理,以使其到达必要的质量,这个过程我们称之为数据清

2、洗.数据清洗后,一般有两类用途,一是直接用于在线过程限制,二是用于事后分析.那些数据需要清洗任何直接采集的数据都需要进行清洗,利用清洗程序对数据处理后,会对数据的各种缺陷进行标记,对发现的有缺陷的数据进行抛弃、估计、修改.很多工厂由于缺乏数据清洗这个环节,会大大影响过程限制的可靠性.低质量的数据,在事后分析时会带来很大的困难.不少环境监测类的投资,由于缺乏数据质量限制和数据清洗技术,会使投资回报大大降低.2、通用性设计常见的原始数据问题1数据缺失2跳点3干扰白噪声或其它4漂移线性与非线性5超限6滞后造成的时间不同步7逻辑缺失因果关系、相关关系8数据检验的方法1上下限制检验法2斜率检验法3差值检

3、验法4频率检验法5时间区间检验法6人工数据修正7关系检验因果、相关性8数据处理的方法1删除法2补差法a取前点b均值插补c回归插补d极大似然估计3回归法4均值平滑法5离群点分析6小波去噪7人工修改8对时间序列数据的定义1源数据序列OriginTSD:一般保存人工采集导入和自动测报采集的原始数据,为保证该类型数据平安,数据设置只读.2生产时序数据ProductionTSD:拷贝自源数据,加以校核和清洗.对数据的常规维护通常在这类序列上进行.3衍生时序数据DerivedTSD:一般是通过一些标准方法计算的统计序列,例如日月年特征值等.3、数据处理数据处理的过程是通过数据计算任务来执行,数据清洗属于计

4、算任务的一局部.1用于在线过程限制的计算任务,此类计算任务的执行实时性高,例如AVS,少人无人值守限制平台,计算任务在常规自控的轮询周期中.一般的刷新率是秒级或亳秒级.此类计算任务最好在PLC中处理,如无法再PLC中处理,就在上位机进行计算.进行数据清洗的计算任务,一般属于此类,计算是实时进行.2用于事后分析的计算任务,此类计算任务的实时性不高,用途主要是数据分析,例如各类KPI、周期性的数据整理、各类自定义的计算等等,大数据分析通常也是利用这些数据.此类数据的计算任务实时性不高,可以在事后按照固定的周期或者条件进行.4、数据质量DQ的定义:1完整性Completeness完整性指的是数据信息

5、是否存在缺失的状况,数据缺失的情况可能是整个数据记录缺失,也可能是数据中某个字段信息的记录缺失.不完整的数据所能借鉴的价值就会大大降低,也是数据质量最为根底的一项评估标准.2一致性Consistency一致性是指数据是否遵循了统一的标准这些标准可以是格式,数位,或者是数据的统计性特征,研判数据集合是否保持了统一的标准.数据质量的一致性主要表达在数据记录的标准和数据是否符合逻辑.标准可以特指:一项数据存在它特定的格式,例如号一定是13位的数字,IP地址一定是由4个.到255间的数字加上组成的.标准也可以特指,多项数据间存在着固定的逻辑关系,例如PV一定是大于等于UV的,跳出率一定是在.到1之间的

6、,还有数据统计性特征,比方仪表测量的数据和人为伪造的数据的统计特征是显著不同的.3准确性Accuracy准确性是指数据记录的信息是否存在异常或错误.和一致性不一样,存在准确性问题的数据不仅仅只是规那么上的不一致.最为常见的数据准确性错误就如乱码.其次,异常的大或者小的数据也是不符合条件的数据.一般而言,仅仅靠一些简单规那么无法判断数据的准确性,通常会借助人工或自动系统的检验,或者在检测过程中增加一些标准样的测量.比拟特定样品的检测值就可以判断该批次检测的数据质量.数据质量的准确性可能存在于个别记录,也可能存在于整个数据集,例如数量级记录错误.这类错误那么可以使用多种方法去审核.一般数据都符合正

7、态分布的规律,如果一些占比少的数据存在问题,那么可以通过比拟其他数量少的数据比例,来做出判断.4及时性Timeliness不同的应用场景对数据的及时性要求不同,在线限制条件下,假设某个关键性的输入数据无法及时获得,会影响后后续的过程限制.在事后分析中,对及时性的要求就大大降低.5合理性Validation6关联性Integration7绝对质量8过程质量数据标注的方法源数据序列ODSN=Normal正常U=Unchecked未检验E=Estimated估计数据M=Missing丧失数据生产数据序列PDSG=Good优质E=Estimated估计,包括自动修改及人工修改,标注方法S=Suspec

8、t可疑数据U=Unchecked未检查L=Loss丧失数据M=Manualinput人工输入数据C=Checkpoint质控检查点用于和鸿海配合衍生时序数据DDSD=Derived衍生的,这个局部设计请参考测点数据治理计算任务数据标记除了上述表述数据分析结果的项次外,建议还记录标记数据的算法名称、版本、计算时间等.对时间序列数据整体质量的定义时间序列数据表现为根据一定频率不断记录的数据,如每秒记录1次的时间序列数据在1小时内会有3600个记录,每分钟记录1次的数据每天会有1440个记录.需要有一种方法整体性的评估某个时间区间内的时间序列数据的整体质量.例如:某个采集频率为Vmin的源数据在10

9、天时间内的整体数据质量,根据自动检验的方法检验后,结果为:正常88.2%,丧失11.3%,估计数据0.5%,检测率100%;没有经过自动检测的数据,统计标记为未检测.某个采集频率为Vmin的生产序列数据在10天时间内的整体数据质量,根据自动检验的方法检验后,结果为:优质83.5%,估计15.7%,可疑0.8%,检测率100%;没有经过自动检测的数据,统计标记为未检测.根据数据的自动检测情况,可以将源数据或者生产序列数据分类为优质、正常、较差、不可用等类别【这个局部尚需讨论】.在后续的大数据分析中,如果采用了较差、不可用等标记的数据,会极大的影响分析结果,导致错误的结论.用于在线限制的数据清洗功

10、能在线数据清洗的根本功能如下:1数据清洗任务应该在轮巡任务中,循环一周,该任务就会执行一次.2该场景下的数据清洗任务主要是目标是加工生成:生产序列数据.3如当前某测点的检测结果生成的数据标记,对应举措如下表:数据标记作编号:GB8878185555334563BT9125XW凤呜大王*举措风险类型G采用原值小PDSE采用估计值较小PDSS采用上一个标记为G的原值较小PDSU不做清洗处理,采用原值大PDSM无无4每个限制器既可以有自控程序判断启动,也可以由人工启动S2;5当前限制器的某一路信号被判断为不可信时,系统可以用虚拟信号替代S26需要有一张图,可以呈现所有的限制器的在用状态,最好采用自控

11、中的标准图形和标注方法S2注:这里后面标记为S2的需求,以后并入少人无人值守系统设计的需求中,用于事后数据分析的数据清洗用于事后分析数据清洗的根本功能如下:1数据清洗任务根据任务特点,选择定时清洗、逢变清洗、条件清洗等,常见的事后处理规那么是间隔一定时间后批处理.处理时需要考虑依赖关系,即首先是对ODS数据处理,然后是PDS、DDS,其它的再加工应该在上述任务之后.2数据清洗任务应该在专用的数据处理程序中进行,在大任务量情况下支持多机部署.3数据清洗应该可以并入DAX平台中,作为一个必要的功能模块.4支持对第三方数据进行数据清洗,第三方数据必须符合DAX的数据标准,导入DAX数据库中,进行清洗

12、选项的配置,启动清洗,生成结果,结果导出.5支持第三方软件通过接口,条件是这些数据应该在被合理的配置过了,获取我们的清洗后数据结果,作为一个数据效劳.6其它数据应用程序在使用清洗过的数据时,可以根据读到的数据标记,制定自己的处理规那么.7) DAX中的报表功能,推荐使用PDS和DDS作为源数据.8) DAX中的曲线绘制功能,在读取数据标记后,绘制PDS和DDS趋势曲线时,可以解析不同的标记,并在曲线上显示出来?参见数据清洗的治理.1?.9) DAX中曲线绘制功能中的数据列表选项,应该能够对异常数据做出醒目标记.10可以接收特定质控数据如鸿海,将数据和某一个TSD进行合并分析.接收的方法推荐由鸿

13、海直接采集进我们的DAX数据库,其次允许数据导入后分析.11数据脱敏.12)5、数据清洗的治理数据清洗是DAX功能的一局部,但在一些特定情况下,可以单独使用.数据清洗后需要呈现以下几个场景1针对单测点的时间序列数据选定的时间段内a可以用趋势图,或者用数据表的形式,展示该数据中存在问题的数据点,并可以把这些数据点用特殊的图形、符号或颜色标记出来.b可以用饼图或者百分比的数字,表现出某段时间区间内的存在问题的数据比例,并分类展示.c可以用统计性的指标,如方差、分布特征等,特殊情况下这些统计性指标可以作为时间序列数据的数据指纹,用于判定不同期限的数据是否一致.因测量方法、传感器器更换、传感器位置更换

14、可能会带来一致性的不同.一般而言,人工伪造的数据,不符合正态分布,比拟容易识别.d在趋势图下而X轴下部,有个色带可以用不同的颜色标记不同质量数据的颜色,进而呈现出分布情况.1. 例如绿色是优质数据,黄色是未检验数据,红色是可疑数据等等2针对多测点的时间序列数据选定的时间段内a在一个数据表中,可以用不同的标记颜色、表现出不同的测点数据的质量情况,参见?对时间序列数据整体质量的定义?.数据质量低于某个指标,需要显著的标记为不可用.排序中的不同的列,可以是单测点数量质量的某个维度.b可以用排序的方法罗列出数据表中数据质量从高到低,或者从低到高的排序.c检验多测点时间的相关性,并采用适合表达相关性的图

15、表方式参考某些BI软件,如SPSS进行表达.根据不同的相关性群组,进一步可以进行聚类分析,因果检验等.d3为后续数据挖掘和分析做好数据根底a) 了解行业排名前三的数据分析和挖掘软件,了解他们的数据结构,DCM应该能够输出和他们匹配的数据结构,有这些软件的用户可以直接使用DAX.b)4数据清洗的配置a提供为任意一个单测点进行数据清洗所需的配置项,内容包括需要进行的自动检测,需要检测的工程进行勾选,某些检测项勾选后还需要填充必要的参数.该配置项可以并入DAX的数据根底配置中.b任何已经配置好的清洗选项,在使用过程中可以修改,修改后可以选择立即启用,或某具体时间后启用.建议可以给用户提供演算功能,即供用户

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论