




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
数据采集技术规范范围为规范广西桂冠电力股份有限公司(以下简称公司)本部各职能部门及所属各企业的数据接入工作,根据桂冠电力工业大数据生态云平台的建设要求,特制定本规范。本规范适用于公司本部各职能部门及所属各企业的监控类、监测类、统计类、计量类、分析类、管理类等各类生产运行系统和业务管理系统的数据采集工作。数据采集及传输的范围包括须接入工业大数据平台的河流、水库、大坝、水电厂、水电机组、水文站、火电厂、火电机组、风场、风机、光伏方阵、光伏组件等设施中的生产测点数据,以及各业务系统的管理数据。规范性引用文件下列文件对于本文件的应用是必不可少的。凡是注日期的引用文件,仅所注日期的版本适用于本文件。凡是不注日期的引用文件,其最新版本(包括所有的修改单)适用于本文件。GB4943.1-2011信息技术设备安全GB/T22239-2019信息安全技术网络安全等级保护基本要求GB/T25070-2019信息安全技术网络安全等级保护安全设计技术要求术语与定义下列术语和定义适用于本标准。数字生态平台DigitalEcosystemPlatform数字生态平台是基于云计算、模型、BIM、GIS、移动互联网、物联网、边缘计算、人工智能等技术,由大数据平台、数据中台、应用开发支撑平台、应用系统等构成,为公司数字化建设提供数据链接能力、数据存储能力、数据计算能力、业务流程能力、数据应用能力等。大集控公司在广西红水河流域的十个受控水电站,包括龙滩、岩滩、大化、百龙滩、平班、乐滩、西津、金鸡滩、山秀、金牛坪。广源集控广源分公司所属的小水电,包括大七孔、下六甲、隆或、坡甲、厘金滩、草头坪、龙溪、鲤鱼滩、里定、西岸、龙兴、江口。新能源newenergy公司已开发利用或正研究布局新生能源产业,如光伏、风电等相关厂站。ETLExtract-Transform-LoadETL是英文Extract-Transform-Load的缩写,用来描述将数据从来源端经过采集(extract)、转换(transform)、加载(load)至目的端的过程。时间戳timestamp对时间和其他待签名数据进行签名得到的,用于表明数据时间属性的数据。[GB/T25069-2022,定义3.541]数据库链接databaselink数据库链接是定义一个数据库到另一个数据库的路径的对象,databaselink允许查询远程表及执行远程程序。在任何分布式环境里,databaselink都是必要的。另外要注意的是databaselink是生态平台到业务系统单向的连接。结构化数据structureddata一种数据表示形式,按此种形式,由数据元素汇集而成的每个记录的结构都是一致的并且可以使用关系模型予以有效描述。[GB/T35295-2017,定义2.2.13]非结构化数据unstructureddata不具有预定义模型或未以预定义方式组织的数据。[GB/T35295-2017,定义2.1.25]多源异构数据multi-sourceheterogeneousdata指来源于多个数据源的非统一标准结构的数据,既有混合型数据(包括结构化和非结构化)又有离散性数据(数据分布在不同的系统或平台)。管理内容和要求数据采集规范数据采集方式为保证桂冠电力大数据平台与其他相关系统的独立性,桂冠电力大数据平台将由数据采集调度程序进行采集数据,产生数据交互的系统需有ntp对时。结合各种数据现状,ETL模块主要支持以下模式的数据同步:数据库直抽:允许桂冠电力大数据平台从其它系统的数据库中直接获取数据,例如通过ODBC、JDBC等接口;KaFka+Slipstream:通过定制准实时数据采集工具,将实时生产测点数据通过KaFka进行异步解析,然后经由Slipstream数据同步至hbase数据库。数据流向图准实时数据准实时生产数据主要采集对象为大集控、广源集控、新能源相关的测点数据。结合三个渠道的实际情况,直接采用标准104及非标104进行生产数据接入处理。大集控图1大集控测点数据接入流向图广源集控图2广源集控测点数据接入流向图新能源图3广源集控测点数据接入流向图测点数据接收点表应包含测点数据类型、点号、厂站机组描述、简码、历史简码、发电类型、厂站、传输端口号、传输协议、机组、原始编码1、原始编码2、功能码、站号等信息,例如:表1测点数据接收点表测点数据类型(四遥)点号厂站机组描述简码历史简码发电类型厂站传输端口号传输协议机组原始编码1原始编码2功能码站号是否再用遥信1马王4#变桨急停引起机组安全链断开GGDL03XN02A0400001风电马王24184#450102004WROT.Bool.Rd.b0.0001业务管理数据图5业务管理数据接入流向图数据采集策略数据采集策略包括全量采集和增量采集两种方式采集。全量采集全量采集类似于数据迁移或数据复制,它将数据源中的表或视图的数据原封不动的从数据库中采集出来,并转换成自己的ETL工具可以识别的格式。增量采集增量采集只采集自上次采集以来数据库中要采集的表中新增、修改、删除的数据。在ETL使用过程中。增量采集较全量采集应用更广。如何捕获变化的数据是增量采集的关键。对捕获方法一般有两点要求:准确性,能够将业务系统中的变化数据准确地捕获到;性能,尽量减少对业务系统造成太大的压力,影响现有业务。业务系统对增量数据的捕获可采用表1,所示几种方式:表2增量数据捕获方式表捕获方式技术实现特点技术实现分析时间戳通过数据库表中包含的一个时间戳字段来记录数据发生变化的时间,在数据发生变化的同时通过应用程序或者触发器来修改时间戳字段。采集过程清楚简单,速度快。每次数据采集时,记录最大的时间戳,作为本次采集的结束时间以及下次采集的开始时间。一般需要对数据库的表结构进行修改,同时需要修改应用程序(或加触发器),改动工作量大。增量日志表(或增量文件)通过在数据库中添加增量日志表(或增量文件)来记录变化的数据。修改应用程序(或加触发器),将变化的数据记录到增量日志表中。同时在增量日志表中添加两个字段:增量标志,时间戳字段。增量标志用来记录增量类型,如新增、删除或修改以区分不同类型的变化数据;时间戳字段用来确定每次采集的数据范围,采集方法与时间戳方法一样,该字段可以用一个不断增长的全局唯一标识字段来代替,即在每次采集时,记录下最大ID号作为本次采集的结束标志以及下次采集的开始标志。通过增量标志字段,可以区分不同类型的增量数据,弥补了时间戳方法不能捕获删除数据的缺陷。不需要修改原数据库表结构,但增量日志表的维护同样需要修改应用程序或加触发器来完成。数据库快照将上次执行完数据采集后的数据库快照记录下来,与当前要进行增量数据采集的数据库快照进行比较,生成增量数据。如果上次快照中的记录在当前的快照中不存在,则表示已被删除;如果上次快照中的记录在当前的快照中仍然存在,则比较记录中的字段,如果字段取值完全一样,则表示记录没有变化,如果有字段取值不同,则表示该记录被修改;如果当前的快照中的记录在上次的快照中不存在,则表示是新增的记录。进行快照比较时,通常会基于主键进行全表扫描,在数据量非常大的情况下,非常耗费系统资源和时间。应用程序日志数据的变化是由应用程序引发的,因此可以将应用程序执行成功的修改操作记录下来,在目标数据库系统重新执行这些操作,所得结果就是要捕获的增量数据。数据库之上的应用程序种类繁多,都要求支持应用程序日志比较难实现。数据库日志(CDC方式)通过分析数据库的系统日志来获取变化的数据。该方法的源自应用程序日志法,对数据库中数据的最终修改,都是通过数据库管理系统来完成,数据库管理系统的系统日志详细记录了所有的修改操作。通过数据库自带或者专用的工具来读取数据库日志。数据库的系统日志往往数据量非常大,且格式复杂,不同的数据库系统日志格式也不一样,要从不同规格的大数据量的系统日志中分析得到所需要的信息,工作量很大。数据采集原则数据量较小的数据表采用“全量”方式采集,数据量大的数据表采用“增量”方式采集。其中:大表:业务系统中,60个月(5年)后记录数增长到100W条的表。依据时间戳字段增量采集数据。小表:业务系统中,60个月(5年)后记录数未增长到100W条的表。按全量方式采集数据。数据采集周期为了规范及明确大数据平台数据采集流程,我们特别针对数据采集周期定制了以下原则:针对于实时生产测点接口数据,按毫秒级进行数据采集;针对于日增量接口数据,每天凌晨0:00进行数据采集;针对于月增量接口数据,每月第一天凌晨0:00进行数据采集;针对于日全量接口数据,每天凌晨0:00进行数据采集;针对于月全量接口数据,每月第一天凌晨0:00进行数据采集。厂站侧采集规范模型设计厂站侧业务系统中,对增量接口数据,在模型设计时,必须可以支持每一条数据记录的生命周期管理。在对应的每一张表必须要有记录建立时间、更新时间(create_time和update_time)二个时间类型字段,要求至少精确到天。对于新增记录必须标示唯一的create_time,并且更新时间等于创建时间;对于记录的任一字段属性的更新都需刷新更新时间update_time。数据维护数据新增:每一条记录新增时(包括外部数据导入),均应记录建立时间(create_time),建议建立时间取系统时间,不要在当天补存create_time或update_time时间小于当天的记录,并且更新时间等于创建时间。数据变更:每一条记录的任一字段更改时(除了更改时间外),均应同时更新更改时间(update_time),建议更改时间取系统时间,最好可以同时记录修改来源(如具体的菜单、界面、修改人等),方便问题追溯。同时手工更改数据必须同步更改时间戳字段,具体表现为:更新已存在的数据必须更改update_time字段;若对应的业务已经归档,不允许通过任何手段来更改记录字段,而应通过类似财务冲正操作来更正。数据删除:在软删除的表中,业务系统若有删除的数据不管是人为删除还是程序删除的,都必须放到数据删除监听表或者更改表中的更新时间字段(update_time)并且设置对应的数据状态status(0正常,1删除,-1草稿)。删除时间建议为数据库执行时间,删除操作与删除时间应在同一天。若对应的业务已经归档,不允许通过任何手段来删除记录,而应通过类似财务冲正操作来更正。数据迁移:如果业务系统发生数据迁移的,如迁移到二级历史库,不需要记录到数据删除监听表(或者记录删除时间)。不允许迁移最近一个月内是新增或变更的数据。数据安全对于业务系统需自身加强的安全教育、对于数据链路的访问用户及密码进行保密。建立独立的数据库用户用于抽取数据,该用户只能查看开放的数据库表。对于数据采集用户只提供数据库表查询权限,取消抽数用户的增加、删除、修改权限。运维管理为了规范大数据平台数据采集流程,需要做好网络通道、源数据库的实时监控和定期巡检,有问题、有变更、有检修的,需要及时通知大数据平台运维组;对于大数据平台不能访问源业务系统数据库的,各单位积极协助查找原因、解决问题。其中对源业务系统数据库管理要求如下:数据库用户的管理密码变更:用户密码变更需用户提前提前三天钉钉通知,以作好密码修改前数据抽取相关工作,修改后马上钉钉通知大数据平台运维服务处。用户失效:做好数据库的巡检,避免对应用户失效。用户访问的数据表权限缺失:需数据源库用户管理好权限问题,权限如有变更,及时处理,避免对应的用户访问不了数据表。数据库访问管理:应确保数据库的可访问数量恰当、访问服务正常,决策支持可新建立访问联接;数据库应限制访问ip,并且需要配合防火墙策略使用。数据模型发生变更数据模型发生变更时,需及时提前三天钉钉通知。数据源库数据库检修在有对数据库进行检修维护时,应及时通知大数据平台运维人员。大数据据平台侧采集规范模型设计大数据平台对接口数据,在制定数据交换接口单元规范,以及ODS模型中必须支持每一条数据记录的生命周期管理。数据库对象命令需严格按《桂冠电力大数据平台数据库开发设计原则》执行。ODS模型每个接口表,文件加载统一增加三个字段:记录时间、加载时间、记录状态。直抽统一增加四个字段:厂站代码?、记录时间、加载时间、记录状态(status)。DW设计链表统一增加三个字段:厂站代码、生效时间、失效时间;分在线表及历史,命名方式,在线表名+LS。数据维护根据业务系统数据调研信息,安全方案,确定ODS用户创建、表空间大小及创建。DW明细流水表加载方式分二种方式:覆盖追加(Merge)、直接追加(Append)。数据安全生产环境接入限制任何终端接入到大数据平台内网均需要安装桂冠电力指定杀毒安全防火墙软件,确保接入的终端本身是无网络安全缺陷的,防火墙软件方才允许终端接入。服务器安全服务器只能桂冠电力运维管理员和运维人员进行访问,用于服务器监控及应用部署。数据
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 大学生学年个人总结实习
- 大学生活实习个人总结
- 品牌知识产权保护-第1篇-洞察及研究
- 护理预防不良事件课件
- 2025年新初三语文人教部编版学困生专题复习《说明文阅读》
- 病案实习个人总结
- 智感运动辅助训练-洞察及研究
- 二零二五年度环保型包装材料采购及环保检测合同
- 二零二五年隧道爆破施工与监测服务合同
- 二零二五年度人才安置住房买卖合同示范文本
- 福海县高校毕业生三支一扶计划招募考试真题2024
- 文化多元教育评估-洞察及研究
- 蔬菜栽培课件
- 护理核心制度2025年
- 沈阳市高校毕业生“三支一扶”计划招募笔试真题2024
- 2025年食品检验员考试试卷及答案
- 2025年一级建造师知识试题含答案
- 汽车CAE技术课件
- 术后并发症护理
- 2025年山东能源集团招聘笔试备考题库(带答案详解)
- 市场卖菜规划方案(3篇)
评论
0/150
提交评论