数据治理工具项目投标书技术部分-V1.6-【Data Catalog 精】_第1页
数据治理工具项目投标书技术部分-V1.6-【Data Catalog 精】_第2页
数据治理工具项目投标书技术部分-V1.6-【Data Catalog 精】_第3页
数据治理工具项目投标书技术部分-V1.6-【Data Catalog 精】_第4页
数据治理工具项目投标书技术部分-V1.6-【Data Catalog 精】_第5页
已阅读5页,还剩69页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

旗开得胜实用文档PAGE1读万卷书行万里路PAGE一、项目背景二、项目目标提供一套后勤数据治理工具部署文件及配套文档,主要技术指标如下:(1)具备数据抽取转换装载、元数据管理、数据标准管理和数据质量管理四项功能。(2)采用B/S模式,浏览器端兼容Chrome、FireFox等主流浏览器,服务器端可运行在Linux、Windows系统上,应用服务器兼容Tomcat7.0以上,JDK版本为1.7以上,数据库为Oracle或MySQL。(3)支持集群模式。保证7×24小时不间断持续运行,且计划外宕机时间控制在全年的0.2%以内、计划外宕机次数控制在全年4次以内,系统有效工作时间要求≥99.8%。(4)支持高并发。页面查询不高于2秒,复杂查询不高于5秒,一般页面数据更新处理时间不高于3秒,复杂数据更新不高于5秒。(5)数据抽取速率高。数据库到数据库不低于1000条/秒,文件到数据库不低于1000条/秒。(6)根据以上性能指标要求提出硬件及网络的性能及规模配套的方案。三、技术服务要求3.1集成要求投标产品需具有与国内自主成熟的数据交换共享平台和大数据基础平台软件有良好的集成兼容性。3.2成熟度要求投标产品或者模块是国内投产的成熟品牌,并且经过多个版本迭代,提供至少两个版本的产品著作权证书。近五年内,在多个行业有成功应用案例,且至少有一个为政府或军队应用案例。3.3技术要求3.3.2元数据管理功能。元数据采集支持连接到源数据库系统,把元数据抽取到统一的元数据库;提供多种采集适配器,支持从主流关系型数据库、Hadoop大数据平台(hdfs、hive、hbase)、Excel模板等源头采集;支持采集任务配置,可实现一次性和定时采集,支持采集任务的执行、监控和日志。元数据模型管理可通过界面进行元数据的增、删、改、查操作;可通过界面创建、维护元数据模型,支持业务模型和技术模型的定义;支持通过界面创建并维护元数据模型间关系,包括组合关系、依赖关系等;提供将常用建模工具(包括PowerDesigner等)设计的数据模型导入的功能元数据版本管理支持元数据版本管理,包括:版本号的设置,历史版本的查询与恢复,任意版本之间整体比对,批量版本发布等。数据关联分析提供数据地图功能,用于展示元数据间关系,支持系统、数据库、表、字段等多层级关系,支持逐级向下钻取;提供库级、表级、列级血缘分析、作业级血缘分析功能,提供血缘影响分析结果展示。其他功能将元数据以系统为单位导出到Excel;提供多维度的元数据检索查询功能。3.3.3数据标准管理功能。数据标准维护支持数据元/信息项的模型定义与标准维护,包括业务属性、技术属性和管理属性;支持通过Excel模板导入数据标准模型;支持代码标准的元模型定义与标准维护,包括代码和代码项;支持数据标准的导出。数据标准映射支持标准映射到具体元数据和质量规则。3.3.4数据质量管理功能。质量规则管理提供页面新增、通用规则模板、SQL脚本等规则定义方式;默认提供预置空值、值域、规范、一致性、数据集比对、非空判断、主键唯一性等规则校验。质量规则检核支持根据质量规则生成质量检核计划;支持质量检核任务的手动和定时自动执行。质量分析报告支持考核算法和策略配置,对质量规则执行结果进行量化打分;支持质量分析结果的查询和可视化展现。数据治理方案4.1设计原则系统在设计过程中除考虑满足当前招标书建设要求外,还应当满足后续系统平滑扩展升级要求,因此总方案设计遵循如下设计原则。1)开放性引入业界开放的、成熟的标准,从而保证系统成为符合标准又不失灵活性的开放平台,为未来的系统的灵活开放奠定基础。2)先进性各工具基于统一的整体架构,采用先进的、成熟的、可靠的技术与软硬件平台,保证基础数据平台系统易扩展、易升级、易操作、易维护等特性。3)可扩展性随着新的业务需求的不断产生,支持基础数据模型、应用分析模型、前端应用的扩展性;支持在统一系统架构中服务器、存储、I/O设备等的可扩展性。4)安全性按国家标准、行业标准、安全规范等实现数据安全管理。5)可维护性建立统一化可视化的运维体系,数据处理各个环节,能对系统进行相应的性能管理和日志监控。4.2工具包组成星环科技提供数据处理工具包是一款基于大数据技术的专业数据治理工具,可以有效提高后勤数据分析能力、规范核心数据开发过程,提升后勤数据质量管理水平。结合后勤业务需求,为后勤保障大数据平台建设打下坚实基础。通过对客户数据治理工具及服务需求的理解,建议客户采用本公司数据治理工具包(工具包组成见下图),来满足客户数据治理及服务建设的要求。名称供应商说明TranswarpDataCatalog星环科技元数据管理、数据治理、数据目录工具。Governor升级版(丰富元数据管理、增加数据源管理、数据资产目录、数据标准管理、数据质量管理等功能)星环科技的数据治理工具(TranswarpDataCatalog)采用B/S架构,具有友好的可视化界面浏览器端兼容Chrome(71及以上)、FireFox(64及以上)、Safari(11.1.2及以上或12.0.2及以上)等主流浏览器,服务器端可运行在Linux、Windows系统上,应用服务器兼容Tomcat8.5,JDK版本为1.8,数据库推荐星环科技的大数据平台TDH,同时对Oracle、MySQL等传统主流数据库有高度兼容性。数据治理工具包支持集群模式,可保证7×24小时不间断持续运行,且计划外宕机时间控制在全年的0.2%以内、计划外宕机次数控制在全年4次以内,系统有效工作时间要求≥99.8%。数据处理工具支持高并发。页面查询不高于2秒,复杂查询不高于5秒,一般页面数据更新处理时间不高于3秒,复杂数据更新不高于5秒。数据处理工具数据库到数据库不低于2000条/秒,文件到数据库不低于3000条/秒。 4.5数据资产目录工具TranswarpDataCatalogTranswarpDataCatalog(以下简称“DataCatalog”)通过接入各个数据源的元数据信息,进行有效合理的元数据组织、分析与数据资产化等服务,在后勤大数据业务场景下,DataCatalog可以提供高效地元数据分析理解与管理功能,方便数据管理部门能够深入挖掘数据资产价值,提供便捷的数据资产服务能力。DataCatalog是Governor的升级版,在继承Governor元数据管理、数据分析等功能的基础上,完善了元数据管理功能、增加了数据源管理、数据质量管理、标准化管理、数据资产目录、资产可视化等功能。4.5.1总体架构DataCatalog总体架构如下图所示:MetadataSourcesAccess提供Inceptor、Hive、HDFS、Hbase以及传统关系型数据库等的元数据接入采集等功能。SpringFrameworkUI&RestfulAPI提供DataCatalog的UI界面以及相关Service的Restful形式的API接口,提供各类型的微服务对接方式DataCatalog的UI前台页面数据的数据存储采用MySQL数据库表,页面数据通过前台页面操作录入、实时或离线方式查询后台的平台服务获得.MetadataIntegration&NotificationAPI提供Messaging消息队列(目前使用Kafka)以及API接口(或REST方式)的元数据操作接口与数据消息总线方式。CorePlatform提供元数据统一的TypeSystem类型系统、Graph图计算存储查询引擎层、智能标签算法、知识图谱模型等。GraphDatabase提供图计算查询引擎的公共存储封装层,支持JanusGraph开源图计算存储查询引擎Metadata目前使用HBase存储entity实体信息,索引Index信息存储使用ElasticSearch。4.5.2元数据管理1)元数据采集 支持元数据人工采集和自动化采集,支持对多数据源的元数据采集与管理:Inceptor、HDFS、Hyperbase、Mysql、Oracle、DB2、Hive、TD、Hbase、Teradata、PilotEnterprise以及第三方报表工具。支持采集任务配置,采集数据源配置,支持自动适配不同的元数据来源,采用适配的采集方式获取元数据,支持DB数据采集配置功能将DB记录中记录与元模型进行映射。元数据管理页面显示已添加的数据源信息列表,包含连接状态、连接类型、已接入数据量、连入时间等信息。同时,支持添加数据源、删除数据源和修改数据源配置。2)元数据管理功能支持存储过程和视图的元数据管理功能,能够提供存储过程和视图的创建SQL、使用记录、修改记录、概览标签以及关联资产的展示。具备SQL管理的功能,能够自动采集数据平台中执行的SQL,并且按照SQL中的数据表分类,进行历史记录和修改记录管理,帮助审计历史操作情况和了解数据表的使用情况。3)元数据维护提供元数据常规管理能力,包括元数据基本信息、关系、版本的管理维护,以及元数据检核。支持自动生成、手工录入两种方式设置版本号、支持任意版本元数据之间整体比对。支持历史版本查询及恢复。4)元数据浏览添加对应数据源后,DataCatalog会自动抓取该数据源下的数据表、视图和存储过程。可以查看并管理该数据源的元数据。支持多数据源的资产浏览:Inceptor、HDFS、Hyperbase、Mysql、Oracle、DB2、Hive、TeraData、Hbase、Teradata、PilotEnterprise以及第三方报表工具。支持查看数据库的元数据描述信息、数据表、视图、存储过程、关联资产等信息。概览信息字段信息采样数据血缘信息使用记录同时支持提供查看元数据总览、资产使用监控、通知等重要信息。它将始终保持与数据服务平台的实时更新,以保证提供最具有时间价值的统计信息。数据治理工具提供对SQL、存储过程的使用记录监控,展示使用最频繁、运行失败的表和存储过程,同时给出这两种数据资产的数量变化趋势。5)系统管理为应用提供可靠的基础管理服务,保证上层应用的正常运行。包括系统基本配置管理、权限管理、角色管理等。为了保证数据的安全性,数据管理需具备数据权限管控功能,提供文件、库、表、字段级的数据权限控制能力,权限控制能精确到行级,支持基于人员、部门、项目、角色维度的权限验证和授权,能够进行访问审计及敏感访问预警。6)元数据应用提供多种元数据应用方式,包括元数据检索、查看、历史、变更订阅下载。元数据检索:7)元数据导入导出支持元数据的导入导出(全量与指定元数据备份与恢复等)。8)元数据模型管理支持导入、添加、查询、编辑、删除业务元数据以及自定义业务元数据模型(业务术语、信息项、指标、代码等)的格式。支持对技术元数据模型(系统、库、表、字段、ETL过程等)的导入、添加、查询、编辑、删除业务的功能。支持业务元数据的版本管理、与其他数据资产间关联的关系定义和维护功能,并提供检索功能。9)数据地图基于血缘分析技术,通过图形化方式从宏观角度展示企业数据资产(系统)的关系,有利于用户更好理解系统之间关系。10)血缘分析支持视图View的血缘影响分析(包括展示已delete删除的表和视图,支持指定深度展示)。支持数据库中表和字段的血缘分析和影响分析。支持对电子表格和仪表盘的血缘和影响分析。支持对ETL流程的血缘、影响分析。支持手动对血缘信息进行增加,删除,修改等操作。支持自动化实时同步更新血缘、影响数据。DataCatalog支持数据表的血缘影响分析,通过整合分散在各个系统、应用、数据库等不同数据源中的元数据,将它们集中在一起,提供统一的元数据查询管理接口。通过元数据追踪,DataCatalog记录了每一次元数据转化的输入与输出,从表级和列级两个粒度上,描述多表间的关系,为数据平台中的元数据勾勒出一幅完整的数据流动变化关系图谱,使用户更全面的掌握数据,把握数据变化。DataCatalog使用血缘分析和影响分析来描绘元数据间的关联图谱,包括元数据来源于哪些表,又去往了哪些表。其中血缘分析关注当前对象与其上游对象的关联,影响分析关注当前对象对下游对象的影响。以下举个例子描述血缘分析功能以目标对象的第一代祖先为起点,以目标分析对象为终点,按照转化关系逐层扩展。血缘图直观的展示了目标对象的产生过程,包括从哪些表转换而来,经历了哪些转换,从而帮助推测出它在此过程中被赋予的含义,以及会受到的潜在影响。影响图的起点是当前分析对象,终点是受其影响的最末端子代,按照影响关系逐层扩展。影响分析图反映了当前对象在统一数据集成平台中,参与了哪些元数据的形成。用户可以借助影响分析图观察该对象的影响能力,即对于当前元数据修改,会对哪些后代元数据造成影响。点击图中的某一张表,可以查看该表的具体信息。此外,血缘影响分析图还支持列的血缘影响分析。点击血缘图中任意一张表的展开,查看该表的血缘影响字段。11)关联分析分析当前对象对下游对象的影响。关联分析图的起点是当前分析对象,终点是受其影响的最末端子代,按照关联关系逐层扩展。影响分析图反映了当前对象在统一数据集成平台中,参与了哪些元数据的形成。用户可以借助影响分析图观察该对象的影响能力,即对于当前元数据修改,会对哪些后代元数据造成影响。12)关系过滤该元数据管理工具支持基于Process对血缘图以及影响分析图进行过滤,折叠与目标Process无关的血缘和影响分支。血缘分析和影响分析关注的是分析对象的数据是如何从上游对象逐步转换而来,或者如何影响下游的对象,例如当我们关注血缘图中某个Process:tb1→tb2时,关注的是数据是如何输入到tb1,再从tb1输出到tb2的这条血缘分支;而不关注tb2的其他输入来源。另外需要注意,Process的输出对象(即tb2)的后续血缘链不会受到影响,被过滤的范围以tb2为终点。综上,本平台支持仅观察Process的过滤血缘/影响图中的特定部分,与当前Process的输入对象没有血缘输入/影响关系的表及以这些表的血缘链/影响两都将被收起。过滤前:过滤后:12)数据治理可视化为降低业务人员的学习成本,数据管理平台需要具备简单、易用的特点。能够便捷地利用可视化界面利用托拉拽的方式,对数据进行清洗、入库等操作。

4.5.3数据业务字典业务字典是一个管理业务术语和数据标准的模块。支持自由创建业务元数据和数据标准的存储和展现形式,并配合机器学习技术关联、组织相关数据资产。支持自定义业务目录结构以及内容,并提供相应的查询,浏览和使用页面。支持业务词条的以EXCEL文件格式的导入导出功能。默认内置金融、政府等行业业务术语。支持根据业务需求,创建新的字典,使用方法与内置默认业务字典相同。支持自定义业务元数据的存储、展示格式和类型。支持将业务元数据与任意资产进行关联。1)新建业务字典2)添加目录及编辑属性业务字典支持自定义目录的结构和属性。属性规定了该目录以及它所有级别的子目录下,所有词条的存储和展现的形式。3)词条管理业务字典目录的详情页展示了目录的描述、包含的词条和子目录等信息。词条的展示格式由用户定义的目录属性决定。该页面支持对词条和目录的添加、批量删除、单个编辑等操作。4)导入导出对于存量词条,支持以Excel模板的形式批量导入和导出。4.5.4数据标准管理支持多检索条件模糊查询,对数据标准体系内容进行多维度的查询浏览。提供按名称、分类、层级等多种查询条件的组合查询功能,展现数据标准信息项的各种要素,提供按多种查询条件的组合查询功能,展现标准代码的各输出要素。支持按多种查询条件的组合查询功能,展现各系统对数据标准信息项和相关标准代码的引用关系,如表物理名称、数据项名称、数据项编码值、标准信息项编号等。支持数据库系统到数据标准的映射关系,保证数据标准的落地与执行。支持数据标准体系、指标体系、数据标准信息项、标准代码、映射关系等标准的维护功能。支持导入、添加、编辑、删除数据标准相关内容以及自定义数据标准格式。支持自定义数据标准目录结构以及内容,并提供相应的查询,浏览和使用页面。支持将数据标准与任意资产进行关联。支持自定义数据标准的存储和展示格式、类型。支持数据标准的版本管理以及跟其他数据资产关联和检索的功能,辅助数据标准落地执行。4.5.5数据质量管理1)数据质量思想数据质量问题包括但不限于:数据的完整性:例如个人档案的属性中缺少性别,籍贯,年龄等关键信息;数据的唯一性:不同来源的数据在DW中出现重复的情况;数据的权威性:统一指标出现多个来源的数据,且数值不同;数据的合法性:获取的数据指标与常识不相符合,如年龄>150岁数据的一致性:不同来源的不同指标数据其内涵是一样的(数据发现);或者同一指标的数据内涵不同。为了解决以上问题,可以采用不同的手段和方式如下:解决数据完整性问题解决思路:补上数据缺失的信息主要方法:

通过其他信息补全:例如,使用身份证号码推算性别,籍贯,出生日期,年龄等;

通过缺失记录的前后数据补全:例如,时间序列缺失,可使用前后记录的均值补全,或根据缺失跨度平滑处理.解决数据唯一性问题解决思路:数据去重,只保留一条记录主要方法:按主键去重,利用sql的groupby<col1>,<col2>,...,<coln>的特点去除重复记录;按规则去重,编写一系列的规则,对重复情况复杂的数据去重,例如不同来源的客户数据,可通过相同的关键信息进行匹配,合并去重。解决数据权威性问题解决思路:在不同数据来源之间使用最权威的那一个.主要方法:记录DW的数据来源,并赋予权威权重,当导入数据存在重复/冲突的情况下,使用权重较高来源的数据解决数据完整性问题解决思路:设置判定规则主要方法:

设置强制合法规则:对字段设置合法区间,越界数据采取措施,强制转换为最大/最小值,或判定为无效(供人工检查)。例如:格式规则(日期类)"yyyy-MM-dd";内容规则:性别in(男,女,未知);出生日期<=today设置告警规则:对超越数值范围的记录做报警处理,导出错误记录到临时的数据库.表中供人工检查;对字段的内容(数值类)做离群值检查:使用分箱,聚类,回归等数据挖掘算法发现离群值,并告警。解决数据一致性的问题:主要方法:通过数据标准和数据权威的制定解决。2)质量管理规则及流程上图展示了Datacatalog数据质量控制采用的基本流程。通过界面进行数据质量检核规则定义与维护,可定义规则包括空值、值域、规范、数据集比对、分组检查、记录一致性、逻辑、自定义等。通过创建三张相关的表,分别存储不同信息:person_file:存储质量合格的记录,person_file_err:存在非法数据的记录,全部作为string类型保存,检测到的8条违反规则数据将全部进入该表。person_file_dq:本次导入的数据质量统计表,记录了导入时间,合法记录数,非法记录数,合法记录比例。处理流程如下图:基本的思想是通过Reader获取原始数据,然后分为三条处理线。质量统计表:用ColumnMap算子从总的原始数据中过滤出用于统计的有效字段,将其与用ColumnMap算子从有效数据中过滤出用于统计的有效字段进行JOIN合并,汇入数据质量统计表。合法数据表:通过Filter定义出符合要求的元数据标准,例如类型、有效值、精确度等,以此过滤出有效数据,汇入person_file_orc,同时将经过合法处理后的非法数据汇入该表进入最终的数据表person_file。非法数据表:通过Filter_Neg过滤所有非法数据,接入表person_file_err_orc,然后经过合适的合法处理,导入最终的表内。由此在Transporter中实现了数据质量检查、数据路由、数据加工的数据质量控制流程。3)数据稽查除了采用数据质量控制工具,星环数据治理平台的数据库还提供数据稽查功能保证数据质量。数据稽核会根据规则将脏数据写入指定的脏数据表(ErrorTable),并标明每一条脏数据为何非法,在数据导入完成后,将返回总共记录数、导入记录数的接口、或者数据质量报告,以方便监控程序判断以及处理。也可以仅打印出显示报错信息。实现上述特性都是为了使数据稽查能够在脏数据存在的情况下尽可能的保护系统或保证业务的顺畅执行。进行数据稽查时,系统将对如下问题数据报错并记录至ErrorTable:字段值中含有定界标识符,导致读取数据时一行数据被误读为两行。因为错误的切分方式会使读入记录的字段数与定义不符,系统将通过检测列数总个数来识别这样的脏数据。以目标结果表的类型判断为标准,进行类型匹配与类型转换,如果类型不匹配,则输出脏数据。在通过UDF结合过滤条件,实现其他的数据转换以及过滤时,对不匹配的数据记录打印报错或记录于ErrorTable。对不符合NOTNULL限制的记录报错。完整的数据稽查功能是按照如下的处理流程实现的,建议用户在使用数据稽查功能以及设置相关配置时,结合该流程决定配置参数:用户可以在创建一个外表的同时指定LogErrorTable。当从外表读取数据的时候,每解析一行记录,若访问到上述四种无效数据,就将该数据写入ErrorTable。允许指定REJECT策略,即当错误率达到一定的行数或者比例时,就停止读取。3)数据质量管理功能支持内置检查规则以及自定义质量规则(如空值、值域、规范、数据集比对、分组检查、记录一致性、逻辑、自定义等)对目标数据进行数据质量检查支持自动或人工执行数据质量检核任务,支持定时调度时间粒度配置,包括时、天、月、季度等粒度。对质量规则执行结果进行量化打分;检查完成后自动生成质量分析报告。具备根据质量问题改善数据质量的能力,能够使用算子修改数据,改善数据质量。支持在ETL流程中进行数据质量管控的功能,使得数据质量在事前被发现并解决。4.5.6数据资产目录1)数据资产门户数据资产可视化支持以目录的形式,逐层展示所有数据资产,并支持全局搜索和浏览。同时支持数据资产概览,包括系统量、数据库、表、字段统计,提供数据标准概览,包括数据标准、代码值标准统计,数据质量概念,包括质量标准及数据质量分布情况等。目录形式展示数据资产资产概览数据资产自动分类及检索支持将海量元数据自动分类,支持对所有数据资产全文数据检索,支持全局搜索、模糊搜索。支持数据按数据类型分域展示,支持数据按业务特征展示,提供按不同类型快速检索功能。能够以仪表盘的形式展现数目资产的基本情况。支持采集BI软件的报表信息,并且支持详情展示,搜索等应用。具备支持数据大屏的功能,以RestAPI的形式提供数据资产相关数据,同时可以搭配可视化工具自助搭建数据大屏。2)业务目录编目具备自定义数据目录编目的功能,能够根据业务和技术部分的具体需求对目录进行编目,并将对应的数据资产放入编目好的目录中.3)标签管理支持标签管理页面,可以对标签进行创建,修改,删除,修改关联等操作,支持标签详情信息查看,同时能够查询标签关联的数据资产信息;支持全局搜索标签信息。Catalog支持对数据源和数据资产添加标签,并且能够以标签为关键词搜索关联的数据资产。在数据资产的概览页面中,您可以查看该资产的标签信息。标签分为自动的智能标签和人工的普通标签两类。其中,智能标签使用AI技术,运用业务信息、技术元数据、资产描述信息以及用户使用信息,自动标记数据资产。智能标签的右侧会出现推荐匹配度的百分比。当鼠标移入该标签时,您可以选择确认或删除。确认后,智能标签就变为普通标签。智能推荐DataCatalog基于机器学习相关技术提供资产相似性分析和数据资产推荐功能,帮助您理解、洞察数据资产。在资产的概览页下方,您会看到推荐的相关数据资产名称、描述、标签等信息,点击即可直接跳转至该资产的页面浏览。关联资产为了更好地描述资产之间的关系和资产的业务属性,您可以为某一数据资产设置它的关联资产。关联关系可以存在于数据库、文件、报表和业务字典之间。4)使用教程支持内置产品功能使用教程;支持自定义创建、编辑、修改教程;4.5.7数据安全支持应用权限管理,通过应用权限控制用户能够访问系统内部的功能选项,包括菜单的访问、可执行的动作等。支持访问轨迹追踪,明确通过统一日志管理功能对系统应用层和数据层的日志进行记录,配合系统的审计管理功能实现对访问轨迹的追踪管理。支持多种算法的数据脱敏。支持多租户管理。支持库表行列粒度的数据权限管理。支持用户身份认证、安全访问和权限管理。支持多种数据加密算法。支持Kerberos、LDAP、CAS、AccessToken、RBAC等安全认证方式。4.5.8数据共享能够跨租户流转数据资产,并且支持审批工单的形式保障数据资产的信息安全。支持能够跨数据数据共享,通过赋予权限的形式让数据在不同租户之间共享。支持完备的任务流功能管理数据流转任务4.6数据治理工具硬件及网络的性能及规模配套的方案星环科技数据治理工具包提供集群服务来保证服务的高可用性,为满足招标书的技术指标,集群系统必须是4台(含4台)以上物理服务器组成,每台服务器建议具备以下配置:2颗8核心或以上带超线程x86指令集CPU的服务器(比如Intel®Xeon®E5-2650v2)128GB以上内存2个300G以上的硬盘做RAID1,作为系统盘10个以上的2TB容量以上的硬盘作为数据存放硬盘2个千兆以上网卡网络规模建议至少千兆以上。团队及培训5.1项目团队为保障数据治理工具按时交付、工具培训和用户使用顺畅,确保项目顺利实施,拟组建本项目的服务团队(共计9人),如下图所示:项目负责人(项目经理1名):受企业法人委托全权负责项目合同签订、财务审查、组织管理、质量安全控制,并定期进行考核、评价和奖惩等;保证项目实施所需资源(人力、物力、数据、时间等);全力参与、支持项目实施所需的业务流程优化和组织变革;严格执行项目有关规定和决定。技术负责人(1名):负责数据治理工具全过程的技术指导,具体包括软硬件环境咨询、工具培训、数据治理方案、工具售后技术支持等方面。实施组(2名):基于我公司提供数据治理工具,指导用户硬件配置搭建、现场安装调试工作、保证数据治理工具在用户现场正常准确使用。培训组(2名):针对招标方不同业务人员,负责数据治理工具的不同层级的技术、管理和运维培训。数据服务组(2名):负责配合完成至少两个业务系统的数据治理示范项目。售后服务组(1名):负责工具售后服务。5.2培训方案数据治理工具部署完成后正式投入使用之前,我方组织专业技术人员对招标单位的各级人员进行不同层次的培训,直到被培训人员能够自如使用该工具。具体培训方案如下:5.2.1培训目标项目培训作为工程实施的一个重要环节,对整个项目的实施至关重要,通过系统的培训,使得工作人员得到日常工作需要的专业技术知识和经验,从而可保障整个系统的顺利运行。为此,我司从培训组织保障、培训师资保障、培训教材保障、以及现场实践保障等多方面着手,组织开展面向用户的培训工作,制定培训过程控制管理流程和机制,保证培训工作质量,实现培训目标。对数据治理工具最大的考验之一就是系统使用者对应用软件的理解程度和熟悉程度,因而技术培训是保障系统运行非常关键的一项工作。按照培训需求负责对项目相关用户进行全面的技术和产品培训,使用户达到能独立进行开发、使用、管理、维护和故障处理的目标,以便用户所使用的软件产品能够正常、安全地运行。双方共同负责制定培训计划:星环科技负责提供培训教材,收集参加培训人员信息,必要时组织培训效果评价及考核;培训任务工作包含但不限于以下任务:1)工具原理及需求相关的培训(针对业务分析人员)2)工具原理及需求相关的培训(针对系统管理人员);3)工具部署及技术维护的培训(针对运维管理人员);5.2.2培训团队星环培训方式包括现场培训和集中培训。培训讲师是整个培训流程的源头,讲师水平的高低决定了培训质量的好坏。为保证讲师队伍的高素质,企业内部应制订《讲师资格认证制度》,从专业知识、专业经验、成就及表达能力四方面进行认证。对讲师的工作绩效每半年或一年考核一次,优胜劣汰。同时为支持和鼓励讲师主动积极地开展培训工作帮助讲师不断提高业务水平,组织他们进行专业培训和技能训练。根据项目需要成立项目培训小组,包括培训经理、培训讲师等人员,主要负责项目培训计划的制定、培训教材编制、培训组织等工作,针对不同的培训对象设置不同的培训课程,配备不同的培训讲师,确保项目相关人员能够独立掌握不同层面的系统知识,确保项目的顺利实施。对于所有培训,我公司派出具有相应专业的实际工作和教学经验的教师和相应的辅导人员进行培训,主要培训讲师至少具有三年相关领域项目经验、两年培训经验。1、培训经理:由专业的大数据平台架构师担任培训人员主要负责整体培训计划、内容及培训管理,根据不同的培训需求选择确定不同的培训方式达到培训效果,拥有丰富的行业经验和大数据技术应用经验,主要承担数据治理工具总体设计方案、总体架构设计、业务规划及应用方面的培训。2、系统管理培训讲师:由专业的高级项目管理人员担任主要负责系统管理培训,拥有丰富的项目管理、系统管理培训经验,具备全面的业务流程掌控,主要承担系统管理培训。3、业务分析培训讲师:由数据挖掘高级研发人员人员担任主要负责业务分析及数据分析方面培训,具有丰富的分布式数据挖掘项目经验,熟悉常用的机器学习算法,了解不同模型的特性,拥有海量数据挖掘、分布式计算或高性能并行计算应用经验,主要承担算法原理、业务分析、业务建模等方面培训。4、业务开发培训讲师:由专业的数据平台开发人员担任主要负责数据平台应用开发培训,拥有丰富的大数据清洗、校验、挖掘、分析等方面的经验,主要承担数据库管理、数据迁移、数据治理等方面的培训。5、运维管理培训讲师:由专业的项目实施运维经理担任。主要负责运维管理方面培训,拥有丰富的IT系统运营和日常维护经验,主要承担IT运维原理、系统安装部署、日常运营维护、一般故障处理和问题解决的培训。星环科技提供对相关的技术人员、管理人员和所有系统使用人员的培训。培训内容涉及星环数据治理工具原理和技术性能、操作维护方法、安装调试、排除故障及软件结构、定制和升级等技术方面,以及星环大数据平台操作使用各方面内容,并提供全套培训教材(中文)和培训计划表。5.2.3培训内容培训对象主要包括负责本项目建设、运行和维护的专业人员培训和各类工具使用人员及各级领导的培训。其中,使用人员培训包括:使用该系统的运营人员、甲方人员等;IT专业人员培训需完成对信息中心相关技术人员在数据治理基础理论知识、数据治理工具的操作和使用方法等方面进行专门的培训。培训采用现场培训和集中培训方式进行。现场培训:培训讲师采用理论与案例分析、结合实际工作进行分析、模拟项目实践的技能训练等多种方式进行;集中培训:为巩固和强化培训效果,培训讲师在培训结束后,收集问题,通过邮件发给学员,并对学员的反馈结果进行跟踪5.2.4业务分析团队培训星环科技专门为业务分析团队提供如下培训;大数据技术与数据处理基础知识数据治理与数据可视化基础知识数据探索与数据建模实际应用案例星环科技为了使用户能够熟练掌握和使用星环大数据平台的开发、使用和维护,星环提供根据用户需要编制的培训材料,并在用户指定的时间和地点开展培训。星环科技针对TranswarpDataHub以及ApacheHadoop相关的技术进行专业性较强的培训服务。现有培训服务分为如下几个部分,其他针对用户特定需要进行的培训可以商讨后进行:培训课程培训时间培训内容简介基础培训大数据生态圈以及原理构架课程2天包含下列内容:ApacheHadoop的发展历史ApacheHadoop生态系统HDFS技术原理、HDFS基本操作和编程Map/Reduce基础集群架构业务分析培训数据治理工具培训3天数据治理工具基础原理,问题诊断,工具使用方法及工具时间数据探索与数据治理实际应用案例3天数据治理案例培训5.2.5工具运维管理团队培训星环科技专门为运维管理团队提供如下培训;大数据技术与数据治理基础知识产品架构、软件特性部署及运维培训数据挖掘算法与数据可视化基础知识星环培训课课程表如下:培训课程培训时间培训内容简介基础培训大数据生态圈以及原理构架课程1天包含下列内容:ApacheHadoop的发展历史ApacheHadoop生态系统HDFS技术原理、HDFS基本操作和编程Map/Reduce基础集群架构技术开发培训数据治理工具包安装培训0.5天提供数据治理工具包的安装、配置、部署、监控、维护,以及高可用性配置的培训,工具包括包括Transportor、Governor、DataCatalog数据治理工具产品架构、软件特性培训0.5天提供数据治理工具整体产品架构以及各工具包括Transportor、Governor、DataCatalog的功能特性介绍数据治理工具包运维培训0.5天产品运维培训,包括日常运维管理指标监控以及故障诊断5.2.6数据开发团队培训星环科技专门为数据开发团队提供如下培训;大数据技术与数据治理基础知识产品架构、软件特性部署及运维培训数据挖掘算法与数据可视化基础知识工具性能监控与调优星环培训课课程表如下:培训课程培训时间培训内容简介基础培训大数据生态圈以及原理构架课程1天包含下列内容:ApacheHadoop的发展历史ApacheHadoop生态系统HDFS技术原理、HDFS基本操作和编程Map/Reduce基础集群架构技术开发培训数据治理工具包安装培训0.5天提供数据治理工具包的安装、配置、部署、监控、维护,以及高可用性配置的培训,工具包括包括Transportor、Governor、DataCatalog数据治理工具产品架构、软件特性培训0.5天提供数据治理工具整体产品架构以及各工具包括Transportor、Governor、DataCatalog的功能特性介绍数据治理工具包运维培训0.5天产品运维培训,包括日常运维管理指标监控以及故障诊断数据治理工具性能监控与调优1天性能监控与调优培训5.2.7培训计划由于员工担任的职位不同,因此培训方向具有多样化的特征。一般来说,主要划分为三大类:一是决策层人才,二是管理层人才,三是操作层人才。星环科技提供针对不同应用场景,设计具有针对性的培训方案。在整体的培训工作中,计划分为4个阶段来分别进行,其中包括:前期准备阶段、培训实施阶段、培训考核评估和培训效果检验验证。1)前期准备阶段 在前期准备阶段中,我公司需与用户方建立良好的沟通机制,定期与用户方相关领导沟通确定培训需求,并分析明确用户具体的培训需求,建立培训标准,制定一份详细的《培训计划书》,根据此培训计划书设计培训课程、选定培训方式、编制教材资料或课件、准备培训环境、制定培训人员,并呈报用户批准。培训需求分析是指在规划与设计每项培训活动之前,由培训部门采取各种办法和技术,对组织及成员的目标、知识、技能等方面进行系统的鉴别与分析,从而确定培训必要性及培训内容的过程。培训需求分析就是采用科学的方法弄清谁最需要培训、为什么要培训、培训什么等问题,并进行深入探索研究的过程。它具有很强的指导性,是确定培训目标、设计培训计划、有效地实施培训的前提,是现代培训活动的首要环节,是进行培训评估的基础,对企业的培训工作至关重要,是使培训工作准确、及时和有效的重要保证。进行培训需求分析的目的是以满足组织和组织成员的需要为出发点,从组织环境、个人和职务各个层面上进行调也和分析,从而判断组织和个人是否存在培训需求以及存在哪些培训需求。确定培训目标。可以根据需求分析来建立培训目标,目标必须是可控的、可操作的。培训课程的目标是说明员工培训应达到的标准。它根据培训的目的,结合上述需求分析的情况,形成培训课程目标。培训前准备工作。培训准备主要是培训专员负责,其他同事可协助,主要准备工作有:培训通知、讲师确认、课件确认、时间地点协调、设施设备检查调试、所需表格及资料准备、参训者了解、培训前后交通工具食宿确认等,根据培训的需要,以上工作在准备细节上会有所区别和侧重,将在具体操作时阐述。各准备工作具体做法及注意事项。按照培训工作准备的先后顺序如下:(1)时间地点协调:虽然在培训计划中都有明确的时间和地点,但计划不如变化快,正式培训前2-3天,需要与部门领导、讲师确认培训具体时间(日期、几时等),由于大部门培训时间都可能安排在下班后晚上进行,避免与公司生产、业务等部门因为工作紧急而参加者寥寥无几等尴尬情况出现;另外,培训地点也需落实,所用会议室、培训室届时有没有其他会议或培训相冲突,需与会议室、培训室管理者沟通好。(2)讲师课件确认:与讲师确认好培训时间、地点,并亲自细看其课件大纲、PPT、重要举例等内容,并对其培训时长进行了解,如发现其明显不合理(如可能参训者听不明白的内容)建议进行适当调整,并提醒一定要使用普通话,如遇自己不能决定的事项,要第一时间汇报给部门领导进行协调处理。(3)参训者情况了解:对于该培训内容的参训员工,培训专员对几位主要参训员工进行事前了解,主要是对培训内容、讲授形式、参加积极性、希望了解哪些内容等进行了解,以便及时反馈给讲师,同时也可了解届时参加者人数大致情况,如果参加者可能会较少,就需要汇报给部门领导,是否可以调整培训时间。(4)培训通知:前面三种情况确定后,就需要出培训通知了,通过审核批准后予以公告栏张贴,并通过公司OA系统进行公告,通知主要说明:培训时间、地点、内容、讲师、培训纪律、所带笔及笔记本、培训检验考试等,通知提前1天公告即可。(5)设施设备检查:培训所需投影仪、音响、话筒、耳麦、激光笔、白板、白板笔、桌椅、白板擦、电源、照明、空调、周边安静情况等进行确认和试用,对于无法正常使用的,要及时请维修人员进行修理正常或借用,做到万无一失。(6)所需表单及资料确认:一般而言,培训签到表、培训评价表、测试题、笔记本、笔等数量需要比参训人更多的准备量。2)培训实施阶段前期准备工作完成后,进入培训实施阶段,向培训对象下发培训通知,我公司委派指定的培训讲师依据选定的培训方式按时开展培训,对参加培训的人员进行登记和发放培训资料,培训可采取课堂讲解和操作训练相结合的方法,针对大规模的培训可选择分批次进行。培训课程整体设计是针对某一专题或某一类人的培训需求所开发的课程架构。进行课程整体设计的任务包括确定费用、划分课程单元、安排课程进度以及选定培训场所等。培训课程单元设计是在进行课程整体设计的基础上,具体确定每一单元的授课内容、授课方法和授课材料的过程。课程单元设计的优劣直接影响培训效果的好坏和学员对课程的评估。在培训开展过程中,作为相对独立的课程单元不应在时间上被分割开。在完成培训课程的单元设计后,需要对需求分析、课程目标、整体设计和单元设计进行阶段性评价和修订,以便为课程培训的实施奠定基础。在实施培训过程中,培训讲师掌握必要的培训技巧,达到事半功倍的效果。3)培训考核评估培训现场向受训人员发放培训考核表,提供纸质或电子版培训考核表以满足不同培训形式的需要,对所有受训人员此

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论