




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据平台解决方案2023大数据解决方案概述1Part共享开放服务数据治理数据标准数据质量元数据管理数据地图数据资非产结构化数据采集数据安全权限管理安全接入数据加解密数据分级日志审统一认证智能调度任务发布任务调度任务管理任务监控任务关联人工智能模型算法库机器学习可视化建模数据总线数据处理数据分析数据迁移大数据产品架构应用集分析处理存储采HDFS2Part其他数据库关系型数据库内存数据库HiveHbase结构化数据采集JDBC/
ODBC数据采集实时采集离线采集微服务SDKAPIP2art数据采集产品——定位及特色产品定位随着大数据时代的不断发展,各大企业、政府纷纷建立大数据中心,数据分析、应用的脚步越来越快,在此过程中,异构数据源的使用、关联分析的需求越发旺盛,如何快速、便捷地采集异构数据至大数据平台,成为数据采集汇聚的关键。我司提供的数据汇聚产品主要功能是将各种存储方式的数据源接入到大数据平台或者其他数据仓库。通过提供可视化界面,帮助用户轻松完成采集任务创建、运行,并实时提供任务监控,使用户随时了解自己的采集任务状态。采用主流的流式计算引擎作为产品的主要采集框架,提供离线采集、实时采集两种方式,满足用户不同的采集需求。产品特色组件灵活提供多种基础数据源组件,处理组件,目标组件,也可根据用户需求,任意拼装该些组件部署,更可为用户提供定制化组件的开发实时监控工具提供实时监控功能,用户可随时查看采集任务状态,及时干预,避免数据漏采,少采快捷易用全流程可视化操作,拖拽式编辑工作流,配置采集信息,采集任务轻松灵活完成服务完善专业的技术团队随时为用户提供技术支持工作,提供7*24小时专业服务保障03010204数据存储数据采集……数据源口数据源类型:数据采集汇聚支持多种类型数据源的采集,如下表:口采集框架:通过Kakfa消息队列、Storm流式处理以及Spark-Streaming实时计算方式,实现实时数据采集;通过Flume实现批量数据采集;口数据存储:提供主流关系型数据库以及HDFS分布式多冗余存储,支持动态扩缩容口可视化:可视化文本类关系型数据库其他本地文件O
r
a
c
l
e消息队列FTPS
Q
L
S
e
r
v
e
rNosql数据库S
F
T
PM
y
S
Q
L协议类数据采集产品——技术架构KafkaSpark-Streaming实时计算Storm流式处理关系型数据库HDFS2Part自定义工作流任务调度任务监控资源监控FlumeFlumeFlume…
…关系型数据库FTP/SFTP本地文件KafkaN
o
s
q
lHDFSHTTP…
…目标组件FTP本地文件HDFSkafka关系型数据库(oracle、 mysql、sqlserver、南 大通用、武汉达梦等)HbaseHive数据采集产品——使用场景处理组件FlumeStormSparkFlink数据源FTP本地文件HDFSkafkaV8关系型数据库(oracle、mysql、sqlserver、南大通用、武汉达梦等)hbase2Part平台提供数据源组件,处理组件,终端组件选择,用户可通过拖拽将需要的组件拖入工作流画布中连线后完成工作流组件之间关联好后,对各类组件进行信息配置,例如:处理组件进行添加节点,配置节点信息查看工作流各个环节的状况,通过界面查询,用户能直观的知道整个作业的执行情况,异常发生等实现数据采集任务的统一调度功能,包括作业发布管理,作业审核管理,作业运行管理,作业进程管理等数据采集产品——配置化采集STEP1.选择组件STEP2.配置信息STEP3.执行工作流STEP4.查看工作流2Part共享开放服务数据治理数据标准数据质量元数据管理数据地图数据资非产结构化数据采集数据安全权限管理安全接入数据加解密数据分级日志审统一认证智能调度任务发布任务调度任务管理任务监控任务关联人工智能模型算法库机器学习可视化建模数据总线数据处理数据分析数据迁移大数据产品架构应用集分析处理存储采HDFS2Part其他数据库关系型数据库内存数据库HiveHbase结构化数据采集JDBC/
ODBC数据采集实时采集离线采集微服务SDKAPI图形化工作界面用户可通过产品界面进行图形化任务创建及管理,操作多以拖拽及连线方式,大大降低操作难度,及使用大数据平台的门槛组件式按需配置产品松耦合,提供各类通用型数据组件,各个组件可自由插拔组合,用户可根据实际应用场景配置,更提供定制化组件开发服务,为用户量身订造自有组件多租户空间资源隔离本产品与我司的多租户权限管理相结合,可实现租户间资源隔离及存储空间隔离,既保证了平台资源的合理分配及使用,也保障了用户私有信息的安全复杂任务简单化产品具有多任务关联功能,对于复杂任务,可拆分多个子任务后关联,用户管理子任务,大大降低复杂度。更可建立公共子任务,减少重复工作量,提高效率任务定时对于业务算法要求每天定时执行,或者在每天晚上凌晨空闲时执行,产品提供各类型定时功能,更可用户自定义,满足多种业务场景个性化任务告警产品提供多渠道通知功能,包括邮件,短信等。用户自定义告警规则,任务执行失败时,及时通知相关人员处理智能调度——定位与特色管理任务监控任务创建任务2Part作业发布管理作业进程管理作业空间管理权限管控服务智能调度——功能架构文件增删改查管理文件上传下载管理文件目录管理菜单管理角色管理用户管理日志监控日志下载进程监控管理作业调试定时调度执行控制作业关联作业参数管理图形化界面作业发布参数测试控件管理2Part智能调度运行情况实时监控告警,详细日志快速查看独立作用空间,互相隔离互相不可见自定义作业参数,灵活配置调度策略BS架构,拖拽式任务配置发布2Part共享开放服务数据治理数据标准数据质量元数据管理数据地图数据资非产结构化数据采集数据安全权限管理安全接入数据加解密数据分级日志审统一认证智能调度任务发布任务调度任务管理任务监控任务关联人工智能模型算法库机器学习可视化建模数据总线数据处理数据分析数据迁移大数据产品架构应用集分析处理存储采HDFS2Part其他数据库关系型数据库内存数据库HiveHbase结构化数据采集JDBC/
ODBC数据采集实时采集离线采集微服务SDKAPI数据总线实现异构数据交换的快速通道组件式拖拽实现数据ETL便于用户查询及关联分析不同数据源的数据实现数据迁移(同种数据库、异构数据库)关系型数据库Mpp数据库Hadoop其他NoSQL数据总线——数据ETL2Part过滤清洗字段映射格式规则转换数据集成交互式开发界面支持:全流程、图形化、组件拖拽式的交互式开发能力,快速便捷完善的算法调试支持:提供小批量数据运行、断点调试、模型参数调试等多租户管理支持:底层融合多租户权限体系,保证数据资源、存储资源以及计算资源的安全管控数据挖掘建模支持:常用机器学习算法(随机森林,逻辑回归二分类,二分类评估,预测),统计分析(数据视图,数据直方图),模型管理及共享等数据总线——数据分析2Part提供可视化数据建模挖掘工作台,依托大数据集群强大的计算能力,进一步提升租户对于海量数据的建模挖掘能力,提高开发效率。共享开放服务数据治理数据标准数据质量元数据管理数据地图数据资非产结构化数据采集数据安全权限管理安全接入数据加解密数据分级日志审统一认证智能调度任务发布任务调度任务管理任务监控任务关联人工智能模型算法库机器学习可视化建模数据总线数据处理数据分析数据迁移大数据产品架构应用集分析处理存储采HDFS2Part其他数据库关系型数据库内存数据库HiveHbase结构化数据采集JDBC/
ODBC数据采集实时采集离线采集微服务SDKAPI“傻瓜化”建模将复杂建模过程,“傻瓜化”、流程化、插件化,在建模过程,只要拖拽插件,就能构建模型。降低技术门槛,使得非技术人员,也能操作建模开发源组件、预处理组件、特征工程组件、算法组件和模型评估组件模型可复用将算法模型插件化,序列化和持久化,创建共享机制,用户可以调用已有的模型,避免重复建设。将昂贵的生产资源,转化成公共基础设施数据预处理、特征工程等工作复用开源算法补充集成多种开源算法Tenserflow、MXNet、Pytorch、Caffe2、Sklearn、Numpy/Scipy模型共享不便非结构数据挖掘需求ⅹ大量的语音、图片、文本、视频等非结构化数据还没有充分挖掘
利用人工智能平台优势ⅹ没有模型保存的功能,导致模型无法很好的共享,产生重复工作和资源浪费传统算法效果不佳ⅹ仅运用传统的机器学习算法(决策树、逻辑回归、随机森林、神经网络、聚类等)挖掘数据内在价值,不能满足某些场景应用效果要求2Part传统工具局限ⅹSPSS更偏向于数据统计方面应用,很难深层次挖掘数据价值ⅹ建模流程复杂,不友好ⅹ传统工具非集群模式,计算资源受制于用户电脑本身人工智能服务能力介绍2Part人工智能平台:①数据资产管理能力:数据、模型、样本、特征全生命周期管理②多算法库兼容能力:主流算法库支持,多开发语言支持,模型构建与算法集成。③完整的AI算法开发能力:提供多框架支持,提供从模型开发、训练、部署一整套服务。④AI应用构建能力:视频、NLP、语言三大领域成熟应用以及基于业务的AI应用⑤平台能力开放:支持平台服务、应用、模型开放,与三方平台灵活对接图像/视频图像识算力资源管理运营管理平台平台管理运行监控服务治理预训模型练模型人工智能——技术架构能力开放开发管控机器学习框架模型评估开发工具语音情 文本转2Part绪识语音
语音转管模型发布理模型下线模型导出模型更新报表展示可视化监控集成展示数据安全隐私保护数据应用安全数据存储处理安全基础设施安全样本管理元数据管理样本标注特征池管理服务服务型服务自动化部署决策型服务工作流管理任务管理存储管理结构化模板管理日志审计PyTorchTensorflow数据展示与可视化服务启动训练发布资源分配模型发布资源申请应用资源管理MxNet数据目录管理检索功能管理Caffe2监控服务在线评估离线评估模型知识图谱图像分类实体抽取人脸识别NER句法分析语音识别任务监控资源隔离流程制定数据资产管理RStudio存储安全网络容器GPUCPU·····Jupyter人工智能A
I能力更新调用分词分类流程管理服务···版本···控制NLP提供标准化的流程引导,把高大上的算法生产变成流程化操作提供算法开发插件
,提供面向不同业务场景的建模开发工具,快速构建模型CPU、GPU资源统一调度管理样本数据共享算法模型复用人工智能——AI平台能力2Part知识图谱构建:将通过互联网爬取的不同类型、不同结构的信息进行,基于不同行业的元数据(Metadata),基于基于深度学习构建领域知识图谱和通用知识图谱,有效提升多源数据整合之上的对象刻画能力,深入揭示对象之间的关系。文本分析技术:根据分词、热词分析和语义分析等技术,对文本数据进行分析、分类、聚类和信息情感能量评估等工作,广泛地用于政府舆论监督、投诉类工单知识整理和优化、智能客服、信息摘要及营销话术优化等场景。人工智能——AI应用服务2Part共享开放服务数据治理数据标准数据质量元数据管理数据地图数据资非产结构化数据采集数据安全权限管理安全接入数据加解密数据分级日志审统一认证智能调度任务发布任务调度任务管理任务监控任务关联人工智能模型算法库机器学习可视化建模数据总线数据处理数据分析数据迁移大数据产品架构应用集分析处理存储采HDFS2Part其他数据库关系型数据库内存数据库HiveHbase结构化数据采集JDBC/
ODBC数据采集实时采集离线采集微服务SDKAPI数据治理的总体目标是理解企业的信息需求,规范数据的生成,持续改进数据质量,实现数据最大价值。血缘分析通过数据血统追踪,可以解决数据的可信度、质量、版本信息等,获得结果数据的来源信息,及数据在数据流中的演化过程。闭环工作流从需求接手、设计、开发、审核、上线。有着完整的工作闭环。有效降低冗余和流程上的繁琐。信息版本控制实现数据资产的各版本间的切换、对比。对无法回溯的物理变更,有着重要意义。构建企业级数据目录整合IT支撑所有模型,建立了企业级的完整数据目录,极大地提升了数据模型获取和使用便捷度数据治理——数据资产管理2Part数据标准监控:稽核规则录入:系统将标准规范提供给数据标准接口,同时对标准稽核规则进行配置,放入稽核规则库中。前向稽核校验:对接口数据进行记录条数和长度等的前向规则稽核效验,并对稽核效验结果通过错误文件记录的方式反馈给数据开发者。稽核反馈:根据稽核结果,当有稽核错误发生时系统提供告警功能,向数据开发者发出警示。通过稽核后则数据进行存储,供共享使用数据标准的发布。基础性标准:主要用于在不同系统间,形成信息的一致理解和统一的坐标参照系统,是信息汇集、交换以及应用的基础,包括数据分类与编码、数据字典、数字地图标准;应用性标准:是为平台功能发挥所涉及的各个环节提供一定的标准规范,以保证信息的高效汇集和交换,数据标准维护:数据标准维护包括数据标准的编制、数据标准的审查、数据标准的发布、数据标准的变更、数据标准的版本管理。数据治理——数据标准管理数据标准制定与执行:数据标准制定包括数据标准的编制、数据标准的审查、包括元数据标准、数据交换技术规范、数据传输协议、数据质量标准等。数据标准制定与执行后向稽核校验:通过规则库的后向质量稽核规则去发现数据标准规范中字段质量数据标数据标的相关问题,同时进行数据标准质量的稽准监控准维护核告警。2Part数据标准单系统数据质量检查支持对质量检查的规则进行配置,支持按照不同源业务系统进行配置;提供按照数据质量规则进行数据检查功能;提供数据检查结果展示功能;提供数据检查结果分析统计功能。跨系统数据质量检查提供对一致性的检查规则进行配置;提供按照数据一致性检查规则进行数据质量检查功能;提供数据检查结果展示功能;提供数据检查结果进行分析统计功能。数据质量预警告警支持对一定时间段内的数据质量告警/预警信息进行列表显示;告警/预警信息应包括数据质量审核问题单相关信息;针对每条数据质量检查规则可以设置是否作为告警/预警信息出现在告警/预警界面。数据阀值监控支持数据阀值的设定,阀值的触发点可以设置到不同的环节,或者不同的数据处理方式;支持阀值触发点的扩充,以适应监控的需求扩展;支持阀值的动态监控,能够实时地显示监控报告。业务规则检查支持业务规则设定,能够随着业务的发展进行扩展;支持按照业务规则对数据进行检查,并能够生成检查报告;数据质量评估分析支持总量评估功能支持源系统数据质量问题评估功能支持专项数据质量问题评估功能数据治理——数据质量管理2Part共享开放服务数据治理数据标准数据质量元数据管理数据地图数据资非产结构化数据采集数据安全权限管理安全接入数据加解密数据分级日志审统一认证智能调度任务发布任务调度任务管理任务监控任务关联人工智能模型算法库机器学习可视化建模数据总线数据处理数据分析数据迁移大数据产品架构应用集分析处理存储采HDFS2Part其他数据库关系型数据库内存数据库HiveHbase结构化数据采集JDBC/
ODBC数据采集实时采集离线采集微服务SDKAPI数据安全保障能力2Part数据安全产品功能模块数据源口安全审计管理特性:功能主要针对技术型运维人员、安全管理人员聚合级分类日志检索,提供汇总式的结论报告明细级分类日志检索,主要针对安全事件回溯,提供详细数据输入安全口安全运营管理特性:功能主要针对管理层,达到领导驾驶舱的目的可根据人员岗位、级别拆分功能模块访问权限IDSC(Ideal
Data
Security
Center)为用户提供从业务运营到核心数据的安全保障,实现全生命周期无侵入式的安全管控能力,大数据安全中心每一个功能模块,均可灵活组合。输出安全Hadoop组件日志遵照规范应用系统日志
主动打印日志无埋点式
自动收集日志安全审计管理聚合级分类日志检索明细级分类日志检索数据安全中心服务器运维报表服务器部署列表动态网络拓扑图进程监控告警组件监控告警 实时计算资源监控堡垒机、FTP等其它日志敏感数据自动识别API作业调度监控告警采集终端IP黑白名单数据加密功能套件安全运营管理数据权限视图集群账户总揽
集群资源总揽异常风险总览数据定级视图2Part统一认证API数据输出管理访问终端分布视图HDFSHiveHbaseYarn…
…应用系统运营监控使用安全集群监控存储安全场景数据安全区:数据根据不同业务场景进行分区存放多租户管理:多租户可共享平台计算资源,通过权限管理对数据权限进行隔离数据采集传输场景安全采集:调用加密接口,进行可还原的数据加密入库安全传输:进行传输文件加密,并记录日志数据安全场景数据安全定级:安全等级由低到高分
为三级。一级信息:不具安全敏感度,可公开发布和自由获取的信息;二级信息:不能够单独或与其他信息结合
识别自然人个人身份的信息及企业内
部可公开的相关信息;三级信息:个人隐私信息数据加解密:加密后数据与秘钥分开存放,且秘钥与数据加密方式不同。根据不同数据安全等级选择解密方式能力开放场景能力门户:实现单点登录,对应用,服务,数据权限进行审批OpenAPI:数据交互的安全服务接口,通过安全审计对异常调用进行监控数据安全中心——全生命周期安全管控安全接入场景堡垒机系统:绑定终端IP,MAC进行接入控制,记录操作日志,密码强度检查,强制更新密码2Part多租户管理租户基于三户模型,实
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 仓库联合经营合同范本
- lng购买合同范本
- 个人厂房转让合同范本
- 代聘人员合同范本
- 人力入股合同范本
- 事业单位正式合同范本
- 保本保息理财合同范本
- 修复窑洞合同范本
- 共同建筑房屋合同范本
- 代理分红合同范本
- 部编版小学五年级下册《道德与法治》全册教案含教学计划
- 运动会活动流程中的医疗安全保障措施
- 2025公司员工试用期合同(范本)
- GB/T 19342-2024手动牙刷一般要求和检测方法
- 2024年山东铁投集团招聘笔试参考题库含答案解析
- 国内外创造性思维培养模式的对比研究综述
- 2022年露天煤矿安全资格证考试题库-上(单选、多选题库)
- 计价格(2002)10号文
- 青果巷历史街区改造案例分析
- 桩身强度自动验算表格Excel
- 《钢铁是怎样炼成的》读书报告
评论
0/150
提交评论