




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 金融机构大数据平台架构设计最佳实践 1、金融企业大数据平台架构设计的关键点有哪些?架构设计的关键首要是要满足业务需求,提炼业务需求的非功能特性,提出针对性的架构设计方案。作业自主研发能力有限的企业,在大数据系统建设中首要是合理的选择技术组件,如果科技力量更强可以考虑参与开源社区对组件的优化完善等工作中。2、针对结构化、半结构化和非结构化的数据,在设计大数据平台中分别有哪些要点?大数据平台最好存储与计算相关的数据,非结构化数据如果不能利用分布式计算能力就不建议在hadoop这类平台上存储,可以考虑其他的分布式存储方案。结构化和半结构化差别不多,考虑具体应用场景和数据使用模式来制定方案。3、大数
2、据平台如何对大规模流数据加工封装,以及实现内容分发?流计算框架主流的是SparkStreaming/Storm两种,其他的还有Heron/Flink等等。流数据加工通常涉及到数据的分发订阅,Kafak是目前比较流行的分布式消息系统。4、大数据平台可以做到对客联机的联机高可用查询要求吗?基于HBase可以满足联机交易的查询请求,Impala也可以满足一定程度上的联机查询对接BI报表工具。不过还要看具体场景的要求详细分析。5、应该怎么规划数据库架构?多大的数据量用什么样的架构,有没有一个比较好的规划策略。1、小规模的使用,可以分散建设应用集群,灵活度高。2、没有发展自身技术团队打算的,可以找靠谱的
3、集成商。3、有长远打算的,建议做平台的整体规划。数据量的问题,通常超过TB级别可以考虑大数据技术或其他MPP,低于这个数量级RDB完全可以搞定。6、大数据平台元数据管理问题有哪些考量点?元数据管理还不是开源社区的重点发展方向,在一些商业版中有部分功能支持,如果想要一个更完善的方案还需要基于自身情况来定制。很多企业只关注大数据,对元数据的管理方面很不到位,同样指标几十个不同名称,带来数据质量问题跟沟通问题。简单的管理可以基于业务,纬度方面给表字段命名,7、非结构化数据,如语音,视频 在大数据环境下怎样才能合理存放,以利于数据的调取使用?语音与视频数据的问题,要结合该类数据的使用方式来判断。具备计
4、算能力的存储其成本要更高,如果仅仅为了存储可以先考虑其他分布式存储方案如CEPH等。语音和视频涉及到语音识别和计算机视觉等技术领域,如语音识别文字等处理目前尚未了解到其是否能够基于Hadoop等并行处理框架实现,如果存在类似方案则可以考虑在Hadoop上集中存储。8、如果没有从来源上保障数据质量,后续的利用和挖掘也就步履维艰,有哪些保障大数据的数据质量的方法?实践中,数据质量始终是一个不容易解决的问题,这是因为良好的数据质量必然依赖于一个技术与管理相互结合的方案,要在企业范围内有统一的制度和充分落地的执行。大数据技术被没有提供更好的解决方案,因为开源社区似乎没有将其作为重点的关注方向,甚至在配
5、套的元数据管理等方面还稍逊于传统的商业产品。目前阶段,大数据应用还处于一个离散化的状态,完全现面向应用建设,没有像传统EDW那样形成完整的企业数据模型体系。毕竟大数据的应用模式还在不断探索的阶段,谈论这类强约束的模型还为时过早,个人认为这种状态估计还会持续相当长的一段时间。此外大量外部数据的引入,也对传统的基于封闭体系、强调源头管理的数据质量管理理论提出了挑战,降低噪音提取有价值的信息,会成为大数据应用的一个常态,不再是辅助流程,要在系统设计过程中予以考虑。最后,如何控制数据质量,还要平衡其成本和收益。9、拟计划将不同物理地的数据进行物理集中,面对海量数据如何进行数据迁移和集中,且不影响应用正
6、常使用?基于Hadoop搭建的大数据系统,要做到大量数据迁移,过程中不影响正常使用是非常困难的。因为HDFS作为底层存储是要将数据分块而后尽量均匀的分布在集群的各个节点上,默认三副本策略是如果远端调用接口则第1份部分可保存任意节点,第2份保存在同一机架的节点上,第3份则在不同机架上节点。短时间内持续的大量写入数据会对集群中众多节点产生影响,占用磁盘IO和网络IO。此时如果集群同时支持HBase这样的联机查询或写入服务,则会产生较大的影响。即使是批量数据处理操作,也同样存在竞争影响其服务处理时间。如果确实无法停止服务,建议选择系统服务压力较小的特定时间窗口完成迁移数据的加载。10、依托hadoop等多个开源框架可以搭建并使用大数据库平台,但是由于各个应用系统的数据量等实际情况,如何实现不同应用之间的租户管理,并实现资源的合理控制呢?多租户管理是目前大数据技术发展中不断强化的一个重要特性,主要落脚点在安全管理和资源管理上。Hadoop1.0到2.0引入的Yarn就是解决资源管
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025至2031年中国汽车用耐热低压电缆行业投资前景及策略咨询研究报告
- 独立电影工作室企业制定与实施新质生产力项目商业计划书
- 2025至2031年中国摩托车中央控锁行业投资前景及策略咨询研究报告
- 特教师资培训行业跨境出海项目商业计划书
- 2025至2031年中国干鲜果品行业投资前景及策略咨询研究报告
- 特殊教育辅助桌椅行业跨境出海项目商业计划书
- 电商运营技巧短视频行业深度调研及发展项目商业计划书
- 定制化学习资料库企业制定与实施新质生产力项目商业计划书
- 电子书AI应用行业跨境出海项目商业计划书
- 灯光美学应用行业跨境出海项目商业计划书
- 2025年MySQL开发趋势试题及答案研究
- 山东省济宁市2025年高考模拟考试化学试题及答案(济宁三模)
- 胃癌护理个案护理
- 2025年汽车经销行业深度研究报告
- 河南2025年生态环境部黄河流域生态环境监督管理局生态环境监测与科学研究中心招聘笔试历年参考题库附带答案详解
- (高清版)DG∕TJ 08-2165-2015 建设项目交通影响评价技术标准
- 视频制作拍摄服务方案投标文件(技术方案)
- 移动式冷库租赁合同协议
- 2025年山东济南先行投资集团有限责任公司招聘笔试参考题库附带答案详解
- 2025-2030中国氧化镓行业市场发展趋势与前景展望战略研究报告
- 2025年新兴产业投资热点试题及答案
评论
0/150
提交评论