




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
前言4数据是整体IT战略的重要组成--嘉实IT于2016提出此战略产品产品客户客户 发展阶段嘉实数据平台的历史发展发展阶段2007年数据中心硬件升级,大范围使用IOE架构2011年引入专用BI平台,例如BO、帆软等分析平台报表2015年引入kettle等开源ETL平台,落地管理驾驶舱等应用引入分布式newsql数据库落地客户及产品画像、智能营销、自助分析平台等应用NGDP建设及大数据平台混合架构,关系型&非关系型,sql&nosql,批量&实时OLAP独立发展6烟囱式系统数据孤岛性能瓶颈单一关系平台数据分层不合理模型混乱烟囱式系统数据孤岛性能瓶颈单一关系平台数据分层不合理模型混乱典型痛点问题举例1.1.数据量越来越大,任务计算越来越慢,时效性问题突出2.给客户生成账单,需要跨库访问,运行非常慢3.想得到这一笔交易的网点编号,需要数个大表连接4.无法快速查询一个基金客户是否持有子公司的份额5.如何计算一笔交易所归因的管理费和销售服务费?6.同样报表3年前上线时运行3分钟,现在20分钟7.底层业务变了,但前端输出结果未同步修改策略:建立全新一代平台NGDP并逐步迁移原有应用1前言及综述2数仓与数据主题建设CONTENTS数据平台架构4数据应用举例5数据治理6总结回顾1前言及综述2数仓与数据主题建设CONTENTS数据平台架构4数据应用举例5数据治理6总结回顾3388•基金数据平台承载了市场、投研、资讯各方•这些数据均为各类业务实体、关系、事件行•数据平台是客户与业务查询、决策分析、监•基金数据平台承载了市场、投研、资讯各方•这些数据均为各类业务实体、关系、事件行•数据平台是客户与业务查询、决策分析、监 产品投资 客户市场9数仓建设方法源ODS数仓访问层•综合吸收kimball、inmon等数据模型大师的建模思想,尤其是Immon的规范化三层数仓的建设思想;•吸收TDFS-ldm等平台的先进做法;•借鉴CSRC模型、及其他行业优秀数据模型。数据主题建模•新平台的数据模型是建设重点之一,大类数据主题的方式对数据全面•参考了TD-LDM、证监评审代码设计数据落地质量验证•规范设计流程•重视各阶段文档产出评审评审代码设计数据落地质量验证•规范设计流程•重视各阶段文档产出评审模型设计转换规则模型验证评审系统场景分析字段调研数据验证字段级调研文档系统/表调研表级调研文档评审IdentityIdentity(I)Relevance(R)建立基本定义与其行为之间的关联为Behavior(B)表分析表分析系统调研表筛选数据建模工具据模型重复建设,烟囱式发展、互相不一致;•自顶向下,整体分析,按主题做系统化梳理、•借用Erwin\PDM等建模工具1前言及综述2数仓与数据主题建设CONTENTS数据平台架构4数据应用举例5数据治理6总结回顾1前言及综述2数仓与数据主题建设CONTENTS数据平台架构4数据应用举例5数据治理6总结回顾33容错性和鲁棒性Lambda核心原则CQRS核心原则技术平台建设参考原则容错性和鲁棒性Lambda核心原则CQRS核心原则•技术平台建设不是开源流行工具的简单堆砌,需基于原则作为选型参考;•参照lambda(storm的开发者marZ提出)、CQRS(•原则的落地结合实际场景、结合金融数据特性(结构化为主、精准性要求高稽核、监控;测试、模拟环境;优先分布式系统;持续优化批处理效率;细粒度与粗粒度区分;生产与分析分离;并发查询与分析查询分离松耦合系统建设;嘉实新数据平台分层•前期重点工作会集中在数据工程;•后期阶段需要加强数据服务,数据赋能•前期重点工作会集中在数据工程;•后期阶段需要加强数据服务,数据赋能对标企业数据中台建设需要,新一代技术架构需要进行相关匹配。物理架构部署数据存储、计算、服务的重点为hadoop集群、oracle集群、sdb集群等分布式newsql数据查询平台的引入分布式数据服务及API接口收益计算;•以往资产查询等,需要各个系统拼凑,效率低下;•支持大数据量大并发量的数据访问支持;•独立于数仓、独立于业务系统统一调度平台选型角度1)ETL工具(2)调度工具+程序脚本技术平台相关考量事项硬件替代方案较多,例如:国内的一体机替代国际厂商一体机;数据库等软件替代较为复杂,可从分析端做起,生产考量业务系统的ACID、MVCC、isolation等具体隐含需求……Nosql/newsql是重要辅助手段,在数据缓存、实时处理、非结构化数据等;开源大数据平台具备自身优势,尤其性能、可扩展方面;在CRUD操作密集且叠加事务场景下,关系操作如何支持,例如多并发、互斥、锁定等;1前言及综述2数仓与数据主题建设CONTENTS数据平台架构4数据应用举例5数据治理6总结回顾1前言及综述2数仓与数据主题建设CONTENTS数据平台架构4数据应用举例5数据治理6总结回顾33数据应用的框架各类型的数据应用,均以数据平台为依托,以相关数据工具为支撑•三个能力圈层;•由内而外不断丰富;•在基础与支撑平台基础上,不断面向应用场景进行拓展估•传统的二维报表平台基础上提升为自助分析(组合分析、透视分析等);•引入国内某BI软件作为BI前端,连接后端的impala或者rdb;•建立让公司员工进行数据查询、数据可视化、数据分析的自助分析平台。技术部门为用户提供数据和分析工具,让用户自主自助的去探索和分析数据,挖掘数据的价值授人以鱼不如授人以渔大数据平台案例—客户画像落地客户画像的标签和指标,数据平台承担大批量的客户标签、指标的批量计算;数据标签化、可视化对于客服、电销等工作产生有力支撑数据标签化、可视化资讯整合库EDM内容建设建设SecurityMaster等主数据信息;重新整理的资讯库,重点面向新数仓的应用案例—收入核算及拆分原先用oracle进行收入解析拆分,每月运行48小时,使用hive改写,在6小时内处理完毕;hadoophive在数据量非常大的计算场景下取得非常好的使用效果;WIND晨星…自助分析WIND晨星…自助分析数据仓库估值投资研究数据集市O32携宁…外部服务TSLTSL/Python/Matlab/R开放式平台指标浏览器SmartBI指标库组合评价绩效评估&风险管理框架多维度分析(基金经理、策略组)业务研究公司核心风险前瞻性风险外部服务API&数据集市底层是资讯+数仓,通过数据集市提供基础数据支持,覆盖投研+市场数据PRA内部做相应的指标计算和业务逻辑加工分析后对用户/外部系统提供数据服务;1前言及综述2数仓与数据主题建设CONTENTS数据平台架构4数据应用举例5数据治理6总结回顾1前言及综述2数仓与数据主题建设CONTENTS数据平台架构4数据应用举例5数据治理6总结回顾33数据治理管控数据治理需要借助于相应的数据管控系统,更重要的是制度的落实;数据模型元数据管理
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 车主自我评估方法研究试题及答案
- 电梯安全管理人员联考题库及答案
- 山东省郯城县九年级历史上册 20 人类迈入“电气时代”教学设计 新人教版
- 宠物营养师考试常见知识盲区试题及答案
- 人教部编版历史七年级下册第一单元第5课《安史之乱与唐朝衰亡》教学设计
- 美容师考试复习中的合作学习方法及试题及答案
- 七年级道德与法治上册 第三单元 撑起法律保护伞 第6课 让法律为成长护航 第1框 依法保护自己教学设计 鲁人版五四制
- 2024年公共事业管理自考冲刺练习试题及答案
- 四年级道德与法治上册 第三单元 信息万花筒 7 健康看电视教学设计 新人教版
- 小学一年级语文启发思维试题及答案
- 《制作小台灯》课件
- 《碳排放管理师》(高级)培训考试模拟题及答案
- 2024年重庆市高考历史试卷(含答案)
- SH/T 3046-2024 石油化工立式圆筒形钢制焊接储罐设计规范(正式版)
- 湖南省张家界市慈利县2023-2024学年八年级下学期期中考试物理试题
- 金属非金属地下矿山监测监控系统建设规范
- 2024年苏州市轨道交通集团有限公司招聘笔试参考题库附带答案详解
- 新概念英语第2册课文(完整版)
- 水培吊兰的养殖方法要领
- 【小学心理健康教育分析国内外文献综述4100字】
- 2025年日历日程表含农历可打印
评论
0/150
提交评论