版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、企业大数据平台解决方案产业趋势迈入大数据时代大数据应用场景IT产业快速发展移动互联70+亿 用户 接近全球人口总数 78% CAGR 数据增长大数据数据即资产未来5年,企业间的竞争在数据层面云计算云成为新一代IT基础设施 56%中小型企业购买云服务社交社交即业务86% 企业在社交媒体上开展业务 迈入大数据时代1000+PB24亿网民1天产生的数据63% GAGR非结构化数据增长率数据摩尔定律:Y=C2XX代表时间,Y代表用户的信息分享量,C代表现在时刻的分享信息量30+TB交易量3000+万笔/天1PB/SCERN:核爆产生数据的速度对大数据的理解大数据是指通过对海量数据的智能存储、智能挖掘和
2、智能分析,面向具体的行业应用,把巨量离散的、碎片化的数据加工形成具有商业价值的数据处理技术,以帮助企业/机构更准确地做出趋势判断、进行精准营销和实现精细化运营等。大数据的数据量应足够大,一般是P级,数据的时间跨度应足够长,以真正实现从微观数据到宏观规律的跃迁。企业提高竞争力,应该掌握和分析更多的数据大数据可以帮助企业更准确预判客户需求,洞察市场,产品创新。金融:实时征信,精准小微贷,防欺诈电信:流量经营、客户维挽、套餐包精准营销公安:同行车辆、碰撞分析、电商:亚马逊推出“预判发货”媒资:Netflix推出纸牌屋电视剧传统媒体互联网1.0互联网2.0/3.0顾客的力量和选择公司的力量和声音客户占
3、据主动金融:大数据让银行更了解客户与识别潜在风险王五作为某银行客户,需要申请一张新的信用卡实时征信、精准营销、在线明细、精准小微贷、24周大数据平台客户信息系统交易系统信用系统电信:大数据支撑运营商向Digital Telco转型管道运营能力运营跨界运营. 2G 2.5G 3G B3G/4GSPCPCPSP语音封闭、垄断窄带数据有限程度开放宽带数据防御与竞合超宽带数字经济使能数字经济驱动运营商彻底进行数字化重构商业架构企业架构网络架构网络资源为中心客户体验及生态圈为中心封闭开放、用户驱动、实时知识Silo云化, 业务感知, 自编排数据源精准营销大数据平台M域O域B域辅助决策数据开放 一份数据,
4、一次采集个人客户家庭客户政企客户互联网客户一份存储,全局共享,全量分析公安:大数据实现在海量数据中快速检索出价值信息3000+万条记录, 1+亿张照片,约100TB国内某大城市1天的卡口数据:检索信息耗时:12天大数据平台传统数据库平台模糊检索耗时:2分钟电商:亚马逊“预判发货”,顾客未动包裹先行大数据分析:“预判发货”顾客此前订单顾客搜索记录顾客心愿单顾客购物车顾客浏览行为大数据平台媒资:大数据让Netflix在纸牌屋开播前就知道会火400万影视评分3300万订阅用户行为300万搜索请求上线20天,点播400+万次大数据平台主流数据处理技术及数据处理技术趋势大数据处理技术数据处理技术与架构发
5、展趋势传统数据仓库SQL、UPFSQL执行引擎行存、磁盘、单机/SE集群I/O存在瓶颈扩展能力差实时性差非结构化数据存储无法支持复杂计算数据处理能力弱UPF: User-defined Process FunctionSE: Share EverythingSN:Share Nothing并行批处理/HadoopSQL、Java、Python多种计算模型(MR、图计算、)HDFS、SN分布式解决“大、杂”多类型数据复杂计算模型灵活编程接口MPP数据仓库SQL、UPF向量迭代、并行列存、SN分布式内存分析数据库SQL、UPFMicroEngine、并行列存、内存流处理引擎CQL、规则网状算子执行
6、内存解决“大、快”结构化数据快速查询、交互式实时查询One sizes fit all单一架构One sizes fit domain分离架构(四套系统)One stack rules them all融合架构(四套变一套)统一持久层,数据减少移动统一管理,实现资源共享和管理自动化同一数据可同时进行批处理、流处理以及查询多种计算模型解决“快、杂”异构流数据实时处理MPP DB高级编程接口批计算流计算分布式文件系统资源管理开发IDE系统管理数据挖掘算法/建模/其他工具 Hadoop已成为大数据事实标准第一阶段(20052009年):模仿Google的“三驾马车”,主导者是Yahoo!,Faceb
7、ook等互联网厂商,相关项目第二阶段(2009年):模仿Google的“新三驾马车”,主导者是Cloudera、Hortonworks等Hadoop发行版厂商,IBM、EMC、Intel、Huawei等传统IT厂商开始集成Hadoop,Haoop进入企业市场,相关项目第三阶段(2012年):博采众长,吸纳AMP Lab、流计算等成果,通过配套工具构筑大数据领域生态系统,形成事实标准;相关项目。6大Hadoop 发行版厂商Cloudera、Hortonworks、MapR、 IBM 、EMC、Huawei揭开Hadoop神秘的面纱Hadoop是Apache基金会的一个项目总称,主要由HDFS和M
8、apReduce组成。 HDFS是对Google GFS的开源实现,MapReduce是对Google MapReduce的开源实现。 Hadoop 来源于其创始人Doug Cutting的儿子给一头黄色大象取的名字。Hadoop最初只与网页索引有关,迅速发展成为分析大数据的领先平台。Hadoop 框架与实例HDFS 分布式文件系统Hadoop 框架HCatalog元数据管理HBase分布式列数据库HiveSQL查询语言Pig流数据处理语言MapReduce分布式数据处理框架&集群资源管理协调服务,分布式锁ZooKeepereHadoop Common分布式文件系统和通用I/O的组件与接口数据
9、源数据仓库日志文件媒体文件RSS分布式数据存储HDFS, 分布式数据处理数据应用QueriesAnalyticsSearchDatameerSqoop、Flume、Hadoop 实例HBase MapReduceHadoop 核心组件: HDFS 和 MapReduce海量数据的分布式存储海量数据的分布式处理大数据处理技术日新月异,更高效的计算框架不断涌现HDFSHadoop 1.0MapReduce集群资源管理 & 分布式数据处理HDFSHadoop 2.0YARN 集群资源管理批处理Off-line computation交互计算Tez (Hive/Pig)批处理M-R流处理Storm,S
10、4,迭代计算Spark其它Graph Spark :迭代计算模型Spark是UC Berkeley AMP 实验室基于map reduce算法实现的分布式计算框架,输出和结果保存在内存中,不需要频繁读写HDFS,数据处理效率更高Spark适用于近线或准实时、数据挖掘与机器学习应用场景Hadoop:两步计算,磁盘存储Spark:多步计算,内存存储VSSpark:大数据技术新方向Spark SQLSpark vs HadoopHadoop /Spark /是否开源成熟的开源项目开源,2013年8月申请成为Apache孵化项目文件系统HDFS支持HDFS、MESOS、S3等文件系统,可以直接将spa
11、rk集成到hadoop上,可以从hdfs读取和写入文件中间结果存储存储到磁盘内存存储Job定义Map-Reduce 两步计算DAG的Job定义,支持多步计算开发语言JavaScala、Java 、Python易用性Java API,无交互式界面提供丰富的Scala, Java,Python API及交互式Shell来提高可用性容错性数据冗余,任务失败重计算Checkpoint机制,RDD支持重计算性能频繁读写磁盘,低数据缓存内存,高应用场景适用于大数据量,迭代次数少,无时延要求的业务适用于中等数据量(TB级),需要多次操作特定数据集,且频繁迭代计算的数据业务场合未来发展第2代hadoop,融合
12、的分布式计算框架可插拔的job调度器/缓存管理策略Spark大数据栈-构建MLbase、Tachyon、GraphXStrom:流式数据处理引擎Hadoop:分批处理Storm:实时处理Storm 广泛应用于实时分析,在线机器学习,持续计算等领域。VSStorm 框架及实例Storm框架Storm实例大数据方案与实践方案介绍实践经验应对大数据的举措FusionInsight 大数据处理平台:解决“多”、“快”、“准”挑战运营商:用户维挽,精准营销金融:精准小微贷,实时征信,FusionInsight大数据处理平台(数据分析:预测分析,数据关联,语义分析,主题提取,特征管理,自动特征,IDE)(
13、数据管理:结构化,非结构化,半结构化,流)HadoopSparkStorm电信应用金融应用公安应用数据洞察 : 海量特征工程与建模FusionInsight Hadoop由来200720112013持 续 优 化 并 回 馈 社 区性 能 导 向 配 套 电 信可 靠 安 全 自 管 理,企业 发 行 版开源跟踪研究类组件配套GalaX HD独立发布FusionInsight HD大数据方案:提供大数据存储、处理、分析和消费平台 海量数据存储,批处理,迭代处理、实时流处理Manager统一管理RH2288通用X86服务器OceanStor 9000大数据存储数据洞察平台数据处理平台大数据基础设
14、施FusionInsight数据集成平台收集清洗转换特征/模型/挖掘/可视/服务业务相关的应用套件(业务逻辑/决策/安全/数据开放/可视)应用套件层电信详单查询、经分分析、精准营销银行全生命周期分析、历史明细、精准营销、在线征信与风控等行业应用公安卡口 数据分析情报分析人口管理FusionInsight:让数据“慧”说话全组件HA1000+KM容灾业内唯一 首家通过严 格的金融等保 HBase二级索引 HDFS、MR性能提升5倍以上1st可靠1st安全1st性能内核级团队社区持续贡献亚洲第一FusionInsight已成为金融和电信建设第二数据平面的首选平台1st服务征信:25秒或有资产精准推
15、荐金融脉络Storm企业版的关键在于工程团队的能力会使用Hadoop会定位周边问题会定位内核级问题(拔尖的个人)定位内核级问题的团队(依赖团队而不是精英个人)能够独立完成支撑关键业务特性的内核级开发能够带领社区,引领社区完成面向未来的内核级特性开发能够创建新的社区顶级项目,并且得到生态系统认可某大银行CIO:“我们把大数据应用视作是生命线,肯定是采用企业版,因为搞开源软件不是我们的主业。在选合作伙伴的时候,我们一定考虑门当户对,因为强有力的合作伙伴才能保证35年的供应、合作安全”强大的掌握代码的团队,才能造就成功的企业级数据平台软件Hadoop社区贡献全球第四,开源到企业级的蜕变安全版本配合配
16、置HadoopHBase日志性能调优基线选择补丁选择采纳社区精华,去除开源Bug:谨慎选择稳定基线版本认真评估高版本补丁影响范围评估和回合策略采用数万个测试用例,确保企业版本稳定性团队社区问题/补丁贡献2013年社区贡献最新统计,全球第四,亚洲第一No.4 & No.1ApacheHbase Contributors8Hbase Committer1HDFS Committer1HDFS PMC1年份提交解决20111109820121891552013207178数据分析和挖掘领域顶尖人才,多项创新研究成果倾向预测人物刻画主题提取关系估计特征管理分析自动特征构建戴文渊 中央研究院诺亚方舟实验
17、室主任,2012实验室首席科学家。引领国际“数据”科学的研究,特别是在数据挖掘、机器学习和人工智能等领域享有盛誉全面覆盖大数据领域关键技术南京研究所:ETL/实时决策(电软研发中心)深圳研发基地/香港:大数据分析平台(IT研发中心)大数据管理平台(IT研发中心)数据挖掘算法(诺亚实验室)印度研究所:Hadoop(中央软件院)数据可视化(中央软件院)MOLAP(中央软件院)美研所:MPP DB、TP DB(高斯实验室)MOLAP(中央软件院)Spark (中央软件院)欧研所:分布式内存 DB(中央软件院)分布式计算算法(法国、中央软件院)杭州研究所:Spark(中央软件院)流计算(中央软件院)招
18、商银行:构筑大数据平台向互联网金融转型银行业务竞争激烈,急需以金融数据分析、挖掘为基础的产品预测、创新和风险评估,提升自身竞争力面对金融数据量和种类不断增加,传统数据仓库仅适合结构化数据处理,扩展性差、扩容成本高,无法满足大数据时代要求客户挑战解决方案企业级大数据平台:高可靠、高安全、易管理、易开发第一家支持金融等保、第一家支持1000公里以上异地容灾 的海量数据分析和挖掘平台,无缝衔接企业应用拥有内核级开发的工程团队和咨询、定制化的服务能力客户价值统一的全量数据分析和挖掘平台丰富的创新业务:在线明细,精准营销,实时征信 小微贷获客预测,比传统方式提升40倍的转化率;或有金融资产预测误差率降低
19、一倍;信用卡征信由原来的15天提升到30分钟支持线性扩容,扩容成本低我们把大数据应用视作是生命线,一定是采用大数据平台企业版,搞开源软件不是我们的主业。在选合作伙伴的时候,我们一定考虑门当户对,因为强有力的合作伙伴才能保证35年的供应、合作安全” 招商银行CIO应用1:在线历史明细查询X86服务器X86服务器X86服务器X86服务器HDFSZooKeeperHBase/CTBaseProfile HadoopUPS 数据服务业务请求接入和分发分布式应用容器历史明细查询业务逻辑电话银行95555系统网点柜员系统在线历史明细查询解决方案:提供:FusionInsight UPS数据服务平台 + F
20、usionInsight Profile Hadoop基础数据平台解决方案,客户只需专注历史明细查询业务的编写FusionInsight UPS数据服务平台支持多业务系统并发访问,实现实时历史明细查询能力FusionInsight UPS数据服务平台同时支持Socket、Web业务请求接入和分发,与招行业务系统无缝衔接创新的CTBase方案,独有的表聚簇和多级索引支持HBase多表关联查询的能力HBase同时支持SQL、Java API编程接口,适应客户的编程习惯Manager统一管理Integration数据集成FusionInsight历史明细查询业务逻辑历史明细查询业务逻辑应用2:全量多
21、维度客户行为分析X86服务器X86服务器X86服务器X86服务器HDFSZooKeeperHBase/CTBaseMiner 数据洞察特征管理银行零售客户分析MRYARNHiveMahout算法库建模分析数据可视化用户特征刻画小微贷倾向分析银行对公客户分析企业舆情分析金融关系发现或有资产预测企业特征刻画企业结算关系Manager统一管理Profile HadoopIntegration数据集成全量多维客户行为分析解决方案:提供:FusionInsight Miner数据洞察平台 + FusionInsight Profile Hadoop基础数据平台的解决方案,客户只需专注客户行为分析业务的编
22、写FusionInsight Miner数据洞察平台基于大数据全量建模分析,可以挖掘出14000维客户特征,实现多维客户行为并发分析FusionInsight Miner数据洞察平台采用机器自动学习机制,大大提高分析准确度客户行为分析结果存储在HBase,供业务查询FusionInsight应用3:小微贷倾向分析 & 或有金融资产预测900万客户14000维客户特征小微贷倾向分析模型Top20000潜在小微贷客户,业务部进行针对性营销或有金融资产预测模型客户潜在或有金融资产明细客户项目收益客户行为分析历史明细查询统一集中存储5年20TB交易历史明细数据,便于管理和扩展多业务系统并发实时查询5年
23、交易历史明细数据,提升客户体验成就客户 实现共赢小微贷倾向分析采用机器学习机制+全量多维分析,替代传统专家经验机制+传统数据仓库模式转化量TOP864TOP8653TOP581071332974469662200机器学习专家规则客户或有金融资产预测误差率由60%降低到30%误差率60%30%TOP10000客户推荐成功转化率提高6倍或有金融资产预测大数据构建工商银行分布式日志收集+分析平台应对互联网金融的竞争,需要掌握网银用户的行为轨迹,精准营销,扩大销售;优化网银服务模块的质量,提升客户体验安全、运维操作日志的关联分析,提高故障发生时故障点定位的准确率,提升故障响应速度客户挑战解决方案企业级大数据平台
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 工业园区保洁员聘任合同
- 苗木采购合同范本
- 智能家居安装合同智能家居安装合同书
- 2024至2030年中国毛腈巢衫行业投资前景及策略咨询研究报告
- 2024至2030年中国墙壁豪华型开关数据监测研究报告
- 2024至2030年翅片式蒸发器项目投资价值分析报告
- 2024至2030年对异丙基苯硫酚项目投资价值分析报告
- 2024年中国花生粉末市场调查研究报告
- 2024年断熔器项目可行性研究报告
- 有机肥生产制造合同
- 市值管理十大经典案例
- 马克思主义基本原理概论课程论文
- 智能材料课件完整版
- 江苏500kV变电站软母线安装施工方案(附图表)
- 用样方法调查草地中某种双子叶植物的种群密度实验设计[实验报告]
- 《高等代数(一)》期中考试试题
- 锅炉英语对照
- 中海炼化惠州炼油分公司“7-11”火灾事故
- 初三数学 动点问题探究—几何图形中的动点问题教案
- 建筑门窗幕墙检测方案
- 国贸实务模拟实习
评论
0/150
提交评论