版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据自助式分析处理方案第1页议程大数据处理方案hadoop优势实际过往案例自助式分析方案第2页大数据企业品牌腾飞“肾上腺素”数据复杂度:多元性和速度TerabytesGigabytesMegabytesPetabytesBig DataWeb 2.0Web 2.0ERP/CRM付款薪资货存联络人订单跟踪销售管道Web 日志数字市场搜索市场网上推荐广告移动协作电子商务网页点击流Wikis/博客传感器/RFID/设备社交网络音频/视频日志文件空间 & GPS 坐标数据数据集市电子政务气候文本/图像Web 日志数字市场搜索市场网上推荐协作电子商务哪些是大数据第3页大数据处理方案-大型数据库(ORA
2、CLE)优势:技术人才能够复用。支撑总数据量100TB,且100GB以下数据实时多维度数据分析。开发效率比较高。开发成本比较低。产品稳定,后期维护简单。劣势:技术贮备要求高高昂硬件投资并行扩展非常困难。对海量实时多维度分析,基本不能支持。第4页大数据处理方案-分布式数据库(Mysql)优势:技术人才贮备能够部分复用。硬件投资成本能够控制。并行扩展比较方便。劣势:需要更高端架构师。海量数据处理架构需要重新开发。后期技术实现,维护成本高。第5页大数据处理方案-业内通用处理方案(hadoop/spark)优势:技术人才贮备多硬件投资成本能够控制并行扩展比较方便后期结合业务开发,实现稳定劣势:需要专业
3、方向性人才处理HDFS storm mahout朱成保企业内部系统数据互联网.ETLzookeeper集群HADOOPHDFSHBaseHiveMahoutStorm作业调度数据分析数据挖掘动态报表并行管理决议分析多维查询图表展示报表统计.第6页企业数据及商业智能平台进化-未来大数据存放OA视频、语音、图片.数据流数据仓库数据集市多维度存放数据服务分析应用其它存储服务使用CRMERP第7页HDFS:分布式存放YARN:分布式操作系统MapReducePigHiveImpalaMahoutRHadoopGiraphHamaFlumeSqoopAvroChukwaZookeeperBigTopWh
4、irrSearchHcatalogWebHdfsHttpFsHBaseCassandraDrillTezAccumuloStormSparkMesosPhoenixSharkHueAmbari/Cloudera ManagerHadoop优势-丰富组件第8页Hadoop优势-完善处理流程第9页为大数据而建新一代性能和规模最优化软硬件价值Hadoop优势-洞察任意大小数据第10页实际案例一 智慧能源背景:客户原来是从事硬件研发,每年营业额在5000万左右,伴随企业规模扩展,领导以为对硬件设备故障告警不够及时。对现有历史数据没法进行数据整合与挖掘。造成决议迟缓,故障不能够预设告警。数据已结构化数据
5、为主现在:新平台改造:Hadoop(10)+redis(2)+mysql(4)硬件故障从原来半小时监控,提升到现在,故障预先告警,发生故障2分钟告警到用户,分析决议效率大大提升支撑现在数据有50+(采集点)*500+(采集源),每秒处理并发数实时数据条天天处理数据量实时数据200G,历史综合数据1T。第11页实际案例一 智慧能源背景介绍大数据存放(10)交换机数据源监控设备数据源数据流mysql(4)数据仓库多维度存放数据服务分析应用其它存储服务使用数据接入程序redis异常存放(2)第12页实际案例二 互联网舆情背景:客户需要对互联网金融服务服务企业和相关行业做到实时监控,并有效挖掘互联网上
6、客户资源。数据已非结构化数据为主现在:我企业提供相关互联网数据爬取,并对数据初步ETL后,传入到客户。客户平台组成:Hadoop(15)+oracle(2)能够30分钟左右监控指定贷款客户互联网 舆情。能够对地域与行业进行综合评定与预测天天发送到客户数据100G,天天分析数据维度40个,综合处理1T数据。第13页企业数据及商业智能平台进化-互联网舆情大数据存放(15)非结构化数据源(新闻,博客,BBS,微博)数据流(图像、视频)oracle数据仓库数据服务分析应用其它存储服务使用类结构化数据Hdfs,Hbase,MapReducehive第14页实际案例三 大型国企背景:客户是一个省级运行商,
7、需要对历史客户话单,LBS,流量信息进行分析。数据维度非常多,需要综合考虑数据量比较大。现在:客户平台组成:Hadoop(40)+oracle(4)+mpi(6)天天分析数据维度100个,1T数据,要求2小时完成复杂数据挖掘分析。第15页企业数据及商业智能平台进化-某国企统计分析大数据存放(40)话单数据源LBS数据源网络数据源数据仓库oracle数据服务分析应用其它存储服务使用其它数据源MPI密集分布式计算(6)第16页大数据处理方案-大数据一些疑问实时要求性是否高数据应用满足什么样要求?数据组成?数据运算维度数量?第17页Hadoop = Big Data?第18页思想举例决议分析,销售分
8、析,为企业整体发展战略创造价值角色数据挖掘,决议分析,销售分析业务创新和算法能力血液举例成熟分析、视觉化以及数据管理全新生态系统角色云计算,数据模型设计数据建模和管理能力骨髓举例Hadoop,HPCC和NoSQL等角色硬件平台,集群布署硬件存放和计算能力“大数据”能力第19页大数据平台总体架构Source SystemsBig Data Sources (Raw, Unstructured)Alerts, NotificationsERPCRMLOBAPPSOracle/Mysql StreamInsightETL with SSIS, DQS, MDSOracle/Mysql FTDW Da
9、ta MartsOracle/Mysql Reporting ServicesOracle/Mysql Analysis ServerBusiness InsightsInteractive ReportsPerformance ScorecardsCrawlersBotsDevicesSensorsredis. . .Hadoop ClusterstromMPIMapReduceMPIMPI第20页主要组件选择标准节点数量设计标准Redis组件是否有基础分析实时监控告警数据单个Redis节点数据容量不要超出20Hadoop组件大数据基础组件单个数据节点,热数据不要超出1TMPI需要40个维度以上,复杂数据挖掘与分析匹配数据内存与CPU组件选型标准第21页节点计算公式单个节点内存8G-16GCPU2.5Ghz数据提取能力(M/分钟)480数据处理量预计维度10个(M/分钟)35处理步骤复杂度2.4数据网络与数据交换系数1.4处理为1G,预计时间(分钟) =(1024/D5)+(1024/D6)*D7*D8100.
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年碱式硫酸铬项目成效分析报告
- 2024至2030年中国车载型农药残毒速测设备数据监测研究报告
- 2024至2030年中国皮鞋美容机数据监测研究报告
- 2024至2030年中国电脑开料硬质合金锯片数据监测研究报告
- 2024至2030年中国卧式镗铣加工中心数据监测研究报告
- 2024至2030年攀登作业包项目投资价值分析报告
- 2024年中国触摸延时开关市场调查研究报告
- 2024年压线帽自动装配机项目可行性研究报告
- 2024年人参提取物项目可行性研究报告
- 2024年制粒干燥设备项目立项申请报告
- GB/T 44340-2024粮食储藏玉米安全储藏技术规范
- 点亮文明 课件 2024-2025学年苏少版(2024)初中美术七年级上册
- 膀胱过度活动综合征
- 建设用地土壤污染风险筛选值和管制值(基本项目)
- 销售心态 培训课件
- 垃圾渗滤液处理站运维及渗滤液处理投标方案(技术方案)
- 2024年政府采购评审专家考试题库含答案
- 2024届广西南宁市三中高三第一次适应性考试历史试题及答案
- 高职建筑设计专业《建筑构造与识图》说课课件
- 音诗音画-《沃尔塔瓦河》课件 2024-2025学年人音版初中音乐八年级上册
- 2024年供应链管理师技能竞赛理论考试题库(含答案)
评论
0/150
提交评论