大数据应用实践–Vertica技术和案例分享精选_第1页
大数据应用实践–Vertica技术和案例分享精选_第2页
大数据应用实践–Vertica技术和案例分享精选_第3页
大数据应用实践–Vertica技术和案例分享精选_第4页
大数据应用实践–Vertica技术和案例分享精选_第5页
已阅读5页,还剩16页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、惠普大数据驱动IT新形态软件集团中国惠普有限公司在信息化时代,大数据就是石油,这已成为业界的共识!大数据:基于海量、多样化的交易数据、交互数据与传感数据,通过快速获取、处理、分析等一系列手段以从中提取价值的技术、产品及服务。海量化Volume多样化Variety快速化Velocity价值化Value大数据时代到来大数据分析需要一个统一的解决方案一个能够分析结构化、非结构化和半结构化的完整数据分析平台捕获存储管理分析优化半结构化数据IT日志,安全日志,社交媒体等结构化数据CRM,交易,销售,市场等非结构化数据音频、视频、email、情感,威胁等100%的数据分析能够实现基于创新的分析用例正在削减

2、结构化、非结构化和半结构化数据量各行各业都存在着大数据机会政府电信制造医疗保健情感分析社会化客户关系管理/网络分析减缓客户流失品牌监控忠诚度和促销分析Web应用优化营销活动优化品牌管理 社交媒体数据分析价格优化内部风险评估 客户行为分析物流优化点击流量分析影响者分析IT基础设施分析法律发现设备监控企业搜索药物开发科学研究疗效分析供应链优化缺陷跟踪RFID关联保修管理广播监控防止客户流失广告优化辅助执法舆情分析流量优化横向用例资料来源:IDC:2012年“全球大数据技术和服务市场预测:2011年至2015年”;Gartner:2012年”大数据驱动基础设施快速变化,到2016年IT支出将达到23

3、20亿美元”金融欺诈检测防洗钱风险管理能源 气象预测天然资源勘探惠普大数据分析平台 - HAVEn社交媒体IT图像音频视频交易移动搜索引擎邮件文本大规模分布式数据存储和处理Hadoop/HDFS流程化、索引化所有信息AutonomyIDOL实时分析超大数据集Vertica采集和利用所有机器数据Enterprise SecurityHP Software+ n个用户应用nApps文档Framework to store and analyze unstructured data什么是Hadoop?Hadoop Distributed File System (HDFS)Self-HealingH

4、igh Bandwidth Clustered StorageMapReduceDistributed Computing FrameworkHadoop实现了一个分布式文件系统(Hadoop Distributed File System),简称HDFSApache Software Foundation 公司于 2005 年秋天引入项目, Hadoop原本来自于谷歌一款名为MapReduce的编程模型包Cloudera是一家企业软件公司,该公司在2008年开始提供基于Hadoop的软件和服务Hadoop是一个开源的,用于分析非结构化数据分析软件平台 Hadoop是可靠、高效和可伸缩的强有力

5、的数据管理与分析,集成的解决方案HP大数据核心产品处理非结构化和“人类”信息数据,无比强大的理解能力AutonomyIDOL极速高扩展性的实时分析Vertica收集、存户和分析机器数据管理超大规模的分布式数据Hadoop/ HDFSArcSight Logger 技术支持和咨询服务HP Hadoop solutions用户界面SQL兼容分析数据处理HP AppSystem for Apache Hadoop HP Hadoop Reference Architectures语义分析数据分析日志机器生成数据结构化Connectors数据源ERP, CRM社交媒体电子邮件通话记录视频音频Hadoo

6、p ApplicationsVerticaAutonomy业务用户Source: HP.com非结构化完备的大数据分析平台结构化数据过去2个月每周超过5次电话掉线的客户在数据库中通过CRM和CDR的查询得到匹配的客户在非结构化数据源中查询到所有来自电话、聊天、email等工具的客户抱怨非结构化数据QA过去3个月中表达过抱怨的客户VerticaVerticaVertica大数据支撑的智能客服典型案例常见数据库的定位数据量高低传统OLTP系统作业类型单行数据实时性高低批量混合型场景传统数据仓库大数据分析DPF业界最优秀的MPP列式数据仓库: HP Vertica-出自数据之父的Stonebrake

7、r -数据库先驱 : MichaelMichael StonebrakerVertica Co-Founder伯克利加州分校 1971 2000Ingres, 1973年,第一个关系数据库,最早运行于DEC Unix,80年代,以BSD 许可免费发行,应用发展迅速,2005年成立独立公司,其中项目成员Robert Epstein基于Ingres的代码开发了Sybase, 随后,Sybase代码作为Microsoft SQL Server基础.Postgres, 80年代Ingres之后,BSD-like 许可,支持面向object relational programming model ,支

8、持optimizer, query language, runtime, and indexing frameworks,从PostgreSQL发展过来的数据库产品有EnterpriseDB, and Greenplum. 也包括Illustra ,后被Informix收购。MIT 2000 VERTICA, 分布式MPP列式数据库SCIDB, 2008,用于科学研究计算高速、可扩展、开放与低成本Vertica 专为大数据架构的实时分析平台新一代自动优化和管理工具真正的列式数据库原生支持高可用并能更好地优化性能无共享MPP架构列式存储和计算主动压缩并行装载和查询弹性集群高可用实时分析融合存储S

9、QL标准高级分析用户自定义分析扩展半结构化数据快速探索HADOOP无缝集成X86工业化标准服务器快速50 x 1000 x性能提升高可扩展(Scalability)TBs10PBs间在线扩展简单(Simplicity)高压缩率压缩率一般为10:1,节约90%的存储空间Vertica硬件参考配置服务器 DL380p Gen8基本配置最少3个节点,提供12TB的可用容量可按4TB/node扩展至任意数量高级配置 最少3节点,提供30TB的可用容量可按10TB/node扩展至任意数量万兆/千兆网以太网络 50 TB 30 TB 20TB 10 TB根据裸数据量规划 高级配置高可用最小配置基本配置高可

10、用最小配置2 x Intel Xeon E5-2670/2680/2690128GB Memory2 x 300Gb 10K SAS for OS/Vertica App14 x 600GB 10K SAS for data2 x Intel Xeon E5-2670/2680/2690128GB Memory2 x 300Gb 10K SAS for OS / Vertica App22 x 900GB 10K SAS for dataHP ConvergedSystem 300 for Vertica主要配置42u rack - BW904A Shock Intelligent Rack

11、(1)Network switches - HP 5900AF-48XGT (2)Management nodes - HP ProLiant DL360p Gen8 servers(2) w/ Vertica 7 MC & HP CMUVertica Server nodes - HP ProLiant DL380p Gen8 servers (4, 8, 12 or 16) w/ RedHat Linux 6 & HP Vertica 7每台数据库节点配置2x Intel Xeon E5-2690 v2(3.0GHz/10 cores)8x 16GB 2Rx4 PC31x 2GB raid

12、 controller2x 300Gb 10K SAS for OS / Vertica App23x 600GB 10K SAS for data1x Ethernet 10Gb 2P 561FLR-T FIO Adptr按需动态扩展软硬件服务一体机全球最大社交网络平台?25亿内容分享3亿照片新增数据提供超过600节点以上的分析集群支持10-100PB 详细数据的分析能力实现精确的营收分析,用户行为分析和广告效率分析月度活跃用户人数11.5亿“赞”27亿500TBHadoopFacebook系统架构Wormhole(State) 高速流消息队列Logger(Events)PumaHBASE流

13、处理平台Giraph用户关系分析EDWScuba内存实时分析关系型数据源其它为什么Facebook选择MPP日益增长的分析需求Map/Reduce(Hive)太慢,而且大多数分析需求安全性无法保证In-memory技术太贵而且不成熟Oracle的DW速度还行,但容量太小当前大小:100TB,不到Hive的0.1%需要3-5PB才能满足要求需要一个大型的MPP数据库有更多分析的功能能保证数据安全能提供系统的稳定性能够通过深度分析数据来提升收入、产生新产品(这些在现有平台无法实现)业务分析的需求营收分析 进行时间序列分析, 精细分析各产品的营销时间段的用户行为分析 一年期间的用户行为变化不同终端的

14、用户行为分析 PC与移动设备广告效率分析 广告过多还是不足 ?营收分析 不同地理区与产品需求分析精准营销预测模型当前项目状态(2013年底)Phase A 2013年9月已经完成,4个集群,200TB数据,100个节点核心收入数据核心站点合约数据Tableau整合Phase B(B代表Big) 2014年,全部硬件上线,300台/2个集群,10PB全部详细数据准实时入库,20TB / 小时容灾全BI套件数据科学家(Data Science)工具(python,R)未来3年内达到20PB医疗创新拯救生命,节省金钱5400万用户,35亿人月的医疗保健数据客户需求不可预知,批处理队列长借助Vertica,响应时间缩短到几分钟/几秒,批量等待时间为0现在被用于医疗保健费用、慢性病预防、索赔欺诈检测、非品牌药物的使用等方面的建模“开始时使用一个研究项目做试验,查询结果返回得如此之快,我们还以为查询失败了呢!如今我们已将整个分析堆栈迁移到 Vertica!很高兴成为 Vertica 用户。”Doug

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论