版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
英特尔大数据平台最佳实践提纲大数据带来的挑战大数据案例介绍Intel大数据平台2BigBigData云计算技术是处理大数据的有效手段大数据和云是两个不同的概念,但两者之间有很多交集。支撑大数据以及云计算的底层原则是一样的,即规模化、自动化、资源配置、自愈性,因此实际上大数据和云之间存在很多合力的地方。大数据应用是在云上跑的、非常典型的应用。——大数据处理离不开云大数据时代-数据爆发性增长4IDC预测全球的数据使用量到2020年会增长44倍,达到35.2ZB(1ZB=10亿TB)*Source:McKinseyGlobalInstituteAnalysisSGCrossAssetResearch,PwC宽带、移动网络普及和提速移动网络和各种智能终端视频(医疗影像、地理信息、监控录像等)统计、分析、预测、实时处理传感器、RFID阅读器、导航终端等非传统IT设备社交网络(Facebook,Twitter,微博等)大数据处理速度要求越来越高Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010大数据与海量数据的一个重要区别,在于不但数据尺寸大,而且对数据处理的响应速度有有着更高的要求传统的以周,天,小时为单位的运算处理周期,下降到以分钟,秒为单位大数据高价值的重要体现-处理速度ValueHighutilityDiminishingutilityArchivalvalueTimeHighLowNegative数据的多样性Source:IDCDigitalUniverseStudy,sponsoredbyEMC,May2010数据形式的多样:结构化数据,数据间有很强的因果关系半结构化数据,数据间因果关系较弱非结构化数据,数据间无因果关系数据来源的多样性:不同的应用系统各种设备互联网其它Flatfile创造显著业务价值(VALUE)©Copyright2011EMCCorporation.Allrightsreserved.大数据分析显著的业务价值
3V特性驱动下创建
挖掘数据资产价值,通过数据驱动业务,变成本中心为利润中心智慧城市-典型的大数据应用集合2023/1/118大数据处理导致的平台瓶颈RequiredScalabilityRapidAdoptionBigMathBigData“Moore’sLaw”Scalability数据处理需求与传统平台硬件扩展的差距不断扩大IndustryProgress大数据处理需要的扩展能力大数据分析不同于传统BI分析
结构化数据数据规模一般为TB规模集中式,为了分析进行大量数据移动,数据向计算靠近批处理为主结构化/非结构化混合分析的能力数据规模从数十TB到PB级别分布式,计算向数据靠近支持流式分析事务关系型数据库批处理数据仓库分析集群化非结构化流式多种数据源分析(MapReduce)组织传统BI分析大数据分析Examples:TelcoGovtFinanceWeb分布式式数据据平台台与传传统数数据平平台融融合RawDataHadoopCluster(HundredsofTB’stoPB’s)ExistingDataWarehouse(HundredsofTB’s)ApplicationsandTools(Modelingon100’’sofTBstoPB’s)StructuredDataSemi-StructuredDataBI/StatToolsHistorical/Archival/EventLevelAggregated/EnrichedSummary/InteractiveETLDataEnrichmentDirectQueryDirectqueryDirectModeling提纲大数据带来的的挑战大数据案案例介绍绍Intel大数据平平台12联通3G详单查询询-问题来源((1/2)随着移动动互联网网业务的的发展,,上网记记录查询询成为用用户投诉诉的焦点问题来源源目前,中国联联通省分分公司3G客户数据据流量问问题争议议占3G业务投诉诉达7-10%,且近几个个月呈上上升趋势,,个别省省分比例例高达20%一些用户户对3G业务流量量产生及及计费方方式不了了解,主主观认为为自己未未使用或或使用较较少数据据流量,,要求运营营商提供供上网记记录,而现有有系统不不具备此此功能,,从而导导致投诉诉升级。3G流量费争争议占总总咨询投投诉量比率上网记录查询对中中国联通通的业务务发展产产生了较较大的影影响影响对用户而言言:“…要是能查查到流量量是和谁谁发生的的就好了了,如果果是手机机的问题题,我也也才知道道今后怎怎么防范范,现在在连防范范谁都不不知道,,谁知道道下次还还会不会会发生类类似问题题?”对运营商而言::根据中国国联通客客户服务务部门提提供的数据,,目前移移动业务务每万元元收入,,因无法法提供上上网详单单造成的的退费和和赔付约约60.1元;如果问题题得不到到根本解解决,将将会影响运营商按流量计费费的资费费模式,,对运营商商3G业务的开开展将产产生较大大影响用户上网网记录数数是个海海量数据据,不仅仅投资巨巨大,传传统的电电信业解解决方案案根本无无法提供供该服务务案例某iPhone合约计划划用户,,在凌晨晨零点到到4点之间手手机产生生巨额流流量费在其得知因因受计量量设备限限制无法法向其提提供数据据流量去去向后,竟上升升到司法法诉讼层层面联通3G详单查询询-问题来源(2/2)移动用户户上网记记录集中中查询与与分析支支撑系统统建设上网网记录集集中查询询与分析析支撑系系统意义义重大查询为客户服务人员员提供客客户上网网记录快快速查询询服务,,解决流流量投诉诉问题为用户提提供准实实时的异异常大流流量上网网记录自自助查询询服务分析对数据流量量进行统计终端分析::iPhone、iPad、其他智能手手机分布,新终终端推广广效果分分析热门流量量、热门门网站((业务)网络分析析:2G/3G基站流量量分析,,网络优优化数据挖掘掘根据流量量分布,,分析用用户群特特征提供套餐设设计参考考,优化化用户体体验通过感知知业务态态势,制制定市场场策略,,指导业业务产品品开发,为市场营营销提供供丰富的的数据支持移动互联联网处于于快速发发展期::每6个月,流流量翻一一番移动互联联网用户户快速增增加,智智能终端端迅速普普及、户户均流量量显著增增长,上上网记录录数据将将进一步步猛增难点分析析上网记录录是海量量数据用户每月月的上网网记录约约几万至至数十万在Gn(SGSN与GGSN之间)接接口上部部署采集集设备来来生成用用户上网网记录用户手机机访问一次次网页,,约会产产生数十十条,甚甚至数百百条请求求,意味味着产生生数十条条和数百百条上网网记录访问手机机新浪网网首页,,约产生生20条记录访问新浪浪iPad首页,约约产生40条记录在iPad中看一条条新浪新新闻,产产生超过过180条记录访问淘宝宝触摸屏屏版,约约产生60条记录大量的DNS查询、推推送服务务记录((如苹果果通知服服务)等等以中国联联通某省省分公司司为例,,日均上上网记录录数近10亿条,每每月数据据量近9TB,31个省份数据量12T/day难点分析析采用关系系型数据据库进行行上网记记录的存存储已不不可行采用何种种方式进进行存储储和检索索是一个个问题存储:如此大的的数据量量已经超超越了当当前关系系型数据据库可管管理的容容量上限限查询:关系型数数据库上上对大规规模数据据进行操操作会造造成系统统性能严严重下降当数据集集和索引引变大时时,传统统关系型型数据库库如Oracle、Sybase,在对大大规模数数据进行行操作会会造成系系统性能能严重下下降,因因为在处处理数据据时SQL请求会占占用大量量的CPU周期,并并且会导导致大量量的磁盘盘读写,,性能会会变得让让人无法法忍受成本小型机++高端存存储+关系数据据库成本导致扩扩展困难难移动用户户上网记记录集中中查询与与分析支支撑系统统系统构成系统采用用全国集中中的一级级架构方方案进行行建设,,主要包包含数据据采集子子系统、、数据入入库子系系统、数数据存储储子系统统、数据据查询与与分析子子系统基本技术采用Hadoop/HBase作为上网网记录存存储方案案采用MapReduce/Hive作用统计计分析和和数据挖挖掘工具具关键性能指标解决方案数据查询上网记录查询询速度:不高于于1秒(不含含用户访访问查询询页面的的时间))支持并发发查询数数目:1000请求/秒数据存储上网记录录入库时时间:一一般小于于30分钟,实实际约10分钟具备存储储全国移动动用户不小于6个月的原原始上网网记录能能力历史5个月+当前月统计分析析的中间间报表数数据保存存不小于于5年全国集中中的一级级架构,,电信行行业首次次将Hadoop/HBase引入到商商用电信信服务系系统建设设中系统部署署19系统部署署两路x86服务器((基于Intel®XeonE5600系列处理理器)NameNode节点:3台DataNode(数据存储储节点):178台Zookeeper节点:7台集群监控节点:1台入库服务务节点::24台Web查询应用用服务节点:20台网络交换换设备机框间通过万万兆交换换机连接接,以完成快速的数数据交换Intel®Hadoop发行版满足高性性能的数数据导入入和快速速查询。。稳定、易于于部署和和管理的的企业级级方案。。移动用户户上网记记录集中中查询与与分析支支撑系统统20某市智能交通应应用举例例视频云计算/云服务视频云服服务中心心可以实实时掌控控任一车车辆的行行驶,运运行轨迹迹、分析析车辆是是否违章章视频云服服务中心心对海量量的交通通信息进进行比对对、分析析和预测测,为车车辆布控控、分析析拥堵状状态,出出行最优优路径规规划、交交通管理理服务智能交通通系统实实时监控控城市的的交通状状态,将将各个路路口的车车辆实时时抓拍、、传输到到视频云云服务中中心面临的挑挑战年过车信息息数据量量达数百亿级记录规模模市局和区区县的数据中心心两级架构,分布式存存储,集集中管理理。支持多条条件组合快速查询:卡口名名称、车车道名称称、车辆辆类型、、车牌类类型、车车牌号码码、车身身颜色、、车牌颜颜色、车车速范围围、车长长范围、、号牌段段范围、、时间范范围。支持海量过车车信息的的模糊匹匹配检索索。支持各种种统计分析析、数据挖挖掘:车辆违章率统统计、过过车识别别率统计计、套牌牌分析、、关联性性分析、黑名单单等过车记录单个区数据中心全市数据总和每秒钟~6MB/s1200条记录/s120MB/s24000条记录/秒每小时~20GB/hour432万条/小时~400GB/hour8640万条/小时每天~480GB/day1亿条/天~9.6TB/day20亿条/天每月~14.4TB/month30亿条/月~288TB/month600亿条/月三个月~43.2TB/3months90亿条/三个月~0.8PB/3months1800亿条/三个月违章车辆图片数据单个区数据中心全市数据总和每小时~1.8GB/h36GB/h每天~43.2GB/day~864GB/day每月~1.2TB/month~24TB/month三个月~3.6TB/3months~72TB/3months基于英特尔Hadoop技术方案解决了海海量过车车信息((结构文文本+图片)存存储问题题。解决了分分布式数数据查询询问题。。系统提供供了易于于使用的的API,方便进进行二次次开发。。系统做了了较多优优化,性性能很好好的满足足了项目目的实时时性要求求。系统的稳稳定性好好。智能交通通应用技技术架构构图某市智慧慧交通信息系统架架构基于海量量数据进进行车辆辆轨迹分分析实时路况况信息区域号牌牌管理碰撞分析。。。。。。。。。。。。。某市智慧慧医疗提纲大数据带来的的挑战大数据案案例介绍绍Intel大数据平平台27提供高效效的计算算芯片、、存储、、I/O、网络技技术,加加速大数数据价值值挖掘与提高决决策反应应基于x86平台,提提供最优优的软件件和工具具,推动动大数据据应用的的部署和和创新促进大数数据生态态系统的的建设,,与广泛泛的合作作伙伴合合作,与与中国共共成长企业大数数据平台台构建中中英特尔尔的角色色投资大数数据解决决方案的的研究和和服务什么是Hadoop?开源Apache项目,灵感来源源于Google的MapReduce白皮书和和Google文件系(GFS),Yahoo完成了绝绝大部分分初始设设计和开开发Hadoop核心组件件包括:-分布式文文件系统统-Map/Reduce––分布式计计算用Java编写运行平台台:Linux,MacOS/X,Solaris普通的X86硬件平台台ShuffleMapReduceHadoop与“大数数据”Hadoop是致力于于“大数数据”处处理的最最重要平平台之一一能够轻松松扩展到到PB级别的数数据存储储,处理理规模带有容错错功能的的并行处处理架构构基于普通通的X86平台硬件件架构,,硬件成成本低廉廉用内置格格式存储储/处理数据据基于开源源项目,,拥有当当量的代代码来源源,并且且传统厂厂商也日日益重视视对其的的支持,,它已经经成为重重要的并并行处理理架构标标准之一一越来越多多的企业业接纳Hadoop2007200820092010TheDatagraphBlogSource:HadoopSummitPresentationsIntel提供企业业级的Hadoop产品IntelHadoop经过测试试和验证证的稳定定版本,,在生产产环境成成功部署署运营包括了Intel针对现有有客户在在实际使使用中出出现问题题的解决决方法以以及改进进和优化化基于Intel在云计算算研发上上的经验验积累,,提供专专业的咨咨询服务务,帮助助构建高高可扩展展高性能能的分布布式系统统结合Intel的硬件部部门,提提供全面面的软硬硬件解决决方案为Intel硬件平台台进行优优化,提提供更高高性能。。ComplexMPPSystems(<50TB,real-timeanalytics)ApacheHadoop(Petabytes,batchanalytics)优化的大数据处理软件栈稳定的企业级hadoop发行版利用硬件新技术进行优化HBase改进和创新,为Hadoop提供实时数据处理能力针对行业的功能增强,应对不同行业的大数据挑战Hive0.9.0数据仓库Sqoop1.4.1关系数据ETL工具Flume1.1.0日志收集工具Intel
HadoopManager2.0安装、部署、配置、监控、告警和访问控制Zookeeper3.3.5分布式协作服务Pig0.9.2数据流处理语言Mahout0.6数据挖掘HBase0.90.6实时、分布式、高维数据库Map/Reduce1.0.3分布式计算框架HDFS1.0.3分布式文件系统33英特尔企企业级Hadoop堆栈英特尔企业级级Hadoop数据平台台特点2022/12/3134更高性能基于Hadoop底层的大大量优化化算法,,使应用用效率更更高、计计算存储储分布更更均衡系统安装装程序计计算得出出的参数数配置,,适合大大多数应应用情况况与硬件技技术相结结合,提提高平台台性能稳定运行行全面测试试的企业业级发行行版,保保证长期期稳定运运行集成最新新开源的的和自行行开发的的补丁,,用户可可以及时时修正漏漏洞保证各个个部件之之间的一一致性,,使应用用顺滑运运行易于管理理提供独有有的基于于浏览器器的集群群安装和和管理界界面,解解决开源源版本管管理困难难的问题题提供网页页、邮件件和短信信方式的的系统异异常报警警功能增强强提供跨数数据中心心的HBase数据库虚虚拟大表表功能实现HBase数据库复复制和备备份功能能其他针对对企业用用户需要要的增强强功能英特尔Hadoop与开源Hadoop比较英特尔产品增强开源系统原始实现针对HDFS数据节点的读写选取提供高级均衡算法,提高系统扩展性,适合不同配置服务器组成的集群简单均衡算法,容易在慢速服务器或热点服务器上产生读写瓶颈,最慢服务器成为系统性能瓶颈根据读请求并发程度动态增加热点数据的复制倍数,提高Map/Reduce任务扩展性无法自动扩充倍数功能,在集中读取时扩展性不强,存在性能瓶颈为HDFS的NameNode提供双机热备方案,提高可靠性NameNode是系统的单点破损点,一旦失效系统将无法读写实现跨区域数据中心的HBase超级大表,用户应用可实现位置透明的数据读写访问和全局汇总统计无此功能,无法进行跨数据中心部署可将HBase表复制到异地集群,并提供单向、双向复制功能,实现异地容灾没有成熟的复制方案在HBase中,根据数据局部性、服务器Region数、表的Region数来实现负载均衡,适合多用户共享集群创建多张大表的应用只根据Region数量进行负载均衡,容易产生系统不均衡基于HBase的分布式聚合函数,比传统方式提高10倍以上效率无成熟方案实现对HBase的不同表或不同列族的复制份数精细控制无此功能HBase的MajorCompaction精细控制简单算法,容易产生合并风暴Intel对hadoop的性能优优化2022/12/3136为企业级应应用而优化化:优化化后的HBase与开源版本本的性能差差异性能数据在在8台服务器组组成的小规规模集群上上测试得到到服务器配置置:E5-26808核CPU,64GB内存,8块7200rpmSATA硬盘,千兆以太网网query/sinsertion/s基于HBase数据库平均每秒每每服务器插插入10000条记录(双路,32GB)(每条记录大大约1KB)数据查询:平均每秒每每服务器大大于400次查询,查查询时延小小于1秒(在不同压力力下0.05秒~0.8秒)每次查询返返回一个用用户一个月月的移动详详细记录异步复制异步复制跨数据中心心大表2022/12/3137全局局虚虚拟拟大大表表大表表数数据据分分区区存存放放在在物物理理分分中中心心多个个分分中中心心位位于于不不同同地地理理位位置置分中中心心之之间间由由网网络络互互连连接入入任任何何分分中中心心可可访访问问全全局局数数据据高可可用用性性适合合本本地地高高速速写写入入分布布式式聚聚合合计计算算,,避避免免大大数数据据传传输输虚拟大表异步步复复制制分中中心心A分中中心心B分中中心心C2022/12/3138直观观集群管管理理工工具简简化化管管理理专为为Hadoop优化化的的硬硬件I/O:非非标标准准主主板板设设计计支支持持最最大大I/O电源源::高高效效((80+白金金))热热插插拔拔冷冷冗冗余余电电源源能效效::双双CPU分散散型型设设计计降降低低散散热热功功耗耗内存存::最最大大容容量量适适应应BigData需求网络:新一代代Intel四网络口千兆兆以太网存储:支持多多种硬盘数量量模式,支持持最大存储容容量,适应BigData需求新一代英特尔®服务器主板产品
S2600GZ“GrizzlyPass”新一代英特尔®服务器系统产品
R2000“BigHornPeak”电源:高效冗冗余电源高密度:4-Node-in-2U,适用于计算算密集型节点点,高效空间利用,,降低TCO灵活:3种主板SKU提供不同计算算能力新一代英特尔®服务器主板产品S2600JF“JeffersonPass”
S2600WP“WashingtonPass”新一代英特尔®服务器系统产品
H2000“BobcatPeak”RAS:单节点独立立散热内存:按需选选择不同内存存插槽数量网络:FDR/QDRInfiniBand高速互联I/O:3至4个PCIEGen3x16I/O易维护性:服服务器节点热热插拔3214容量型大数据据设备设计参参考SpecificationDetail单一机架设备可支持20节点服务器Pernode:
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 个人和公司借款合同2024年
- 2024年工厂厂房的房屋租赁合同范本
- 2024年会计公司财务记账合同范本
- 2024年品牌特许经营合同书其三
- 2024年酒店公寓租赁合同
- 2024年民间借贷合同书
- 2024年村环境卫生承包合同
- 2024年简单购房合同样本
- 烤明治机项目可行性实施报告
- 2024年公司员工雇佣合同样本
- 完整版住宅小区室外配套监理细则
- 导游专业职业生涯规划书
- 2020年牛津译林版9A英语九年级上册Unit3-4-单元测试题(含答案)
- 科研伦理与学术规范期末考试
- 2023年体育单招数学真题及答案
- 《品牌视觉设计》课程标准(包含课程思政元素)
- 奢侈品管理概论第7章中国奢侈品市场概论
- 篮球赛参赛安全应急预案
- 厨房设备操作与维护
- 七年级(上)道法-重点知识点归纳
- 沪科版八年级数学(上)期中考试基础知识总结
评论
0/150
提交评论