大数据与绿色数据中心_第1页
大数据与绿色数据中心_第2页
大数据与绿色数据中心_第3页
大数据与绿色数据中心_第4页
大数据与绿色数据中心_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据与绿色数据中心未来45分钟4组关键词大数据特点(4个V )CAP理论业界三类数据库数据中心-PUE2大数据在中国大数据 新一轮“信息革命”Data Growth Statements Mckinsey Global Institute200PB/季度智慧城市数据中国某一线城市2090亿2021年RFID标签销售量 2011年是1200万1.8ZB in 20112天的数据量 文明起始到2003年3.88亿/5.3亿移动/互联网用户中国 2012年6月$8000亿10年个人位置信息服务创造的价值5PB/年健康档案数据中国某一线城市“数据日益成为商业的新源材料: 一种与资本和劳动力并列的新经

2、济元素.” The Economist, 2010“信息将成为21世纪的石油”. Gartner, 20103速度Velocity数据量Volume多样化Variety传统数据大数据GB - TBTB - PB以上数据量稳定,增长不快持续实时产生数据,年增长率超过60主要为结构化数据半结构化,非结构化,多维数据大数据技术将被设计用于在成本可承受(economically)的条件下,通过非常快速(velocity)的采集、发现和分析,从大数据量(volumes)、多类别(variety)的数据中提取价值(value),但是传统关系型数据库存在性能、存储、成本、IO瓶颈、等等的原因,无法支撑这4个

3、V+1个E的要求,解决方法就是分布式技术、廉价的X86平台、本地存储,点出分布式技术是大数据处理的核心大数据在中国大数据 四大区别于传统数据的特征统计和报表价值Value数据挖掘和预测性分析4CAP原理AAvailabilityCAP理论一个分布式系统不可能满足一致性、可用性和分区容错性这三个需求,最多只能同时满足两个Eric BrewerCConsistencyPPartition ToleranceConsistency 一致性所有的用户都可以看到一致的系统状态Availability 可用性无论何时,哪怕出现硬件故障,数据中心故障,系统也可提供服务,哪怕是降级的服务Partition T

4、olerance 分区容忍性哪怕在网络出现分割的情况下,各个独立的子系统都可以继续提供服务RDBMS与Hadoop架构对比RDBMSRDBMSConnection (e.g., FC, InfiniBand)Storage (e.g., SAN, NAS,Storage Cell, etc)多个独立的关系数据库服务器,访问共享的存储资源池优势:采用多个关系数据库服务器,多个存储,与原有的架构相比,扩展了存储容量和计算能力;劣势:计算与存储分离,数据访问存在竞争和带宽瓶颈;支持的关系数据库服务器数量有限;只能向上扩展(scale-up), 不能横向扩展(notscale out)适合复杂的需要事

5、务处理的应用NewSQL 与 NoSQLNetwork (e.g., GbE,10GbE, Infiniband)E.g., MPP Databases (orMapReduce on RDBMS),Big Data framework (e.g.,Hadoop, HBase)由大量独立的服务器通过网络互连形成集群,每个服务器带存储。优势:计算与存储融合,支持横向扩展,更好的扩展性劣势:解决数据冲突时需要节点间协作适用范围:数据仓库和离线数据分析 (MPP, Hadoop/HBase)大规模在线实时应用(单行事务处理能满足的场景)(HBase)6RDBMS:事物类处理行存储关系型小型机为主No

6、SQL海量全局数据处理Key-ValueMapReduceX86平台NewSQL:分析类处理列存储关系型X86平台 大数据激发技术创新NewSQL:严格保证一致性、遵循关系模型,完整支持SQL92标准,一定程度上牺牲可用性和分区容错性。特点:列存、主要使用场景:主要用于结构化数据的统计分析Nosql数据库:侧重分区容错性,一定程度上牺牲一致性和可用性,突破了关系模型,不一定支持SQL。特点:主要使用场景:非结构化数据的统计分析、实时查询共性:采用廉价的X86平台、本地硬盘、分布式架构7大数据推动产品创新大数据推动了数据库行业的产品创新。OldSQL阵营在基本架构不变的基础上引入内存计算和一体机

7、技术以提升处理性能。 NewSQL阵营在过去五年里形成了近十个商用的产品,去年Google发表论文介绍了F1/Spanner关系型数据库(未开源)。NoSQL阵营的技术源于互联网公司Google,Yahoo,Amazon, Facebook等。现在又出现了noSQL阵营和newSQL阵营融合的趋势,例如hadoop通过hive的扩展实现了对结构化数据的支持,greenplum等产品也通过对和hadoop的融合实现了对非结构化数据的支持。RDBMS:OracleExadataDB2-DPFSQLServer NewSQL:GreenplumVerticaGBase 8aF1/Spaner NoS

8、QL:HadoopHbaseBigtableCassandra8什么应用适合NoSQL数据库方案支持PB级别数据Big Data支持非结构化数据支持结构化数据支持万级每秒查询支持高可靠性系统支持高效率统计分析大量的结构化和非结构化数据、要求可变的数据结构和高效的数据导入、查询、统计等9大数据在中国英特尔Hadoop发行版Hive 0.9.0交互式数据仓库Sqoop1.4.1 关系型数据库同步工具Flume 1.1.0 日志收集工具Intel Hadoop Manager 2.2安装、部署、配置、监控、告警和访问控制Zookeeper 3.4.5分布式协作服务Pig 0.9.2数据流处理语言Ma

9、hout 0.6机器学习英特尔Hadoop发行版组件稳定的企业级hadoop发行版利用硬件新技术进行优化HBase改进和创新,为Hadoop提供实时数据处理能力针对行业的功能增强,应对不同行业的大数据挑战分布式、高维数据库HbaseHBase 0.94的改进和创新,提供即时数据处理Map/Reduce 1.0.3稳定高效的分布式计算框架HDFS 1.0.3可靠的分布式文件系统R - statistics数据统计10Intelligent Systems Architecture智慧城市电信零售终端设备HHNB/ULTCamerasPoSKioskDS大数据在中国各行业大数据最佳实践制造医疗物联

10、网金融服务数据中心CPUSSD10GbEInfiniband 11Top Five Nominees for the 2012 US Government Big Data Solutions AwardVeterans Health Administration(退伍军人健康管理): New Big Data approaches and frameworks provide data and tools for 20,000 clinicians to track medical trends, better anticipate outcomes. The scope of the da

11、ta set is over 80 billion data files. Focused on service to 25 million veterans. Judges selected Veterans Health Administration because of the impact and best practices in Big Data solutions.NASA(星图位置模拟计算): Multiple and extensive activities. One of many exemplars was the NASACenter for Climate Simul

12、ation (NCCS). Their work includes scalable Hadoop clusters for large scale climate simulations.Bureau of Engraving and Printing(文档电子化): This government agency is the largest producer of security documents in country. They have fielded an Big Data solution enhanced quality and mission support, reduce

13、d waste. Judges characterized this as a good match of right business processes to and a modern technical approach.AMSAA(军用物资活动分析): Army Material Systems Analysis Activity. Vehicle data analysis program instruments vehicles in theater to collect operational and environmental parameter historical data

14、. Massive data pattern screening and analysis toolsets put in place. Result: rapid identification of issues before mission impact.National Cancer Institute(全国癌症机构): Extensive research and working prototypes of cutting edge systems based on Hadoop and the Big Data. Judges noted the significant potent

15、ial impact of this solution as well as the strength of the technical approach.移动用户上网记录集中查询与分析支撑系统智能交通的软件架构 HBase MapReduce Hive即时查询 (例如:路况信息)应用程序视频流处理 (例如:实时路况)数据挖掘 (例如:车辆跟踪)14面临挑战数据源结构化、半结构化(病历),非结构化(PACS影像)数据格式标准难制定, 或不断变化数据量中型城市(1000万人口)存放50年会达到10PB 医疗信息区域内准实时共享,医生可快速调阅病人信息信息共享提升效率基于病史的自动医疗、饮食等建议

16、;针对病史和病症的OTC药物参考等个性化医疗疾病自动分类和诊断计算机辅助诊断趋势分析:例如,流行病扩展情况分析、癌症的历年趋势、药物效果分析决策辅助系统区域医疗健康档案系统解决问题居民电子病历存储、查询解决方案HBase分布式数据库存放健康档案和PACS影像数据特点优势高速数据导入;实时数据查询;关键字搜索; 分布式统计智慧医疗与大数据24数据中心基础设施建设绿色技术概述数据中心绿色指标:数据中心能源效率系数PUEPUE = 数据中心总用电消耗 / IT设备能源消耗 理想的企业数据中心PUE:1.35 以下 理想的互联网数据中心PUE:1.25以下 常见的PUE: 1.8 to 2.0 甚至更

17、高Chiller 33%Humidifier 3%CRAC 9%IT Equipment 30%PDU 5%UPS 18%Lighting 1%Main switchgear / Generator 1%25WasteHeatOUTINDOORDATACENTERHEATElectricalPowerIN验收建设策划运维10 - 20 年运作寿命正在施工项目情况场地评估数据中心的策略业务战略和任务建设策划 :数据中心建设的工作范围, 制定项目里程碑设计 : 土建和工程设计 30%-60%-90% 设计审核, 项目有关的各种招标施工 : 根据设计规格进行施工验收 : 制定未来运维的模式, 负责基

18、础设施的验收运维 : 保证和维持基础设施的运作29采用Intel数据中心标准设计 施工30/60/90方案设计/系统设计/施工图设计数据中心退役处理大型数据中心基础设施建设全生命周期方法论隐含的挑战:在设计阶段能否预见到运维阶段IT系统架构的发展、变化!Issue forConstruction需求预测针对数据中心建设标准定义了四个级别:T1数据中心:基本型T1数据中心可以接受数据业务的计划性和非计划性中断。要求提供计算机配电和冷却系统,但不一定要求高架地板、UPS、或者发电机组。如果没有UPS或发电机系统,那么这将是一个单回路系统并将产生多处单点故障。在年度检修和维护时,这类系统将完全宕机,

19、遇紧急状态时宕机的频率会更高,同时操作故障或设备自身故障也会导致系统中断。T2数据中心:组件冗余T2数据中心的设备具有组件冗余功能,以减少计划性和非计划性的系统中断。这类数据中心要求提供高架地板,UPS和发电机组,同时设备容量设计应满足N+1备用要求,单路由配送。当重要的电力设备或其他组件需要维护时,可以通过设备切换来实现系统不中断或短时中断。T3数据中心:在线维护(全冗余系统)T3级别的数据中心允许支撑系统设备任何计划性的动作而不会导致机房设备的任何服务中断。计划性的动作包括规划好的定期的维护、保养、元器件更换、设备扩容或减容、系统或设备测试等等。大型数据中心会安装冷冻水系统,要求双路或环路

20、供水。当其他路由执行维护或测试动作时,必须保证工作路由具有足够的容量和能力支撑系统的正常运行。非计划性动作诸如操作错误,设备自身故障等导致数据中心中断是可以接受的。当业主有商业需求或有充足的预算追加,T3机房应可以方便升级为T4机房。T4数据中心:容错系统T4级别的数据中心要求支撑系统有足够的容量和能力规避任何计划性动作导致的重要负荷停机风险。同时容错功能要求支撑系统有能力避免至少1次非计划性的故障或事件导致的重要负荷停机风险,这要求至少两个实时有效地配送路由,N+N是典型的系统架构。对于电气系统,两个独立的(N+1)UPS是一定要设置的。但根据消防电气规范的规定,火灾时允许消防电力系统强切。T4机房要求所有的机房设备双路容错供电。同时应注意T4机房支撑设备必

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论