大数据及Hadoo技术简介_第1页
大数据及Hadoo技术简介_第2页
大数据及Hadoo技术简介_第3页
大数据及Hadoo技术简介_第4页
大数据及Hadoo技术简介_第5页
已阅读5页,还剩14页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

“大”时代的到来

大数据及Hadoop技术陈亮anch3or@大数据及大数据技术大数据特点大数据产业及应用

Google的数据中心

Hadoop体系结构

大数据

Hadoop技术目录下一代大规模计算集群的资源管理框架亲,随便聊聊吧。Q&A大数据及大数据技术大数据一系列大规模、高复杂度的数据集合,它的规模和复杂程度已经无法通过现有的数据库管理工具或是传统的数据处理应用在合理的时间内对其进行获取、管理、存储、检索、分享、传输、分析和可视化。/wiki/Big_data大数据技术大数据技术作为新一代技术和体系架构,将能够利用较低的成本,通过高速捕获,发现并对超大量、众多类型的数据进行分析,以获得信息的价值

。/prodserv/detail.jsp?id=NTAx

大数据特点4VBigData格式多样来源多样

响应速度快增长速度快-1秒钟-18个月

数据量大计算量大GB->TB->PB->EB->ZB价值密度低到2020年,全球数据将达到35ZB。(IDC数据)淘宝2010年部分运营数据:每日PV:超过20亿次在线商品:8亿种每分钟销售商品:4.8万件淘宝双十一部分技术数据:41亿次事物/285亿次SQL/15TB日志/1931亿次内存访问结构化/半结构化/非结构化文本/音频/图片/视频微博/邮件/机器日志/金融记录/短信/通话/医疗设备/物联网设备/传感器/移动设备-沙里淘金-为了发现金子,要保存全部沙子大数据产业及应用互联网金融保险公共管理医疗卫生能源数字城市

物联网重感知智慧城市大数据重分析终端设备多样应用服务丰富行业融合紧密交通银行中信银行平安保险民生银行医疗数据挖掘临床决策支持疾病模式分析疫情监测相应能源勘探能源利用大数据为我们提供了预测未来的能力!电力行业应用场景环节应用场景发电间歇性电源发电预测生产经营数据分析发电设备故障分析及预测配煤方案优化输电输电塔环境影响分析及预测线损分析及预测输电塔、线故障分析及预测输电网规划优化变电变电设备电磁环境影响电器设备误操作分析变电设备故障分析及预测变电运行分析配电电器配电分析配电网络分析及优化配电设备故障分析及预测配电侧购电分配分析用电用电负荷分析及预测用电方案优化用电模型分析用电用户行为分析调度电力调度模型分析及优化电力调度数据网分析数据可视化在电力调度中的应用电力调度方式及决策模型分析电力设备故障检测及预测Google数据中心这货是Google服务器?没错,这货就是Google的服务器!这层机箱壳完全是为了宣传广告才裹上的。在机房里就是“裸奔”!CPU插槽:2个Intel/AMD芯片内存插槽:8个硬盘:4块主板:技嘉内接12伏特电池(专利)Google数据中心一个机柜容纳1160台服务器一个数据中心由几十个机柜组成数据中心一般都建在郊区靠近水源的地方Hadoop体系结构Hadoop体系结构——Hadoop

Hadoop项目开发一套可靠的、可伸缩的、分布式计算的开源软件系统。HDFS分布式文件系统高容错主要部署在廉价商业硬件高可伸缩任意增加、删除节点MapReduce

编程模型用于大数据并行计算Map过程实现映射Reduce过程实现化简实现对HDFS上大数据的运算Hadoop体系结构——MapReduce单词计数问题:输入:文本文件(PB级)。输出:统计文本中各个单词出现的次数。Map映射过程:Map(Stringkey,Stringvalue)://key:docname;value:doccontentforeachwordwinvalueEmitIntermediate(w,“1”);Reduce化简过程:Reduce(Stringkey,Iteratorvalues)://key:oneword;values:countlistintresult=0:foreachvinvalues:result+=Parselnt(v);Emit(AsString(result));Hadoop体系结构——HBase

HBase是一种分布式的、可扩展的、大数据存储的“NoSQL”数据库。HBase可在廉价PC集群上搭建起大规模结构化存储系统。HBase是GoogleBigtable的开源实现。以Bigtable作为数据可以在集群上托管有几亿行、几百万列的大表。HBase利用HadoopHDFS作为其文件存储系统。HBase利用MapReduce来处理大数据。NoSQL(NoSQL=NotonlySQL),意即“不仅仅是SQL”。HBase是一种非关系型数据库。HBase缺少大多数关系型数据的很多特性,比如列类型、辅助索引、触发器和高级查询语言。Hbase更像是一个数据存储(DataStore)系统,而非数据库(DataBase)系统。Hadoop体系结构——Hive

Hive是建立在Hadoop之上的数据仓库基础架构,为从分布式存储中查询和管理大数据提供方便。Hive支持下列特性或方法:方便于数据提取、传输、装载的工具(ETL)一种对多样性数据进行结构化的格式化机制从HDFS或是其他,比如Hbase,数据存储系统访问文件通过MapReduce的扩展查询机制(HQL)Hive定义了一种简单的类SQL的查询语言,HQL。HQL可以使用户像使用SQL一样查询数据。并且允许使用MapReduce框架的程序员嵌入其自定义的mapper过程和reducer过程,以完成MapReduce框架内建功能完成不了的复杂分析。Hadoop体系结构——SparkSharkApacheSpark™

isafastandgeneralengineforlarge-scaledataprocessing./SharkisanopensourcedistributedSQLqueryengineforHadoopdata.Itbringsstate-of-the-artperformanceandadvancedanalyticstoHiveusers.数据挖掘利器——RRisafreesoftwareenvironmentforstatisticalcomputingandgraphics./下一代大规模计算集群的资源管理框架Hadoop集群应用1Hadoop集群应用2其他集群应用3Borg:/What-is-Borg-at-GoogleYARN:/developerworks/cn/opensource/os-cn-hadoop-yarn/Mesos:Torca:/thread-29998-1-2.htmlCorona:/hadoop-c

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论