




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
法律【】和幻灯片为炼数成金网络课程的教学资料,所有资料只能在课程内使用,不得在课程以外范围散播,违者将可能被法律和经济责任。课程详情
炼数成金培训http:
2013.7.132DATAGURU专业数据分析关于本课程的预备知识Linux:懂基本操作Java:能看懂Java程序2013.7.133DATAGURU专业数据分析Hadoop是什么?面向大数据处理擅长离线数据分析分布式文件系统+计算框架Hadoop不是数据库,Hbase才是数据库Hadoop是一个快速进化的生态系统Hadoop会使用在哪些行业?2013.7.134DATAGURU专业数据分析大数据平台知识路线图2013.7.135DATAGURU专业数据分析Hadoop典型职位运维Hadoop程序员(M-R,源代码)架构师数据仓库工程师2013.7.136DATAGURU专业数据分析课程目标部署:Hadoop,Hbase,Hive,Pig数据集成:Sqoop,与Oracle、Mysql等关系型数据库集成,与应用集成,与R等常用数据分析工具集成掌握HDFS原理和基本操作掌握Map-Reduce工作原理,知道怎样把M-R算法用于解决实际场景能书写基本的Map-Reduce程序,懂得提交作业和对运行状况进行监视了解整个Hadoop生态系统的各个子产品,知道在大数据平台架构时应该使用哪些产品具备初步阅读源代码的能力2013.7.137DATAGURU专业数据分析典型实验环境(拥有服务器)服务器:ESXi,可以在上面部署多台虚拟机,能同时启动3台PC:要求linux环境或windows+Cygwin,linux可以是standalone或者使用虚拟机SSH:windows下可以使用SecureCRT或putty等ssh
client程序,作用是用来
连接linux服务器,linux下可以直接使用ssh命令Vmware
client:用于管理ESXiHadoop:使用1.x或2.x2013.7.138DATAGURU专业数据分析典型实验环境(只有PC或笔记本,基于win)至少4G内存,最好运行64位windows系统,因为32位xp只能支持3G多的内存安装vmwareworkstation或virtual
box部署3台虚拟机,能同时运行,如果只能运行2台虚拟机,那么可以把host也作为一个节点(使用cygwin),虚拟网络配置为网桥方式安装linux和java如果配置实在太低只好使用伪分布式2013.7.139DATAGURU专业数据分析Hadoop的思想之源:earth,学术,搜索引擎,Gmail,安卓,Appspot翻译,
+,下一步Maps,what??2013.7.1310DATAGURU专业数据分析的低成本之道不使用超级计算机,不使用
(淘宝的去i,去e,去o
)大量使用普通的pc服务器(去掉机箱,外设,硬盘),提供有冗余的集群服务全世界多个数据中心,有些附带发电厂运营商向
倒2013.7.1311DATAGURU专业数据分析集装箱数据中心位于Mountain
View,
Calif总部的数据中心总功率为10000千瓦,拥有45个集装箱,每个集装箱中有1160台服务器,该数据中心的能效比为1.25(
PUE
为
1
表示数据中心没有能源损耗,而根据2006年的统计,一般公司数据中心的能效比为
2.0
或更高。 的
1.16
已经低于
能源部2011年的1.2的目标)2013.7.1312DATAGURU专业数据分析面对的数据和计算难题大量的网页怎么
?搜索算法Rank计算问题2013.7.1313DATAGURU专业数据分析倒排索引2013.7.1314DATAGURU专业数据分析Page
Rank“在
中找黄金这是
最
的算法,用于给每个网页价值评分,是”的关键算法,这个算法成就了今天的2013.7.1315DATAGURU专业数据分析Map-reduce思想:计算PR2013.7.1316DATAGURU专业数据分析计算PR值2013.7.1317DATAGURU专业数据分析计算PR值2013.7.1318DATAGURU专业数据分析计算PR值2013.7.1319DATAGURU专业数据分析带给
的和思想GFSMap-ReduceBigtable(后面讲)2013.7.1320DATAGURU专业数据分析Hadoop的源起——Lucene类似的全文搜索功能Doug
Cutting开创的开源
,用java书写代码,实现与,它提供了全文检索引擎的架构,包括完整的查询引擎和索引引擎和SourceF
e,2001年年底成为apachejakarta的早期发布在个人一个子项目Lucene的目的是为开发
提供一个简单易用的工具包,以方便的在目标系统中实现全文检索的功能,或者是以此为基础建立起完整的全文检索引擎对于大数量的场景,Lucene面对与
同样的
。迫使DougCutting学习和模仿
解决这些问题的办法一个微缩版:Nutch2013.7.1321DATAGURU专业数据分析从lucene到nutch,从nutch到hadoop2003-2004年, 公开了部分GFS和Mapreduce思想的细节,以此为基础DougCutting等人用了2年业余时间实现了DFS和Mapreduce机制,使Nutch性能飙升Yahoo招安Doug
Cutting及其项目Hadoop于2005年秋天作为Lucene的子项目Nutch的一部分正式引入Apache基金会。2006年3月份,Map-Reduce和NutchDistributedFileSystem(NDFS)分别被纳入称为Hadoop的项目中名字来源于Doug
Cutting儿子的玩具大象2013.7.1322DATAGURU专业数据分析目前Hadoop达到的高度实现云计算的事实标准开源包含数十个具有强大生命力的子项目已经能在数千节点上运行,处理数据量和排序时间不断打破世界2013.7.1323DATAGURU专业数据分析Hadoop子项目2013.7.1324DATAGURU专业数据分析Hadoop的架构2013.7.1325DATAGURU专业数据分析NamenodeHDFS的守护程序
文件是如何分割成数据块的,以及这些数据块被
到哪些节点上对内存和I/O进行集中管理是个单点,发生故障将使集群2013.7.1326DATAGURU专业数据分析Secondary
NamenodeHDFS状态的辅助
程序每个集群都有一个与NameNode进行通讯,定期保存HDFS元数据快照当NameNode故障可以作为备用NameNode使用2013.7.1327DATAGURU专业数据分析DataNode每台从服务器都运行一个负责把HDFS数据块读写到本地文件系统2013.7.1328DATAGURU专业数据分析JobTracker用于处理作业(用户提交代码)的后台程序决定有哪些文件参与处理,然后切割task并分配节点task,重启失败的task(于不同的节点)每个集群只有唯一一个JobTracker,位于Master节点2013.7.1329DATAGURU专业数据分析TaskTracker位于slave节点上,与datanode结合(代码与数据一起的原则)管理各自节点上的task(由jobtracker分配)每个节点只有一个tasktracker,但一个tasktracker可以启动多个JVM,用于并行执行map或reduce任务与jobtracker交互2013.7.1330DATAGURU专业数据分析Master与SlaveMaster:Namenode、SecondaryNamenode、Jobtracker。浏览器(用于 管理界面),其它Hadoop工具Slave:Tasktracker、DatanodeMaster不是唯一的2013.7.1331DATAGURU专业数据分析Why
hadoop?2013.7.1332DATAGURU专业数据分析场景:电信运营商信令分析与监测原数据库服务器配置:HP小型机,128G内存,48颗CPU,2节点RAC,其中一个节点用于入库,另外一个节点用于查询:HP虚拟化
,>1000个盘数据库架构采用Oracle双节点RAC问题:1
入库瓶颈2
查询瓶颈2013.7.1333DATAGURU专业数据分析数据分析者
的问题数据日趋庞大,无论是入库和查询,都出现性能瓶颈用户的应用和分析结果呈整合趋势,对实时性和响应时间要求越来越高使用的模型越来越复杂,计算量指数级上升2013.7.1334DATAGURU专业数据分析数据分析者期待的解决方案完美解决性能瓶颈,在可见未来不容易出现新瓶颈过去所拥有的技能可以平稳过渡。比如SQL、R转移平台的成本有多高?平台软硬件成本,再开发成本,技能再培养成本,
成本2013.7.1335DATAGURU专业数据分析Hadoop的思想2013.7.1336DATAGURU专业数据分析Why
not
Hadoop?Java?难以驾驭?数据集成
?Hadoop
vs
Oracle2013.7.1337DATAGURU专业数据分析Hadoop体系下的分析主流:Java程序轻量级的
语言:PigSQL技巧平稳过渡:HiveNoSQL:HBase2013.7.1338DATAGURU专业数据分析炼数成金逆向
式网络课程Dataguru(炼数成金)是专业数据分析
,提供教育,
,内容,社区,
,数据分析业务等服务。
的课程采用新兴的互联网教育形式,独创地发展了逆向式
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全技术基础试题及答案
- 2025年保安证考试独家秘籍试题及答案
- 2025年保安证考试心态导航试题及答案
- 2025年保安证考试趋势分析与题及答案
- 农业低空病虫害监测项目
- 智能收费停车场管理系统
- 2025年保安证考试快速复习试题及答案
- 2024-2025学年上海市交通大学附属中学高三物理试题第一次适应性测试试题含解析
- 江西青年职业学院《兽医寄生虫病学》2023-2024学年第二学期期末试卷
- 云南现代职业技术学院《外国文学选读》2023-2024学年第二学期期末试卷
- 统编教材二年级下册“写话”编排特色解析
- 100MW光伏电站概算清单(模板)
- 【超星尔雅学习通】《语言与文化》2020章节测试题及答案
- 针灸入门一夜通
- GB/T 40802-2021通用铸造碳钢和低合金钢铸件
- GB/T 25216-2010煤与瓦斯突出危险性区域预测方法
- 《三轴搅拌桩施工工艺》培训测试试题及答案
- 项目3毫米波雷达课件
- 《农业保险学》第3章国外农业保险发展概况
- 草原森林防火主题班会课件
- 处方及处方调剂课件
评论
0/150
提交评论