




已阅读5页,还剩19页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
Hadoop基础入门,1,Hadoop产生背景,2,Hadoop构成,3,4,Hadoop伪分布式环境搭建,Hadoop使用场景,1,Hadoop产生背景,Hadoop之前无法解决的问题,单机无法计算海量数据,Nutch索引和存储无法实现,关系型数据库无法统计大量数据,数据太大性能与效率低下,3个500G的文件中找出重复出现或不重复的行,100亿条信息中统计TOP10热点新闻,Nutch是搜索引擎,需要存储海量数据,查询需要建立大量索引以提高速度,有100T的网站日志,计算PV,UV,IP,Hadoop最早起源于Nutch。Nutch是一个开源的网络搜索引擎,由DougCutting于2002年创建。,Hadoop的前身:Nutch搜索引擎,Nutch,Nutch是一个开源Java实现的搜索引擎。它提供了我们运行自己的搜索引擎所需的全部工具。包括全文搜索和Web爬虫。,Nutch的设计目标是构建一个大型的全网搜索引擎,包括网页抓取、索引、查询等功能,但随着抓取网页数量的增加,遇到了严重的可扩展性问题,即不能解决数十亿网页的存储和索引问题。,Nutch存在的问题,Hadoop的由来,2003年,Google发布GoogleFileSystem论文,这是一个可扩展的分布式文件系统,用于大型的、分布式的、对大量数据进行访问的应用。,Google论文,2004年公布的MapReduce论文,论文描述了大数据的分布式计算方式,主要思想是将任务分解然后在多台处理能力较弱的计算节点中同时处理,然后将结果合并从而完成大数据处理。,Hadoop发展,由于谷歌未开源代码,Nutch的开发人员完成了一个开源实现。由于NDFS和MapReduce不仅适用于搜索领域,2006年年初,开发人员便将其移出Nutch,成为Lucene的一个子项目,称为Hadoop。大约同一时间,DougCutting加入雅虎公司,且公司同意组织一个专门的团队继续发展Hadoop。同年2月,ApacheHadoop项目正式启动以支持MapReduce和HDFS的独立发展。2008年1月,Hadoop成为Apache顶级项目,Hadoop发展,2004年-最初的版本(现在称为HDFS和MapReduce)由DougCutting和MikeCafarella开始实施。2005年12月-Nutch移植到新的框架,Hadoop在20个节点上稳定运行。2006年1月-DougCutting加入雅虎。2006年2月-ApacheHadoop项目正式启动以支持MapReduce和HDFS的独立发展。2006年2月-雅虎的网格计算团队采用Hadoop。2006年4月-标准排序(10GB的数据进行排序)在188个节点上运行47.9个小时。2006年5月-雅虎建立了一个300个节点的Hadoop研究集群。2006年5月-标准排序在500个节点上运行42个小时(硬件配置比4月的更好)。06年11月-研究集群增加到600个节点。,Hadoop发展,06年12月-标准排序在20个节点上运行1.8个小时,100个节点3.3小时,500个节点5.2小时,900个节点7.8个小时。07年4月-研究集群达到两个1000个节点的集群。08年4月-赢得世界最快1TB数据排序在900个节点上用时209秒。09年4月-赢得每分钟排序,59秒内排序500GB(在1400个节点上)和173分钟内排序100TB数据(在3400个节点),Hadoop的现在,2,Hadoop构成,HDFS:HadoopDistributedFileSystem分布式文件系统MapReduce:并行计算框架YARN:运算资源调度系统,HADOOP的核心组件,HDFS,NameNode:是Master节点。管理数据块映射;处理客户端的读写请求;配置副本策略;管理HDFS的名称空间;SecondaryNameNode:分担namenode的工作量;是NameNode的冷备份;合并fsimage和fsedits然后再发给namenode。DataNode:Slave节点。负责存储client发来的数据块block;执行数据块的读写操作。,MapReduce,Wewanttocountallthebooksinthelibrary.Youcountupshelf#1,Icountupshelf#2.Thatsmap.Themorepeopleweget,thefasteritgoes.Nowwegettogetherandaddourindividualcounts.Thatsreduce.,MapReduce,3,hadoop使用场景,hadoop主要应用于数据量大的离线场景,一般真正线上用Hadoop的,集群规模都在上百台到几千台的机器。这种情况下,T级别的数据也是很小的。Mapreduce框架下,很难处理实时计算,作业都以日志分析这样的线下作业为主。另外,集群中一般都会有大量作业等待被调度,保证资源充分利用。由于HDFS设计的特点,Hadoop适合处理文件块大的文件。大量的小文件使用Hadoop来处理效率会很低。,数据量大,离线,数据块大,4,Hadoop伪分布式环境搭建,1.安装JDK,2.ssh免密码登录,tar-zxfjdk-7u80-linux-x64.tar.gz-C/optechoexportJAVA_HOME=/opt/jdk1.7.0_80/etc/profileechoexportPATH=$PATH:/opt/jdk1.7.0_80/bin/etc/profile,ssh-keygen-trsacat/.ssh/id_rsa.pub/.ssh/authorized_keyschmod700/.sshchmod600/.ssh/authorized_keys,3.修改hadoop配置文件,4.启动hadoop,hadoopnamenodeformatstart-all.sh,tar-zxfhadoop-2.8.1.tar.gz-C/opt,Wordcount事例:,hdfs命令,hadoopjar/opt/hadoop/hadoop-2.8.1/share/hadoop/mapreduce/hadoop-mapreduce-examp
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 网页设计考试试题及答案
- 2025年扫瞄隧道显微镜合作协议书
- 提升声乐合乐教学效果的策略与实践方案
- 职场心理健康与员工表现的关系试题及答案
- 临床专科体系建设的全面推进方案
- 江苏省如东县2025年高考冲刺押题(最后一卷)物理试卷含解析
- DB3202T 1080-2024专利代理机构分级分类评价规范
- 家校社共育新模式实施方案
- 药物审批与注册流程分析试题及答案
- 生产生活中的流程
- 《我不是药神》剧本
- JJF 1101-2019《环境试验设备温度、湿度校准规范》规程
- GB/T 6451-2023油浸式电力变压器技术参数和要求
- 幼儿园中班绘本《城市里最漂亮的巨人》课件
- 医院廉洁行医廉政教育专题课件
- 医务人员职业健康安全健康-课件
- 安全组织机构图
- 旧石器时代考古-基础知识课件
- 江苏省建设工程现场安全文明施工措施费计价管理办法
- 病区药品规范化管理与问题对策黄池桃
- 螺纹塞规操作规程
评论
0/150
提交评论