下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、机器1机關2机器3机器4hadoop大数据平台分布式集群环境搭建安装规划大数据平台分布式集群环境搭建安装规划Hadoop分布式集群环境搭建是每个入门级新手都非常头疼的事情,因为你可能花费了很久的时间在搭建运行环境,最终却不知道什么原因无法创建成功。但对新手来说,运行环境搭建不成功的概率还蛮高的。在之前的分享文章中给hadoop新手入门推荐的大快搜索DKHadoop发行版,在运行环境安装方面的确要比其他的发行版hadoop要简单的多,毕竟DKHadoop是对底层重新集成封装的,对与研究hadoop尤其是入门级新手来说是非常友好的一个发行版!关于DKHadoop的安装留在后面再给大家分享,本篇就跟
2、大家聊一聊关于hadoop分布式集群环境搭建规划】。廿冋w丫富0L1、分布式机器架构图:、分布式机器架构图:rrlSWEBS册嗟口脏用程序界画慕炕DK.ttH甲何件NLP/AIMuraK.HADOOPKUH*EKtaOK.ESDKKanaNameNndeDataNodeResouroeManagerNod白ManagerDataNodeNodeManagerNamGNodaResourceManager其中机器1主节点,机器2从节点,机器3、机器4等都是计算节点。当主节点宕机后从节点代替主节点工作,正常状态是从节点和计算节点一样工作。这种架构设计保证数据首先我们保证每台计算节点上分别有一个Da
3、taNode节点和NodeManager节点。因为都是计算节点,真正干活的。在数量上我们要保证。那么NameNode和ResourceManager是两个非常重要的管理者我们客户端的请求第一时间与NameNode和ResourceManager打交道。NameNode负责管理HDFS文件系统的元数据, 客户端不管是读文件还是写文件;都要首先找到NameNode获取文件的元数据再进行文件的操作。ResourceManager也是如此它负责管理集群中的资源和任务调度你也可以把它视为大数据操作系统”客户端能否提交应用并运行,就看你的ResourceManager是否正常。2、达到多大规模的数据,才值
4、得用大数据的方式来处理?、达到多大规模的数据,才值得用大数据的方式来处理?第一,从数据量角度,但是并无确定的答案,一般定性角度来说,你觉得这个数据量单机处理不了,比如内存限制,时间过久等,就用集群,但是要降低时间,你的处理逻辑必须能分布式处理,定量就是一般数据或者未来的数据量会达到PB级别(可能GB)或以上就要用分布式,当然前提也是你的处理逻辑可以进行分布式。第二,从算法角度,或者处理逻辑的时间复杂度来说,比如虽然你的数据记录不是很多,但是你的算法或者处理逻辑的时间复杂度是n的平方,甚至更高,同时你的算法可以进行分布式设计,那么就考虑用分布式,比如你的记录虽然只有1w,但是时间复杂度确是n的平
5、方,那么你想想单机要多久,要是你的算法可以进行分布式处理,那么就考虑用分布式。3、制约大数据处理能力的几个问题、制约大数据处理能力的几个问题a、网络带宽网络带宽网络是联接计算机的纽带,这个纽带当然越宽越好,这样可以在计算机资源许可的情况下,在单位时间内传输更多的数据,让计算机处理更多的数据。现在企业网络中,普遍采用的多是百兆网络,也有千兆,万兆虽然有,但是用得不多。b、磁盘磁盘所有数据,不管它从哪里来,最终都要存进不同的硬盘里面,或者闪存盘。闪存盘的读写效率比硬盘高得多,但是缺点也明显:价格贵、容量小。现在的存储介质主要还是硬盘,硬盘有顺序读写和随机读写两种模型。顺序读写是磁头沿着磁道,好象流
6、水线一样,有规律的向前滚动进行。随机读写是磁头跳跃着,找到磁道上留空的地方,把数据写进去。很明显,顺序读写比随机读写效率高,所以系统架构师在设计大数据存储方案时,都是以顺序读写为主要选择。c、计算机的数量计算机的数量分布式的集群环境下,计算机的规模当然越大越好。这样在数据等量的情况下,计算机数量越多,分配给每台计算机的数据越少,处理效率自然就高了。但是计算机的数量也不是可以无限增加,集群对计算机规模的容纳有一个峰值,超过这个峰值,再提升就很困难,处理不好还会下降。原因主要来自木桶短板效应、 边界效应、 规模放大效应。 根据多年前的一个测试, 当时以Pentium3和Pentium4芯片为基础平台,配合100M网络,在上面运行LAXCUS大数据系统。当达到千台计算机的规模时,瓶颈开始显露出来。如果现在用新的X86芯片,加上更高速的网络,应该是能够容纳更多的计算机。d、代码质量代码质量这不是关键问题,但是是企业必须关注的一个问题。这和程序员编写的计算机代码质量有关。实际上,每个大数据产品都是半成品,它们只是提供了一个计算框架,要实际应用到企业生产中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国手机镜头行业并购重组扩张战略制定与实施研究报告
- 2025-2030年中国LED 驱动芯片行业营销创新战略制定与实施研究报告
- 2025-2030年中国北斗卫星手表行业商业模式创新战略制定与实施研究报告
- 2025-2030年中国中餐行业开拓第二增长曲线战略制定与实施研究报告
- 市政道路竣工验收质量评估报告-定稿
- 建设项目环境保护设施竣工验收程序及说明-(空白表)
- 者楼镇高洛小学文明礼仪实施方案
- 化纤高档服装项目可行性研究报告
- 医疗器械定期风险评价报告范文
- 2022-2027年中国血管舒缓素行业发展监测及投资战略咨询报告
- 2024年新人教版道德与法治七年级上册全册教案(新版教材)
- 初中物理期末复习+专题5+综合能力题+课件++人教版物理九年级全一册
- 2024年国开电大 统计学原理 形成性考核册答案
- Unit13 同步教学设计2023-2024学年人教版九年级英语全册
- 合伙经营合作社协议书
- 廊坊市区普通住宅区物业服务等级标准
- 超声引导下疼痛治疗
- 便利店陈列培训
- 小学生建筑科普小知识
- 防非正常死亡安全教育
- 喷涂车间年总结
评论
0/150
提交评论