大数据分析原理和应用 课件全套 海沫 第1-8章 大数据概述 -大数据分析的应用案例_第1页
大数据分析原理和应用 课件全套 海沫 第1-8章 大数据概述 -大数据分析的应用案例_第2页
大数据分析原理和应用 课件全套 海沫 第1-8章 大数据概述 -大数据分析的应用案例_第3页
大数据分析原理和应用 课件全套 海沫 第1-8章 大数据概述 -大数据分析的应用案例_第4页
大数据分析原理和应用 课件全套 海沫 第1-8章 大数据概述 -大数据分析的应用案例_第5页
已阅读5页,还剩650页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章

大数据概述

1.1大数据的产生背景与概念

1.1.1大数据的产生背景大数据的产生可以分为三个阶段:萌芽阶段(20世纪90年代至21世纪初):1997年,NASA阿姆斯科研中心的大卫•埃尔斯沃斯和迈克尔•考克斯在研究数据的可视化问题时首次使用“大数据”概念;1998年,美国《自然》杂志上发表的一篇名为《大数据科学的可视化》的文章,使大数据正式作为一个专有名词出现在公共刊物之中。1.1.1大数据的产生背景发展阶段(阶段从21世纪初至2010年):数据分析的主要技术——Hadoop技术的诞生,使2005年成为大数据发展的重要里程碑。大数据技术先是在美国铺开,2010年美国信息技术顾问委员会(PITAC)发布的一篇名为《规划数字化未来》的报告,足以体现美国对发展大数据技术的重视。在这个阶段,大数据技术作为一种新兴技术初步出现在人们的视野中,但还并未在全球普及。1.1.1大数据的产生背景兴盛阶段(从2011年至今):2011年,拥有每秒扫描并分析4TB的数据量能力的IBM公司研制出的沃森超级计算机横空出世,直接打破了世界纪录,将大数据分析提升到新高度;不久后,麦肯锡发布了《海量数据,创新、竞争和提高生成率的下一个新领域》,详细描述了大数据的技术架构,并且交代了大数据在各个领域中的应用情况;2012年在瑞士达沃斯召开的世界经济论坛讨论了与大数据相关的一系列问题,并发表了《大数据,大影响》,至此,大数据的全球普及时代来临。1.1.1大数据的产生背景

199719982005201020112012“大数据”概念的首次使用《大数据科学的可视化》文章的发表Hadoop技术诞生PITAC发布《规划数字化未来》报告沃森超级计算机横空出世瑞士达沃斯召开的世界经济论坛上发表《大数据,大影响》大数据产生大事件年代表1.1.2大数据的概念大数据的概念从产生至今仍没有一个公认的解释。以下是两种被大众普遍接受的对大数据的定义:麦肯锡的《大数据:下一个创新、竞争和生产率的前沿》:所谓大数据,主要是指无法在一定时间内用传统数据库工具对其内容进行获取、存储、管理和分析的数据集。研究机构Gartner:大数据是指需要新处理模式才能具有更强的决策力,洞察发现力和流程优化能力的海量,高增长率和多样化的信息资产。1.1.3数据的单位数据的单位有:bit,B,KB,MB,GB,TB等。其中,最小的存储单位是bit。单位换算:1B=8bit

1KB=1024B

1MB=1024KB

1GB=1024MB

1TB=1024GB1.1.4大数据的分类按字段类型分类:文本类、数值类、时间类按数据结构分类:结构化数据、半结构化数据、非结构化数据按事物描述分类:状态类数据、事件类数据、混合类数据按数据处理分类:原始数据、衍生数据按数据粒度分类:明细数据、汇总数据按更新方式分类:批量数据、实时数据1.2大数据的特点和技术概述

1.2.1大数据的特点volume(海量)过去,MB的存储容量就已经能满足很多人数据存储的需求了,但随着信息技术的不断发展以及数据来源的不断增多,数据呈现几何指数爆发式的增长,人们日益增加的存储需求促使存储单位从过去的GB到TB,乃至现在的PB、EB级别,并不可避免的会增加到ZB级别。截至2020年,全球数据量达到了60ZB。variety(多样)广泛的数据来源决定了大数据的多样性1.2.1大数据的特点velocity(高速)高速是区别大数据与传统数据最显著的特征。数据的增长速度和处理速度是大数据高速性的重要体现。大数据采用实时分析而非批量分析,而数据输入、处理与丢弃立刻见效,几乎不存在延迟。例:截至2019年,Facebook的日均上传照片约有3亿张;曾经需要历经10年破译的人体基因30亿对碱基数据,现在仅需15分钟即可完成;1.2.1大数据的特点value(价值)价值是大数据的核心特征;大数据作为重要的基础型战略资源,其核心价值在于应用;数据虽然海量,但某一对象或者模块数据的价值密度很低,有价值的数据所占比例很小;相比于传统数据,大数据最大的价值在于通过从大量不相关的各种类型的数据中,挖掘出对未来趋势与模式预测分析有价值的数据,并通过机器学习方法、人工智能方法或数据挖掘方法深度分析,发现新规律和新知识,并运用于各个领域。1.2.2大数据技术概述大数据采集采集来源:智能硬件端、多种传感器端、网页端、移动APP应用端等;大数据采集的过程:将各种采集来源汇集到数据库中,并使用数据库进行简单的处理工作;采集的数据:RFID数据、传感器数据、用户行为数据、社交网络交互数据及移动互联网数据等各种类型的结构化、半结构化及非结构化的海量数据。1.2.2大数据技术概述大数据采集采集的主要方式数据抓取:抓取对象通常为网络数据,通过网络爬虫或网站公开API等方式从网站上抓取数据信息。数据导入:导入对象通常为数据库数据和系统日志数据,企业通过在采集端部署大量数据库(一般使用Redis、MongoDB和HBase等NoSQL数据库),并在这些数据库之间进行负载均衡和分片,来完成数据采集。物联网传感设备自动信息采集:指通过物联网传感器将测量到的物理变量(如声音、温度、湿度、电流、距离等)的测量值转化为数字信号并传送到数据采集点的过程。,常见的物联网传感器包括:接近传感器、温度传感器、化学传感器、图像传感器和气体传感器等。1.2.2大数据技术概述数据预处理数据预处理是指在对数据进行挖掘以前,需要对原始数据进行清理、集成与变换等一系列处理工作,以达到挖掘算法进行知识获取研究所要求的最低规模和标准。随着数据量的爆发增长,很多数据都存在残缺、混乱、冗余等问题,而数据预处理可以有效地规避这些问题,它能纠正错误的数据、将残缺的数据补充完整、将冗余的数据清除,挑出需要的数据,再将这些数据集成。1.2.2大数据技术概述数据预处理预处理常见方法数据清洗:通过光滑噪声、填充缺失值、识别或删除离群点、纠正数据不一致的方法,以达到数据格式标准化、异常数据清除、数据错误纠正、重复数据的清除的目的。数据集成:合并来自多个来自不同或者相同数据源的数据,然后统一存储在同一数据储存(如数据仓库)中。数据变换:数据变换的目的是将不同的数据变换成合适挖掘的形式,常用的方法有规范化、属性构造、概念分层。数据规约:通过寻找目标数据的有用特征,在不损坏数据原貌的基础上减小数据规模,从而达到精简数据量的目标。1.2.2大数据技术概述大数据处理大数据处理是在进行了预处理的基础上对数据的进一步处理,是将数据储存到分布式环境后的深度处理。常用软件:Hadoop分布式大数据处理系统Hadoop组成部分:用于分布式存储大容量文件的HDFS(HadoopDistributedFileSystem)、用于对海量数据集(TB级别)进行分布式计算的MapReduce、超大型数据表HBase1.2.2大数据技术概述大数据处理MapReduce定义:大数据处理最重要的一种分布式计算模型模型本质:实现Map(映射)函数、Reduce(归约)函数计算逻辑:“分治”1.2.2大数据技术概述大数据处理MapReduce计算逻辑以计算1+2+3+4+5+6+7+8+9的结果为例子:1+2+34+5+67+8+96152445Map(映射)Reduce(归约)1.2.2大数据技术概述大数据分析大数据分析是通过对数据的分析,创建模型。步骤:先从问题的定义入手,明确数据分析的目的;紧接着进行数据准备工作,包括在大型数据库和数据仓库提取目标数据集,并对提取到的目标数据集进行数据完整性以及一致性的检查、去除噪音、填补丢失域、删除无效数据等的一系列数据再加工过程;接着根据数据的类型以及数据的特点选择算法,对进行上一步加工后的数据集进行数据分析;最终将数据分析的结果解释成能被用户理解的知识,传递给用户。常用方法:分类、聚类、关联规则、预测模型等。1.2.2大数据技术概述大数据分析常用方法分类:是根据重要数据类的特征向量值及约束条件,构造分类函数或者分类模型的一种数据分析的形式。典型算法有:朴素贝叶斯算法、KNN、SVM等。聚类:是指将具有相似特征属性的数据聚集在一起,从而使得不同的数据群有着分明的特征区别。通过聚类分析,我们能从中发现各种数据属性之间存在的相互干系,以及相似数据属性之间存在的分布模式。典型算法有:BIRCH算法、K-means算法、EM算法等。1.2.2大数据技术概述大数据分析常用方法关联规则:是指通过索引系统中的所有数据,找出所有能把一组事件或数据项与另一组事件或数据项联系起来的规则,以获得预先未知的和被隐藏的,不能通过数据库的逻辑操作或统计的方法得出的信息。关联分析一般用支持度(Support)和置信度(Confidence)两个阈值来度量关联规则的相关性,并不断引入兴趣度、相关性等参数,使得所挖掘到的关联规则更符合需求,关联规则挖掘算法是关联规则挖掘研究的主要内容,Apriori算法和FP-Growth(频繁模式增长)算法都是比较著名的关联规则算法。以Apriori算法为例:Apriori算法主要包括三个步骤:①用户先指定一个最小支持度;②找到事务数据库中所有大于还有等于最小支持度的数据项集;③利用频繁项集生成我们所需要的关联规则,并使用第一步已经指定的最小支持度来进行取舍,最后得到强关联规则;1.2.2大数据技术概述大数据分析常用方法预测模型:是从历史数据中找出变化规律,建立模型,并由这个模型预测未来数据的种类和特征的方法。包括可以在结构化与非结构化数据中使用以确定未来结果的算法和技术,可为预测、优化、预报和模拟等许多业务系统所使用。而预测模型的建立着重关注于数据的精度和不确定性,因此通常会使用预测方差进行度量。1.3大数据的应用与价值体现

1.3.1大数据的应用概述大数据的应用领域电商行业:利用大数据进行精准营销,是大数据技术最早应用的行业。电商平台会借助大数据技术对区域消费特征、客户消费习惯、消费热点等进行预测。例:淘宝、京东金融行业:随着信息技术在金融业的广泛应用,海量数据都存储在金融机构中,数据创造的利润抵不上其管理成本迫使金融业不得不去寻找可以将这些数据转换成可以创造实际价值的内容的方法,而大数据的深度挖掘技术为其提供了有效的解决方案。大数据在金融业的应用主要分布在三个领域:银行:绘制客户画像、精准营销、风险管理与风险控制、运营优化保险:客户细分和精准营销、产品设计、运营优化、欺诈行为分析证券:股价预测、客户关系管理、智能投资顾问、投资景气指数

1.3.1大数据的应用概述大数据的应用领域

医疗行业:大量的病例、药物报告、病情报告、治疗方案,使得大数据的处理和分析技术在医疗保健领域的使用中非常有效。例:新冠疫情期间的健康宝和通行卡、远程诊疗系统智慧城市:城市的规模不断扩大,城市的人口不断增长、城市的结构越来越复杂、精细化的城市治理势在必行。大数据对于提高公共管理和工共服务水平十分有效。在实现信息透明和信息共享、评估政府部门绩效、政策制定与决策、智慧城市建设方面的应用都是一次重大的突破。1.3.1大数据的应用概述大数据的应用领域教育行业:大数据为用户提供的个性化服务的功能也已经在教育领域中实现,从校长到老师,老师到家长,家长到学生,大数据都能根据不同角色所需,为他们提供个性化分析报告,不断优化教育机制、整合教育资源、明确教学方向、改进教学方式等,而也正是这种应用,让乡村的孩子也能通过网络接受大城市更加优秀的教育。大数据还可以帮助老师和家长找到不同孩子之间学习上存在的差距从而有针对性地为学生制定出适合他们的一套有效的学习方案;依赖大数据技术,教育部门能做出更加合理、更加科学的决策,从而跟随时代不断地优化教育机制,推动教育改革。1.3.1大数据的应用概述大数据的应用领域农业领域:农业与大数据的结合应用可以节约农产品资源、增加农产品流通率,促进农业生产力发展,有利于实现农业可持续发展。农业生产过程会产生大量的数据,包括种植物的生长状况信息的数据、植物生长所需要素(例如,土壤、温度等)信息的数据、环境气象信息的数据、农药化肥信息的数据等,这些数据通常通过遥感图像以及传感器获取农作物生长环境中的各项指数数据,再把这些采集的数据传送到本地或云端的数据中心,从而对农业生产的历史数据和实时监控数据进行分析,提高对农作物各项相关数据的关联监测能力。1.3.1大数据的应用概述大数据的应用领域环境领域:大数据技术在环境保护领域的应用有两个亮点。第一个是实时且不间断地检测环境的变化,应用大数据工具收集到大量关于各项环境质量指标的数据信息,并将这些数据信息传输到中心数据库进行数据的处理以及分析,用于环境治理方案的制定;第二个是实时检测环境治理效果,动态更新治理方案。技术人员采用可视化方法将环境数据分析结果和治理模型立体化展现,为了检测制定的环境保护方案是否是有效的,技术人员通过用于测试的模拟环境数据,建立模型来模拟真实环境。社会安全领域:国家可以通过大数据技术监控违法乱纪行为并且应用大数据贡酒抓捕在逃罪犯,企业也可以利用大数据技术防御黑客恶意的网络攻击等。1.3.1大数据的应用概述大数据的应用领域交通领域:大数据技术在交通领域的应用主要集中在两方面。一方面我们可以利用大数据传感器实时收集到各个路段车辆数量的数据,从而了解到不同路段在不同时段的车辆通行密度情况,合理地根据这些信息对道路规划(例如某个路段是否在某个时间段只能单行、某个路段是否在某个时段只能允许单号车辆同行等)进行及时的调整;另一个方面,我们可以利用大数据来实现信号灯的合理安排,提高已有线路的运行能力。抗疫领域:大数据在抗疫领域的应用主要集中在两方面。一方面是利用大数据进行疫情的舆情分析,大数据技术已经成为疫情背景下分析民情民意必不可少的一部分,它能精准地分析出民众的需求和问题;另一方面,大数据技术还可以通过收集用户实时的位置信息或者在各种app钟留存的地址信息实时追踪感染者的移动轨迹并记录感染者的人群接触史,通过建立知识图谱,精准定位疫情的传播途径,防止疫情的扩散。1.4大数据时代的思维变革

1.4大数据时代的思维变革维克托·迈尔-舍恩伯格在《大数据时代》一书中提出:“大数据,一场生活、工作与思维的大变革。”大数据带来信息风暴正在变革我们的生活、工作以及思维方式。大数据时代的到来将会给我们带来三个思维转变,即从样本思维转变为总体思维,从精确思维转变为容错思维,从因果思维转变为相关思维,从自然思维转变为智能思维。1.4大数据时代的思维变革更多不是随机样本,而是全体数据由于采集与分析大量的数据在以前是十分复杂与困难的,故我们常用随机取样是采集与分析大量数据,但这个方法只能以将从小部分数据中得来的规律推广到总体,若是存在偏见,则结果也会存在偏差;并且也只能回答我们在设计取样之初提出的问题,无法解答我们在分析数据过程中产生的新问题,缺乏调查延展性。相比于小数据,大数据更加强调数据的多样性和整体性。大数据时代,采取全数据模式,即采用所有数据,可以理解为“样本=总体”,只有将思维方式从样本思维转变为总体思维,才能更加全面并且系统地把握数据反映出来规律或者现实;此外,基于大数据时代的全数据模式,我们收集到的数据从少量转变为海量,并且我们收集的数据也已经不再仅仅局限于某一段特定的时间,而是扩大到那些实时更新的数据,得益于收集到的实时更新的海量数据,大数据分析还具有即时性。1.4大数据时代的思维变革更杂不是精确性,而是混杂性混杂性:随着数据量的增加,数据的错误率也在增加;接受不同格式的数据,只有5%的数据是结构化且能使用传统数据库,如果不接受混乱,剩下95%的非结构化数据都无法被利用。伴随着数据的混杂性的不断增长,数据的多样性也同时在增长。小数据时代,我们追求数据的精确性;大数据时代,得益于大数据技术的不断突破和发展,大量非结构化的数据的分析和处理能力日趋增强,数据量的爆发式增长及数据采集频率的增加必然会造成结果的不准确,一些错误数据也会混入数据库,但因为大数据的海量性,我们不需要担心某个或某些数据点对结果的不利影响,仍可以利用这些数据预测趋。错误数据的固有特性,是由测量、记录和交流数据使用的工具所产生的问题。1.4大数据时代的思维变革更好不是因果关系,而是相关关系确定相关关系只是通过识别良好的关联来帮助我们分析某一个现象,而不是用来揭示其内部的运作机制。找准相关关系,我们必须聚焦于“是什么”而非“为什么”。相关关系分析法通过研究和分析数据之间存在的线性相关关系以及复杂的非线性相关关系,不仅能帮助人们很有效地解决了偏见可能会造成的偏差,还能帮助人们挖掘出更多隐藏在数据之中不容易被注意到的关联性,这对于我们捕捉当下情况和预测未来趋势是非常有帮助的。相关关系的核心在于量化两个数据值之间的数据关系,要明确相关关系,找到良好的关联物便是关键所在。1.5国家大数据战略

1.5.1国家大数据战略的历史沿革2012年11月,广东省率先启动大数据战略,根据《广东省实施大数据战略工作方案》,广东省将建立省大数据战略工作领导小组等,为保证大数据战略有效实施,广东省还将建设政务数据中心,并未高等院校和企业等成立大数据研究机构提供支持。广东省还将在政府各部门开展数据开放试点,并通过部门网站向社会开放可供下载和分析使用的数据,进一步推进政务公开。2014年3月,大数据首次写入政府工作报告。2015年10月,党的十八届五中全会正式提出“实施国家大数据战略,全面推进我国大数据发展和应用,加快建设数据强国,推动数据资源开放共享,释放技术红利、制度红利和创新红利,促进经济转型升级”。这表明我国已将大数据视作战略资源并上升为国家战略,期望运用大数据推动经济发展、完善社会治理、提升政府服务和监管能力。2016年12月,为贯彻落实《中华人民共和国国民经济和社会发展第十三个五年规划纲要》和《促进大数据发展行动纲要》,加快实施国家大数据战略,推动大数据产业健康快速发展,工信部编制了《大数据产业发展规划(2016-2020年)》。1.5.1国家大数据战略的历史沿革2017年12月,习近平主席主持中央政治局就实施国家大数据战略第二次集体学习。习近平总书记在主持学习时强调,大数据发展日新月异,我们应该审时度势、精心谋划、超前布局、力争主动,深入了解大数据发展现状和趋势及其对经济社会发展的影响,分析我国大数据发展取得的成绩和存在的问题,推动实施国家大数据战略,加快完善数字基础设施,推进数据资源整合和开放共享,保障数据安全,加快建设数字中国,更好服务我国经济社会发展和人民生活改善;

1.5.1国家大数据战略的历史沿革习近平总书记还强调,要推动大数据技术产业创新发展。我国网络购物、移动支付、共享经济等数字经济新业态新模式蓬勃发展,走在了世界前列。我们要瞄准世界科技前沿,集中优势资源突破大数据核心技术,加快构建自主可控的大数据产业链、价值链和生态系统。要加快构建高速、移动、安全、泛在的新一代信息基础设施,统筹规划政务数据资源和社会数据资源,完善基础信息资源和重要领域信息资源建设,形成万物互联、人机交互、天地一体的网络空间。要发挥我国制度优势和市场优势,面向国家重大需求,面向国民经济发展主战场,全面实施促进大数据发展行动,完善大数据发展政策环境。要坚持数据开发、市场主导,以数据为纽带促进产学研深度融合,形成数据驱动型创新体系和发展模式,培育造就一批大数据领军企业,打造多层次、多类型的大数据人才队伍;1.5.1国家大数据战略的历史沿革

另外,习近平总书记也指出了,要构建以数据为关键要素的数字

经济

。建设现代化经济体系离不开大数据发展和应用。我们要坚

持以供给侧结构性改革为主线,加快发展数字经济,推动实体经济

和数字经济融合发展,推动互联网、大数据、人工智能同实体经济

深度融合,继续做好信息化和工业化深度融合这篇大文章,推动制

造业加速向数字化、网络化、智能化发展。要深入实施工业互联网

创新发展战略,系统推进工业互联网基础设施和数据资源管理体系

建设,发挥数据的基础资源作用和创新引擎作用,加快形成以创新

为主要引领和支撑的数字经济。2018年5月,习近平在向中国国际大数据产业博览会的致辞中指出,我们秉持创新、协调、绿色、开放、共享的发展理念,围绕建设网

络强国、数字中国、智慧社会,全面实施国家大数据战略,助力中

国经济从高速增长转向高质量发展。1.5.1国家大数据战略的历史沿革2019年11月,党的第十九届四中全会召开为推进国家治理体系和治理能力现代化进行战略布局。政府数字化转型的成效,直接关乎国家治理现代化的成就。十九届四中全会明确提出,“建立健全运用互联网、大数据、人工智能等技术手段进行行政管理的制度规则,推进数字政府建设,加强数据有序共享,依法保护个人信息”,为政府数字化转型规定了方向。2020年《关于构建更加完善的要素市场化配置体制机制的意见》的发表,大数据被正式列为新型生产要素。2021年11月30日,工业和信息化部发布《“十四五”大数据产业发展规划》。《“十四五”大数据产业发展规划》提出“十四五”时期的总体目标,到2025年我国大数据产业测算规模突破3万亿元,年均复合增长率保持25%左右,创新力强、附加值高、自主可控的现代化大数据产业体系基本形成。1.5.2国家大数据战略的时代背景“全球化”的世界背景以及“一带一路”总体战略的提出在全球化的大背景下,世界各国之间相互联系、相互依赖,相互渗透,关系越来越密切,已经成为一个不可分割的有机整体,为了顺应时代潮流,我国提出“人类命运共同体”理念,并据此提出“一带一路”总体战略。大数据时代的到来,更加拉近了国与国之间的距离,国家大数据战略,需要立足于“人类命运共同体”理念。因此,国家大数据战略必须服务于“一带一路”,实现以数字驱动“一带一路”,通过大数据技术的利用,来解决“一带一路”建设中存在的风险。由于“一带一路”涉及沿线国家的经济、政治、金融等多个领域,不仅涵盖的领域众多,涵盖的国家、地区、企业、团体甚至个人也很多,这导致了非结构化数据与结构化数据混杂在一起,为了降低数据结构复杂性来带的风险,我们必须应用大数据技术对各个领域、各个对象涵盖的海量数据进行收集、清洗、处理和分析,构建大数据指标体系,为“一带一路”提供智能决策支持,从而不断推进数字化的“一带一路”的建设。1.5.2国家大数据战略的时代背景国家安全面临错综复杂的形势习总书记指出:“当前我国国家安全内涵和外延比历史上任何时候都要丰富,时空领域比历史上任何时候都要宽广,内外因素比历史上任何时候都要复杂,必须坚持总体国家安全观,以人民安全为宗旨,以政治安全为根本,以经济安全为基础,以军事、文化、社会安全为保障,以促进国际安全为依托,走出一条中国特色国家安全道路。贯彻落实总体国家安全观,必须既重视外部安全,又重视内部安全,对内求发展、求变革、求稳定、建设平安中国,对外求和平、求合作、求共赢、建设和谐世界;既重视国土安全,又重视国民安全,坚持以民为本、以人为本,坚持国家安全一切为了人民、一切依靠人民,真正夯实国家安全的群众基础;既重视传统安全,又重视非传统安全,构建集政治安全、国土安全、军事安全、经济安全、文化安全、社会安全、科技安全、信息安全、生态安全、资源安全、核安全等于一体的国家安全体系;既重视发展问题,又重视安全问题,发展是安全的基础,安全是发展的条件,富国才能强兵,强兵才能卫国;既重视自身安全,又重视共同安全,打造命运共同体,推动各方朝着互利互惠、共同安全的目标相向而行。1.5.2国家大数据战略的时代背景国家安全面临错综复杂的形势在当下大数据时代,数据安全直接关乎于国家安全和公共利益,故而国家安全的重点将聚焦于数据安全。2021年6月11日,十三届全国人大常委会第二十九次会议通过了我国第一部有关数据安全的专门法律——《数据安全法》,并且于2021年9月1日起开始施行。《数据安全法》的通过,是我国首次将数据安全提升至国家安全层面。1.5.2国家大数据战略的时代背景我国经济发展的不平衡不充分我国经济发展的不平衡不充分主要体现在两方面:第一,我国供给和需求仍然存在不平衡的问题,随着人们生活水平的不断提高,其需求结构正在转向中高端产品,供给结构仍然还停留在主要供给低端产品,导致低端供给过剩、中高端供给不足,因此供给结构无法很好地适应需求结构的变化;第二,传统产业利用大数据技术进行产业重塑或者转型的成效并不理想,数字经济与传统产业的融合并不彻底,许多产业的创新能力依然无法适应经济高质量发展的要求,创新驱动经济增长的新格局还未形成。因此,我国一方面需要利用大数据技术助力传统产业的转型升级;另一方面需要大数据技术与实体经济进行深度融合,开发出新产业、新业态、新模式;并且,我国还需要借助大数据技术,不断提升产业技术创新能力,从而不断提高企业的生产效率和运营效率,实现新旧产业的可持续发展。1.5.2国家大数据战略的时代背景社会治理的迫切需求以前,我国的社会治理存在着一个不容忽视的问题——“数据孤岛”问题。“数据孤岛”指的是政府与社会各个部分之间的数据无法连接互动,从而影响政府治理的效率。而大数据技术在社会治理中的应用,很好地解决了这个问题。借助大数据体系,将现有数据通公布在一个开放的网络平台并允许社会各界无偿使用。这些数据不仅可以直接给百姓提供服务,还可以用于企业、科研机构以及公益组织等的进一步处理和分析;政府也可以通过平台上的反馈信息,评估政策的施行效果,并对政策进行及时的调整。至此,“数据孤岛”问题迎刃而解的同时,政府也提高了其基础服务能力。除了数据的共享,政府还可以借助大数据技术将原始大数据进行加工和分析,最终将这些分析好的数据用于预测未来可能发生的事件或者是找到一些潜藏的关联关系,从而增强政府决策的科学性。1.5.3国家大数据战略的内涵必须坚持以创新作为发展的驱动力我国既是世界上拥有网民数量最多的国家,也是重要的大数据资源集散地,构筑在网络技术与数据开发利用基础上的新技术、新产品、新服务以及新产业、新业态,为吸引企业、社会组织以及公众的参与提供了巨大的数据空间和大众创业、万众创新的发展平台。坚持创新驱动发展的大数据战略不仅能够成功激发企业和全社会运用大数据的创新活力,为经济社会发展释放潜能和创造力,而且有助于借用民智,营造跨地域、跨领域、跨行业集成融合的大数据应用生态,进而实现大数据驱动全社会创新发展的良好局面,增强大数据集成创新能力与国家大数据竞争力。1.5.3国家大数据战略的内涵必须坚持政府数字治理体系变革与经济社会发展方式整体改革相协调大数据是数字时代的新型战略资源,其开发利用水平取决于大数据与政府公共管理、企业生产经营与社会自我培育的深度融合。换句话说,既要高度重视大数据技术与政府数据治理双重递进、叠加作用而带来的国家治理体系与政府治理能力的现代化,充分运用互联网、大数据、人工智能等手段扩大数据开放、优化政府流程、改进行政方式、提高决策科学化精准化;也要统筹推进大数据战略与经济发展、社会治理的无缝对接。只有坚持政府、企业和社会大数据战略的整体化推进和数据治理的国家统筹,才能形成完整的大数据开发利用合力。单独强调某一方面,都会带来数据治理的碎片化与数据综合效用的衰减。1.5.3国家大数据战略的内涵必须坚持速度、结构与质量效益相统一大数据是信息时代的新型战略资源,其开发利用必须将速度、结构与质量效益相统一。大数据技术的应用,通过对海量数据的挖掘和分析,及时反馈这些数据背后潜藏的信息,将这些分析出的信息与政府、各个行业以及百姓生活的深度融合,以此提高政府治理能力、促进各个行业的产业结构优化以及可持续发展、不断改善人民的生活水平,从而形成完整的大数据开发利用链条。在这个过程中,大数据的速度、结构与质量效益缺一不可,否则可能会导致数据综合效用的衰减。1.5.3国家大数据战略的内涵必须保证安全性与开放性的兼顾国家在进行数据公开和共享的同时其实存在着极大的安全隐患(例如,数据遭受异常流量攻击、数据泄露等),此时保障数据的安全性就极为重要了,没有数据安全就不存在可持续的大数据开发利用。国家大数据战略的有效实施,依赖于国家抵御数据风险的能力的不断增强,实现数据开放与数据安全之间的平衡,是建设数字中国的必由之路。1.5.4国家大数据战略的意义大数据是推动数字经济发展的关键要素大数据正在引领我国的经济发展进入数字经济时代。中国工程院院长周济在“第二届IT2020高端论坛”上提出,“云计算和大数据时代已经到来,而且以及深切改变了人们的工作和生活方式,这势必重塑全球科技和经济竞争格局,为中国经济引擎升级带来新的挑战和机遇”[]。随着大数据技术在经济活动以及生产活动中的广泛应用,将实现我国传统产业结构和形态向数字化和智能化方向转型升级,并促进我国产业类型以及产业模式的推陈出新,加速我国经济结构的转变,从而推动我国经济的高质量发展。大数据还推动了不同产业之间的深度融合,“互联网+产业”便是一个很好的例子,通过大数据技术,使得各行各业(例如电商、金融、教育、交通、医疗等)能更精准地为客户提供个性化产品以及服务。1.5.4国家大数据战略的意义大数据是增强国家竞争力的重大机遇大数据已经成为塑造国家竞争力的战略制高点之一,世界各国纷纷把推进大数据的技术创新作为国家的重要发展战略。中国紧跟世界发展潮流,将国家大数据战略落到实处,当前,我国正在为从“数据大国”转型成“数据强国”而不断努力。随着中国大数据技术的不断创新和突破,到2025年,其产生的数据将超过美国。数据的快速产生和各项配套政策的落实推动我国大数据行业高速发展,预计未来我国行业大数据市场规模增速将维持在15%-25%之间,到2025年中国大数据产业规模将达19508亿元的高点。大力发展大数据有利于将我国数据资源优势转化为国家竞争优势,实现数据规模、质量和应用水平同步提升,发掘和释放数据资源的潜在价值,有效提升国家竞争力。1.5.4国家大数据战略的意义大数据是提高治理能力的有效驱动力在大数据时代,互联网成为了政府治理的平台。我国建立电子政务系统,更多地依赖数据进行决策,从而提高政府民意搜集能力以及及时应对各类问题的变通能力,达到高效且精准施政的目的。大数据技术的应用,将政府的决策依据转向数据,这使得政府的决策更加科学,推动了政府治理理念的革新,将治理模式转向现代化治理。1.5.4国家大数据战略的意义大数据加速数字中国的建设从2015年12月16日在第二届世界互联网大会开幕式上强调“中国正在实施‘互联网+’行动计划,推进‘数字中国’建设”,到2017年致第四届世界互联网大会的贺信中指出:“中国数字经济发展将进入快车道”;从党的十九大报告提出加强应用基础研究,“为建设科技强国、质量强国、航天强国、网络强国、交通强国、数字中国、智慧社会提供有力支撑”,再到2017年12月8日下午中共中央政治局集体学习时强调“推进数据资源整合和开放共享,保障数据安全,加快建设数字中国”……习近平总书记为“数字中国”建设把舵定向,不仅标定了前进路径,更擘画了清晰未来[]。数字中国的建设时国家大数据战略实施过程中的极为重要的一环。数字中国的建设保证了信息化技术在我国各项事业发展进程中的有效应用,通过对海量数据的挖掘和分析,向各行各业提供精准的信息资源,推动社会主义现代化强国的建设。1.6

本章小结

本章小结本章从大数据的产生背景与概念、大数据的特点和技术概述、大数据的应用与价值体现、大数据时代的思维变革以及国家大数据战略五个方面带领我们初步了解大数据。大数据产生的三个重要阶段,大数据的“4V”特点以及五大类技术,大数据在各个领域的应用及展现其价值的“三重门”理论,还有大数据给我们带来的思维变革,以及国家大数据战略的内涵和意义都是需要我们了解并掌握的。本章学习目的在于对大数据有基础的了解。感谢观看

第2章开源大数据平台开源大数据平台学习目标了解两种常用开源大数据分析平台——Hadoop和Spark的起源、发展及应用现状理解两种平台各自的体系结构、基本运行机制及适用范围掌握其安装部署过程及基本使用方法,为大数据分析的应用打下基础学习要点Hadoop和Spark的起源、发展及应用现状Hadoop和Spark的生态系统和体系结构Hadoop和Spark的安装和使用方法目录Hadoop平台Hadoop概述Hadoop生态系统和体系结构Hadoop的安装和使用Spark平台Spark概述Spark生态系统和体系结构RDD的运行原理Spark的安装和使用目录Hadoop平台Hadoop概述Hadoop生态系统和体系结构Hadoop的安装和使用Hadoop的起源Apache软件基金会旗下开源分布式计算平台由DougCutting创始开发的文本搜索库源自Google实验室发表的两篇学术论文:SanjayG,HowardG,Shun-TakL.TheGoogleFileSystem.Proc.ofSOSP.2003:29-43.DeanJ,GhemawatS.MapReduce.Simplifieddataprocessingonlargeclusters.CommunicationsoftheACM.2008,51(1):107-113.(DeanJ,GhemawatS.MapReduce:Simplifieddataprocessingonlargeclusters.OSDI2004.)最先应用于Yahoo!广告系统的数据挖掘2008年4月,打破世界纪录成为排序1TB数据最快的系统由910个节点构成的集群进行运算排序时间只用了209秒同年5月再次将纪录刷新至62秒DougCuttingHadoop的核心技术Hadoop是一套大数据存储和处理的解决方案Hadoop核心技术:HDFS:HadoopDistributedFileSystem,被设计成适合运行在通用硬件上的分布式文件系统。MapReduce:一种编程模型,用于大规模数据集(大于1TB)的并行运算。综合衡量一套大数据处理系统是否可用标准:容错性能编程模式的可用性性能或成本比Hadoop的特性高可靠性高效性可扩展性低成本良好的跨平台性用户友好性Hadoop的应用现状互联网领域:国外:Google和Yahoo!等网站、Facebook、Microsoft、Cisco等国外公司或平台国内:百度、阿里巴巴、网易、华为、腾讯、中国移动等

举例:淘宝、华为学术界:国外:卡耐基梅隆大学、加州大学伯克利分析、康奈尔大学、斯坦福大学、华盛顿大学、普渡大学等国内:清华大学、中国人民大学、中国科学院大学等目录Hadoop平台Hadoop概述Hadoop生态系统和体系结构Hadoop的安装和使用Hadoop的版本发展/releases.htmlHadoop的体系结构Hadoop1.0Hadoop的体系结构Hadoop1.0在实际应用中仍然存在着许多问题。HDFS:可用性:单点故障问题扩展性:不支持水平扩展系统性能:会受限于单个名称节点的吞吐量隔离性:单个名称节点也难以提供不同程序之间的隔离性MapReduce:可用性:单点故障问题资源受限资源化分不合理Hadoop的体系结构Hadoop2.0在1.0的基础上进行了丰富和完善。Hadoop的生态系统目录Hadoop平台Hadoop概述Hadoop生态系统和体系结构Hadoop的安装和使用部署准备硬件准备:分布式模式:至少需要2台计算机或1台计算机上的2台虚拟机单机或伪分布式模式:可使用1台计算机。操作系统准备:Linux系统(如Ubuntu操作系统)Linux系统的安装主要有两种方式:虚拟机安装:计算机比较新或者配置内存4G以上双系统安装:计算机较旧或配置内存小于等于4G本书介绍的是虚拟机安装方法下载安装-Ubuntu虚拟机安装Ubuntu虚拟机安装软件下载新建虚拟机安装Ubuntu用户及环境设置下载安装-Ubuntu虚拟机安装软件下载:下载并安装VirtualBox虚拟机软件官网或镜像网站下载好所需要的Ubuntu的镜像文件(ISO文件)本书使用的版本为Ubuntu16.04,使用的镜像网站为阿里开源镜像站下载安装-Ubuntu虚拟机安装新建虚拟机:打开VirtualBox,单击“新建”按钮给虚拟机命名为“Ubuntu”,选择操作系统类型与版本选择内存大小选择“现在创建虚拟硬盘”选项选择虚拟硬盘文件类型为“VDI(VirtualBox磁盘镜像)”将虚拟硬盘的存储分配方式选择为“动态分配”选择文件存储的位置和容量大小单击“创建”按钮,完成虚拟机的创建完成上述步骤后,可以在VirtualBox中看到新建好的虚拟机,代表虚拟机已经创建成功了。下载安装-Ubuntu虚拟机安装安装Ubuntu:设置“存储”单击“启动”按钮启动虚拟机,若弹出提示,在下拉列表中选择ISO文件启动后,选择语言为“中文(简体)”,单击“安装Ubuntu”按钮检查是否连接网络及是否安装第三方软件,单击“继续”按钮。确认安装类型,选择“其他选项”,单击“继续”按钮单击“新建分区表”按钮创建分区,添加交换空间和根目录全部设置完成后,单击“现在安装”按钮,确认将改动写入磁盘选择时区,在键盘布局中将两列均设置为汉语设置用户名和密码单击“继续”按钮,开始安装安装完毕后,单击“现在重启”按钮重启虚拟机下载安装-Ubuntu虚拟机安装用户及环境设置:创建Hadoop用户SSH登录权限设置安装和配置Java下载安装-Ubuntu虚拟机安装创建Hadoop用户:第一步,按快捷键Ctrl+Alt+T,或者在搜索栏中搜索终端,打开终端窗口(命令行界面),输入如下命令创建新用户。

$sudouseradd-mhadoop-s/bin/bash由此创建了名为“hadoop”的用户,同时指定使用bash作为shell解析相关命令。第二步,输入如下命令将登录密码设置为“hadoop”(也可设置其他密码,密码将需按照提示输入两次)。

$sudopasswdhadoop第三步,输入如下命令如下:“hadoop”用户增加管理员权限以方便后续部署。

$sudoadduserhadoopsudo此后的操作请登录“hadoop”用户来进行。下载安装-Ubuntu虚拟机安装SSH登录权限设置:SSH协议是建立在应用层和传输层基础上的安全协议,可以提供安全的网络传输环境。Hadoop名称节点(NameNode)启动集群中的数据节点(DataNode)时,需要通过SSH登录来实现。SSH包括客户端client(无须安装,Ubuntu操作系统已自动安装)和服务器端server(需要安装)。可采用下面的命令安装SSHserver:

$sudoapt-getinstallopenssh-server如果本步安装失败,可以先尝试执行$sudoapt-getupdate命令进行更新。安装以后,使用如下命令:

$sshlocalhost然后输入yes和密码后即可登录本机。下载安装-Ubuntu虚拟机安装SSH登录权限设置:为了使名称节点能够顺利登录集群中的任何一个节点,我们可以用下面的命令将所有机器配置为无密码登录方式。

$exit

$cd~/.ssh/

$ssh-keygen-trsa此时系统会要求你指定一个文件来保存密钥,可以按回车键使用默认的文件。接着输入下面的代码继续完成所有机器的无密码登录配置。

$cat./id_rsa.pub>>./authorized_keys此时再次执行$sshlocalhost命令即可不需要密码登录了,SSH配置结束。下载安装-Ubuntu虚拟机安装安装和配置Java:在Ubuntu中直接通过下面的命令安装jdk1.8:

$sudoapt-getinstallopenjdk-8-jreopenjdk-8-jdk除此之外,还需配置JAVA_HOME环境变量以避免访问时反复写绝对路径第一步,进入文件~/.bashrc编辑模式):

$vim~/.bashrc

如果报错“程序Vim已包含在以下软件包中”,可以先以下命令:

$sudoapt-getinstallvim第二步,单击i按键开启编辑模式,添加如下语句:

exportJAVA_HOME=/usr/lib/jvm/java-8-openjdk-amd64

exportJRE_HOME=${JAVA_HOME}/jre

exportCLASSPATH=.:${JAVA_HOME}/lib:${JRE_HOME}/lib

exportPATH=${JAVA_HOME}/bin:$PATH

输入完毕后,单击Esc按键退出编辑模式,输入“:wq”(w保存,q退出)命令,按回车键后回到命令行界面。下载安装-Ubuntu虚拟机安装安装和配置Java:第三步,执行下列命令使修改生效:

$source~/.bashrc第四步,执行下列命令查看Java是否安装成功:

$java-version

若返回下图所示内容,则Java安装成功。下载安装-Hadoop的下载安装Hadoop的下载安装Hadoop官方网站:/本书选择的是Hadoop3.1.3版本单机安装配置伪分布式安装配置分布式安装配置下载安装-Hadoop的下载安装单机安装配置:将hadoop-3.1.3.tar.gz安装至虚拟机的/usr/local/目录中,命令如下:

$sudotar-zvxf~/下载/hadoop-3.1.3.tar.gz-C/usr/local可以重命名并修改访问权限,以方便后续调用,命令如下:

$cd/usr/local/

$sudomv./hadoop-3.1.3/./hadoop#将文件夹名改为hadoop

$sudochown-Rhadoop:hadoop./hadoop#修改文件权限检查Hadoop是否可用,命令如下:

$cd/usr/local/hadoop

$./bin/hadoopversion如果可用,则会显示Hadoop版本信息,表示单机安装Hadoop成功。下载安装-Hadoop的下载安装伪分布式安装配置:Hadoop的运行方式是由配置文件决定的,默认情况下为单机模式。如果需要配置为伪分布式模式,则需要修改相应配置文件。第一步,修改配置文件第二步,初始化文件系统第三步,启动所有进程,执行以下命令第四步,访问web,查看Hadoop集群信息下载安装-Hadoop的下载安装第一步,修改配置文件:core-site.xml和hdfs-site.xml在目录/usr/local/hadoop/etc/hadoop/中打开hdfs-site.xml,将内容修改为:<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> <property> <name>.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/name</value> </property> <property> <name>dfs.datanode.data.dir</name> <value>file:/usr/local/hadoop/tmp/dfs/data</value> </property></configuration>

dfs.replication表示副本的数量,伪分布式要设置为1。

.dir表示存储fsimage文件的本地磁盘目录。

dfs.datanode.data.dir表示HDFS数据存放的本地磁盘目录。下载安装-Hadoop的下载安装第二步,初始化文件系统执行下列语句:

$hadoopnamenode–format

如果报错“找不到hadoop”,则可以使用以下命令行打开环境变量配置的界面:

$vim~/.bashrc

打开设置环境变量的界面后,添加语句:

exportPATH=$PATH:/usr/local/hadoop/sbin:/usr/local/hadoop/bin同样输入“:wq”(w保存,q退出)命令,退出编辑模式。使配置立即生效:

$source~/.bashrc检查是否配置成功

$hadoop-version

如果报错“mkdir:无法创建目录/usr/local/hadoop/logs:权限不够”,可通过以下命令行解决:

$sudochown-Rhadoop/usr/local/hadoop#此处前一个hadoop为用户名下载安装-Hadoop的下载安装第三步,启动所有进程,执行以下命令:

$start-all.sh第四步,使用浏览器访问http://localhost:9870查看Hadoop集群中NameNode和Datanode的信息。下载安装-Hadoop的下载安装分布式安装配置:为了降低分布式模式部署难度,本书简单使用两个节点(两台虚拟机:Master节点和Slave节点)来搭建集群环境与单机安装过程类似,我们要在Master节点和Slave节点上完成创建“hadoop”用户、安装SSH服务端、安装Java环境的步骤,并且在Master节点上安装Hadoop,并完成配置完成上述步骤后,进行下述步骤:第一步,网络配置。第二步,设置SSH无密码登录。第三步,配置PATH变量。下载安装-Hadoop的下载安装第一步,网络配置在虚拟机的网络设置中将两台虚拟机的网络连接方式改为“桥接网卡”模式因为采用导入虚拟机镜像文件的方式安装Linux系统,有可能出现两台机器的MAC地址是相同的,因此,在虚拟机的网络设置中还需要使用“刷新”按钮随机改变机器的MAC地址网络配置完成以后,可以在终端使用ifconfig命令查看机器的IP地址:

$ifconfig

其中inet地址即为我们需要查看的IP地址,本书的两台机器IP地址分别为07和09下载安装-Hadoop的下载安装第一步,网络配置修改各个节点的主机名,在Master节点上执行如下命令修改主机名:

$sudovim/etc/hostname

将主机名内容直接删除,并修改为“Master”,保存退出v(需要重启Linux系统才能看到主机名的变化)在Master节点中执行如下命令打开并修改Master节点中的“/etc/hosts”文件:

$sudovim/etc/hosts在hosts文件中增加如下两条IP和主机名映射关系:

07Master

09Slave1下载安装-Hadoop的下载安装第一步,网络配置完成了Master节点的配置后,参照上面的方法,把Slave节点上的“/etc/hostname”文件中的主机名修改为“Slave1”,同时,修改“/etc/hosts”的内容,在hosts文件中增加相同的IP和主机名映射关系重新启动Slave节点的Linux系统在各个节点上都执行如下命令测试是否可以互相连通:

$pingMaster-c3

$pingSlave1-c3如果可以连通,输出如图所示下载安装-Hadoop的下载安装第二步,设置SSH无密码登录让Master节点可以SSH无密码登录到各个Slave节点上,生成Master节点的公匙。

$cd~/.ssh

如果本步执行后显示没有该目录,可以先执行一次$sshlocalhost命令

$rm./id_rsa*

$ssh-keygen-trsa让Master节点能够SSH无密码登录本机,在Master节点上执行如下命令:

$cat./id_rsa.pub>>./authorized_keys完成后可以执行如下命令来进行验证:

$sshMaster执行成功后如图所示。下载安装-Hadoop的下载安装第二步,设置SSH无密码登录执行如下命令返回原来的终端:

$exit在Master节点上,将上公匙传输给Slave1节点:

$scp~/.ssh/id_rsa.pubhadoop@Slave1:/home/hadoop/切换到Slave1节点上,执行如下命令将SSH公匙加入授权:

$mkdir~/.ssh

$cat~/id_rsa.pub>>~/.ssh/authorized_keys

$rm~/id_rsa.pub

这样,在Master节点上就可以SSH无密码登录到各个Slave节点了切换到Master节点上执行如下命令进行检验:

$sshSlave1运行成功的结果如图所示,这意味着此时Master已经可以登录到各个Slave节点了。下载安装-Hadoop的下载安装第三步,配置PATH变量在Master节点上执行以下命令:

$vim~/.bashrc在文件中添加以下内容:

exportPATH=$PATH:/usr/local/hadoop/bin:/usr/local/hadoop/sbin保存后执行:

$source~/.bashrc下载安装-Hadoop的下载安装第四步,配置集群/分布式环境在配置集群/分布式模式时,需要修改“/usr/local/hadoop/etc/hadoop”目录下的配置文件,在此不再赘述。我们仅设置正常启动所必须的设置项,包括workers、core-site.xml、hdfs-site.xml、mapred-site.xml、yarn-site.xml共五个文件,更多设置项可查看官方说明。文件workers:将workers文件中原来的localhost删除,只添加“Slave1”。下载安装-Hadoop的下载安装第四步,配置集群/分布式环境文件core-site.xml:修改为以下内容<configuration><property><name>fs.defaultFS</name><value>hdfs://Master:9000</value></property><property><name>hadoop.tmp.dir</name><value>file:/usr/local/hadoop/tmp</value><description>Abaseforothertemporarydirectories.</description></property></configuration>下载安装-Hadoop的下载安装第四步,配置集群/分布式环境文件hdfs-site.xml:修改为以下内容<configuration><property><name>node.secondary.http-address</name><value>Master:50090</value></property><property><name>dfs.replication</name><value>1</value></property><property><name>.dir</name><value>file:/usr/local/hadoop/tmp/dfs/name</value></property><property><name>dfs.datanode.data.dir</name><value>file:/usr/local/hadoop/tmp/dfs/data</value></property></configuration>下载安装-Hadoop的下载安装第四步,配置集群/分布式环境文件mapred-site.xml:修改为以下内容<configuration><property><name></name><value>yarn</value></property><property><name>mapreduce.jobhistory.address</name><value>Master:10020</value></property><property><name>mapreduce.jobhistory.webapp.address</name><value>Master:19888</value></property><property><name>yarn.app.mapreduce.am.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value></property><property><name>mapreduce.map.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value></property><property><name>mapreduce.reduce.env</name><value>HADOOP_MAPRED_HOME=/usr/local/hadoop</value></property></configuration>下载安装-Hadoop的下载安装第四步,配置集群/分布式环境文件yarn-site.xml:修改为以下内容。<configuration><property><name>yarn.resourcemanager.hostname</name><value>Master</value></property><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>下载安装-Hadoop的下载安装第四步,配置集群/分布式环境配置完成后,把Master节点上的“/usr/local/hadoop”文件夹复制到各个节点上,命令如下:

$cd/usr/local

$tar-zcf~/hadoop.master.tar.gz./hadoop

$cd~

$scp./hadoop.master.tar.gzSlave1:/home/hadoop切换到Slave1节点上执行如下命令:

$sudotar-zxf~/hadoop.master.tar.gz-C/usr/local

$sudochown-Rhadoop/usr/local/hadoop下载安装-Hadoop的下载安装第四步,配置集群/分布式环境在Master节点执行名称节点的格式化:

$hdfsnamenode-format

在Master节点上启动Hadoop:

$start-dfs.sh

$start-yarn.sh

$mr-jobhistory-daemon.shstarthistoryserver

通过命令jps可以查看各个节点所启动的进程。如果已经正确启动,则在Master节点上可以看到NameNode、ResourceManager、SecondrryNameNode和JobHistoryServer进程,如图所示。下载安装-Hadoop的下载安装第四步,配置集群/分布式环境在Slave节点可以看到DataNode和NodeManager进程,如图所示在Master节点上执行命令:

$hdfsdfsadmin–report如果屏幕信息中的“Livedatanodes”不为0,则说明数据节点启动成功结果如图所示目录Spark平台Spark概述Spark生态系统和体系结构RDD的运行原理Spark的安装和使用Hadoop的流程和缺陷企业对于大数据处理往往会产生不同的需求复杂的批量数据处理需要分钟到小时级响应基于历史数据的交互式查询需要秒级到分钟级响应基于实时数据流的处需要毫秒到秒级响应……Hadoop的流程和缺陷一个Hadoop应用的多个MapReduce操作之间都是相互独立的每个操作的结果一般都会存入磁盘(如HDFS)后续操作需要再次从磁盘读取数据导致了多次磁盘读/写,会对Hadoop计算造成巨大的时间开销。Hadoop的执行流程Hadoop的流程和缺陷缺陷:磁盘I/O开销大,无法满足多阶段和交互式计算需求系统的表达能力有限,很多操作无法转化为MapReduce操作面对上述企业对于大数据处理的诸多需求:仅仅能满足复杂的批量数据处理需求不能满足基于历史数据的交互式查询要求不能满足基于实时数据流的处理要求……一种高效、低延迟的大数据处理架构——Spark产生了Spark的发展及应用官网:/2009年由美国加州伯克利大学的AMPLab最早进行开发2010年开源发布2013年加入Apache软件基金会2014年打破Hadoop保持的排序纪录Spark:206个节点

23分钟Hadoop:2000个节点

72分钟在超1000家国内外企业和科研机构均有应用,如淘宝、百度、腾讯、亚马逊、eBay、日立、NASAJPL等。Spark执行流程Spark将数据从磁盘载入内存后,迭代计算等的中间结果会保留在内存中,从而避免了反复从磁盘中读取数据的时间开销。相较于MapReduce优点:基于内存计算框架使得计算效率得以明显提升适合实时数据流的处理但MapReduce更适合执行数据量巨大的批处理操作目录Spark平台Spark概述Spark生态系统和体系结构RDD的运行原理Spark的安装和使用Spark的生态系统Spark的设计理念:Onestacktorulethemall已成为伯克利数据分析软件栈BDAS的重要组成部分下图为BDAS的体系结构Spark的体系结构每个应用会被分解成若干相关的计算任务(Task),分布在不同的工作节点中执行。(1)集群资源管理器(ClusterManager):负责管理调度所有Spark应用的计算资源;除了自带的资源管理器,也支持ApacheMesos或HadoopYARN。(2)工作节点(WorkerNode):负责运行具体的任务(Task)。工作节点上,对每个应用都对应有一个执行进程(Executor)负责该应用在该节点上所有任务的执行和数据的存储。(3)任务控制节点(Driver):为每个应用申请计算资源,并对各节点上的执行进程进行分配和监控。Spark的体系结构一个Spark应用由一个任务控制节点(Driver)和若干个作业(Job)构成一个作业(Job)由多个阶段(Stage)构成一个阶段(Stage)由多个彼此没有Shuffle依赖关系的任务(Task)组成Spark的体系结构一个Spark应用的运行流程如下:(1)由任务控制节点创建一个SparkContext作为通向Spark集群的入口,为应用构建基本的运行环境,并向资源管理器申请计算资源Spark的体系结构一个Spark应用的运行流程如下:(2)资源管理器为应用分配相应的资源,并启动计算节点上的进程(Executor);Spark的体系结构一个Spark应用的运行流程如下:(3)进程启动后,主动向SparkContext申请计算任务;SparkContext则会将计算任务分解成若干个RDD,并按照这些RDD彼此之间的关联关系(DAG图)将他们分为不同的任务集合(TaskSet,也称Stage);最后由任务调度器(TaskScheduler)将Task发放给具体的进程Spark的体系结构一个Spark应用的运行流程如下:(4)计算节点上的任务执行完成后,会通过任务调度器逐层反馈给SparkContext,当所有任务都执行完成后,SparkContext会向资源管理器注销以释放计算资源。目录Spark平台Spark概述Spark生态系统和体系结构RDD的运行原理Spark的安装和使用RDD的特点Spark的核心概念:RDD:ResillientDistributedDataset弹性分布式数据集合提供了一种高度受

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论