大数据概述课件

上传人：熊*** IP属地：山东上传时间：2024-06-03 格式：PPTX 页数：55 大小：18.42MB 积分：25 举报 版权申诉

已阅读5页，还剩50页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

大数据概述2大数据在各个领域的应用3大数据关键技术4Hadoop基础概念5Hadoop3.0伪分布式部署1什么是大数据目录什么是数据数据本质是生产资料和资产OFFiceAPPS浏览器本地数据商业数据数据中心结构化数据/非结构化数据数据爆炸性增长2020年，预计全球数据量达到44ZB2015年，全球数据量达到8.61ZB2010年，全球数据量达到1.2ZB2008年，全球数据量达到0.49ZB着智能手机普及，数据业务爆炸性增长，“现在数据业务不是20%、30%地增长，而是300%、500%、600%地增长数据爆炸性增长微信：日发送消息次数380亿Google

：每分钟搜索380万次Twitter:平均每天发布推特数已达到4亿朋友圈日发表视频次数6800万我们已经步入大数据时代人与人之间机器与机器之间人与机器之间2015年，我们已经有8.5ZB数据到2020年，会有44个ZB的数据预测2025年全球数据将攀升至163ZB2017年微信全年发送消息量138700亿条消息Google2016年全年搜索量:2万亿次以上大数据是指对海量数据进行智慧分析并且预测结果的行为和思维方式数据量暴增大数据来源更多，不是随机样本而是全量数据更好，不是因果关系而是相关关系更杂，不是精确性而逝混杂性大数据本质Google利用网络大数据预测流感乔布斯的癌症抗争，自身所有DNA和肿瘤DNA排序大数据应用实施大数据战略，大力推动大数据产业布局“十三五”规划纲要发布提出实施国家大数据战略把大数据作为基础性战略资源全面实施促进大数据发展行动,加快推动数据资源共享开放和开发应用,助力产业转型升级和社会治理创新。十九大报告：推动互联网、大数据、人工智能和实体经济深度融加快建设制造强国，加快发展先进制造业，推动互联网、大数据、人工智能和实体经济深度融合《大数据产业发展规划（2016－2020年）》强化大数据产业创新发展能力为核心农业部办公厅印发《农业农村大数据试点方案》习近平：实施国家大数据战略加快建设数字中国大数据概念大数据（bigdata），指无法在一定时间范围内用常规软件工具进行捕捉、管理和处理的数据集合，是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产大数据是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据就是“未来的新石油”。大数据的特点Volume存储量大：预计2025年全球数据量达到163ZB增量大：数据呈爆炸性增长，正在以300%，600%的增长率增长体量大增长速度快（高速数据I/O）处理速度快速度快在庞大的数据量中挖掘有价值的数据，犹如在沙里淘金价值密度低来源多：搜索引擎、社交网络、通话记录、传感器…数据类型多：结构化数据、非结构化数据种类繁多VarietyVelocityValue大数据带来的影响大数据影响着社会信息化的进程社会变革的力量我国大数据的建设将围绕大智慧进行，未来十年，决定我国是否有大智慧的核心标准是国民幸福。而国民幸福的体现，一是民生：通过大数据看我们在人与人的关系上做得是否比以前更有意义;二是生态：通过大数据看我们在社会与自然、人与自然的关系上做得是否比以前更有意义。经济变革的力量(1)大数据激发内需的剧增，引发产业的巨变。(2)建设更高水平的智慧城乡。(3)各行各业数据业务转型升级。组织变革的力量大数据的特点在于意义主导价值，它将引起组织结构的改变和发展革新。重构互联网云计算和大数据已经带来了像IT生产力、计算范式、开发方式这样偏架构和技术的变革，它们最大的价值在于让社会得以革新与升级，促使互联网进行重构。2大数据在各个领域的应用3大数据关键技术1什么是大数据4Hadoop基础概念5Hadoop3.0伪分布式部署目录大数据在医疗行业的应用

佛罗里达大学使用免费公共卫生数据和Google地图创建视觉数据，可以更快速地识别和有效分析医疗信息，用于跟踪慢性病的传播。

ValenceHealth通过建立医疗大数据平台提供医疗辅助决策，提高了该院医保结果和财务状况。大数据在交通行业的应用

以色列实时识别模式系统，基于车辆的道路通过时间来收费，有效降低道路拥堵情况

百度地图与交通部门合作深挖大数据，大幅提升用户出行体验，为共享出行提供基础支持，辅助宏观交通规划决策，提高日常交通疏导效率，也为无人车提供可靠的公共大数据依赖大数据在教育行业的应用北京大学使用大数据对学生进行学业预测。通过近8年的考试成绩数据，对学生进行分类，然后进行训练，利用矩阵相关性进行匹配，从而得到课程之间的相关性，得到一个线性回归的计算模型，通过这个模型用来预测学生在某一个课程的成绩，预测精准值在±8分，准确率可以做到90%以上西南交通大学通过大数据建立贫困生分析系统。基于目前学校在发放助学金的时候，没有数据依据支撑，主观性比较大的背景。那么在西安交通大学借助于大数据技术，对学校的贫困生进行精准识别，可以发现一些虚假贫困生，如贫困生中的非贫困学生；发现一些需要关爱的学生，如非贫困生中的贫困学生，对其进行特别关爱。还可以计算出，应该给需要关爱的学生的具体的资助金额西北工业大学通过大数据建立领导驾驶舱。通过这个驾驶舱，可以做到基于领导的视角去纵览学校的数据2大数据在各个领域的应用3大数据相关技术1什么是大数据4Hadoop基础概念5Hadoop3.0伪分布式部署目录大数据采集数据库采集网络数据采集文件采集数据总线（flume、Kafka、sqoop）大数据采集大数据预处理大数据存储大数据分析挖掘展示和交互数据库采集采集频率静态数据高频数据低频数据人事档案信息历史数据源个人信息数据数据课程信息一卡通互联网日志WI-FI采集程序客户端实时抓取、清洗解析定时采集/导入成绩信息课程信息就业信息借阅信息按数据采集频率关系型数据库非关系型数据库…结构化数据非结构化数据半结构化数据办公文档文本图片XMLHTML各类报表音频视频企业ERP财务数据医疗HIS数据库教育一卡通政府行政审批其他核心数据库网络数据采集网络爬虫和API方式采集非结构化数据

通过这种途径可将网络上非结构化数据、半结构化数据从网页中提取出来，并以结构化的方式将其存储为统一的本地数据文件。

网络数据采集主要是借助网络爬虫或网站公开API等方式，从网站上获取数据信息的过程。大数据预处理数据库采集网络数据采集文件采集数据总线ETL工具（flume、Kafka、sqoop）大数据采集大数据预处理大数据存储大数据分析挖掘展示和交互数据清理数据清理数据清理主要包含遗漏值处理(缺少感兴趣的属性)、噪音数据处理(数据中存在着错误、或偏离期望值的数据)、不一致数据处理。主要的清洗工具是ETL(Extraction/Transformation/Loading)和Potter’sWheel。遗漏数据可用全局常量、属性均值、可能值填充或者直接忽略该数据等方法处理;噪音数据可用分箱(对原始数据进行分组，然后对每一组内的数据进行平滑处理)、聚类、计算机人工检查和回归等方法去除噪音;对于不一致数据则可进行手动更正。数据源数据源数据源中间数据库抽取（清洗）抽取（清洗）抽取（清洗）加载转换（清洗）目标数据仓库数据清洗在ETL中的应用模型大数据存储数据库采集网络数据采集文件采集数据总线ETL工具（flume、Kafka、sqoop）大数据采集大数据预处理大数据存储大数据分析挖掘展示和交互数据清理MPP架构的新型数据库集群基于Hadoop的技术扩展和封装分布式文件系统（HDFS、GFS）Nosql数据库（HBase、Redis）关系型数据库和非关系型数据库的融合内存数据库（MemCache）MPP架构数据库集群和HDFS分布式DATA转换/划分并行入库节点组目录组节点2…P1P2P3P4P5P6MPP集群并行数据库分步式存储HDFS数据划分方式Hash,Range,List,datetime虚分区技术，支持规模动态扩展无需重新计算分区节点1P7P8P9P10P11P12子目录1F1F2F3F4F5…子目录2F1F2F3F4F5……任务并行执行数据分布式存储(本地化)分布式计算私有资源横向扩展Shared

Nothing架构基于Hadoop的技术扩展和封装基于Hadoop的技术扩展和封装，围绕Hadoop衍生出相关的大数据技术，应对传统关系型数据库较难处理的数据和场景，例如针对非结构化数据的存储和计算等，充分利用Hadoop开源的优势，伴随相关技术的不断进步，其应用场景也将逐步扩大，目前最为典型的应用场景就是通过扩展和封装Hadoop来实现对互联网大数据存储、分析的支撑。这里面有几十种NoSQL技术，也在进一步的细分。对于非结构、半结构化数据处理、复杂的ETL流程、复杂的数据挖掘和计算模型，Hadoop平台更擅长。分析类应用结构化数据非结构化数据Hadoop新型数据库高价值密度数据低价值密度数据结构化数据非结构化数据分布式文件系统（GFS、HDFS）GFS架构设计HDFS架构设计高容错性数据自动保存多个副本副本丢失后，自动恢复适合批处理移动计算而非移动数据数据位置暴露给计算框架适合大数据处理GB、TB、甚至PB级数据提供了容错和恢复机制通过多副本提高可靠性Google三驾马车BigTable，Mapreduce、GFS非结构化数据存储高性能、可扩展性、可靠性、可用性海量数据读写容错机制数据分散到多个节点上多副本存储、冗余备份、快速恢复大数据分析挖掘数据库采集网络数据采集文件采集数据总线ETL工具（flume、Kafka、sqoop）大数据采集大数据预处理大数据存储大数据分析挖掘展示和交互数据清理数据集成数据变换数据规约MPP架构的新型数据库集群基于Hadoop的技术扩展和封装分布式文件系统（HDFS、GFS）Nosql数据库（HBase、Redis）关系型数据库和非关系型数据库的融合内存数据库（MemCache）数据查询统计与分析（MapReduce、Pig、Hive）数据预测与挖掘（Spark、Mahout）图谱处理BI商业智能可视化分析数据挖掘算法预测性分析语义引擎数据质量管理MapReduce分布式计算架构MapReduce是Google提出的一个软件架构，用于大规模数据集（大于1TB）的并行运算。它使编程人员在不了解分布式并行编程的情况下，能将自己的程序运行在分布式系统上。Map=映射Reduce=规约或化简MapReduce统计单词展示和交互数据库采集网络数据采集文件采集数据总线ETL工具（flume、Kafka、sqoop）大数据采集大数据预处理大数据存储大数据分析挖掘展示和交互数据清理数据集成数据变换数据规约MPP架构的新型数据库集群基于Hadoop的技术扩展和封装分布式文件系统（HDFS、GFS）Nosql数据库（HBase、Redis）关系型数据库和非关系型数据库的融合内存数据库（MemCache）数据查询统计与分析（MapReduce、Pig、Hive）数据预测与挖掘（Spark、Mahout）图谱处理BI商业智能可视化分析数据挖掘算法预测性分析语义引擎数据质量管理图形与报表（Hue）可视化工具（D3、Echart、Mapv、）增强现实技术（Google眼镜）标签云奥马巴布什克林顿林肯聚类图聚类图（Clustergram）是指用图形方式展示聚类分析结果的技术，可以有助于判断簇数量不同时的聚类效果空间信息流空间信息流（Spatialinformationflow）是展示信息空间状态的一种可视化技术。热图

热图（Heatmap）是一项数据展示技术，将变量值用不同的颜色或高亮形式描绘出来。可以非常直观的呈现一些原本不易理解或表达的数据，比如密度、频率、温度等。用户视觉注意力图2大数据在各个领域的应用3大数据相关技术1什么是大数据4Hadoop基础概念5Hadoop3.0伪分布式部署目录Hadoop成为大数据开放的事实标准Hadoop——Apache基金会最成功项目之一Hadoop是Apache基金会的一个项目总称，主要由HDFS、MapReduce和HBase等组成。HDFS是对GoogleGFS的开源实现，MapReduce是对GoogleMapReduce的开源实现，HBase是GoogleBigTable的开源实现。

Hadoop来源于其创始人DougCutting的儿子给一头黄色大象取的名字。Hadoop最初只与网页索引有关，迅速发展成为分析大数据的领先平台。Hadoop生态系统组成HDFS分布式文件系统Sqoop数据库ETL工具Flume日志收集工具Ambari（安装、部署、配置和管理工具）Stome流式计算框架TezDAG计算框架MapReduce分布式离线计算框架YARN（集群资源管理系统）Hive数据仓库Pig数据流处理Mahout数据挖掘库Hive2数据仓库Pig2数据流处理Zookeeper分布式协作服务Hbase实时分布式数据库Hadoop技术选型和架构设计Hadoop技术选型和架构设计Web服务器flumeHDFSMapReduceHiveSqoopHBase前端Flume收集日志HDFS日志存储MapReduce数据清洗Hive数据挖掘Sqoop数据导出数据存储到HBase数据可视化展示HDFS分布式文件系统简介不适用场景存储大文件将大文件分割成很多小块存储流式数据读取，“writeonereadmany”本身是分布式的，具备良好的可扩展性通过放开POSIX要求，极大改善数据读写性能HDFS主要特点存储大量小文件（<1MB）实时数据读取需经常修改数据的场景NameNodeHDFSClientSecondaryNamaNodeDataNodeDataNodeDataNodeDataNodeDataNodeABCDBACAECDEDBEHeartbeaty，balancing，replicationetc.Data

writing文件被切分成大小相同的数据块(最末尾的块可能小于块大小)，并存储在不同的数据节点上。HDFS架构图MapReduce分布式计算架构简介

ApacheMapReduce是googleMapReduce的开源实现。是对并行计算的封装，使用户通过一些简单的逻辑即可完成复杂的并行计算。其核心理念是将一个大的运算任务分解到集群每个节点上，充分运用集群资源，缩短运行时间。Hbase分布式数据库简介HBase是一个分布式的架构，从功能上可以分为三块：Zookeeper群、Master群和RegionServer群。Zookeeper群：

选举出一个Master作为集群的总管、主备切换，避免集群单点时效问题，并且存储了root表寻址信息。Master群： Master主要负责表和Region的管理工作，用户对表的的增、删、改、查作为，以及故障迁移等。RegionServer群：

主要是管理region，负责具体数据的读写请求。Zookeeper简介提供分布式锁的服务提供了事件侦听机制个别场景，可充当一个微型数据库角色

例如，集群中master选举，怎么样保证仅有一个Active角色存在?这就需要一个分布式的锁机制来保证。集群中的节点启动时，会去向zookeeper集群服务的指定目录下（比如/lock目录）创建临时带序列的节点，这些节点中谁的节点序列最小，那么就选举这个节点作为我们集群的Master。

例如，主Master进程宕掉之后，其它的备Master如何能够快速的接管?这个过程中，备Master在侦听那个对应ZooKeeper节点。主Master进程宕掉之后，该节点会被删除，那么，其它的备Master就可以收到相应的消息。

例如，在ZooKeeper中存放了RootRegion的地址(RootRegion原来是存在ZooKeeper中的!)，此时，可以将它理解成一个微型数据库。2大数据在各个领域的应用3大数据相关技术4Hadoop基础概念5Hadoop3.0伪分布式安装1什么是大数据目录环境准备CentosCentos6.8

X64JavaSEDevelopmentKitJDK1.8Hadoop3Hadoop

3.0.1环境准备Hadoop3.0.1安装包下载，HttP地址如下：/apache/hadoop/common/hadoop-3.0.1/hadoop-3.0.1.tar.gz

/apache/hadoop/common/hadoop-3.0.1/hadoop-3.0.1.tar.gz

JavaSEDevelopmentKit8u161下载/technetwork/java/javase/downloads/jdk8-downloads-2133151.htmlCentos7下载http:///centos/7/isos/x86_64/CentOS-7-x86_64-DVD-1708.iso基础环境准备1、配置主机名

#vi/etc/sysconfig/network

编辑修改 HOSTNAME=hadoop1 #reboot 重启虚拟机生效2、配置hosts文件

#vi/etc/hosts

11hadoop13、关闭防火墙 #serviceiptablesstop4、配置SSH免密登录

#cd~ #ssh-keygen-trsa #cd~/.ssh #catid_rsa.pub>>～/.ssh/authorized_keys #sshhadoop1测试免密登录是否成功5、安装JDK软件

#tar-zxvf jdk-8u161-linux-x64.tar.gz-C/use/local

配置java环境变量

#vi/etc/profile exportJAVA_HOME=/usr/local/jdk1.8.0_161 exportCLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar exportPATH=$PATH:$JAVA_HOME/bin

刷新环境变量 #source/etc/profile

测试java是否安装成功 #java-version

如果出现java版本说明java安装成功

基础环境准备部署Hadoop3.0伪分布式下载解压配置hadoop-env.sh配置core-site.xml配置hdfs-site.xml配置mapred-site.xml配置yarn-site.xml配置环境变量PATH初始化namenode启动测试：上传数据到HDFS测试：运行自带的wordcount命令部署Hadoop3.0伪分布式1、解压缩Hadoop安装包到/opt目录下

#tar-zxvfhadoop-3.1.0.tar.gz–C/opt2、配置Hadoop配置文件

修改core-site.xml文件 #vi/opt/hadoop-3.1.0/etc/hadoop/core-site.xml<configuration><property><name>fs.defaultFS</name><value>hdfs://hadoop1:9000</value></property><property><name>hadoop.tmp.dir</name><value>/opt/hadoop-3.1.0/tmp</value></property></configuration>

部署Hadoop3.0伪分布式

修改hdfs-site.xml

#vi/opt/hadoop-3.1.0/etc/hadoop/hdfs-site.xml<configuration><property><name>dfs.replication</name><value>3</value></property></configuration>

修改mapred-site.xml

#vi/opt/hadoop-3.1.0/etc/hadoop/mapred-site.xml<configuration><property><name></name><value>yarn</value></property><property><name>mapreduce.application.classpath</name><value>/opt/hadoop-3.1.0/etc/hadoop,/opt/hadoop-3.1.0/share/hadoop/common/*,/opt/hadoop-3.1.0/share/hadoop/common/lib/*,/opt/hadoop-3.1.0/share/hadoop/hdfs/*,/opt/hadoop-3.1.0/share/hadoop/hdfs/lib/*,/opt/hadoop-3.1.0/share/hadoop/mapreduce/*,/opt/hadoop-3.1.0/share/hadoop/mapreduce/lib/*,/opt/hadoop-3.1.0/share/hadoop/yarn/*,/opt/hadoop-3.1.0/share/hadoop/yarn/lib/*</value></property></configuration>部署Hadoop3.0伪分布式

修改yarn-site.xml

#vi/opt/hadoop-3.1.0/etc/hadoop/yarn-site.xml<configuration><property><name>yarn.nodemanager.aux-services</name><value>mapreduce_shuffle</value></property></configuration>

修改hadoop-env.sh，配置JDK路径 #vi/opt/hadoop-3.1.0/etc/hadoop/hadoop-env.sh exportJAVA_HOME=/usr/java/jdk1.8.0_161

修改Hadoop启动脚本，添加用户

分别编辑start-yarn.sh、stop-yarn.sh配置如下内容

部署Hadoop3.0伪分布式部署Hadoop3.0伪分布式

#vi/opt/hadoop-3.1.0/sbin/start-yarn.shexportYARN_RESOURCEMANAGER_USER=rootex

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据概述课件

文档简介

温馨提示

最新文档

评论

大数据概述课件

文档简介

温馨提示

最新文档

评论

相关文档