第1章-大数据技术概述_第1页
第1章-大数据技术概述_第2页
第1章-大数据技术概述_第3页
第1章-大数据技术概述_第4页
第1章-大数据技术概述_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章大数据技术概述目

录1大数据概念大数据关键技术大数据软件23认识大数据从20世纪开始,政府以及电商、医疗、金融等各行各业的信息化迅速发展,结构化数据、非结构化数据也在快速增长,数据量的暴增使得传统的数据库已经很难存储、管理、查询和分析这些数据。如何实现结构化和非结构化的PB级,ZB级等海量数据的存储,如何挖掘出这些海量数据隐藏的商业价值,已成为两大挑战。为解决这两大挑战,大数据技术应运而生,并成功解决这两大挑战。大数据的时代已经到来。1.1.1大数据概念1、大数据的定义大数据(bigdata),指无法在一定时间范围内使用常规软件工具进行捕捉、管理和处理的数据集合,是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。2、大数据的特征目前普遍使用5V特征来具体描述大数据,如图1-1所示。大数据的5V特征(1)数据量大(Volume)大数据的第一个特征就是数据量巨大,包括采集、存储和计算的量都非常大。大数据的起始计量单位至少是PB,也可以采用更大的单位EB或者ZB。相关信息单位的换算关系如下:1Byte=8bit,1KB=1024Bytes,1MB=1024KB1GB=1024MB,1TB=1024GB,1PB=1024TB1EB=1024PB,1ZB=1024EB,1YB=1024ZB1BB=1024YB大数据的5V特征(2)数据类型种类繁多(Variety)大数据的第二个特征是数据类型种类和来源多样化。数据可以是结构化、半结构化和非结构化的,具体表现为网络日志、音频、视频、图片、地理位置信息等。类型多样化的数据对数据的处理能力提出了更高的要求。大数据的5V特征(3)数据价值密度低(Value)大数据的第三个特征是数据价值密度相对较低,或者说是浪里淘沙却又弥足珍贵。随着互联网以及物联网的广泛应用,信息感知无处不在,信息海量,但价值密度较低,如何结合业务逻辑并通过强大的机器学习算法来挖掘数据价值,是大数据时代最需要解决的问题。大数据的5V特征(4)速度快时效高(Velocity)大数据的第四个特征是数据增长速度快,处理速度也快,时效性要求高。比如搜索引擎要求几分钟前的新闻能够被用户查询到,个性化推荐算法尽可能要求实时完成推荐。这是大数据区别于传统数据挖掘的显著特征。大数据的5V特征(5)真实性(Veracity)该特征主要体现了数据的质量。3、大数据在各行各业的典型应用目前,大数据无处不在,应用于各个行业,金融、政务、汽车、餐饮、电信、能源、生物医学、电子商务、教育、制造等各行各业都融入了大数据的印迹。并且,大数据与实体经济不断融合发展,融合深度也在不断增强。1.1.2大数据关键技术大数据处理的关键技术主要包括:数据采集和预处理、数据存储和管理、数据分析和挖掘、数据可视化和数据安全及隐私保护。利用大数据技术对数据处理流程如图1-2所示。1、数据采集和预处理目前,数据采集经常通过传感器、射频识别技术、交互型社交网络及移动互联网等途径获取数据。大数据采集一般分为大数据智能感知层和基础支撑层。智能感知层主要包括数据传感体系、传感适配体系、网络通信体系、智能识别体系等软硬件资源,可以实现结构化、半结构化和非结构化海量数据的智能化识别、定位、跟踪、介入、传输、信号转换、监控、初步处理和管理等。基础支撑层主要提供大数据服务平台所需的虚拟服务器,结构化、半结构化和非结构化数据的数据库及物联网资源等基础支撑环境。1、数据采集和预处理数据预处理是利用ETL(

Extract-Transform-Load)工具将分布的、异构的数据源的数据抽取到临时中间层后进行数据清洗和转换,最后加载到数据集市或者数据仓库中,成为联机分析处理(OLAP)和数据挖掘(DATAMINING)的数据基础;也可以利用日志采集工具(如Flume、Kafka等)把实时采集的数据作为流计算系统的输入,进行实时处理分析。2、数据存储和管理数据的存储和管理主要是利用分布式文件系统、数据仓库、关系数据库、NoSQL数据库、云数据库等,实现对结构化、半结构化和非结构化海量数据的存储。3、数据分析和挖掘数据分析指利用相关数学模型及机器学习算法对数据进行统计、分析和预测。数据挖掘是指利用人工智能、机器学习和统计学等多学科方法从大量的、不完全的,有噪声的、模糊的、随机的实际应用数据集中提取隐含在其中有价值的信息或模式的计算过程。大数据的分析和挖掘主要是利用分布式并行编程模型和计算框架,结合机器学习和数据挖掘算法,实现对海量数据的分析挖掘处理。4、数据可视化数据可视化主要是对分析后的结果进行可视化的呈现,更好地帮助人们理解数据,分析数据。数据可视化有时也被视为数据分析的一种,即可视化分析。5、数据安全及隐私保护从大数据中挖掘潜在巨大商业价值的同时,还需要构建隐私数据保护体系和数据安全体系,用来有效保护个人隐私和数据安全。1.1.3大数据软件根据大数据处理流程中数据采集和预处理、数据存储和管理、数据分析和挖掘、数据可视化等各阶段的任务,下表1-1列出了每个环节使用到的常用软件。表1-1常用大数据软件大数据技术大数据常用软件数据采集Kafka,Sqoop,Klume数据存储和管理HDFS,Hbase,Redis,MongoDB,Hive数据分析和挖掘Mapreduce,Spark,Python,Mahout数据可视化ECharts,D3,Tableau软件软件安装包清单Ubuntuubuntukylin-16.04.1-desktop-amd64.isoHadoophadoop-3.1.1.tar.gzjdkjdk-8u181-linux-x64.tar.gzHBasehbase-1.2.6.1-bin.tar.gzRedisredis-5.0.4.tar.gzMongoDBmongodb-linux-x86_64-ubuntu1604-4.0.1.tgzHiveapache-hive-2.3.3-bin.tar.gzsqoopsqoop-1.4.7.bin__hadoop-2.6.0.tar.gzFlumeapache-flume-1.9.0-bin.tar.gzKafkakafka_2.11-2.1.1.tgzSparkspark-2.4.0-bin-hadoop2.7.tgzPythonPython3.7.31、HadoopHadoop是Apache下的一个开源的、并且可以运行在大规模集群上的分布式计算平台。其核心设计为分布式文件系统HDFS和并行计算框架Mapreduce。经过多年的发展,Hadoop已经发展成为庞大的生态系统。Hadoop生态系统除了包括HDFS和Mapreduce外,还包括了YARN、HBase、Hive、Ambari、Oozie、Mahout、Pig、Flume、Sqoop、Zookeeper等。Hadoop在大数据处理业内得到广泛应用,适合对大数据实现离线处理和分析操作。2、Spark随着大数据的不断发展,人们对于大数据的处理要求越来越高,原有的并行计算框架MapReduce适合离线计算,却无法满足实时性要求较高的业务,比如实时推荐等。因此出现了以Spark为代表的新计算框架。相比MapReduce,Spark基于内存,速度更快,并且能够同时兼顾批处理和实时数据分析。

大数据的数据处理框架有些适合于离线批量数据处理,比如Hadoop的Mapreduce,有些适合于迭代的实时批数据处理,比如Spark,有些则适合于流数据处理,比如Storm。有些计算框架使用内存模式,有些是基于磁盘I/O处理模式。基于内存的框架性能会优于基于磁盘I/O的框架,但同时成本也会高很多。最终选择Hadoop或者Spark或者其他数据处理框架需要根据具体需求来确定。

3、NoSQL数据库NoSQL是NotonlySQL的缩写,泛指非关系型数据库。与传统的关系数据库相比,NoSQL数据库不使用SQL语言作为查询语言,没有固定的表结构,也没有遵守ACID约束,具有非常灵活的水平可扩展性,可以支持海量数据的存储。NoSQL数据库的数量很多,但总的来说,典型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论