大数据职业发展方向_第1页
大数据职业发展方向_第2页
大数据职业发展方向_第3页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据职业开展方向一、大数据的概念及特点:大数据本身就是一个很抽象的概念, 提及大数据很多人也只能从数据量上去感知大数据 的规模, 大数据被定义为 “代表着人类认知过程的进步, 数据集的规模是无法在可容忍的时 间内用目前的技术、方法和理论去获取、管理、处理的数据。大数据不是一种新技术, 也不是一种新产品, 而是一种新现象, 是近来研究的一个技术 热点。大数据具有以下 4 个特点,即 4 个“ V:(1) 数据体量 (Volumes) 巨大。大型数据集,从 TB 级别,跃升到 PB 级别。(2) 数据类别 (Variety) 繁多。数据来自多种数据源,数据种类和格式冲破了以前所限定 的结构化数据

2、范畴,囊括了半结构化和非结构化数据。(3) 价值 (Value) 密度低。 以视频为例, 连续不间断监控过程中, 可能有用的数据仅仅一 两秒钟。(4) 处理速度 (Velocity) 快。包含大量在线或实时数据分析处理的需求,1 秒定律。最后这一点也是和传统的数据挖掘技术有着本质的不同。物联网、云计算、移动互联网、车联网、 、平板电脑、PC以及遍布地球各个角落的各种各样的传感器,无一不是数据来源或 者承载的方式。二、大数据处理流程:从大数据的特征和产生领域来看, 大数据的来源相当广泛, 由此产生的数据类型和应用 处理方法千差万别。 但是总的来说, 大数据的根本处理流程大都是一致的。 整个处理流

3、程可 以概括为四步,分别是采集、导入和预处理、统计和分析,最后是数据挖掘。三、大数据分解结构:第一层面是理论, 理论是认知的必经途径, 也是被广泛认同和传播的基线。 我会从大数据的特征定义理解行业对大数据的整体描绘和定性; 从对大数据价值的探讨来深入解析大数 据的珍贵所在; 从对大数据的现在和未来去洞悉大数据的开展趋势; 从大数据隐私这个特别 而重要的视角审视人和数据之间的长久博弈。我将分别从云计算、 分处理、 存储到形成结果的第二层面是技术, 技术是大数据价值表达的手段和前进的基石。布式处理技术、 存储技术和感知技术的开展来说明大数据从采集、 整个过程。第三层面是实践,实践是大数据的最终价值

4、表达。实践(Utilization)弘个人的大数据 弘企业的大鱷 厶政疽的犬数据互联网的大散据2价值探讨 柔现在和禾来斗丸翊Jr理论(Theory)i 30-00=T云g技术(Technology)四、大数据相关的技术:1、云技术一一大数据常和云计算联系到一起,因为实时的大型数据集分析需要分布式处理框架来向数十、 数百或甚至数万的电脑分配工作。可以说,云计算充当了工业革命时期的发动机的角色,而大数据那么是电。2、分布式处理技术: 分布式处理系统可以将不同地点的或具有不同功能的或拥有 不同数据的多台电脑用通信网络连接起来, 在控制系统的统一管理控制下, 协调地完成信息 处理任务 -这就是分布式处

5、理系统的定义。目前最常用的是 Hadoop 技术, Hadoop 是一个实现了 MapReduce 模式的能够对大量数 据进行分布式处理的软件框架,是以一种可靠、高效、可伸缩的方式进行处理的。Hadoop 用到的一些技术有:HDFS: Hadoop分布式文件系统 Distributed File System- HDFS HadoopDistributed FileSystemMap Reduce:并行计算框架HBase:类似Google BigTable的分布式 NoSQL列数据库。Hive:数据仓库工具。Zookeeper:分布式锁设施,提供类似Google Chubby的功能。Avro:

6、新的数据序列化格式与传输工具,将逐步取代Hadoop原有的IPC机制。Pig:大数据分析平台,为用户提供多种接口。Ambari:Hadoop 管理工具,可以快捷的监控、部署、管理集群。Sqoop:用于在Hadoop与传统的数据库间进行数据的传递。3、存储技术大数据可以抽象的分为大数据存储和大数据分析,这两者的关系是: 大数据存储的目的是支撑大数据分析。4、感知技术 大数据的采集和感知技术的开展是紧密联系的。以传感器技术,指纹 识别技术,RFID技术,坐标定位技术等为根底的感知能力提升同样是物联网开展的基石。五、大数据人才方向:目前,大数据方面主要有五大人才方向: 大数据核心研发方向系统研发 ;

7、 大数据性能调优方向; 大数据挖掘、分析方向; 大数据运维、云计算方向 数据分析师方向 CDA、 CPDA大数据是一项基于 Java的分布式架构技术,用来管理及分析海量数据。大数据核心研发系统研发方向:根底课程篇:1、 Java根底课程大数据任何方向必学内容2、Linux根底一一根底课程大数据任何方向必学内容3、 Shell编程一一从程序员的角度来看,Shell本身是一种用 C语言编写的程序,从用 户的角度来看,ShelI是用户与Linux操作系统沟通的桥梁。用户既可以输入命令执 行,又可以利用 Shell脚本编程,完成更加复杂的操作。软件语言篇:4、 Hadoop是一个开发和运行处理大规模数

8、据的软件平台,是Appach的一个用java语言实现开源软件框架,实现在大量电脑组成的集群中对海量数据进行分布式计算。5、HDFS6、YARN7、Map Reduce8ETL数据仓库技术9、Hive数据仓库工具10、Sqoop11、Flume12、HBase13、Storm14、Scala15、KafkaMQ16、Spark17、Spark核心源码剖析18、CM管理19、CDH集群HDFSHadoop分布式文件系统(HDFS)被设计成适合运行在通用硬件(commodityhardware) 上的分布式文件系统。全 称: Hadoop Distributed File System简 称: hd

9、fs实 质: 分布式文件系统作 用: 作为 Apache Nutch 的根底架构特 点: 高容错性适 用: 大规模数据集原理:HDFS就像一个传统的分级文件系统。可以创立、删除、移动或重命名文件,等等。HDFS是Hadoop兼容最好的标准文件系统,因为 Hadoop是一个综 合性的文件系统抽象, 所以HDFS不是Hadoop必须的。所以也可以理解为Hadoop是一个框架,HDFS是Hadoop中的一个部件。优 点:1存储超大文件,存储文件为TB,甚至PB;2流式数据读取,一次写入屡次读取,是最高效的访问模式;3商用硬件,设计运行普通的廉价的PC上。缺 点: 1数据访问延迟高,设计于大吞吐量数据

10、的,这是以一定的延迟为代价;2 文件数受限,存储的文件总数受限于 NameNode 的内存容量;3不支持多用户写入,也不支持任意修改文件。替代品:1DataStax不是文件系统,而是一个开源的代码,NoSQL键/值存储,依靠快速的数据访问。2 CEPH 一个开源代码,是一家名为 Inktank 做多种存储系统的商业软件。 其特点是高性能并行文件系统。3Dispersed Storage Network Cleversafe 这一新产品将 Hadoop MapReduce与企业分散存储网络系统相融合。跨过集群完全分配元数据,也不依赖于复制,Cleversafe 认为与 HDFS相比,Disper

11、sed Storage Network 的速度 更快,更可靠。4 Lustre 是一个开发源代码的高性能文件系统,一些人声称在性能敏感区域其可以作为 HDFS的一个替代方案。YARNApache Hadoop YARN 另一种资源协调者 是一种新的 Hadoop 资源管理器, 它 是一个通用资源管理系统, 可为上层应用提供统一的资源管理和调度, 它的引入为集群在利 用率、资源统一管理和数据共享等方面带来了巨大好处。YARN从某种那个意义上来说应该算做是一个云操作系统,它负责集群的资源管理。实 质:一种新的 Hadoop 资源管理器作 用:修复 MapReduce 实现里的明显缺乏,并对可伸缩性

12、支持一万个节点和二十万个 内核的集群、可靠性和集群利用率进行了提升缺 点:这种架构存在缺乏,主要表现在大型集群上。当集群包含的节点超过4,000 个时其中每个节点可能是多核的 ,就会表现出一定的不可预测性。其中一个最大的 问题是级联故障, 由于要尝试复制数据和重载活动的节点, 所以一个故障会通过网 络泛洪形式导致整个集群严重恶化。优 点:大大减小了 JobTracker也就是现在的 ResourceManager的资源消耗,并且让监 测每一个 Job 子任务 (tasks) 状态的程序分布式化了,更平安、更优美。MapReduceMapReduce是一种编程模型,用于大规模数据集大于1TB的并

13、行运算。概念"Map 映射"和"Reduce归约,是它们的主要思想,都是从函数式编程语言里借来的,还 有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况 下,将自己的程序运行在分布式系统上。本 质:一种编程模型用 途:大规模数据集的并行运算特 点:分布可靠应 用:大规模的算法图形处理、文字处理等 主要功能: 1数据划分和计算任务调度;2数据 / 代码互定位; 3系统优化; 4出错检测和恢复。技术特点: 1 向“外横向扩展,而非向“上纵向扩展 2失效被认为是常态3把处理向数据迁移 4顺序处理数据、防止随机访问数据 5为应用开发者隐藏系统层

14、细节 6平滑无缝的可扩展性ETL数据仓库技术用来描述将数据从来源端经过抽取 extract 、转换 transform 、加载 load 至目的端的过程。ETL 一词较常用在数据仓库,但其对象并不限于数据仓库。ETL 是构建数据仓库的重要一环, 用户从数据源抽取出所需的数据, 经过数据清洗 , 最终按照预先定义好的数据仓库模型,将数据加载到数据仓库中去。软件名称: Extract-Transform-Load过 程:数据抽取、清洗、转换、装载应 用: Informatica 、 Datastage 、OW、B数据集成:快速实现 ETL特 性:正确性、 完整性、 一致性、 完备性、 有效性、 时

15、效性和可获取性等几个特性。 影响特性原因: 业务系统不同时期系统之间数据模型不一致; 业务系统不同时期业务过 程有变化; 旧系统模块在运营、 人事、财务、办公系统等相关信息的不 一致;遗留系统和新业务、管理系统数据集成不完备带来的不一致性。转换过程: 1空值处理:可捕获字段空值,进行加载或替换为其他含义数据,并可根 据字段空值实现分流加载到不同目标库。2标准化数据格式: 可实现字段格式约束定义,对于数据源中时间、数值、 字符等数据,可自定义加载格式。3拆分数据:依据业务需求对字段可进行分解 4验证数据正确性:可利用 Lookup 及拆分功能进行数据验证 5数据替换:对于因业务因素,可实现无效数

16、据、缺失数据的替换。6Lookup :查获丧失数据 Lookup实现子查询,并返回用其他手段获取的 缺失字段,保证字段完整性。7建立ETL过程的主外键约束:对无依赖性的非法数据,可替换或导出到错误数据文件中,保证主键唯一记录的加载。功能特点: 1管理简单2标准定义数据 3拓展新型应用Hive 数据仓库工具hive 是基于 Hadoop 的一个数据仓库工具, 可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql查询功能,可以将 sql语句转换为 MapReduce任务进行运行。Hive 是建立在 Hadoop 上的数据仓库根底构架。它提供了一系列的工具,可以用来进行数据提取转化加载 E

17、TL,这是一种可以存储、 查询和分析存储在 Hadoop中的大规模数 据的机制。兼容性: hadoop 生态圈依 赖: jdk , hadoop定 义: 在 Hadoop 上的数据仓库根底构架适 用: Hive 构建在基于静态批处理的 Hadoop 之上, Hadoop 通常都有较高的延迟 并且在作业提交和调度的时候需要大量的开销。 因此, Hive 并不能够在大规 模数据集上实现低延迟快速的查询。特 性: 1支持索引,加快数据查询。2不同的存储类型,例如,纯文本文件、HBase 中的文件。3将元数据保存在关系数据库中,大大减少了在查询过程中执行语义检查的时间。4可以直接使用存储在 Hadoo

18、p 文件系统中的数据。5内置大量用户函数 UDF 来操作时间、字符串和其他的数据挖掘工具,支 持用户扩展 UDF 函数来完成内置函数无法实现的操作。6类SQL的查询方式,将 SQL查询转换为 Map Reduce的job 在Hadoop集 群上执行。体系结构: 1用户接口用户接口主要有三个: CLI, Client 和 WUI2 元数据存储 Hive 将元数据存储在数据库中,如 mysql 、 derby3 解释器、 编译器、 优化器、 执行器解释器、 编译器、 优化器完成 HQL查询语句从词法分析、语法分析、编译、优化以及查询方案的生成。生 成的查询方案存储在 HDFS 中,并在随后由 Ma

19、pReduce 调用执行。SqoopSqoop 是一款开源的工具,主要用于在Hadoop(Hive) 与传统的数据库 (mysql 、postgresql.)间进行数据的传递,可以将一个关系型数据库例如 :MySQLOracle ,Postgres 等中的数据导进到 Hadoop的HDFS中,也可以将 HDFS勺数据 导进到关系型数据库中。特 点:可以通过 hadoop 的 mapreduce 把数据从关系型数据库中导入数据到HDFS。flumeFlume 是 Cloudera 提供的一个高可用的,高可靠的,分布式的海量日志采集、聚合和传输的系统,Flume支持在日志系统中定制各类数据发送方,

20、用于收集数据;同时,Flume 提供对数据进行简单处理,并写到各种数据接受方可定制的能力。中文名:水槽特 点:聚合和传输的系统实 质:孵化工程是经济方面的用于 , 一项鉴定成功,付诸实施的工程。功 能: 1日志收集;2数据处理HBaseHBase是一个分布式的、面向列的开源数据库,一个结构化数据的分布式存储系统。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同 的是HBase基于列的而不是基于行的模式。结 构:分布式存储系统优 点:HBase - Hadoop Database,是一个高可靠性、高性能、面向列、可伸缩的分布式存储系统,利用HBase技术可在廉

21、价PCServer上搭建起大规 模结构化存储集群。模 型:逻辑模型主要从用户角度出发;物理模型一一主要从实现 Hbase的角度来讨论;StormStorm 是一个分布式的,可靠的,容错的数据流处理系统。它会把工作任务委托给 不同类型的组件,每个组件负责处理一项简单特定的任务。 Storm 集群的输入流由一个被称 作 spout 的组件管理, spout 把数据传递给 bolt , bolt 要么把数据保存到某种存储器,要 么把数据传递给其它的 bolt 。优 点:1简单的编程模型。类似于 Map Reduce降低了并行批处理复杂性,Storm降低了进行实时处理的复杂性。2可以使用各种编程语言。

22、你可以在Storm 之上使用各种编程语言。默认支持 Clojure、Java、Ruby和Python。要增加对其他语言的支持, 只需实现一个简单的 Storm 通信协议即可。3容错性。 Storm 会管理工作进程和节点的故障。4水平扩展。计算是在多个线程、进程和效劳器之间并行进行的。 5可靠的消息处理。Storm 保证每个消息至少能得到一次完整处理。任务失败时,它会负责从消息源重试消息。6快速。系统的设计保证了消息能得到快速的处理,使用?MQ作为其底层消息队列。7本地模式。 Storm 有一个“本地模式 ,可以在处理过程中完全模拟 Storm 集群。这让你可以快速进行开发和单元测试。缺 点:

23、1单调乏味性;2 脆弱性;3 可伸缩性差;使用性: Storm 有许多应用领域,包括实时分析、在线机器学习、信息流处理、连 续性的计算、分布式 RPC ETL等。术 语: Storm 的术语包括 Stream 、Spout 、Bolt 、Task、Worker、Stream Grouping 和 Topology 。同 品:可以和 Storm 相提并论的系统有 Esper 、Streambase 、HStreaming 和 YahooS4。其中和Storm最接近的就是 S4。ScalaScala 是一门多范式的编程语言,一种类似 java 的编程语言,设计初衷是实现可 伸缩的语言、并集成面向对象编程和函

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论