《大数据金融》 课件 第3章大数据相关技术_第1页
《大数据金融》 课件 第3章大数据相关技术_第2页
《大数据金融》 课件 第3章大数据相关技术_第3页
《大数据金融》 课件 第3章大数据相关技术_第4页
《大数据金融》 课件 第3章大数据相关技术_第5页
已阅读5页,还剩26页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第三章大数据相关技术Bigdatarelatedtechnologies大数据金融CONTENTS01大数据存储bigdatastorage02大数据处理与计算Bigdataprocessingandcomputing03大数据挖掘方法Bigdataminingmethods大数据存储bigdatastorage第一节一、分布式文件系统分布式文件系统需要解决的关键技术问题包括可扩展性、数据冗余性、数据一致性、缓存等。常见的分布式文件系统有GFS、HDFS、Lustre、Ceph等,它们各自适用于不同的领域,其中GFS和HDFS最具有代表性。一、分布式文件系统(一)HDFS系统的概念和特性

第一,HDFS系统是一个文件系统,用于存储文件,通过统一的命名空间——目录树来定位文件。

第二,HDFS系统是分布式的,由很多服务器联合起来实现其功能,集群中的服务器有各自的角色。一、分布式文件系统(一)HDFS系统的概念和特性不支持文件随机写入。需要客户端与HDFS交互。适合大文件读取场景。吞吐和并发能力具备可横向扩展性不适合高响应系统一、分布式文件系统(二)HDFS的结构1.NameNodeNameNode是一个通常在HDFS实例中的单独机器上运行的软件。它负责管理文件系统名称空间和控制外部客户机的访问。2.DataNodeDataNode也是一个独立运行的软件。通常以机架的形式组织,机架通过一个交换机将所有系统连接起来。3.ClientClient一般用于实现客户端文件存储的所有操作,包括文件的增删以及查询等。一、分布式文件系统(三)HDFS文件写入与读取(1)客户端创建的文件,然后Client通过RPC方式与NameNode通信,创建一个新文件映射关系。(2)客户端写数据:FSDataOutputStream把写入的数据分成包(packet)并放入一个中间队列——数据队列(dataqueue)中。(3)FSDataOutputStream也维护着确认队列(ackqueue)。(4)所有文件写入完成后,关闭文件写入流。二、非关系型分布式数据库非关系型分布式数据库(notonlysQL,NoSQL)是分布式存储的主要技术。相比于传统数据库,它的主要特点包括易扩展、灵活的数据模型、高可用性、大数据量、高性能等。(一)NoSQL简介与特性

1.不需要预定义模式

2.BASE特性

3.分区

4.异步复制

5.弹性可扩展二、非关系型分布式数据库(二)NoSQL的分类1.列存储数据库

(1)HBase基于HadoopHDFSappend方式进行数据追加操作,非常适合列族文件存储架构。

(2)HBase写请求,都会先写redolog,然后更新内存中的缓存。

(3)当某一列的MapFile数量超过配置的阈值时,一个后台线程就开始将现有的MapFile合并为一个文件,这个操作称为Compaction。

(4)读操作会先检查缓存,若未命中,则从最新的MapFile开始,依次往最老的MapFile找数据。二、非关系型分布式数据库(二)NoSQL的分类

列存储数据库键值存储数据库文档型数据库图数据库1234三、虚拟存储技术与云存储技术(一)虚拟存储技术虚拟存储技术是指将存储系统的内部功能从应用程序、计算服务器、网络资源中进行抽象、隐藏或隔离,最终使其独立于应用程序、网络存储与数据管理。(二)云存储技术云存储是一种以数据存储和管理为核心的云计算系统,它是指利用集群应用、分布式文件和网络技术系统等功能,通过应用软件协同网络中大量的各种不同类型的存储设备,共同建设一个具有数据存储和业务访问功能的系统,以保证数据的安全性,节约存储空间。大数据处理与计算Bigdataprocessingandcomputing第二节一、基于并行计算的分布式数据处理技术HadoopMapReduce是一种分布式海量数据处理框架。它采用主从结构,在一个MapReduce集群中有一个控制节点和多个工作节点。设计思想:其一,大规模数据并行处理,即“分而治之”的思想;其二,MapReduce编程模型;其三,分布式运行时环境。二、分布式内存计算处理技术对于一些需要快速实时分析的业务操作,需要快速地对最新的业务数据进行分析处理。在线实时分析计算框架是为集群计算中特定类型的工作负载而设计的,引进了内存集群计算的概念。Spark引进了名为弹性分布式数据集(resilientdistributeddatasets,RDD)的抽象。RDD是分布在一组节点中的只读对象集合。这些集合是弹性的,如果数据集的一部分丢失,则可以对它们进行重建。三、分布式流处理技术对于现在大量存在的实时数据,如股票交易数据,实时性强、数据量大且不间断,这种实时数据被称为流数据。(一)流式数据的概念流式数据是指所产生的数据不是批量地传输过来,而是连续不断地像水一样流过来。1.静态数据2.动态数据3.实时处理三、分布式流处理技术(二)流式数据源传感器数据图像数据互联网及Web流量流媒体传输三、分布式流处理技术(三)大数据的计算模式1.大数据流式计算模型在流式计算中,无法确定数据的到来时刻和到来顺序,也无法将全部数据存储起来。因此,不再进行流式数据的硬盘存储,而是当流动的数据到来之后在内存中直接进行数据的实时输入、实时计算、实时输出。三、分布式流处理技术(三)大数据的计算模式2.流式计算与批量计算的比较大数据挖掘方法Bigdataminingmethods.第三节一、数据挖掘的概念数据挖掘(datamining,DM)是从大量的、有噪声的、不完全的、模糊的、随机的数据中提取出隐含在其中的、人们事先不知道的、具有潜在利用价值的信息和知识的过程。数据挖掘的特点:(1)数据量巨大(2)动态性(3)适用性(4)系统性二、数据挖掘的原理数据挖掘的实质是综合应用各种技术,对与业务相关的数据进行一系列科学的处理,这个过程中需要用到数据库、应用数学、统计学、机器学习、可视化、信息科学、程序开发及其他学科。三、数据挖掘常用的方法数据挖掘常用方法01分类分析02回归分析06序列分析05聚类分析03预测04关联分析07偏差分析三、数据挖掘常用的方法(一)分类分析分类分析是指运用训练数据集,通过分析数据的特征和运用一定的算法求得分类规则,该分类规则就是数据分类的模型。1.决策树分类法决策树学习是以实例为基础的归纳学习算法,它着眼于从一组无次序、规则的实例中推理出以决策树表示的分类规则。三、数据挖掘常用的方法(一)分类分析2.贝叶斯分类法贝叶斯分类法是利用统计学中的贝叶斯定理来预测类成员的概率,即给定一个样本,计算该样本属于一个特定的类的概率。3.k-近邻分类法k-近邻分类法不是事先通过数据来选好分类模型,再对未知样本进行分类,而是存储带有标记的样本集,给一个没有标记的样本,用样本集中k个与之相近的样本对其进行即时分类。k-近邻分类法就是找出k个相似的样本来建立目标函数逼近。三、数据挖掘常用的方法(二)回归分析1.线性回归线性回归是利用数理统计中的回归分析来确定两种或两种以上变量间相互依赖的定量关系的一种统计分析方法,运用十分广泛。2.Logistic回归分析Logistic回归模型是一种概率模型,适合于病例对照研究、随访研究和横断面研究,且结果发生的变量取值必须是二分的或多项分类。三、数据挖掘常用的方法(三)预测三、数据挖掘常用的方法(四)关联分析关联分析主要用于发现隐藏在大型数据集中的有意义的联系,所发现的联系可以用关联规则或频繁项集的形式表示。1.Apriori算法:使用候选项集找频繁项集2.基于划分的算法3.FP-树频集算法三、数据挖掘常用的方法(五)聚类分析聚类是根据相似度将数据分组,使同一聚类内的个体距离较近或变异较小、不同聚类间的个体距离较远或变异较大。其中,相似度可以利用不同的距离或相关来定义。三、数据挖掘常用的方法(六)序列分析序列分析是对序列数据进行分析以发现蕴藏其中的模式和规律。序列数据和时间序列都是连续的观测值,观测值之间相互依赖。(七)偏差分

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论