2016.07大数据的技术环节与平台建设2.0_第1页
2016.07大数据的技术环节与平台建设2.0_第2页
2016.07大数据的技术环节与平台建设2.0_第3页
2016.07大数据的技术环节与平台建设2.0_第4页
2016.07大数据的技术环节与平台建设2.0_第5页
已阅读5页,还剩40页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据的技术环节与平台建设第1页,共45页。大数据产业链第2页,共45页。目录一、大数据的技术环节二、大数据的平台建设三、参考学习培训第3页,共45页。大数据的技术环节第一第4页,共45页。数据特征数据的特征简单来说就是数据库。比如企业ERP、财务系统。结构化数据ABC它是结构化的数据,但是结构变化很大。因为我们要了解数据的细节所以不能将数据简单的组织成一个文件按照非结构化数据处理,由于结构变化很大也不能够简单的建立一个表和他对应。半结构化数据像图片、声音、视频等等。这类信息无法直接知道他的内容,数据库也只能将它保存在一个BLOB字段中。一般的做法是,建立一个包含三个字段的表(编号number、内容描述varchar(1024)、内容blob)。引用通过编号,检索通过内容描述。非结构化数据第5页,共45页。点击此处添加标题结构化数据任何一列的数据不可以再细分任何一列的数据都有相同的数据类型半结构化数据存在列的分割存在不同类型数据第6页,共45页。大数据的技术环节数据采集数据预处理数据存储数据分析数据挖掘数据结果的可视化数据管理第7页,共45页。数据采集感知层:主要包括数据传感体系、网络通信体系、传感适配体系、智能识别体系及软硬件资源接入系统,实现对海量数据的智能化识别、定位、跟踪、接入、传输、信号转换、监控、初步处理和管理等。基础支撑层:提供大数据服务平台所需的虚拟服务器,结构化、半结构化及非结构化数据的数据库及物联网络资源等基础支撑环境。智能识别感知适配传输接入分布式虚拟存储技术可视化接口技术网络传输与压缩技术隐私保护技术第8页,共45页。信息化技术的发展使得数据被物联网及互联网记录并应用物联网数据多指通过连接网络的传感器所采集的环境数据。互联网数据则多指由用户使用电脑、智能手机、平板电脑等不同联网终端所产生的基本信息与行为数据。第9页,共45页。传感器是物联网数据的重要采集方法安装在物联网上的传感器是大数据时代获取环境数据的重要采集方法之一,拥有数据来源范围广、数据准确度高、传输稳定等特点。第10页,共45页。App数据抓取成为互联网数据主要采集方式之一随着智能终端的不断普及,App成为继网站之后了解用户在互联网上的信息与行为的又一重要数据来源。目前国内外通过App抓取用户在互联网上行为数据的采集商主要有AppAnnie、TalkingData、友盟等。AppAnnie是一家移动应用数据采集服务商,通过从AppStore抓取数据,为企业用户提供涵盖iOS、Android、Windows等系统下各类App数据下载排名、用户使用行为及应用平台数据等相关服务。第11页,共45页。PC端的网站流量及点击轨迹抓取是互联网数据的另一种采集方式互联网时代除了抓取移动终端上各App的用户数据,还有在PC端通过API接口等工具抓取企业官网及其他网站上数据的方法。目前国内主要有友盟、聚合数据、发源地等企业提供网站数据抓取。第12页,共45页。数据预处理——数据抽取ETL工具负责将分布的、异构数据源中的数据如关系数据、平面数据文件等抽取到临时中间层后进行清洗、转换、集成,最后加载到数据仓库或数据集市中,成为联机分析处理、数据挖掘的基础。数据抽取数据清洗数据整合第13页,共45页。数据预处理——数据清洗对于大数据,并不全是有价值的,有些数据并不是我们所关心的内容,而另一些数据则是完全错误的干扰项,因此要对数据通过过滤“去噪”从而提取出有效数据。原则基础资料的统一关键业务编码的统一建立不同主题域间的关联关系第14页,共45页。数据预处理——数据整合源数据分类方式数据操作分类

数据特征

流水型增长(INSERT)数据按增量方式产生,不涉及对已有数据的更新操作变化更新(UPDATE)对已有数据进行更新两者结合(INSERT/DELETE+UPDATE)按增量方式产生新数据的同时,还对已有数据进行更新数据量大相对较小第15页,共45页。数据存储与管理——三种典型的数据存储技术采用MPP架构的新型数据库集群,重点面向行业大数据,采用SharedNothing架构,通过列存储、粗粒度索引等多项大数据处理技术,再结合MPP架构高效的分布式计算模式,完成对分析类应用的支撑,运行环境多为低成本PCServer,具有高性能和高扩展性的特点,在企业分析类应用领域获得极其广泛的应用。这类MPP产品可以有效支撑PB级别的结构化数据分析,这是传统数据库技术无法胜任的。对于企业新一代的数据仓库和结构化数据分析,目前最佳选择是MPP数据库。MPP架构图第16页,共45页。数据存储与管理——三种典型的数据存储技术基于Hadoop的技术扩展和封装,围绕Hadoop衍生出相关的大数据技术,应对传统关系型数据库较难处理的数据和场景。NoSQL(NotOnlySQL)数据库泛指非关系型数据库,能够解决大规模数据集合的处理问题,特别是针对非关联性数据。NoSQL数据库包括Key-Value存储、列存储、文档型等多种类型,适用于多种场景。第17页,共45页。数据存储与管理——三种典型的数据存储技术第三种是大数据一体机,这是一种专为大数据的分析处理而设计的软、硬件结合的产品,由一组集成的服务器、存储设备、操作系统、数据库管理系统以及为数据查询、处理、分析用途而特别预先安装及优化的软件组成,高性能大数据一体机具有良好的稳定性和纵向扩展性。SDA50000单柜满配备注数据分发节点2固定计算交换机2固定管理交换机2固定KVM1固定数据库节点12¼配、半配、满配总内存1.5T总核数192C硬盘总数量96可用裸容量56TB建议使用容量(3副本)18.75TB大数据分析系统软件:MPP数据库应用场景:数据仓库应用/OLAP多维分析

第18页,共45页。数据分析即席查询Ad-HocQuery批量处理Batch

ProcessingMap/Reduce流式计算Stream

Computing数据承载响应时间适用场景磁盘秒级(准实时)自然人交互式经营分析磁盘分钟级至小时级(准实时)事前/事后大批量数据处理内存(事件窗口非全量数据)秒级(实时)实时事件分析实时风险干预针对不同的业务领域,需要采用不同的数据计算分析方式,快速发现数据价值。第19页,共45页。数据分析——即席查询即席查询(AdHoc)是用户根据自己的需求,灵活的选择查询条件,系统能够根据用户的选择生成相应的统计报表。即席查询与普通应用查询最大的不同是普通的应用查询是定制开发的,而即席查询是用户自定义查询条件。StorageDistribute

File

SystemColumn

DatabaseResource

ManagementParallelCompute

FrameworkSQL

Syntax+

Compute

FrameworkSQL

SyntaxMetaDataBatch

ProcessingAd-Hoc

Query实时性:高第20页,共45页。数据分析——批处理StorageDistribute

File

SystemColumn

DatabaseResource

ManagementParallelCompute

FrameworkSQL

Syntax+

Compute

FrameworkSQL

SyntaxMetaDataBatch

ProcessingAd-Hoc

QueryMapReduce是一种编程模型,用于大规模数据集的并行批量计算。概念Map和Reduce当前的主流实现是指定一个Map函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce函数,用来保证所有映射的键值对中的每一个共享相同的键组。形成这种模型的原因是:数据的分布式存储、计算资源的分布式、并行计算减少计算时长。实时性:低第21页,共45页。数据分析——流式计算流数据的实时计算注重对流数据的快速高效处理、计算和分析。其特点是计算过程数据不落地,所有数据在内存中完成。其计算模型是根据规则生成容器,当数据流经过容器时,实时产生分析结果。InputAdapterOutputAdapterEngine

ClusterClusterManagementRule

RepositoryNoSQL实时性:高第22页,共45页。数据挖掘——常用技术和算法人工神经网络决策树遗传算法近邻算法规则推导算法:分类、回归、分割、关联、顺序分析第23页,共45页。数据挖掘——常用方法数据挖掘的常用方法A分类将数据库中的数据项映射到某个给定的类别回归分析研究数据序列的趋势特征、数据序列的预测以及数据间的相关关系等聚类一组数据按照相似性和差异性分为几类关联规则描述数据库中数据项之间所存在的关系的规则第24页,共45页。数据挖掘——常用方法数据挖掘的常用方法B特征从数据库中的一组数据中提取出关于这些数据的特征式,这些特征式表达了该数据集的总体特征变化与偏差分析偏差包括很大一类潜在有趣的知识,其目的是寻找观察结果与参照量之间有意义的差别Web页挖掘第25页,共45页。数据挖掘——功能数据挖掘的功能自动预测趋势和行为关联分析聚类概念描述偏差检测第26页,共45页。数据挖掘的流程(1).确定业务对象(2).数据准备

1)、数据的选择

2)、数据的预处理

3)、数据的转换(3).数据挖掘(4).结果分析(5).知识的同化数据挖掘需要的人员业务分析人员:要求精通业务,能够解释业务对象,并根据各业务对象确定出用于数据定义和挖掘算法的业务需求.数据分析人员:精通数据分析技术,并对统计学有较熟练的掌握,有能力把业务需求转化为数据挖掘的各步操作,并为每步操作选择合适的技术.数据管理人员:精通数据管理技术,并从数据库或数据仓库中收集数据.第27页,共45页。数据挖掘工作量分配第28页,共45页。数据结果的可视化数据的可视化综合运用计算机图形学、图像、人机交互等技术,将采集或模拟的数据映射为可识别的图形、图像、视频或动画,并允许用户对数据进行交互分析的理论、方法和技术什么是数据可视化?ABC图形能将不可见现象转化为可见的图形符号,并直截了当和清晰直观的表达出来,加深人对于数据的理解和记忆。为什么要进行数据可视化?Datameer、Tableau等怎样实现数据可视化?第29页,共45页。点击此处添加标题图例:Tableau可视化产品案例-互联网信息传播速度分析Datameer是一家数据分析工具提供商,通过对Hadoop分布式计算框架的易用性处理降低了客户使用Hadoop的门槛,类似电子表格的可视化数据分析界面能够帮助客户快速理解数据处理结果。Tableau主要向客户提供数据可视化服务及数据分析功能。客户无需编写代码,只需简单的鼠标操作即可实现数据的可视化。第30页,共45页。大数据商业智能加可视化服务为企业提供商业决策服务通过对产品、企业、用户及市场等多个维度的数据进行分析,企业能够准确把握用户喜好及市场脉络,及时调整产品规划与企业发展方向,并进行市场营销等经营活动。目前国外提供通用型商业智能服务的企业有QlikTech、GoodData、Domo、PowerBI等,国内有国云数据、拓尔思等企业提供大数据解决方案。其中部分企业在提供商业智能服务的同时还提供数据可视化软件。第31页,共45页。数据管理数据管控,是为解决数据标准管理、元数据管理、数据质量管理、数据服务管理、数据安全管理等问题。第32页,共45页。存储、安全防护与交易是数据管理的重要环节目前,大数据行业的存储多依托于云存储技术,将海量数据保存在云端,既能够降低数据存储成本,又能够提高数据处理效率。但目前我国网络安全形势严峻,存储于云端的数据还需进行安全防护。此外,随着数据的爆发式增长及数据价值越来越得到凸显,行业内逐渐产生了一种新的商业模式,即数据分享与交易平台,通过搭建数据共享、交换、交易平台,为数据资源供给方和需求方提供便捷的交易环节和服务。第33页,共45页。存储与安全两项服务相辅相成,通用型与数据专业型企业并存传统的线下存储方式因其高昂的成本渐渐转向云存储。目前国外提供数据存储服务的企业有NimbleStorage、Qumulo等,还有同时提供存储与安全两项服务的企业如Cloudera等。NimbleStorage是一家数据存储解决方案供应商,其自适应闪存平台能够提供广泛的应用场景支持,同时还能够根据用户需求用户调整闪存策略,选择全闪存方式或者混合式存储服务。第34页,共45页。大数据平台的建设第二第35页,共45页。农业大数据HADOOP基础平台运用HADOOP2.0和Spark技术,搭建农业大数据HADOOP基础平台,支撑分布式内存分析引擎、分布式机器学习引擎、分布式实时在线数据引擎和流处理引擎的功能实现。第36页,共45页。分布式内存分析引擎在语法上,兼容HiveQL、SQL,支持控制流、函数、存储过程;在存储上,支持堆外列存、支持索引、支持在SSD上建列存、支持对Hyperbase/HBase进行高效SQL运算;在访问上,支持JDBC/ODBC接口、支持R语言,同时提供多种常用的数据挖掘和机器学习的并行算法;同时,支持安全认证、授权和访问控制,稳定支持100GB以上到数十TB的数据,支持IBMCognos,SAS,OBIEE,SAPBO等BT工具。第37页,共45页。

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论