网络新技术之大数据39_第1页
网络新技术之大数据39_第2页
网络新技术之大数据39_第3页
网络新技术之大数据39_第4页
网络新技术之大数据39_第5页
已阅读5页,还剩34页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

网络新技术之大数据5.大数据技技术5.1大数据的的定义5.2大数据的的技术特特征5.3大数据的的典型应应用5.4大数据的的发展趋趋势一组数据据3亿用户,每天上亿亿条微博博.2015年全球移移动终端端产生的的数据量量6300PBFacebook每天要存存储大约约100TB的用户数数据;NASA美国宇航航局每天要处处理约24TB的数据微信国内内用户4亿,国外外用户突突破7千万,每每天产生生数据百度每天天处理数数据量100PBGBTBPBEBZB大数据时代代的爆炸炸增长想驾驭这这庞大的的数据,,我们必必须了解解大数据据的特征征。地球上至至今总共共的数据据量:在2006年,个人人用户才才刚刚迈迈进TB时代,全球一一共新产产生了约约180EB的数据;在2011年,这个个数字达达到了1.8ZB。而有市场场研究机构预测测:到2020年,整个个世界的的数据总总量将会会增长44倍,达到到35.2ZB(1ZB==10亿TB)!1PB(拍字节节)=2^50字节1EB(艾字节节)=2^60字节1ZB(泽字节节)=2^^70字节大数据概概念和特特征什么是大大数据(Bigdata))?维基百科的的定义:大数据指难难以用常常用的软软件工具具在可容忍时时间内抓取、、管理以以及处理理的数据据集(一般单个个数据集集大小在在10T左右)。大数据之所所以在最近走红红,主要归归结于互互联网、、移动设设备、物物联网和和云计计算算等快速崛崛起,全全球数据据量大大大提升。“大数据据”是继云计计算、物物联网之之后IT产业又一一次颠覆覆性的技技术变革革2006年左右,,数据量量已足够够大,但但是当时时大数据据不红,,why?为什么叫叫大数据:一一是数量量大YB:2的80次方,ZB的1000倍ZB:2的70次方,EB的1000倍EB:2的60次方,PB的1000倍PB:2的50次方,TB的1000倍TB:2的40次方,GB的1000倍GB:2的30次方,MB的1000倍绝大部分分应用在在这两个个数量级级二是类型型多结构特征征:结构构化、半半结构化化、非结结构化拥有特征征:私有、、共有、、公开形态特征征:语音音、文本本、数值值、图像像、视频频为什么叫叫大数据据:二是是类型多多三是更接接近把握信息息资源的的本质大数据真真正开始始把信息息变成资资源有的文章将将大数据据看作石石油,大大数据研研究与自自然资源源利用发发现、开开采、提提炼存在在一定的的相似之处处研究大数据,,首先要要研究各各种有用用的信息息在何处处,就是是找矿其次是把满足足特定需需求的信信息收集集过来,,就是开矿第三是把收集集的信息息按应用用需求进进行结构构化处理理,就是是提炼,,如同石石油必须须经过炼炼化才能能变成消消费用的的汽油、、柴油或或作为原原料用的的聚乙烯烯、聚丙烯第四是将这样样的信息息与具体体的应用结合,使使之发挥挥作用,,这就是是基于大大数据的的应用系系统,或或称之为为围绕应应用的大大数据管管理系统统,如同同汽油通通过加油油站加到到消费者者的汽车车内,石石化原料料变成衣衣服、设设备或其其部件。大数据的的各部分分组成大数据技技术:图图像、音音频、视视频、非非结构化化、社交交关系数数据处理理技术商商;现有IT系统改造造商:大大数据咨咨询公司司、集成成商、ERP、商务智智能、客客户关系系管理系系统;终端提供供商向数数据提供供商演进进:对现现有客户户数据的的深度把把握、建建立客户户之间的的社交和和联系;;展现方式式:大型型控制中中心、移移动终端端在多样性性、体量量、速度度三大特特征的指指引下,,大数据据将有新新型的展展现方式式:大型型控制中中心和移移动终端端,实现现数据的的实时处处理和快快速决策策。大数据与与传统数数据库11采集环节存储环节分析环节应用环节传统数据分析大数据分析扩展到传感、互联网、交易等多来源多类型数据来源单一,以内部结构化数据为主主要是面向结构化数据和事务处理的关系型数据库扩展到面向非结构化数据和分析处理的非关系型数据库依赖高性能计算机,主要利用统计和机器学习算法需用分布式并行计算,Scaleout

能力,以机器学习算法为主局限在金融、保险、零售、电信等少数领域,以决策支撑为主有望渗透到政府、医疗、交通等各个领域,嵌入到业务流程中来源广,3V非结构化和面向分析为主分布式并行架构结合机器学习算法更广的领域,更深入的嵌入业务流大数据系统的特点大数据资源大数据工具大数据理念大数据与与其他新新兴技术术的关系系大数据、、物联网网、云计计算、移移动通信信等都是是近年涌涌现出来来的新兴兴概念,,彼此之之间不是是孤立的的,而是是存在着着内部联联系。大数据带带来的思思维方式式的变化化处理的对对象往往往是全部部数据,,而不是是部分数数据的采采样采样的不不合理会会导致预预测结果果的偏差差,在大大数据时时代,依依靠强大大的数据据处理能能力,应应该去处处理全部部的数据据。不再执迷迷于精确确性精确的、、规范化化的、可可以被传传统数据据库处理理的数据据只占全全部数据据的5%,必须接接受不精精确性才才能处理理另外95%的数据。。错误的数数据是客客观存在在的,竭竭力避免免它就失失去了应应有的客客观性和和公平性性。大数据的简简单算法法比小数数据的复复杂算法法更有效效。更加关注注相关性性,而不不是因果果性预测依靠靠的是相相关性。。很多情况况下知道道“是什什么”即即可,不不必知道道“为什什么”。。大数据的的价值链链数据数据的掌掌控者,,拥有或或者可以以收集大大量数据据的公司司。海量量的数据据就是财财富,可可以考虑虑自己分分析或者者卖数据据给其他他公司。。技术技术供应应商或者者分析公公司。掌掌握了从从海量数数据中分分析出有有用信息息的技能能或者工工具,但但本身不不一定拥拥有数据据。思维有创新思思维的人人或者公公司。他他们对大大数据敏敏感,有有怎样挖挖掘数据据的新价价值的独独特想法法。@2013北京泽佳佳公司版版权所有有Copyright©©2013ZejiaConsultingCorporation第15页大数据基基础架构构要求可预测的的低延迟迟高事务参数数灵活的数数据结构构获取组织分析决策高吞吐量量就地准备所有数据据源和结结构深度分析析敏捷开发发高度可伸伸缩性实时流数据运营影响响5.大数据技技术5.1大数据的的定义5.2大数据的的技术特特征5.3大数据的的典型应应用5.4大数据的的发展趋趋势大数据的的技术特特征数据结构::结构构化数据据与非结结构化数数据数据库数数据模型型:关系系型数据据库与非非关系型型数据库库数据处理理特性::OLTP与OLAP数据一致致性:强强一致性性与最终终一致性数据存储方方式:行行式存储储与列式式存储数据库存存储与处处理架构构:SMP与MPP数据存储储架构::传统分分布式文文件与新新型分布布式文件件数据处理架架构:基基于并行行计算的的分布式式数据处处理技术(MapReduce)-17-数据的结构构—结构化、非结构化、半结结构化数数据-18-对比项结构化数据非结构化数据半非结构化数据定义有数据结构描述信息的数据不方便用固定结构来表现的数据介于完全结构化数据和完全无结构的数据之间的数据结构与内容的关系先有结构、再有数据只有数据,没有结构先有数据,再有结构示例各类表格图形、图像、音频、视频信息HTML文档,它一般是自描述的,数据的结构和内容混在一起结构化数数据和非非结构化化数据都都是客观观存在,,大数据技术需要涵涵盖两者者数据库数数据模型型—关系型数数据库与与非关系型数据据库在大数据据技术中"非关系型"数据库技术术是必不不可少的,但关系数据据库也是是不可或或缺的-19-对比项关系型数据库非关系型数据库定义创建在关系模型基础上,借助于集合代数等数学概念和方法来处理数据库中的数据关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成没有标准定义包括:表存储数据库、键值存储数据库、面向文档的数据库等接口语言SQL(StructuredQueryLanguage,结构化查询语言),对数据库中的数据进行查询、操作和管理无统一标准包括:各自定义的API、类SQL、MR等典型案例Oracel、DB2、Sybase、SQLServer、Mysql、Postgresql等新型的MPPRDB(Greenplum)也属于关系型数据库Hbase、MongoDB、Redis数据处理理特性—OLTP与OLAP-20-比较项联机事务处理OLTP(On-LineTransactionProcessing)联机分析处理OLAP(On-LineAnalyticalProcessing)基本类型业务操作型业务分析型数据特性对一条记录数据会多次修改,支持大量并发用户添加和修改数据数据写入后基本不再修改,能较好地支持大量并发用户进行大数据量查询技术特性确保数据的一致性确保事务的完整性数据读写实时性高支持多维数据以及对多维数据的复杂分析大数据量数据量GB-TB级TB-PB级典型示例银行业务系统/数据库各类决策分析系统/数据库OLTP以业务操操作型为为主,OLAP以业务分分析性为为主,两两者对技技术的要要求很难难兼顾数据一致致性:强强一致性性与最终终一致性性-21-强一致性性和最终终一致性性都是指指客户端端向数据库库系统写入数数据后,数据库库系统能够提提供的数数据一致致性的表表现对比项强一致性(即时一致性)最终一致性弱一致性场景定义假定三个进程A、B、C是互相独立的,且都在对存储系统进行读写操作数据一致性表现A写入数据到存储系统后,存储系统能够保证后续任何时刻发起读操作的B、C可以读到A写入的数据A写入数据到存储系统后,经过一定时间,或者在某个特定操作后,B、C最终会读到A写入的数据A写入数据到存储系统后,存储系统不能够保证后续发起读操作的B、C可以读到A写入的数据示例OLTP需要强一致性OLAP需最终一致性绝大多数应用不能够容忍弱一致性数据存储储方式—行式存储储与列式存储-22-传统关系系型数据据库主要要采用行行存储模模式,海海量数据据的高效效存储和和访问要要求引发发了从行行存储模模式向列列存储模模式的转转变行存储用户生日聊天记录日均在线时长用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7列存储用户11981-10-3用户21990-5-15用户1Xxxxyyyy..用户2Mmnnn..用户12用户23.7行存储列存储存储一行中各列一起存放,单行集中存储一行中各列独立存放,单列集中存储索引效率海量数据索引既占用大量空间,且索引效率会随着数据增长越来越低基于列自动索引,海量数据查询效率高,不产生额外存储空间效率同一行不同列数据类型不同,压缩效率低空值列依然占据空间列同数据类型,压缩效率高空值不占空间I/O查某列必须读出整行,I/O负荷高、速度慢只需读出某列数据,I/O低速度快结构表结构改变影响很大可随时动态增加列适用场景数据写入后需要修改和删除,基于行的反复查询,多用于OLTP数据库批量数据一次写入和基于少量列的反复查询,多用于OLAP数据库样例数据据表数据库存存储与处处理架构构—SMP与MPP在数据量量急剧膨膨胀的背景下,数据库库处理要要求超出了单机或或SMP架构能力力范围,,最高配配置小型机也无法满足,所以在大大数据技技术中,MPP架构(计算分布+存储分布)架构构成为主流-23-计算分布,存储集中DBServ共享磁盘DBServDBServDBServ网络SAN//FC计算集中,存储集中DBServ磁盘计算分布,存储分布DBServDBServDBServDBServ高速通信网网络磁盘磁盘磁盘磁盘Master如:Oracle传统单机数据据库如:OracleRAC小型机+共享盘阵阵如:Greenplum、HbaseX86++本地硬盘盘传统单机机数据库库SMP架构数据据库MPP架构数据据库对称多处处理,SymmetricalMulti-Processing有两台以以上的服服务器,,各主机机之间共享总线结结构,共共享数据据存储磁磁盘节点数有有限制,主要通过提高节节点配置置来提高高整体处处理能力力,扩展展能力有有限对共享磁磁盘的访访问可能能成为瓶瓶颈SMP大规模并并行处理,MassivelyParallelProcessing多个松耦合处理单元组组成,数据据存在本本机磁盘盘上通过增加加服务器数量量提高系系统处理理能力,,理论上可无限限扩展,目技术可实现现上千个个节点互互联对软件体体系要求求较高,,需要通通过软件件层来调调度和平平衡各个个节点的的负载和和并行处处理过程MPP数据存储储架构::传统分分布式文文件与新新型分布布式文件-24-传统分布布式文件件系统也可以适应海海量数据据增长,,但是由由于数据据计算与与存储是是分离的的,随数数据量的增长,网络络带宽形形成瓶颈。新型分布式式文件系系统采用用数据计计算与存存储绑定定的新策策略,可可有效应应对海量量数据增增长X86PC集群数据存储:磁盘盘阵列数据存储储与计算算合一数据计算:数据服务务器数据靠网网络传输输本机硬盘本机硬盘本机硬盘本机硬盘计算模式式拥有成本本盘阵负责责存储,,数据服服务器负负责计算算,彼此此靠网络络连接,,计算效效率受网网络带宽宽影响PC机自行负负责存储储和计算算,数据据与计算算绑定,,不受网网络带宽宽影响专用设备备价格昂昂贵,维维护费用用高通用PC,价格低低廉,维维护方便便存储模式式磁盘阵列列存储由每台PC机自带硬硬盘组成成容错模式式不能容忍忍盘阵设设备出问问题,靠靠RAID容错个别别硬盘故故障容许PC节点故障障,通过过多个文文件副本本保证数数据完整整性数据存储储与计算算分离新型分布式式文件系系统—HadoopHDFS-25-HadoopHDFS是新型分分布式文文件系统统的典型型代表,,提供高高可靠、、高扩展展、高吞吞吐能力力的海量量文件数数据存储储元数据节节点Namenode文件名,,文件块块,文件件块所在在数据节节点,…文件元数数据123数据节点点Datanode数据节点点Datanode数据节点点Datanode数据节点点Datanode先读取文件元数据,,知道文文件在哪哪后读取各各个文件件块管理文件件分布存存储优点支持任意意超大文文件存储储;硬件件节点可可不断扩扩展,低低成本存存储对上层应应用屏蔽蔽分布式式部署结结构,提提供统一一的文件件系统访访问接口口,感觉觉就是一一个大硬硬盘;应应用无需需知道文文件具体体存放位位置,使使用简单单;文件分块块存储((1块缺省64MB),不同块块可分布布在不同同机器节节点上,,通过元元数据记记录文件件块位置置;应用用顺序读读取各个个块系统设计计为高容容错性,,允许廉廉价PC故障;每每块文件件数据在在不同机机器节点点上保存存3份;这种种备份的的另一个个好处是是可方便便不同应应用就近近读取,,提高访访问效率率缺点适合大数数据文件件保存和和分析,,不适合小小文件,由于分分布存储储需要从从不同节节点读取取数据,,效率反反而没有有集中存存储高;;一次写写入多次次读取,,不支持文文件修改改是最基础础的大数数据技术术,基于于文件系系统层面面提供文文件访问问能力,,不如数数据库技技术强大大,但也也是海量量数据库库技术的的底层依依托文件系统统接口完完全不同同于传统统文件系系统,应应用需要要重新开开发上层应用用YahooAmazonFacebookEbay淘宝百度中国移动动飞信中中国国移动大大云行业应用技术特点点基于并行行计算的的分布式式数据处处理技术(MapReduce)-26-TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(ReduceTask)TaskTracker(ReduceTask)中间结果果中间结果果中间结果果输出数据据输出数据据JobTracker用户程序序(JobClient)提交作业业任务调度度任务调度度状态监控控状态监控控123MapReduce技术特性性自动并行化化:系统自自动进行行作业并并行化处处理自动可靠靠处理:系统自自动处理理节点/任务的故故障检测测和恢复复灵活扩展展:节点可可以灵活活加入和和退出,,系统自自动感知知节点状状态并进进行处理理高性能:计算任任务将被被调度至至数据所所在的节节点,减减少网络络开销,,提升执执行性能能MapReduceMapReduce是解决海量数数据处理的并行行编程环环境5.大数据技技术5.1大数据的的定义5.2大数据的的技术特特征5.3大数据的的典型应应用5.4大数据的的发展趋趋势@2013北京泽佳佳公司版版权所有有Copyright©©2013ZejiaConsultingCorporation第28页大数据行行业应用用分析应用可能能性电信政府(公公共事业业)交通金融医疗教育能源(电电力/石油)纵轴契合合度:表示该用用户的IT应用特点点与大数数据特性性的契合合程度;;横轴应用用可能性性:表示该该用户出出于主客客观因素素在短期期内投资资大数据据的可能能性;注:该位置为为分析师师访谈的的综合印印象,为为定性分分析,图图中位置置不代表表具体数数值HighMidLowLowMidHigh优先关注注行业用用户应用特点点与大数数据技术术有较高高的契合合度,在在主客观观条件上上也有较较高的应应用可能能性。值得关注注行业用用户应有特点点与大数数据的契契合度及及应用可可能性综综合较高高适当关注注行业用用户两个维度度暂时都都不具备备优势,,可适当当给予关关注互联网((电子商商务)契合度流通零售制造@2013北京泽佳佳公司版版权所有有Copyright©©2013ZejiaConsultingCorporation第29页大数据应用用场景((1)为企业提提供全面面,可靠靠的绩效效信息第30页大数据应用用场景((2)为城市管管理提供供最新,,实时数数据@2013北京泽佳佳公司版版权所有有Copyright©©2013ZejiaConsultingCorporation第31页大数据应用用场景((3)更快的基因因组和蛋蛋白质组组分析@2013北京泽佳佳公司版版权所有有Copyright©©2013ZejiaConsultingCorporation第32页大数据应用用场景((4)利用社交交媒体等等公开的的信息增增强传统统的CRM数据,从从而凭借借全面的的个人资资料实现现实现微微观细分分。@2013北京泽佳佳公司版版权所有有Copyright©©2013ZejiaConsultingCorporation第33页2013年1月29日,住房房和城乡乡建设部部公布了了首批990个国国家智慧慧城市试试点名单单,试点点城市的的公布标标志着我我国智慧慧城市发发展进入入规模推推广的阶阶段。在在目前智智慧城市市的发展展阶段,,主要的的应用还还处于对对感知设设备传递递的信息息进行简简单处理理的水平平,充分分认识大大数据对对于智慧慧城市建建设的关关键作用用,对于于避免智智慧城市市建设中中出现““重感知知,轻智智慧”的的通病具具有重要要意义。。从智慧城城市的体体系结构构来看,,由于智智慧城市市的基础础在于物物联网技技术,因因此智慧慧城市体体系架构构和物联联网的体体系结构构相类似似,也可可分为四四层,分分别为感感知层、、传输层层、平台台层、应应用层。。智慧城城市相对对于之前前数字城城市概念念,最大大的区别别在于对对感知层层获取的的信息进进行了智智慧的处处理,因因此也可可以认为为智慧城城市是数数字城市市的升级级版。由由城市数数字化到到城市智智慧化,,关键是是要实现现对数字字信息的的智慧处处理,其其核心是是大数据据处理技技术。智慧城市市大数据应用用场景((5)5.大数据技技术5.1大数据的的定义5.2大数据的的技术特特征5.3大数据的的典型应应用5.4大数据的的发展趋趋势大数据时时代发展展趋势大数据时时代发展展趋势之之一:软软件应用用泛互联联网化软件的价价值是同同它所协协助管理理的数据据的规模模和活性性成正比比大数据时时代,掌掌握更多多用户行行为数据据,并能能加以充充分挖掘掘利用的的公司,,将在竞竞争中赢赢得先机机,桌面面应用软软件链接接软件公公司与互互联网平平台的核核心纽带带,如何何充分发发挥桌面面应用软软件的纽纽带作用用,是大大数据时时代的核核心趋势势之一。。富界面::集成浏浏览器,,支持移移动终端端、PC等设备((富界面面是指桌桌面应用用软件与与浏览器器的深度度整合,,软件外外观与传传统的应应用软件件雷同,,但所有有的数据据都来自自于互联联网)门户化((排他性性,产品品相互支支援,提提高客户户粘性))门户化化的核心心要义在在于排他他性、相相关性。。第一排排他性是是指用户户一旦适适应一个个门户,,则难以以割舍,,从而提提供用户户粘性;;第二相相关性是是指用户户在门户户化软件件中,可可以完成成他大部部分的任任务,而而无需离离开门户户,门户户中相关关软件互互为支援援,互提提供流量量,促使使用户粘粘性越来来越强。。碎片化——按需付费费,改变变商业模模式(桌桌面应用用软件的的这三个个特征相相互促进进、缺一一不可,,没有互互联网化化,门户户化将无无从谈起起,碎片片化也就就推动了了依托;;没有碎碎片化,,则商业业模式没没有形成成的突破破,在走走卖拷贝贝的老路路。泛互联网网化趋势势,将引引发软件件企业商商业模式式的弈,,从单一一的卖软软件,向向服务转转型。大数据时时代发展展趋势大数据时时代发展展趋势之之二:行行业应用用垂直整整合大数据时时代开源源技术的的发展已已经可以以和商务务软件分分庭抗礼礼,传

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论