版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
网络新技术之大数据5.大数据技术5.1大数据的定义5.2大数据的技术特征5.3大数据的典型应用5.4大数据的发展趋势一组数据3亿用户,每天上亿条微博.2015年全球移动终端产生的数据量6300PBFacebook每天要存储大约100TB的用户数据;NASA美国宇航局每天要处理约24TB的数据微信国内用户4亿,国外用户突破7千万,每天产生数据百度每天处理数据量100PBGBTBPBEBZB大数据时代的爆炸增长想驾驭这庞大的数据,我们必须了解大数据的特征。地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1PB
(拍字节)
=2^50字节1EB
(艾字节)
=2^60字节1ZB(泽字节)=2^70字节大数据概念和特征什么是大数据(Bigdata)?维基百科的定义:大数据指难以用常用的软件工具在可容忍时间内抓取、管理以及处理的数据集(一般单个数据集大小在10T左右)。大数据之所以在最近走红,主要归结于互联网、移动设备、物联网和云计算等快速崛起,全球数据量大大提升。“大数据”是继云计算、物联网之后IT产业又一次颠覆性的技术变革2006年左右,数据量已足够大,但是当时大数据不红,why?为什么叫大数据:一是数量大YB:2的80次方,ZB的1000倍ZB:2的70次方,EB的1000倍EB:2的60次方,PB的1000倍PB:2的50次方,TB的1000倍TB:2的40次方,GB的1000倍GB:2的30次方,MB的1000倍绝大部分应用在这两个数量级二是类型多结构特征:结构化、半结构化、非结构化拥有特征:私有、共有、公开形态特征:语音、文本、数值、图像、视频为什么叫大数据:二是类型多三是更接近把握信息资源的本质大数据真正开始把信息变成资源有的文章将大数据看作石油,大数据研究与自然资源利用发现、开采、提炼存在一定的相似之处研究大数据,首先要研究各种有用的信息在何处,就是找矿其次是把满足特定需求的信息收集过来,就是开矿第三是把收集的信息按应用需求进行结构化处理,就是提炼,如同石油必须经过炼化才能变成消费用的汽油、柴油或作为原料用的聚乙烯、聚丙烯第四是将这样的信息与具体的应用结合,使之发挥作用,这就是基于大数据的应用系统,或称之为围绕应用的大数据管理系统,如同汽油通过加油站加到消费者的汽车内,石化原料变成衣服、设备或其部件。大数据的各部分组成大数据技术:图像、音频、视频、非结构化、社交关系数据处理技术商;现有IT系统改造商:大数据咨询公司、集成商、ERP、商务智能、客户关系管理系统;终端提供商向数据提供商演进:对现有客户数据的深度把握、建立客户之间的社交和联系;展现方式:大型控制中心、移动终端在多样性、体量、速度三大特征的指引下,大数据将有新型的展现方式:大型控制中心和移动终端,实现数据的实时处理和快速决策。大数据与传统统数据库11采集环节存储环节分析环节应用环节传统数据分析大数据分析扩展到传感、互联网、交易等多来源多类型数据来源单一,以内部结构化数据为主主要是面向结构化数据和事务处理的关系型数据库扩展到面向非结构化数据和分析处理的非关系型数据库依赖高性能计算机,主要利用统计和机器学习算法需用分布式并行计算,Scaleout
能力,以机器学习算法为主局限在金融、保险、零售、电信等少数领域,以决策支撑为主有望渗透到政府、医疗、交通等各个领域,嵌入到业务流程中来源广,3V非结构化和面向分析为主分布式并行架构结合机器学习算法更广的领域,更深入的嵌入业务流大数据系统的特点大数据资源大数据工具大数据理念大数据与其他他新兴技术的的关系大数据、物联联网、云计算算、移动通信信等都是近年年涌现出来的的新兴概念,,彼此之间不不是孤立的,,而是存在着着内部联系。。大数据带来的的思维方式的的变化处理的对象往往往是全部数数据,而不是是部分数据的的采样采样的不合理理会导致预测测结果的偏差差,在大数据据时代,依靠靠强大的数据据处理能力,,应该去处理理全部的数据据。不再执迷于精精确性精确的、规范范化的、可以以被传统数据据库处理的数数据只占全部部数据的5%,必须接受不不精确性才能能处理另外95%的数据。错误的数据是是客观存在的的,竭力避免免它就失去了了应有的客观观性和公平性性。大数据的简单算算法比小数据据的复杂算法法更有效。更加关注相关关性,而不是是因果性预测依靠的是是相关性。很多情况下下知道“是是什么”即即可,不必必知道“为为什么”。。大数据的价价值链数据数据的掌控控者,拥有有或者可以以收集大量量数据的公公司。海量量的数据就就是财富,,可以考虑虑自己分析析或者卖数数据给其他他公司。技术技术供应商商或者分析析公司。掌掌握了从海海量数据中中分析出有有用信息的的技能或者者工具,但但本身不一一定拥有数数据。思维有创新思维维的人或者者公司。他他们对大数数据敏感,,有怎样挖挖掘数据的的新价值的的独特想法法。@2013北京泽佳公公司版权所所有Copyright©2013ZejiaConsultingCorporation第15页大数据基础础架构要求求可预测的低低延迟高事务参数灵活的数据据结构获取组织分析决策高吞吐量就地准备所有数据源源和结构深度分析敏捷开发高度可伸缩性实时流数据运营影响5.大数据技术术5.1大数据的定定义5.2大数据的技技术特征5.3大数据的典典型应用5.4大数据的发发展趋势大数据的技技术特征数据结构:结结构化数数据与非结结构化数据据数据库数据据模型:关关系型数据据库与非关关系型数据据库数据处理特特性:OLTP与OLAP数据一致性性:强一致致性与最终终一致性数据存储方式式:行式存存储与列式式存储数据库存储储与处理架架构:SMP与MPP数据存储架架构:传统统分布式文文件与新型型分布式文文件数据处理架构构:基于并并行计算的的分布式数数据处理技技术(MapReduce)-17-数据的结构—结构化、非结构化、半结构构化数据-18-对比项结构化数据非结构化数据半非结构化数据定义有数据结构描述信息的数据不方便用固定结构来表现的数据介于完全结构化数据和完全无结构的数据之间的数据结构与内容的关系先有结构、再有数据只有数据,没有结构先有数据,再有结构示例各类表格图形、图像、音频、视频信息HTML文档,它一般是自描述的,数据的结构和内容混在一起结构化数据据和非结构构化数据都都是客观存存在,大数据技术需要涵盖盖两者数据库数据据模型—关系型数据据库与非关关系型数据库库在大数据技技术中"非关系型"数据库库技技术术是是必必不不可可少少的,,但关系系数数据据库库也也是是不不可可或或缺缺的的-19-对比项关系型数据库非关系型数据库定义创建在关系模型基础上,借助于集合代数等数学概念和方法来处理数据库中的数据关系模型由关系数据结构、关系操作集合、关系完整性约束三部分组成没有标准定义包括:表存储数据库、键值存储数据库、面向文档的数据库等接口语言SQL(StructuredQueryLanguage,结构化查询语言),对数据库中的数据进行查询、操作和管理无统一标准包括:各自定义的API、类SQL、MR等典型案例Oracel、DB2、Sybase、SQLServer、Mysql、Postgresql等新型的MPPRDB(Greenplum)也属于关系型数据库Hbase、MongoDB、Redis数据据处处理理特特性—OLTP与OLAP-20-比较项联机事务处理OLTP(On-LineTransactionProcessing)联机分析处理OLAP(On-LineAnalyticalProcessing)基本类型业务操作型业务分析型数据特性对一条记录数据会多次修改,支持大量并发用户添加和修改数据数据写入后基本不再修改,能较好地支持大量并发用户进行大数据量查询技术特性确保数据的一致性确保事务的完整性数据读写实时性高支持多维数据以及对多维数据的复杂分析大数据量数据量GB-TB级TB-PB级典型示例银行业务系统/数据库各类决策分析系统/数据库OLTP以业业务务操操作作型型为为主主,,OLAP以业业务务分分析析性性为为主主,,两两者者对对技技术术的的要要求求很很难难兼兼顾顾数据据一一致致性性::强强一一致致性性与与最最终终一一致致性性-21-强一一致致性性和和最最终终一一致致性性都都是是指指客客户户端端向数数据据库库系系统写写入入数数据据后后,数数据据库库系系统能能够够提提供供的的数数据据一一致致性性的的表表现现对比项强一致性(即时一致性)最终一致性弱一致性场景定义假定三个进程A、B、C是互相独立的,且都在对存储系统进行读写操作数据一致性表现A写入数据到存储系统后,存储系统能够保证后续任何时刻发起读操作的B、C可以读到A写入的数据A写入数据到存储系统后,经过一定时间,或者在某个特定操作后,B、C最终会读到A写入的数据A写入数据到存储系统后,存储系统不能够保证后续发起读操作的B、C可以读到A写入的数据示例OLTP需要强一致性OLAP需最终一致性绝大多数应用不能够容忍弱一致性数据据存存储储方方式—行式式存存储储与与列式存存储储-22-传统统关关系系型型数数据据库库主主要要采采用用行行存存储储模模式式,,海海量量数数据据的的高高效效存存储储和和访访问问要要求求引引发发了了从从行行存存储储模模式式向向列列存存储储模模式式的的转转变行存储储用户生日聊天记录日均在线时长用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7用户11981-10-3Xxxxyyyy...2用户21990-5-15Mmnnn…3.7列存储储用户11981-10-3用户21990-5-15用户1Xxxxyyyy..用户2Mmnnn..用户12用户23.7行存储列存储存储一行中各列一起存放,单行集中存储一行中各列独立存放,单列集中存储索引效率海量数据索引既占用大量空间,且索引效率会随着数据增长越来越低基于列自动索引,海量数据查询效率高,不产生额外存储空间效率同一行不同列数据类型不同,压缩效率低空值列依然占据空间列同数据类型,压缩效率高空值不占空间I/O查某列必须读出整行,I/O负荷高、速度慢只需读出某列数据,I/O低速度快结构表结构改变影响很大可随时动态增加列适用场景数据写入后需要修改和删除,基于行的反复查询,多用于OLTP数据库批量数据一次写入和基于少量列的反复查询,多用于OLAP数据库样例例数数据据表表数据据库库存存储储与与处处理理架架构构—SMP与MPP在数数据据量量急急剧剧膨膨胀胀的的背景景下下,数数据据库库处处理理要要求超超出出了单单机机或或SMP架构构能能力力范范围围,,最最高高配配置小小型机也也无法法满满足,,所以以在在大大数数据据技技术术中中,MPP架构构(计算分分布+存储分分布))架架构构成成为主主流-23-计算算分分布,存储集集中DBServ共享磁磁盘盘DBServDBServDBServ网络络SAN/FC计算算集集中,存储集集中DBServ磁盘盘计算算分分布,存储分分布布DBServDBServDBServDBServ高速通通信信网网络磁盘盘磁盘盘磁盘盘磁盘盘Master如:Oracle传统统单机机数数据据库库如:OracleRAC小型机机+共享享盘盘阵阵如:Greenplum、HbaseX86+本地地硬硬盘盘传统统单单机机数数据据库库SMP架构构数数据据库库MPP架构构数数据据库库对称称多多处处理,,SymmetricalMulti-Processing有两台以以上的服服务器,,各主机机之间共享总线结结构,共共享数据据存储磁磁盘节点数有有限制,主要通过提高节节点配置置来提高高整体处处理能力力,扩展展能力有有限对共享磁磁盘的访访问可能能成为瓶瓶颈SMP大规模并并行处理,MassivelyParallelProcessing多个松耦合处理单元组组成,数据据存在本本机磁盘盘上通过增加加服务器数量量提高系系统处理理能力,,理论上可无限限扩展,目技术可实现现上千个个节点互互联对软件体体系要求求较高,,需要通通过软件件层来调调度和平平衡各个个节点的的负载和和并行处处理过程MPP数据存储储架构::传统分分布式文文件与新新型分布布式文件-24-传统分布布式文件件系统也可以适应海海量数据据增长,,但是由由于数据据计算与与存储是是分离的的,随数数据量的增长,网络络带宽形形成瓶颈。新型分布式式文件系系统采用用数据计计算与存存储绑定定的新策策略,可可有效应应对海量量数据增增长X86PC集群数据存储:磁盘盘阵列数据存储储与计算算合一数据计算:数据服务务器数据靠靠网络络传输输本机硬盘盘本机硬盘盘本机硬盘盘本机硬盘盘计算模模式拥有成成本盘阵负负责存存储,,数据据服务务器负负责计计算,,彼此此靠网网络连连接,,计算算效率率受网网络带带宽影影响PC机自行行负责责存储储和计计算,,数据据与计计算绑绑定,,不受受网络络带宽宽影响响专用设设备价价格昂昂贵,,维护护费用用高通用PC,价格格低廉廉,维维护方方便存储模模式磁盘阵阵列存存储由每台台PC机自带带硬盘盘组成成容错模模式不能容容忍盘盘阵设设备出出问题题,靠靠RAID容错个个别硬硬盘故故障容许PC节点故故障,,通过过多个个文件件副本本保证证数据据完整整性数据存存储与与计算算分离离新型分布布式文文件系系统—HadoopHDFS-25-HadoopHDFS是新型元数据据节点点Namenode文件名名,文文件块块,文文件块块所在在数据据节点点,…文件元元数据据123数据节节点Datanode数据节节点Datanode数据节节点Datanode数据节节点Datanode先读取取文件元数据据,知知道文文件在在哪后读取取各个个文件件块管理文文件分分布存存储优点支持任任意超超大文文件存存储;;硬件件节点点可不不断扩扩展,,低成成本存存储对上层层应用用屏蔽蔽分布布式部部署结结构,,提供供统一一的文文件系系统访访问接接口,,感觉觉就是是一个个大硬硬盘;;应用用无需需知道道文件件具体体存放放位置置,使使用简简单;;文件分分块存存储((1块缺省64MB),不同同块可可分布布在不不同机机器节节点上上,通通过元元数据据记录录文件件块位位置;;应用用顺序序读取取各个个块系统设设计为为高容容错性性,允允许廉廉价PC故障;;每块块文件件数据据在不不同机机器节节点上上保存存3份;这这种备备份的的另一一个好好处是是可方方便不不同应应用就就近读读取,,提高高访问问效率率缺点适合大大数据据文件件保存存和分分析,,不适合合小文文件,由于于分布布存储储需要要从不不同节节点读读取数数据,,效率率反而而没有有集中中存储储高;;一次次写入入多次次读取取,不支持持文件件修改改是最基基础的的大数数据技技术,,基于于文件件系统统层面面提供供文件件访问问能力力,不不如数数据库库技术术强大大,但但也是是海量量数据据库技技术的的底层层依托托文件系系统接接口完完全不不同于于传统统文件件系统统,应应用需需要重重新开开发上层应应用YahooAmazonFacebookEbay淘宝百度中国移移动飞飞信中中国移移动大大云行业应用技术特特点基于并并行计计算的的分布布式数数据处处理技技术(MapReduce)-26-TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(MapTask)TaskTracker(ReduceTask)TaskTracker(ReduceTask)中间结结果中间结结果中间结结果输出数数据输出数数据JobTracker用户程序(JobClient)提交作业任务调度任务调度状态监控状态监控123MapReduce技术特性自动并行化:系统自动动进行作业业并行化处处理自动可靠处处理:系统自动动处理节点点/任务的故障障检测和恢恢复灵活扩展:节点可以以灵活加入入和退出,,系统自动动感知节点点状态并进进行处理高性能:计算任务务将被调度度至数据所所在的节点点,减少网网络开销,,提升执行行性能MapReduceMapReduce是解决海量数据处理的并行编编程环境5.大数据技术术5.1大数据的定定义5.2大数据的技技术特征5.3大数据的典典型应用5.4大数据的发发展趋势@2013北京泽佳公公司版权所所有Copyright©2013ZejiaConsultingCorporation第28页大数据行业业应用分析析应用可能性性电信政府(公共共事业)交通金融医疗教育能源(电力力/石油)纵轴契合度度:表示该用户户的IT应用特点与与大数据特特性的契合合程度;横轴应用可可能性:表示该用用户出于主主客观因素素在短期内内投资大数数据的可能能性;注:该位置为分分析师访谈谈的综合印印象,为定定性分析,,图中位置置不代表具具体数值HighMidLowLowMidHigh优先关注行行业用户应用特点与与大数据技技术有较高高的契合度度,在主客客观条件上上也有较高高的应用可可能性。值得关注行行业用户应有特点与与大数据的的契合度及及应用可能能性综合较较高适当关注行行业用户两个维度暂暂时都不具具备优势,,可适当给给予关注互联网(电电子商务))契合度流通零售制造@2013北京泽佳公公司版权所所有Copyright©2013ZejiaConsultingCorporation第29页大数据应用场场景(1)为企业提供供全面,可可靠的绩效效信息第30页大数据应用场场景(2)为城市管理理提供最新新,实时数数据@2013北京泽佳公公司版权所所有Copyright©2013ZejiaConsultingCorporation第31页大数据应用场场景(3)更快的基因组组和蛋白质质组分析@2013北京泽佳公公司版权所所有Copyright©2013ZejiaConsultingCorporation第32页大数据应用场场景(4)利用社交媒媒体等公开开的信息增增强传统的的CRM数据,从从而凭借借全面的的个人资资料实现现实现微微观细分分。@2013北京泽佳佳公司版版权所有有Copyright©©2013ZejiaConsultingCorporation第33页2013年1月29日,住房房和城乡乡建设部部公布了了首批990个国国家智慧慧城市试试点名单单,试点点城市的的公布标标志着我我国智慧慧城市发发展进入入规模推推广的阶阶段。在在目前智智慧城市市的发展展阶段,,主要的的应用还还处于对对感知设设备传递递的信息息进行简简单处理理的水平平,充分分认识大大数据对对于智慧慧城市建建设的关关键作用用,对于于避免智智慧城市市建设中中出现““重感知知,轻智智慧”的的通病具具有重要要意义。。从智慧城城市的体体系结构构来看,,由于智智慧城市市的基础础在于物物联网技技术,因因此智慧慧城市体体系架构构和物联联网的体体系结构构相类似似,也可可分为四四层,分分别为感感知层、、传输层层、平台台层、应应用层。。智慧城城市相对对于之前前数字城城市概念念,最大大的区别别在于对对感知层层获取的的信息进进行了智智慧的处处理,因因此也可可以认为为智慧城城市是数数字城市市的升级级版。由由城市数数字化到到城市智智慧化,,关键是是要实现现对数字字信息的的智慧处处理,其其核心是是大数据据处理技技术。智慧城市市大数据应用用场景((5)5.大数据技技术5.1大数据的的定义5.2大数据的的技术特特征5.3大数据的的典型应应用5.4大数据的的发展趋趋势大数据时时代发展展趋势大数据时时代发展展趋势之之一:软软件应用用泛互联联网化软件的价价值是同同它所协协助管理理的数据据的规模模和活性性成正比比大数据时时代,掌掌握更多多用户行行为数据据,并能能加以充充分挖掘掘利用的的公司,,将在竞竞争中赢赢得先机机,桌面面应用软软件链接接软件公公司与互互联网平平台的核核心纽带带,如何何充分发发挥桌面面应用软软件的纽纽带作用用,是大大数据时时代的核核心趋势势之一。。富界面::集成浏浏览器,,支持移移动终端端、PC等设备((富界面面是指桌桌面应用用软件与与浏览器器的深度度整合,,软件外外观与传传统的应应用软件件雷同,,但所有有的数据据都来自自于互联联网)门户化((排他性性,产品品相互支支援,提提高客户户粘性))门户化化的核心心要义在在于排他他性、相相关性。。第一排排他性是是指用户户一旦适适应一个个门户,,则难以以割舍,,从而提提供用户户粘性;;第二相相关性是是指用户户在门户户化软件件中,可可以完成成他大部部分的任任务,而而无需离离开门户户,门户户中相关关软件互互为支援援,互提提供流量量,促使使用户粘粘性越来来越强。。碎片化——按需付费费,改变变商业模模式(桌桌面应用用软件的的这三个个特征相相互促进进、缺一一不可,,没有互互联网化化,门户户化将无无从谈起起,碎片片化也就就推动了了依托;;没有碎碎片化,,则商业业模式没没有形成成的突破破,在走走卖拷贝贝的老路路。泛互联网网化趋势势,将引引发软件件企业商商业模式式的弈,,从单一一的卖软软件,向向服务转转型。大数据时时代发展展趋势大数据时时代发展展趋势之之二:行行业应用用垂直整整合大数据时时代开源源技术的的发展已已经可以以和商务
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- AIGC行业报告:国内外大模型和AI应用梳理
- 2024年吉林客运资格考试考题题库及答案
- 统考版2025届高考政治二轮复习备考小题提升精练16求索真理的历程含解析
- 2024年度建筑设计合同标的及设计方的交付时间与质量保证
- 2024年度某商品技术培训采购合同
- 2024年土地开发与使用权转让合同
- 2024年度北京市二手房买卖合同涉及的物业管理和维修责任
- 2024年度保险合同标的保险理赔程序及规定
- 2024年度洛阳绿化工程实施与维护合同
- 2024年度港口物流园开发承包合同
- 朱德的扁担公开课课件1
- MAC地址-厂商对应表
- 无线电管理法规与执法培训
- 遏制校园暴力主要靠教育引导对辩自由辩回答
- 造纸术学习课件
- 水上作业危险源辨识与技术控制措施
- 质量文化导论智慧树知到答案章节测试2023年华东理工大学
- 解读37号令、31号文危险性较大工程安全管理规定
- 标准轴载作用次数计算-excel
- 2023年山东省冬季普通高中学业水平合格考试语文试题解析版
- 美国移民入籍考试题
评论
0/150
提交评论