版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据与信息采集简介提纲大数据的由来及现状大数据带来的挑战:信息采集更多挑战:大数据的管理与分析大数据与云计算世界是数字的数据的前世今生4step3step2step1step纸质数据文件系统数据库管理系统数据仓库和数据挖掘大数据时代BigData什么是大数据1KB=1024字节存储单位1MB=1024KB1GB=1024MB1TB=1024GB1PB=1024TB=1,048,576GB1EB=1024PB=1,073,741,824GB1ZB=1024EB=1,099,511,627,776GB100万G10亿G1万亿G22亿台215万台2100台500G硬盘电脑15寸电脑排成行可以往返一次月球Intel:人类文明开始到2003年地球共产生了5EB数据.2012年全年,全球产生数据2.7ZB是2003年以前的500倍2015年,全球估计产生数据8ZB,等于1800万个美国国会图书馆2000年数字信息占全球数据量的25%75%都在报纸胶片磁带等媒介2013年数字信息98%非数字信息2%2012年全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有
2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…新的时代,人们从信息的被动接受者变成了主动创造者大数据时代到来BigData什么是大数据商业数据现状Twitter2007年5000条微博更新/天2008年30万条微博更新/天2009年250万条微博更新/天2010年3500万条微博更新/天2011年2亿条微博更新/天2013年4亿条微博更新/天2013年上传时长12年的视频/天2013年用户分享25亿条信息/天一个单数据表几亿-几百亿条记录下线商品14亿件,在线商品8亿件淘宝数据库存了20PB数据平均每月增加1.5PB智能移动终端设备的巨量增长数据规模指数增长数字大爆炸GBTBPBEBZB地球上至今总共的数据量:在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而有市场研究机构预测:到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)!1GB
=2^30字节1TB=2^40字节1PB
=2^50字节1EB
=2^60字节1ZB=2^70字节为什么?facebook社交网络淘宝、ebuy电子商务微博、Apps移动互联21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。信息技术的广泛应用提高了数据的处理能力,更提高了数据的产生能力,道高一尺,魔高一丈。这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临..数据规模指数增长数字大爆炸数据库数据仓库面向应用面向主题当前数据历史数据数据是可更新的数据不可更新避免数据冗余有意引入冗余支持事务处理支持决策分析数据操作频繁操作相对不频繁10数据分析:数据库和数据仓库11数据仓库和数据挖掘数据库数据仓库不可知的价值提取数据数据挖掘
示例:“尿布与啤酒”的故事示例:你开心他就买你焦虑他就抛
华尔街“德温特资本市场”公司首席执行官保罗·霍廷每天的工作之一,就是利用电脑程序分析全球3.4亿微博账户的留言,进而判断民众情绪,再以“1”到“50”进行打分。根据打分结果,霍廷再决定如何处理手中数以百万美元计的股票。
霍廷的判断原则很简单:如果所有人似乎都高兴,那就买入;如果大家的焦虑情绪上升,那就抛售。
这一招收效显著——当年第一季度,霍廷的公司获得了7%的收益率12大数据分析大数据分析:吃货集中营大数据分析:关联分析大数据分析:可视化大数据分析:趋势预测从谷歌流感趋势看大数据的应用价值“谷歌流感趋势”,通过跟踪搜索词相关数据来判断全美地区的流感情况大数据应用场景美国零售商和怀孕预测VISA信用卡与商户推荐股票投资智能电表广告投放中国粮食统计人的数字化京东信用贷款和淘宝数据魔方UPS快递的最佳行车路径数据源:规模庞大,通常在PB级数据结构:非结构化,需要进行量化打分,转换成结构化、数值型数据以便理解和分析分析逻辑:更简单,性能是瓶颈性能:实时性要求更高大数据分析的特点什么是大数据?BigDataisacollectionofdatasetssolargeandcomplexthatitbecomesdifficulttoprocessusingon-handdatabasemanagementtools.大数据(bigdata,megadata),或称巨量资料,指的是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效Volume数据量PB是大数据层次的临界点.KB->MB->GB->TB->PB->EB->ZB->YB->NB->DB根据IDC作出的估测,数据一直都在以每年50%的速度增长,也就是说每两年就增长一倍(大数据摩尔定律)人类在最近两年产生的数据量相当于之前产生的全部数据量预计到2020年,全球将总共拥有35ZB的数据量,相较于2010年,数据量将增长近30倍Volume数据量Dalles数据中心位于俄勒冈州的哥伦比亚河旁,河上的Dalles大坝为数据中心提供电力。数据中心有2座4层楼高的冷却塔。Google数据中心Google数据中心以集装箱为单位,每个集装箱有1160台服务器,每个数据中心有众多集装箱。23Google一次搜索查询的能耗能点亮100瓦的灯泡11秒钟。Microsoft数据中心微软在美国芝加哥的数据中心.总面积为70万平方英尺。即使只启用半数服务器,能耗也达到30兆瓦。24Variety多样性企业内部的经营交易信息;物联网世界中商品,物流信息;互联网世界中人与人交互信息,位置信息等是大数据的主要来源.
结构化数据、半结构化数据和非结构化数据如今的数据类型早已不是单一的文本形式,订单、日志、音频,能力提出了更高的要求结构化数据半结构化数据非结构化数据指关系型数据表指关系结构与内容混合在一起的数据类型,xml…文档、视频、音频、图片20%结构化80%非结构化企业数据2012年互联网产生的数据25%结构化75%非结构化50%-70%源于人与人的互动Value价值挖掘大数据的价值类似沙里淘金,从海量数据中挖掘稀疏但珍贵的信息.价值密度低,是大数据的一个典型特征.Value价值未来大数据的产业规模将会至少以万亿美元来进行衡量美国医疗保健每年产值达3000亿美金每年生产率增长约0.7%制造业最多可节省50%的产品研发、组装成本最多可节约7%的营运资金美国零售业净利率增长可能高达60%+每年生产率增长0.5-1.0%欧洲公共部门管理每年2500亿欧元每年生产率增长约0.7%全球个人定位数据1000亿+的服务供应商收入为终端用户带来高达7000亿美的价值Velocity速度1s是临界点.对于大数据应用而言,必须要在1秒钟内形成答案,否则处理结果就是过时和无效的.大数据的惊人不止是在数量上,同时数据还是巨量具有动态分析价值的数据。访问响应时间的加快,数据库读写速度的加快,对电商企业来说就等于多成交。对于很多情况下,动态的数据价值远大于静态数据,比如气象预测,灾难预测,快消行业等。实时处理的要求,是区别大数据应用和传统数据仓库技术,BI技术的关键差别之一.6000万用户登录/天20亿次页面访问/天每天1.2亿次网站访问响应时间小于100毫秒Velocity速度数据的采集速度的加快导致处理时间都需要有相应的提高在线数据分析(OnlineDataAnalytics)决策的延误
商机的消失实例网上营销(E-Promotions):基于用户当前的位置和过往的交易数据预测用户的喜好在合适的时间和地点发送用户感兴趣的产品和店铺健康监控(Healthcaremonitoring):利用穿戴式的传感器监控用户的生理和活动数据及时提供需要的医疗服务大数据提纲大数据的由来及现状大数据带来的挑战:信息采集更多挑战:大数据的管理与分析大数据与云计算大数据从哪里来?海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据从哪里来?海量交互数据:源于Facebook、Twitter、微信,微博及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、传送的海量多媒体文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。马云成功预测2008年经济危机“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;我们提前半年时间从询盘上推断出世界贸易发生变化了。”通常而言,买家在采购商品前,会比较多家供应商的产品,反映到阿里巴巴网站统计数据中,就是查询点击的数量和购买点击的数量会保持一个相对的数值,综合各个维度的数据可建立用户行为模型。因为数据样本巨大,保证用户行为模型的准确性。因此在这个案例中,询盘数据的下降,自然导致买盘的下降。大数据从哪里来?海量传感器数据:源于各类传感器,如摄像头,可穿戴设备,智能家电,工业设备等。它包括了多种环境信息,人体运动记录,操作记录等等。这一部分数据规模将更加庞大。中国英特尔物联技术研究院数据量的颠覆性变化每1天产生5EB数据每2天产生5EB数据1万年产生5EB数据2015每人每天产生1.1TB时间2015数据量感知数据
=
社交媒体数据的10-20倍社交媒体数据大数据从哪里来?海量传感器数据:大数据从哪里来?运营式系统阶段用户原创内容阶段2感知式系统阶段3•数据库的出现使得数据管理的复杂度大大降低
,数据往往伴随着一定的运营活动而产生并记录在数据库中的
,数据的产生方式是被动的•数据爆发产生于Web
2.0
时代,而Web
2.0
的最重要标志就是用户原创内容•智能手机等移动设备加速内容产生•数据产生方式是主动的•感知式系统的广泛使用•人类社会数据量第三次大的飞跃最终导致了大数据的产生信息采集的类型交易数据数据抽取与集成工具,ETL主动抽取,源与目的都非常明确交互数据网络爬虫,数据收集程序主动爬取,源与目的不太明确传感器数据传感器传送被动传送TimeVolume结构化数据非结构化数据可被处理的非结构化数据休眠数据大数据采集带来的挑战
网络爬虫数据的分布性:文档散落在数以百万计的不同服务器上,没有预先定义的拓扑结构相连。不稳定的数据高比例:许多文档迅速地添加或删除(e.g.deadlinks).大规模:网络数据量的指数增长,由此引发了一系列难以处理的规模问题。无结构和冗余信息:每个HTML页面没有统一的结构,许多网络数据是重复的,将近30%的重复网页.数据的质量:许多内容没有经过编辑处理,数据可能是错误的,无效的。错误来源有录入错误,语法错误,OCR错误等。异构数据:多媒体数据(images,video,VRML),语言,字符集等.提纲大数据的由来及现状大数据带来的挑战:信息采集更多挑战:大数据的管理与分析大数据与云计算现行计算技术面临的挑战(1)在大数据面前,人力/人脑几乎无能为力,迫切需要有效、高效的方法、技术和工具,现有的计算技术需要革新、甚至革命性的发展!传统以计算为中心的数据管理和处理模式的局限,无法应对“4V问题”数据仅是计算设备的输入/输出,靠提速扩容适应数据增长而大数据难以I/O,其爆炸式增长非单纯提速扩容可对付
数据价值有效
利用率不足5%价值未充分利用?
①平均日产数据20TB②平均年增
数据超50%数据负担沉重数据处理?数据管理?数据分析?传统DB技术在应对大数据上的不足⑴DBMS网络存储:将存储设备通过标准的网络拓扑结构连接到一群计算机上,包括直连存储、网络附加存储、存储区域网络等。如:OracleRAC、MySQLSharding集群、DB2Purescale⑵分布式数据库代理:通过中间代理层来统一管理所有的数据源,后端数据库集群对前端应用程序透明。如:MySQLProxy、Amoeba⑶数据仓库:面向主题的、集成的、相对稳定的、反映历史变化的数据集合,用于支持管理决策。如:Teradata、Greenplum、OracleExadata共享磁盘或共享内存的体系架构,使得依赖于scaleup方式的有限的可扩展性…..……缺乏对半结构化数据和非结构化数据的支持…………在处理大规模数据和执行复杂的统计模型计算上的限制…………现行计算技术面临的挑战(2)例:从“scale-up”到“scale-out”传统纵向扩展的处理模式“scale-up”:依赖于专用站点的CPU/memory/storage/network更新(传统并行模型),新型横向扩展的处理模式“scale-out”:依赖于增加分布式低成本计算与存储节点现有商业并行数据库产品很少可管理100+节点;但是Yahoo!的Hadoop集群系统有4000+节点;Facebook也达到2750+节点怎样有效、高效地管理、处理、应用大数据,对计算技术带来了一系列挑战数据管理面临的挑战来自两个方面不断涌现的大数据云计算平台的特点⑴数据的规模庞大,需要海量的存储空间和强大的计算能力⑵数据源丰富,数据类型多样⑶用户群体大,需要高并发、低延迟、高吞吐量的访问⑷无法预计的存储需求,可动态伸缩(5)多租户共享的,第三方托管(6)大规模数据的密集型计算,执行更加复杂的分析挖掘任务⑴无共享的分布式系统架构、横向扩展⑵数据被分片分散存放,自适应的数据划分方式和动态迁移⑶为高可用和容错,同一数据分片保存了多个副本⑷廉价的商品化硬件,故障常态化⑸各种资源通过网络以服务形式提交,按需分配Pay-as-you-go⑹MapReduce、BSP、Dryad等并行计算范式
数据挖掘面临的挑战数据源规模庞大、多数据源……分布式存储、数据多样性……某电信运营商数据挖掘实例挖掘算法需高度汇总和集成数据……算法复杂度高、精确度低……数据仓库规模1PB构建客户流失预警模型:10小时建模,只能投入几十万行数据做训练准确度只有60%-70%节点数的增加不一定能提高数据挖掘的效率算法的简单并行化不能有效处理海量数据!提纲大数据的由来及现状大数据带来的挑战:信息采集更多挑战:大数据的管理与分析大数据与云计算你身边的“云”•群雄逐鹿:国外有微软SkyDrive、苹果iCloud,亚马逊CloudDriver等网盘产品,国内有百度云、新浪微盘、华为网盘、金山快盘、115网盘和360云盘等•不以空间大小论英雄:以100K/s的均速上传,1T空间也需124天方可填满,合计2976小时。而如若想占满36T,估摸得熬上12年以上光景你身边的“云”有道云笔记/video.html?auto=12011年6月28日网易旗下的有道推出的云笔记软件,支持多种附件格式,拥有2G容量的初始免费存储空间,能够实时增量式同步,并采用“三备份存储”技术,同时上线的还有网页剪报功能。云电视、百度地图、百度音乐、云杀毒、云端备份。。。。。还有木有?什么是云计算?云计算(cloudcomputing)是基于互联网的相关服务的增加、使用和交付模式,通常涉及通过互联网来提供动态易扩展且经常是虚拟化的资源。云是网络、互联网的一种比喻说法。过去在图中往往用云来表示电信网,后来也用来表示互联网和底层基础设施的抽象。因此,云计算甚至可以让你体验每秒10万亿次的运算能力,拥有这么强大的计算能力可以模拟核爆炸、预测气候变化和市场发展趋势。用户通过电脑、笔记本、手机等方式接入数据中心,按自己的需求进行运算。对云计算的定义有多种说法。对于到底什么是云计算,至少可以找到100种解释。现阶段广为接受的是美国国家标准与技术研究院(NIST)定义:云计算是一种按使用量付费的模式,这种模式提供可用的、便捷的、按需的网络访问,进入可配置的计算资源共享池(资源包括网络,服务器,存储,应用软件,服务),这些资源能够被快速提供,只需投入很少的管理工作,或与服务供应商进行很少的交互。什么是云计算?云计算概念•通过整合、管理、调配分布在网络各处的计算资源,通过互联网以统一界面、同时向大量的用户提供服务云计算特点超大规模计算、虚拟化、高可靠性和安全性、通用性、动态扩展性、按需服务、降低成本云计算应用场景Google个人云服务企业应用实例:阿里Amazon云计算示意图云计算特点高可靠性前所未有的计算能力数据多副本,计算节点同构可互换等措施动态伸缩,满足规模增长需要超大规模高可扩展性极其廉价任意获取相应服务虚拟化通用性千变万化,不针对特定应用按需服务庞大的资源池,按需购买CloudFeatures云计算特点数据在云端:不怕丢失,不必备份,可以任意点的恢复;软件在云端:不必下载自动升级;无所不在的计算:在任何时间,任意地点,任何设备登录后就可以进行计算服务;无限强大的计算:具有无限空间的,无限速度PCC/S云计算以硬件为中心以软件为中心以服务为中心云计算的好处买设备开发系统互联网/局域网支付设备和劳动力费用用户单一买外部服务可扩展,有弹性,动态,多用户所用即所付通过Internet使用IFaPs(IP,HTML,HTTP)传统IT模式云计算实现模式人机界面商业模式技术模式云计算的好处云计算与传统IT模式相比,具有相当明显的优势:
任何一台可以上网的通讯设备包括手机、PDA、上网本均可
降低成本
全球购置计算机中,只有30%的计算能力被利用,甚至更低提高资源利用率
云端由成千上万台甚至更多服务器组成的集群为存储和管理数据提供了几乎无限大的空间和资源
用户可以根据自己的需要或喜好定制相应的服务、应用及资源灵活定制动态迁移保证应用和计算的正常进行;在云计算服务器端提供了最可靠、最安全的数据存储中心弹性计算和存储能力高可靠性和安全性云计算的分类按服务类型分类云计算的分类按服务类型分类基础设施云(InfrastructureCloud,IaaS)为用户提供底层的、接近于直接操作硬件资源的服务接口。平台云(PlatformCloud,PaaS)为用户提供一个托管平台,用户可以将他们所开发和运营的应用托管到云平台中。应用云(ApplicationCloud,SaaS)为用户提供可以直接为其所用的应用,这些应用一般是基于浏览器的,针对某一特定功能。基础设施即服务IaaS——InfrastructureasaSe
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 安全检查服务合同范本
- 冀少版八年级生物上册第三单元第三节无机盐与植物的生长课件
- 学前教育进入“有专门法可依”新阶段
- 部编本二年级上册语文第四至七单元(内容含课文口语交际及语文园地)全部教案
- 七年级下册古诗文预习《爱莲说》-2022-2023学年七年级语文古诗文寒假复习预习课
- 消防安全群防群治实施细则
- 人教版新课标小学数学四年级下册教案
- 医疗行业专业劳务派遣方案
- 石油勘探设备校正操作规程
- 电力工程投标诚信承诺书模板
- 大作业计算机网络
- 鲁班尺各标准吉凶数对照表
- 西南油气田对外合作项目基于PSC谈判经济评价
- 基于PLC的药片自动装瓶控制系统设计
- 微生物限度方法学验证
- 迁入街道公共集体户承诺书
- 湖北农业发展的现状与问题分析
- 镇江市内河航道网规划
- 阻尼比的计算精品课件
- 废气管道方案
- 方木、模板、钢管用量的计算参考
评论
0/150
提交评论