大数据引领我们走向数据智能化时代2_第1页
大数据引领我们走向数据智能化时代2_第2页
大数据引领我们走向数据智能化时代2_第3页
大数据引领我们走向数据智能化时代2_第4页
大数据引领我们走向数据智能化时代2_第5页
已阅读5页,还剩23页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据大数据引领我们走向数据智能化时代BigData目录大数据的定义理解相关技术与应用机遇与挑战大数据的定义理解一什么是大数据Dada大大数据的构成123大数据的定义理解大数据的“4V”特征大数据时代的背景大数据时代的背景facebook社交网络淘宝、ebuy电子商务微博、Apps移动互联21世纪是数据信息大发展的时代,移动互联、社交网络、电子商务等极大拓展了互联网的边界和应用范围,各种数据正在迅速膨胀并变大。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。“大数据”的诞生:半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。信息爆炸的学科如天文学和基因学,创造出了“大数据”这个概念*。如今,这个概念几乎应用到了所有人类智力与发展的领域中。20世纪90年代,数据仓库之父的BillInmon就经常提及BigData2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念BigData名词由来全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有

2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…新的时代,人们从信息的被动接受者变成了主动创造者大数据时代到来TBPBZBEB大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量数据量增加数据结构日趋复杂这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临..大数据时代到来大数据的4V特征“大量化(Volume)、多样化(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,或者说,只有具备这些特点的数据,才是大数据。体量Volume多样性Variety价值密度Value速度Velocity非结构化数据的超大规模和增长总数据量的80~90%比结构化数据增长快10倍到50倍是传统数据仓库的10倍到50倍大数据的异构和多样性很多不同形式(文本、图像、视频、机器数据)无模式或者模式不明显不连贯的语法或句义大量的不相关信息对未来趋势与模式的可预测分析深度复杂分析(机器学习、人工智能Vs传统商务智能(咨询、报告等)实时分析而非批量式分析数据输入、处理与丢弃立竿见影而非事后见效大数据的构成大数据=海量数据+复杂类型的数据海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。大数据包括:交易数据和交互数据集在内的所有数据集海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。大数数据据要要解解决决的的问问题题Volume海量量的的数数据据规规模模Variety多样样的的数数据据类类型型StreamsRealtimeNeartimeBatchTBPBEBStructuredUnstructuredSemi-structuredAlltheaboveValueVelocity快速速的的数数据据流流转转巨大大的的数数据据价价值值相关技术与应用二大数据怎么用大数数据据时时代代的的背背景景相关关技技术术云计算与大数据大数据领的应用123相关关技技术术相关关技技术术大数数据据技技术术将将被被设设计计用用于于在在成成本本可可承承受受((economically)的的条条件件下下,,通通过过非非常常快快速速((velocity)的的采采集集、、发发现现和和分分析析,,从从大大量量化化((volumes)、、多多类类别别((variety)的的数数据据中中提提取取价价值值((value),,将将是是IT领领域域新新一一代代的的技技术术与与架架构构企业用以分析的数据越全面,分析的结果就越接近于真实。大数据分析意味着企业能够从这些新的数据中获取新的洞察力,并将其与已知业务的各个细节相融合什么么是是BigData技技术术分析析技技术术::数据据处处理理::自自然然语语言言处处理理技技术术统计计和和分分析析::A/Btest;topN排排行行榜榜;;地地域域占占比比;;文文本本情情感感分分析析数据据挖挖掘掘::关关联联规规则则分分析析;;分分类类;;聚聚类类模型型预预测测::预预测测模模型型;;机机器器学学习习;;建建模模仿仿真真大数数据据技技术术::数据据采采集集::ETL工工具具数据据存存取取::关关系系数数据据库库;;NoSQL;;SQL等等基础础架架构构支支持持::云云存存储储;;分分布布式式文文件件系系统统等等计算算结结果果展展现现::云云计计算算;;标标签签云云;;关关系系图图等等一些些相相关关技技术术存储储结构构化化数数据据::海量量数数据据的的查查询询、、统统计计、、更更新新等等操操作作效效率率低低非结结构构化化数数据据图片片、、视视频频、、word、、pdf、、ppt等等文文件件存存储储不利利于于检检索索、、查查询询和和存存储储半结结构构化化数数据据转换换为为结结构构化化存存储储按照照非非结结构构化化存存储储解决决方方案案::Hadoop((MapReduce技技术术))流计计算算((twitter的的storm和和yahoo!!的的S4))数据采集数据储存数据管理数据分析与挖掘技术术领领域域的的挑挑战战1、对对现现有有数数据据库库管管理理技技术术的的挑挑战战传统统的的数数据据库库部部署署不不能能处处理理数数TB级别别的的数数据据,,也也不不能能很很好好的的支支持持高高级级别别的的数数据据分分析析。。急急速速膨膨胀胀的的数数据据体体量量即即将将超超越越传传统统数数据据库库的的管管理理能能力力。。如何何构构建建全全球球级级的的分分布布式式数数据据库库(Globally-DistributedDatabase),可可以以扩扩展展到到数数百百万万的的机机器器,,数数已已百百计计的的数数据据中中心心,,上上万万亿亿的的行行数数据据。。2、经经典典数数据据库库技技术术并并没没有有考考虑虑数数据据的的多多类类别别((variety)SQL(结结构构化化数数据据查查询询语语言言)),,在在设设计计的的一一开开始始是是没没有有考考虑虑非非结结构构化化数数据据的的。。3、实实时时性性的的技技术术挑挑战战::一般般而而言言,,像像数数据据仓仓库库系系统统、、BI应用用,,对对处处理理时时间间的的要要求求并并不不高高。。因因此此这这类类应应用用往往往往运运行行1、2天获获得得结结果果依依然然可可行行的的。。但但实实时时处处理理的的要要求求,,是是区区别别大大数数据据应应用用和和传传统统数数据据仓仓库库技技术术、、BI技术术的的关关键键差差别别之之一一。。网络络架架构构、、数数据据中中心心、、运运维维的的挑挑战战::技术术架架构构的的挑挑战战::人们们每每天天创创建建的的数数据据量量正正呈呈爆爆炸炸式式增增长长,,但但就就数数据据保保存存来来说说,,我我们们的的技技术术改改进进不不大大,,而而数数据据丢丢失失的的可可能能性性却却不不断断增增加加。。如此此庞庞大大的的数数据据量量首首先先在在存存储储上上就就会会是是一一个个非非常常严严重重的的问问题题,,硬硬件件的的更更新新速速度度将将是是大大数数据据发发展展的的基基石石。。大数数据据与与云云计计算算云计计算算的的模模式式是是业业务务模模式式,,本本质质是是数数据据处处理理技技术术。。数据据是是资资产产,,云云为为数数据据资资产产提提供供存存储储、、访访问问和和计计算算。。当前前云云计计算算更更偏偏重重海海量量存存储储和和计计算算,,以以及及提提供供的的云云服服务务,,运运行行云云应应用用,,但但是是缺缺乏乏盘盘活活数数据据资资产产的的能能力力,,挖挖掘掘价价值值性性信信息息和和预预测测性性分分析析,,为为国国家家、、企企业业、、个个人人提提供供决决策策和和服服务务,,是是大大数数据据核核心心议议题题,,也也是是云云计计算算的的最最终终方方向向。。白云下面面数据跑跑蓝蓝的天天上白云云飘如果数据据是财富富,那么么大数据据就是宝宝藏,而而云计算算就是挖挖掘和利利用宝藏藏的利器器!没有有强大的的计算能能力,数数据宝藏藏终究是是镜中花花;没有有大数据据的积淀淀,云计计算也只只能是杀杀鸡用的的宰牛刀刀!大数据与与云计算算2012云计算算,2013大大数据??美国:美国政府府在2012年年3月29日宣宣布投资资两亿美美元拉动动大数据据相关产产业发展展,将““大数据据战略””上升为为国家意意志。中国:中国商业业联合会会:副会会长刘建建沪介绍绍说,随随着互联联网的快快速发展展,中国国的电子子商务企企业纷纷纷组建了了数据分分析部门门。2011年10月,工工信部确确认京沪沪深杭等等5城市市为“云云计算中中心”试试点城市市。而真真正的问问题或许许不在于于怎样建建设“云云计算中中心”。。国家信信息中心心常务副副主任杜杜平直言言不讳::“应对对大数据据的到来来,需要要不断建建基础设设施,但但是建了了干什么么,有些些数据需需要存储储,也有有很多数数据可能能不需要要储存。。”大数据的的市场有有多大??中央财财经大学学中国经经济管理理研究院院博士张张永力说说,国外外大数据据行业约约有1000亿亿美元的的市场,,而且每每年都以以10%的速度度在增长长,增速速是软件件行业的的两倍。。行业拓展展者,打打造大数数据行业业基石::大数据的的应用——企业业在投入入IBM::IBM大大数据提提供的服服务包括括数据分分析,文文本分析析,蓝色色云杉((混搭供供电合作作的网络络平台));业务务事件处处理;IBMMashupCenter的计计量,监监测,和和商业化化服务((MMMS)IBM的的大数据据产品组组合中的的最新系系列产品品的InfoSpherebigInsights,,基于ApacheHadoop。该产品组组合包括括:打包的ApacheHadoop的软件件和服务务,代号号是bigInsights核心,,用于开开始大数数据分析析软件被称称为bigsheet,软件件目的是是帮助从从大量数数据中轻轻松、简简单、直直观的提提取、批批注相关关信息为金融,,风险管管理,媒媒体和娱娱乐等行行业量身身定做的的行业解解决方案案微软:2011年1月月与惠普普(具体体而言是是HP数数据库综综合应用用部门))合作作目标是是开发了了一系列列能够提提升生产产力和提提高决策策速度的的设备。。EMC::EMC斩斩获了了纽交所所和Nasdaq;大数据解解决方案案已包括括40多多个产品品。Oracle::Oracle大大数据机机与OracleExalogic中间间件云服服务器、、OracleExadata数数据库云云服务器器以及OracleExalytics商务智智能云服服务器一一起组成成了甲骨骨文最广广泛、高高度集成成化系统统产品组组合。政府职能能变革重视应用用大数据据技术,,盘活各各地云计计算中心心资产::把原来来大规模模投资产产业园、、物联网网产业园园从政绩绩工程,,改造成成智慧工工程;在安防领领域,应应用大数数据技术术,提高高应急处处置能力力和安全全防范能能力;在民生领领域,应应用大数数据技术术,提升升服务能能力和运运作效率率,以及及个性化化的服务务,比如如医疗、、卫生、、教育等等部门;;解决在金金融,电电信领域域等中数数据分析析的问题题:一直直得到得得极大的的重视,,但受困困于存储储能力和和计算能能力的限限制,只只局限在在交易数数型数据据的统计计分析;;政府投入入将形成成示范效效应,大大大推动动大数据据的发展展。大数据的的应用——政府府“智慧大脑”智能感知互联互通智能运营协同共享大数据的的应用——热点:智智慧城市市美国奥巴巴马政府府在白宫宫网站发发布《大大数据研研究和发发展倡议议》,提提出“通通过收集集、处理理庞大而而复杂的的数据信信息,从从中获得得知识和和洞见,,提升能能力,加加快科学学、工程程领域的的创新步步伐,强强化美国国国土安安全,转转变教育育和学习习模式””;中国工程程院院士士邬贺铨铨说道,,“智慧慧城市是是使用智智能计算算技术使使得城市市的关键键基础设设施的组组成和服服务更智智能、互互联和有有效,随随着智慧慧城市的的建设,,社会将将步入““大数据据”时代代。”难点:1、在最最初就合合理规划划智慧城城市(深深度思考考哪些领领域能够够运用));2、在城城市发展展基础设设施和““云产业业”的同同时,更更多重视视“数据据”的价价值;3、在大大数据处处理领域域的核心心技术不不足,需需要政府府更大的的投入。。大数据的的应用——未来来,改变变一切数据的再再利用::由于在信信息价值值链中的的特殊位位置,有有些公司司可能会会收集到到大量的的数据,,但他们们并不急急需使用用也不擅擅长再次次利用这这些数据据。例如如,移动动电话运运营商手手机用户户的位置置信息来来传输电电话信号号,这对对以他们们来说,,数据只只有狭窄窄的技术术用途。。但当它它被一些些发布个个性化位位置广告告服务和和促销活活动的公公司再次次利用时时,则变变得更有有价值。。大数据价价值链的的3大构构成:数数据本身身、技能能与思维维其中三者者兼具的的又谷歌歌公司,,谷歌在在刚开始始收集数数据的时时候就已已经有多多次使用用数据的的想法。。比方说说,它的的街景采采集车手手机全球球定位系系统数据据不光是是为了创创建谷歌歌地图,,也是为为了制成成全自动动汽车以以及谷歌歌眼镜等等与实景景交汇的的产品。。未来,企企业会依依靠洞悉悉数据中中的信息息更加了了解自己己,也更更加了解解客户。。《大数据据时代》》传统行业业最终都都会转变变为大数数据行业业,无论论是金融融服务也也、医药药还是制制造业。。机遇与挑战三大数据赋赋予我们们洞察未未来的能能力机遇马云成功功预测2008年经经济危机机“2008

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论