第1章大数据的起源和发展_第1页
第1章大数据的起源和发展_第2页
第1章大数据的起源和发展_第3页
第1章大数据的起源和发展_第4页
第1章大数据的起源和发展_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1章大数据的起源和发展起源和发展大数据特征2大数据构成3大数据起源及定义1大数据面临的机遇和挑战41.1大数据起源及定义1.大数据起源

半个世纪以来,随着计算机技术全面融入社会生活,信息爆炸已经积累到了一个开始引发变革的程度。它不仅使世界充斥着比以往更多的信息,而且其增长速度也在加快。互联网(社交、搜索、电商)、移动互联网(微博)、物联网(传感器,智慧地球)、车联网、GPS、医学影像、安全监控、金融(银行、股市、保险)、电信(通话、短信)都在疯狂产生着数据。全球每秒钟发送2.9百万封电子邮件,一分钟读一篇的话,足够一个人昼夜不息的读5.5年…每天会有2.88万个小时的视频上传到Youtube,足够一个人昼夜不息的观看3.3年…推特上每天发布5千万条消息,假设10秒钟浏览一条信息,这些消息足够一个人昼夜不息的浏览16年…每天亚马逊上将产生6.3百万笔订单…每个月网民在Facebook上要花费7千亿分钟,被移动互联网使用者发送和接收的数据高达1.3EB…Google上每天需要处理24PB的数据…数据量增加TBPBZBEB根据IDC监测,人类产生的数据量正在呈指数级增长,大约每两年翻一番,这个速度在2020年之前会继续保持下去。这意味着人类在最近两年产生的数据量相当于之前产生的全部数据量。数据结构日趋复杂大量新数据源的出现则导致了非结构化、半结构化数据爆发式的增长这些由我们创造的信息背后产生的这些数据早已经远远超越了目前人力所能处理的范畴大数据时代正在来临…1.大数据起源20世纪90年代,数据仓库之父的BillInmon就经常提及BigData。2011年5月,在“云计算相遇大数据”为主题的EMCWorld2011会议中,EMC抛出了BigData概念。1.大数据起源2.大数据在计算机科学中处于最前沿定义一:大数据指的是那些大小超过标准数据库工具软件能够收集、存储、管理和分析的数据集。——摘自麦肯锡

定义二:在信息技术中,“大数据”是指一些使用目前现有数据库管理工具或传统数据处理应用很难处理的大型而复杂的数据集。其挑战包括采集、管理、存储、搜索、共享、分析和可视化。

——摘自WIKI定义三:"大数据"是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。从数据的类别上看,"大数据"指的是无法使用传统流程或工具处理或分析的信息。它定义了那些超出正常处理范围和大小、迫使用户采用非传统处理方法的数据集。——摘自Gartner定义四:大数据本质上是数据交叉、方法交叉、知识交叉、领域交叉、学科交叉,从而产生新的科学研究方法、新的管理决策方法、新的经济增长方式、新的社会发展方式等等。

——摘自复旦大学朱扬勇教授3.大数据定义1.2大数据特征大数据的4V特征大体量(Volume)、多样性(Variety)、快速化(Velocity)、价值密度低(Value)”就是“大数据”的显著特征,简称4V特征。大体量(Volume)数据基本单位换算:1B(byte字节)=8b(bit位)1KB(Kilobyte千字节)=1024B1MB(Megabyte,简称“兆”)=1024KB1GB(Gigabyte,

简称“吉”,又称“千兆”)=1024MB1TB(Trillionbyte,简称“太”)=1024GB≈10^3GB1PB(Petabyte,简称“拍”字节)=1024TB≈10^6GB1EB(Exabyte,简称“艾”字节)=1024PB≈10^9GB1ZB(Zettabyte,简称“泽”字节)=1024EB≈10^12GB大体量(Volume)在2006年,个人用户才刚刚迈进TB时代,全球一共新产生了约180EB的数据;在2011年,这个数字达到了1.8ZB。而根据知名市场研究机构IDC的预测,到2020年,整个世界的数据总量将会增长44倍,达到35.2ZB(1ZB=10亿TB)。多样性(Variety)互联网、移动互联网、物联网、车联网等等各种数据来源大数据的数据结构更加多样化:图像、视频、微博评价、邮件PDF、office文档(word,excel,ppt)手机呼叫、短信网页点击搜索(html,搜索行为)地图gps……非结构化数据增长率就达80%,而传统的数据样式:多半是数据库表和xml。快速化(Velocity)每秒钟,人们发送290封电子邮件;每分钟人们在youtube上传20小时的视频;人们每月在总共在facebook上浏览7000亿分钟;移动互联网网用户发送和上传的数据量达到1.3exabytes,相当于10的18次方;每秒淘宝商城成交178笔订单……实时股票分析(过期无用)实时路况信息(过期无用)……数据的快速产生和实时响应是一大特征价值密度低(Value)挖掘大数据的价值类似沙里淘金比如用户评价分析,几百万的评价记录,真正有借鉴意义的就几句比如视频监控,每天产生24小时的视频数据,真正有价值的就几秒钟。1.3大数据的构成大数据=海量数据+复杂类型的数据大数据包括:交易数据和交互数据集在内的所有数据集大数据的构成海量交易数据:企业内部的经营交易信息主要包括联机交易数据和联机分析数据,是结构化的、通过关系数据库进行管理和访问的静态、历史数据。通过这些数据,我们能了解过去发生了什么。海量交互数据:源于Facebook、Twitter、LinkedIn及其他来源的社交媒体数据构成。它包括了呼叫详细记录CDR、设备和传感器信息、GPS和地理定位映射数据、通过管理文件传输ManageFileTransfer协议传送的海量图像文件、Web文本和点击流数据、科学信息、电子邮件等等。可以告诉我们未来会发生什么。海量数据处理:大数据的涌现已经催生出了设计用于数据密集型处理的架构。例如具有开放源码、在商品硬件群中运行的ApacheHadoop。1.4大数据面临的机遇和挑战机遇一:如何使用数据资产?包括个人信息、消费记录在内的海量数据当中,蕴含着大量有价值的信息,可以为企业经营、管理提供参考互联网最为本质的一点,就是网民真实的展示了个人的想法,并能迅速为人所知。心理学家说人类的细微行为,直接暴露内心的想法。挖出真正有价值的“钻石”——数据挖掘和预测性分析,成为了决定组织在新时代成败的关键如何盘活数据资产,使其为国家治理、企业决策乃至个人生活服务,是“大数据”时代的核心问题机遇二:大数据赋予我们洞察未来的能力?马云成功预测2008年经济危机“2008年初,阿里巴巴平台上整个买家询盘数急剧下滑,欧美对中国采购在下滑。海关是卖了货,出去以后再获得数据;而我们提前半年时间从询盘上推断大数据带来的机遇判断出世界贸易发生变化了。”挑战一:大数据中有用信息的准确提取数据收集(1)利用大数据的开放性,全面收集各种多源异构数据集;(2)从数据质量角度分析数据源的准确性、一致性、及时性、相关性等特性,以获取高质量的数据。数据存储(1)用冗余配置、分布化和云计算技术对数据进行预处理;(2)存储时对数据进行分类,通过过滤和去重,减少存储量,并加入便于检索的标签。数据处理

大数据的复杂性使得难以用传统的方法描述与度量,需要将高维图像等多媒体数据降维后度量与处理,利用上下文关联进行语义分析,从大量动态及可能模棱两可的数据中综合信息,并导出可理解的内容。可视化呈现

(1)可视化目的是使结果更直观以便于洞察。(2)目前计算机只能针对小规模、结构化或类结构化的数据进行分析,无法深层次数据挖掘。(3)现有的数据挖掘算法在不同行业中难以通用。挑战二:大数据的信息安全隐私泄露风险加剧(1)大量数据的集中存储增加了其泄露的风险;(2)一些敏感数据的所有权和使用权并没有清晰界定。现有存储与安防措施带考验(1)复杂的数据存储在一起,可能造成企业安全管理不合规;(2)安全防护手段更新升级慢,存在漏洞。数据本身成为攻击手段(1)黑客可收集更多有用信息,大数据分析让攻击更精准;(2)大数据为黑客发起攻击提供了更多机会

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论