版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据高效特征第1页主 要 内 容第一部分:大数据处理背景第三部分:大数据处理展望第二部分:大数据应用第2页3第一部分:大数据处理背景第3页EB什么是大数据? 维基百科:大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理数据集合。Gartner企业:体量大、快速和多样化信息资产,需用高效率和创新型信息技术加以处理,以提升发觉洞察、做出决议和优化流程能力。大数据 = “海量数据”+“复杂类型数据” 第4页大数据5V特征 VolumeVolumeVarietyVolume模态多样VeracityVolume真伪难辨VelocityVolume速度极快体量巨大文本视频图片音频到,数
2、据总量达40ZB,人均5.2TB分享内容条目超出25亿个/天,增加数据超出500TB/天ValueVolume价值密度低挖掘大数据价值类似沙里淘金。视频监控天天产生二十四小时数据,真正有价值就几秒钟第5页大数据存在于各行各业中 电子商务金融日志分析国土安全交通控制机械制造社交网络移动互联网智慧医疗科学研究交易分析视频监控第6页用户生成数据Deep Web数据多模态内容数据天文气象基因医学经济物理其它领域网络与关系数据大数据包括很多不一样领域第7页科研价值1998 年图灵奖得主、数据库技术奠基人Jim Gray认为数据驱动研究将是第四种科学研究范式”The Fourth Paradigm: Da
3、ta-Intensive Scientific Discovery”大数据已为多个不一样学科研究工作提供了宝贵机遇经济价值麦肯锡全球研究院:大数据可为世界经济创造巨大价值,提升企业和公共部门生产率和竞争力,并为消费者创造巨大经济利益著名Gartner企业:到年,采取大数据和海量信息管理企业将在各项财务指标上,超出未做准备竞争对手20%工业价值分析使用:揭示隐藏其中信息,比如零售业中对门店销售、地理和社会信息分析能提升对客户了解二次开发:创造出新产品和服务。比如Facebook经过结合大量用户信息,定制出高度个性化用户体验,并创造出一个新广告模式社会价值比如:淘宝网推出淘宝消费者物价指数(CPI
4、)来反应网络购物消费趋势和价格动态其它价值大数据价值第8页深网挖掘深空探索我国神州九号进入太空深海探测我国蛟龙号探测水下7000米实现大数据价值深度挖据和高度利用!大数据战略意义大数据深度资源挖掘与价值利用是国家战略 从 深空 + 深海 深网第9页大数据产业价值大数据是各行各业面临共同问题促进工业与信息产业生产效率提升未来产业竞争关键要素研究共性问题,突破关键技术第10页大数据现实需求:感知现在感知现在:历史数据与当前数据融合, 潜在线索与模式挖掘, 事件、群体与社会发展状态感知中国发展指数(物价、环境、健康)需求:掌握现实状况,如淘宝CPI、环境指数难点:PB级社会媒体数据,百亿级日志数据,
5、结构与非结构数据关联,历史与流式数据并存犯罪线索挖掘需求:发觉线索,如罪犯行为轨迹难点:PB级日志数据、EB级监控数据中发觉嫌疑人及其行为模式如同大海捞针问题与挑战:数据规模巨大、模态多样、关联复杂、真伪难辨 现有数据处理方法感知度量难、特征融合难、模式挖掘难第11页联合国“全球脉动”(Global Pulse):利用网络大数据预测失业率与疾病暴发等现象,利用数字化早期预警信号来提前指导援助项目。问题与挑战:数据交互性强、实时性强、动态演变,造成传统数据计算方法:数据生命周期割裂、时效性与准确性难以兼顾、演变趋势难以预测基于Twitter 数据选举结果预测:经过对Twitter等网上公开数据实
6、时感知、动态获取与综合分析,结合仿真调控,预测大选结果。预测未来:全量数据、流式数据、离线数据关联分析,态势与效应判定与调控,揭示事物发展演变规律,进而对事物发展趋势进行预测大数据现实需求:预测未来第12页马云判断来自于数据分析! 马云对未来预测,是建立在对用户行为分析基础上。通常而言,买家在采购商品前,会比较多家供给商产品。这些,反应到阿里巴巴网站统计数据中,就是查询点击数量和购置点击数量会保持一个相正确数值,综合各个维度数据可建立用户行为模型。因为数据样本巨大,所以确保了用户行为模型准确性。大数据分析案例(阿里巴巴) 马云成功预测经济危机。 初,阿里巴巴发觉“淘宝网”等平台上买家整体询盘数
7、急剧下滑,欧美对中国采购在下滑,所以判定世界贸易形势发生了改变,并提前六个月向淘宝网商户发出“过冬”预警。 第13页经费预算Google准确掌握用户行为、获取需求、预测未来!大数据分析案例(Google) 用户在无偿使用Google软件产品同时,把个人行为、喜好等信息也无偿送给了Google。所以Google产品线越丰富,对用户了解也越深入,他广告就越精准,价值就越高。 基于用户搜索信息,Google成功预测美国甲型H1N1暴发,年1月准确判定美国流感活动等级为“强烈”。第14页美国大数据研发专题研究计划( 3月)日本大数据发展国家战略( 7月)英国大数据和节能计算技术方案( 年1月)中国“大
8、数据”香山会议( 5月) 大数据列入973、重点基金项目指南 (年)北京中关村大数据产业联盟()广东大数据战略工作方案( 12月)上海大数据研究与发展三年行动计划(年7月)大数据表达国家意志和地方战略 第15页3月29日,美国联邦政府整合6个部门宣告2亿美元“Big Data Research and Development Initiative”促进采集、存放、维护、管理、分析和共享海量数据关键技术;利用以上技术来加速科学与工程发觉步伐,强化国家安全,改变教育和学习;培养开发和使用大数据技术人力资源。Core Technologies for Advancing Big Data Scien
9、ce & EngineeringData to Decisions1000 Genomes Project Data Available on CloudScientific Discovery Through Advanced ComputingBig Data for Earth System ScienceXDATA美国大数据计划大数据上升为国家意志第16页17Horizon - The Framework Programme for Research and Innovation面向大数据数据信息化基础设施(E-Infrastructure)是优先资助领域GRDI - Global R
10、esearch Data Infrastructures建立针对科研大数据基础设施,实现数据管理系统、数字数据图书馆、研究图书馆、数据工具和研究团体整合FP7 Call 8 Intelligent Information Management - Big Data预算5千万欧元,-1-17截止目标:提升发觉、分析、开采、使用大数据及其基础设施能力经过对大数据搜集与分析创造更大价值探索基于大规模互联数据资源与专用基础设施新型科学研究面向大数据人力资源开发欧盟大数据规划基础设施是先导 第17页学术界对大数据关注1月,Nature Physics上出版专刊“Complexity”尤其指出大数据为科学
11、研究,尤其是复杂性科学研究提供了史无前例机遇,Nature出版专刊“Big Data”从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了大数据所带来技术挑战,Science登载专刊“Dealing with Data”讨论了数据洪流(Data deluge)所带来挑战,也尤其指出倘若能够更有效地组织和使用这些数据,人们将得到更多机会发挥科学技术对社会发展巨大推进作用4月,欧洲信息学与数学研究协会会刊ERCIM News上出版专刊“Big Data”讨论了大数据时代数据管理、数据密集型研究创新数据库技术等问题,并介绍了欧洲科研机构开展研究活动和取得创新性进展第18页大数据与
12、常规数据对比常规数据范围广模态多增加快关联繁数据规模较小模态属性受限增加速度较慢关联相对简单稠密与稀疏共存冗余与缺失并在动态与静态互现显式与隐藏都有特征问题描述与存放挑战分析与了解挑战挖掘与预测挑战挑战大数据应用目标相对比较明确数据结构相对比较简单时序长连续时间较短处理方法通常为模型化、参数化第19页大数据分析挖掘基本路径 第20页第二部分:大数据应用第21页第22页洛杉矶警察局和加利福尼亚大学合作利用大数据预测犯罪发生。谷歌流感趋势(Google Flu Trends)利用搜索关键词预测禽流感散布。统计学家内特.西尔弗(Nate Silver)利用大数据预美国选举结果。麻省理工学院利用手机定
13、位数据和交通数据建立城市规划。梅西百货实时定价机制。依据需求和库存情况,该企业基于SAS(查询系统)系统对多达7300万种货物进行实时调价。第23页数据回报率=数据价值/数据成本在技术层面,数据回报率为数据集成、数据管理、商业智能和分析方面投入提供了业务背景和案例。它还与处理业务基础相关:挣钱、省钱、创造机会和管理风险。它包括对效率考虑,同时推进了改变游戏规则洞察力第24页在9/11攻击后,美国政府为阻止恐怖主义已经涉足大规模数据挖掘。组建一个用于筛选通信、犯罪、教育、金融、医疗和旅行等统计来识别可疑人大数据库年5月美国总统巴拉克奥巴马政府推出网站作为政府开放数据计划部分举措。该网站超出4.4
14、5万量数据集被用于确保一些网站和智能手机应用程序来跟踪从航班到产品召回再到特定区域内失业率信息,这一行动激发了从肯尼亚到英国范围内政府们相继推出类似举措第25页2月扫描2亿年页面信息,或4兆兆字节磁盘存放,只需几秒即可完成。年3月美国政府汇报要求每个联邦机构都要有一个“大数据”策略,作为回应,奥巴马政府宣告一项耗资2亿美元大数据研究与发展项目。 1890美国统计学家赫尔曼霍尔瑞斯为了统计1890年人口普查数据创造了一台电动器来读取卡片上洞数,该设备让美国用一年时间就完成了原本耗时8年人口普查活动,由此在全球范围内引发了数据处理新纪元。第26页27第三部分:大数据处理展望第27页大数据计算思维转
15、变 整合性(Integrated) 近似性(Inexact) 归纳性(Inductive) 增量性(Incremental)第28页 整合性(Integrated):从样本到总体 大数据时代能够分析更多数据,甚至是与之相关全部数据,而不再依赖于采样(比如:要研究气象,不但要关注气温、气压、湿度改变,而且要了解与研究相关全部数据)。使用全部数据可能带来更全方面认识,能够更清楚发觉样本无法揭示细节信息。这意味着在大数据研究时代,采样思维需要变革。第29页 近似性(Inexact):从准确到效率 与电信、银行准确计算需求不一样,在大数据背景下, 绝正确准确不再是追求主要目标,适当忽略微观层面上准确度
16、,设计一个简单、快速、近似算法会在宏观层面拥有更加好洞察力。也就是说,数据分析思维需要变革,不能过于追求准确。 第30页 归纳性(Inductive):从因果到相关 过去对一个现象分析总是追究“为何”。但在大数据时代,对事物现象、机理解释,无须紧紧盯着事物之间“为何”因果关系,而要寻找事物之间“是什么”相关关系。 相关关系可能不能准确地说明一个社会现象发生原因,不过会揭示其蕴含发展规律与趋势。第31页 增量性(Incremental):从静态到动态 大数据时代,数据是源源不停动态改变,传统计算方法有一个封闭假设,全部数据都齐全了再进行计算。所以,在大数据动态改变特征当中需要进行增量计算。 第32
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 学生会副主席个人工作总结
- 如何讲解机动车商业险-中国人寿财产保险公司新人培训课程模板课件
- 家庭金融理财
- 合同签署申请表-外包-V1.0
- 六年级上册道德与法治课件
- 《冬季如何进补》课件
- 《产销资料库》课件
- 地铁公共安全教育课件
- 卷02-备战2023年中考生物【名校地市好题必刷】全真模拟卷(福建专用)·第一辑(解析版)
- 医学生目标规划
- 五年级上册数学试题试卷(8篇)
- 2024-2025学年四年级科学上册第三单元《运动和力》测试卷(教科版)
- 学术规范与论文写作智慧树知到答案2024年浙江工业大学
- 2024年典型事故案例警示教育手册15例
- 科研伦理与学术规范 期末考试
- 教师专业成长(课堂PPT)
- 五位一体协同机制建设知识
- 特种设备法律法规以及标准培训课件
- 绘本PPT:可怕的大妖怪
- EN1779-欧洲无损检测标准
- 生态保护红线划定.ppt
评论
0/150
提交评论