版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据技术–导论周可k.zhou@华中科技大学1内容什么是大数据研究背景深入思考23什么是大数据定义1:
大数据是指无法在一定时间内用常规软件工具对其内容进行抓取、管理和处理的数据集合(维基百科定义)Bigdatausuallyincludesdatasetswithsizesbeyondtheabilityofcommonly-usedsoftwaretoolstocapture,curate,manage,andprocessthedatawithinatolerableelapsedtime.---Wiki4什么是大数据定义2:3VBigDataarehigh-volume,high-velocity,and/orhigh-varietyinformationassetsthatrequirenewformsofprocessingtoenableenhanceddecisionmaking,insightdiscoveryandprocessoptimization--Gartner
大数据的4V特性VolumeVolumeVarietyVolume模态多样VeracityVolume真伪难辨VelocityVolume速度极快体量巨大文本视频图片音频到2020年,数据总量达40ZB,人均5.2TB分享的内容条目超过25亿个/天,增加数据超过500TB/天5大数据及其4V特征海量数据规模(volume):TB级PB级快速处理(velocity):快速数据流转和动态数据体系多样数据类型(variety):数据类型繁杂巨大数据价值(value):价值稀疏、多样、不确定值得关注的大数据的若干研究方向分布式数据存储与管理:对大数据进行存储与管理数据挖掘与商务智能:对大数据规律进行挖掘与发现物联网与CPS:产生与形成大数据云计算及服务平台:存储和处理大数据及其业务关注点:海量数据处理=>分布式存储与管理=>云计算=>
数据挖掘与分析=>海量业务处理=>大服务7什么是大数据定义3:
当数据的规模和性能要求成为数据管理分析系统的重要设计和决定因素时,这样的数据就被称为大数据不是简单地以数据规模来界定大数据,要考虑数据查询与分析的复杂程度以目前计算机硬件的发展水平看针对简单查询(如关键字搜索),数据量为TB至PB级时可称为大数据针对复杂查询(如数据挖掘),数据量为GB至TB级时即可称为大数据8什么是大数据定义4:
大数据有两个基本特征不同于传统的数据集:
1.大数据不一定存储于固定的数据库,而是分布在不同地方的网络空间
2.大数据以半结构化或非结构化数据为主,具有较高的复杂性。内容什么是大数据研究背景深入思考9克强指数(Likeqiangindex):耗电量铁路货运量银行贷款发放量英国著名政经杂志《经济学人》认为:克强指数比官方GDP数字更能反映中国经济的现实状况。花旗银行在编制时将各自权重分别设定为40%、25%和35%。12大数据涉及诸多不同的领域
用户生成数据DeepWeb数据多模态内容数据天文气象基因医学经济物理其他领域网络与关系数据13大数据的价值科研价值1998年图灵奖得主、数据库技术奠基人JimGray认为数据驱动的研究将是第四种科学研究范式”TheFourthParadigm:Data-IntensiveScientificDiscovery”大数据已为多个不同学科的研究工作提供了宝贵机遇经济价值麦肯锡全球研究院:大数据可为世界经济创造巨大价值,提高企业和公共部门的生产率和竞争力,并为消费者创造巨大的经济利益著名Gartner公司:到2015年,采用大数据和海量信息管理的公司将在各项财务指标上,超过未做准备的竞争对手20%工业价值分析使用:揭示隐藏其中的信息,例如零售业中对门店销售、地理和社会信息的分析能提升对客户的理解二次开发:创造出新产品和服务。例如Facebook通过结合大量用户信息,定制出高度个性化的用户体验,并创造出一种新的广告模式社会价值例如:2009年淘宝网推出淘宝CPI来反映网络购物的消费趋势和价格动态其他价值…DataisthenextIntelInside.Thefuturebelongstothecompaniesandpeoplethatturndataintoproducts.----著名出版公司O‘Reilly的创始人TimO‘Reilly深网挖掘深空探索2012年我国神州九号进入太空深海探测2012年我国蛟龙号探测水下7000米实现大数据价值的
深度挖据和高度利用!大数据的战略意义大数据的深度资源挖掘与价值利用是国家战略从深空
+
深海深网14大数据的现实需求:感知现在15感知现在:历史数据与当前数据的融合,潜在线索与模式的挖掘,
事件、群体与社会发展状态的感知中国发展指数(物价、环境、健康)需求:掌握现状,如淘宝CPI、环境指数难点:PB级社会媒体数据,百亿级日志数据,结构与非结构数据关联,历史与流式数据并存犯罪线索挖掘需求:发现线索,如罪犯行为轨迹难点:PB级日志数据、EB级监控数据中发现嫌疑人及其行为模式犹如大海捞针问题与挑战:数据规模巨大、模态多样、关联复杂、真伪难辨
现有数据处理方法感知度量难、特征融合难、模式挖掘难15大数据的现实需求:预测未来联合国“全球脉动”(GlobalPulse):利用网络大数据预测失业率与疾病爆发等现象,利用数字化的早期预警信号来提前指导援助项目。问题与挑战:数据交互性强、实时性强、动态演变,导致传统数据计算方法:
数据生命周期的割裂、时效性与准确性难以兼顾、演变趋势难以预测基于Twitter数据的选举结果预测:通过对Twitter等网上公开数据的实时感知、动态获取与综合分析,结合仿真调控,预测大选结果。预测未来:全量数据、流式数据、离线数据的关联分析,态势与效应的判定与调控,揭示事物发展的演变规律,进而对事物发展趋势进行预测1617美国的大数据规划-大数据上升为国家意志2012年3月29日,美国联邦政府整合6个部门宣布2亿美元的“BigDataResearchandDevelopmentInitiative”促进采集、存储、维护、管理、分析和共享海量数据的核心技术;利用以上技术来加速科学与工程发现的步伐,强化国家安全,改变教育和学习;培养开发和使用大数据技术的人力资源。CoreTechnologiesforAdvancingBigDataScience&EngineeringDatatoDecisions1000GenomesProjectDataAvailableonCloudScientificDiscoveryThroughAdvancedComputingBigDataforEarthSystemScienceXDATA18欧盟的大数据规划-基础设施是先导Horizon2020-TheFrameworkProgrammeforResearchandInnovation面向大数据的数据信息化基础设施(E-Infrastructure)是优先资助领域GRDI2020-GlobalResearchDataInfrastructures建立针对科研大数据的基础设施,实现数据管理系统、数字数据图书馆、研究图书馆、数据工具和研究团体的整合FP7Call8IntelligentInformationManagement-BigData预算5千万欧元,2012-1-17截止目标:提升发现、分析、开采、使用大数据及其基础设施的能力通过对大数据收集与分析创造更大价值探索基于大规模互联数据资源与专用基础设施的新型科学研究面向大数据的人力资源开发19学术界对大数据的关注2012年1月,NaturePhysics上出版专刊“Complexity”特别指出大数据为科学研究,特别是复杂性科学的研究提供了史无前例的机遇2008年,Nature出版专刊“BigData”从互联网技术、互联网经济学、超级计算、环境科学、生物医药等多个方面介绍了大数据所带来的技术挑战2011年,Science刊登专刊“DealingwithData”讨论了数据洪流(Datadeluge)所带来的挑战,也特别指出倘若能够更有效地组织和使用这些数据,人们将得到更多的机会发挥科学技术对社会发展的巨大推动作用2012年4月,欧洲信息学与数学研究协会会刊ERCIMNews上出版专刊“BigData”讨论了大数据时代的数据管理、数据密集型研究的创新数据库技术等问题,并介绍了欧洲科研机构开展的研究活动和取得的创新性进展20大数据会议/WorkshopBDA:InternationalConferenceonBigDataAnalyticshttp://cs.du.ac.in/BDA2012/bda12.html2012:12月24-26日,印度;第1届BigMine:WorkshoponBigData,StreamsandHeterogeneousSourceMining:Algorithms,Systems,ProgrammingModelsandApplications/2012:与SIGKDD合办;8月12日,北京;第1届BigDataEurope系列会议/展示大数据实践与方案;加强业界人员交流2012:
Zurich,Vienna,Paris,Frankfurt,London2013:Stockholm,Warsaw,IstanbulBigDataAnalytics2012http://www.whitehallmedia.co.uk/bda/6月20日,伦敦学术会议工业会议内容什么是大数据研究背景深入思考2224大数据总量增长态势25目前大数据的规模IDC公司发布的数字宇宙研究报告称:全球信息总量每两年就会增长一倍,2011年全球被创建和被复制的数据总量为1.8ZB(1021)。IDC认为,到下一个十年(2020年),全球所有IT部门拥有服务器的总量将会比现在多出10倍,所管理的数据将会比现在多出50倍。预计到2020年,全球将总共拥有35ZB的数据量2011年企业创造、采集、管理和储存信息的成本已经下降到2005年的1/6,而同期企业关于数据的总投资自2005年以来却反而上升了50%。数据成本的下降助推了数据量的增长,而新的数据源和数据采集技术的出现则大大增加了未来数据的类型,数据类型的增加导致现有数据空间维度增加,极大地增加了未来大数据的复杂度。26目前大数据规模─示例天文观测数据:SloanDigitalSkySurvey:2000年部署几周收集的数据比历史上收集的数据还多每晚收集200G的数据,已收集了140TB=1.4x105GB的数据LargeSynopticSurveyTelescope:2016年完成部署每5天可收集105GB的数据物理实验数据:LargeHadronCollider:2010年一年产生13PB=1.3x107GB数据互联网数据:Facebook:用户超7亿,每月上传10亿照片,每天生成3x105GB日志数据淘宝:有3.7亿会员,在线商品8.8亿,每天交易数千万,产生2x104GB数据IBM估计:全球每天生成2.5EB=2.5x109GB数据,90%的已有数据是过去两年生成的Cisco预测:到2013年,互联网上的数据将达到667EB=6.67x1011GB27收集的数据还没有实现高度共享和深度利用
2.超大规模:为保证可靠性,需要存储数据副本,实际存储的数据量数倍于净数据量
3.时空属性:包含时间与位置信息
4.模糊高维:数据未必精确和完整:传感器误差,网络中断……
5.数据维度高:例如一次体检可以得到数百项生命体征数据大数据特点28大数据与常规数据的对比常规数据范围广模态多增长快关联繁数据规模较小模态属性受限增长速度较慢关联相对简单稠密与稀疏共存冗余与缺失并在动态与静态互现显式与隐藏均有特性问题描述与存储的挑战分析与理解的挑战挖掘与预测的挑战挑战大数据应用目标相对比较明确数据结构相对比较简单时序长持续时间较短处理方法通常为模型化、参数化
钱学森“综合集成”理论的启示
一个科学新领域------开放的复杂巨系统及其方法论钱学森-戴汝为:“综合集成”(meta-synthesis)科学方法论
“综合集成”可以解读为从定性到定量的科学研讨厅(hallforworkshop)“综合集成”方法论:1+1>2[J].自然杂志,1990大数据时代的软件服务工程
拓新“综合集成的迭代整合”科学方法论“综合集成”可拓展为以科研社交网络的民主形式,从定性到定量的科研整合“定性”:是指面向领域或主题、运用专家的定性智慧,建立大数据处理知识的聚类,形成少数几种可能的大数据价值服务的基本解决方案及其本体。
面向领域或主题的大数据服务的共性需求解决方案“定量”:细化解决方案本体,对同类或异类方案之间的关联,通过语义互操作构造与管理的关联计算,建立大数据处理的基本知识;随着时间与空间的变化,不断吸收与迭代整合:来自历史大数据的知识与基于运行时反射机理的用户网页个性化标注的相关内容,动态演化生长
形成面向领域或主题的大数据服务的富知识从定性到定量整合的科学研讨厅(hallforworkshop)
:支撑领域或主题大数据处理知识的规模化整合及其演化的PaaS(平台作为服务),并接入面向多样价值目标的异域异构大数据服务SaaS(软件作为服务)综合与互操作实现。
PaaS+SaaS厚积簿发:面向领域或主题的富知识,实现在线流式大数据分析的可伸缩、可选择的按需价值服务科学家与鞋匠所见略同“定性”:鞋匠按手工方式做鞋,因各人尺寸各异,觉得鞋子采用个案生产,天经地义;但做到第10000双时,感悟复杂中存在简单,几十种鞋码足以满足大众个
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 医疗风险预警机制
- 2024合同签订注意事项
- 2024应届生注意!当心外企合同的“隐形陷阱”
- 医疗电磁兼容
- 2024至2030年中国带混合管双节气门总成行业投资前景及策略咨询研究报告
- 2024至2030年中国铸造用呋喃树脂固化剂行业投资前景及策略咨询研究报告
- 2024至2030年中国膝关节模型数据监测研究报告
- 2024年转子式海流计项目成效分析报告
- 2024至2030年中国立柜型空调行业投资前景及策略咨询研究报告
- 2024至2030年中国电视通电视盒数据监测研究报告
- 无线网题库——天馈线
- 豆绿色时尚风送货单excel模板
- DB62∕T 4420-2021 淫羊藿栽培技术规程
- GB_T 37918-2019 肥料级氯化钾(高清有效)
- 办公室室内装修工程技术规范
- 消防安全巡查记录台帐(共2页)
- 小学入门数独100题(简单)
- Specification-原材料规格书模板
- 实验室课外向学生开放计划
- 科技特派员工作调研报告
- 2021年电力公司创一流工作会议讲话
评论
0/150
提交评论