




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1/42基于云平台(云数据)?大数据描述理论、处理与分析架构、应用领域?
大数据研究现状探讨沈来信2013年12月20日2/42大数据是是数据库库的自然然延伸?忘不掉ACID,舍不得得Relation,忽视实实际应用用潜意识地地奉行““一招鲜鲜”(OneSizeFitsAll)结构化+半结构化化/非结构化化数据((二八原则则)管理和处处理需求求--落实“OneSizeFitsaBunch””--查询/检检索/统计/挖挖掘--离线/在在线/即即时/连连续--本地/远远程/“云”?可回溯的的可视化化分析--事务型与与分析型型--多领域应应用(教教育、医医疗、交交通……)大数据常常用的处处理框架架流处理((直接处处理)和和批处理理(先存存储后处处理)流处理:数据持续续到达,,速度快快,规模模巨大,,不永久久存储,,数据不不断变化化--》难以掌握握全貌;;代表的开开源系统统:Twitter的storm、Yahoo的S4、Linkedin的kafka批处理:MapReduce1)将问题分分而治之之2)把计算算推到数数据而不不是把数数据推到到计算,,避免数数据传输输过程中中产生的的大量通通信开销销3/425/420-大数据与与云计算算、云平平台Hadoop(数据密密集型分分布式应应用,Apache)--分布式数数据处理理MapReduce(并行计算算框架)--分布式文文件系统统HDFS(google的DFS基础上))--分布式数数据库Hbase(Nosql,列,BigTable)--数据仓库库工具Hive(Facebook)--分布式锁锁Zookeeper(Facebook)--大数据分分析平台台Pig(提供多多种接口口)--管理工具具Ambari(监控、部署、、管理)--Sqoop:在集群与与传统数数据库间间的数据据传递00分分布式式集群Hadoop6/4201并并行计计算框架架Mapreduce7/4202分分布式式文件系系统HDFS8/4203分分布式式NoSql列列数据库库Hbase04数数据仓仓库Hive05脚脚本语言言PigGoogle后Hadoop时代的新新三驾马马车Dremel:web数据级别别的交互互式数据据分析系系统列存储、、多层次次查询树树,毫秒秒级海量量数据分分析Caffeine:为Google网络搜索索引擎提提供支持持,能够够更迅速速的添加加新的链链接到自自身大规规模的网网站索引引系统中中,丢弃弃MapReduce转而将索索引放置置在分布布式数据据库BigTable上Pregel:主要绘绘制大量量网上信信息之间间关系的的“图形形数据库库”13/421-Brighthouse:AnAnalyticDataWarehouseforad--hocQueriesPVLDB’08DominikSlezak,,Infobright,,inc..,PolandAnAnalyticDataWarehouseforAd--hocQueriesColumn--orienteddatawarehousewithautomaticallytuned(基于列列的自调调整数据据仓库))Datamanagement:DP、DPN、KN粗集Roughset++粒度计算算GranularComputing知识网格格KnowledgeGrid优化与执执行OptimizationandExecution14/42DP(DataPack))、DPN(DataPackNode)、KN(KnowledgeNode)15/42行存储、、列存储储比较数据块((DataPacks)知识网格格(KonwledgeGrid)18/42知识网格格(KonwledgeGrid)19/422-Starfish:ASelf--tuningSystemforbigdataanalyticsCIDR’11-HerodotosHerodotou,,DukeUniversityTimelyandcost--effectiveanalytics(及时,,效益))ASelf--tuningsystem(自调整整)BasedonHadoop(基于Hadoop)ExtensibleMapReduceexecutionengine(可扩展展)Pluggabledistributedstorageengines(插拔式式)MAD(吸引力力Magnetism\灵活Agility\深度Depth)20/423希尔伯特特技术HilberttechnologyHilberttechnologyOrganizing&Analyzing;Large&Media;Patented;Costeffective;Search;Clustering&Categorization;DataConsolidation;DataQualityUltraHigh-Speed;SmartProcesses;Ad-hocFlexibility;Scale&ConsolidateSpeed;Flexibility;Smartness;Scalability25/4227/424-Extreme-PointSymmetricModeDecompositionMethodforDataAnalysis极点对称称模态分分解方法法;在HHT基础上四点创新新:-使用更多多个内插插值曲线线去实现现筛选过过程(1,2,,3…)-最后的剩剩余作为为最优曲曲线,拥拥有一定定数目的的极值点点,而不不是带有有自多一一个极值值点的一一般趋势势-使用极值值点对称称取代包包络线对对称-使用基于于数据的的直接插插值方法法去计算算瞬时频频率和振振幅-确定一个个优化全全局平均均曲线时时,使用用的自适适应方法法,比一一般的最最小二乘乘法和平平均运行行方法要要好;-确定瞬时时频率和和振幅,,用的是是直接的的方法,,比希尔尔伯特谱谱更好-这些将提提高自适适应的数数据分析析,可用用在大气气和海洋洋科学、、信息学学、经济济学、生生态学、、医药、、地震等等领域4.1-经验模态态分解EMD(EmpiricalModeDecomposition):EMD方法在理理论上可可以应用用于任何何类型的的时间序序列(信信号)的的分解该方法的的关键是是它能使使复杂信信号分解解为有限限个本征征模函数数(IntrinsicModeFunction,简称IMF),所分分解出来来的各IMF分量包含含了原信信号的不不同时间间尺度的的局部特特征信号号。EMD分解方法法是基于于以下假假设条件件:(1)数据至至少有两两个极值值,一个个最大值值和一个个最小值值;(2)数据的的局部时时域特性性是由极极值点间间的时间间尺度唯唯一确定定;(3)如果数数据没有有极值点点但有拐拐点,则则可以通通过对数数据微分分一次或或多次求求得极值值,然后后再通过过积分来来获得分分解结果果。经验模态态分解的的基本思思想:将将一个频频率不规规则的波波化为多多个单一一频率的的波+残波的形形式。原原波形=∑IMFs++余波。4.2-筛选过程程(Sifting)这种方法法的本质质是通过过数据的的特征时间间尺度来获得本征波动动模式,然后分解数据据。这种分分解过程程可以形形象地称称之为“筛选(sifting)”过程。分解过程程是:-找出原数数据序列列X(t)所有的的极大值值点并用用三次样样条插值值函数拟拟合形成成原数据据的上包络线线;-同样,找找出所有有的极小小值点,,并将所所有的极极小值点点通过三三次样条条插值函函数拟合合形成数数据的下包络线线-上包络线线和下包包络线的的均值记记作ml,将原数数据序列列X(t)减去该该平均包包络ml,得到一一个新的数据据序列hl:X(t))-ml=hl由原数据据减去包包络平均均后的新新数据,,若还存存在负的局部部极大值值和正的的局部极极小值,说明这这还不是是一个本本征模函函数,需需要继续续进行“筛选”。4.3-EMD实例—金融1例如沪指指的IMF如下图所所仅仅示示意的最最后4个低频IMF函数序列列:上图中的的IMF1----IMF3叠合起来来,就基基本可以以重构出出沪指的的走势::基本与与股指一一致,类类似与一一根均线线。4.4-EMD实例—金融2从上面的的分解到到重构的的过程看看:其实实就是个个减法到到加法的的过程,,减法求异异,剥离出频频率(周周期)大大致相同同的IMF,而加法求同同,回到到原波形形。余波其其实是个个趋势线线,即频频率极低低(周期期很长))的波,,可以看看成是个个基底,,其它IMF都建筑在在它之上上。4.4-EMD实例—金融3有意思的的是,筛筛选出的的本征模模函数IMF(包括余余波)可可以代表表实在的的物理意意义,即即其震动动模式必必然地对对应有物物理成因因。而在在股指分分解出的的IMF则应该对对应宏观观经济成成因。比比如第一幅图图中的IMF2就与CPI或PPI走势几乎乎一致,且周期也一一致;而IMF1则与平滑滑后季度度GDP增长率基基本一致致,也与与发电量量或工业业增加值值的大趋趋势大体体一致。也就是说说,这种种新颖的的技术分分析也得得出:股指是反反映宏观观基本面面的。我国的的CPI这10几年来一一直遵循循大概42个月的循循环规律律,可以以用一个个正弦波波形象之之。而IMF则是几个个正弦波波的复合合结果。浮动频率率法仅是是找出信信号序列列中的实实际频率率,而IMF是既找出出浮动频频率也找找出包括括不同振振幅的复复杂信号号序列中中的震动动模态序序列。IMF更接近实实际的时时间序列列。尝试试把二者者结合起起来是个个可能的的路径。。PerformanceofESMD_IPerformanceofESMD_varianceratiov一些想法法与困惑惑Hadoop++Brighthouse?Dremel++Caffeine?云计算与与大数据据如何结结合?网网格计算算与大数数据?大数据OLAP方案?大大数据OLTP方案?大数据到到底是什什么?如如何表述述与建模模?大数据的的理论基基础?大大数据可可计算的的基础理理论?重要扩展展与证明明“大数数据的正正确性””与应用用的“出出错根源源”能量、绿绿色计算算、安全全?领域应用用与大数数据的计计算理论论希尔伯特特空间--勒贝格测测度--优美图--标号--大数据WSN测测量+大大数据++领域应应用?国家基金金面上项目/国家基金金重点项目/国家基金金重大项目国家基金金超级大大项目国家基金金委主任任杨卫半半年来的的足迹::-3月12日卸任浙浙大校长长任基金金委主任任;-5月
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 球场租赁协议书范本
- 授权合作销售协议书
- 智慧乡村开发协议书
- 特价商品协议书模板
- 戒酒协议书手写模板
- 消防管道合并协议书
- 集训学校安全协议书
- 食堂承包协议书封面
- 师徒结对协议书课题
- 诊所护士就业协议书
- 温州市十校联合体2022-2023学年高二下学期期中联考化学试题含答案
- 企业员工爱岗敬业培训课件
- 数字美的智慧工业白皮书-2023.09
- 行政管理学教案
- 南京郑和外国语学校小升初数学期末试卷测试卷(含答案解析)
- 古扎拉蒂《计量经济学基础》(第5版)笔记和课后习题详解
- 2023年-2024年电子物证专业考试复习题库(含答案)
- 小学语文跨学科学习任务群学习任务设计策略
- 新人教版七年级下册语文现代文阅读理解及答案
- Matlab在信息光学中的应用课件
- 人教版小学语文1-6年级古诗词目录-按年级
评论
0/150
提交评论