中国大数据技术大会:大数据基础技术的演进趋势_第1页
中国大数据技术大会:大数据基础技术的演进趋势_第2页
中国大数据技术大会:大数据基础技术的演进趋势_第3页
中国大数据技术大会:大数据基础技术的演进趋势_第4页
中国大数据技术大会:大数据基础技术的演进趋势_第5页
已阅读5页,还剩44页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 介绍中国大数据技术大会前身是Hadoop中国云计算大会描绘大数据领域内的技术热点,沉淀行业实战经验,见证整个大数据生态圈技术的发展与演变提出学习的方法:找个平台看看我们能做什么,而不是闷头看书技术热点:Spark、机器学习(尤其是大数据平台上的深度学习)、流数据处理和实时快速分析以及在Hadoop上的快速SQL接口大多数在讲公司的平台架构和一些公司用的开源项目2015年大数据基础技术的演进趋势星环科技CTO孙元浩的演讲主题是“2015年大数据基础技术的演进趋势”。期间,他一共总结了四大趋势:SQL on Hadoop技术对SQL支持的完整度和性能大幅提升,混合架构将逐渐消失从In-Memor

2、y Computing 转向 On-SSD Computing,固态盘将替代内存作为缓存数据产生的速度以及处理的速度要求都在快速提高,实时大数据技术得到关注虚拟化技术的快速演化与Hadoop技术的日益平台化,云计算与大数据终得融合期间,他分享了Spark的一个数据:全球已有近50家企业围绕Spark提供产品和服务,11家提供商业Spark版本。一、混合架构逐渐消失混合架构1、Hadoop离线处理非结构化的数据,对于结构化的数据用关系型数据库协助2、数据量小的时候,大家发现Hadoop的性能不如传统的MPP数据库一、混合架构逐渐消失Impala-类似于MPP的引擎Tez-吸收了Spark的一些设

3、计思想。TranswarpInceptor-基于Spark开发的SQL引擎,目前支持SQL2003,支持函数、游标等功能SparkSQL和DrillSpark会成为一个主流一、混合架构逐渐消失Hadoop的SQL支持程度已经接近MPP数据库现在Hadoop性能可以超过MPP若干倍传统的BI厂商都已经转向Hadoop,Hadoop系统的BI工具也越来越丰富,还有一些新兴的创业公司在Hadoop上开发全新的BI工具,这些工具原生支持Hadoop,从这个角度来讲Hadoop的生态系统将很快超越传统MPP数据库。现状:SQL支持仍然不够完整,而通过Spark可以快速并行化SQL,SQL支持的完整程度可

4、以快速提高。同时,通过Spark引擎我们证明新引擎性能可以超过MPP数据库。我们发现一个事实现在Spark成为最受欢迎的计算引擎二、内存可以被大容量的SSD取代做缓存SSD 价格便宜,速度也很快,相对于内存,性价比还是很高的现有的TXT和行列混合等文件格式不足以利用SSD的高性能如果使用SSD,还需要为SSD设计专有的数据格式两个趋势:基于磁盘的Hadoop借鉴内存数据库的经验设计新格式为SSD优化现有的内存数据库为SSD优化三、实时大数据的技术得到更多关注三、实时大数据的技术得到更多关注随着现在传感器网络、物联网的发展,数据产生的速度越来越快,当然在互联网里面早就有实时数据产生,使得实时大数

5、据的技术慢慢开始得到更多的关注,我们预计明年有更多的应用。Hadoop Storm 融合架构Lambda Architecture(没有实战经验,所以好多理解不了各种问题、优缺点)四、云计算和大数据终于可以融合起来让Hadoop成为一种服务(东西太多)虚拟机帮助快速部署已经得到了时间的验证,这种方式把一台机器拆分到很多小机器,每台机器给用户使用。大数据觉得一台机器不够,我需要上千台、几百台机器组成一台机器处理。这个怎么融合起来,是不是我把虚拟机替代物理机做成了一个集群?这个尝试基本上都是失败的,因为IO的瓶颈是非常严重的,特别是在虚拟机跑大数据应用,CPU利用往往达到99%,很少有人在虚拟机上

6、把CPU用到99%,这样对hypervisor是很大的考验,稳定性成为一个大问题。最近一两年虚拟化技术在快速发展,不亚于一场新的技术革命。首先轻量级的Linuxcontainer技术出现,container之间可以做资源隔离,这使得虚拟机变得非常轻量级。很快一家公司叫做Docker发现应用打包迁移安装还是不方便,所以做了一个工具,使得你做应用打包迁移非常容易。大家发现还不大够,因为我要创立单个container或者单个应用比较容易,但是多个container应用就很麻烦。谷歌开发一个开源项目叫做Kubernetes,简化了创建container集群的任务,你可以非常方便的创建Hadoop集群,

7、也可以创建传统的应用,提供多container集群的部署同时也提供一些基础服务,比如说一些调度服务,这开始具备分布式操作系统的雏形。另外一个方向像大数据领域去年推出Hadoop2.0资源管理的框架YARN,这个确实是革命性的,因为把资源管理放在最底层,在上面可以跑多种计算框架,我们觉得可以一统天下了。随后大家发现YARN资源隔离做得不够好,内存磁盘IO没有管好。因此Hortonworks尝试把GoogleKubernetes作为YARN的一个ApplicationManager,内部用Docker进行资源调度。而另一家公司mesosphere异军突起,以mesos为资源调度核心,以docker

8、作为container的管理基础工具,开发了一套分布式资源管理的框架,提出了数据中心操作系统的概念。这家公司最近融资了数千万美元。尽管底层技术在快速变化,但不妨碍一些公司已经提供HadoopasaService的服务,例如AltiScale,BlueData,Xplenty等。大家看到在这个领域过去一两年发生了革命,从底层虚拟化技术到上层都在发生非常大的变化。逐渐引出了数据中心操作系统的概念。我们把数据中心操作系统分成三层,最底层就跟操作系统内核是一样的,可以方便的创建方便销毁计算资源,包括对CPU网络内存存储进行处理。同时我们还需要多个服务之间能够发现这种机制,这种机制是目前还是缺乏的,我们

9、需要在这一层继续往上加一些基础服务。再往上是平台服务,我们可以创建Hadoop、Spark等我们可以部署这样传统应用。这种架构提出来我们发现现在市场上有几种,两个技术方向,我们不知道哪一种会获胜。一个方向是把YARN作为资源调度的基础,Kubernetes作为运行在YARN上的某一个应用框架,但实际上Kubernetes是和YARN并列在同一层的。另外一个技术方向是把调度器抽象出来作为plugin,例如YARN和mesos都可以作为Kubernetes的调度器,当然也可以实现自己的调度程序;使用docker或者coreOS进行container的管理,而hadoop等分布式服务运行在Kuber

10、netes之上。对下能够提供资源隔离和管理,对上面能够提供各种服务,包括Hadoop生态系统的各种服务,这个可能是明年的主流趋势,现在还很难判断谁会获胜,但是我更倾向于第二种,我们可以首先尝试这两种方案,看哪种方案更有生命力。ML on Big Data-大数据机器学习深度学习-余凯深度学习适合大数据第一方面,深度学习模拟了大脑的行为。一开始做深度学习这帮人,他们的想法受到卷积神经系统网络的影响,在80年代受到了神经科学家对于视觉神经系统理解的影响第二,从统计和计算的角度来看,深度学习特别适合大数据第三,深度学习是End-to-end学习第四,深度学习提供一套建模语言大数据时代传统深度学习的误

11、区统计分析机器学习系统效果A-数学模型不完美E-数据不完美O-算法不完美大数据时代传统深度学习的误区随着数据规模的扩大,从推广误差的角度来说,传统的深度学习研究中存在着一些误区:从Approximation error的角度来说,过去我们认为简单的模型就是好的,但实际上简单的模型是不够好的,随着机器的增多,参数越来越多,模型越来越复杂,是大趋势,过去认为简单的模型是好的这是错误的观念从Estimation error的角度来说,为了保证数据的精确,应该收集充分的数据从Optimization error的角度来说,通常是学术界的观点是,开发研究非常精致的优化算法,但是这些算法存在一个大问题:不

12、能覆盖大数据。比如,SVM的复杂度是在数据二次方到三次方之间的复杂度,今天处理一万个训练样本没问题,但是如果变成十万个训练样本,你需要一百倍到一千倍的计算资源,这是灾难性的问题,所以在大数据的时代,工业界反而要倡导的是desgin “an OK algorithm”Experience-Centric Software Defined Infrastructure Platform网络的延迟一直是互联网面临的难题,没有一个很好的办法来解决。但是随着以下三项互联网技术的发展,使得改善用户的互联网体验成为了现实:企业可以从用户端提取细颗粒信息软件定义的迅速发展大数据的实时技术发展。Experien

13、ce-Centric Software Defined Infrastructure Platform(方向?)网络的延迟一直是互联网面临的难题,没有一个很好的办法来解决。但是随着以下三项互联网技术的发展,使得改善用户的互联网体验成为了现实:企业可以从用户端提取细颗粒信息软件定义的迅速发展大数据的实时技术发展。提取细颗粒信息我们知道现在从网上看视频,或者下载一个APP看视频,这个过程中我们浏览的视频,下载的视频都会被收集起来。服务商可以通过在软件植入代码来实现。这样就可以获得用户的一些基础信息。软件定义根据用户客户端数据的反馈(卡断率、失败率等),实时分析出合适的码流路径,使得视频流畅不同参数

14、质量好坏对于一个服务器来讲在不同时间是不一样的,所以没有一个固定路径是最好,而且没有一个固定的指标是一个路径比另外一个路径绝对好引进冗余实时的大数据技术和算法这个算法就是概念上是一个很简单的概念,做起来稍微复杂一点。概念是什么概念?如果我们把每一个网上的视频都在采样,就像我们在北京每辆车上都装一个摄象头,知道他车速是什么情况?我车越多,但是我路上没有摄象头,车越多我的路况了解就越多,我要知道北京所有车的速度怎么样,我就基本上知道北京路况是怎么样。但是卡车和出租车走的速度是不一样,也许你骑摩托车和坐卡车的速度不一样。细分起来找一个概念是这样的,比如说这个会场里面大家看一个直播的视频,现在有一个新

15、的人来看,用哪一条新的路径去选?算法我就不深入去讲了,但是我想说一两个,你观察数量越多,观察颗粒越细,采集数量点越大,你最后达到预测的效果越好。Experience-Centric Software Defined Infrastructure Platform观察数据越多,粒度越细,效果越好(车辆越多,观察的东西越多,越能知道路况)实时才能控制,不实时只能分析(Spark做实时处理)大数据技术核心大数据系统面临的严重挑战大数据系统核心技术简介 数据流与大数据引擎的创新(从系统软件的角度讲,理解不了)大数据系统引擎面临挑战大数据系统核心技术简介数据流与大数据引擎的创新以堵为主?还是以疏为主?数

16、据流关键技术之一数据流关键技术之二流水线并行Watson大数据与分析平台Watson得名于IBM创始人Thomas J. Watson,在2011年IBM 100周年之际,Watson参加了Jeopardy危险边缘电视游戏节目,在经历了三轮的比赛后,最终赢得了冠军。Watson并不是一台机器,是一个集群,一共有2880个节点。设计目标是能解答人类语言自然表达的提问,懂得分析大量非结构性数据,拥有自我学习能力, 并能实时回应的计算机。目前在医疗、金融、跨行业应用和云端服务中都有所应用BM Watson 大数据与分析技术: DeepQABM Watson 大数据与分析技术: DeepQA分析提问:

17、UIMA, 分析大量结构化数据,双关语、隐含信息等从大量结构化、非结构化数据中获取信息结果评分,给出答案BM Watson 大数据与分析技术: DeepQABM Watson 大数据与分析技术: DeepQABM Watson 大数据与分析技术: DeepQASpark是Hadoop生态中新的处理引擎和分析引擎在戴金权看来,Hadoop将MapReduce分布式计算和大数据技术带入主流应用。但随着大数据需求和使用模式的推广,Hadoop已经暴露诸多局限性。特别是越来越多的数据应用,如需要对数据进行准实时的深度挖掘和分析时,业内需要超越MapReduce的全新大数据分析模式。也正是看准了Spar

18、k的发展趋势,英特尔早在2-3年前就已经和UC Berkeley一起紧密合作,围绕Apache Spark做出大量贡献。Next-Gen Big Data Analytics using the Spark stack相比MapReduce,Spark在这些需求中极有优势:对不同来源、不间断输入数据进行准实时的流式处理;对海量数据,使用大规模、复杂的机器学习和图计算,进行深度挖掘和分析;使用分布式高速内存数据缓存,以支持交互式、迭代计算和数据分析。Next-Gen Big Data Analytics using the Spark stackSQL Processing on Spark: Hive on SparkSpark as a new execution engine for HiveSmooth migration for existing Hive usersCombine the strength of Hive and Spark Support full Hive feature set Utilize Spark as the powerful ex

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论