大数据技术的发展现状和最新趋势_第1页
大数据技术的发展现状和最新趋势_第2页
大数据技术的发展现状和最新趋势_第3页
大数据技术的发展现状和最新趋势_第4页
大数据技术的发展现状和最新趋势_第5页
已阅读5页,还剩8页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 1大数据技术的发展现状和最新趋势Hadoop的发展历程回顾 2大数据技术的软件栈分布式存储引擎通用计算引擎资源管理框架应用级引擎分析管理工具批处理框架 Map/Reduce2, Tez高性能处理框架 Spark向量处理框架TensorFlow短时任务资源管理框架YARN长时任务资源管理框架Mesos资源隔离调度管理框架Kubernetes分布式文件系统 HDFS分布式大表 HBase搜索引擎 Elastic Search分布式缓存 Redis消息队列Kafka分布式协作服务Zookeeper流处理引擎 Streaming ProcessingSQL批处理 Batch Processing数据

2、挖掘机器学习 算法库框架MachineLearning交互式分析OLAPAnalysis实时数据库 OLTPTransactionalProcessing图分析引擎 Graph Analysis深度学习 Deep Learning 3ETL数据装载工具Workflow工作流开发工具数据质量 管理工具可视化 报表工具机器学习建模工具统计挖掘 开发工具资源 管理工具分布式计算已逐渐成为主流计算方式TransactionRelational DatabaseBatchData WarehouseAnalyzeStreamingDevicesAnalyze(MapReduce)OrganizeTrad

3、itional Data AnalysisBig Data AnalysisUnstructuredClusterTest environment:29 workernodes2 CPUs, 12 Cores, E5-2620 v296GB memoryNetwork: 2 X 1GbpsDisks: 12 X 3TB 40500100015002000250030001TB10TB30TB100TB星环大数据集群已经可以在生产环境中处理20PB的数据星环SQL on Hadoop已经能够高效处理100TB数据的复杂分析 Transwarp Inceptors PerformanceTPC-D

4、S Execution Time for 99 Queries (in minutes)数据分析算法逐渐丰富,工具普及化R和Midas中可以连接 TDH中数据表做数据 预览可以对列做tag/feature的管理通过内置的分布式统 计算法完成相关的预 处理与数据分析支持标准化,归一化, 正则化,缺失值填充, 数据分箱等支持通过Inceptor SQL进行数据ETL处理用户通过GUI选择算 法开发训练模型模型编译成为DAG,由Hubble组件来调度 任务支持单机R算法和分布式算法训练模型导出模型为PMMLPMML模型可以转换成生产系统的代码, 部署到实际业务中Inceptor结合业务领域专家知 识

5、,以及相关算法降 维,选择特征指标与 维度利用深度学习神经网 络算法,通过升维降 低特征工程维度选取 难度StreamDiscoverDeep Learning深度学习模型上生产模型训练RPython语言开发= 算法工程师,数据科学家交互式挖掘= 业务分析师,数据科学家数据预览预处理特征工程Dimension Reduction 主成分分析Linear Regression 线性回归 5炼化厂实时流处理技术推动IoT数据分析能力分布式 队列SQLaggregationmachinelearning usingjava/scala/Rbatch t+1batch t报警data mining o

6、n streams100k records/s/node 1KB/recordtranswarp streamATM现场交易POSPOS刷卡客服智能风机光伏发电飞行参数人流信息 6Streaming processing and batch processing are unified in one programming modelSQL and its extension is the unifieddeclarative language for devicemonitoring and diagnostics.ANSI SQL 2003 and PL/SQL aresupported

7、on streaming events.Linear AlgebraMachine learningUsage cases in IoT & FS:Real-time event monitoring Real-time dashboard & statistics Real-time outlier detection Realt-ime fraud detection 7Hype Cycle for Information Infrastructure 8Hype Cycle for Advanced Analytics and Data Science后Hadoop/Spark时代的技术

8、发展趋势RDBMSTBPBEBbatchinteractivereal-time新技术在四个维度上加速创新数据量Volume驱动力来自结构化数据的不断增加,企业需要性价 比更高的技术方案SQL on Hadoop快速成熟,Big Data Database将替代传 统relational database。传统的MPP分析型数据库将消 失。类型Variety驱动力来自对多种数据类型数据(文本、图片、音频、视频)的存储和分析需求深度机器学习技术(如TensorFlow)快速发展并得到应用,基于GPUFPGA的加速技术逐渐普及。速度从离线处理进步到实时数据处理,特别是IoT的广泛Velocity部

9、署,推动了对实时计算的需求Flink,Apex,SqlStream,Internana,ParStream,Transwarp Stream等新技术,融合了批处理和流处理,提供强大易用的低延时实时计算能力,将逐渐取代现有流处理技术。价值Value从历史统计发展到预测性分析。大数据的真正意义 在于从数据中发现价值。数据挖掘、机器学习、图计算等产品和工具将日益 普及,使用门槛将极大降低,普通业务人员很快能 够自助进行分析建模。DiscoverInceptorTranswarp ProprietaryApache ProjectsStream流处理引擎NoSQL数据库搜索、图计算InceptorPL

10、/SQL批处理交互式分析资源管理 YARN(内置Transwarp Extension)优化存储 HDFS(内置Transwarp Erasure Code)批处理Pig批处理框架MapReduce2实 时 数 据 同 步Data Alive消息队列Kafka工作流Oozie日志采集Flume全文搜索Elastic Search数据集成SqoopTranswarp ManagerDiscoverHyperbase数据挖掘机器学习交互工具HUEGuardian安全管控协作服务Zookeeper交互分析ZeppelinHyperbaseStream 9Hadoop及其生态系统将重构数据处理市场10bn $29bn $2bn$Data Warehouse PlatformDatabase SoftwareExtraction ToolsDWGenerationDWManagementOLTP DBMS/NoSQLETL ToolsOLAP DBMSData AnalyticsBI / Visualizatio n ToolsForecast(IDC)12bn $“Big Data” Predictive Real-time Vertical

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论