大数据处理技术参考架构

上传人：s*** IP属地：天津上传时间：2022-09-03 格式：DOCX 页数：32 大小：330.97KB 积分：25 举报 版权申诉

已阅读5页，还剩27页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、大数据处理技术参考架构金融电字他公司China Finance Computerization Corp.二。一五年十二月1.1 TOC o 1-5 h z 技术目标3技术要求3大数据处理业务场景4大数据处理技术对比6MPPW Hadoc&SPar破术对比 6HADOOgSPAR/术优势 9Hadoo框架又t比 10Hadoo使用情况 11Hadoo疝缘关系 12行业大数据应用场景对比分析 17 HYPERLINK l bookmark0 o Current Document 大数据处理参考架构 19参考架构 19与JavAEE体系又t比 21参考架构运行状态 21总结与思考22附录：名词解释

2、25A 普皇.目兄随着大数据时代的到来，数据由海量拓展为多样，在注重计算速度的同时更加关注挖掘有价值的数据。以IOE体系为核心的数据计算和存储方式越来越不能满足目前大数据处理在性能和成本上的综合要求。为适应对大数据处理的要求, 众多的分布式计算平台随之兴起，在对众多分布式计算平台进行权衡的同时，增强自主创新能力，以满足人民银行对信息技术安全可控的要求。在核心应用自主研发、核心知识自主掌控的氛围下，保障大数据技术达到灵活可用的目标，确保数据和信息的有效、及时，确保信息系统的可靠、灵活。同时，充分的利用开源产品透明公开的关键信息，做到对技术细节的掌控和验证, 开源产品的特点也更能够激发

3、开发者的热情并推进技术的快速变革。在“互联网+”的战略布局下，当利用信息通信技术把互联网和包括金融行业在内的相关行业结合起来时，能够更加合理和充分的利用大数据技术促进互联网金融的健康发展。当前互联网金融的格局中，由传统金融机构和非金融机构组成。传统金融机构的发展方向主要为传统金融业务的互联网创新以及电商化创新、手机APP服务等；非金融机构的发展方向则主要是指利用互联网技术进行金融运作的电子商务企业、P2P模式的网络借贷平台，众筹模式的网络投资平台或F,为促进互联网为有效防范互联掌上理财服务，以及第三方支付平台等。在金融行业新兴业态金融的健康发展，为全面提升互联网金融服务能力和普惠水

4、平, 网金融风险及其外溢效应而提供技术支撑。在金融领域，新生业态层出不穷，金融机构日益多样化，金融资产的流动性快速上升，金融体系的关联度、复杂度大幅提高。金融业的快速发展和创新，使货币政策操作环境、传导渠道发生重大变化。在数据的处理分析上，对原有的宏观审慎分析框架及其有效性、准确性提出了挑战。.技术目标获得最优系统价值，满足大数据的处理性能，节约系统建设成本。充分利用开源产品，做到对技术细节的掌控和验证，以保障大数据技术达到灵活可用。增强自主创新能力，满足人民银行对信息技术安全可控的要求。有效提供技术支撑，适应金融行业新兴业态下对大数据技术的需要。.技术要求在满足海量数据高效处理的同时

5、，对用户的访问能够保持较高的实时性，快速响应用户的请求。采用的大数据技术架构能够支持水平扩展 (Scale-out )，适应未来五年对大数据存储和处理的需要。采用的大数据技术架构能够支持故障的检测和自动快速恢复，确保系统的高可用性。在满足大数据业务场景性能要求的同时，采用更加经济的大数据技术解决方.大数据处理业务场景以统计分析类的业务场景为例，针对大数据的处理主要经过采集、存储、校验、审核、汇总、计算、分析挖掘等过程，在数据粒度上，既要包逐笔的标准化源数据，还要包括不同层次的总量指标数据，从而实现对统计体系业务的全覆盖、无遗漏。统计分析类大数据处理、报表展现和信息发布的典型流程如下图所

6、示：用海地*.rip f还非教惜逐条记谓连个字凡校形处理片况文时直卸校竟给里亚耐报丧策第生或读呢4蜕祠则（DD生成中间表收辕处刑情况实时茂泰J抵毒型与彻值总共卒况茴眩耨：在史，揄仁.工母卜，共享设咻接” J5DN. KML., ）数据町WHt展现管坤理驳舲仅表利黑厘行领导银图）-稗动日I星现管理嚼驶检数据分析闻工指标以沌咫厂冷笑系（DS）V贤布打速,ffi处理苗依咕时查两指，宜工也吐指标计曾，读取本蠢法（06,计班指* 数次处理情.配实时面,由四居七到版汇“村!正辑校心茁取粉相校验规则遛圣圮因控的（stir处理情况实时杳前她，见鼠时台制J统计分析类业务的特点主要包括：在每个处理环节中，均能够

7、为业务操作员提供实时的业务处理情况或处理结果的查询。校验、汇总、计算等环节中，所涉及到的运算规则均定义在数据库或配置文件中，在执行处理之前，需要获取运算规则。在报表数据生成或信息发布环节，能够提供逐笔数据、指标数据、汇总数据和报表数据的实时查询，并能够通过 BI工具访问以上数据。统计类的数据查询多为综合查询，条件通常可由用户在查询前定制，有查询响应实时性、查询条件多样性、查询多表关联性的特点。能够灵活的通过数据挖掘技术对数据进行价值分析，例如：R语言。能够灵活的使用数据可视化技术对数据进行互动展现，例如：ECharso统计系统业务量以每月增量40亿笔进行估算（以每笔1KB估算，约4TB/

8、月增量数据；每笔数据平均包含20个字段），现有存量数据大约在20TB 增量数据在当月5-8日进行校验、审核等处理，数据处理过程希望在T+0完成。实时查询业务为用户随机进行。在使用数据进行分布式计算时，一般情况当月4TB的数据全部参与计算。比较复杂场景之一是逻辑校验部分的算法，按不同的规则，有的规则会使用到当月的全部增量数据参与校验，有的规则会按金融机构维度使用当前机构的历史数据参与校验。5.大数据处理技术对比目前对海量数据进行分布式处理的技术主要分为两类：MPP(Massively Parallel Processing )大规模并行处理技术；MPP技术大多用于数据仓库领域，是将任

9、务并行的分散到多个服务器节点上，在每个节点上计算完成后，将各自部分的结果汇总在一起得到最终的结果的一项技术，典型的代表例如：Teradata , HP Vertica , EMC Greenplurp GBaseOracle Exadata 等。Apache Hadoop Spark 技术。Hadoop&SparM1由Apache基金会所开发的分布式系统基础架构，它所解决的核心问题是，通过部署在低廉的硬件上的、可以协同工作的软件组件，来完成分布式数据存储、高吞吐量数据访问、以及高负载的分布式计算。近些年在众多行业都得到广泛应用。MP叫 Hadoop&Spark技术对比集群规模上，

10、MP豉术支持近百个节点(中国大陆很少有100+节点的案例)。 Hadoop&Spar啦术支持几千个节点。扩容影响上，MPF&术扩容通常导致停机、服务中断；数据需要重新分布，性能严重下降。Hadoop&Spark技术扩容无需停机、服务不中断；数据无需重新分布，新数据自动被分配到新的节点中，性能没有影响。数据分布方式上，MP啦术以预定义数据分布策略，按列进行散列或轮询分布；真实数据通常有倾斜，将导致数据不均匀分布，对计算效率影响较大。Hadoop&Spar啦术中，数据按预配置的块大小自动均匀分布，通过 blockmap映射表查询数据位置；数据分布均匀、扩容无需停机。处理数据量上，MP豉术在

11、数十TB级别。Hadoop&Spark技术在PB级别。容错能力上，MPP技术不存放中间结果，出错时需要重新执行整个任务。Hadoop&Spar啦术存放中间结果，出错时只需要重新运行出错的子任务并发能力上，MP豉术多用于分析型应用场景，数据装载时建立索引较慢；通常不超过数百个并发。Hadoop&Spark技术数据装载快，采用公平调度/配额调度；可支持上亿用户并发数据插入、查询、检索。数据存储对象，MP豉术支持结才化数据，Hadoop&Spark技术支持结构化、半结构化、非结构化数据。应用运算逻辑实现方式上，MPP技术SQL语言，Hadoop&Spark技术支持SQL2003 部分 PL/SQL

12、 R Java、Scala 等。数据访问接口，MPPK术支持JDBC ODBC Hadoop&Spark技术支持JDBCODBC R语言接口等。MPPHadoop&Spark集群规模近百个节点（中国大陆很少有100+节点的案例）几千个节点动态扩展运算能力扩容通常导致停机、服务中断；数据需要重新分布，性能严重卜降。扩谷无需停机、服务不中断；扩容时数据无需重新分布，新数据自动被分配到新的节点中，性能没有影响。数据分布方式数据以预定义的分布策略，按列进行散列或轮询分布；真实数据通常后倾斜，将导致数据/、均匀分布，对计算效率影响较大。数据以预定义的块大小自动均匀分布，通过blockmap映

13、射表查询数据位置；数据分布均匀、扩容无需停机。处理数据量数十TBPB容错能力/、存放中间结果，出错时需要重新执行整个任务存放中间结果，出错时只需要重新运行出错的子任务用于分析型应用场景，数据装载时建立索引较慢；数据装载快，采用公平调度/配额调度；可支持上亿用户并发数据插入、查MPPHadoop&Spark通常不超过数百个并发。询、检索。数据存储结构化数据结构化、半结构化、非结构化数据对象应用运算SQL语言SQL2003 部分 PL/SQL R、Java、逻辑Scala 等实现方式数据访问JDBC ODBCJDBC ODBC R语言接口等接口索引支持支持（rowkey索引、二维索引、全文

14、关键字索引）MPPHadoop&SparkHadoop&Spark技术优势存储、处理、分析PB级别的结构化、半结构化、非结构化数据。低成本运算能力，使用低成本的存储和服务器构建，仅花费40批右价格,便可以达到甚至超越IOE架构的性能。动态扩展运算能力，扩容无需停机、服务不中断，数据无需重新分布，新数据自动被分配到新的节点中，性能没有影响。高扩展能力，集群规模可扩展至几千个节点。高容错能力，数据处理过程中存放中间结果，出错时只需要重新运行出错的子任务。应用运算逻辑，支持 Java、R语言、Scala、SQL200好Hadoop框架对比Apache HadoopCloudera CDHHorto

15、nworks HDP开源程度完全开源部分开源（包含免费版/企业版）完全开源（包含免费版/企业版）技术支持无每年按节点数量收费每年按节点数量收费集群部署复杂容易容易集群监控较易容易容易集群管理较易容易容易专有代码依赖无有（如：管理工具）无Hortonworks HDPApache Hadoop Cloudera CDHApache Hadoop 已经形成生态系统，除了包含HDFSYARN MapReduce 还包含了很多其他Apache项目，如：HBase Hive、 ZooKeeper、Ambari、 Sqoop等等，使用者可以根据需要自由组合。通过添加专有代码实现的 Cloude

16、ra Manager完成集群的部署和管理，并对集群的节点及服务进行实时监控。所有解决方案都通过 Apache Software Foundation 以项目形式开发，HD咕无需专用扩展。避免随着扩展而背离主干，以及随之而来的兼容性问题。Hadoop使用情况根据咨t机构 Wikibon在2014年进行的一项调查，部署 Hadoop的机构中，仅有25溢付费用户，而有51溢基于Hadoop的开源版本自彳T开发，还有24%勺用户则是使用Cloudera、Hortonworks等Hadoop开发商推出的免费版本。-开源版本发行版（免费）发行版（付费）5.5. Hadoop血缘关系

17、HortonworksHDP天云Hzdcop东/了国信HadoopdoopEH QlpEdlCloudera CDHIBM BiginsightsIntel HadoopMapR HadoopEMC Pivotal HD为Futon Insight* 环 Transwarp音智达Ha chop浪潮HadoopIBM BigInsights 是基于Apache Hadoop框架的存储，管理和分析Internet级别数据量的半结构化和非结构化数据的方案，具备企业级管理、工作流管理、IBM InioSphere BigInsights 安全管理、可视化挖掘与展现等能力，能与现有基础设施和大数据流计算

18、技术集成。产品设计思路是基于 Apache Hadoop框架，在保持完全100%Apache Hadoop 兼容的情况下，加入旧M的项目和研究开发的分析能力。整体架构如下图所示：VituMglgn & MrevpfY口ab bo-wd 后iVininFstmtion八寸旧占。口勺。1河壮口9咀可AdartiviAlairnn-nswrunfieajopai miian5ntrRum itii R4口山 SiOl ?I ilg6刑CmApplinations * OwPopTicfitTEHI： PfDC&S5CO*wi ScurrsIbMEMC Pivotal HD 是EMS司进行自主研发

19、的 Hadoop商业化产品，在 2013 年2月独立推出的商业发行版（2013年以前EMC和Map心司在Hadoop领域为合作伙伴）。Pivotal HD 产品包括Hadoop 2.0的MapReduce HDFS可以利用 Hive、HBase Pig开发语言、Yarn资源管理、Mahout分析工具和Zookeeper工Pivotal HD Architecture| Apachevotal HD Added Valuewotal I PartneEEMC具等。还包括 Hardware Virtual Extensions （HVE 组件，它可以让 Hadoop集群知道自己是建立在虚拟机还

20、是物理服务器上。整体架构如下图所示：MapR HadoopH MapR Technologies公司于2011年正式发布的产品，目标是使Hadoop变为一个速度更快、可靠性更高、更易于管理、使用更加方便的分布式计算服务和存储平台，同时性能也不断提高。它将极大的扩大了Hadoop的使用范围和方式。它包含了开源社区许多流行的工具和功能，例如Hbasa Hive。它还100%f Apache Hadoop的API兼容。目前有 M3（免费版）和M5（收费版）两个版本。整体架构如下图所示：MAPRS COMPLETE OrSTRtBUTJON FOR APACHE HADOOP0O!|f?VaTd

21、yafIuitpintegGgaGangliaIntegrationLDAR NISI nUfl rationDKtribirtcd ameNodc HA jobTrackjer HADirect Act正*5 MFS+MapRps High Fcrforrrar匚已 Mapkeduce Direct *ihiijfffpJDirect Acceu NFS1*Realtime 0mtlcjv-MapR VolumesDmtm Pljcemenl ControlLoe a Mirroring,TMMripR Lockless Sturae ServiciesMirroring and Snaps

22、 hotSiCLI, REST APIQuotars. Alcrt&PAlarmsMjpR HtdlmapCascadingMahoutFast大云趋势科技Hadoop解决方案主要基于Hortonworks发行版，同时也提供了对Cloudera Hadoop发行版的支持。整体架构如下图所示:音智达Hadoop解决方案基于Cloudera Hadoop发行版。整体架构如下图所CDHBOCHANALYTICSEARCHMACHINESTREAM3RD PARTYPROCES&NGSQLFNGNEL EARINGPROCESSIMGAPP5忙QikJus S&sntil1*5 Mp:cdue.的 p

23、arti)3rtneMWORKl OAC MANAG F MF N T rw?hiDATA IN TEGR AT ION 曰岬 num*.tiF5)Inter Manager for Hadoop* 软件郎军、配.监控、吉要和要金* 小 g编 pi体浪潮Hadoop解决方案基于Intel Hadoop发行版。整体架构如下图所示:华为 Fusioninsight Hadoop 是完全基于 Apache Hadoop组件构建的 Hadoop产品，在ApacheHadoop版本的基础上对HBase HDFSF口 MapReduce组件增加 tadoop Z IPlug In APIHadoopA P

24、PMZRSparkStormSoIf安全管理Yd r n/ Zcokccocr了 HA查询和分析功能，进行了性能优化，并及时回馈 Hadoop社区，保持版本同步，接口与社区版本完全一致。整体架构如下图所示:星环科技Transwarp Data Hub (TDH基于Apache Hadoop组件构建，并在此基础之上研发了交互式 SQL分析引擎Inceptor、实时NoSQ散据库Hyperbase和Transwarp Manager等引擎。同时支持R语言数据挖掘、机器学习、实时流处理、全文搜索和图计算和系统安装及集群配置功能。整体架构如下图所示：Transwarp ManagerInceptorD

25、iscoverHyperbaseStreamPL/SQL批处理交互式分析数据挖掘机器学习NoSQL数据库搜索、图计算流处理引擎资源管岬YARN 2.5(lAlKiTranswarp Extension)眦处理机器学习工作流教题集成日志采集专潦索PgQ9 Jczie 4.0.1 Scoop 14S Fhtme L4 4.优化有楮HDFS2S(WfiTransarp Erasure Codei眦处理催架M 叩/Reduced协作眼光Zcokeeper 34 5Ira ns warp Propi ktaryAparhf1 Prnjrxts5.6.行业大数据应用场景对比分析工商银行基于MPP勺数据仓库

26、Hadoop & Spark阿里云Teradata信息库建设银行Teradata交通银行TeradataOracle广发银行中国银联民生银行风险控制与交易查询(Cloudera)实时查询采用adoop-HBase大数据分析平台（星环科技）实时查询采用基Hadoop-HBase的星如yperbase数据仓库（星环科技）恒丰银行实时查询采用基Hadoop-HBase的星如yperbase北京银行上海银行天弘基金众安保险新华保险中国联通美团网历史明细数据查询、司法查询（东方国信）核心系统及数据分析核心系统及数据分析核心系统及数据分析精准营销分析（Cloudera ）通话及短信息记录舆情分析（东方国信

27、）大数据分析平台（Apache）实时查询采用adoop-HBaSeMySQL6.大数据处理参考架构参考架构结合统计分析 Weg用的数据处理典型场景，在Hadoop&Spark开源框架中, 分布式文件系统HDFS资源调度引擎YARN内存计算引擎Spark、挖掘分析引擎SparkR、分布式迁移引擎Sqoop等较为符合统计类应用场景。分布式文件系统HDFS是Hadoop体系中数据存储管理的基础，也是高度容错的系统，能检测和应对硬件故障，用于在低成本的通用硬件上运行。资源调度引擎YARN是通用资源管理系统，可以为上层应用提供统一的资源管理和调度。计算引擎MapReduce用以进行大数据量的计

28、算。Hadoop的MapReduceW Common HDFS起，才成了 Hadoop发展初期的三个组件。分布式数据仓库 Hive是建立在Hadoop基础上的数据仓库架构，为数据仓库的管理提供的主要功能包括：数据ETL工具、数据存储管理和大型数据集的查询和分析能力。分布式协作服务 ZooKeeper-,提供了统一命名服务、状态同步服务、集群管理、分布式应用配置项的管理等。ZooKeeper通过封装好复杂、易出错的关键服务，将简单易用的接口和性能高效、功能稳定的服务提供给用户。分布式迁移引擎Sqoop主要作用是在结构化数据存储与Hadoop之间进行数据交换。Sqoop可以将一个关系型数

29、据库（如：MySQLDB2等）中的数据导入 Hadoop的HDFS Hive中，也可以将HDFS Hive中的数据导入关系型数据库中。内存计算引擎Spark是与Hadoop相似的开源集群计算环境，Spark启用了内存分布数据集，基于内存进行分布式计算，除了能够提供交互式查询外，还可以优化迭代工作负载。配置管理监控服务Ambari是基于 Webfl勺工具，用于配置、管理和监视Hadoop集群，并支持HDFSMapReduceHive、ZooKeeper、Sqoop等框架。Ambari还提供了集群状况仪表盘，以及查看MapReduce Hive应用程序的能力，以友好的用户界面对它们的性能进行

30、诊断。下图基于Apache Hadoop的开源框架，给出了大数据处理的参考架构。WebJ逆用取和果很数略分析信息齿如2SQL引华 hkemSiwk Strcami分布式数据库计算引箪M 单Min*分布式迂移引9 SqOop，孽 kn上报数据校验小校分布式依据仓库 Hive现也塞线数据流式泞翼投押价析内存i。引呈Spark资源调度引擎YARN：”I系城HDF5统计类系统数据处理流程主要包括以下步骤：采集（解压报文等文件操作）-校验（每笔数据各字段的格式校验、各笔数据之间的逻辑关系校验等）-审核（与历史数据的比对，同期/上期；或执行自定义审核SQL算法等）-汇总计算（指标计算、数据汇总等

31、）-查询-数据分析-报表-信息发布。结合统计类系统的处理流程，对于现有系统的数据，可以通过分布式迁移引擎 Sqoop将数据同步至分布式文件系统HDFSfr加以分析利用。对于采集数据的校验审核、汇总计算等应用功能，可以通过分布式数据仓库 Hive或直接内存计算引擎Spark进行异步计算和处理。对于数据处理过程中的状态跟踪和监控以及简要的信息发布，可以通过分布式数据库HBase直接从HDFSt获取相应的信息。JavaEEWeb./6.2.与JavaEE体系对比Web应用数据持久层UII通过下图的对比不难看出,大数据处理参考架构中的各类引擎主要是拓.|业务逻辑层一；vaEE体系中业YARN

32、6.3.参考架构运行状态通过下图的能够看出，参考架构在运行时，各引擎在主机节点中均会有对应的进程，YARN勺集群在运行时提供了资源的调度和管理， ZooKeeper的集群在运行时为各引擎提供了高可用的保障。Spark引擎中的进程分为 Master和Worker, 当节点故障时，由协作服务 ZooKeeper进行Master切换，保障Spark的持续可用。Web应川Webiik1IJWeb应用Web应用Web应用Hosl 2Host 3Host 1Host NClusterMasterooKeeCluster331HDFSHDFSHDFSSparkworkerooKeeperMaster7.

33、总结与思考大数据是指不用随机分析法（如：抽样调查）这样的捷径，而采用所有数据进行分析处理。大数据的主要特点包括：海量的、高增长率的（Volume）,数据处理模式的高效性（Velocity ）,数据来源、种类的多样化（Variety ）,待探勘的数据价值（Value）。从业务角度来看，在数据来源和种类多样化的环境中为了能够更加深入的对数据价值进行探勘，还需要注重以下几方面：.数据来源的准确。大数据应用的核心是挖掘数据价值，而挖掘数据价值的前提是数据来源的准确性。没有准确的数据来源，很难得到有价值的结果。.数据质量的持久。为了充分挖掘大数据的价值，业务系统必须持久的保证数据质量。高质量的数

34、据不仅仅体现在质量管控，更要有持续的治理。业务系统中需要有完善的数据质量管理流程，能够作用于数据生命周期的不同阶段。.数据标准的一致。大数据在挖掘分析之前需要先将数据标准化，利用标准化后的数据进行分析。单个业务系统内部的数据标准化主要体现在数据无量纲化处理，即：解决数据的可比性（如：指标数据的定性转定量处理）。多个业务系统之间的数据标准化主要体现在数据的公共维度所遵循标准的一致性上。业务系统在规划阶段，必须充分使用人民银行公共代码规范，将业务数据的公共维度与规范统一，并遵循人民银行信息技术标准体系。.数据价值的探索。在大数据时代中业务系统已经逐渐由功能是价值转变为数据是价值，对大数据

35、价值的挖掘是探索性的。大数据的出现填补了无数的空白，面对海量的、高增长率的、种类多样化的大数据仅采用传统的数据分析方法是不够的，需要采用大数据的思维模式，例如：由传统的因果思维转变为相关思维，深入的探索数据的关联性。从而能够更加有效的进行预测分析、辅助决策，为央行履职提供更强有力的支撑。面对海量、高增长率、多样化信息资产的诸多特点，在技术上我们需要引入新的处理模式以具有更强的决策力、洞察发现力和流程优化能力。结合统计分析类业务在数据处理和数据展现环节的特点进行分析以及对原型系统的测试情况，数据处理环节采用Hadoop&Spark技术较为适宜，主要包括：采集（解压报文、每笔数据各字

36、段的格式校验等文件操作）、校验（各字段的合规校验、数据之间的逻辑关系校验等）、审核（与历史数据比对，同期/上期；或执行审核SQL算法等）、汇总计算（指标计算、数据汇总等）各环节处理情况监控、以及挖掘分析（基于全量数据）、数据存储（TBPB、数据整合加工和数据分发。数据展现环节采用关系型数据库集群技术较为适宜，主要包括：报表、综合查询（具有实时、多表关联、自定义条件或表样的特点）、多维分析（如：维度表、事实表）。在研发能力方面，现有的技术团队在 Hadoop&Spark技术方面的技能和经验比较欠缺，特别是大数据相关的技术正处于成长阶段，技术团队丰富的实践经验尤为重要，否则难以快速响

37、应和处理突发问题。具有大数据处理需求的系统在建设过程中，可以考虑通过与实施经验丰富的、有较强的自主研发能力的大数据技术平台厂商或技术团队进行合作。一方面，能够通过借鉴外界成熟的实践经验,来应对研发能力不足所带来的风险；另一方面，能够引入外界技术力量对系统研发过程进行指导，促进大数据技术团队的组建。附录：名词解释大数据：由维克托迈尔-舍恩伯格和肯尼斯库克耶在2008年8月提出，大数据指不用随机分析法（如：抽样调查）这样的捷径，而采用所有数据进行分析处理。全球最具权威的IT研究与顾问咨询机构Gartner将大数据定义为，需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的

38、海量、高增长率和多样化的信息资产。旧M提出大数据的5V特点，Volume（大量）、Velocity（高速）、Variety （多样）、Value （价值）和 Veracity （真实性）。2015 年 8 月国务院在促进大数据发展行动纲要中指出，大数据是以容量大、类型多、存取速度快、应用价值高为主要特征的数据集合，正快速发展为对数量巨大、来源分散、格式多样的数据进行采集、存储和关联分析，从中发现新知识、创造新价值、提升新能力的新一代信息技术和服务业态。互联网+: “互联网+”是把互联网的创新成果与经济社会各领域深度融合，推动技术进步、效率提升和组织变革，提升实体经济创新力和生产力，形成更广泛的以互联网为基础设施和创新要素的经济社会发展新形态。IOE:指服务器提供商旧M,数据库提供商Oracle ,存储设备提供商EMC勺简称。互联网金融：是传统金融机构与互联网企业利用互联网技术和信息通信技术实现资金融通、支付、投资和信息中介服务的新型金融业务模式。P2P借贷：peer to peer网络借贷的一种模

人人文库> 全部分类> 行业资料 > 信息产业

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

大数据处理技术参考架构

文档简介

温馨提示

最新文档

评论

大数据处理技术参考架构

文档简介

温馨提示

最新文档

评论

相关文档