大数据平台解决方案规划_第1页
大数据平台解决方案规划_第2页
大数据平台解决方案规划_第3页
大数据平台解决方案规划_第4页
大数据平台解决方案规划_第5页
已阅读5页,还剩134页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据平台处理方案规划天云科技11月第1页第2页议题大数据平台概述大数据平台架构多类型数据集成大数据混合式存放架构IaaS层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业处理方案 第2页第3页大数据平台概述 大数据平台主要经过集成中国联通内部运行支撑系统和外部数据,包含交易型大数据(Big Transaction Data)和交互型大数据(Big Interaction Data),经过各种云计算技术将之集成和处理,向中国联通内部和外部企业客户提供有极大商业价值信息支撑和智能处理方案。第3页第4页大数据服务能够在哪些方面为企业客户提供价值?风险控制物流其它物流监控物流优化物流

2、预测关键点监控预警绩效监控使整个企业进入大数据智能时代第4页第5页大数据服务面向三类企业客户Data Warehouse as a ServiceStep 2Step 3 面向起步型企业,数据规模较小,而且难以负担建设分析型系统投入成本,没有深入分析需求,手工即可分析。伴随企业成长能够使用更高级服务面向成熟一些中小型企业,数据规模中等,单独建设系统加上管理系统维护团体以及购置分析软件单位用户成本较高,有分析需求和分析人员Analytics as a ServiceIntelligenceas a Service面向中型企业,管理上走向成熟,数据规模中等,除了有较深入分析需求外,还有对行业深度了

3、解和预测需求第5页第6页大数据平台三种服务交付方式大数据服务Data Warehouse as a ServiceAnalytics as a ServiceIntelligence as a Service第6页第7页Data Warehouse as a Service数据仓储即服务为企业提供数据仓库SaaS服务,帮助企业将数据进行清洗、校验和梳理,为企业提供适合数据存放和数据库处理方案,以及提供数据访问接口和数据安全管理等,为企业分析型应用提供支撑基础设施以服务方式提供企业分析型系统构建所需硬件,包含服务器、存放、网络设备等数据仓库处理方案依据企业数据类型和应用方向选择适当数据存放处理方

4、案,包含数据库等实施服务同时提供数据仓库实施服务,处理中小企业缺乏数据仓库领域专门人才及维护这么一个团体高成本问题第7页第8页Data Warehouse as a Service服务交付方式多类型数据集成大数据存放数据访问接口管理大数据“多类型数据集成”模块将企业业务数据从企业IT系统中抽取出来,经过清洗、规整、校验等步骤,以及依据需要进行初步汇总,进入大数据存放;依据数据类型和处理需求,选择适当存放方案,包含RDBMS,Hadoop等;大数据存放中数据经过访问接口提供给企业IT部门,供企业各种使用方式;企业业务系统IT人员经过接口使用数据第8页第9页Analytics as a Servi

5、ce分析平台即服务为企业提供分析平台SaaS服务,基于企业托管数据仓库提供报表、及各种分析工具,包含即席分析、数据挖掘、垂直处理方案等,帮助企业实现基于大数据智能决议和智能管理等。报表以服务方式提供企业所需KPI及反应企业各方面运行情况指标和报表,图形化展现和各种访问方式分析工具提供企业所需即席分析和数据挖掘等分析工具,使企业能够灵活对业务进行分析垂直处理方案提供一些经典垂直处理方案,如客户统一视图,精准营销等,针对企业经典业务场景提供处理方案第9页第10页Analytics as a Service服务交付方式多类型数据集成大数据存放大数据分析平台企业业务系统管理人员和业务分析人员经过por

6、tal使用分析平台报表分析工具垂直处理方案在企业基于大数据平台建设数据仓库基础上,提供KPI&Dashboard,报表工具,分析工具,以及行业垂直处理方案;提供企业分析处理方案结合企业实际需求进行处理方案实施服务;企业管理人员、业务分析人员等能够经过web、手机或其它移动设备访问大数据平台门户,方便随时了解企业关键指标和进行深度业务分析;第10页第11页Intelligence as a Service 智能即服务基于中国联通含有大数据资源,经过去隐私化,为企业提供行业处理方案和市场及其它信息咨询服务等。将中国联通大数据资源转化为商业价值,服务于各个行业企业客户。行业处理方案为经典行业,如零售

7、、广告、电子商务等行业企业客户提供处理方案,处理这些企业运行中面临经典业务问题信息咨询服务向企业客户提供基于中国联通大数据咨询服务和分析汇报,经过最权威数据反应行业趋势,使企业准确判断行业趋势,预测未来走向第11页第12页Intelligence as a Service服务交付方式多类型数据集成大数据存放大数据分析平台企业业务系统管理人员和业务分析人员经过portal使用分析平台行业处理方案行业分析汇报在大数据平台基础上面向企业客户提供经典行业处理方案,并经过专业市场和管理咨询服务团体提供咨询服务,依据实际业务需求,并充分利用大数据优势,快速开发需要业务问题处理方案;依据企业需求,基于大数据

8、资源,定制提供行业级分析汇报,为企业预测未来趋势提供最具科学依据参考。第12页第13页议题大数据平台概述大数据平台架构多类型数据集成大数据混合式存放架构IaaS层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业处理方案 第13页第14页系统边界大数据平台中国联通省级BOSS系统中国联通省级CRM系统中国联通电子渠道系统中国联通集中化大数据平台企业客户业务系统网络数据采集中国联通用户上网数据采集中国联通信令数据采集系统点击流数据采集S1S2S3S4S5S9S7S8I1I6I2I3中国联通SMS/MMS等渠道I4I5S6第14页第15页源数据接口S1-S8接口名称接口方向接口数据接

9、口方式S1中国联通省级BOSS系统大数据平台用户资料、CDR、账单、业务订购等文件S2中国联通省级CRM系统大数据平台客服数据等文件S3中国联通电子渠道系统大数据平台业务办理、详单查询、账单查询等用户行为文件S4中国联通用户上网数据采集大数据平台用户手机上网行为数据数据流S5中国联通信令数据采集系统大数据平台信令数据数据流S6企业客户业务系统大数据平台业务数据文件、数据流S7网络数据采集大数据平台网页内容等数据S8点击流数据采集大数据平台用户访问外部网页点击流数据文件S9中国联通集中化大数据平台大数据平台经分数据文件第15页第16页互动接口接口名称接口方向接口数据接口方式I1大数据平台中国联通

10、省级BOSS系统营销相关信息等文件I2大数据平台中国联通省级CRM系统客户特征视图、客服优化或营销相关信息等文件I3大数据平台中国联通电子渠道系统大数据平台业务推荐、内容推荐等信息文件I4大数据平台企业客户业务系统业务处理方案相关信息文件、数据流I5大数据平台中国联通SMS/MMS等渠道营销信息数据流I6大数据平台中国联通集中化大数据平台支撑经分系统数据文件第16页第17页三级平台架构一级大数据平台二级大数据平台省级数据集成平台一级大数据平台数据中心二级大数据平台数据中心A接口机接口机MDCN广域网MDCN广域网数据中心BA省大数据采集和集成系统B省大数据采集和集成系统某省大数据采集和集成系统

11、第17页第18页三级平台功效架构内部源系统数据接口网络数据采集其它数据接口结构化数据集成非结构化数据集成流数据集成省级数据集成平台二级大数据平台二级区域大数据混合式存放与处理一级大数据存放平台二级PaaS平台二级SaaS平台一级PaaS平台一级SaaS平台一级大数据平台第18页第19页三级平台功效架构(续)省级数据集成平台主要对数据进行采集、清洗、转换,以及初步汇总;对结构化数据,保持其初始数据粒度,并进行映射,统一数据模型;对非结构化数据,进行处理,转化为结构化数据;对流数据,进行实时处理;二级大数据平台包含多个数据中心,主要对区域性数据进行加工,并向区域性企业提供处理方案;多数据中心覆盖不

12、一样区域,主要向该区域企业客户提供服务;向一级平台提供接口,并接收一级平台对数据处理需求调度;一级大数据平台主要对数据进行跨区域汇总,并提供标准处理方案,供各区域在此基础上定制各自处理方案;第19页第20页二级大数据平台功效架构Data SourceData Integration结构化数据集成Big data Platform流数据集成非结构化数据集成HadoopRDBMSColumn DBNOSQLAnalytic Capability用户价值使用行为地理位置上网行为消费行为内容偏好时间特征社交网络影响力Vertical/Industry Solution实时营销客户忠诚度管理渠道选址内容

13、定制推送电信行业处理方案广电行业处理方案电子商务行业处理方案公共安全行业处理方案物联网行业处理方案PortalWebMobileWidgetInfo Push省级数据集成平台Web数据其它外部数据安全管理用户管理生命周期管理资源管理System Management开发管理第20页第21页二级平台各层功效数据集成层从省级数据集成平台获取已经清洗和初步集成结构化数据,包含联通内部系统提供结构化数据,以及从非结构化数据转化而来结构化数据;对非结构化数据处理,转化为结构化数据,并在省级数据集成平台之间及区域二级大数据平台之间进行同时;对相关流数据进行处理;大数据存放层依据数据特点和应用需求,将大数据

14、进行混合式存放和处理,满足上层应用需求;第21页第22页二级平台各层功效(续)大数据平台分析能力层提供基础分析能力和处理方案开发环境和运行环境;提供丰富基础分析能力,能够在此基础上快速开发处理方案;处理方案层提供垂直处理方案和行业处理方案;处理方案能够独立开发也能够在一级处理方案模板基础上进行二次开发;访问门户层提供各种访问方式,包含web、移动设备、widget、SMS、MMS等;统一访问入口和鉴权;系统管理包含安全管理、用户管理、开发管理、应用生命周期管理、元数据管理等;第22页第23页集成架构Data SourceData Integration结构化数据集成Big data Platf

15、orm流数据集成非结构化数据集成HadoopRDBMSColumn DBNOSQLAnalytic Capability用户价值使用行为地理位置上网行为消费行为内容偏好时间特征社交网络影响力Vertical/Industry Solution实时营销客户忠诚度管理渠道选址内容定制推送电信行业处理方案广电行业处理方案电子商务行业处理方案公共安全行业处理方案物联网行业处理方案PortalWebMobileWidgetInfo Push企业内部系统数据Web数据其它外部数据安全管理用户管理生命周期管理资源管理System Management资源管理多类型数据集成工具Hadoop、关系型数据库、列数

16、据库等各种数据存放处理方案大数据平台垂直处理方案、行业处理方案大数据平台、数据可视化工具大数据平台第23页第24页议题大数据平台概述大数据平台架构多类型数据集成大数据混合式存放架构IaaS层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业处理方案 第24页第25页数据集成在大数据平台中位置Data SourceData Integration结构化数据集成Big data Platform流数据集成非结构化数据集成HadoopRDBMSColumn DBNOSQLAnalytic Capability用户价值使用行为地理位置上网行为消费行为内容偏好时间特征社交网络影响力Vert

17、ical/Industry Solution实时营销客户忠诚度管理渠道选址内容定制推送电信行业处理方案广电行业处理方案电子商务行业处理方案公共安全行业处理方案物联网行业处理方案PortalWebMobileWidgetInfo Push省级数据集成平台Web数据其它外部数据安全管理用户管理生命周期管理资源管理System Management开发管理第25页第26页省级数据集成和二级大数据平台数据集成关系内部源系统数据接口网络数据采集其它数据接口省级数据集成平台二级大数据平台结构化数据集成数据获取数据清洗数据转换非结构化数据集成流数据集成数据获取数据清洗数据汇总混合式大数据存放,结构化数据处理

18、统一数据接口对于来自中国联通内部数据,包含CDR等,在省级数据集成平台仅进行清洗和转换,在二级大数据平台进行汇总;非结构化数据处理在省级平台进行简单清洗和转换,在二级大数据平台转换为结构化数据;第三方数据接口和数据集成统一在二级大数据平台;数据获取数据清洗数据转换非结构化数据集成数据结构化标签同时第三方数据集成数据获取数据清洗数据转换数据汇总第26页第27页数据集成类型从实时性角度划分实时或准实时通惯用于支持时间敏感型应用,要求数据以实时或准实时方式处理,单位时间内处理数据量较大;非实时用于支持非时间敏感型应用,处理周期通常按日、周、月、年,以批量处理方式满足这部分需求;从数据类型角度划分结构

19、化数据即行数据,存放在数据库里,能够用二维表结构来逻辑表示实现数据,比如业务支撑系统产生CDR等数据等。非结构化数据,包含文本、图片、图像音频、视频信息等。不能以传统数据库进行存放和处理。第27页第28页大数据平台支持多类型数据集成非实时结构化和非结构化数据集成12流数据集成第28页第29页传统BI系统数据ETL存在难题高扩容成本数据处理类型数据处理性能当前ETL工具产品主要是单机版串行系统,任务无法并行实现,在处理海量数据时,其性能、扩展性都存在瓶颈。所以,数据仓库负担了大部分转换任务。伴随数据量不停扩大,经分数据仓库也存在性能压力大、扩展性瓶颈等问题。 存放成本和压力比较高,仅能处理结构化

20、数据,大量网络信令、互联网信息等非结构化数据存放和分析需求难以满足 伴随用户数增加和新数据源引入,数据量也不停增加,ETL处理能力扩容成本很高第29页第30页基于云计算非实时并行数据集成特点2134分布式存放,高效并行处理能力支持垂直扩展和水平扩展,扩展能力近似线性多机容错低廉软硬件要求,能够较大程度上降低硬件成本第30页第31页关键技术分布式存放采取分布式文件系统存放HDFS作为云计算数据集成系统存放系统。HDFS有着高容错性特点,而且设计用来布署在低廉硬件上。而且它提供高传输率来访问应用程序数据,适合那些有着超大数据集应用程序。HDFS对外屏蔽了分布式存放细节,如数据备份、失效节点恢复、并

21、发等,使用户能够像操作当地文件系统一样操作分布式文件系统。HDFS中一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简化了数据一致问题和高吞吐量数据访问。支持并发读写文件。支持添加删除文件等操作。支持数据备份,失效节点恢复,高容错性。数据备份数量为多份第31页第32页Hadoop概述Hadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性特点,而且设计用来布署在低廉硬件上。而且它提供高吞吐量来访问应用程序数据,适合那些有着超大数据集应用程序。HDFS放宽了POSIX要求这么能够实现流形式访问文件系统中数据。第32页第33页关

22、键技术基于Map/Reduce并行计算Map/Reduce是一个用于大规模数据并行处理编程模型。指定一个Map(映射)函数,用来把一组键值对映射成一组新键值对,指定并发Reduce(化简)函数,用来确保全部映射键值对中每一个共享相同键组。 第33页第34页并行计算流程提交任务依据输入文件大小个数等确定子任务建立任务池子节点领取任务返回结果Map/Reduce运算模式当地优先运算策略:分配任务时采取当地优先标准含有可控性负载均衡:每个子节点依据本身硬件情况配置最大可执行任务数第34页第35页基于云计算并行数据集成模块功效架构基于云计算并行数据集成由基础功效层和集成环境层组成。图、云计算并行ETL

23、系统功效架构基础功效包含: 数据抽取、数据处理、数据装载和数据探索。数据抽取:是将外部提供数据抽取到ETL平台提供分布式文件系统中,方便后续处理使用,包含文件抽取和数据库抽取两种方式。数据处理:实现了对分布式文件系统上数据进行并行化处理功效,包含数据清洗、转换、汇总等功效。数据装载:对于处理完成数据,加载到对应数据仓库中。数据探索:数据探索是扩展功效,包含样本数据查看和统计。主要是为了便于开发人员在开发环境进行设计时,提取部分样本数据进行查看,以了解数据格式、数据分布特征和数据质量相关情况。第35页第36页集成环境 集成环境包含:开发环境、执行环境和管理环境。开发环境:是ETL处理程序开发者进

24、行操作主要环境。包含:数据定义、操作流开发和任务调度计划开发等功效。执行环境:执行环境要能确保工作任务能正常、高效运行,并对处理过程进行监控。管理环境:进行云计算并行ETL系统稳定运行管理工作,包含:安全管理、日志管理、数据生命周期管理和元数据管理等。第36页与传统ETL比较 容错性与扩展性第37页第38页物理布署主节点主节点备份节点用户接入节点大数据存放子节点子节点子节点云化数据集成平台数据库FTP数据服务器第38页第39页将文本类非结构化数据转化为结构化数据分词库爬取基准url分类日志URL比对陌生URL已知URL手机上网行为分析热词库爬取内容,分词,依据规则将分词入分词库爬取内容,与分词

25、库依据规则匹配,找出对应url类别读库入库匹配入库入库读库怎样将提取到URL转化为可解读信息是手机上网行为分析关键。这里采取了baidu等搜索引擎先进文本解析技术。第39页第40页关键技术汉字分词正向最大匹配法逆向最大匹配法最少切分汉字自然语言处理技术 汉字分词技术属于自然语言处理技术范围,对于一句话,人能够经过自己知识来明白哪些是词,哪些不是词,但怎样让计算机也能了解?其处理过程就是分词算法。 现有分词算法可分为三大类:基于字符串匹配分词方法、基于了解分词方法和基于统计分词方法。 基于字符串匹配分词方法又叫做机械分词方法,它是按照一定策略将待分析汉字串与一个充分大机器词典中词条进行配,若在词

26、典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向不一样,串匹配分词方法能够分为正向匹配和逆向匹配;按照不一样长度优先匹配情况,能够分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又能够分为单纯分词方法和分词与标注相结合一体化方法。通常采取几个方法综合算法。第40页第41页汉字分词关键难点歧义识别歧义是指一样一句话,可能有两种或者更多切分方法。新词识别新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词那些词。新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是极难处理问题,而且这些又恰好是人们经常使用词,所以对于文本

27、解析来说,分词系统中新词识别十分主要。当前新词识别准确率已经成为评价一个分词系统好坏主要标志之一。分词准确性Text in hereText in here分词速度云计算技术能够很好处理准确性和速度之间矛盾,使能够确保准确率复杂算法应用成为可能第41页第42页关键技术基于数据挖掘文本分类,将非结构化数据转化为结构化数据文本分类经过计算机对文本集按照一定分类体系或标准进行自动分类标识文本分类普通包含了文本表示、 分类器选择与训练、 分类结果评价与反馈等过程;其汉字本表示又可细分为文本预处理、索引和统计(分词)、特征抽取等步骤;评价分类器测试结果分析第42页第43页文本分类关键挖掘算法 统计学习方

28、法需要一批由人工进行了准确分类文档作为学习材料(称为训练集),计算机从这些文档重挖掘出一些能够有效分类规则,这个过程称为训练,而总结出规则集合经常被称为分类器。训练完成之后,需要对计算机从来没有见过文档进行分类时,便使用这些分类器来进行。 惯用分类算法为:决议树,Rocchio,朴素贝叶斯,神经网络,支持向量机Rocchio算法朴素贝叶斯算法(Naive Bayes)Rocchio算法是文本分类最基本算法。思绪是把一个类别里样本文档各项取个平均值(比如把全部 “体育”类文档中词汇“篮球”出现次数取个平均值,再把“裁判”取个平均值,依次做下去),能够得到一个新向量,形象称之为“质心”,质心就成了

29、这个类别最具代表性向量表示。再有新文档需要判断时候,比较新文档和质心有多么相同(判断他们之间距离)就能够确定新文档属不属于这个类。 改进Rocchio算法不但考虑属于这个类别文档(称为正样本),也考虑不属于这个类别文档数据(称为负样本),计算出来质心尽可能靠近正样本同时尽可能远离负样本。Rocchio算法不足是它做了两个很致命假设,使得它性能不佳。一是它认为一个类别文档仅仅聚集在一个质心周围,实际情况往往不是如此(这么数据称为线性不可分);二是它假设训练数据是绝对正确,因为它没有任何定量衡量样本是否含有噪声机制,因而也就对错误数据毫无抵抗力。贝叶斯算法关注是文档属于某类别概率。文档属于某个类别

30、概率等于文档中每个词属于该类别概率综合表示式。而每个词属于该类别概率又在一定程度上 能够用这个词在该类别训练文档中出现次数(词频信息)来粗略预计,因而使得整个计算过程成为可行。使用朴素贝叶斯算法时,在训练阶段主要任务就是预计这些值。首先对于每一个样本中元素要计算先验概率。其次要计算一个样本对于每个分类概率,概率最大分类将被采纳。所以其中P(d| Ci)=P(w1|Ci) P(w2|Ci) P(wi|Ci) P(w1|Ci) P(wm|Ci) (式1)P(w|C)=元素w在分类为C样本中出现次数/数据整理后样本中元素总数(式2)第43页第44页文本分类关键挖掘算法(续) 支持向量机(Suppor

31、t Vector Machine)是Cortes和Vapnik于1995年首先提出,它在处理小样本、非线性及高维模式识别中表现出许多特有优势,并能够推广应用到函数拟合等其它机器学习问题中。支持向量机算法(Support Vector Machine)支持向量机方法是建立在统计学习理论VC维理论和结构风险最小原理基础上,依据有限样本信息在模型复杂性(即对特定训练样本学习精度,Accuracy)和学习能力(即无错误地识别任意样本能力)之间寻求最正确折衷,以期取得最好推广能力(或称泛化能力)。SVM 方法有很坚实理论基础,SVM 训练本质是处理一个二次规划问题(Quadruple Programmi

32、ng,指目标函数为二次函数,约束条件为线性约束最优化问题),得到是全局最优解,这使它有着其它统计学习技术难以比拟优越性。 SVM 分类器文本分类效果很好,是最好分类器之一。同时使用核函数将 原始样本空间向高维空间进行变换,能够处理原始样本线性不可分问题。其缺点是核函数选择缺乏指导,难以针对详细问题选择最正确核函数;另外SVM 训练速度极大地受到训练集规模影响,计算开销比较大。SVM分类器优点在于通用性很好,且分类精度高、分类速度快、分类速度与训练样本个数无关,在查准和查全率方面都略优于普通算法。第44页第45页多类型数据集成非实时结构化和非结构化数据集成12流数据集成第45页第46页流数据特点

33、流数据是一组次序、大量、快速、连续抵达数据序列,普通情况下,数据流可被视为一个随时间延续而无限增加动态数据集合。实时抵达次序独立规模宏大极难二次处理流数据主流技术有开源S4分布式流计算平台,Sybase提供Alteri事件流处理器, StreambaseCEP系统。第46页第47页流数据处理关键技术S4分布式流计算平台S4是一个通用、可扩展性良好、含有部分容错能力、支持插件分布式流计算平台,在该平台上程序员能够很方便地开发处理流数据应用。编键数据事件被分类、路由到各处理单元(Processing Elements,PEs),处理单元处理这些事件,做出以下事情之一或全部: (1)发出一个或多个可

34、能被其它PE处理事件。(2)公布结果。这种架构类似提供了封装和地址透明语义Actor模式,所以允许应用在大规模并发同时暴露简单编程接口给应用开发者。S4是一个低延迟,弹性流数据处理引擎。S4是MapReduce 和 Actors模型衍生结合体。第47页第48页S4特点S4是一个通用、可扩展性良好、含有部分容错能力、支持插件分布式流计算平台,其设计特点有以下几项:Actor 模型S4架构采取了Actor模式,这种模式提供了封装和地址透明语义,所以在允许应用大规模并发同时,也提供了简单编程接口。分布式对称结构S4参考了MapReduce模式。为了简化布署和运维,从而到达更加好地稳定性和扩展性,S4

35、采取了对等架构,集群中全部处理节点都是等同,没有中心控制。这种架构将使得集群扩展性很好,处理节点总数理论上无上限;同时,S4将没有单点容错问题。 可插入式架构S4系统使用Java开发,采取了极富层次模块化编程,每个通用功效点都尽可能抽象出来作为通用模块,而且尽可能让各模块实现可定制化。部分容错能力设计基于Zookeeper服务集群管理层将会自动路由事件从失效节点到其它节点。除非显式保留到持久性存放,不然节点故障时,节点上处理事件状态会丢失。面对对象型节点间通信采取“Plain Old Java Objects”(POJOs)模式,应用开发者不需要写Schemas 或用哈希表来在节点间发送Tup

36、les。第48页第49页技术原理系统组成之Processing Nodes(PNs):PN是逻辑节点负责事件监听、输入事件处理、发射输出事件使用基于键值哈希函数发送事件(一个事件可能发给多个PE)PN使用PEC(Processing element container)依据event调用对应PE特殊PE对象:无属性值PE prototype,用作初始化和PE克隆每个keyed PE传给有且仅有一个PN通信层:集群管理:进行failover、逻辑节点到物理节点映射、硬件失败管理等提供JavaC+等API、支持部分网络协议使用ZooKeeper进行协同(coordinate)管理系统组成之Prec

37、essing Elemens(PEs):基本计算单元;一个计算单元实例由四个部分标识:功效functionality、接收(消耗)事件Types of vents(键值)属性Keyed attributes、(属性)值Value(of the ekyed attributes)特殊keyless PE无属性PE,接收全部满足类型限制事件,通常处于输入层Standard PE:完成count、join、aggregate等功效。PE生存使用TTL控制。第49页第50页流数据处理其它商用产品IBM StreamBase CEPStreamBase复杂时间处理系统(CEP),使用管理高速、实时数据流

38、新技术,是一个流数据处理引擎。StreamBase应用Java开辟,IDE是基于Eclipse进行二次开辟,功效很是强大。StreamBase也供给了相当多 Operator、Functor以及其它组件来帮助构建应用流程规则。HeartbeatsMonitoring第50页第51页流数据处理其它商用产品Sybase Aleri Event Stream Processor响应快,延迟低实时处理并分析高速事件流事件处理延迟介于数毫秒或数秒之间风险管理人员能够实时评定风险、利润和损失支持流分析和提醒当地 C/C+ 引擎、适配器和分析可提供极低延迟和高吞吐量公布-订阅体系结构可在整个集群节点中进行扩

39、展针对当代多核、多线程 64 位硬件进行了优化集成速度更加快最有效地利用开发资源,并实现新资本市场应用,即最大程度地节约开发时间和资源业界最类似于 SQL 事件处理语言大量现成适配器可扩展性完整 SDK,包含 C/C+、C#、Java、Perl 和 Python可扩展用户定义函数 (UDF)快速测试和配置团体商机第51页第52页流数据集成应用场景信令数据处理信令数据采集S4流数据处理平台位置信息捕捉开关机行为捕捉通话行为捕捉短信行为捕捉手机上网行为捕捉静态分析模型用户特征、网络情况动态触发规则管理、渠道选择、反馈捕捉.实时分析实时营销网络优化. 信令数据因为数据量巨大,尽管蕴含巨大价值,在传统

40、平台上难以实时处理,而且硬件成本高昂。经过流数据处理平台能够充分捕捉用户实时行为,并进行实时处理,以支持实时营销和分析等各种业务场景。第52页第53页议题大数据平台概述大数据平台架构多类型数据集成大数据混合式存放架构IaaS层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业处理方案 第53页第54页VDC虚拟数据中心IT合理化思绪Spare BaySpare Pool更少服务器数量更少机房占用更少机柜占用更少网络端口占用无需高可用集群软件跨平台高可用统一平台管理,大量节约学习管理成本利用更节能高密度服务器替换原有高能耗PC服务器和小型机服务器记外围设备大量降低,降低整体设备机空

41、调能耗。利用一套统一云平台管理系统管理全部服务器,取代了原有各种系统各种平台高可用软件利用简单方便WEB进行当地及远程管理。利用云平台管理系统主动到侦测故障服务器自动关闭/隔离故障服务器自动迁移故障服务器特征文件自动恢复故障服务器应用节约成本超低能耗简化管理自动切换第54页第55页资源供给IaaS架构相对于传统IT架构优势资源管理平台资源需求IaaS 架构低成本:使用高密度低能耗云服务器自动化工具降低管理和运维成本资源共享:动态、异构、共享资源池打破应用孤岛更高资源利用率,节能减排易于布署和管理自动化资源布署和调度引擎异构资源统一管理平台高伸缩性和高可扩展性资源动态伸缩,削峰填谷,满足高峰期资

42、源请求能够处理大规模业务高可用性虚拟机迁移和HA等特征在降低传统高可用投资同时确保系统可靠性自动故障检测、告警与恢复第55页第56页经过IaaS架构实现IT资源合理化运行成本大幅减低,每台服务器每年降低1000美金布署周期缩小,新系统布署时间提升240倍可靠性提升,故障恢复速度提升24倍,降低43小时宕机时间IDC 建设APP 业务服务存放阵列VDC 建设VPS 服务存放虚拟化资源分配调度能力提升服务器利用率虚拟化蔓延原因 1.版权2.空间3.时间4.管理150台虚拟机因为虚拟机泛滥浪费50000到15000美元成本服务目录管理资源抢占与回收虚拟机存放网络应用系统中间件物理机报表与计费服务实例

43、监控资源分配自动布署第56页第57页IaaS架构实现:资源管理平台和基础设施云化资源管理平台简化管理,自动切换基础设施云化节约成本,超低能耗Spare BaySpare Pool+第57页第58页1、资源管理平台资源管理平台能够整合数据中心计算资源、存放资源和网络资源,为IT资源统一整合、管理与分配提供有力技术支持,为各种业务提供所需资源快速布署、动态调度和弹性伸缩能力,并针对业务系统用户提供自服务机制,实现资源最大化利用与服务最快交付。资源管理平台致力于帮助企业构建安全可靠、资源共享云数据中心,实现业务计算能力与IT资源剥离,让底层IT基础设施以服务方式按需提供,从而满足业务多变性并促进业务

44、高速发展。第58页第59页资源管理平台逻辑结构资源管理平台第59页第60页资源管理平台功效模块资源管理平台虚拟化功效模块安全功效模块模板管理功效模块监控功效模块运行管理功效模块资源管理功效模块存放功效模块网络功效模块第60页第61页资源管理平台特点资源实例全生命周期管理层级多租户架构与用户自服务快速自动布署与自动弹性伸缩多数据中心异构资源支持各种虚拟化系统+ 物理系统+ 小型机系统 +为各种业务提供基础设施资源自动布署配置第61页第62页资源管理平台端到端工作流程普通用户1、申请服务实例自服务门户服务目录4、服务实例操作(使用、更改、监控、管理)2、审批流程3、资源分配 / 自动布署资源分配策

45、略:选择最优资源+资源实例全生命周期管理5、资源到期回收6、报表与计费计费账单统计报表资源管理员1、添加资源2、创建服务模板虚拟机存放网络小型机分区中间件物理机管理员普通用户1、建立用户组与用户(角色、权限、配额)运行管理员2、公布服务模板提供服务目录3、计费账务管理3、资源监控第62页第63页2、基础设施云化仓储式数据中心数据中心迁移数据中心改造仓储式数据中心数据中心迁移数据中心合并破旧数据中心合并,成立新型绿色数据中心;改进区域数据中心,降低PUE值服务器采购向着节能,高效发展;第63页第64页基础设施云化可降低能耗、节约电力成本每个月花销 资料起源亚马逊数据中心观察: 每个月 $2.3

46、Million 相关电力成本开销 当服务器成本降低时电力成本展现持平或上升趋势建设成本运维成本 建设投资中最大是电力系统设备,占50% 运行维护成本中,电费支出比重最高第64页第65页经过基础设施云化构建绿色数据中心年份PUE 目标IDC 建设/改造IDC电力成本3.0015 亿2.430%13.2 亿2.050%12 亿1.670%9.75 亿1.690%8.7 亿PUE3.0通常PUE 2.4最正确实践 PUE 2.0100%0%PUE 1.6制冷非IT电源消耗节约IT电源消耗温度控制优化风量控制优化压力控制优化智能冷却 数据中心评定场地布置调整设备机柜优化布线路由优化场地优化IT设备供电

47、改造电源路由改造_UPS系统改造_电源改造IT系统环境绿色数据中心第65页第66页新一代绿色智能数据中心:模块化数据中心建设单元内景透视图建设单元外景鸟瞰图模块单元整体设计理念模块模组DK建设单元(细胞)(组织)(个体)(社会)象生物发育一样严谨、自然、合理建设基地仓储式数据中心优势装配流程化高度灵活性模块化扩展低能耗高效快速布署低成本未来达成目标:建设高起点、大规模、低成本、节能数据中心,处理基地省份、关键城市机房需求 。经过数据中心安全、稳定、可靠运行,最终实现全网低成本高效运行。提升企业关键竞争力。第66页第67页议题大数据平台概述大数据平台架构多类型数据集成大数据混合式存放架构IaaS

48、层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业处理方案 第67页第68页大数据混合式存放架构概述数据应用混合式架构存放和处理技术在大数据与传统BI系统区分在于引入了大量新数据源,除了传统结构化批处理数据(如CDR等),还包含大量非结构化数据和实时性很强流数据,如文本、点击流、信令数据等;这些新数据源引入促进了应用发展,使一些原来无法实现应用成为可能,包含实时数据分析、基于文本网络数据分析等,这些应用有着极为广泛应用场景;为了使大数据能够有效支撑应用,大数据存放和处理技术就尤为关键。针对不一样类型数据采取不一样处理技术,并在大数据平台上依据应用需求进行整合,是大数据混合式存放

49、架构关键目标,也是大数据平台关键模块。第68页第69页从传统分析型和交易型系统通用数据库逐步向分析型系统专用数据库转变传统数据库,如Oracle DB,IBM DB2等,是交易型系统和分析型系统通用数据库,以行方式存放,在面向大数据处理能力上有扩展能力和处理性能瓶颈;为了满足大数据处理需求,大数据处理逐步向列数据库(包含一体机)和MPP数据库(包含一体机)等分析型系统专用数据库转变。第69页第70页关键技术列数据库列式数据库是以列相关存放架构进行数据存放数据库,主要适合与批量数据处理和即席查询。相对应是行式数据库,数据以行相关存放体系架构进行空间分配,主要适合与小批量数据处理,惯用于联机事务型

50、数据处理。传统行式数据库数据是按行存放没有索引查询使用大量I/O建立索引和物化视图需要花费大量时间和资源面对查询需求,数据库必须大量膨胀才能满足性能需求适合用于分析型系统列式数据库数据是按列存放,每一列单独存放数据既是索引只访问查询包括列,大量降低系统I/O每个列由一个线索来处理,满足并发查询数据类型一致,数据特征相同,便于压缩第70页第71页列式数据库与行式数据库在分析型系统中性能对比第71页第72页列数据库商用产品Sybase IQ第72页第73页列数据库商用产品HP VerticaVertica 每一列数据独立存放在磁盘上连续块上。查询数据时,Vertica只需要取得那些需要列,而不是被

51、选择行全部列数据。因为大多数决议分析系统只是列子集,Vertica垂直分区方法极大地节约了Disk I/O。从而实现数据性能50 x-1000 x倍提升。Vertiaca 是一个基于列数据库技术分析数据库处理方案。第73页第74页关键技术MPP数据库并行数据库系统是新一代高性能数据库系统,是在MPP和集群并行计算环境基础上建立数据库系统。并行数据库系统目标是高性能和高可用性,经过多个处理节点并行执行数据库任务,提升整个数据库系统性能和可用性。高性能并行数据库系统基于多处理节点物理结构,将数据库管理技术与并行处理技术有机结合,来实现系统高性能。高可用性高可用性能够同时在硬件和软件两个方面提供保障

52、。在硬件方面,经过冗余处理节点、存放设备、网络链路等硬件办法,能够确保当系统中某节点部分或完全失效时,其它硬件设备能够接手其处理,对外提供连续服务。在软件方面,经过状态监控与跟踪、相互备份、日志等技术伎俩,能够确保当前系统中某节点部分或完全失效时,由它所进行处理或由它所掌控资源能够无损失或基本无损失地转移到其它节点,并由其它节点继续对外提供服务。第74页第75页Share-nothing 架构常见OLTP数据库系统经常采取shared everything架构来做集群,比如oracle RAC架构,数据存放共享,节点间内存能够相互访问。shared nothing架构(MPP),主机,操作系统

53、,内存,存放都是自我控制,不存在共享。主要由master host,segment host,interconnect三大部分组成。MPP数据库经过将数据分布到多个节点上来实现规模数据存放。数据库瓶颈经常发生在I/O方面,mpp数据库采取分而治之方法,将数据规律分布到节点上,充分利用segment主机IO能力,以此让系统到达最大IO能力(主要是带宽)。每个表都是分布在全部节点上。Master host首先经过对表某个或多个列进行hash运算,然后依据hash结果将表数据分布到segment host中。整个过程中master host不存放任何用户数据,只是对客户端进行访问控制和存放表分布逻辑

54、元数据。第75页第76页商用产品IBM Netezza ApplianceAdvanced AnalyticsLoaderETLBIApplicationsFPGAMemoryCPUFPGAMemoryCPUFPGAMemoryCPUHostsHostDiskEnclosuresS-BladesNetworkFabricODBC/JDBCNetezza系统性能主要优势来自其独特AMPP处理架构,该架构将SMP前端与一个无共享MPP后端相结合完成查询处理。该架构将经过精心挑选各个组件集成在一起组成了平衡整体系统。经过每个处理组 件对多个数据流进行操作,并尽早过滤掉多出数据。最多可有多达一千多个M

55、PP处理组件共同工作,有效 分解和处理工作负荷。 第76页第77页商用产品EMC Greenplum大规模并行处理MPP无共享架构普通服务器平台(服务器、网络)经过软件提升处理能力第77页第78页大数据存放和处理关键技术HadoopHadoop Distributed File System,简称HDFS,是一个分布式文件系统。HDFS有着高容错性特点,而且设计用来布署在低廉硬件上。而且它提供高吞吐量来访问应用程序数据,适合那些有着超大数据集应用程序。HDFS放宽了POSIX要求这么能够实现流形式访问文件系统中数据。第78页第79页大数据存放和处理关键技术NoSQLNoSQL,指是非关系型数据

56、库。NoSQL致力于处理计算机体系结构在数据存放方面庞大水平扩展需求。Google BigTable 和Amazon Dynamo使用就是NoSQL型数据库。主流NoSQL开源技术和产品有Membase,MongoDB。一些互联网巨头也开发了自己数据库。Hypertable是一个开源、高性能、可伸缩数据库,它采取与GoogleBigtable相同模型。Apache Cassandra是一套开源分布式Key-Value存放系统。它最初由Facebook开发,用于储存尤其大数据。Facebook当前在使用此系统。第79页第80页NoSQL产品Membase Membase轻易安装、操作,能够从单节

57、点方便扩展到集群,而且为memcached(有线协议兼容性)实现了即插即用功效,在应用方面为开 发者和经营者提供了一个比较低门槛。做为缓存处理方案,Memcached已经在不一样类型领域(尤其是大容量Web应用)有了广泛使用,其中 Memcached部分基础代码被直接应用到了Membase服务器前端。Membase 是 NoSQL 家族一个新重量级组员。Membase是开源项目,源代码采取了Apache2.0使用许可。主要特点兼容Memcache访问协议,text、binary两种协议都支持功效好,经过添加效劳器来横向扩展效劳,同时效劳才能根本是线性添加,能够满足业务需求。安装方便、使用简单、

58、扩展轻易,管理界面美观。过时数据可自动删除,有可持久化存放方案优点。支持跨机房Membase集群,支持多数据中心。第80页第81页NOSQL产品MongoDBMongoDB是一个介于关系数据库和非关系数据库之间产品,是非关系数据库当中功效最丰富,最像关系数据库产品。MongoDB是一个基于分布式文件存放数据库。由C+语言编写。意在为WEB应用提供可扩展高性能数据存放处理方案。特点:高性能、易布署、易使用,存放数据非常方便。第81页第82页大数据存放和处理关键技术流数据处理引擎实时抵达次序独立规模宏大极难二次处理流数据流数据处理技术主要包含开源S4平台,以及商用产品IBM StreamBase

59、CEP等;S4是一个通用、可扩展性良好、含有部分容错能力、支持插件分布式流计算平台,在该平台上程序员能够很方便地开发处理流数据应用;IBM StreamBase复杂时间处理系统(CEP),使用管理高速、实时数据流新技术,是一个流数据处理引擎。StreamBase应用Java开辟,IDE是基于Eclipse进行二次开辟,功效很是强大。StreamBase也供给了相当多 Operator、Functor以及其它组件来帮助构建应用流程规则。第82页第83页大数据平台逻辑数据架构接口数据结构化数据(CDR、账务、用户资料等)文本数据(网页内容、客服统计等)流数据(信令数据)数据集成清洗转换结构化数据

60、非结构化数据转换为结构化 实时处理大数据存放和处理平台客户级汇总中间级汇总汇总指标级汇总客户级关联中间级关联关联指标级关联位置模型挖掘模型特征模型规则管理应用数据报表类专题类即席分析类实时分析类第83页第84页混合式存放架构接口数据结构化数据(CDR、账务、用户资料等)文本数据(网页内容、客服统计等)流数据(信令数据)数据集成清洗转换结构化数据 非结构化数据转换为结构化 实时处理大数据存放和处理平台客户级汇总中间级汇总汇总指标级汇总客户级关联中间级关联关联指标级关联位置模型挖掘模型特征模型实时规则管理应用数据报表类专题类即席分析类实时分析类Hadoop流数据处理列数据库/MPP数据库第84页第

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论