![大数据平台规划项目解决方案_第1页](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b1.gif)
![大数据平台规划项目解决方案_第2页](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b2.gif)
![大数据平台规划项目解决方案_第3页](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b3.gif)
![大数据平台规划项目解决方案_第4页](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b4.gif)
![大数据平台规划项目解决方案_第5页](http://file4.renrendoc.com/view/a910ae8e79e64c06cf5a672b7402568b/a910ae8e79e64c06cf5a672b7402568b5.gif)
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据平台规划项目解决方案大数据平台规划项目解决方案议题第2页大数据平台概述大数据平台架构多类型数据集成大数据混合式存储架构IaaS层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业解决方案议题第2页大数据平台概述大数据平台架构多类型数据集成大数据混大数据平台概述第3页
大数据平台主要通过集成中国联通内部运营支撑系统和外部数据,包括交易型大数据(BigTransactionData)和交互型大数据(BigInteractionData),通过多种云计算的技术将之集成和处理,向中国联通内部和外部企业客户提供有极大商业价值的信息支撑和智能解决方案。大数据平台概述第3页大数据平台主要通过集成中国大数据服务能够在哪些方面为企业客户提供价值?第4页营销精准广告实时营销效果评估优化客户服务客户需求洞察客户满意度管理客户忠诚度管理渠道渠道选址渠道业绩管理客户接触管理合作渠道欺诈监测风险控制物流其它物流监控物流优化物流预测关键点监控预警绩效监控…使整个企业进入大数据智能时代大数据服务能够在哪些方面为企业客户提供价值?第4页营销精准广大数据服务面向的三类企业客户第5页DataWarehouseasaServiceStep2Step3
面向起步型企业,数据规模较小,并且难以负担建设分析型系统的投入成本,没有深入的分析需求,手工即可分析。随着企业成长可以使用更高级的服务面向成熟一些的中小型企业,数据规模中等,单独建设系统加上管理系统维护团队以及购买分析软件的单位用户成本较高,有分析需求和分析人员AnalyticsasaServiceIntelligenceasaService面向中型企业,管理上走向成熟,数据规模中等,除了有较深入的分析需求外,还有对行业深度了解和预测的需求大数据服务面向的三类企业客户第5页DataWarehous大数据平台的三种服务交付方式第6页大数据服务DataWarehouseasaServiceAnalyticsasaServiceIntelligenceasaService大数据平台的三种服务交付方式第6页大数据服务DataWarDataWarehouseasaService数据仓储即服务第7页为企业提供数据仓库SaaS服务,帮助企业将数据进行清洗、校验和梳理,为企业提供适合的数据存储和数据库解决方案,以及提供数据访问接口和数据安全管理等,为企业的分析型应用提供支撑基础设施以服务的方式提供企业分析型系统构建所需的硬件,包括服务器、存储、网络设备等数据仓库解决方案根据企业的数据类型和应用方向选择合适的数据存储解决方案,包括数据库等实施服务同时提供数据仓库实施服务,解决中小企业缺乏数据仓库领域的专门人才及维护这样一个团队的高成本问题DataWarehouseasaService数据仓DataWarehouseasaService的服务交付方式第8页多类型数据集成大数据存储数据访问接口管理大数据的“多类型数据集成”模块将企业的业务数据从企业的IT系统中抽取出来,经过清洗、规整、校验等环节,以及根据需要进行初步的汇总,进入大数据存储;根据数据类型和处理需求,选择合适的存储方案,包括RDBMS,Hadoop等;大数据存储中的数据通过访问接口提供给企业的IT部门,供企业多种使用方式;企业的业务系统IT人员通过接口使用数据DataWarehouseasaService的服务AnalyticsasaService分析平台即服务第9页为企业提供分析平台SaaS服务,基于企业托管的数据仓库提供报表、及多种分析工具,包括即席分析、数据挖掘、垂直解决方案等,帮助企业实现基于大数据的智能决策和智能管理等。报表以服务的方式提供企业所需的KPI及反映企业各方面运营状况的的指标和报表,图形化展现和多种访问方式分析工具提供企业所需的即席分析和数据挖掘等分析工具,使企业能够灵活的对业务进行分析垂直解决方案提供一些典型的垂直解决方案,如客户统一视图,精准营销等,针对企业典型的业务场景提供解决方案AnalyticsasaService分析平台即服务第AnalyticsasaService的服务交付方式第10页多类型数据集成大数据存储大数据分析平台企业的业务系统管理人员和业务分析人员通过portal使用分析平台报表分析工具垂直解决方案在企业基于大数据平台建设的数据仓库的基础上,提供KPI&Dashboard,报表工具,分析工具,以及行业垂直解决方案;提供企业的分析解决方案结合企业的实际需求进行的解决方案实施服务;企业的管理人员、业务分析人员等可以通过web、手机或其它移动设备访问大数据平台的门户,以便随时了解企业的关键指标和进行深度业务分析;AnalyticsasaService的服务交付方式第IntelligenceasaService智能即服务第11页基于中国联通具有的大数据资源,经过去隐私化,为企业提供行业解决方案和市场及其它信息咨询服务等。将中国联通的大数据资源转化为商业价值,服务于各个行业的企业客户。行业解决方案为典型行业,如零售、广告、电子商务等行业的企业客户提供解决方案,解决这些企业运营中面临的典型业务问题信息咨询服务向企业客户提供基于中国联通大数据的咨询服务和分析报告,通过最权威的数据反映行业趋势,使企业准确判断行业趋势,预测未来走向IntelligenceasaService智能即服IntelligenceasaService的服务交付方式第12页多类型数据集成大数据存储大数据分析平台企业的业务系统管理人员和业务分析人员通过portal使用分析平台行业解决方案行业分析报告在大数据平台的基础上面向企业客户提供典型行业解决方案,并通过专业市场和管理咨询服务团队提供咨询服务,根据实际业务需求,并充分利用大数据的优势,快速开发需要的业务问题解决方案;根据企业的需求,基于大数据资源,定制提供行业级的分析报告,为企业预测未来趋势提供最具科学依据的参考。IntelligenceasaService的服务交付议题第13页大数据平台概述大数据平台架构多类型数据集成大数据混合式存储架构IaaS层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业解决方案议题第13页大数据平台概述大数据平台架构多类型数据集成大数据系统边界第14页大数据平台中国联通省级BOSS系统中国联通省级CRM系统中国联通电子渠道系统中国联通集中化大数据平台企业客户的业务系统网络数据采集中国联通用户上网数据采集中国联通信令数据采集系统点击流数据采集S1S2S3S4S5S9S7S8I1I6I2I3中国联通SMS/MMS等渠道I4I5S6系统边界第14页大数据平台中国联通省级BOSS系统中国联通省源数据接口S1-S8第15页接口名称接口方向接口数据接口方式S1中国联通省级BOSS系统—>大数据平台用户资料、CDR、账单、业务订购等文件S2中国联通省级CRM系统—>大数据平台客服数据等文件S3中国联通电子渠道系统—>大数据平台业务办理、详单查询、账单查询等用户行为文件S4中国联通用户上网数据采集—>大数据平台用户手机上网行为数据数据流S5中国联通信令数据采集系统—>大数据平台信令数据数据流S6企业客户的业务系统—>大数据平台业务数据文件、数据流S7网络数据采集—>大数据平台网页内容等数据S8点击流数据采集—>大数据平台用户访问外部网页的点击流数据文件S9中国联通集中化大数据平台—>大数据平台经分数据文件源数据接口S1-S8第15页接口名称接口方向接口数据接口方式互动接口第16页接口名称接口方向接口数据接口方式I1大数据平台—>中国联通省级BOSS系统营销相关信息等文件I2大数据平台—>中国联通省级CRM系统客户特征视图、客服优化或营销相关信息等文件I3大数据平台—>中国联通电子渠道系统大数据平台业务推荐、内容推荐等信息文件I4大数据平台—>企业客户的业务系统业务解决方案相关信息文件、数据流I5大数据平台—>中国联通SMS/MMS等渠道营销信息数据流I6大数据平台—中国联通集中化大数据平台支撑经分系统的数据文件互动接口第16页接口名称接口方向接口数据接口方式I1大数据平三级平台架构第17页一级大数据平台二级大数据平台省级数据集成平台一级大数据平台数据中心二级大数据平台数据中心A接口机接口机MDCN广域网MDCN广域网数据中心BA省大数据采集和集成系统B省大数据采集和集成系统某省大数据采集和集成系统三级平台架构第17页一级大数据平台二级大数据平台省级数据集成三级平台功能架构第18页内部源系统数据接口网络数据采集其它数据接口结构化数据集成非结构化数据集成流数据集成省级数据集成平台二级大数据平台二级区域大数据混合式存储与处理一级大数据存储平台二级PaaS平台二级SaaS平台一级PaaS平台一级SaaS平台一级大数据平台三级平台功能架构第18页内部源系统数据接口网络数据采集其它数三级平台功能架构(续)第19页省级数据集成平台主要对数据进行采集、清洗、转换,以及初步的汇总;对结构化数据,保持其初始的数据粒度,并进行映射,统一数据模型;对非结构化数据,进行处理,转化为结构化数据;对流数据,进行实时处理;二级大数据平台包括多个数据中心,主要对区域性的数据进行加工,并向区域性的企业提供解决方案;多数据中心覆盖不同的区域,主要向该区域的企业客户提供服务;向一级平台提供接口,并接受一级平台对数据处理需求的调度;一级大数据平台主要对数据进行跨区域的汇总,并提供标准的解决方案,供各区域在此基础上定制各自的解决方案;三级平台功能架构(续)第19页省级数据集成平台主要对数据进行二级大数据平台功能架构第20页DataSourceDataIntegration结构化数据集成BigdataPlatform流数据集成非结构化数据集成HadoopRDBMSColumnDBNOSQLAnalyticCapability用户价值使用行为地理位置上网行为消费行为内容偏好时间特征社交网络影响力…Vertical/IndustrySolution实时营销客户忠诚度管理渠道选址内容定制推送
…电信行业解决方案广电行业解决方案电子商务行业解决方案公共安全行业解决方案物联网行业解决方案PortalWebMobileWidgetInfoPush省级数据集成平台Web数据其它外部数据安全管理用户管理生命周期管理资源管理SystemManagement开发管理二级大数据平台功能架构第20页DataSourceData二级平台各层的功能第21页数据集成层从省级数据集成平台获取已经清洗和初步集成的结构化数据,包括联通内部系统提供的结构化数据,以及从非结构化数据转化而来的结构化数据;对非结构化数据处理,转化为结构化数据,并在省级数据集成平台之间及区域二级大数据平台之间进行同步;对相关的流数据进行处理;大数据存储层根据数据特点和应用的需求,将大数据进行混合式的存储和处理,满足上层应用的需求;二级平台各层的功能第21页数据集成层二级平台各层的功能(续)第22页大数据平台分析能力层提供基础分析能力和解决方案的开发环境和运行环境;提供丰富的基础分析能力,可以在此基础上快速开发解决方案;解决方案层提供垂直解决方案和行业解决方案;解决方案可以独立开发也可以在一级解决方案模板的基础上进行二次开发;访问门户层提供多种访问方式,包括web、移动设备、widget、SMS、MMS等;统一的访问入口和鉴权;系统管理包括安全管理、用户管理、开发管理、应用生命周期管理、元数据管理等;二级平台各层的功能(续)第22页大数据平台分析能力层集成架构第23页DataSourceDataIntegration结构化数据集成BigdataPlatform流数据集成非结构化数据集成HadoopRDBMSColumnDBNOSQLAnalyticCapability用户价值使用行为地理位置上网行为消费行为内容偏好时间特征社交网络影响力…Vertical/IndustrySolution实时营销客户忠诚度管理渠道选址内容定制推送
…电信行业解决方案广电行业解决方案电子商务行业解决方案公共安全行业解决方案物联网行业解决方案PortalWebMobileWidgetInfoPush企业内部系统数据Web数据其它外部数据安全管理用户管理生命周期管理资源管理SystemManagement资源管理多类型数据的集成工具Hadoop、关系型数据库、列数据库等多种数据存储解决方案大数据平台垂直解决方案、行业解决方案大数据平台、数据可视化工具大数据平台集成架构第23页DataSourceDataIntegr议题第24页大数据平台概述大数据平台架构多类型数据集成大数据混合式存储架构IaaS层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业解决方案议题第24页大数据平台概述大数据平台架构多类型数据集成大数据数据集成在大数据平台中的位置第25页DataSourceDataIntegration结构化数据集成BigdataPlatform流数据集成非结构化数据集成HadoopRDBMSColumnDBNOSQLAnalyticCapability用户价值使用行为地理位置上网行为消费行为内容偏好时间特征社交网络影响力…Vertical/IndustrySolution实时营销客户忠诚度管理渠道选址内容定制推送
…电信行业解决方案广电行业解决方案电子商务行业解决方案公共安全行业解决方案物联网行业解决方案PortalWebMobileWidgetInfoPush省级数据集成平台Web数据其它外部数据安全管理用户管理生命周期管理资源管理SystemManagement开发管理数据集成在大数据平台中的位置第25页DataSourceD省级数据集成和二级大数据平台数据集成的关系第26页内部源系统数据接口网络数据采集其它数据接口省级数据集成平台二级大数据平台结构化数据集成数据获取数据清洗数据转换非结构化数据集成流数据集成数据获取数据清洗数据汇总混合式大数据存储,结构化数据处理统一数据接口对于来自中国联通内部的数据,包括CDR等,在省级数据集成平台仅进行清洗和转换,在二级大数据平台进行汇总;非结构化数据的处理在省级平台进行简单的清洗和转换,在二级大数据平台转换为结构化数据;第三方的数据接口和数据集成统一在二级大数据平台;数据获取数据清洗数据转换非结构化数据集成数据结构化标签同步第三方数据集成数据获取数据清洗数据转换数据汇总省级数据集成和二级大数据平台数据集成的关系第26页内部源系统数据集成的类型第27页从实时性角度划分实时或准实时通常用于支持时间敏感型应用,要求数据以实时或准实时的方式处理,单位时间内处理的数据量较大;非实时用于支持非时间敏感型应用,处理周期通常按日、周、月、年,以批量处理的方式满足这部分需求;从数据类型角度划分结构化数据即行数据,存储在数据库里,可以用二维表结构来逻辑表达实现的数据,例如业务支撑系统产生的CDR等数据等。非结构化数据,包括文本、图片、图像音频、视频信息等。不能以传统的数据库进行存储和处理。数据集成的类型第27页从实时性角度划分大数据平台支持的多类型数据集成第28页非实时的结构化和非结构化数据集成12流数据集成大数据平台支持的多类型数据集成第28页非实时的结构化和非结构传统的BI系统数据ETL存在的难题第29页高扩容成本数据处理的类型数据处理的性能目前ETL工具产品主要是单机版串行系统,任务无法并行实现,在处理海量数据时,其性能、扩展性都存在瓶颈。因此,数据仓库承担了大部分转换任务。随着数据量的不断扩大,经分数据仓库也存在性能压力大、扩展性瓶颈等问题。存储成本和压力比较高,仅能处理结构化的数据,大量的网络信令、互联网信息等非结构化数据的存储和分析需求难以满足随着用户数的增长和新的数据源的引入,数据量也不断增长,ETL处理能力的扩容成本很高传统的BI系统数据ETL存在的难题第29页高扩容成本数据处理基于云计算的非实时并行数据集成的特点第30页2134分布式存储,高效并行处理能力支持垂直扩展和水平扩展,扩展能力近似线性多机容错低廉的软硬件要求,能够较大程度上降低硬件成本基于云计算的非实时并行数据集成的特点第30页2134分布式存核心技术——分布式存储第31页采用分布式文件系统存储HDFS作为云计算数据集成系统的存储系统。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高传输率来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS对外屏蔽了分布式存储的细节,如数据备份、失效节点恢复、并发等,使用户可以像操作本地文件系统一样操作分布式文件系统。HDFS中一个文件一旦创建、写入、关闭之后就不需要修改了。这个假定简化了数据一致的问题和高吞吐量的数据访问。支持并发的读写文件。支持添加删除文件等操作。支持数据备份,失效节点恢复,高容错性。数据备份数量为多份核心技术——分布式存储第31页采用分布式文件系统存储HDFSHadoop概述第32页HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求这样可以实现流的形式访问文件系统中的数据。Hadoop概述第32页HadoopDistributed核心技术——基于Map/Reduce的并行计算第33页Map/Reduce是一个用于大规模数据并行处理的编程模型。指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(化简)函数,用来保证所有映射的键值对中的每一个共享相同的键组。
核心技术——基于Map/Reduce的并行计算第33页Map并行计算的流程第34页提交任务根据输入文件大小个数等确定子任务建立任务池子节点领取任务返回结果Map/Reduce运算模式本地优先的运算策略:分配任务时采取本地优先的原则具有可控性的负载均衡:每个子节点根据自身硬件情况配置最大的可执行任务数并行计算的流程第34页提交任务根据输入文件大小个数等确定子任基于云计算的并行数据集成模块的功能架构第35页基于云计算的并行数据集成由基础功能层和集成环境层组成。图、云计算并行ETL系统的功能架构基础功能包括:数据抽取、数据处理、数据装载和数据探索。数据抽取:是将外部提供的数据抽取到ETL平台提供的分布式文件系统中,以便后续处理使用,包括文件抽取和数据库抽取两种方式。数据处理:实现了对分布式文件系统上的数据进行并行化的处理功能,包括数据清洗、转换、汇总等功能。数据装载:对于处理完毕的数据,加载到相应的数据仓库中。数据探索:数据探索是扩展功能,包括样本数据查看和统计。主要是为了便于开发人员在开发环境进行设计时,提取部分样本数据进行查看,以了解数据格式、数据分布特征和数据质量相关情况。基于云计算的并行数据集成模块的功能架构第35页基于云计算的并集成环境第36页集成环境包括:开发环境、执行环境和管理环境。开发环境:是ETL处理程序开发者进行操作的主要环境。包括:数据定义、操作流开发和任务调度计划开发等功能。执行环境:执行环境要能保证工作任务能正常、高效的运行,并对处理过程进行监控。管理环境:进行云计算并行ETL系统稳定运营的管理工作,包括:安全管理、日志管理、数据生命周期管理和元数据管理等。集成环境第36页集成环境包括:开发环境、执行环境和管理环境与传统ETL比较——容错性与扩展性容错性子任务出错后自动重跑失败一定次数后挂起连续出错节点加入黑名单扩展性具有热扩展能力,新节点可动态部署新节点加入后,可将原来的存储重新平衡分布,减轻存储压力,同时新节点马上参与任务的运算,提高运算效率与传统ETL比较——容错性与扩展性容错性子任务出错后自动物理部署第38页主节点主节点备份节点用户接入节点大数据存储子节点子节点子节点云化数据集成平台数据库FTP数据服务器物理部署第38页主节点主节点用户接入节点大数据存储子节点子节将文本类非结构化数据转化为结构化数据第39页分词库爬取基准url分类日志URL比对陌生URL已知URL手机上网行为分析热词库爬取内容,分词,根据规则将分词入分词库爬取内容,与分词库根据规则匹配,找出对应url类别读库入库匹配入库入库读库如何将提取到的URL转化为可解读的信息是手机上网行为分析的关键。这里采用了百度等搜索引擎的先进文本解析技术。将文本类非结构化数据转化为结构化数据第39页分词库爬取基准u核心技术——中文分词第40页正向最大匹配法逆向最大匹配法最少切分中文自然语言处理技术
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。
现有的分词算法可分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。
基于字符串匹配的分词方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个「充分大的」机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。通常采用几种方法的综合算法。核心技术——中文分词第40页正向最大匹配法逆向最大匹配法最少中文分词的核心难点第41页歧义识别
歧义是指同样的一句话,可能有两种或者更多的切分方法。新词识别新词,专业术语称为未登录词。也就是那些在字典中都没有收录过,但又确实能称为词的那些词。新词中除了人名以外,还有机构名、地名、产品名、商标名、简称、省略语等都是很难处理的问题,而且这些又正好是人们经常使用的词,因此对于文本解析来说,分词系统中的新词识别十分重要。目前新词识别准确率已经成为评价一个分词系统好坏的重要标志之一。分词的准确性TextinhereTextinhere分词的速度云计算技术可以很好的解决准确性和速度之间的矛盾,使可以保证准确率的复杂的算法的应用成为可能中文分词的核心难点第41页歧义识别分词的准确性Textin核心技术——基于数据挖掘的文本分类,将非结构化数据转化为结构化数据第42页文本分类通过计算机对文本集按照一定的分类体系或标准进行自动分类标记文本分类一般包括了文本的表达、分类器的选择与训练、分类结果的评价与反馈等过程;其中文本的表达又可细分为文本预处理、索引和统计(分词)、特征抽取等步骤;预处理将原始语料格式化为同一格式,便于后续的统一处理;分词将文档分解为基本处理单元,同时降低后续处理的开销;统计词频统计,项(单词、概念)与分类的相关概率;特征抽取从文档中抽取出反映文档主题的特征分类器分类器的训练评价分类器的测试结果分析核心技术——基于数据挖掘的文本分类,将非结构化数据转化为结构文本分类的核心挖掘算法第43页
统计学习方法需要一批由人工进行了准确分类的文档作为学习的材料(称为训练集),计算机从这些文档重挖掘出一些能够有效分类的规则,这个过程称为训练,而总结出的规则集合常常被称为分类器。训练完成之后,需要对计算机从来没有见过的文档进行分类时,便使用这些分类器来进行。
常用的分类算法为:决策树,Rocchio,朴素贝叶斯,神经网络,支持向量机Rocchio算法朴素贝叶斯算法(NaiveBayes)Rocchio算法是文本分类的最基本算法。思路是把一个类别里的样本文档各项取个平均值(例如把所有“体育”类文档中词汇“篮球”出现的次数取个平均值,再把“裁判”取个平均值,依次做下去),可以得到一个新的向量,形象的称之为“质心”,质心就成了这个类别最具代表性的向量表示。再有新文档需要判断的时候,比较新文档和质心有多么相似(判断他们之间的距离)就可以确定新文档属不属于这个类。改进的Rocchio算法不仅考虑属于这个类别的文档(称为正样本),也考虑不属于这个类别的文档数据(称为负样本),计算出来的质心尽量靠近正样本同时尽量远离负样本。Rocchio算法的局限性是它做了两个很致命的假设,使得它的性能不佳。一是它认为一个类别的文档仅仅聚集在一个质心的周围,实际情况往往不是如此(这样的数据称为线性不可分的);二是它假设训练数据是绝对正确的,因为它没有任何定量衡量样本是否含有噪声的机制,因而也就对错误数据毫无抵抗力。贝叶斯算法关注的是文档属于某类别概率。文档属于某个类别的概率等于文档中每个词属于该类别的概率的综合表达式。而每个词属于该类别的概率又在一定程度上可以用这个词在该类别训练文档中出现的次数(词频信息)来粗略估计,因而使得整个计算过程成为可行的。使用朴素贝叶斯算法时,在训练阶段的主要任务就是估计这些值。首先对于每一个样本中的元素要计算先验概率。其次要计算一个样本对于每个分类的概率,概率最大的分类将被采纳。所以其中P(d|Ci)=P(w1|Ci)P(w2|Ci)…P(wi|Ci)P(w1|Ci)…P(wm|Ci)(式1)P(w|C)=元素w在分类为C的样本中出现次数/数据整理后的样本中元素的总数(式2)文本分类的核心挖掘算法第43页统计学习方法需文本分类的核心挖掘算法(续)第44页
支持向量机(SupportVectorMachine)是Cortes和Vapnik于1995年首先提出的,它在解决小样本、非线性及高维模式识别中表现出许多特有的优势,并能够推广应用到函数拟合等其他机器学习问题中。支持向量机算法(SupportVectorMachine)支持向量机方法是建立在统计学习理论的VC维理论和结构风险最小原理基础上的,根据有限的样本信息在模型的复杂性(即对特定训练样本的学习精度,Accuracy)和学习能力(即无错误地识别任意样本的能力)之间寻求最佳折衷,以期获得最好的推广能力(或称泛化能力)。SVM方法有很坚实的理论基础,SVM训练的本质是解决一个二次规划问题(QuadrupleProgramming,指目标函数为二次函数,约束条件为线性约束的最优化问题),得到的是全局最优解,这使它有着其他统计学习技术难以比拟的优越性。SVM分类器的文本分类效果很好,是最好的分类器之一。同时使用核函数将原始的样本空间向高维空间进行变换,能够解决原始样本线性不可分的问题。其缺点是核函数的选择缺乏指导,难以针对具体问题选择最佳的核函数;另外SVM训练速度极大地受到训练集规模的影响,计算开销比较大。SVM分类器的优点在于通用性较好,且分类精度高、分类速度快、分类速度与训练样本个数无关,在查准和查全率方面都略优于一般算法。文本分类的核心挖掘算法(续)第44页支持向量多类型数据集成第45页非实时的结构化和非结构化数据集成12流数据集成多类型数据集成第45页非实时的结构化和非结构化数据集成12流流数据的特点第46页流数据是一组顺序、大量、快速、连续到达的数据序列,一般情况下,数据流可被视为一个随时间延续而无限增长的动态数据集合。实时到达次序独立规模宏大很难二次处理流数据主流技术有开源S4分布式流计算平台,Sybase提供的Alteri事件流处理器,
Streambase的CEP系统。流数据的特点第46页流数据是一组顺序、大量、快速、连续到达的流数据处理的关键技术——S4分布式流计算平台第47页S4是一个通用的、可扩展性良好、具有部分容错能力、支持插件的分布式流计算平台,在该平台上程序员可以很方便地开发处理流数据的应用。编键的数据事件被分类、路由到各处理单元(ProcessingElements,PEs),处理单元处理这些事件,做出如下事情之一或全部:(1)发出一个或多个可能被其他PE处理的事件。(2)发布结果。这种架构类似提供了封装和地址透明语义的Actor模式,因此允许应用在大规模并发的同时暴露简单的编程接口给应用开发者。S4是一个低延迟,弹性流数据处理引擎。S4是MapReduce和Actors模型衍生的结合体。流数据处理的关键技术——S4分布式流计算平台第47页S4是一S4的特点第48页S4是一个通用的、可扩展性良好、具有部分容错能力、支持插件的分布式流计算平台,其设计特点有以下几项:Actor模型S4架构采用了Actor模式,这种模式提供了封装和地址透明语义,因此在允许应用大规模并发的同时,也提供了简单的编程接口。分布式对称结构S4参照了MapReduce模式。为了简化部署和运维,从而达到更好地稳定性和扩展性,S4采用了对等架构,集群中的所有处理节点都是等同的,没有中心控制。这种架构将使得集群的扩展性很好,处理节点的总数理论上无上限;同时,S4将没有单点容错的问题。
可插入式架构S4系统使用Java开发,采用了极富层次的模块化编程,每个通用功能点都尽量抽象出来作为通用模块,而且尽可能让各模块实现可定制化。部分容错能力设计基于Zookeeper服务的集群管理层将会自动路由事件从失效节点到其他节点。除非显式保存到持久性存储,否则节点故障时,节点上处理事件的状态会丢失。面对对象型节点间通信采用“PlainOldJavaObjects”(POJOs)模式,应用开发者不需要写Schemas或用哈希表来在节点间发送Tuples。S4的特点第48页S4是一个通用的、可扩展性良好、具有部分容技术原理第49页系统组成之ProcessingNodes(PNs):PN是逻辑节点——负责事件监听、输入事件处理、发射输出事件使用基于键值的哈希函数发送事件(一个事件可能发给多个PE)PN使用PEC(Processingelementcontainer)根据event调用对应的PE特殊的PE对象:无属性值的PEprototype,用作初始化和PE的克隆每个keyedPE传给有且仅有一个PN
通信层:集群管理:进行failover、逻辑节点到物理节点的映射、硬件失败管理等提供Java\C++等的API、支持部分网络协议使用ZooKeeper进行协同(coordinate)管理系统组成之PrecessingElemens(PEs):基本计算单元;一个计算单元实例由四个部分标识:功能functionality、
接受(消耗)的事件Typesofvents(键值)属性Keyedattributes、
(属性)值Value(oftheekyedattributes)特殊的keylessPE——无属性PE,接受所有满足类型限制的的事件,通常处于输入层StandardPE:完成count、join、aggregate等功能。PE的生存使用TTL控制。
技术原理第49页系统组成之ProcessingNodes(流数据处理的其它商用产品——
IBMStreamBaseCEP第50页StreamBase复杂时间处理系统(CEP),使用管理高速、实时数据流新技术,是一个流数据处理引擎。StreamBase应用Java开辟,IDE是基于Eclipse进行二次开辟,功能很是强大。StreamBase也供给了相当多的Operator、Functor以及其他组件来帮助构建应用流程规则。HeartbeatsMonitoring流数据处理的其它商用产品——
IBMStreamBase流数据处理的其它商用产品——
SybaseAleriEventStreamProcessor第51页响应快,延迟低 实时处理并分析高速的事件流事件处理延迟介于数毫秒或数秒之间风险管理人员可以实时评估风险、利润和损失支持流分析和提醒本地的C/C++引擎、适配器和分析可提供极低的延迟和高吞吐量发布-订阅体系结构可在整个集群节点中进行扩展针对现代的多核、多线程64位硬件进行了优化
集成速度更快 最有效地利用开发资源,并实现新的资本市场应用,即最大限度地节省开发时间和资源业界最类似于SQL的事件处理语言大量的现成适配器可扩展性完整的SDK,包括C/C++、C#、Java、Perl和Python可扩展的用户定义函数(UDF)快速测试和配置团队商机 流数据处理的其它商用产品——
SybaseAleriEv流数据集成的应用场景——信令数据处理第52页信令数据采集S4流数据处理平台位置信息捕捉开关机行为捕捉通话行为捕捉短信行为捕捉手机上网行为捕捉静态分析模型用户特征、网络状况…动态触发规则管理、渠道选择、反馈捕捉….实时分析实时营销网络优化…….
信令数据由于数据量巨大,尽管蕴含巨大的价值,在传统的平台上难以实时处理,并且硬件成本高昂。通过流数据处理平台可以充分捕捉用户的实时行为,并进行实时的处理,以支持实时营销和分析等多种业务场景。流数据集成的应用场景——信令数据处理第52页信令数据采集S4议题第53页大数据平台概述大数据平台架构多类型数据集成大数据混合式存储架构IaaS层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业解决方案议题第53页大数据平台概述大数据平台架构多类型数据集成大数据VDC虚拟数据中心的IT合理化思路Spare
BaySpare
Pool更少的服务器数量更少的机房占用更少的机柜占用更少网络端口占用无需高可用集群软件跨平台高可用统一平台管理,大量节约学习管理成本利用更节能的高密度服务器替换原有的高能耗的PC服务器和小型机服务器记外围设备大量减少,降低整体设备机空调能耗。利用一套统一的云平台管理系统管理所有的服务器,取代了原有多种系统多种平台高可用软件利用简单方便的WEB进行本地及远程管理。利用云平台管理系统主动到侦测故障服务器自动关闭/隔离故障服务器自动迁移故障服务器特征文件自动恢复故障服务器应用节约成本超低能耗简化管理自动切换第54页VDC虚拟数据中心的IT合理化思路Spare
BaySpa资源供给IaaS架构相对于传统IT架构的优势第55页资源管理平台资源需求IaaS架构低成本:使用高密度低能耗的云服务器自动化工具降低管理和运维成本资源共享:动态、异构、共享的资源池打破应用孤岛更高的资源利用率,节能减排易于部署和管理自动化的资源部署和调度引擎异构资源统一的管理平台高伸缩性和高可扩展性资源动态伸缩,削峰填谷,满足高峰期的资源请求能够处理大规模业务高可用性虚拟机迁移和HA等特性在减少传统高可用投资的同时保证系统可靠性自动的故障检测、告警与恢复资源供给IaaS架构相对于传统IT架构的优势第55页资源管理通过IaaS架构实现IT资源合理化运营成本大幅减低,每台服务器每年减少1000美金②部署周期缩小,新系统部署时间提高240倍可靠性提高,故障恢复速度提高24倍,减少43小时宕机时间IDC建设APP
业务服务存储阵列VDC建设VPS服务存储虚拟化资源分配调度能力提高服务器利用率虚拟化的蔓延因素1.版权2.空间3.时间4.管理150台虚拟机因为虚拟机的泛滥浪费50000到15000美元的成本服务目录管理资源抢占与回收虚拟机存储网络应用系统中间件物理机报表与计费服务实例监控资源分配自动部署第56页通过IaaS架构实现IT资源合理化运营成本大幅减低,每台服务IaaS架构的实现:资源管理平台和基础设施云化第57页资源管理平台简化管理,自动切换基础设施云化
节约成本,超低能耗Spare
BaySpare
Pool+IaaS架构的实现:资源管理平台和基础设施云化第57页资源管1、资源管理平台第58页资源管理平台可以整合数据中心的计算资源、存储资源和网络资源,为IT资源的统一整合、管理与分配提供有力的技术支持,为各种业务提供所需资源的快速部署、动态调度和弹性伸缩能力,并针对业务系统的用户提供自服务机制,实现资源的最大化利用与服务的最快交付。资源管理平台致力于帮助企业构建安全可靠、资源共享的云数据中心,实现业务计算能力与IT资源的剥离,让底层的IT基础设施以服务的方式按需提供,从而满足业务的多变性并促进业务的高速发展。1、资源管理平台第58页资源管理平台可以整合数据中心的计算资资源管理平台的逻辑结构第59页资源管理平台资源管理平台的逻辑结构第59页资源管理平台资源管理平台的功能模块第60页资源管理平台虚拟化功能模块安全功能模块模板管理功能模块监控功能模块运营管理功能模块资源管理功能模块存储功能模块网络功能模块资源管理平台的功能模块第60页资源管理平台虚拟化功能模块安全资源管理平台的特点第61页资源实例全生命周期管理层级的多租户架构与用户自服务快速自动部署与自动弹性伸缩多数据中心异构资源的支持各种虚拟化系统+物理系统+小型机系统+为各种业务提供基础设施资源的自动部署配置资源管理平台的特点第61页资源实例层级的多租户架构快速自动部资源管理平台的端到端工作流程第62页普通用户1、申请服务实例自服务门户服务目录4、服务实例的操作(使用、更改、监控、管理)2、审批流程3、资源分配/自动部署资源分配策略:选择最优资源+资源实例全生命周期管理5、资源到期回收6、报表与计费计费账单统计报表资源管理员1、添加资源2、创建服务模板虚拟机存储网络小型机分区中间件物理机管理员普通用户1、建立用户组与用户(角色、权限、配额)运营管理员2、发布服务模板提供服务目录3、计费账务管理3、资源监控资源管理平台的端到端工作流程第62页普通用户1、申请服务实例2、基础设施云化63仓储式数据中心数据中心迁移数据中心改造仓储式数据中心数据中心迁移数据中心合并2012201320142015老旧数据中心合并,成立新型绿色数据中心;改善区域数据中心,降低PUE值服务器采购向着节能,高效发展;2、基础设施云化63仓储式数据中心数据中心迁移数据中心改造仓基础设施云化可降低能耗、节约电力成本第64页每月花销①资料来源亚马逊数据中心观察:①每月$2.3Million相关电力成本开销②当服务器成本降低时电力成本呈现持平或上升趋势建设成本运维成本建设投资中最大的是电力系统设备,占50%
运营维护成本中,电费支出比重最高基础设施云化可降低能耗、节约电力成本第64页每月花销①资料通过基础设施云化构建绿色数据中心第65页年份PUE目标IDC建设/改造IDC电力成本20113.0015亿20122.430%13.2亿20132.050%12亿20141.670%9.75
亿20151.690%8.7亿PUE3.0通常PUE2.4最佳实践PUE2.0100%0%PUE1.6制冷非IT电源消耗节省IT电源消耗温度控制优化风量控制优化压力控制优化智能冷却数据中心评估场地布置调整设备机柜优化布线路由优化场地优化IT设备供电改造电源路由改造_UPS系统改造_电源改造IT系统环境绿色数据中心通过基础设施云化构建绿色数据中心第65页年份PUE目标ID新一代绿色智能数据中心:模块化数据中心第66页建设单元内景透视图建设单元外景鸟瞰图模块单元整体设计理念模块模组DK建设单元(细胞)(组织)(个体)(社会)象生物的发育一样严谨、自然、合理建设基地仓储式数据中心的优势装配流程化高度灵活性模块化扩展低能耗高效快速部署低成本未来达成的目的:建设高起点、大规模、低成本、节能的数据中心,解决基地省份、核心城市的机房需求。通过数据中心安全、稳定、可靠运行,最终实现全网的低成本高效运营。提升企业核心竞争力。新一代绿色智能数据中心:模块化数据中心第66页建设单元内景透议题第67页大数据平台概述大数据平台架构多类型数据集成大数据混合式存储架构IaaS层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业解决方案议题第67页大数据平台概述大数据平台架构多类型数据集成大数据大数据混合式存储架构概述第68页数据应用混合式架构存储和处理技术在大数据与传统BI系统的区别在于引入了大量新的数据源,除了传统的结构化批处理数据(如CDR等),还包括大量的非结构化数据和实时性很强的流数据,如文本、点击流、信令数据等;这些新数据源的引入促进了应用的发展,使一些原来无法实现的应用成为可能,包括实时数据分析、基于文本的网络数据分析等,这些应用有着极为广泛的应用场景;为了使大数据能够有效的支撑应用,大数据的存储和处理技术就尤为关键。针对不同类型的数据采取不同的处理技术,并在大数据平台上根据应用的需求进行整合,是大数据混合式存储架构的核心目标,也是大数据平台的核心模块。大数据混合式存储架构概述第68页数据应用混合式存储和在大数据从传统的分析型和交易型系统通用的数据库逐步向分析型系统专用的数据库转变第69页传统的数据库,如OracleDB,IBMDB2等,是交易型系统和分析型系统通用的数据库,以行的方式存储,在面向大数据的处理能力上有扩展能力和处理性能的瓶颈;为了满足大数据处理的需求,大数据的处理逐步向列数据库(包括一体机)和MPP数据库(包括一体机)等分析型系统专用的数据库转变。从传统的分析型和交易型系统通用的数据库逐步向分析型系统专用的关键技术——列数据库第70页列式数据库是以列相关存储架构进行数据存储的数据库,主要适合与批量数据处理和即席查询。相对应的是行式数据库,数据以行相关的存储体系架构进行空间分配,主要适合与小批量的数据处理,常用于联机事务型数据处理。传统的行式数据库数据是按行存储的没有索引的查询使用大量I/O建立索引和物化视图需要花费大量的时间和资源面对查询的需求,数据库必须大量膨胀才能满足性能需求适用于分析型系统的列式数据库数据是按列存储,每一列单独存放数据既是索引只访问查询涉及的列,大量降低系统I/O每个列由一个线索来处理,满足并发的查询数据类型一致,数据特征相似,便于压缩关键技术——列数据库第70页列式数据库是以列相关存储架构进行列式数据库与行式数据库在分析型系统中的性能对比第71页列式数据库与行式数据库在分析型系统中的性能对比第71页列数据库的商用产品——SybaseIQ第72页列数据库的商用产品——SybaseIQ第72页列数据库的商用产品——HPVertica第73页Vertica每一列数据独立存储在磁盘上的连续块上。查询数据时,Vertica只需要取得那些需要的列,而不是被选择行的所有的列数据。由于大多数的决策分析系统只是列的子集,Vertica垂直分区的方法极大地节省了DiskI/O。从而实现数据性能的50x-1000x倍的提高。Vertiaca是一个基于列数据库技术的分析数据库解决方案。列数据库的商用产品——HPVertica第73页Verti关键技术——MPP数据库第74页并行数据库系统是新一代高性能的数据库系统,是在MPP和集群并行计算环境的基础上建立的数据库系统。并行数据库系统的目标是高性能和高可用性,通过多个处理节点并行执行数据库任务,提高整个数据库系统的性能和可用性。高性能并行数据库系统基于多处理节点的物理结构,将数据库管理技术与并行处理技术有机结合,来实现系统的高性能。高可用性高可用性可以同时在硬件和软件两个方面提供保障。在硬件方面,通过冗余的处理节点、存储设备、网络链路等硬件措施,可以保证当系统中某节点部分或完全失效时,其它的硬件设备可以接手其处理,对外提供持续服务。在软件方面,通过状态监控与跟踪、互相备份、日志等技术手段,可以保证当前系统中某节点部分或完全失效时,由它所进行的处理或由它所掌控的资源可以无损失或基本无损失地转移到其它节点,并由其它节点继续对外提供服务。关键技术——MPP数据库第74页并行数据库系统是新一代高性能Share-nothing架构第75页常见的OLTP数据库系统常常采用sharedeverything架构来做集群,例如oracleRAC架构,数据存储共享,节点间内存可以相互访问。sharednothing架构(MPP),主机,操作系统,内存,存储都是自我控制的,不存在共享。主要由masterhost,segmenthost,interconnect三大部分组成。MPP数据库通过将数据分布到多个节点上来实现规模数据的存储。数据库的瓶颈经常发生在I/O方面,mpp数据库采用分而治之的办法,将数据规律的分布到节点上,充分利用segment主机的IO能力,以此让系统达到最大的IO能力(主要是带宽)。每个表都是分布在所有节点上的。Masterhost首先通过对表的某个或多个列进行hash运算,然后根据hash结果将表的数据分布到segmenthost中。整个过程中masterhost不存放任何用户数据,只是对客户端进行访问控制和存储表分布逻辑的元数据。Share-nothing架构第75页常见的OLTP数据库商用产品——IBMNetezzaAppliance第76页AdvancedAnalyticsLoaderETLBIApplicationsFPGAMemoryCPUFPGAMemoryCPUFPGAMemoryCPUHostsHostDisk
EnclosuresS-Blades™Network
FabricODBC/
JDBCNetezza系统性能的主要优势来自其独特的AMPP处理架构,该架构将SMP前端与一个无共享的MPP后端相结合完成查询处理。该架构将经过精心挑选的各个组件集成在一起组成了平衡的整体系统。通过每个处理组件对多个数据流进行操作,并尽早过滤掉多余的数据。最多可有多达一千多个MPP处理组件共同工作,有效分解和处理工作负荷。商用产品——IBMNetezzaAppliance第76商用产品——EMCGreenplum第77页大规模并行处理MPP无共享架构普通服务器平台(服务器、网络)通过软件提升处理能力商用产品——EMCGreenplum第77页大规模并行处理大数据存储和处理的关键技术——Hadoop第78页HadoopDistributedFileSystem,简称HDFS,是一个分布式文件系统。HDFS有着高容错性的特点,并且设计用来部署在低廉的硬件上。而且它提供高吞吐量来访问应用程序的数据,适合那些有着超大数据集的应用程序。HDFS放宽了POSIX的要求这样可以实现流的形式访问文件系统中的数据。大数据存储和处理的关键技术——Hadoop第78页Hadoo大数据存储和处理的关键技术——NoSQL第79页NoSQL,指的是非关系型的数据库。NoSQL致力于解决计算机体系结构在数据存储方面庞大的水平扩展需求。Google的BigTable和Amazon的Dynamo使用的就是NoSQL型数据库。主流的NoSQL开源技术和产品有Membase,MongoDB。一些互联网巨头也开发了自己的数据库。Hypertable是一个开源、高性能、可伸缩的数据库,它采用与Google的Bigtable相似的模型。ApacheCassandra是一套开源分布式Key-Value存储系统。它最初由Facebook开发,用于储存特别大的数据。Facebook目前在使用此系统。大数据存储和处理的关键技术——NoSQL第79页NoSQL,NoSQL的产品——Membase第80页Membase容易安装、操作,可以从单节点方便的扩展到集群,而且为memcached(有线协议的兼容性)实现了即插即用功能,在应用方面为开发者和经营者提供了一个比较低的门槛。做为缓存解决方案,Memcached已经在不同类型的领域(特别是大容量的Web应用)有了广泛的使用,其中Memcached的部分基础代码被直接应用到了Membase服务器的前端。Membase是NoSQL家族的一个新的重量级的成员。Membase是开源项目,源代码采用了Apache2.0的使用许可。主要特点兼容Memcache的访问协议,text、binary两种协议都支持功能好,通过添加效劳器来横向扩展效劳,同时效劳才能根本是线性添加的,可以满足业务需求。安装方便、使用简单、扩展容易,管理界面美观。过时数据可自动删除,有可持久化存储方案的优点。支持跨机房的Membase集群,支持多数据中心。NoSQL的产品——Membase第80页Membase容NOSQL的产品——MongoDB第81页MongoDB是一个介于关系数据库和非关系数据库之间的产品,是非关系数据库当中功能最丰富,最像关系数据库的产品。MongoDB是一个基于分布式文件存储的数据库。由C++语言编写。旨在为WEB应用提供可扩展的高性能数据存储解决方案。特点:高性能、易部署、易使用,存储数据非常方便。NOSQL的产品——MongoDB第81页MongoDB是一大数据存储和处理的关键技术——流数据处理引擎第82页实时到达次序独立规模宏大很难二次处理流数据流数据处理的技术主要包括开源的S4平台,以及商用产品IBMStreamBaseCEP等;S4是一个通用的、可扩展性良好、具有部分容错能力、支持插件的分布式流计算平台,在该平台上程序员可以很方便地开发处理流数据的应用;IBMStreamBase复杂时间处理系统(CEP),使用管理高速、实时数据流新技术,是一个流数据处理引擎。StreamBase应用Java开辟,IDE是基于Eclipse进行二次开辟,功能很是强大。StreamBase也供给了相当多的Operator、Functor以及其他组件来帮助构建应用流程规则。大数据存储和处理的关键技术——流数据处理引擎第82页实时次序大数据平台的逻辑数据架构第83页接口数据结构化数据(CDR、账务、用户资料等)文本数据(网页内容、客服记录等)流数据(信令数据)数据集成清洗转换结构化数据
非结构化数据转换为结构化
实时处理大数据存储和处理平台客户级汇总中间级汇总汇总指标级汇总客户级关联中间级关联关联指标级关联…位置模型挖掘模型特征模型规则管理应用数据报表类专题类即席分析类实时分析类大数据平台的逻辑数据架构第83页接口数据结构化数据文本数据流混合式存储架构第84页接口数据结构化数据(CDR、账务、用户资料等)文本数据(网页内容、客服记录等)流数据(信令数据)数据集成清洗转换结构化数据
非结构化数据转换为结构化
实时处理大数据存储和处理平台客户级汇总中间级汇总汇总指标级汇总客户级关联中间级关联关联指标级关联…位置模型挖掘模型特征模型实时规则管理应用数据报表类专题类即席分析类实时分析类Hadoop流数据处理列数据库/MPP数据库混合式存储架构第84页接口数据结构化数据文本数据流数据数据集混合式存储架构(续)第85页根据数据的特点(结构化与非结构化)和处理需求(实时与非实时)采用不同的数据存储和处理技术;结构化数据集成(主要是记录级的处理)、非结构化数据处理、及部分数据挖掘可以在Hadoop平台实现,充分利用Hadoop在低成本、并行处理批量数据方面的优势;流数据的实时处理和实时规则管理采用流数据的处理方式,满足实时分析的需求和实时规则的触发管理;结构化数据(包括结构化后的文本数据等非结构化数据)的汇总、关联、以及应用数据都存储在列数据库或MPP数据库中,充分发挥列数据库和MPP数据库在列处理性能上的优势;混合式存储架构(续)第85页根据数据的特点(结构化与非结构化议题第86页大数据平台概述大数据平台架构多类型数据集成大数据混合式存储架构IaaS层:资源管理和模块化数据中心PaaS层:大数据平台SaaS层:行业解决方案议题第86页大数据平台概述大数据平台架构多类型数据集成大数据—Platfrom
as
a
Service,平台即服务PaaS平台:应用开发、部署、运营的平台PaaS平台概述—PlatfromasaService,平台即服务Pa大数据的PaaS平台的用户是第三方应用开发商,在整个大数据平台建设的过程中,为多个应用开发商提供统一的开发环境和应用运行环境,解决了传统分析型系统架构的问题:为什么要打造大数据PaaS平台?重复开发数据冗余运维困难数据泄密•底层基础功能重复开发,技术要求上不能统一,导致后续有新需求时改进、维护困难(需要使用不同技术、修改多处等);•实现技术及接口的不统一,不能对各应用开发商的应用进行统一的监控、运维管理;•应用数据冗余,各应用开发商根据自己的需求生成各种和其他应用开发商之间冗余的数据,没有统一的数据规划和控制;•应用数据安全性,各应用开发商都需要能访问基础数据、生成应用所需汇总数据,接触基础数据的人太多,可能会导致基础数据泄密;优势大数据的PaaS平台的用户是第三方应用开发商,在整个大数据平PaaS平台的目标把应用中不涉及业务逻辑的底层基础能力(用户、资源、权限、日志、任务等),以及基础分析能力,通过统一的服务方式进行提供,减少重复开发工作量;可以引入多个应用开发商,让应用开发商把主要精力放在应用业务逻辑上,促进应用百花齐放、优胜劣汰;提供统一的应用运行平台;规范应用的开发、发布、部署、运维的流程及技术要求,利于对应用进行统一的监控和运维管理;提供统一运行环境提供统一开发环境PaaS平台的目标把应用中不涉及业务逻辑的底层基础能力(用户PaaS平台提供的核心开发支撑能力第90页数据访问及处理引擎工作流引擎数据挖掘引擎数据可视化引擎基础功能模块提供完整的数据支撑,包括不同粒度的数据以及数据处理引擎提供包含多种统计分析和数据挖掘的引擎,以及引擎运行平台提供数据可视化工具,包括多种图形化工具并支持多种数据源接口提供工作流引擎,为解决方案提供流程支撑,以及流程中的分析集成PaaS平台提供的核心开发支撑能力第90页数据访问及处理引擎能力一:统一数据访问和处理引擎•实现统一的数据访问接口,应用不再直接连接大数据存储层中的数据库或非结构化数据,而是通过数据访问模块访问其中的数据;•实现统一的数据存储接口,应用通过调用数据存储模块来存储数据或非结构化文件,不直接访问大数据存储层中的数据源;统一数据存储统一数据访问统一数据访问、统一数据存储指的是对业务数据,不包括元数据。能力一:统一数据访问和处理引擎•实现统一的数据访问接口,应用基础支撑能力一:统一数据访问和处理引擎(续)第92页应用层任务解析任务调度任务执行任务管理统一数据访问数据访问服务数据获取语义服务大数据存储RDBMSHadoopNosql数据访问和处理引擎在统一数据访问的基础上进行任务管理,包括任务解析、调度和执行;任务解析将应用发来的数据请求进行解析,形成数据处理任务。根据应用预设的优先级,将任务进行调度和执行,并将结果反馈回应用;任务的解析和执行不直接访问大数据存储,而是经过统一数据访问模块进行;基础支撑能力一:统一数据访问和处理引擎(续)第92页应用层任数据支撑示例——用户六维全息视图基本信息消费行为通话行为位置信息手机上网行为信息服务使用行为客服使用行为支付行为购物行为第三方导入信息特征分析、模式发现偏好分析、关联预测时间序列模式分析联系图谱分析、群体识别和特征分析长期跟踪分析、发现变动、预警异常……
用户全息视图整合所有电信业务相关数据,以及移动互联网使用数据,同时结合第三方提供的数据形成最为完整的用户信息视图;
在此基础上提供深度挖掘的多种方法,为全方位发掘客户特征提供支撑能力。六维视图时间空间价值行为偏好社交第93页数据支撑示例——用户六维全息视图基本信息消费行为通话行为位置基础支撑能力二:数据挖掘引擎第94页预处理数据准备样本集管理数据准备分类算法数据挖掘建模聚类算法回归算法时间序列关联分析…模型评估评估指标管理模型验证用户追踪模型优化多模型对比模型迭代管理统一数据访问数据访问服务数据获取语义服务数据挖掘引擎数据挖掘引擎包括数据挖掘涉及的五个主要环节,数据准备、建模、模型评估、模型应用、模型优化。模型应用应用数据管理应用结果输出基础支撑能力二:数据挖掘引擎第94页预处理数据准备样本集管理基础支撑能力三:工作流引擎第95页
工作流是一系列相互衔接、自动进行或人工执行的业务活动或任务,它根据一系列过程规则、文档、信息或任务能够在不同的执行者之间进行传递与执行。
工作流引擎支持工作流的定义,创建工作流实例,并按照预定义的工作流逻辑和流程规则推进工作流实例。
通过工作流模板简化开发工作:业务场景分析流程营销活动管理流程产品策划流程基础支撑能力三:工作流引擎第95页工作流是一基础支撑能力四:数据可视化引擎第96页
通过集成数据可视化工具,提供丰富的图形展现和交互分析能力,无需定制开发,快速形成应用。231丰富的图形展现交互式分析集成地图展现区域D区域A区域B区域C区域E区域F区域G关注该内容的用户最密集的区域基础支撑能力四:数据可视化引擎第96页通过集
P
a
a
S平台数据服务数据仓库元数据库分布式文件存储应用应用应用应用应用语义服务数据获取
/存储服务用户管理安全管理运维管理服务管理监控管理基础/业务服务元数据服务ACT引擎DPT引擎离线开发环境应用容器
日志
组件
KPI
组件统一接触组件…组件IaaS事件服务流程服务事件监控事件引擎流程监控流程引擎Eclipse
N
e
t
b
e
a
n
sBISDK……平台监控管理
在线开发环境应用管理
……PaaS平台的开发和运行环境架构 P数据服务数据仓库元数据库分布式文件存储应用应用应用应用应1、准备数据生成
•应用开发者使用
“开发者工作台”
中的“DPT配置”
功能设计应用的
数据存储模型、
应用数据生成流
程、生成逻辑等;2、构建数据展示
•应用开发者使用
“离线开发工
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年金属包装容器及其附件合作协议书
- 2025年滤紫外石英玻璃灯管合作协议书
- 九年级综合实践课教学计划1
- 2025年二年级上学期班主任工作总结(3篇)
- 口外-唾液腺疾病诊疗考核试题
- 2025年个人简单门面出租合同(2篇)
- 2025年产品订购合同经典版(4篇)
- 2025年个人车位转让合同参考样本(4篇)
- 2025年交通意外保险协议样本(2篇)
- 2025年互助拼车的协议(2篇)
- 电网工程设备材料信息参考价(2024年第四季度)
- 2025年江苏农牧科技职业学院高职单招职业技能测试近5年常考版参考题库含答案解析
- 2025江苏连云港市赣榆城市建设发展集团限公司招聘工作人员15人高频重点提升(共500题)附带答案详解
- 江苏省扬州市蒋王小学2023~2024年五年级上学期英语期末试卷(含答案无听力原文无音频)
- 山西省大同市基层诊所医疗机构卫生院社区卫生服务中心村卫生所室地址信息
- 项目部、公司成本管理流程图
- 高中英语选择性必修二 Unit 1 Period 1 Reading and thinking(课件)(共38张)
- 小学生电子小报通用模板-A4电子小报15
- CAS云计算软件平台深入介绍
- 课堂教学方法与手段(课堂PPT)课件(PPT 16页)
- 氯盐型和环保型融雪剂发展现状
评论
0/150
提交评论