大数据处理平台构架设计说明书_第1页
大数据处理平台构架设计说明书_第2页
大数据处理平台构架设计说明书_第3页
大数据处理平台构架设计说明书_第4页
大数据处理平台构架设计说明书_第5页
已阅读5页,还剩6页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据办理平台及可视化架构设计说明书版本:1。0改正记录序号版本改正说明更正人/日期审批人/日期11.0创办李万鸿2015-3—18目录11.文档介绍......................................................................................................................................21.1文档目的......................................................................................................21。2文档范围......................................................................................................21.3读者对象......................................................................................................21。4参照文件......................................................................................................21。5术语与缩写讲解...........................................................................................22系统归纳...........................................................................................................................................33设计拘束...........................................................................................................................................44设计策略...........................................................................................................................................55系统整体结构....................................................................................................................................65。1大数据集成解析平台系统架构设计..............................................................65.2可视化平台系统架构设计............................................................................96其余.................................................................................................................................................116。1数据库设计.................................................................................................116.2系统管理.....................................................................................................116。3日志管理.....................................................................................................111/1111.文档介绍1.1文档目的设计大数据集成解析平台,主要功能是多种数据库及文件数据;接见;采集;解析,清洗,ETL,同时能够编写模型支持后台统计解析算法。设计数据可视化平台,应用于大数据的可视化和互动操作.为此,依照“先进合用、牢固可靠"的原则设计本大数据办理平台及可视化平台。1.2文档范围大数据的办理,包括ETL、解析、可视化、使用。1.3读者对象管理人员、开发人员1.4参照文件1.5术语与缩写讲解缩写、术语讲解BDBigdataSD系统设计,SystemDesign2/11系统归纳大数据集成解析平台,分为9个层次,主要功能是对多种数据库及网页等数据进行访采集、解析,冲刷,整合、ETL,同时编写模型支持后台统计解析算法,供应可信的数据。设计数据可视化平台,分为3个层次,在大数据集成解析平台的基础上实现大实现数据的可视化和互动操作。3/11设计拘束。系统必定依照国家软件开发的标准。2.系统用java开发,采用开源的中间件。3。系统必定牢固可靠,性能高,满足每天千万次的接见。4。保证数据的成功抽取、变换、解析,实现高可信和高可用.4/11设计策略1.系统高可用、高性能、易扩展,安全牢固,合用可靠,满足用户的需要.系统能够进行扩展,增加数据的种类和数量。系统能够复用其余软件和算法。5/11系统整体结构5.1大数据集成解析平台系统架构设计1.逻辑架构架构说明系统分为9个层次:1)数据源:CSMAR数据库、高频系列数据库、量化因子库房、风险控制模型数据库、量化舆情数据库、互联网的网页。数据获取层:接收数据源的数据和抓取网页,建立知识图谱将网页数据结构化,为人工和机器决策供应依照。3)数据导入层:经过sqoop把数据库的数据导入hbase,用flume、kafka把网页导入hbase。4)数据加工层:对导入的数据进行冲刷、抽取、整合,并存入数据核心储藏层。5)数据核心储藏层:采用hbase、关系数据库保存加工后的数据。6)数据解析办理层:经过统计解析、数据挖掘、机器学习、风控模型等对大数据进行解析办理。7)数据服务储藏层:储藏解析结果,包括Elasticsearch分布式找寻,redis分布式缓存。应用层:包括报表引擎、规则引擎、风控找寻引擎、用户认证系统、统计解析接口等。9)服务层:对内的应用服务和对外的应用服务,为用户供应系统功能。系统采用一系列先进的开源技术框架,实现大数据的抽取、ETL变换、冲刷、整合、汇总、统计解析,得出可信度高的结果,高速牢固地响应用户的央求,可对企业的宽系列产品供应高质量的支持。还可建立企业云,把大数据平台放到云上.系统从CSMAR数据库、高频系列数据库、量化因子库房、风险控制模型数据库、量化舆情数据库抽取数据,还用机器爬虫从互联网上抓取与金融相关的网页,对这些结构化和非结构化的数据进行抽取、冲刷、整合、变换,存入hbase数据库.6/11统计解析程序采用必然的算法和模型经过spark、hadoop的yarn、hive、pig等读取办理数据,结果保存在服务层数据库,为用户供应可信的数据,还可经过可视化以各种统计图展现出来,经过pc、手机能够看到结果。系统供应可视化的操作界面,用户可自己定义统计统计和参数,系统计算解析后给出对应的图表。系统的特点1、高负载和海量数据办理能力以云储藏或当地储藏为基石,以云计算或企业服务器为办理核心,建立了海量的数据业务支撑的大数据平台。每天能够承受千万级PV的接见压力,支撑亿级用户及P级各种数据储藏如金融数据、网页、日志文件、图片、文档、影音等。基于此大数据支撑平台,不但能够办理日以继夜增加的TB级数据增量,更能满足各种实时业务需求2、业界当先的实时性在实时办理领域实现秒级打破,能够对各项业务数据惊醒实时查察与统计,方便客户快速做出决讲和即时响应,适应此刻快节奏发展趋势。如传统监控对年、月、周、日的频次统计,能够实现24小时内的实时监控,和管理当前实时变化的统计仪表盘数据,更能实现7*24的用户实时行为监测及秒级解析。3、全面运营监控指标系统不但拥有常有的接入站点的运营监控流量指标如UV、PV、IP、新旧访客数,还建立了行为质量指标如用户的央求,统计解析的正确度,并可在此基础之上加入客户行为解析、统计模型调优、算法调优、网站访客背景解析、鼠标点击行为等高智能的解析功能,进而为业务发展及运营策略供应了有力的数据支撑。4、对用户本源和数据的深入挖掘与解析经过该平台不但能够看到接入网站用户的基本信息(跳出率、回访次数、回访频次、国家解析、省份解析、城市解析、网络地址、阅读器、移动终端等),还能够够认识到客户本源(如本源页面、网站、找寻引擎、要点字等)。并且在此基础上能够认识到客户接见路径,对数据进行多维钻取,进而对网站客户数据信息的采集、挖掘更加深入.对大数据进行深入的解析,为提升网站流量、供应科学的介绍依照、实现高质量的客户差异化服务给出有力的数据支撑。7/115、对用户行为进行实时追踪、立体解析及即时沟通和个性介绍服务能够针对实时在线的个体用户进行WEBIM即时沟通,供应即时的一对一服务。并能够结合业务需求,在实现客服人员与用户一对一的同时,展现该用户的历史业务操作行为及个性化信息,如用户花销历史记录统计、行为习惯及喜好等。6、一致数据接入平台数据接入层采用sqoop、flume、分布式日志系统,实现推拉模式的各种主流方式,并可按需升级为一致数据接入平台,不但支持日志及页面源码数据,还能够够实现各种接口数据的无缝可视化接入,如关系型和非关系型数据、各种主流非结构化数据等。7、立体介绍及算法可代替平台能够对数据进行多种解析算法和模型的办理,采用mahout、mlib的二元分类、线性回归、聚类、共同过滤、卷积神经网络(CNN)进行机器学习,采用RF(随机森林)、SVM(支持向量机)、半督查学习,经过训练达到权重等参数的最正确化,优化样本空间,并实现完好自动化调参和学习。还可结合用户集体特点、个性行为历史及各种显式、隐式反响进行人脑解析,实现个体用户和集体用户的立体化介绍和全过程的人工干预。以算法平台为支撑,建立了可视化的算法训练和介绍结构的过滤植入,以增强客户个性化服务配置。实现了各种算法的代替、组合和深度学习,如传统的UCF、ICF及业务创新的二度人脉剪枝算法等,以尽吻合人脑思想习惯。8、多种风格统计解析数据展现方式对数据统计解析实现人性化的各种阅读器体验,传统风格如线性、柱形、饼状解析图为企业对不同样时段网站接见量、网站不同样模块的接见量、针对访客的不同样分类进行更加直观的解析。创新风格如热力求,更形象、视觉化的表现网站页面不同样地址客户点击密度,实时反响出集体用户的兴趣特点,增强运营.用户能够自定义条件,获取可视化结果.9、主流客户端的全端统计该方案不但能够统计WINDOWS/MAC/LINUX各种PC用户的主流阅读器客户端(如IE、360、Chrome、Firefox等)的数据,还能够针对搬动互联网用户统计主流搬动客户端(如iphone,ipad,Android手机等)的各8/11类数据,并能依照RESTful接口开发各种所需的各端统计,如WAP手机端,嵌入设备端等。10、操作体验简洁方便该方案秉承了人性化的设计理念.在保证精准、高效的基础上简化了操作过程,数据检索解析一键解决,极大的方便了客户使用。各种所需统计数据如数家珍,并能针对主要数据如用户信息、用户行为等进行一键化深度解析或即时服务操作。11、可靠性强以云平台作为支撑。该平台有极强的可靠性,能够保证该软件更牢固、有效、安全的运行。12、可扩展性强以云平台作为支撑,能够实现各种平台组件按需横向扩展,如储藏扩容、计算增强等。13、集成性强丰富的接口拥有极强的集成性。能够实现与企业内部业务系统的高密度集成,依照不同样业务部门需求调取数据和数据解析结果.14、可视化强统计解析数据以图表,热图等方式表现,方便客户比较判断,在使用时更酣畅、方便,供应客户体验度。各种操作过程如算法训练、人工干预、数据ETL等均实现可视化,根本性解决了手工代码操作的问题。15、供应定制服务能够依照客户的特定需求进行更丰富的功能扩展,量身打造合适的实时运营解析及服务平台。5.2可视化平台系统架构设计数据可

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论