大数据处理平台构架设计说明书_第1页
大数据处理平台构架设计说明书_第2页
大数据处理平台构架设计说明书_第3页
大数据处理平台构架设计说明书_第4页
大数据处理平台构架设计说明书_第5页
已阅读5页,还剩9页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据解决平台及可视化架构设计阐明书版本:1.0变更统计序号版本变更阐明修改人/日期审批人/日期11.0创立目录1 1.文档介绍 31.1 文档目的 31.2 文档范畴 31.3 读者对象 31.4 参考文献 31.5 术语与缩写解释 32 系统概述 43 设计约束 54 设计方略 65 系统总体构造 75.1 大数据集成分析平台系统架构设计 75.2 可视化平台系统架构设计 116 其它 146.1 数据库设计 146.2 系统管理 146.3 日志管理 141.文档介绍文档目的

设计大数据集成分析平台,重要功效是多个数据库及文献数据;访问;采集;解析,清洗,ETL,同时能够编写模型支持后台统计分析算法。设计数据可视化平台

,应用于大数据的可视化和互动操作。为此,根据“先进实用、稳定可靠”的原则设计本大数据解决平台及可视化平台。文档范畴大数据的解决,涉及ETL、分析、可视化、使用。读者对象管理人员、开发人员参考文献术语与缩写解释缩写、术语解释BDBigdataSD系统设计,SystemDesign…系统概述

大数据集成分析平台,分为9个层次,重要功效是对多个数据库及网页等数据进行访采集、解析,清洗,整合、ETL,同时编写模型支持后台统计分析算法,提供可信的数据。

设计数据可视化平台

,分为3个层次,在大数据集成分析平台的基础上实现大实现数据的可视化和互动操作。设计约束1.系统必须遵照国家软件开发的原则。2.系统用java开发,采用开源的中间件。3.系统必须稳定可靠,性能高,满足每天千万次的访问。4.确保数据的成功抽取、转换、分析,实现高可信和高可用。设计方略系统高可用、高性能、易扩展,安全稳定,实用可靠,满足顾客的需要。系统能够进行扩展,增加数据的种类和数量。系统能够复用别的软件和算法。系统总体构造大数据集成分析平台系统架构设计1.逻辑架构2架构阐明系统分为9个层次:1)数据源:CSMAR数据库、高频系列数据库、量化因子仓库、风险控制模型数据库、量化舆情数据库、互联网的网页。2)数据获取层:接受数据源的数据和抓取网页,建立知识图谱将网页数据构造化,为人工和机器决策提供根据。3)数据导入层:通过sqoop把数据库的数据导入hbase,用flume、kafka把网页导入hbase。4)数据加工层:对导入的数据进行清洗、抽取、整合,并存入数据核心存储层。5)数据核心存储层:采用hbase、关系数据库保存加工后的数据。6)数据分析解决层:通过统计分析、数据挖掘、机器学习、风控模型等对大数据进行分析解决。7)数据服务存储层:存储分析成果,涉及Elasticsearch分布式搜索,redis分布式缓存。8)应用层:涉及报表引擎、规则引擎、风控搜索引擎、顾客认证系统、统计分析接口等。9)服务层:对内的应用服务和对外的应用服务,为顾客提供系统功效。系统采用一系列先进的开源技术框架,实现大数据的抽取、ETL转换、清洗、整合、汇总、统计分析,得出可信度高的成果,高速稳定地响应顾客的请求,可对公司的宽系列产品提供高质量的支持。还可建立公司云,把大数据平台放到云上。系统从CSMAR数据库、高频系列数据库、量化因子仓库、风险控制模型数据库、量化舆情数据库抽取数据,还用机器爬虫从互联网上抓取与金融有关的网页,对这些构造化和非构造化的数据进行抽取、清洗、整合、转换,存入hbase数据库。统计分析程序采用一定的算法和模型通过spark、hadoop的yarn、hive、pig等读取解决数据,成果保存在服务层数据库,为顾客提供可信的数据,还可通过可视化以多个统计图呈现出来,通过pc、手机能够看到成果。系统提供可视化的操作界面,顾客可自己定义统计统计和参数,系统计算分析后给出对应的图表。3.系统的特点高负载和海量数据解决能力以云存储或本地存储为基石,以云计算或公司服务器为解决核心,建立了海量的数据业务支撑的大数据平台。每天能够承受千万级PV的访

问压力,支撑亿级顾客及P级各类数据存储如金融数据、网页、日志文献、图片、文档、影音等。基于此大数据支撑平台,不仅能够解决日以继夜增加的TB级数据增量,更能满足各类实时业务需求业界领先的实时性在实时解决领域实现秒级突破,能够对各项业务数据惊醒实时查看与统计,方便客户快速做出决策和即时响应,适应当今快节奏发展趋势。如传统监控对年、月、周、日的频次统计,能够实现24小时内的实时监控,和管理现在实时变化的统计仪表盘数据,更能实现7*24的顾客实时行为监测及秒级分析。全方面运行监控指标体系不仅拥有常见的接入站点的运行监控流量指标如UV、PV、IP、新旧访客数,还建立了行为质量指标如顾客的请求,统计分析的对的度,并可在此基础之上加入客户行为分析、统计模型调优、算法调优、网站访客背景分析、鼠标点击行为等高智能的分析功效,从而为业务发展及运行方略提供了有力的数据支撑。对顾客来源和数据的进一步挖掘与分析通过该平台不仅能够看到接入网站顾客的基本信息(跳出率、回访次数、回访频率、国家分析、省份分析、都市分析、网络位置、浏览器、移动终端等),还能够理解到客户来源(如来源页面、网站、搜索引擎、核心字等)。并且在此基础上能够理解到客户访问途径,对数据进行多维钻取,进而对网站客户数据信息的采集、挖掘更加进一步。对大数据进行进一步的分析,为提高网站流量、提供科学的推荐根据、实现高质量的客户差别化服务给出有力的数据支撑。对顾客行为进行实时跟踪、立体分析及即时沟通和个性推荐服务能够针对实时在线的个体顾客进行WEBIM即时沟通,提供即时的一对一服务。并能够结合业务需求,在实现客服人员与顾客一对一的同时,呈现该顾客的历史业务操作行为及个性化信息,如顾客消费历史统计统计、行为习惯及喜好等。统一数据接入平台数据接入层采用sqoop、flume、分布式日志系统,实现推拉模式的多个主流方式,并可按需升级为统一数据接入平台,不仅支持日志及页面源码数据,还能够实现各类接口数据的无缝可视化接入,如关系型和非关系型数据、多个主流非构造化数据等。立体推荐及算法可替代平台能够对数据进行多个分析算法和模型的解决,采用mahout、mlib的二元分类、线性回归、聚类、协同过滤、卷积神经网络(CNN)进行机器学习,采用RF(随机森林)、SVM(支持向量机)、半监督学习,通过训练达成权重等参数的最佳化,优化样本空间,并实现完全自动化调参和学习。还可结合顾客群体特性、个性行为历史及多个显式、隐式反馈进行人脑分析,实现个体顾客和群体顾客的立体化推荐和全过程的人工干预。以算法平台为支撑,建立了可视化的算法训练和推荐构造的过滤植入,以增强客户个性化服务配备。实现了多个算法的替代、组合和深度学习,如传统的UCF、ICF及业务创新的二度人脉剪枝算法等,以尽符合人脑思维习惯。多个风格统计分析数据呈现方式对数据统计分析实现人性化的多个浏览器体验,传统风格如线性、柱形、饼状分析图为公司对不同时段网站访问量、网站不同模块的访问量、针对访客的不同分类进行更加直观的分析。创新风格如热力图,更形象、视觉化的体现网站页面不同位置客户点击密度,实时反映出群体顾客的爱好特性,增强运行。顾客能够自定义条件,得到可视化成果。主流客户端的全端统计该方案不仅能够统计WINDOWS/MAC/LINUX各类PC顾客的主流浏览器客户端(如IE、360、Chrome、Firefox等)的数据,还能针对移动互联网顾客统计主流移动客户端(如iphone,ipad,Android手机等)的各类数据,并能根据RESTful接口开发各类所需的各端统计,如WAP手机端,嵌入设备端等。操作体验简洁方便该方案秉承了人性化的设计理念。在确保精确、高效的基础上简化了操作过程,数据检索分析一键解决,极大的方便了客户使用。各类所需统计数据一目了然,并能针对重要数据如顾客信息、顾客行为等进行一键化深度分析或即时服务操作。可靠性强以云平台作为支撑。该平台有极强的可靠性,能够确保该软件更稳定、有效、安全的运行。可扩展性强以云平台作为支撑,能够实现各类平台组件按需横向扩展,如存储扩容、计算增强等。集成性强丰富的接口含有极强的集成性。能够实现与公司内部业务系统的高密度集成,根据不同业务部门需求调取数据和数据分析成果。可视化强统计分析数据以图表,热图等方式体现,方便客户对比判断,在使用时更舒适、方便,提供客户体验度。多个操作过程如算法训练、人工干预、数据ETL等均实现可视化,根本性解决了手工代码操作的问题。提供定制服务能够根据客户的特定需求进行更丰富的功效扩展,量身打造适宜的实时运行分析及服务平台。可视化平台系统架构设计

数据可视化平台,实现

大数据的可视化和互动操作。1.逻辑架构2.架构阐明系统分为3个层次:1)应用系统:提供可视化的操作界面和显示成果,还涉及决策支持

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论