版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据处理平台及可视化架构设计说明书版本:1.0变更记录序号版本变更说明修改人/日期审批人/日期11.0创立李万鸿2023-3-18目录11.文档介绍31.1文档目的31.2文档范围31.3读者对象31.4参考文献31.5术语与缩写解释32系统概述43设计约束54设计谋略65系统总体结构75.1大数据集成分析平台系统架构设计75.2可视化平台系统架构设计116其它146.1数据库设计146.2系统管理146.3日志管理141.文档介绍文档目的设计大数据集成分析平台,主要功能是多种数据库及文件数据;访问;采集;解析,清洗,ETL,同时可以编写模型支持后台统计分析算法。设计数据可视化平台,应用于大数据的可视化和互动操作。为此,根据“先进实用、稳定可靠〞的原那么设计本大数据处理平台及可视化平台。文档范围大数据的处理,包括ETL、分析、可视化、使用。读者对象管理人员、开发人员参考文献术语与缩写解释缩写、术语解释BDBigdataSD系统设计,SystemDesign…系统概述大数据集成分析平台,分为9个层次,主要功能是对多种数据库及网页等数据进行访采集、解析,清洗,整合、ETL,同时编写模型支持后台统计分析算法,提供可信的数据。设计数据可视化平台,分为3个层次,在大数据集成分析平台的根底上实现大实现数据的可视化和互动操作。设计约束1.系统必须遵循国家软件开发的标准。2.系统用java开发,采用开源的中间件。3.系统必须稳定可靠,性能高,满足每天千万次的访问。4.保证数据的成功抽取、转换、分析,实现高可信和高可用。设计谋略系统高可用、高性能、易扩展,平安稳定,实用可靠,满足用户的需要。系统可以进行扩展,增加数据的种类和数量。系统可以复用别的软件和算法。系统总体结构大数据集成分析平台系统架构设计1.逻辑架构2架构说明系统分为9个层次:1〕数据源:CSMAR数据库、高频系列数据库、量化因子仓库、风险控制模型数据库、量化舆情数据库、互联网的网页。2〕数据获取层:接收数据源的数据和抓取网页,建立知识图谱将网页数据结构化,为人工和机器决策提供依据。3〕数据导入层:通过sqoop把数据库的数据导入hbase,用flume、kafka把网页导入hbase。4〕数据加工层:对导入的数据进行清洗、抽取、整合,并存入数据核心存储层。5〕数据核心存储层:采用hbase、关系数据库保存加工后的数据。6〕数据分析处理层:通过统计分析、数据挖掘、机器学习、风控模型等对大数据进行分析处理。7〕数据效劳存储层:存储分析结果,包括Elasticsearch分布式搜索,redis分布式缓存。8〕应用层:包括报表引擎、规那么引擎、风控搜索引擎、用户认证系统、统计分析接口等。9〕效劳层:对内的应用效劳和对外的应用效劳,为用户提供系统功能。系统采用一系列先进的开源技术框架,实现大数据的抽取、ETL转换、清洗、整合、汇总、统计分析,得出可信度高的结果,高速稳定地响应用户的请求,可对公司的宽系列产品提供高质量的支持。还可建立企业云,把大数据平台放到云上。系统从CSMAR数据库、高频系列数据库、量化因子仓库、风险控制模型数据库、量化舆情数据库抽取数据,还用机器爬虫从互联网上抓取与金融相关的网页,对这些结构化和非结构化的数据进行抽取、清洗、整合、转换,存入hbase数据库。统计分析程序采用一定的算法和模型通过spark、hadoop的yarn、hive、pig等读取处理数据,结果保存在效劳层数据库,为用户提供可信的数据,还可通过可视化以各种统计图展现出来,通过pc、可以看到结果。系统提供可视化的操作界面,用户可自己定义统计统计和参数,系统计算分析后给出对应的图表。3.系统的特点高负载和海量数据处理能力以云存储或本地存储为基石,以云计算或企业效劳器为处理核心,建立了海量的数据业务支撑的大数据平台。每天可以承受千万级PV的访
问压力,支撑亿级用户及P级各类数据存储如金融数据、网页、日志文件、图片、文档、影音等。基于此大数据支撑平台,不仅可以处理日以继夜增长的TB级数据增量,更能满足各类实时业务需求业界领先的实时性在实时处理领域实现秒级突破,可以对各项业务数据惊醒实时查看与统计,方便客户快速做出决策和即时响应,适应当今快节奏开展趋势。如传统监控对年、月、周、日的频次统计,可以实现24小时内的实时监控,和管理当前实时变化的统计仪表盘数据,更能实现7*24的用户实时行为监测及秒级分析。全面运营监控指标体系不仅拥有常见的接入站点的运营监控流量指标如UV、PV、IP、新旧访客数,还建立了行为质量指标如用户的请求,统计分析的正确度,并可在此根底之上参加客户行为分析、统计模型调优、算法调优、网站访客背景分析、鼠标点击行为等高智能的分析功能,从而为业务开展及运营策略提供了有力的数据支撑。对用户来源和数据的深入挖掘与分析通过该平台不仅可以看到接入网站用户的根本信息(跳出率、回访次数、回访频率、国家分析、省份分析、城市分析、网络位置、浏览器、移动终端等),还可以了解到客户来源(如来源页面、网站、搜索引擎、关键字等)。并且在此根底上可以了解到客户访问路径,对数据进行多维钻取,进而对网站客户数据信息的采集、挖掘更加深入。对大数据进行深入的分析,为提升网站流量、提供科学的推荐依据、实现高质量的客户差异化效劳给出有力的数据支撑。对用户行为进行实时跟踪、立体分析及即时沟通和个性推荐效劳可以针对实时在线的个体用户进行WEBIM即时沟通,提供即时的一对一效劳。并可以结合业务需求,在实现客服人员与用户一对一的同时,展现该用户的历史业务操作行为及个性化信息,如用户消费历史记录统计、行为习惯及喜好等。统一数据接入平台数据接入层采用sqoop、flume、分布式日志系统,实现推拉模式的各种主流方式,并可按需升级为统一数据接入平台,不仅支持日志及页面源码数据,还可以实现各类接口数据的无缝可视化接入,如关系型和非关系型数据、各种主流非结构化数据等。立体推荐及算法可替换平台可以对数据进行多种分析算法和模型的处理,采用mahout、mlib的二元分类、线性回归、聚类、协同过滤、卷积神经网络〔CNN〕进行机器学习,采用RF〔随机森林〕、SVM〔支持向量机〕、半监督学习,通过训练到达权重等参数的最正确化,优化样本空间,并实现完全自动化调参和学习。还可结合用户群体特征、个性行为历史及各种显式、隐式反应进行人脑分析,实现个体用户和群体用户的立体化推荐和全过程的人工干预。以算法平台为支撑,建立了可视化的算法训练和推荐结构的过滤植入,以增强客户个性化效劳配置。实现了各种算法的替换、组合和深度学习,如传统的UCF、ICF及业务创新的二度人脉剪枝算法等,以尽符合人脑思维习惯。多种风格统计分析数据展现方式对数据统计分析实现人性化的各种浏览器体验,传统风格如线性、柱形、饼状分析图为企业对不同时段网站访问量、网站不同模块的访问量、针对访客的不同分类进行更加直观的分析。创新风格如热力图,更形象、视觉化的表达网站页面不同位置客户点击密度,实时反映出群体用户的兴趣特征,增强运营。用户可以自定义条件,得到可视化结果。主流客户端的全端统计该方案不仅可以统计WINDOWS/MAC/LINUX各类PC用户的主流浏览器客户端(如IE、360、Chrome、Firefox等)的数据,还能针对移动互联网用户统计主流移动客户端(如iphone,ipad,Android等)的各类数据,并能根据RESTful接口开发各类所需的各端统计,如WAP端,嵌入设备端等。操作体验简洁方便该方案秉承了人性化的设计理念。在确保精准、高效的根底上简化了操作过程,数据检索分析一键解决,极大的方便了客户使用。各类所需统计数据一目了然,并能针对主要数据如用户信息、用户行为等进行一键化深度分析或即时效劳操作。可靠性强以云平台作为支撑。该平台有极强的可靠性,能够保证该软件更稳定、有效、平安的运行。可扩展性强以云平台作为支撑,可以实现各类平台组件按需横向扩展,如存储扩容、计算增强等。集成性强丰富的接口具有极强的集成性。可以实现与企业内部业务系统的高密度集成,根据不同业务部门需求调取数据和数据分析结果。可视化强统计分析数据以图表,热图等方式表达,方便客户比照判断,在使用时更舒适、方便,提供客户体验度。各种操作过程如算法训练、人工干预、数据ETL等均实现可视化,根本性解决了手工代码操作的问题。提供定制效劳可以根据客户的特定需求进行更丰富的功能扩展,量身打造适宜的实时运营分析及效劳平台。可视化平台系统架构设计数据可视化平台,实现大数据的可视化和互动操作。1.逻辑架构2.架构说明系统分为3个层次:1〕应用系统:提供可视化的操作界面和显示结果,还包括决策
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 委托办理供电委托书模板
- 电梯机房管理制
- 租工地做停车场合同(2篇)
- 资产收购合同书范本(2篇)
- 天净沙课件 秋思
- 嫘祖养蚕 课件
- 《蜗牛的花园》少儿美术教育绘画课件创意教程教案
- 西南林业大学《插花艺术》2022-2023学年第一学期期末试卷
- 西京学院《商务谈判》2021-2022学年第一学期期末试卷
- 西京学院《课程与教学论》2022-2023学年第一学期期末试卷
- 江苏省扬州市梅岭中学2023-2024学年七年级新生入学问卷调查英语试题
- 电力工程施工行业分析报告
- GB 44017-2024燃气用具连接用金属包覆软管
- 2023年七年级地理上册期末测试卷(附答案)
- HYT 147.7-2013 海洋监测技术规程 第7部分:卫星遥感技术方法
- 暖通工程 投标方案(技术标)
- 化妆品市场微观环境分析
- MOOC 金羽飞扬-世界冠军的羽毛球课堂-哈尔滨工业大学 中国大学慕课答案
- (正式版)SHT 3075-2024 石油化工钢制压力容器材料选用规范
- T-CACM 1202-2019 中医外科临床诊疗指南 下肢慢性溃疡
- 2024-2029年中国智慧服务行业市场发展分析及竞争格局与投资前景研究报告
评论
0/150
提交评论