版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
金融大数据信用风险控制项目解决方案说明书XX科技股份有限公司编制目录一、项目存在问题及需解决问题 31. 存在问题 32. 需解决问题 3二、解决方案 41. 分布式文件存储(HDFS) 42. 分布式数据库(HBASE) 53. 分布式计算框架(MapReduce) 54. 分布式消息订阅(Kafka) 5三、开发范围 61. 用户注册 62. 用户登录 73. 权限管理 74. 系统管理 85. 运维管理 86. API 97. 页面展示 9
项目存在问题及需解决问题存在问题数据采集问题数据存储问题数据预处理问题数据挖掘问题可视化展现问题需解决问题数据采集“金融大数据信用风险控制平台”首先需要收集各种金融数据,它们可能是结构化的,也可能是半结构化或非结构化的;既可能来自银行内部的各业务系统,也可能由外部提供;既可以是静态的(如属性数据),也可以是动态的(如行为数据)。而金融数据采集产品就是根据业务需要,将这些数据采集到“金融大数据信用风险控制项目”中。数据存储Hadoop集群通过将数据分配到多个集群节点上并进行并行处理,因此尤为适合对大数据的存储和分析。Hadoop集群通过添加节点数量来有效的扩展集群,因此具有极好的可扩展性;Hadoop软件都是开源的,也不必购买昂贵的高档服务器,因此具有很好的性价比。Hadoop集群将数据分片发送至多个节点保存,因此具有极高的容错性。数据预处理采集到金融数据来自多种数据源,大多存在着不完整性和不一致性,无法直接用于数据挖掘或严重影响数据挖掘的效率。因此在进行数据挖掘之前,通过使用数据预处理工具,灵活对原始数据的清理、变换、集成等处理,可以减少挖掘所需数据量,缩短所需时间,并极大提高数据挖掘的质量。数据挖掘数据挖掘是通过分析数据、从大量数据中寻找其潜在规律的技术。利用预测、关联、分类、聚类、时序分析等技术,数据挖掘可以从海量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识。可视化展现数据挖掘得到的结果,往往数据量巨大、关联关系复杂、维度多以及双向互动需求等。解决方案解决方案架构系统开发平台使用Hadoop大数据开发平台。Hadoop是一个高度可扩展的存储平台,可以存储和分发横跨数百个并行操作的廉价的服务器数据集群。能扩展到处理大量的数据,能提供成百上千TB的数据节点上运行的应用程序。Hadoop能够有效的在几分钟内处理TB级的数据。相比关系型数据库管理系统更具有优势。它适用于任何规模的非结构化数据持续增长的企业,将帮助电信运营商持续提高用户体验。系统采用面向对象的软件设计方法,把整个系统看作是多个离散对象的组合。系统设计时,首先把业务流程分解成功能模块及其业务实体对象,然后根据业务流程分析对于这些业务实体对象的操作方法,形成业务处理对象,最后把各个功能模块关联起来,形成系统。软件设计是一个将需求转变为软件的过程,系统通过逐步求精使得设计陈述逐渐接近于源代码。系统程序采用MVC的设计思想,将展现逻辑、控制逻辑、业务处理逻辑分离。系统采用参数化的设计思想,定义和管理系统的实体及配置,调整实体以适应外部变化。系统采用J2EE技术保证程序逻辑实现的平台无关性,并便于安装部署。系统采用AJAX技术,提高客户操作的交互性,保证实际使用的易用性。系统采用echarts可视化框架实现数据展示。关键技术分布式文件存储(HDFS)HDFS(HadoopDistributedFileSystem),作为GoogleFileSystem(GFS)的实现,是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获得性、高吞吐率等特征为海量数据提供了不怕故障的存储,为超大数据集(LargeDataSet)的应用处理带来了很多便利。分布式数据库(HBASE)HBase是一个分布式的、面向列的开源数据库,该技术来源于FayChang所撰写的Google论文“Bigtable:一个结构化数据的分布式存储系统”。就像Bigtable利用了Google文件系统(FileSystem)所提供的分布式数据存储一样,HBase在Hadoop之上提供了类似于Bigtable的能力。HBase是Apache的Hadoop项目的子项目。HBase不同于一般的关系数据库,它是一个适合于非结构化数据存储的数据库。另一个不同的是HBase基于列的而不是基于行的模式。分布式计算框架(MapReduce)MapReduce是一种编程模型,用于大规模数据集(大于1TB)的并行运算。概念"Map(映射)"和"Reduce(归约)",是它们的主要思想,都是从函数式编程语言里借来的,还有从矢量编程语言里借来的特性。它极大地方便了编程人员在不会分布式并行编程的情况下,将自己的程序运行在分布式系统上。当前的软件实现是指定一个Map(映射)函数,用来把一组键值对映射成一组新的键值对,指定并发的Reduce(归约)函数,用来保证所有映射的键值对中的每一个共享相同的键组。分布式消息订阅(Kafka)Kafka是由Apache软件基金会开发的一个开源流处理平台,由Scala和Java编写。Kafka是一种高吞吐量的分布式发布订阅消息系统,它可以处理消费者在网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。对于像Hadoop一样的日志数据和离线分析
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年山东淄博市沂源县事业单位招聘83人历年管理单位笔试遴选500模拟题附带答案详解
- 2025年山东淄博临淄区事业单位招考工作人员管理单位笔试遴选500模拟题附带答案详解
- 2025年山东济宁曲阜市事业单位招聘工作人员(卫生类)86人管理单位笔试遴选500模拟题附带答案详解
- 2025年山东济宁市任城区事业单位“优才”管理单位笔试遴选500模拟题附带答案详解
- 2025年山东德州平原县事业单位高层次人才引进54人历年管理单位笔试遴选500模拟题附带答案详解
- 2025年山东威海市市直部分事业单位选聘45人历年管理单位笔试遴选500模拟题附带答案详解
- 2025年山东临沂费县部分事业单位公开招聘综合类岗位工作人员40人历年管理单位笔试遴选500模拟题附带答案详解
- 2025年山东临朐红哨子旅游开发限公司景区管理人才招聘23人管理单位笔试遴选500模拟题附带答案详解
- 2025年宿州市埇桥区人民检察院招考人员管理单位笔试遴选500模拟题附带答案详解
- 2025年宣城市中级人民法院招考司法辅助人员管理单位笔试遴选500模拟题附带答案详解
- 2024年度瑜伽教练与瑜伽馆劳动合同3篇
- 2024年广东省韶关市公开招聘警务辅助人员(辅警)笔试摸底备战测试(3)卷含答案
- 2024年秋期国家开放大学《0-3岁婴幼儿的保育与教育》大作业及答案
- 外研版(2024新版)七年级上册英语期末质量监测试卷 3套(含答案)
- 6.1认识经济全球化 课件高中政治统编版选择性必修一当代国际政治与经济
- 高空热气球飞行安全协议
- 2024预防流感课件完整版
- 电梯维保管理体系手册
- 2024年国家电网招聘之通信类题库及参考答案(考试直接用)
- 第12课《词四首》课件+2023-2024学年统编版语文九年级下册
- 合伙开公司股份分配协议书
评论
0/150
提交评论