




已阅读5页,还剩8页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
中国证券数据中心自主建设项目介绍近年来,各家券商都认识到建设企业级数据中心的重要性,但是由于各家的技术力量、业务水平和目标定位差异很大,所以都普遍面临着“为何建设数据中心” 、“如何定位数据中心”、“如何建设数据中心”等诸如此类的问题。在此,我们将把我们的经验和想法与大家分享。(1) 为何建设数据中心a.简化信息系统架构。数据中心建设后可以大大简化各系统之间的关系,生产系统是数据的生产者,业务系统既是数据的生产者又是数据的消费者,而数据中心是物流中心和配送中心。b.减轻生产系统压力。通过建设数据中心,可以将数据查询、数据统计、数据分析、数据服务等功能与生产系统进行剥离,让生产系统瘦身,从而大大减轻生产系统的压力。c.统一业务统计口径。数据中心中存放的数据并不是简单地把各业务系统数据进行集中存放,而是通过一套标准的业务定义规则、数据转换规则和数据组织方式进行存储。其目的就是在保证数据的原始性、完整性、连续性的同时达到数据处理过程中的业务统一性。d.提高业务创新能力。数据中心是数据加工厂,同时也是价值发现者,为业务分析和知识发现提供了一个平台,从而能够大大提高业务的创新能力。e.提升决策分析水平。数据中心的数据具有全面性、包容性和权威性,为数据深度挖掘提供了先决条件,也为决策分析提供了强有力的支持。(2) 如何定位数据中心a.数据加工厂。在保持业务数据原始性和完整性的基础上,按一定的业务规则、指标、粒度对数据进行加工处理。b.数据服务者。建设统一的数据服务平台,为各个业务系统和数据消费者以一定服务形式提供所需数据。c.数据发布者。数据中心体现了数据的权威性,向外报送的数据可以以统一的口径对外发布。d.业务发动机。数据中心的建设为创新业务的开拓奠定了坚实的基础,有了数据中心的基础,可以很方便很快速开发和实施一些增值服务系统。e.价值发现者。通过数据中心数据长期的积累,我们可以从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道的但又是潜在有用的信息和知识。(3) 如何建设数据中心a.走自主开发建设道路。能够贯彻落实属于我们的业务,量身定做,快速响应业务部门的需求,节约运行维护成本,推动业务创新。b.分步骤建设数据中心。数据中心是一个持续建设的项目,应根据现实和未来的需求分步骤来建设数据中心。c.构建稳定高效的平台。面向海量数据,构建一个稳定高效的数据处理平台和服务平台是数据中心建设的核心。d. 建立科学的数据模型。根据证券行业业务的特点,结合科学的数据组织方式搭建企业数据仓库,为今后数据统计、数据分析和数据挖掘打好基础。e. 建立智能的信息平台。针对数据中心存放的不同数据类型采用成熟的智能分析、统计、挖掘、推理等工具对数据(信息)进行深加工和处理,获取有价值的信息。以上是我们对建设企业级数据中心的理解。在实施这个项目过程中,我们遵循自我为主的原则,把技术和业务进行有效的融合,真正把数据中心建设成既高度自主可控又充分发挥效能的平台。一、项目特点介绍1.项目核心价值(1) 自主开发,量身定制随着行业新业务不断推出和竞争越来越激烈,券商越来越迫切需要通过技术创新来提供差异化产品和差异化服务。由于证券交易类产品行业同质化比较大,这类应用系统可以由专业开发商提供并实施。而诸如数据中心、CRM等业务管理系统个性化强,只有通过自主开发来真正实现量身定制。所以我公司从项目立项开始就提出要走自主建设的道路,这种模式的特点是随着项目建设的不断深入,量身定制的优势将越来越突现。(2) 贴近业务,快速响应项目之初,业务人员对数据中心到底能做什么还是不太清楚,但随着项目建设的深入以及业务人员参与度的提高,他们已经越来越感受到数据中心建设的价值和其发挥的功效。在后续的建设过程中,由于“需求提出软件开发数据服务运行保障”整个链条都是自己掌控,数据中心越来越能贴近业务,真正实现了速响应业务的需要。例如,CRM中只要提出一些新的数据需求,数据中心就能够很快很方便地提供这样的服务。(3) 持续改进,助力创新由于始终坚持自主开发的基本原则,一方面,我们不但能够对数据中心技术平台进行持续的改进,同时也能够根据业务的发展和需求的变化不断完善业务模型和业务规则;另一方面,随着研发的逐步深入,依靠自身的力量和先进的手段完全能够从丰富的数据中不断发现新的价值,为业务创新提供强有力的支持。上面所述的持续改进和助力创新的参与者主要是公司内部的技术人员和业务人员,通过数据中心产生的研发成果和业务创新不容易被复制,能够成为一个企业核心竞争力的产品。(4) 拓展应用,制造产品自从有了数据中心,依托于数据中心拓展了多个业务应用系统,而且这种拓展速度较以前快得多。如公司的反洗钱系统和CRM系统,这两个系统依托了数据中心强大的数据处理功能和数据服务功能在短期内就达到了建设的目标。数据中心不仅是一种资源,同时还是数据加工厂、数据服务者、数据发布者、业务发动机和价值发现者。在这基础上,能够迅速把应用延伸到CRM、风控、经纪业务管理、呼叫中心、合规管理、门户网站等应用系统中。证券行业正处于一个产业升级时期,金融工业化要求券商需要打造产品生产流水线的平台。例如,随着投顾业务的发展,可以利用数据中心平台高速的计算能力和处理能力,通过建立业务模型,设计并生产出我们需要的投顾产品。这项工作正在进行中,预计年内会通过平台推出第一批数据产品。(5) 培养队伍,持续建设通过自主开发的模式,我们就能够建立自己的人员梯队,并持续培养自己的业务专家和技术专家,为数据中心的持续化建设做好人力资源的保障。2.项目技术特点(1) 采用自主化建设模式自主化建设模式是项目开始就定下的原则,基于这个原则,从项目规划、系统选型、项目实施到后续的系统运行依靠自己的力量来完成,包括工具的选型、系统搭建、数据处理过程、数据服务过程、数据模型设计、商业智能应用、系统运维。数据中心几乎涵盖了公司所有应用系统的业务数据,也只有我们自己才能够正确把握使用部门提出的需求和实现方法,在某种意义上,我们使用数据中心基础平台工具实现需求目标的能力要超出那些专业厂商。不仅如此,由于数据中心存储着公司大量的重要数据资产和个性化、专业化计算模型,只有自主开发才能真正实现自主可控。虽然数据仓库、ETL、BI等工具提供商专业性要胜于我们,但是我们的优势是了解熟悉信息系统架构和安全架构,整合和合理利用资源的能力强,能够避免信息化建设过程中产生不必要的资源浪费和冗余。(2) 采用开放式主流技术采用开放式主流技术其优势和好处是不言而喻的,也只有采用开放式主流技术才能发挥自主开发的作用,进而保障所建数据中心的延续性和生命力。从上图可以看出,我们选用的平台(硬件、操作系统、数据库、工具)都是些开放式的主流技术平台,完全可以自己掌握、自己运维。特别是选型过程中,我们在开放性、兼容性、可用性方面做了大量的测试,确保系统之间能够无缝对接。(3) 采用高性能处理平台我们选择的数据仓库平台(EDW)、数据整合平台(ETL)和商业智能工具(BI)都能支持高性能处理的要求。数据仓库选用的是GreenPlum产品,它采用的是一种“海量数据并行处理(MPP)”技术,通过多节点并行处理机制完成对海量数据的高速运算和处理,这在后续的系统运行过程中得以证明。数据整合工具采用的是IBM DataStage产品,它也是采用了并行扩展和并行处理的技术,可以根据处理数据量的大小方便地进行平行扩展,任务调度统一管理。商业智能工具采用的是IBM Cognos产品,它在商业智能应用方面一种很优秀的工具,不仅处理效率高,而且自带多维处理和多维分析功能。(4) 采用合适的数据模型在数据仓库建设过程中,以往大家都为怎样组织数据发愁,数据组织得好坏将直接影响后续平台的运算效率、数据一致性、统计正确性、业务扩展能力等。在项目实施过程中,我们首先借鉴金融行业普适用的金融数据模型,在这基础上结合证券业务的特点重新梳理这个模型,并进行了改进。当然,随着业务的不断发展和变化,这个模型需要不断丰富和优化。(5) 注重数据质量的管控数据中心是数据加工厂、数据服务者、数据发布者、业务发动机和价值发现者,如果数据质量出现问题,一切皆无从谈起。所以,加强数据质量的管理和保障数据处理的每个环节无误才能真正树立数据中心数据的权威性。在这方面,我们主要采用了技术元数据的管理、业务源数据业务规则监控、数据处理监控和核对等技术手段。(6) 充分发挥平台服务效能数据中心最终是要把数据处理的结果服务给其他系统或数据消费者,所以提高数据中心的数据服务能力也是本项目的一大技术特点。数据中心的数据除了有大量的结构化的数据外,还有大量的如网页、图片、视频等非结构化的数据,所以提供的数据服务的技术手段和方式也是多样的。数据服务方式,从调用方式可以是主动推送,也可以被动调用;从接口方式可以是接口表、协议接口和消息机制等。我们的思路是要建立统一的数据服务平台,并以SOA的形式为数据消费者服务。目前数据服务平台的功能还在不断扩展和完善中。下图是数据服务示意图:业务及其他数据源实时数据 (Oracle)数据仓库 (EDW)数据集市 (EDM )操作数据 (ODS)同步抽取抽取装载转换装载转换转换抽取转换分析、服务平台调用调用推送调用业务系统调用二、项目创新点介绍我公司建设数据中心不同于以往的做法。早期,数据中心基本上是以风险控制系统或其他业务系统为基础慢慢发展演变成一个数据中心,而且大部分是由开发商开发和实施。从技术层面看,大部分使用传统的事务型数据库技术和数据处理、展示手段,很难满足高效、灵活以及可扩展性的要求。我公司在建设数据中心的过程中,不仅实现了模式创新,同时在金融行业首次采用开放式海量数据平行处理(MPP)数据仓库、元数据管理、快速开发平台、数据处理流程化和智能化等先进技术和理念。1.行业内首用开放式MPP技术架构数据仓库是数据中心的核心平台,数据仓库的效率直接影响数据中心的可用性,为此我们选用了GreenPlum产品。它采用了一种“海量数据并行处理(MPP)”技术,通过多节点并行处理机制完成对海量数据的高速运算和处理。从系统架构来看,目前的商用服务器大体可以分为三类,即对称多处理器结构(SMP:Symmetric Multi-Processor)、非一致存储访问结构(NUMA:Non-Uniform Memory Access)、以及海量并行处理结构(MPP:Massive Parallel Processing)。它们的特征分别描述如下:SMP服务器的主要特征是共享,系统中所有资源(CPU、内存、I/O等)都是共享的。也正是由于这种特征,导致了SMP服务器的主要问题,那就是它的扩展能力非常有限。对于SMP服务器而言,每一个共享的环节都可能造成SMP服务器扩展时的瓶颈,而最受限制的则是内存。NUMA服务器的基本特征是具有多个CPU模块,每个CPU模块由多个CPU(如4个)组成,并且具有独立的本地内存、I/O槽口等。由于其节点之间可以通过互联模块(如称为Crossbar Switch)进行连接和信息交互,因此每个CPU可以访问整个系统的内存(这是NUMA系统与MPP系统的重要差别)。但NUMA技术同样有一定缺陷,由于访问远地内存的延时远远超过本地内存,因此当CPU数量增加时,系统性能无法线性增加。MPP提供了另外一种进行系统扩展的方式,它由多个SMP服务器通过一定的节点互联网络进行连接,协同工作,完成相同的任务,从用户的角度来看是一个服务器系统。其基本特征是由多个SMP服务器(每个SMP服务器称节点),通过节点互联网络连接而成,每个节点只访问自己的本地资源(内存、存储等),它是一种完全无共享(Share Nothing)结构,因而扩展能力最好。市场上,基于MPP架构的数据仓库并不多见,NCR TeraData是一个使用较为广泛而时间较长的数据仓库产品。但是,其不但造价高,而且维护成本高,是一款较为封闭的系统,在电信、规模较大的商业银行等大型企业使用较多,中小型企业很少使用。GreenPlum是一款基于开放技术的MPP架构,经过测试,其性能不亚于NCR TeraData产品。选型时,GreenPlum刚刚进入中国,国内用户寥寥无几,在金融行业无案例。经过近三个月的测试,我们认为其性能、可用性、稳定性、开放性和兼容性都达到了我们预期的目标,所以最终选择了此产品。从还来的结果表明,我们的选择是正确的,也为行业选择合适的数据仓库产品作出了一定的贡献。我们是国内第三家、金融行业首先使用该产品的企业,也为选择一个低成本、高可用的MPP架构数据仓库产品起到了示范作用。2.行业内较早使用金融业逻辑数据模型金融业逻辑数据模型(FS-LDM)是NCR多年来在全球实施近230家金融业数据仓库项目的经验结晶 。整个逻辑数据模型把复杂的金融业务归纳成团体、产品、账户、事件、渠道、组织、地理区域和行销活动等八大主题。它蕴含了现代金融业的分析决策和客户关系管理的各个方面。基于FS-LDM,我破门根据所设定的目标和数据范围,确定了需要建设的主题范围,构建LDM的原型框架。LDM原型框架决定数据仓库的数据组织原则和基本形式,也决定了数据仓库的应用范围和应用模式。在建设过程中,我们还根据证券业务的特点对FS-LDM进行了改进和补充,使之适合证券业务的发展。三、行业推广价值数据中心在行业内虽不是一个新的概念,但许多行业机构已经、正在或即将建设属于本企业的数据中心,如何建设一个灵活、高效、强壮、权威、安全、低成本易维护的数据中心一直困扰着大家。通过近两年的探索和实践,我公司在证券期货行业乃至金融行业摸索出了一条可借鉴的建设道路,在行业具有一定的借鉴作用,主要表现在以下方面:(1) 建设成本低。由于采用了开放式、低成本的MPP架构数据仓库(在金融行业第一个使用,在中国大陆第三个使用),光此项投资就为公司节省至少500万元。与采用传统的数据仓库产品比较不仅投资少,而且性能卓越,扩展成本低,可维护性强。(2) 维护成本低。由于此项目完全是自主组织开发和实施,今后不需要第三方进行维护。按建设成本的百分之十计算,每年为公司节省至少几十万乃至上百万的营运费用。(3) 扩展成本低。由于数据仓库采用低端服务器和存储设备搭建的平台,今后需要提升性能时,只需要购置低廉的硬件和支付少量的许可证费用即可。(4) 性能优势大。由于采用了MPP处理机制,目前两个节点的数据仓库运算速度在同等记录数(亿级)和计算条件下要超过高性能小型机上Oracle 10g的运算速度。(5) 业务支持好。由于有了较好的数据组织规范、可扩展的数据仓库模型以及灵活的数据集市,很容易实现数据统计、业务分析和深度的数据挖掘。(6) 应用开发快。通过Cognos工具和快速开发平台,开发人员
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 新乡职业技术学院《分子细胞生物学专论》2023-2024学年第二学期期末试卷
- 浙江横店影视职业学院《流体输配管网课程设计》2023-2024学年第一学期期末试卷
- 浙江省慈溪市六校2024-2025学年高中毕业班联考生物试题含解析
- 湖南省长沙市天心区长郡中学2024-2025学年高三3月月考生物试题理试卷含解析
- 山西省晋南地区达标名校2025届初三调研试题(一)生物试题含解析
- 浙江省金华市义乌市2025届高三下学期第十二次重点考试历史试题含解析
- 新疆新源县2025年高中毕业生五月供题训练(二)化学试题含解析
- 星海音乐学院《合成生物技术》2023-2024学年第二学期期末试卷
- 山东省济宁地区(SWZ)重点中学2025年初三下学期第八次模拟考试物理试题试卷含解析
- 江苏省南京玄武区十三中学集团科利华2024-2025学年初三考前全真模拟密卷数学试题试卷(6)含解析
- 2023届高考作文模拟写作:“成器”和“不器”导写及范文
- GB/T 8237-2005纤维增强塑料用液体不饱和聚酯树脂
- GB/T 14713-2009旋切机通用技术条件
- 低成本自动化的开展与案例课件
- 不予受理反诉民事上诉状(标准版)
- 高中英语语法之虚拟语气(课件3份)
- 粤教版2022年小学六年级科学下册期中测试试卷及答案2022-2023
- 北师大六年级下册数学第三单元《图形的运动》教学设计
- 国际石油合作主要合同模式课件
- 桥梁加固改造工程施工质量管理体系与措施
- 第二十六章慢性肾小球肾炎演示文稿
评论
0/150
提交评论