集团大数据平台建设项目系统性能指标和测试结果说明_第1页
集团大数据平台建设项目系统性能指标和测试结果说明_第2页
集团大数据平台建设项目系统性能指标和测试结果说明_第3页
集团大数据平台建设项目系统性能指标和测试结果说明_第4页
集团大数据平台建设项目系统性能指标和测试结果说明_第5页
已阅读5页,还剩31页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

集团大数据平台建设项目系统性能指标和测试结果说明性能测试报告测试目标运营商手机上网记录查询系统案例,以某运营商为例,日均上网记录数近10亿条,每月数据量近9TB,移动互联网用户快速增加,智能终端迅速普及、户均流量显著增长,上网记录数据将进一步猛增,每6个月,流量翻一番,如此大的数据量已经超越了传统关系型数据库可管理的容量上限,关系型数据库上对大规模数据进行操作会造成系统性能严重下降。通过本测试,验证星环科技成熟稳定的商用Hadoop平台,是否可以有效解决数据采集、加载、存储、查询、分析等问题。测试内容1)存储节点数和存储量验证;2)并发加载数据的效率验证;3)分别选取简单查询(短信话单查询),单表统计(某天某客户通话次数),大表关联统计(统计指定用户的上网记录)三个应用场景验证产品性能。测试环境软硬件环境配置如下:表9-1服务器配置服务器推荐配置及说明节点数量300+台服务器CPU两路6核处理器2*E5-2620内存64GBECCDDR3硬盘2个600G的SAS硬盘,15000RPM,RAID1,作为系统盘12个2TB的SATA硬盘,7200RPM,不做RAID1网络双电口万兆(10Gbps)以太网卡部署环境如下:表9-2集群配置PC服务器300多台NameNode节点3台DataNode节点278台Zookeeper节点7台集群监控节点1台入库服务节点24台Web查询应用服务节点20台网络拓扑情况如下:图9-1拓扑结构图测试过程和结果1)现有HDFS集群已被占用10.5PB,3个副本,压缩率在1/3左右,因此实际HBase表数据也已经有3.5PB左右。目前数据存放6个月,每天导入日志数据在21TB左右,每月导入新增日志数据量为630TB,近一个月为常用热数据,数据量增长较快。

2)并发加载数据的效率TranswarpHyperbase集群每秒平均达到1500万记录/秒,峰值时达到5000万/秒,集群导入性能没有问题。3)支持并发查询数目:远高于100000请求/秒上网记录查询速度:不高于1秒(含用户访问查询页面的时间)场景一:短信话单查询图9-3话单查询表测试相关表数据量表名条数CDR_GSM_133114402798测试语句SELECT*FROMCDR_GSM_13WHEREUSER_ID=?;场景说明使用程序查询指定USER_ID的短信话单TranswarpSQL性能并发:5000单SQL平均执行时间:12msTranswarpHyperbaseAPI性能并发:>30W单SQL平均执行时间:3ms场景二:某天某客户通话次数:测试相关表数据量表名条数CDR_GSM_13,cdr_gsm_stat3114402798,430293346测试语句SELECTcount(*)FROMCDR_GSM_13C,cdr_gsm_statGWHEREc.user_id=g.user_idandg.type=’1’andg.date=’20151212’g.user_id=?;场景说明统计某天某客户通话次数TranswarpSQL性能并发:2000单SQL平均执行时间:130msTranswarpHyperbaseAPI性能并发:>10W单SQL平均执行时间:90ms场景三:关联统计相关测试,统计制定用户的上网记录图9-4上网记录表测试相关表数据量表名条数CDR_GSM_13,cdr_gsm_stat3114402798,430293346测试语句SELECTcount(*)FROMCDR_GSM_13C,cdr_gsm_statGWHEREc.user_id=g.user_idandg.type=’1’andg.user_id=?;场景说明使用程序统计指定USER_ID的上网记录TranswarpSQL性能并发:3000单SQL平均执行时间:150msTranswarpHyperbaseAPI性能并发:>10W单SQL平均执行时间:80msTPC-DS测试报告测试目标通过国际标准测试TPC-DS测试,验证星环TDH产品符合数据仓库需要,能够满足数仓业务使用要求。测试内容标准事务性能管理委员会(TPC)是目前最知名的数据管理系统评测基准标准化组织。在过去二十多年间,该机构发布了多款数据库评测基准。TPC-DS是TPC发布的标准测试场景之一,用于验证数据库产品是否符合数据仓库的业务需要。TPC-DS采用星型、雪花型等多维数据模式。它包含7张事实表,17张纬度表平均每张表含有18列。其工作负载包含99个SQL查询,覆盖SQL99和2003的核心部分以及OLAP。这个测试集包含对大数据集的统计、报表生成、联机查询、数据挖掘等复杂应用,测试用的数据和值是有倾斜的,与真实数据一致。可以说TPC-DS是与真实场景非常接近的一个测试集,也是难度较大的一个测试集。TPC-DS的这个特点跟大数据的分析挖掘应用非常类似。Hadoop等大数据分析技术也是对海量数据进行大规模的数据分析和深度挖掘,也包含交互式联机查询和统计报表类应用,同时大数据的数据质量也较低,数据分布是真实而不均匀的。因此TPC-DS成为客观衡量多个不同Hadoop版本以及SQLonHadoop技术的最佳测试集。这个基准测试有以下几个主要特点:1)一共99个测试案例,遵循SQL99和SQL2003的语法标准,SQL案例比较复杂2)分析的数据量大,并且测试案例是在回答真实的商业问题3)测试案例中包含各种业务模型(如分析报告型,迭代式的联机分析型,数据挖掘型等)4)几乎所有的测试案例都有很高的IO负载和CPU计算需求TPC-DS标准测试集99个案例,详见本建议书附录部分《TPC-DS测试集99query说明》测试环境测试过程和结果量收迁移验证性测试报告测试目标通过选取多个量收系统典型实际应用场景测试,验证星环TDH产品能够实现量收系统各类功能应用,能够较好的满足量收系统迁移要求。测试内容本文档记载了较为详细的测试案例,内容包括量收系统功能各类型的技术和业务场景,包含六个方向应用。具体分别是:1)大数据量数据加载,计算及汇总,此方向取“范围段加载ETL”。2)高并行计算,复杂计算,大表关联,此方向取“收入宽表计算ETL”。3)大数据量,高并发查询。此方向取“量收日统计表查询”。4)Cognos复杂逻辑应用。此方向取“淡旺季报表统计”。5)大表的update和delete类SQL计算。此方向取“营业客户数据加载计算ETL”。6)Oracle存储过程运算。此方向取“报刊在Oracle中存储过程”。测试环境表9-5配置IDDesc硬件配置(8台)CPU:64Intel(R)Xeon(R)CPUE7-4809v3@2.00GHz,内存:64GMemory,硬盘:300GSAS操作系统AsianuxServer4(HiranyaSP4)平台软件transwarp-4.3.2-Final-23543-zh.el6.x86_64.tar.gzManager:6:8180/admin/adminInceptor:3:4040/HDFS空间1065GB串行执行情况总耗时如下:表9-6耗时日期报表名称开始时间结束时间持续时间1持续时间220160305ORACLE_STOREPROCEDURE.SQL2016/3/516:12:022016/3/516:12:0420:00:0220160305LSRTJBCX.SQL2016/3/516:11:512016/3/516:11:5650:00:0520160305DWJCX.SQL2016/3/516:04:392016/3/516:05:04250:00:2520160305YYKHSJJZETL.SQL2016/3/516:18:062016/3/516:19:11650:01:0520160305SRKBETL.SQL2016/3/516:12:102016/3/516:18:003500:05:5020160305FWDJZETL.SQL2016/3/516:05:102016/3/516:11:443940:06:34串行执行集群Workload:图9-2性能展示图1并行执行情况并行执行总耗时如下:表9-7耗时日期报表名称开始时间结束时间持续时间1持续时间220160305FWDJZETL.SQL2016/3/516:51:252016/3/516:58:484430:07:2320160305SRKBETL.SQL2016/3/516:51:262016/3/516:57:563900:06:3020160305YYKHSJJZETL.SQL2016/3/516:51:252016/3/516:52:39740:01:1420160305DWJCX.SQL2016/3/516:51:252016/3/516:51:57320:00:3220160305LSRTJBCX.SQL2016/3/516:51:252016/3/516:51:3160:00:0620160305ORACLE_STOREPROCEDURE.SQL2016/3/516:51:252016/3/516:51:2830:00:03并行执行workload:图9-3性能展示图2生产表数据规模表9-8生产表表名记录数备注pims_pdata.tb_peo_postcollpric237097843pims_pdata.tb_peo_postderatepric18352483pims_pdata.tb_peo_postderate17841320pims_pdata.tb_prt_custlevel6267607pims_pdata.tb_fct_sum_det_p_m5792946pims_pdata.tb_peo_winpostdelv3125115pims_pdata.tb_peo_winpostdelvpric3125115pims_pdata.tb_sum_peopostbusn494603pims_pdata.tb_prt_custinfo183046pims_pdata.tb_sum_peonmlpost131378pims_pdata.tb_prt_cporgmgtlev117247pims_pdata.tb_prt_cporg117006pims_pdata.tb_peo_postcoll100000pims_pdata.tb_peo_prtcin83046pims_pdata.tb_cde_cpbusntyp_union10000pims_pdata.tb_fct_kadd10000pims_pdata.tb_fct_operdaily10000pims_pdata.tb_fct_mdak4552pims_pdata.tb_cde_cpbusntyp1547pims_pdata.tb_sum_peopostadjust1173pims_pdata.tb_cde_dailyreport757pims_pdata.tb_cde_operdaily682pims_pdata.tb_cde_country258pims_pdata.tb_fct_sector152pims_pdata.tb_fct_vip_s_range_m100pims_pdata.tb_cde_prictyp43pims_pdata.tb_cde_dim30pims_pdata.tb_cde_custtyp11pims_pdata.tb_cde_custpay7pims_pdata.tb_cde_custsett6pims_pdata.tb_cde_postattr5pims_pdata.tb_prt_cporg_union4pims_pdata.tb_cde_busnchnl3pims__cgnos_log_r0Logpims_pdata.tb_fct_vip_range_m0结果表pims_pdata.tb_peo_postdelv0空表pims_pdata.tb_peo_postdelvpric0空表pims_pdata.tb_prt_cporgmgtlevvw0tb_prt_cporgmgtlev的视图pims_pdata.tb_sum_dppt0结果表测试结果所有六个测试案例,包含存储过程案例,经过较少的脚本修改(脚本修改量小于1%),就能够直接在新的TDH环境中运行,且运行结果正确无误,验证了量收迁移到TDH的技术可行性。某银行性能测试报告测试目标运行某银行数据分析业务,以验证星环TranswarpDataHub平台的性能指标。测试内容选取某银行高并发的理财查询业务,以及相关业务场景进行测试,包括现有在DB2、DPF、以及Teradata上面的应用,进行性能比对。测试环境测试环境采用5台X86服务器,搭建星环TranswarpDataHub大数据平台,进行测试。表9-9测试表测试机器14(BIGL1TMP)15(BIGL2TMP)16(BIGL3TMP)17(BIGL4TMP)18(BIGL5TMP)CPU2C/6核,E5-2620磁盘2TB*8块内存96GB集群部署:表9-10集群部署BIGL1TMPZookeeper,NameNode,JournalNode,ResourceManager,NodeManager,HBaseMaster,InceptorMetastoreBIGL2TMPZookeeper,NameNode,JournalNode,NodeManager,HBaseMasterBIGL3TMPJournalNode,DataNode,NodeManager,HBaseMaster,HBaseRegionServer,InceptorServerBIGL4TMPDataNode,NodeManager,HBaseRegionServer,RStudioBIGL5TMPZookeeper,DataNode,NodeManager,HBaseRegionServer测试过程和结果数据加载与导入:将文件较为均匀的分到集群的各个机器上,编写HDFS上传脚本,同时向HDFS上传数据,通过记录上传时间和上传文件大小来计算数据并发加载的速度。测试步骤如下:表9-11场景1场景1说明客户基本信息查询测试相关表数据量表名条数FIN_CUST_INFO_BASE31144027测试语句SELECT*FROMFIN_CUST_INFO_BASEWHERECUSTNO=?;TranswarpSQL性能并发:7000单SQL平均执行时间:11msTranswarpHyperbaseAPI性能TPS:>12W单SQL平均执行时间:3ms表9-12场景2场景2说明客户扩展信息查询测试相关表数据量表名条数FIN_CUST_INFO_BASE31144027FIN_CUST_INFO_SUB36767776FIN_CONFINPROFILE_BASE31147467FIN_CUST_CMANAGER15639749FIN_CUST_ORG36767888测试语句SELECTBASE.CUSTNO,BASE.CUSTNAME,BASE.SEX,SUB.AGEPART,SUB.DEPOSITBALAVGL3MPART,CON.DEPOSITBALAVGL3M,CON.FASSETBAL,CMAN.CEMPID,ORG.ORGIDFROMFIN_CUST_INFO_BASEBASEINNERJOINFIN_CUST_INFO_SUBSUBONBASE.CUSTNO=SUB.CUSTNOINNERJOINFIN_CONFINPROFILE_BASECONONCON.CUSTNO=BASE.CUSTNOINNERJOINFIN_CUST_CMANAGERCMANONCMAN.CUSTNO=BASE.CUSTNOINNERJOINFIN_CUST_ORGORGONORG.CUSTNO=BASE.CUSTNOWHEREBASE.CUSTNO=?;TranswarpSQL性能并发:2400单SQL平均执行时间:150msTranswarpHyperbaseAPI性能TPS:>6W单SQL平均执行时间:6ms表9-12场景3场景3说明客户销售线索查询测试相关表数据量表名条数FIN_LEADOPPS6738750FIN_CAMPLEADTEM1896FIN_CUST_FMANAGER2150712FIN_CUST_INFO_BASE31144027测试语句SELECTLEA.RECCREATEDATE,LEA.CLTID,LEA.CUSTNO,LEA.LEADOPPPHASE,LEA.USERID,LEA.ORGID,LEA.RECCREATEUID,CAM.CLTNAME,CAM.EXECUTEDATE,FM.FEMPID,BASE.CUSTNAME,BASE.CUSTTYPE,BASE.SEXFROMFIN_LEADOPPSLEAINNERJOINFIN_CAMPLEADTEMCAMONCAM.CLTID=LEA.CLTIDINNERJOINFIN_CUST_FMANAGERFMONFM.CUSTNO=LEA.CUSTNOINNERJOINFIN_CUST_INFO_BASEBASEONBASE.CUSTNO=LEA.CUSTNOWHEREFM.FEMPID=?;TranswarpSQL性能并发:1500单SQL平均执行时间:180msTranswarpHyperbaseAPI性能TPS:>3W单SQL平均执行时间:15ms表9-13场景4场景4说明客户金融资产统计测试相关表数据量表名条数FIN_CONFINPROFILE_BASE31147467FIN_CUST_INFO_SUB36767776FIN_CUST_ORG36767888测试语句SELECTSUB.FASSETBALPART,SUM(CON.FASSETBAL)/10000ASFASSETBAL,SUM(CON.FASSETBALMAX)/10000ASFASSETBALMAX,SUM(CON.FASSETBALAVGMMAX)/10000ASFASSETBALAVGMMAXFROMFIN_CONFINPROFILE_BASECONINNERJOINFIN_CUST_INFO_SUBSUBONSUB.CUSTNO=CON.CUSTNOINNERJOINFIN_CUST_ORGORGONORG.CUSTNO=CON.CUSTNOWHEREORG.ORGID=?GROUPBYSUB.FASSETBALPARTORDERBYSUB.FASSETBALPART;TranswarpSQL性能并发:400单SQL平均执行时间:170ms数据挖掘测试使用商户信息表(XWXS_EPOS_MCHNT_INFO)和交易流水表(XWXS_EPOS_TRANS)在RStudio上做了POS机分布建模、用户流失预警与用户聚类三个案例。北京地区POS机分布建模根据商户信息和交易流水记录为POS机交易建模,生成POS机分布图、POS机刷卡次数热点图、POS机刷卡金额热点图。根据上面的建模结果,可以为银行决策提供理论依据,主要意义在于:1) 关注刷卡次数多的地区,可以在相关地区增加相应ATM取款机。2) 关注刷卡金额大的地区,可以在相关地区增加银行服务点。3) 在刷卡次数多,金额大的地区推广信用卡,增加银行其他业务。4) 避开消费聚集区,推广投放行银行广告,增加投放效果。图9-4刷卡金额密度图图9-5刷卡次数密度图除此之外,挑选了一批在现有系统中运行时间较长或无法成功运行的业务场景用于TDH的测试。更新售后客户产品表:表9-14客户产品表测试相关表数据量表名条数FIN_CUST_INFO_BASE31718753FIN_CONDEPOSIT45028847FIN_CONFINPROFILE_DETAIL31725027FIN_OPRODUCTSALEINF6780729FIN_OPRODUCTDEF165XWXS_EPOS_MCHNT_INFO367618MC_YW_PARA57场景描述定期根据

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论