




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据管理与数据质量
-美国金融业中的对策处理速度容量限制数据质量Overview数据<=Data=信息(并非数字集合)数据科学(约)=信息科学为何研究大数据?因为相关产品(如硬盘,
memory,CPU等)价格指数下降因为信息爆炸因为大数据导致许多新问题大数据研究是多学科的综合(IT,DM,BI,BA,…)实业界对大数据问题的对策(见下文)1.数据库策略1.1Database(DB)performance1.2DBspace1.1DBperformanceAuditing–2tables:asmallactive&ahugepassivePartitionIndex(good/bad;Cluster;Global/Local)Locktype(whenapplyrowlock)Transaction:1-phaseor2-phaseNormalizationInternaloptimization
(e.g.ExecutionPlan=>hintinOracle)Constraints(e.g.Check)usagetoreplacetriggerTricks(e.g.Datefunction;Searchsmalltablefirst;…)1.2DBspaceSpacearrangementforevendistribution
(e.g.1hugetableusesafewdatafiles)CleaningprocedurewithdefragmentPartitiondesignwithcleaningplan2.Applications(软件)
(Javaexample)Usingadvancedlanguage(e.g.JavaorC#)2.1Memory(内存)2.2Disk/networkspace2.3Performance2.4Maintainability2.1MemoryMinimizebigobjectscreationandcoexistenceGC(GarbageCollection)ornullbigobjectsonceoutofscopeChooseappropriateGCtypegc()TrytosplitonebigobjecttosmallobjectsUsemutableclassforfrequentlychangedbigobjects(e.g.StringBuilder,insteadofString)2.2Disk/networkspaceSmartcleanandarchiveprocesses
e.g.archivezippedoldornotusedfilestolowspeednetworkspaceanddeleteveryoldfilesfromthatspaceSmartloggingsettingse.g.log4jsizerollinge.g.AvoidduplicatedortriviallogginginfoMonitorforspaces2.3PerformanceAvoidredundanttreatment(inbigloops)
MaximizereuseMulti-threadingDBaccessingLogging--avoidslowoptions(e.g.line#)2.4MaintainabilitySOAprinciplesLosecoupling,reusability,granularity,modularity,composability,componentization,interoperability,…JEEpatterns(DAO,DTO,BizDelegation,…)Designpatterns(23)andMVCCreationStructureBehavior(e.g.Visitor)OOPprinciplesAbstraction,encapsulation,polymorphism,…Open/Close3.数据质量控制3.1Business3.2ProcessA.Failover&DR(DisasterRecovery)B.QA(QualityAssurance)
(see<软件质量管理点滴>
fordetails)C.UAT(UserAcceptanceTest)3.3Technology3.1BusinessReducemanualwork;IncreaseautomationCompleteapprovalsystemformanualwork
E.g.1level=>2levelsor3levelsapprovalExtendviewpointstoconfirmdataqualityReduceredundancysystems(e.g.duetomerge,duetovendors)ScheduleCleansing(seedetails)EnhanceReconciliation(seedetails)BuildTrustlevel(seedetails)Trytocoverallrarecases3.1.ECleansingWhenAtsystemmergeAtmajorchangeHowDevelopdetectionapplicationsDelivermismatchreportstoIT&businessFindsolutionsonbothIT&business3.1.FReconciliationWhere1+subsystemshavedataforsamecontents.1+subsystemshaveindependentdatechangefunctionality.WhatRun&improverecon.app.routinely.Categorizereportsbyurgency.Analyzereports.DebugoradjustbizruleorapplyCleansing.3.1.GTrustlevelWhenAt1+fixeddatainputsInputsareindependentMustdecidefinaldetailsfrominputsHow(basedon)Providerlevel(foradetaileddatagroup)DatahistorySamples:Bloomberg,Reuter,Telekurs,DTCC,…;Moody,S&P,Fitch.3.2.AFailover&DRFailoverDB:2+atdiff.locations;real-timereplicationAppActive-Active:ClusterwithLoadBalancingActive-PassiveAuto(viaSAN)Manual+AutoDRDB:e.g.dailyorhourlyorreal-timereplicationApp:Manualswitch3.3TechnologyDBdesignConstraint‘Check’(forsensitivetablevalues)Normalization(toreduceduplicatio
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 二零二五年考古勘探钻孔作业合同
- 二零二五年度防火门行业技术交流与合作合同
- 二零二五版智能家居产品陈列销售合同
- 母亲节礼物活动方案
- XX年大学元旦晚会活动策划方案
- 个人电话销售工作总结
- 国有资产管理处工作总结模版
- 2025年中国砖瓦机械行业市场调查研究及投资前景展望报告
- 中国水族PH计行业市场前景预测及投资价值评估分析报告
- 外科医生工作总结
- 2025夏秋贵州省旅游产业发展集团有限公司员工招聘115人笔试历年参考题库附带答案详解
- 人员车辆进出管理办法
- 保险营销费用管理办法
- etc客服电话管理办法
- 2025年广东省深圳市中考历史试卷(含解析)
- 氧气吸入操作技术课件
- 数据安全意识培训
- 海关政策培训课件
- 家庭教育对孩子心理健康的影响论文
- 2025年劳动关系协调员(四级)考试大纲与试题
- 中国节能灯市场深度调查研究报告(2025-2030版)
评论
0/150
提交评论