




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据管理与数据质量
-美国金融业中的对策处理速度容量限制数据质量Overview数据<=Data=信息(并非数字集合)数据科学(约)=信息科学为何研究大数据?因为相关产品(如硬盘,
memory,CPU等)价格指数下降因为信息爆炸因为大数据导致许多新问题大数据研究是多学科的综合(IT,DM,BI,BA,…)实业界对大数据问题的对策(见下文)1.数据库策略1.1Database(DB)performance1.2DBspace1.1DBperformanceAuditing–2tables:asmallactive&ahugepassivePartitionIndex(good/bad;Cluster;Global/Local)Locktype(whenapplyrowlock)Transaction:1-phaseor2-phaseNormalizationInternaloptimization
(e.g.ExecutionPlan=>hintinOracle)Constraints(e.g.Check)usagetoreplacetriggerTricks(e.g.Datefunction;Searchsmalltablefirst;…)1.2DBspaceSpacearrangementforevendistribution
(e.g.1hugetableusesafewdatafiles)CleaningprocedurewithdefragmentPartitiondesignwithcleaningplan2.Applications(软件)
(Javaexample)Usingadvancedlanguage(e.g.JavaorC#)2.1Memory(内存)2.2Disk/networkspace2.3Performance2.4Maintainability2.1MemoryMinimizebigobjectscreationandcoexistenceGC(GarbageCollection)ornullbigobjectsonceoutofscopeChooseappropriateGCtypegc()TrytosplitonebigobjecttosmallobjectsUsemutableclassforfrequentlychangedbigobjects(e.g.StringBuilder,insteadofString)2.2Disk/networkspaceSmartcleanandarchiveprocesses
e.g.archivezippedoldornotusedfilestolowspeednetworkspaceanddeleteveryoldfilesfromthatspaceSmartloggingsettingse.g.log4jsizerollinge.g.AvoidduplicatedortriviallogginginfoMonitorforspaces2.3PerformanceAvoidredundanttreatment(inbigloops)
MaximizereuseMulti-threadingDBaccessingLogging--avoidslowoptions(e.g.line#)2.4MaintainabilitySOAprinciplesLosecoupling,reusability,granularity,modularity,composability,componentization,interoperability,…JEEpatterns(DAO,DTO,BizDelegation,…)Designpatterns(23)andMVCCreationStructureBehavior(e.g.Visitor)OOPprinciplesAbstraction,encapsulation,polymorphism,…Open/Close3.数据质量控制3.1Business3.2ProcessA.Failover&DR(DisasterRecovery)B.QA(QualityAssurance)
(see<软件质量管理点滴>
fordetails)C.UAT(UserAcceptanceTest)3.3Technology3.1BusinessReducemanualwork;IncreaseautomationCompleteapprovalsystemformanualwork
E.g.1level=>2levelsor3levelsapprovalExtendviewpointstoconfirmdataqualityReduceredundancysystems(e.g.duetomerge,duetovendors)ScheduleCleansing(seedetails)EnhanceReconciliation(seedetails)BuildTrustlevel(seedetails)Trytocoverallrarecases3.1.ECleansingWhenAtsystemmergeAtmajorchangeHowDevelopdetectionapplicationsDelivermismatchreportstoIT&businessFindsolutionsonbothIT&business3.1.FReconciliationWhere1+subsystemshavedataforsamecontents.1+subsystemshaveindependentdatechangefunctionality.WhatRun&improverecon.app.routinely.Categorizereportsbyurgency.Analyzereports.DebugoradjustbizruleorapplyCleansing.3.1.GTrustlevelWhenAt1+fixeddatainputsInputsareindependentMustdecidefinaldetailsfrominputsHow(basedon)Providerlevel(foradetaileddatagroup)DatahistorySamples:Bloomberg,Reuter,Telekurs,DTCC,…;Moody,S&P,Fitch.3.2.AFailover&DRFailoverDB:2+atdiff.locations;real-timereplicationAppActive-Active:ClusterwithLoadBalancingActive-PassiveAuto(viaSAN)Manual+AutoDRDB:e.g.dailyorhourlyorreal-timereplicationApp:Manualswitch3.3TechnologyDBdesignConstraint‘Check’(forsensitivetablevalues)Normalization(toreduceduplicatio
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 高速公路架桥机安全培训
- 珠宝销售工作总结
- 金融分析师职场应用试题及答案
- 2024年特许金融分析师学习策略与试题及答案
- 创新创业策划书模板
- 河南省洛阳市一中2024-2025学年高三2月月考语文试题
- 幼儿园预防结核病2
- 教案课件整改方案范文
- CFA考试误区与攻略试题及答案
- 摄影知识学习心得体会
- 《旅游方针政策》课件
- 智能制造能力成熟度模型(-CMMM-)介绍及评估方法分享
- 劳务派遣服务方案(技术方案)
- 2024年中学英语教师招聘考试试题及答案真题
- 计算机等级考试二级MS Office高级应用与设计试题与参考答案(2025年)
- 玉米深加工完整版本
- 2025年高考数学热点题型突破:平面向量 重难点题型(含答案)
- 《法制宣传之盗窃罪》课件
- 2024年嵌入式软件许可协议3篇
- 中国的传统农耕文化科普
- 门诊护理一病一品汇报
评论
0/150
提交评论