版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、OnceDI中监视系统的设计与实现报告人:吴辉导师:叶丹 高级工程师2011-1-1815 / 21文档可自由编辑打印n选题依据及意义n国内外研究现状n研究内容与研究方案n工作进展与工作计划n数据集成q数据集成是将不同来源与格式的数据逻辑上或物理上进行集 成的过程1。n ETL (Extract, Transform, Load)qETL完成跨数据源的数据抽取,并将数据经过一定的转换, 最终加载到目的端数据源,是数据集成系统的重要组成部分。抽取转换加载1Wikipedian数据集成中间件OnceDIControl CenterExtractDBDI ServerInternetDI Serve
2、rLoad保证正确性和完整性XML网络情况复杂分布式体系结构从全局了解系统情况分布式ETL过程了解整个ETL过程的调度 执行情况和数据迁移情况关心历史数据统计分析 评估系统性能、辅助决策n ETL Monitoring2qETL过程相关指标执行状态、执行时间、抽取速率、加载速率、吞吐率等“You will want to monitor job status for all job runs initiated by the job scheduler including pending, running, completed, and suspended jobs”q系统基础设施性能指标CP
3、U使用、内存使用、磁盘读写速率、网络传输速率等q数据统计“Users often want to know exactly when a table has been loaded or if any rows were rejected”“capturing the historical data to support trending performance over time. “Be sure to trigger alerts whenever an ETL job takes significantly more or less time to complete than indi
4、cated by the historical record.”2Ralph Kimball, Joe Caserta. The Data Warehouse ETL Toolkit, Practical Techniques for Extracting, Cleaning, Conforming, and Delivering Data.Wiley, 2004n主流ETL工具的监控功能q ETL中间件Informatica PowerCenter, Talend, IBM DataStageq数据库附带ETL工具Microsoft SQL Server Integration Servic
5、e, Oracle Data Integratorq不足:统计分析功能简单,大多没有提供监视ETL过程 执行进度的功能。n其它q 低干扰(Low intrusion) q 可配置监视信息流 OnceDI控制流 OnceDI数据流监视系统的体系结构StudioMonitor ClientMonitor CenterDI ServerMAgentDI ServerControl CenterMAgentRelational DBMAgentXMLMonitor ClientPresentation监视系统的体系结构Client.cfgConfigurationData InterfaceData
6、ManagerSessionClient InterfaceMonitor CenterMCenter.cfgData CashCentral ManageraccessDataMAgentAlarmAnalyzerMAgent.cfgHeart Beat CollectorData ProcessorMergerFilterModel HandlerManagerSessionPushPullModel Handler Agent RegisterSessionPreprocessorDispatcher1.监视信息的收集和传输2.监视信息的组织和存储3.监视信息的统计、分析和展示1.监视信
7、息的收集和传输目的:通过收集各种监视指标来反映系统当前的行为和状态1. ETL indicatorsMeta datanameauthortypeETL过程的执行进度=C=re=a=te=ti=m=e=S=o=u=r=cetargetT3:开始连接数据源;ProgressStart/End timeExtracted/loadedTro4w:s 连接数据Pr源oc成es功si;ng rateDetailsT5:开始抽取数据;Performance & resultsDurationProcessed rowsSTuc6c:es已s/抽fai取led10ro0w0s条;Read/ writeEr
8、rorsT8:关闭数据源;throughput2. Infrastructure indicatorsT9:关闭数据源成功;T10:开始发送数据;Meta data of serverCPU number and typeMemory sizeDisk sizePerformanceCPUusageMemory usageVirtual memory sizePage faultDisk read/write rate3. Distributed system:Heart Beatn由MAgent负责收集和过滤n传输q元数据n数据量比较小,而且不需要经常更新,又有可靠性要求n方案:采用Pull
9、的方式,使用TCP协议q性能、心跳和进度n数据量比较大,更新频繁,不适合用TCP协议n 方案:Push到Monitor Center,使用UDP协议n存在的问题高效&可靠?对于ETL的进度和结果信息q是用户最关心的指标,也是统计分 析的依据。网络环境复杂,基于 UDP虽然高效但是不可靠。q数据量大,对OnceDI系统网络产生 了影响。Monitor CenterUDPentMAgAgentMMAgent如何压缩 数据量n基于模型的监视信息还原技术nETL进度信息可以抽象成为一个模型1. 连接数据源:T3;2. 连接数据源成功:T4;3. 开始抽取数据:T5;4. 已抽取1000条:T6;5.
10、关闭数据源:T8;6.(1)关闭数据源成功:T9;(2)关闭数据源失败:T9;7. 开始发送数据:T10;123456(1)失败6(2)执行终止7不会导致终止执行的错误1. 保障可靠性:信息恢复、顺序调整12131124334(1)4可确定15均已发生2 235失败46(1)接收到了652. 压缩数据量:只传输关键结点126(1)76(2)关键结点34接收方:可还原1556(1)发送方:只发送关键结点6(1) 用户可根据需要进行配置 n关键问题q模型的构建和关键结点的定义n 可由用户提供配置文件,Monitor Manager和MAgent均解 析该文件构建模型。1q中间结点的实例敏感信息的还
11、原策略2n发送方缓存机制+关键结点捎带3q出现失败n发送方缓存机制 + 动态关键结点q关键结点丢失n超时重传或使用TCP成为动态 关键结点456(1)失败6(2)72. 监视信息的组织和存储n将当前系统的重要指标数据进行持久化,以支持 后续的统计分析。n池化的思想管理主存n初步计划使用文本型关系数据库来存储。n遗留问题:还需要再考虑一下存储模式设计n元数据和运行时数据ETLJOBPKJOBIDname author typecreated_time source targetprocess_belonged sTaskId rTaskId sDIServer tDIServerETLJOB_R
12、UNTIMEPK PKjobid startend durationprocessedRows rejectRows throughput errorssuccessERRORPKidtaskId desc leveltimestampDI ServerPKGUIDname cpumem_size disk_size基于元数据的统与某数据源关联的所有ETL任务。(计报表)某时段执行的ETL任务。(报表)基于运行结果的(a) 自T时间以来,系统中所有ETL任统计务的活跃情况。(柱状图)(b) 某ETL任务自T时间以来(或最近N次执行)产生的错误类型的比例。(饼图)基于性能的统计(a) 流程/ET
13、L任务自T时间以来每次的执行时间/CPU使用/内存使用/缺页中断的变化情况。(折线图/柱状图)(b) 某次流程/ETL任务执行时阶段的用时比例。(饼图)(c) 某流程/ETL任务各次的执行时间,结果,吞吐率等。(报表)3. 监视信息的统计、分析 和展示n整合系统中的各种监视信息,帮助用户更直观、更容易 的了解整个系统。n通过基于统计值的分析,查 找和定位可能存在的瓶颈或 问题。 统计(2)基于统计结果的分析和报警机制n发现问题:对于某个ETL任务,统计T时刻以来的的 执行时间/吞吐率的平均值,当正在执行的时间超出调 整范围时时,报警。n定位问题:对比该ETL任务各阶段(抽取、传输、加 载)和统计均值,确定问题所在阶段。n统计ETL任务执行时各阶段的耗时比例,有助于发现 系统瓶颈。(3)展
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年度养殖场节能减排与绿色低碳合作协议书3篇
- 二零二五年度航空航天器加工合作协议2篇
- 2025陶瓷现汇外贸合同书
- 二零二五年度篮球运动员长期保障合同3篇
- 2025年度农村私人鱼塘承包合同附渔业环保责任承诺书
- 二零二五年度汽车维修行业员工薪酬福利合同范本3篇
- 2025年度养殖土地租赁及农业品牌建设合作协议3篇
- 2025年度农机租赁与农业废弃物资源回收利用合作协议3篇
- 2025年度新能源充电桩建设公司成立协议书范本3篇
- 2025年度年度农机租赁与农业科技创新合作协议3篇
- 【9道期末】安徽省宣城市2023-2024学年九年级上学期期末道德与法治试题(含解析)
- 2024年医药行业年终总结.政策篇 易联招采2024
- 《工程造价专业应用型本科毕业设计指导标准》
- 仓库主管2025年终总结及2025工作计划
- 2024年01月11396药事管理与法规(本)期末试题答案
- 股权投资协议的风险控制
- 山西省晋中市2023-2024学年高一上学期期末考试 物理 含解析
- 装卸工安全培训课件
- 中成药学完整版本
- 安全与急救学习通超星期末考试答案章节答案2024年
- 2024-2025学年度广东省春季高考英语模拟试卷(解析版) - 副本
评论
0/150
提交评论