ETL工具sagent介绍分析课件_第1页
ETL工具sagent介绍分析课件_第2页
ETL工具sagent介绍分析课件_第3页
ETL工具sagent介绍分析课件_第4页
ETL工具sagent介绍分析课件_第5页
已阅读5页,还剩33页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、 2006年1月Sagent Data Flow高性价比的ETL/数据整合/数据集中/数据迁移软件第1页,共38页。今日话题天择思特公司介绍Group 1 公司介绍Sagent Data Flow 软件架构及特点案例介绍为什么选择我们第2页,共38页。天择思特公司介绍电力行业软件服务商Group 1公司参股,金牌代理商BI、数据整合、应用集成多年经验第3页,共38页。Group 1 公司介绍中文名称为尚群软件建于1982年,总部设在美国 Maryland全球用户超过3500个全球员工有600多人2003年收入达1.19 亿美金美国必能宝集团公司(Pitney Bowes)旗下的子公司第4页,共

2、38页。Pitney Bowes 介绍成立于1920年, NYSE: PBI总部在Stamford, Connecticut(康涅狄格州的斯坦福德)分支机构遍及120多个国家,全球员工超过33,000人公司资产近100亿美金全美500强企业正在计划收购 FirstLogic 公司第5页,共38页。BrazilWashington DC(MD & VA)TorontoMiamiAtlantaNYCChicagoSanFranciscoBoulderLosAngelesAustinDallasSouthKoreaSingaporeMalaysiaJapanHong KongFranceGerman

3、yDenmarkItalyTheNetherlands ChinaUKAustraliaTaiwanMinneapolisIn-Country AssetsGroup 1s Global Coverage第6页,共38页。Group 1 China分支机构北京上海香港软件产品和服务本地化的数据整合/ETL 软件 Sagent数据质量管理,数据清洁软件本地化的CCM 软件 DOC 1相关专业服务第7页,共38页。获得荣誉HOT 100公司之一 (Upside Magazine)100家新兴技术公司之一 (Computer World)CRM最佳奖 (Technology Management C

4、orp)入选 Intelligent Enterprise 2004年“Companies to Watch” 名单 2003 DM Review Top 100 公司荣登福布斯2003年全球200家最佳公司榜入选Software Magazine 500 评出的全球TOP 500 软件公司根据三年内的销售增长、收入增长以及投资回报被Business Week online评为100家增长最快的公司第8页,共38页。Sagent 全球用户1600多家第9页,共38页。Sagent 国内部分用户全国25个点的数据集中/灵活报表系统客户资料数据整理建立数据集市,对经营数据进行分析将业务系统的数据装

5、载到企业级数据仓库客服数据仓库系统建设北京地税数据迁移黑龙江省、内蒙建设银行 数据分析系统 报表和决策支持系统客户服务部数据链路的整合客户帐单资料的整理数据集中,数据整合第10页,共38页。Sagent DataFlow 软件架构及特点第11页,共38页。Sagent Data Flow 体系结构Data SourcesOperational DataExternal DataEnterprise Data Warehouses,Data Marts,Operational Data Stores,XML, Flat FileData Marts/CubesSagents Data Flow

6、ServerData WarehouseDesign StudioAutomationAdminRepository第12页,共38页。元数据(Repository)存储在第三方数据库中,如Oracle, Sybase, Sql Server, DB2, Informix, mySQL由100个数据表构成存放所有ETL元素,如Plan,BaseView,MetaView,Transform, User等具有易维护,易管理,易迁移,安全性好的特点第13页,共38页。基本视图(baseview)和元视图(metaview)RepositoryBase ViewsMeta ViewsOracleSy

7、baseDB2SagentPlanISBV1BV2BV3MV1MV3MV2可编辑的联接改名添加新计算项M:M多对多关系第14页,共38页。处理转换单元(Transform) 丰富的转换关系 用户自定义转换关系 多种开发途径SQL语句VBScriptC+ 5大类近80种第15页,共38页。Sagent Plan由若干处理转换单元(Transform)构成在Sagent Design Studio 中设计一个ETL流程的反映第16页,共38页。设计工具(Design Studio)数据源BaseViewMetaViewTransformPlan第17页,共38页。管理工具(Admin)强大的用户安

8、全机制集中管理分布式数据集市对DFS参数的调整第18页,共38页。调度触发工具(Automation)响应事件:时间触发事件触发 异常处理:功能强大支持开发EMAIL通知第19页,共38页。流水线技术类似于CPU的流水线技术数据在Sagent Plan中流动第20页,共38页。多线程并行计算技术第21页,共38页。强大的数据流技术数据流的循环数据流的比较数据流的拆分数据流的连接/联合第22页,共38页。高级的统计分析功能 分析计算器(Analytical Calculator) 在 ETL 过程中对数据进行统计 无需用户编写复杂的程序,内置包括概率,随机数,序列,三角以及统计等11大类,共16

9、0多个统计分析函数第23页,共38页。高级的数据匹配功能 ATM (Advanced Match Transform) 内置多种匹配规则,包括:Exact,Fuzzy,Address,Phone,Business name 等 根据匹配规则计算出相近度,使用者根据相近度判断是否一致Level 1StartMatch!Unique!Match?Match?Match?yesyesyesnononoLevel 2Level 3第24页,共38页。强大的监控功能 队列监控监控数据管道中数据的积压情况 状态监控详细记录某个处理环节每一段时间内流过的纪录数量;详细记录某个处理环节每一定量数据流过需要多长

10、时间;第25页,共38页。数据集市建设Time Generation(时间生成)Key Generation(键生成)Time Lookup(时间查找)Key Lookup(键查找)Star View(星型视图)自动生成时间维表,并以Julian Day为维表主键生成维表时,为非时间维表生成代理键生成事实表时,查找相关时间字段的代理键生成事实表时,查找相关维字段的代理键辅助生成并填充聚集表解决对照表难点第26页,共38页。完备的执行调度多种触发条件多种任务执行判断逻辑字符串比较文件夹管理压缩和解压缩文件的传输远程传输即时触发执行提供多种触发条件和多种执行任务灵活方便的工作流,真正实现自动化。第

11、27页,共38页。案例介绍第28页,共38页。堪萨斯城市电力公司Customer ProfileCustomer ProblemSolution堪萨斯城市电力公司(Kansas City Power and Light)成立于1882年,是美国中西部最大的电力能源提供商之一为密苏里州和堪萨斯州西北部大约4600平方英里的大约50万个家庭,商业,工业和政府部门提供产品和服务业务部门每3个月就要改变一次报表的格式,因此DW中的一部分数据的结构需要经常变换,但现有的script-based的ETL软件维护不方便,每次维护的时间超过1周由于需要在ETL过程中做大数据量的数据汇总工作,随着数据量的增加,

12、原有的ETL软件的运行效率不能满足需要在windows平台部署了Sagent ETL 软件,替代原有的ETL软件Result每3个月的例行维护时间由以前的1-2周缩短为3天每天的运行时间由以前的4个小时缩短为1个小时“We were obviously in need of a tool that facilitates data movement effectively. We, therefore, decided to deploy Sagent Solution, a concept offered by Sagent that allows for data to flow effe

13、ctively. This was the answer we were looking for when it came to structuring and automating our processes,” Harvey Beyer, Business Systems Analyst.第29页,共38页。天津电力客户服务中心Customer ProfileCustomer ProblemSolution天津市电力公司是国有大型企业,供电总面积1.13万平方公里,到2000年,公司资产总额143亿元,年售电量186.7亿千瓦时,员工两万余人。 需要一个能够将不同类型数据库的数据整合到一起

14、的ETL软件ETL软件的运行效率必须高,加载各种数据库,尤其是Oracle的效率必须高ETL软件必须具备完整的调度功能Sagent软件部署在一台双CPU(1.5G x 2),2G内存的Win 2K服务器上整合不同数据库(包括Oracle 8i,9i, SQL Server 2000,Sybase 11)的数据对各个应用的数据进行标准化,例如线路号和变电站号在各个应用中的编码不一致的问题 Result每天用Sagent Data Load 做的数据处理工作花费大约20分钟,整体调度花费3-4个小时每天用Sagent Automation 对数据备份,数据抽取转换加载以及Cognos的Cube更新

15、等过程进行统一的调度和监控将电网运行,设备管理,客户档案,居民户表,电量电费,系统话务,业扩报装,抢修调度等应用的数据整合到一起数据仓库数据近160G,一般情况下每日数据增量为300M,高峰时达到500M第30页,共38页。为什么选择我们?第31页,共38页。技术领先操作简单,便于维护完全图形化设计和管理界面可添加说明和注释,方便维护基于引擎的处理机制,无需编译即可执行数据预览和性能调优功能ETL的每个步骤都可以进行数据预览可以同时对多个步骤的执行结果进行预览可以监控管道队列的数据积压情况轻松定位数据处理瓶颈第32页,共38页。技术领先强大的数据流技术数据流的比较:在Comparison模块中

16、设定比较条件,对来自同一个或不同数据库的2条数据流进行比较,并将结果分别输出到3个输出端口。数据流的迭代:Sagent Data Flow提出了数据流循环迭代的概念。在Subplan模块中可以设置迭代的参数,实现对数据的循环迭代操作。第33页,共38页。技术领先方便的星型模型数据填充自动生成时间维表,生成代理键轻松实现对维表的查找强大的执行调度第34页,共38页。提供可扩展模块统计分析功能内置包括概率,随机数,序列,三角以及统计等11大类,共160多个统计分析函数高级数据匹配功能内置多种匹配规则,包括:Exact,Fuzzy,Address,Phone,Business name 等根据匹配规则计算出相近度,使用者根据相近度判断是否一致第35页,共38页。技术支持实力天择思特

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论