




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
大数据成功关键课件大数据成功关键 --高效地实现大数据的移动刘春霞liuchunx@IBM软件部资深信息整合顾问大数据成功关键刘春霞3InfoSphere:维护信息供应链信息治理治理质量安全和隐私生命周期标准事务和协作应用业务分析应用外部信息源分析整合管理多维数据集流大数据主数据内容数据流信息数据仓库内容分析整合和清洗3InfoSphere:维护信息供应链信息治理治理质量安全和ThirstforInformation可靠信息移动的速度敏捷
用户想要快速地访问数据,几分钟内和小时级内(如自主的数据整合)对分析的需求两者都需要!权威性
在一个流程框架内内的可靠信息避免信息冗余需要敏捷和可靠的数据访问ThirstforInformation可靠信息移动的速任何数据到大数据大数据到任何数据大数据中心批量数据整合(用于大数据)任何数据ETL/
ELTETL/
ELTELT加载获益利用探索性分析方法最佳性能/最小批处理窗口和实时流数据提取获益从多种来源提取数据:机器数据、社交数据、多结构成熟的整合工具,更高的生产力数据中心获益以大数据形式产生和分析的数据–从不清除用于完成大数据运行时内的工作的图形工具将现有的企业数据引入一个探索性分析平台将社交数据和机器数据引入一个企业数据仓库系统自动化一个低成本数据暂存区域的工具对数据的推送处理(不是其他方法)任何数据到大数据批量数据整合(用于大数据)任何数据ETL/BigInsightsHadoopInfoSphereBigInsights的批量数据整合集市数据仓库仓库集市DataStage数据库FilesFiles文件并行写入DataStage子集并行读取细节和摘要BigInsightsInfoSphereBigInsig与大数据来源交换信息将企业信息转移到大数据来源,使它可包含在分析中获取Hadoop的分析结果,并将它们应用于其他IT解决方案并行性和规模对HDFS的支持通过信息服务器并行引擎提供了大规模可伸缩性作业血统与大洞察来源/目标步骤使用信息服务器中的扩展性功能大数据文件组件与大数据来源交换信息大数据文件组件使用BDFS作为来源BDFS引入了新来源选项NamenodeClusterHost和PortBDFS可并行读取文件模式BDFS可使用Readers选项并行读取单个文件使用BDFS作为来源BDFS引入了新来源选项NameBDFS数据流程图名称节点文件请求BDFS数据节点BDFS数据数据PXPXBDFS使用多个读取器流程并行化HDFS读取InfoSphereDataStageBDFS数据流程图名称节点文件请求BDFS数据节点BDFS使用BDFS作为目标BDFS引入了新的目标选项NamenodeClusterHost和PortBDFS通常写入单个文件BDFS能够并行写入多个文件使用BDFS作为目标BDFS引入了新的目标选项NamBDFS示例
客户情绪倾向性分析作业可以通过分析电子邮件在InfoSphereBigInsights中执行。客户情绪倾向性摘要将被更新到仓库中。InfoSphereDataStage作业将挑选信息并更新数据仓库(使用SCD阶段的客户维度)可执行基于分类的电子邮件的风险识别。可以将电子邮件分类为高风险和低风险。分析作业输出风险分类BDFS示例客户情绪倾向性分析作业可以通过分析电子邮件在12BDFS:可扩展性和性能InformationServer–BigdataintegrationDataStageNodes(2)Server:IntelWestmere-EX(4sockets)CPU:Intel(R)Xeon(R)CPUE7-4870@2.40GHzStorage:1TBBigInsightsNodesServers:x3630M3NumberofSystems:26(5usedforthetest)CPU:Intel(R)Xeon(R)CPUX5675@3.07GHzMemory:48GBStorage:4TB12BDFS:可扩展性和性能InformationServ13InformationServer–Bigdataintegration-读写都具有近线性的可扩展能力-最高可达5.2TB/小时-DataStage节点翻倍,处理效率翻倍直至磁盘资源全部占用BDFS:可扩展性和性能13InformationServer–Bigdat平衡的优化–从DataStage生成HadoopMapReduce作业使用DataStageDesign流程生成ETL作业使用BalancedOptimization将其编译为在BigInsights上运行。将支持完全下推–Hadoop内的所有处理(如果可能)
混合下推–内部的一些处理和外部剩余处理,具体取决于来源和目标平衡的优化–从DataStage生成Hadoop15通过InformationServer和Hadoop数据文件系统(HDFS)的
整合,强化了IBM在大数据的领导地位通过JobSequencer对BigInsights和其他MapReduce作业进行编程调用,结合DataStage和Hadoop实现端到端工作流。利用设计器用户界面和标准阶段结构来生成MapReduce作业,为用户提供处理BigData来源的能力,可以使用Hadoop更高效地处理这些来源。实现InfoSphereDataStage和InfoSphereStreams之间的直接数据流整合,结合两个平台的强大功能和应用范围通过所有用例提供丰富元数据支持。自动化的大数据作业生成15通过InformationServer和Hadoop从DataStage调用Oozie工作流Oozie是Hadoop中的一个工作流计划引擎Oozie提供了一个JavaAPI来调用Oozie工作流调用者是Oozie客户端DS可充当Oozie客户端使用OozieAPI,我们构建了一个Oozie调用者模块该模块是同步的成功执行工作流时返回1发生错误时返回0作业调度程序有一个执行命令阶段Oozie调用者模块从执行命令阶段执行使用返回代码在发生错误时放弃作业序列序列从DataStage调用Oozie工作流OozieInfoSphereStreams-InformationServer连接器1) 用户希望向现有DataStage作业添加Streams分析2) 用户希望向现有Streams应用添加DataStage处理3) 从头创建一个DataStage作业和Streams应用。
这些整合可能具有以下数据流:• DataStage->Streams• DataStage->Streams->DataStage• Streams->DataStageInfoSphereStreams-Information联邦整合(用于大数据)18分析和报告工具Web应用建模–查询–交付搜索–分析–可视化VivisimoVelocityInfoSphereFederationHive
(odbc)InfoSphereDatabaseFederation可能是IBMVivisimo等大数据联邦解决方案的另一个企业数据来源联邦整合(用于大数据)18分析和报告工具建模–查询–新用户以灵活、简单的方式检索数据的能力–“只需一次单击”只需几次单击,便可在文件/数据库与BigInsights之间移动数据满足需求,以便:生成用于个人开发工作的沙盒用户界面显示了一些策略选项,
无需任何编码即可将它们自动化。基于所选的策略和源系统功能来
利用InfoSphereDataStage和
InfoSphereDataReplication。整合的设计和操作元数据,用于
内置治理
用于大数据的InfoSphereDataClick:敏捷和可控的整合DB2/
ORACLEInfoSphereDataClickBigInsights分析应用数据仓库转换/复制分析存储分析DS/
CDC新用户以灵活、简单的方式检索数据的能力–“只需一次单击”实时整合(用于大数据)20InfoSphere
数据复制应用程序事务日志高速双向数据对实时信息的低延迟捕获分析极大规模的移动信息每秒TB级数据,每天PB级数据。分析各种信息分析原生格式的各种信息–流音频、视频、空间等信息非扩散性的记录捕获从事务数据库日志中读取数据,将数据分发给任何目标–包括BigDataStreams、ETLforWarehouses或BigInsightsRDBMS
消息队列ETLHadoop系统流系统仓库实时整合(用于大数据)20InfoSphere
数据复制应用21InfoSphereDataClick实时数据高性能传递JournalLogRedo/ArchiveLogsSourceEngineAndMetadataTargetEngineAndMetadataTCP/IPNetezzaTargetsSourcesOracleDB2提升数据仓库数据及时性,动态的数据仓库结合
ETL/ELT优化批处理从源到目标更少的时间和处理即使禁止抽取,数据也可以获取为转换清洗ETL提供实时的数据降低数据集市的成本21InfoSphereDataClick实时数据高性221stClick2ndClick预选数据源和目标Tab页上显示的核对标志表明所需的配置完成复查配置
Execution!!!InfoSphereDataClick–点击两下完成数据整合221stClick2ndClick预选数据源和目标复查23顶级性能加速时间价值:
InformationServer高速的NetezzaConnectorInfoSphereInformationServer(Intel®Xeon®E7-4870)OS:RedHatEL5.3x86-64ProcessorType:Intel®Xeon®E7-4870,40cores/80threadsProcessorSpeed:2.4GHZMemorySize:1TBRAMDiskSpace:2TBtotaldiskspaceNetworkCard:Intel®10GigabitCX4IBMNetezza1000-12Appliance(TwinFin-12)12S-Blades96CPUcoresProcessor:Intel®Xeon®E55202.27GHzStorageSpace:128TB*
*@4xcompressionratioNetworkCard:Intel®10GigabitCX463writeroptionenabled10GEthernetNetezzaAllperformancedatawasobtainedinthespecificoperatingenvironmentandundertheconditionsshownandispresentedasanillustrationonly.Performanceobtainedinotheroperatingenvironmentsmayvary,andcustomersshouldconducttheirowntesting.卸载速度=2.58TB/hour加载速度=2.38TB/hour23顶级性能加速时间价值:
InformationServ24大数据清洗(验证、充实和匹配)对传统数据和大数据的统一和整合访问验证、标准化、充实和匹配数据值得信任的数据存储实现了整体视图业务洞察事务数据传统应用源社会网络视频和照片整合数据质量仓库风险仪表板流计算24大数据清洗(验证、充实和匹配)对传统数据和大数据验证、标InformationServer提供市场上最全面的数据集成和数据管理解决方案独特优势Business/ITcollaborationondataqualityobjectivesAutomatedbusiness/
ITcollaborationEstablishframeworkfor
metadatalineageUnderstandyourdataIncludesautomated
datadiscoveryCleanseandvalidatedataHighestperformancetools
inthemarketMonitordataqualityOnlysolutionofferingrealtime/in-flightdatavalidationandmonitoringFlexibilitySOAenabledBreadthofsupportedsources
andtargets优点LowestTotalCostofOwnership(TCO)EnablessharedservicesandcentralizedrulemanagementProvidesasharedmetadatarepositoryBestinclassdataqualityanalysistoolsUnderstandthecontent,quality,
andstructureofdatasourcesAutomatedataprofilingandanalysisMonitordataqualityovertimeUniqueparallelprocessingengineDeliversunmatchedabilitytoscaleforhugedatavolumesInformationServer提供市场上最全面的数据大数据成功关键课件大数据成功关键 --高效地实现大数据的移动刘春霞liuchunx@IBM软件部资深信息整合顾问大数据成功关键刘春霞28InfoSphere:维护信息供应链信息治理治理质量安全和隐私生命周期标准事务和协作应用业务分析应用外部信息源分析整合管理多维数据集流大数据主数据内容数据流信息数据仓库内容分析整合和清洗3InfoSphere:维护信息供应链信息治理治理质量安全和ThirstforInformation可靠信息移动的速度敏捷
用户想要快速地访问数据,几分钟内和小时级内(如自主的数据整合)对分析的需求两者都需要!权威性
在一个流程框架内内的可靠信息避免信息冗余需要敏捷和可靠的数据访问ThirstforInformation可靠信息移动的速任何数据到大数据大数据到任何数据大数据中心批量数据整合(用于大数据)任何数据ETL/
ELTETL/
ELTELT加载获益利用探索性分析方法最佳性能/最小批处理窗口和实时流数据提取获益从多种来源提取数据:机器数据、社交数据、多结构成熟的整合工具,更高的生产力数据中心获益以大数据形式产生和分析的数据–从不清除用于完成大数据运行时内的工作的图形工具将现有的企业数据引入一个探索性分析平台将社交数据和机器数据引入一个企业数据仓库系统自动化一个低成本数据暂存区域的工具对数据的推送处理(不是其他方法)任何数据到大数据批量数据整合(用于大数据)任何数据ETL/BigInsightsHadoopInfoSphereBigInsights的批量数据整合集市数据仓库仓库集市DataStage数据库FilesFiles文件并行写入DataStage子集并行读取细节和摘要BigInsightsInfoSphereBigInsig与大数据来源交换信息将企业信息转移到大数据来源,使它可包含在分析中获取Hadoop的分析结果,并将它们应用于其他IT解决方案并行性和规模对HDFS的支持通过信息服务器并行引擎提供了大规模可伸缩性作业血统与大洞察来源/目标步骤使用信息服务器中的扩展性功能大数据文件组件与大数据来源交换信息大数据文件组件使用BDFS作为来源BDFS引入了新来源选项NamenodeClusterHost和PortBDFS可并行读取文件模式BDFS可使用Readers选项并行读取单个文件使用BDFS作为来源BDFS引入了新来源选项NameBDFS数据流程图名称节点文件请求BDFS数据节点BDFS数据数据PXPXBDFS使用多个读取器流程并行化HDFS读取InfoSphereDataStageBDFS数据流程图名称节点文件请求BDFS数据节点BDFS使用BDFS作为目标BDFS引入了新的目标选项NamenodeClusterHost和PortBDFS通常写入单个文件BDFS能够并行写入多个文件使用BDFS作为目标BDFS引入了新的目标选项NamBDFS示例
客户情绪倾向性分析作业可以通过分析电子邮件在InfoSphereBigInsights中执行。客户情绪倾向性摘要将被更新到仓库中。InfoSphereDataStage作业将挑选信息并更新数据仓库(使用SCD阶段的客户维度)可执行基于分类的电子邮件的风险识别。可以将电子邮件分类为高风险和低风险。分析作业输出风险分类BDFS示例客户情绪倾向性分析作业可以通过分析电子邮件在37BDFS:可扩展性和性能InformationServer–BigdataintegrationDataStageNodes(2)Server:IntelWestmere-EX(4sockets)CPU:Intel(R)Xeon(R)CPUE7-4870@2.40GHzStorage:1TBBigInsightsNodesServers:x3630M3NumberofSystems:26(5usedforthetest)CPU:Intel(R)Xeon(R)CPUX5675@3.07GHzMemory:48GBStorage:4TB12BDFS:可扩展性和性能InformationServ38InformationServer–Bigdataintegration-读写都具有近线性的可扩展能力-最高可达5.2TB/小时-DataStage节点翻倍,处理效率翻倍直至磁盘资源全部占用BDFS:可扩展性和性能13InformationServer–Bigdat平衡的优化–从DataStage生成HadoopMapReduce作业使用DataStageDesign流程生成ETL作业使用BalancedOptimization将其编译为在BigInsights上运行。将支持完全下推–Hadoop内的所有处理(如果可能)
混合下推–内部的一些处理和外部剩余处理,具体取决于来源和目标平衡的优化–从DataStage生成Hadoop40通过InformationServer和Hadoop数据文件系统(HDFS)的
整合,强化了IBM在大数据的领导地位通过JobSequencer对BigInsights和其他MapReduce作业进行编程调用,结合DataStage和Hadoop实现端到端工作流。利用设计器用户界面和标准阶段结构来生成MapReduce作业,为用户提供处理BigData来源的能力,可以使用Hadoop更高效地处理这些来源。实现InfoSphereDataStage和InfoSphereStreams之间的直接数据流整合,结合两个平台的强大功能和应用范围通过所有用例提供丰富元数据支持。自动化的大数据作业生成15通过InformationServer和Hadoop从DataStage调用Oozie工作流Oozie是Hadoop中的一个工作流计划引擎Oozie提供了一个JavaAPI来调用Oozie工作流调用者是Oozie客户端DS可充当Oozie客户端使用OozieAPI,我们构建了一个Oozie调用者模块该模块是同步的成功执行工作流时返回1发生错误时返回0作业调度程序有一个执行命令阶段Oozie调用者模块从执行命令阶段执行使用返回代码在发生错误时放弃作业序列序列从DataStage调用Oozie工作流OozieInfoSphereStreams-InformationServer连接器1) 用户希望向现有DataStage作业添加Streams分析2) 用户希望向现有Streams应用添加DataStage处理3) 从头创建一个DataStage作业和Streams应用。
这些整合可能具有以下数据流:• DataStage->Streams• DataStage->Streams->DataStage• Streams->DataStageInfoSphereStreams-Information联邦整合(用于大数据)43分析和报告工具Web应用建模–查询–交付搜索–分析–可视化VivisimoVelocityInfoSphereFederationHive
(odbc)InfoSphereDatabaseFederation可能是IBMVivisimo等大数据联邦解决方案的另一个企业数据来源联邦整合(用于大数据)18分析和报告工具建模–查询–新用户以灵活、简单的方式检索数据的能力–“只需一次单击”只需几次单击,便可在文件/数据库与BigInsights之间移动数据满足需求,以便:生成用于个人开发工作的沙盒用户界面显示了一些策略选项,
无需任何编码即可将它们自动化。基于所选的策略和源系统功能来
利用InfoSphereDataStage和
InfoSphereDataReplication。整合的设计和操作元数据,用于
内置治理
用于大数据的InfoSphereDataClick:敏捷和可控的整合DB2/
ORACLEInfoSphereDataClickBigInsights分析应用数据仓库转换/复制分析存储分析DS/
CDC新用户以灵活、简单的方式检索数据的能力–“只需一次单击”实时整合(用于大数据)45InfoSphere
数据复制应用程序事务日志高速双向数据对实时信息的低延迟捕获分析极大规模的移动信息每秒TB级数据,每天PB级数据。分析各种信息分析原生格式的各种信息–流音频、视频、空间等信息非扩散性的记录捕获从事务数据库日志中读取数据,将数据分发给任何目标–包括BigDataStreams、ETLforWarehouses或BigInsightsRDBMS
消息队列ETLHadoop系统流系统仓库实时整合(用于大数据)20InfoSphere
数据复制应用46InfoSphereDataClick实时数据高性能传递JournalLogRedo/ArchiveLogsSourceEngineAndMetadataTargetEngineAndMetadataTCP/IPNetezzaTargetsSourcesOracleDB2提升数据仓库数据及时性,动态的数据仓库结合
ETL/ELT优化批处理从源到目标更少的时间和处理即使禁止抽取,数据也可以获取为转换清洗ETL提供实时的数据降低数据集市的成本21InfoSphereDataClick实时数据高性471stClick2ndClick预选数据源和目标Tab页上显示的核对标志表明所需的配置完成复查配置
Execution!!!InfoSphereDataClick–点击两下完成数据整合221stClick2ndClick预选数据源和目标复查48顶级性能加速时间价值:
InformationServer高速的NetezzaConnectorInfoSphereInformationServer(Intel®Xeon®E7-4870)OS:RedHatEL5.3x86-64ProcessorType:Intel®Xeon®E7-4870,40cores/80threadsProcessorSpeed:2.4GHZMemorySize:1TBRAMDiskSpace:2TBtotaldiskspaceNetworkCard:Intel®10GigabitCX4IBMNetezza1000-12Appliance(TwinFin-12)12S-Blades96CPUcoresProcessor:Intel®Xeon®E55202.27GHzStorageSpace:128TB*
*@4xcompressionratioNetworkCard:Intel®10GigabitCX463writeroptionenabled10GEthernetNetezzaAllperformancedatawasobtainedinthespeci
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 建筑消防安装工程施工分包合同
- 农资互购买卖合同书
- 个人房屋抵押贷款合同
- 单位物业承包合同
- 承运方货物运输合同
- 世界各大河流流量与水质监测数据表
- 预制梁安装施工方案
- 进水格栅施工方案范本
- 卫星基站土建施工方案
- 滨州古建阁楼施工方案
- 统编版(2024)七年级下册语文期末复习:第一单元素养提升测试卷(含答案)
- 电网工程设备材料信息参考价(2024年第四季度)
- 食堂蔬菜品种及质量标准
- Q∕SY 01004-2016 气田水回注技术规范
- 《大数据分析与应用》教学大纲
- FZW2812F(FDR)型用户分界真空负荷开关安装使用说明书完
- 股权转让委托书(6篇)
- 韩国出入境卡中韩文对照模板
- 五辊研磨机(课堂PPT)
- 二次函数求最值(动轴定区间、动区间定轴)(课堂PPT)
- 髋关节脱位2教学课件
评论
0/150
提交评论