刘春霞:大数据成功关键_第1页
刘春霞:大数据成功关键_第2页
刘春霞:大数据成功关键_第3页
刘春霞:大数据成功关键_第4页
刘春霞:大数据成功关键_第5页
已阅读5页,还剩21页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据成功关键 --高效地实现大数据的移动刘春霞IBM软件部资深信息整合顾问3InfoSphere:维护信息供应链信息治理治理质量安全和隐私生命周期标准事务和协作应用业务分析应用外部信息源分析整合管理多维数据集流大数据主数据内容数据流信息数据仓库内容分析整合和清洗ThirstforInformation可靠信息移动的速度敏捷

用户想要快速地访问数据,几分钟内和小时级内(如自主的数据整合)对分析的需求两者都需要!权威性

在一个流程框架内内的可靠信息避免信息冗余需要敏捷和可靠的数据访问任何数据到大数据大数据到任何数据大数据中心批量数据整合(用于大数据)任何数据ETL/

ELTETL/

ELTELT加载获益利用探索性分析方法最佳性能/最小批处理窗口和实时流数据提取获益从多种来源提取数据:机器数据、社交数据、多结构成熟的整合工具,更高的生产力数据中心获益以大数据形式产生和分析的数据–从不清除用于完成大数据运行时内的工作的图形工具将现有的企业数据引入一个探索性分析平台将社交数据和机器数据引入一个企业数据仓库系统自动化一个低成本数据暂存区域的工具对数据的推送处理(不是其他方法)BigInsightsHadoopInfoSphereBigInsights的批量数据整合集市数据仓库仓库集市DataStage数据库FilesFiles文件并行写入DataStage子集并行读取细节和摘要与大数据来源交换信息将企业信息转移到大数据来源,使它可包含在分析中获取Hadoop的分析结果,并将它们应用于其他IT解决方案并行性和规模对HDFS的支持通过信息服务器并行引擎提供了大规模可伸缩性作业血统与大洞察来源/目标步骤使用信息服务器中的扩展性功能大数据文件组件使用BDFS作为来源BDFS引入了新来源选项NamenodeClusterHost和PortBDFS可并行读取文件模式BDFS可使用Readers选项并行读取单个文件BDFS数据流程图名称节点文件请求BDFS数据节点BDFS数据数据PXPXBDFS使用多个读取器流程并行化HDFS读取InfoSphereDataStage使用BDFS作为目标BDFS引入了新的目标选项NamenodeClusterHost和PortBDFS通常写入单个文件BDFS能够并行写入多个文件BDFS示例客户情绪绪倾向性性分析作作业可以以通过分分析电子子邮件在在InfoSphereBigInsights中执行。。客户情绪绪倾向性性摘要将将被更新新到仓库库中。InfoSphereDataStage作业将挑挑选信息息并更新新数据仓仓库(使使用SCD阶段的客客户维度度)可执行基基于分类类的电子子邮件的的风险识识别。可可以将电电子邮件件分类为为高风险险和低风风险。分析作业输出风险分类12BDFS:可扩展展性和性性能InformationServer––BigdataintegrationDataStageNodes(2)Server:IntelWestmere-EX(4sockets)CPU:Intel(R)Xeon(R)CPUE7-4870@2.40GHzStorage:1TBBigInsightsNodesServers:x3630M3NumberofSystems:26(5usedforthetest)CPU:Intel(R)Xeon(R)CPUX5675@3.07GHzMemory:48GBStorage:4TB13InformationServer––Bigdataintegration-读写都具具有近线线性的可可扩展能能力-最高可达达5.2TB/小时-DataStage节点翻倍倍,处理理效率翻翻倍直至至磁盘资资源全部部占用BDFS:可扩展展性和性性能平衡的优优化–从DataStage生成HadoopMapReduce作业使用DataStageDesign流程生成成ETL作业使用BalancedOptimization将其编译译为在BigInsights上运行。。将支持完全下推推–Hadoop内的所有有处理((如果可可能)混合下推推–内部的一一些处理理和外部部剩余处处理,具具体取决决于来源源和目标标15通过InformationServer和Hadoop数据文件件系统(HDFS)的整合,强强化了IBM在大数据据的领导导地位通过JobSequencer对BigInsights和其他MapReduce作业进行行编程调调用,结结合DataStage和Hadoop实现端到到端工作作流。利用设计计器用户户界面和和标准阶阶段结构构来生成成MapReduce作业,为为用户提提供处理理BigData来源的能能力,可可以使用用Hadoop更高效地地处理这这些来源源。实现InfoSphereDataStage和InfoSphereStreams之间的直直接数据据流整合合,结合合两个平平台的强强大功能能和应用用范围通过所有有用例提提供丰富富元数据据支持。。自动化的的大数据据作业生生成从DataStage调用Oozie工作流Oozie是Hadoop中的一个个工作流流计划引引擎Oozie提供了一一个JavaAPI来调用用Oozie工作流流调用者者是Oozie客户端端DS可充当当Oozie客户端端使用OozieAPI,我们们构建建了一一个Oozie调用者者模块块该模块块是同同步的的成功执执行工工作流流时返返回1发生错错误时时返回回0作业调调度程程序有有一个个执行行命令令阶段段Oozie调用者者模块块从执执行命命令阶阶段执执行使用返返回代代码在在发生生错误误时放放弃作作业序序列序列InfoSphereStreams-InformationServer连接器器1)用户希希望向向现有有DataStage作业添添加Streams分析2)用户希希望向向现有有Streams应用添添加DataStage处理3)从头创创建一一个DataStage作业和和Streams应用。。这些整整合可可能具具有以以下数数据流流:•DataStage->Streams•DataStage->Streams->DataStage•Streams->DataStage联邦整整合((用于于大数数据))18分析和和报告告工具具Web应用建模–查询–交付搜索–分析–可视化化VivisimoVelocityInfoSphereFederationHive(odbc)InfoSphereDatabaseFederation可能是是IBMVivisimo等大数数据联联邦解解决方方案的的另一一个企企业数数据来来源新用户户以灵活、简单单的方方式检检索数数据的的能力力–“只需需一次次单击击”只需几几次单单击,,便可可在文文件/数据库库与BigInsights之间移移动数数据满足需需求,,以便便:生成用用于个个人开开发工工作的的沙盒盒用户界界面显显示了了一些些策略选项,,无需任任何编编码即即可将将它们们自动动化。。基于所所选的的策略略和源源系统统功能能来利用InfoSphereDataStage和InfoSphereDataReplication。整合的的设计计和操操作元元数据据,用用于内置治治理用于大大数据据的InfoSphereDataClick:敏捷捷和可可控的的整合合DB2/

ORACLEInfoSphereDataClickBigInsights分析应应用数据仓仓库转换/复制分析存存储分析DS/CDC实时整整合((用于于大数数据))20InfoSphere

数据复制应用程程序事务日志高速双双向数数据对实时时信息息的低低延迟迟捕获获分析极极大规规模的的移动动信息息每秒TB级数据据,每每天PB级数据据。分析各各种信信息分析原原生格格式的的各种种信息息–流音频频、视视频、、空间间等信信息非扩散散性的的记录录捕获获从事务务数据据库日日志中中读取取数据据,将将数据据分发发给任任何目目标–包括BigDataStreams、ETLforWarehouses或BigInsightsRDBMS消息队队列ETLHadoop系统流系统统仓库21InfoSphereDataClick实时数数据高高性能能传递递JournalLogRedo/ArchiveLogsSourceEngineAndMetadataTargetEngineAndMetadataTCP/IPNetezzaTargetsSourcesOracleDB2提升数数据仓仓库数数据及及时性性,动态的的数据据仓库库结合ETL/ELT优化批批处理理从源到到目标标更少少的时时间和和处理理即使禁禁止抽抽取,,数据据也可可以获获取为转换换清洗洗ETL提供实实时的的数据据降低数数据集集市的的成本本221stClick2ndClick预选数数据源源和目目标Tab页上显显示的的核对对标志志表明明所需需的配配置完完成复查配配置Execution!!!InfoSphereDataClick––点击两两下完完成数数据整整合23顶级性性能加加速时时间价价值:InformationServer高速的的NetezzaConnectorInfoSphereInformationServer(Intel®Xeon®E7-4870)OS:RedHatEL5.3x86-64ProcessorType:Intel®Xeon®E7-4870,40cores/80threadsProcessorSpeed:2.4GHZMemorySize:1TBRAMDiskSpace:2TBtotaldiskspaceNetworkCard:Intel®10GigabitCX4IBMNetezza1000-12Appliance(TwinFin-12)12S-Blades96CPUcoresProcessor:Intel®Xeon®E55202.27GHzStorageSpace:128TB**@4xcompressionratioNetworkCard:Intel®10GigabitCX463writeroptionenabled10GEthernetNetezzaAllperformancedatawasobtainedinthespecificoperatingenvironmentandundertheconditionsshownandispresentedasanillustrationonly.Performanceobtainedinotheroperatingenvironmentsmayvary,andcustomersshouldconducttheirowntesting.卸载速度=2.58TB/hour加载速度=2.38TB/hour24大数据清洗洗(验证、、充实和匹匹配)对传统数据据和大数据据的统一和整整合访问验证、标准准化、充实和匹配配数据值得信任的的数据存储实现现了整体视图业务洞察事务数据传统应用源社会网络视频和照片片整合数据质量仓库风险仪表板板流计算InformationServer提供市场上上最全面的的数据集成成和数据管管理解决方方案独特优势Business/ITcollaborationondataqualityobjectivesAutomatedbusiness/

ITcollaborationEstablishframeworkfor

metadatalineageUnderstandyourdataIncludes

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论