版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、大数据成成功关键键- -高效地实实现大数数据的移移动刘春霞IBM软件部资资深信息息整合顾顾问3InfoSphere:维护信信息供应应链信息治理治理质量安全和隐私生命周期标准事务和协协作应用用业务分析析应用外部信息息源分析整合管理多维数据据集流大数据主数据内容数据流信息数据仓库库内容分析析整合和清清洗Thirst for Information可靠信息息移动的的速度敏捷用户想要要快速地地访问数数据,几几分钟内内和小时时级内(如自主主的数据据整合)对分析的的需求两者都需需要!权威性在一个流流程框架架内内的的可靠信信息避免免信息冗冗余需要敏捷捷和可靠靠的数据据访问任何数据据到大数数据大数据到到任何数
2、数据大数据中中心批量数据据整合(用于大大数据)任何数据ETL / ELTETL / ELTELT加载获益益利用探索索性分析析方法最佳性能能/最小批处处理窗口口和实时时流数据据提取获益益从多种来来源提取取数据:机器数数据、社社交数据据、多结结构成熟的整整合工具具,更高高的生产产力数据中心心获益以大数据据形式产产生和分分析的数数据从不清除除用于完成成大数据据运行时时内的工作的图图形工具具将现有的的企业数数据引入入一个探探索性分分析平台台将社交数数据和机机器数据据引入一一个企业业数据仓仓库系统统自动化一一个低成成本数据据暂存区区域的工工具对数据的的推送处处理(不不是其他他方法)BigInsights
3、HadoopInfoSphere BigInsights的批量数据据整合集市 数据仓库仓库集市DataStage数据库FilesFiles文件并行写入DataStage子集并行读取细节和摘要与大数据据来源交交换信息息将企业信信息转移移到大数数据来源源,使它它可包含含在分析析中获取Hadoop的分析结结果,并并将它们们应用于于其他IT解决方案案并行性和和规模对HDFS的支持通通过信息息服务器器并行引引擎提供供了大规规模可伸伸缩性作业血统统与大洞洞察来源源/目标步骤骤使用信息息服务器器中的扩扩展性功功能大数据文文件组件件使用BDFS作为来源源BDFS引入了新新来源选选项NamenodeCluste
4、r Host和PortBDFS可并行读读取文件件模式BDFS可使用Readers选项并行行读取单单个文件件BDFS数据流程程图名称节点点文件请求求BDFS数据节点点BDFS数据数据PXPXBDFS使用多个个读取器器流程并并行化HDFS读取InfoSphere DataStage使用BDFS作为目标标BDFS引入了新新的目标标选项NamenodeCluster Host和PortBDFS通常写入入单个文文件BDFS能够并行行写入多多个文件件BDFS示例客户情绪绪倾向性性分析作作业可以以通过分分析电子子邮件在在InfoSphere BigInsights中执行。客户情绪绪倾向性性摘要将将被更新新到
5、仓库库中。InfoSphere DataStage作业将挑挑选信息息并更新新数据仓仓库(使使用SCD阶段的客客户维度度)可执行基基于分类类的电子子邮件的的风险识识别。可可以将电电子邮件件分类为为高风险险和低风风险。分析作业输出风险分类12BDFS:可扩展展性和性性能InformationServerBigdataintegrationDataStageNodes(2)Server: Intel Westmere-EX (4 sockets)CPU: Intel(R) Xeon(R)CPU E7-4870 2.40GHzStorage:1TBBigInsightsNodesServers:x36
6、30M3NumberofSystems:26(5usedforthe test)CPU: Intel(R) Xeon(R)CPU X5675 3.07GHzMemory: 48GBStorage:4TB13InformationServerBigdataintegration-读写都具具有近线线性的可可扩展能能力-最高可达达5.2TB/小时- DataStage节点翻倍倍,处理理效率翻翻倍直至至磁盘资资源全部部占用BDFS:可扩展展性和性性能平衡的优优化从DataStage生成HadoopMapReduce作业使用DataStageDesign流程生成成ETL作业使用BalancedOptim
7、ization将其编译译为在BigInsights上运行。将支持完全下推推 Hadoop内的所有有处理(如果可可能)混合下推推内部的一一些处理理和外部部剩余处处理,具具体取决决于来源源和目标标15通过InformationServer和Hadoop数据文件件系统(HDFS)的整合,强强化了IBM在大数据据的领导导地位通过JobSequencer对BigInsights和其他MapReduce作业进行行编程调调用,结结合DataStage和Hadoop实现端到到端工作作流。利用设计计器用户户界面和和标准阶阶段结构构来生成成MapReduce作业,为为用户提提供处理理BigData来源的能能力,可
8、可以使用用Hadoop更高效地地处理这这些来源源。实现InfoSphere DataStage和InfoSphere Streams之间的直直接数据据流整合合,结合合两个平平台的强强大功能能和应用用范围通过所有有用例提提供丰富富元数据据支持。自动化的的大数据据作业生生成从DataStage调用Oozie工作流Oozie是Hadoop中的一个个工作流流计划引引擎Oozie提供了一一个Java API来调用Oozie工作流调用者是是Oozie客户端DS可充当Oozie客户端使用OozieAPI,我们构构建了一一个Oozie调用者模模块该模块是是同步的的成功执行行工作流流时返回回1发生错误误时返回回
9、0作业调度度程序有有一个执执行命令令阶段Oozie调用者模模块从执执行命令令阶段执执行使用返回回代码在在发生错错误时放放弃作业业序列序列InfoSphere Streams-InformationServer连接器1)用户希望望向现有有DataStage作业添加加Streams分析2)用户希望望向现有有Streams应用添加加DataStage处理3)从头创建建一个DataStage作业和Streams应用。这些整合合可能具具有以下下数据流流:DataStage-StreamsDataStage-Streams - DataStageStreams-DataStage联邦整合合(用于于大数据据
10、)18分析和报报告工具具Web应用建模查询交付搜索分析可视化Vivisimo VelocityInfoSphere FederationHive(odbc)InfoSphere Database Federation可能是IBMVivisimo等大数据据联邦解解决方案案的另一一个企业业数据来来源新用户以灵活、简单的的方式检检索数据据的能力力“只需一一次单击击”只需几次次单击,便可在在文件/数据库与与BigInsights之间移动动数据满足需求求,以便便:生成用于于个人开开发工作作的沙盒盒用户界面面显示了了一些策略选项,无需任何何编码即即可将它它们自动动化。基于所选选的策略略和源系系统功能能来利
11、用InfoSphere DataStage和InfoSphere DataReplication。整合的设设计和操操作元数数据,用用于内置治理理用于大数数据的InfoSphere DataClick:敏捷和和可控的的整合DB2/ORACLEInfoSphere DataClickBigInsights分析应用用数据仓库库转换/复制分析存储储分析DS/CDC实时整合合(用于于大数据据)20InfoSphere数据复制应用程序序事务日志高速双向向数据对实时信信息的低低延迟捕捕获分析极大大规模的的移动信信息每秒TB级数据,每天PB级数据。分析各种种信息分析原生生格式的的各种信信息流音频、视频、空间等
12、等信息非扩散性性的记录录捕获从事务数数据库日日志中读读取数据据,将数数据分发发给任何何目标包括BigDataStreams、ETLfor Warehouses或BigInsightsRDBMS消息队列列ETLHadoop系统流系统仓库21InfoSphere DataClick实时数据据高性能能传递Journal LogRedo/ArchiveLogsSourceEngineAndMetadataTargetEngineAndMetadataTCP/IPNetezzaTargetsSourcesOracleDB2提升数据据仓库数数据及时时性,动态的数数据仓库库结合ETL/ELT优化批处处理从源
13、到目目标更少少的时间间和处理理即使禁止止抽取,数据也也可以获获取为转换清清洗ETL提供实时时的数据据降低数据据集市的的成本221stClick2ndClick预选数据据源和目目标Tab页上显示示的核对对标志表表明所需需的配置置完成复查配置置Execution!InfoSphere DataClick点击两下下完成数数据整合合23顶级性能能加速时时间价值值:InformationServer高速的Netezza ConnectorInfoSphere Information Server(IntelXeonE7-4870)OS:Red HatEL5.3x86-64ProcessorType:In
14、telXeonE7-4870,40cores/80threadsProcessorSpeed: 2.4GHZMemorySize:1TBRAMDisk Space:2 TB total diskspaceNetwork Card:Intel10Gigabit CX4IBMNetezza1000-12Appliance(TwinFin-12)12S-Blades96CPUcoresProcessor: IntelXeonE55202.27GHzStorage Space:128TB* 4xcompressionratioNetwork Card: Intel10Gigabit CX463writ
15、er optionenabled10GEthernetNetezzaAllperformancedatawasobtainedinthe specific operatingenvironmentandunderthe conditionsshownand is presentedasanillustrationonly.Performanceobtainedinotheroperating environmentsmayvary,and customersshouldconducttheirowntesting.卸载速度度= 2.58TB/hour加载速度度= 2.38TB/hour24大数
16、据清清洗(验验证、充充实和匹匹配)对传统数数据和大大数据的统一和和整合访访问验证、标标准化、充实和匹匹配数据据值得信任任的数据存储实实现了整体视图图业务洞察事务数据据传统应用用源社会网络络视频和照照片整合数据质量量仓库风险仪表表板流计算InformationServer提供市场场上最全全面的数数据集成成和数据据管理解解决方案案独特优势势Business/IT collaboration on data quality objectivesAutomated business / IT collaborationEstablish framework for metadata lineageUn
17、derstand your dataIncludes automated data discoveryCleanse and validate dataHighest performance tools in the marketMonitor data qualityOnly solution offering real time / in-flight data validation and monitoringFlexibilitySOA enabledBreadth of supported sources and targets优点Lowest Total Cost of Ownership (TCO)Enables shared services and centralized rule managementProvides a shared metada
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2024年度二手汽车贷款违约处理合同2篇
- 2024年度无人机销售合同
- 2024年度企业知识产权保护与许可使用合同3篇
- 恩下册语文课件
- 2024年度工程合同谈判策略与标的竞争限制3篇
- 2024年度担保存货监管与供应链金融服务扩展合同
- 《传染病和寄生虫》课件
- 2024年度租赁期满后物业续租合同3篇
- 2024年度甘肃省中药材种植加工合作协议
- 高层民用建筑钢结构技术规范-JGJ-99-98
- 工会选举选票及汇总表.doc
- 笛卡尔曲线方程和图[图文借鉴]
- 新人教版二年级上册数学第八单元教材分析
- 第三章--纳维-斯托克斯方程组
- 强制检定工作计量器具备案承诺书.doc
- 《夏洛特的网》导读题
- 高智商犯罪鹤岗128大案纪要
- 精益生产部门的职责作用
- 低压配电施工方案(完整版)
- 能源审计报告
- 山东特种车辆制造项目可行性研究报告(可编辑模板)
评论
0/150
提交评论