大数据成功关键_第1页
大数据成功关键_第2页
大数据成功关键_第3页
大数据成功关键_第4页
大数据成功关键_第5页
已阅读5页,还剩20页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、大数据成功关键大数据成功关键 - - 高效地实现大数据的移动高效地实现大数据的移动刘春霞IBM软件部资深信息整合顾问3InfoSphere:维护信息供应链信息治理信息治理治理治理质量质量安全和隐私安全和隐私生命周期生命周期标准标准事务和协作应用事务和协作应用业务分析应用业务分析应用外部信息源外部信息源分析分析整合整合管理管理多维数据集流流大数据大数据主数据主数据内容内容数据数据流信息流信息数据仓库数据仓库内容分析内容分析Thirst for Information可靠信息移可靠信息移动动的速度的速度 敏捷用户想要快速地访问数据,几分钟内和小时级内(如自主的数据整合)对对分析的需求分析的需求两者

2、都需要!两者都需要! 权威性 在一个流程框架内内的可靠信息避免信息冗余需要敏捷和可靠的数据访问任何数据到大数据任何数据到大数据大数据到任何数据大数据到任何数据大数据中心大数据中心批量数据整合(用于大数据)任何数据ETL / ELTETL / ELTELT加载获益加载获益利用探索性分析方法最佳性能/最小批处理窗口和实时流数据提取获益提取获益从多种来源提取数据:机器数据、社交数据、多结构成熟的整合工具,更高的生产力数据中心获益数据中心获益以大数据形式产生和分析的数据 从不清除用于完成大数据运行时内的工作的图形工具将现有的企业数据引入一个探索性分析平台将社交数据和机器数据引入一个企业数据仓库系统自动

3、化一个低成本数据暂存区域的工具对数据的推送处理(不是其他方法)BigInsightsHadoopInfoSphere BigInsights 的批量数据整合集市集市 数据仓库数据仓库仓库仓库集市集市DataStage数据库数据库FilesFiles文件文件并行并行写入写入DataStage子集子集并行并行读取读取细节和细节和摘要摘要与大数据来源交换信息将企业信息转移到大数据来源,使它可包含在分析中获取 Hadoop 的分析结果,并将它们应用于其他 IT 解决方案并行性和规模对 HDFS 的支持通过信息服务器并行引擎提供了大规模可伸缩性作业血统与大洞察来源/目标步骤使用信息服务器中的扩展性功能大

4、数据文件组件使用 BDFS 作为来源 BDFS 引入了新来源选项 Namenode Cluster Host 和 Port BDFS 可并行读取文件模式 BDFS 可使用 Readers 选项并行读取单个文件BDFS 数据流程图名称节点名称节点文件请求文件请求BDFS数据节点数据节点BDFS数据数据数据数据PXPXBDFS 使用多个读取器流程并行化 HDFS 读取InfoSphere DataStage使用 BDFS 作为目标 BDFS 引入了新的目标选项 Namenode Cluster Host 和 Port BDFS 通常写入单个文件 BDFS 能够并行写入多个文件BDFS 示例 客户情

5、绪倾向性分析作业可以通过分析电子邮件在 InfoSphere BigInsights 中执行。客户情绪倾向性摘要将被更新到仓库中。InfoSphere DataStage 作业将挑选信息并更新数据仓库(使用 SCD 阶段的客户维度)可执行基于分类的电子邮件的风险识别。可以将电子邮件分类为高风险和低风险。分析作业输出分析作业输出风险分类风险分类12BDFS:可扩展性和性能Information Server Big data integrationDataStage Nodes (2)Server: Intel Westmere-EX (4 sockets)CPU: Intel(R) Xeon(

6、R) CPU E7- 4870 2.40GHzStorage: 1TB BigInsights NodesServers: x3630 M3Number of Systems: 26 (5 used for the test)CPU: Intel(R) Xeon(R) CPU X5675 3.07GHzMemory: 48GBStorage: 4TB13Information Server Big data integration- 读写都具有近线性的可扩展能力- 最高可达5.2 TB/小时- DataStage节点翻倍,处理效率翻倍直至磁盘资源全部占用BDFS:可扩展性和性能平衡的优化 从

7、DataStage 生成 Hadoop MapReduce 作业 使用 DataStage Design 流程生成 ETL 作业 使用 Balanced Optimization 将其编译为在 BigInsights 上运行。 将支持 完全下推 Hadoop 内的所有处理(如果可能) 混合下推 内部的一些处理和外部剩余处理,具体取决于来源和目标15通过Information Server和Hadoop 数据文件系统 (HDFS)的 整合,强化了IBM在大数据的领导地位通过 Job Sequencer 对 Big Insights 和其他 MapReduce 作业进行编程调用,结合 DataSt

8、age 和 Hadoop 实现端到端工作流。利用设计器用户界面和标准阶段结构来生成 MapReduce 作业,为用户提供处理 BigData 来源的能力,可以使用 Hadoop 更高效地处理这些来源。实现 InfoSphere DataStage 和 InfoSphere Streams 之间的直接数据流整合,结合两个平台的强大功能和应用范围通过所有用例提供丰富元数据支持。自动化的大数据作业生成从 DataStage 调用 Oozie 工作流 Oozie 是 Hadoop 中的一个工作流计划引擎 Oozie 提供了一个 Java API 来调用 Oozie 工作流 调用者是 Oozie 客户端

9、 DS 可充当 Oozie 客户端 使用 Oozie API,我们构建了一个 Oozie 调用者模块 该模块是同步的 成功执行工作流时返回 1 发生错误时返回 0 作业调度程序有一个执行命令阶段 Oozie 调用者模块从执行命令阶段执行 使用返回代码在发生错误时放弃作业序列序列序列InfoSphere Streams-Information Server 连接器1) 用户希望向现有 DataStage 作业添加 Streams 分析2) 用户希望向现有 Streams 应用添加 DataStage 处理3) 从头创建一个 DataStage 作业和 Streams 应用。这些整合可能具有以下数

10、据流: DataStage - Streams DataStage - Streams - DataStage Streams - DataStage联邦整合(用于大数据)18分析和报告工具Web 应用建模建模 查询查询 交付交付搜索搜索 分析分析 可视化可视化Vivisimo VelocityInfoSphere FederationHive(odbc)InfoSphere Database Federation 可能可能是是 IBM Vivisimo 等大数据联邦解决方等大数据联邦解决方案的另一个企业数据来源案的另一个企业数据来源新用户新用户以灵活灵活、简单的方式检索数据的能力 “只需一次

11、单击”只需几次单击,便可在文件/数据库与 BigInsights 之间移动数据满足需求,以便:生成用于个人开发工作的沙盒用户界面显示了一些策略策略选项,无需任何编码即可将它们自动化。基于所选的策略和源系统功能来利用 InfoSphere DataStage 和 InfoSphere Data Replication。整合的设计和操作元数据,用于内置治理内置治理 用于大数据的 InfoSphere Data Click:敏捷和可控的整合DB2/ORACLEInfoSphere Data ClickBigInsights分析应用分析应用数据仓库数据仓库转换转换/复制复制分析存储分析存储分析分析DS

12、/CDC实时整合(用于大数据)20InfoSphere数据复制数据复制应用程序事务日志高速双向数据高速双向数据对实时信息的低延迟捕获分析极大规模的移动信息分析极大规模的移动信息每秒 TB 级数据,每天 PB 级数据。分析各种信息分析各种信息分析原生格式的各种信息 流音频、视频、空间等信息非扩散性的记录捕获非扩散性的记录捕获从事务数据库日志中读取数据,将数据分发给任何目标 包括 Big Data Streams、ETL for Warehouses 或 Big Insights RDBMS 消息队列ETLHadoop 系统流系统仓库21InfoSphere Data Click 实时数据高性能传

13、递Journal LogRedo/Archive LogsSource EngineAnd MetadataTarget EngineAnd MetadataTCP/IPNetezzaTargetsSourcesOracleDB2提升数据仓库数据及时性, 动态的数据仓库结合 ETL/ELT优化批处理从源到目标更少的时间和处理即使禁止抽取,数据也可以获取为转换清洗ETL提供实时的数据降低数据集市的成本221st Click2nd Click预选数据源和目标Tab页上显示的核对标志表明所需的配置完成复查配置 Execution!InfoSphere Data Click 点击两下完成数据整合23顶

14、级性能加速时间价值:Information Server高速的Netezza ConnectorInfoSphere Information Server (Intel Xeon E7-4870)OS: Red Hat EL 5.3 x86-64Processor Type: Intel Xeon E7- 4870, 40 cores/80 threadsProcessor Speed: 2.4GHZMemory Size: 1 TB RAMDisk Space: 2 TB total disk spaceNetwork Card: Intel10 Gigabit CX4 IBM Netezz

15、a 1000-12 Appliance (TwinFin-12)12 S-Blades96 CPU coresProcessor: Intel Xeon E5520 2.27GHz Storage Space: 128 TB* * 4x compression ratio Network Card: Intel10 Gigabit CX463 writer option enabled 10G EthernetNetezzaAll performance data was obtained in the specific operating environment and under the

16、conditions shown and is presented as an illustration only. Performance obtained in other operating environments may vary, and customers should conduct their own testing.卸载速度= 2.58 TB / hour加载速度= 2.38 TB / hour24大数据清洗(验证、充实和匹配)对传统数据和大数据对传统数据和大数据的统一和整合访问的统一和整合访问验证、标准化、验证、标准化、充实和匹配数据充实和匹配数据值得信任的数值得信任的数

17、据存储实现了据存储实现了整体视图整体视图业务业务洞察洞察事务数据传统应用源社会网络视频和照片整合数据质量仓库风险仪表板流计算Information Server 提供市场上最全面的提供市场上最全面的数据集成和数据管理解决方案数据集成和数据管理解决方案独特优势独特优势Business/IT collaboration on data quality objectives Automated business / IT collaboration Establish framework for metadata lineageUnderstand your data Includes automa

18、ted data discoveryCleanse and validate data Highest performance tools in the marketMonitor data quality Only solution offering real time / in-flight data validation and monitoringFlexibility SOA enabled Breadth of supported sources and targets优点优点Lowest Total Cost of Ownership (TCO) Enables shared services and centralized rule management Provides a sh

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论