SybaseIQ非结构化数据解决方案.docx_第1页
SybaseIQ非结构化数据解决方案.docx_第2页
SybaseIQ非结构化数据解决方案.docx_第3页
SybaseIQ非结构化数据解决方案.docx_第4页
SybaseIQ非结构化数据解决方案.docx_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

Sybase IQ非结构化数据解决方案Sybase IQ是Sybase公司推出的特别为数据仓库设计的关系型数据库。IQ的架构与大多数关系型数据库不同,它特别的设计用以支持大量并发用户的即时查询。其设计与执行进程优先考虑查询性能,其次是完成批量数据更新的速度。而传统关系型数据库引擎的设计既考虑在线的事务进程又考虑数据仓库(而事实上,往往更多的关注事务进程)。列存储IQ以列存储数据,而不是行这与其他所有关系型数据库引擎广泛使用的存储方法方向相反。在其他关系型数据库内核中,数据库的一张表典型的表示为一条数据库页链,每一数据页中有一行或多行数据记录。在数据仓库应用中,从查询性能的观点出发,这种存储方式是所有可能的数据存储方式中最不可取的。在IQ中,每张表是一组相互独立的页链的集合,每一页链代表表中的一列。所以有100 列的表将有100 条相互独立的页链,每一列都有一条页链与之对应,而不是象其他数据库引擎,一张表对应一条页链。列存储所固有的优越性在于:大多数数据仓库应用的查询只关心表中所有列的一个很小的子集,从而可以以很少的磁盘I/O得到查询结果。现在考虑这样一个例子,假设我们要得到所有生日在七月份的客户的名字和电子邮件地址。在一个典型的OLTP数据库引擎中,查询优化器将根据返回行的百分比(如1/12,在本例中,假设各月的生日都基本平均)来决定是否值得在该列上使用索引。因此,典型的数据库引擎对该查询可能会做全表的扫描。为了对扫描的成本做一估算,我们假设每个客户的行记录为3200个字节,共有1000万个条记录。因此,表扫描必须读取320亿个字节的数据。IQ数据库引擎可以只读取查询所需的列。在本例中,有三个相关的列:全名、电子邮件地址和出生日期。假设全名为25个字节,电子邮件地址为25个字节,出生日期为4个字节(日期以二进制做内部编码)。那么IQ 只需要读取5400万个字节的数据大约减少了59倍!数据压缩传统的数据库引擎不能以一种通用的方式进行数据压缩,主要是由于存在以下三个问题:1. 第一个问题是其按行存储的数据存储方式不利于压缩。这是因为数据(大多为二进制数据)在以这种方式存储时重复并不多。我们发现,按行存储的数据,最多能有5-10%的压缩比例;2. 第二个问题是对于许多的2K 和4K 的二进制数据的页来说,为压缩和解压缩而增加的开销太大;3. 第三个问题是在OLTP 环境中,大量读取和更新混杂在一起。每一次更新需要进行压缩操作,而读取只需解压缩操作,大多数的数据压缩算法在压缩时比解压缩时慢4 倍。这一开销将明显降低OLTP 数据库引擎的事务处理效率而使得数据压缩的代价昂贵到几乎不能忍受。在数据仓库应用中,数据压缩可以用小得多的代价换取更大好处。其中包括减少对于存储量的要求;增大数据吞吐量,这相当于减少查询响应时间。Sybase IQ使用了数据压缩。这是由于数据按列存储,相邻的字段值具有相同的数据类型,其二进制值的范围通常也要小得多,所以压缩更容易,压缩比更高。Sybase IQ 对列存储的数据通常能得到大于50%的压缩。更大的压缩比例,加上大页面I/O,使得Sybase IQ 在获得优良的查询性能的同时,减少了对存储空间的需求。1Sybase IQ独特的优势面描述了IQ独特的技术特征所带来的一些关键的应用效果。查询效果瞬间响应IQ通过列存储、革命性的位图索引方法以及智能的动态访问技术实现了快速的查询响应速度,比传统的数据库查询速度提高10-1000倍。这主要表现在如下几个方面:减少磁盘I/OSybase IQ通过独特的列存储,索引与压缩技术,大大减少了查询中的磁盘I/O次数,其杰出的磁盘I/O效果带来了更快速的查询反应,更高的吞吐量和更低的成本。并行列处理IQ支持列向量的并行处理,这样,在查询中,大量的列向量将被并行扫描,从而达到显著降低响应时间的目的。智能优化IQ允许在每个列上建立多个索引,IQ查询优化器在不同的使用情况下为查询选择不同的索引。提高Cache命中率大多数传统的关系型数据库执行决策支持类型的查询时会进行表扫描。表扫描使Cache 命中率降低。列存储方式使Cache命中率大大提高,查询响应加快。IQ并行结构对多用户查询的性能影响大多数传统数据库采用的并行表扫描方法在一个大型SMP上只有一个用户的情况下,效果是最好的,但在多用户查询环境中的性能会大打折扣。原因是现在的大多数SMP 系统只能同时支持一至两个大型的并行表扫描,如果扫描数量增加,不是CPU 资源不够,就是耗尽了I/O 总线的带宽。每一个表的扫描同时也使数据库缓冲完全失效,因为大多数大型数据仓库应用的表扫描都远大于物理缓冲区的存储能力。IQ独特的并行结构可以在大量的并发查询情况下提供优秀的查询性能。存储效果节约存储成本智能压缩技术,与精巧的索引结构和列存储结合,IQ比其他数据库引擎拥有更好的存储效果。这将获得更低的存储成本与更高的查询性能(因为系统仅需很少的磁盘I/O读取或写入任何给定的数据库块)。在传统的数据库中,为提高查询性能所建的索引占用的磁盘空间往往需要比数据本身需要的磁盘空间多出3-10倍。而Sybase IQ 存储数据所占用的磁盘空间通常只是原数据文件的40%-60%,是传统数据库所占用空间的几分之一。数据加载更高效率数据加载,包括向一个现有的数据仓库中增加数据,其加载效率大大高于传统的数据库。这是因为IQ的列存储、列并行处理与索引技术,为快速批量数据加载时提供了强大的技术保证。如果在数据加载时考虑索引的增量式加载,大多数传统的关系型数据库在数据的增量式加载方面都存在严重的问题。这就是说,如果你一次装入了100GB 的原始数据并在其上创建了索引,再在此基础上增加100MB 或几个GB 的数据都会非常非常慢,以至于如果先删除所有的索引,再装入增加的数据,然后重新对整个数据库创建索引反而会快一点。Sybase IQ 在装入第二个100MB 或100GB 的时候的速度几乎与装入第一批数据一样快。这就给最终用户带来的更大的灵活性。Sybase IQ 使得索引的开销大大降低,并提供了一个新的开发环境,在这样的开发环境中,索引的使用可以比过去任何时候更充分。可扩展性Sybase IQ的设计允许数据仓库从基础开始扩展,从很小扩展到非常巨大的规模。这一点已经完全被验证,(详细情况请参考全球最大的数据仓库企业数据仓库参考架构一节)以及基准测试报告。可扩展性对Sybase IQ而言,举重若轻,你可以从一个小型的数据仓库开始,扩展到大型的数据仓库。也可以从大型开始扩展到超大型的数据仓库。大幅降低总拥有成本正如上面所述,Sybase IQ大大节约了数据存储成本,而且通过其强大的可扩展性为企业提供了灵活的选择。另外,IQ比传统的数据库更容易维护,不需要经常的人工调优,简单的扩展实现,快速的部署时间等等都大幅降低了企业开发数据仓库的总拥有成本。相关技术报导:搜狐新闻2012对于IT行业来说,无疑是大数据之年。据IDC统计,2011年数据总量将达到1.8万亿GB ,对这些海量数据的分析已经成为企业和机构非常重要且紧迫的需求。面临着占据不到15% 的传统标准化、结构化的信息,企业已经无法捕捉正确的、全部的市场信息,剩下的85% 非结构化数据则广泛存在于社交网络、互联网和电子商务之中。面对席卷而来的大数据浪潮,企业更需要一种全新的技术,帮助他们实时处理海量的复杂性信息,挖掘大数据分析的价值。在大数据分析中,传统的数据库部署已经不能承载TB数据,也不能很好的支持高级别的数据分析。“大数据的应用关键在于可高度扩展的分析,包括处理海量、高速、种类繁多以及无法预测的数据类型等极端情况”,Forrester 研究机构于10月发布的报告企业Hadoop:新兴的大数据核心指出。在大数据分析领域,Hadoop和MapReduce越来越受到关注。Hadoop是一个开放源码的分布式数据处理系统架构,主要面向存储和处理结构化、半结构化或非结构化等真正意义上的大数据(通常成百上千的TB甚至PB级别数据)应用。MapReduce能将大数据问题分解成多个子问题,将它们分配到成百上千个处理节点之上,然后将结果汇集到一个小数据集当中,从而更容易分析得出最后的结果。Sybase IQ 15.4采用业内领先的MPP列式数据库和最先进的数据库内分析技术,并革命性地加入MapReduce与Hadoop集成,以应对大数据时代的分析挑战,开启洞察关键业务的能力。Sybase IQ 15.4正在打破数据分析的壁垒,彻底改变“大数据分析”领域。Sybase IQ 15创新性的列式数据库面对大数据分析的全新需求,Sybase IQ 的列式数据库无疑更能够驾驭大数据浪潮。相比于传统的“行式存储”的关系型数据库,Sybase IQ使用了独特的列式存储方式,在进行分析查询时,仅需读取查询所需的列,其垂直分区策略不仅能够支持大量的用户、大规模数据,还可以提交对商业信息的高速访问,其速度可达到传统的关系型数据库的百倍甚至千倍。“随着Sybase IQ不断地在分析应用POC测试中拔得头筹,有时甚至超过其他对手100倍之多”,Gartner 评价道,“Sybase IQ逐渐成为从数据集市到企业数据仓库架构最令人渴望的DBMS(数据库管理系统)。”在此基础上,Sybase IQ 15 提升了核心的引擎基础架构能力,包括数据加载和查询性能、改进的安全架构、强大的集群管理和因数据分区而增强的管理等等。自2009年推出以来,Sybase陆续发布了Sybase IQ 15.1、15.2、15.3以至最新的Sybase IQ 15.4版本,每个版本都着力于增加新的核心能力以促进更深入的高级分析。Sybase IQ 15.3在内置分析、全文检索等功能基础上,采用 PlexQ 技术的全共享 MPP 架构,扩展后可支持实时访问数千个用户、多个混合工作负载和大规模数据集,将性能、分析、灵活性提高前所未有的高度,从而重新定义企业级业务分析。Sybase IQ 15.4已将Sybase IQ 的性能、分析、灵活性提升到了更高的级别,进一步推动了其在商业智能方面业已非常强势的增长。长期以来,Sybase IQ这些技术革新使得Sybase IQ一直以来位于列式分析服务器市场的领导者地位。目前,全球已有2,000多名用户采用了Sybase IQ创新的列式处理方法,为其关键的分析和报表系统提供支持。在过去三年,每年都有大约200个新客户加入Sybase IQ用户阵营。Sybase IQ 15 采用更灵活、效益更高的 PlexQ 技术Sybase在2010年推出的Sybase IQ 15.3就采用了全共享架构的 PlexQ 技术,该技术重新定义了企业范围的业务信息,全共享架构可轻松支持涉及海量数据集、海量并发用户数和独特工作流程的多种复杂分析样式,大大增加了其效益。与其他 MPP 解决方案不同,Sybase IQ 的 PlexQ 网格技术能够动态管理可轻松扩展并且专用于不同组和流程的一系列计算与存储资源中的分析工作量,从而使其能够以更低的成本更轻松地支持日益增长的数据量以及快速增长的用户社区。基于成熟的PlexQ 技术构建的Sybase IQ 采用下图所示的三层构架:基本层:数据库管理系统 (DBMS),这是一个全共享 MPP 分析 DBMS 引擎,是Sybase IQ 最大的独特优势。第二层:分析应用程序服务层,其提供 C+ 和 Java 数据库内 API,并可实现与外部数据源的集成和联邦;包括四种 与Hadoop 的集成方法。顶层:Sybase IQ生态系统,由四个强大且不同的合作伙伴和认证 ISV 应用程序组成。基于这种 PlexQ 技术,Sybase IQ 15.4 将大数据转变成可指挥每个人都行动的情报信息,从而在整个企业的用户和业务流程范围内轻松具备大数据的分析能力。Sybase IQ 15.4面向大数据的高级分析平台Sybase IQ提供了一个统一的DBMS平台,可使用各种算法分析不同类型的数据,这包括结构化数据和半结构化数据。此外,该版本还做了以下的扩充:扩大了对数据库内分析功能的支持,包括MapReduce API、预测模型标记语言(PMML)支持、与Hadoop的集成以及基于Sybase IQ PlexQ大规模并行处理(MPP)技术的统计和数据挖掘算法的扩展库。新的API帮助开发人员快速、安全地实施数据库内算法,实现优于现有方法10倍以上的性能加速。Sybase IQ 15. 4具有以下主要功能:1. 更强的数据管理大量增强的功能改善了Sybase IQ 的数据管理、部署和可维护性。 更快速的批量加载: 批量加载数据通过ODBC 和 JDBC 接口插入到Sybase中,从而实现具有更高可扩展性的应用程序,同时可极大提高加载性能。 更出色的文本压缩: 更出色地对 VARCHAR、VARBINARY、CHAR 和 BINARY 压缩可实现以更高效率、更低成本部署高性能文本分析应用程序,同时极大提高压缩速率。2. 丰富的应用程序Sybase IQ 15.4 增加了一系列 API 和工具,用于创建在数据库内运行的高级分析算法,并且能通过 PlexQ 网格能充分利用大规模并行处理的能力。支持自带Map Reduce的表参数化用户自定义函数(UDF)这是 Sybase IQ 的本地应用程序编程接口,可使应用程序编程人员在 Sybase IQ 数据库服务器内构建和部署 C+ 库。使用这些 API 可实现专有算法或算法包,安全地位于 Sybase IQ 内,通过在保存于 Sybase IQ 数据库服务器中的数据附近执行,以快 10 倍的速度返回结果。此框架可实现在 Sybase IQ 中开发和部署 MapReduce 程序,以分析涉及结构化、半结构化和非结构化数据格式的超大数据集。C+、Map 和 Reduce 算法通过标准 SQL 加以调用,并且由 Sybase IQ 强大的查询引擎自动在 PlexQ 网格中进行分发和并行化。Hadoop集成与联邦将基于Hadoop的分析的结果与运行于 Sybase IQ 中的查询相集成。Sybase 是唯一一家提供4种不同方法将标准SQL查询(客户端联邦、ETL处理、数据联邦和查询联邦)中的 Hadoop 数据和分析与分析数据库相集成的厂商。Sybase IQ 15.4 充分利用Hadoop来识别海量结构化和非结构化数据集中的相关数据点,然后将 Hadoop 中的相关数据点集成到 Sybase IQ 中,以便利用传统数据和来自其他数据源的结果集进行分析。预测模型标记语言 (PMML) 支持通过 Zementis 提供的认证插件,自动执行使用业界标准语言定义在SAS、SPSS、“R”等工具以及其他流行预测工作平台产品中所创建的分析模型。充分利用流行的分析工具构建预测模型,自动执行在Sybase IQ中部署的预测模型,并使用业界标准语言,以避免形成厂商捆绑。“R”集成: 用户可使用 RJDBC 接口,以及流行的开源统计工具“R”查询Sybase IQ 数据库。此外,用户还可以将来自 Sybase IQ 的“R”库作为SQL查询中的函数调用加以执行,并返回结果集。3. 数据库内分析库更新的数据库内统计和数据挖掘库(来自Fuzzy Logix 的 DBLytix): 在 Sybase IQ 内运行的高级分析、统计和数据挖掘算法库。Sybase IQ 15.4中的更新可使该库充分利用一些数据挖掘算法中的MapReduce API进行大规模并行处理,并且包含多种新函数,例如支持向量机、神经网络和Adaptive Boosting。4. 扩展的生态系统Sybase IQ 还非常适合面向大数据分析的端到端全面解决方案。重要的工具和互补的合作伙伴产品可在以下方面提供

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论