大数据时代的数据库_第1页
大数据时代的数据库_第2页
大数据时代的数据库_第3页
大数据时代的数据库_第4页
大数据时代的数据库_第5页
已阅读5页,还剩71页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

大数据时代的数据库11云计算概念提出2Hadoop的发展历史3Hadoop的核心技术MapReduce4Hadoop核心技术数据库Hbase5其它NoSQL数据库23大数据特性4V特性Volume(数据量大)Variety(种类多)Value(价值密度低,商业价值高Velocity(处理速度快)对传统数据库的挑战4用一个实例来理解云计算512345开发人员部署代码,上传数据库结构和数据,并进行必要的测试,之后运维人员开通网站运行期间,企业需要雇佣专门人员负责服务器和网络的维护,定期备份数据等日常工作购买数据库服务器来部署后台数据库配置网站的域名等工作购买应用服务器来部署这个网站云计算所需解决的问题

——假设某家企业开发一个旅游网站数据量6云计算所需解决的问题

——假设某家企业开发一个旅游网站企业需要待解决的问题1、购买新的服务器2、增加更多的运维成员3、购买和安装设备都是需要时间的,可能在此期间整个网站出现响应减慢,经常出错、导致大量的客户流失4、淡季的时候,访问量低,刚购买的服务器又成为资源的浪费成本效益怎样解决这个问题呢?7云计算所需解决的问题

——假设某家企业开发一个旅游网站

引入云计算,它可以从根本上解决这个问题,因为云计算是通过互联网将共享的硬件软件资源按需提供给使用者,所有的设备都是由云计算服务商维护,这样无论是专业的软件开发商,还是最终的客服,都可以将全部精力集中于业务领域,而无须考虑硬件维护、容灾等运维问题,无形之中也为企业节省了成本、提高了经济效益…………8何为云计算?(理解1)

云计算,其实就是把所有的计算应用和信息资源都用互联网连接起来,供个人和企业用户随时访问、分享、管理和使用,相关的资源可以通过全球任何一个服务器和数据中心来提取的技术。9何为云计算?(理解2)

是通过网络将庞大的计算处理程序自动分拆成无数个较小的子程序,再由多部服务器所组成的庞大系统搜索、计算分析之后将处理结果回传给用户。通过这项技术,远程的服务供应商可以在数秒之内,达成处理数以千万计甚至亿计的信息,达到和“超级电脑”同样强大性能的网络服务。10网络计算发展展趋势2012云格(Gloud=Grid+Cloud)1995集群计算原理:指令层次的并行1998网格计算原理:任务并行1999对等计算原理:数据并行2007云计算原理:位层次的并行(可处理长字节)网格技术:主主要解决分布布在不同机构构的各种信息息资源的共享享问题云计算:主要要解决计算力力和存储空间间的集中共享享使用问题。。11为什么云计算算如此流行特别是NoSQL---非关系型数据据库12那么云计算数数据库是怎样样提出的呢??数据量1、关系数据库库高并发读写速速度慢2、关系数据库库支撑容量有限限------类似Facebook、Twitter这样的SNS网站,用户每天产生生海量的用户户动态,每月月会产生几亿条条用户动态,,对于关系型型数据库库来说说,在在一张数数亿条条记录录的表表里面进进行SQL查询,,效率率是极极其低低下乃至不不可忍忍受的的。3、关系系数据据库扩展性性差4、数据日日趋庞庞大,无论论是入入库和和查询询,都出现现性能能瓶颈颈5、用户户的应应用和和分析析结果果呈整整合趋趋势,,对实时性性和响响应时时间要要求越越来越越高Nosql13关系数数据库库与Hadoop分布式式系统统的比较—————为何云云计算算数据据采用用Hadoop分布式式系统统14云计算算的核心技技术15云计算算提出出——hadoop思想用很多多小型型PC机来代代替大大型服服务器器16云计算算核心心技术术——hadoop子项目目家族族数据仓仓库工工具,,可以以看成成是从从SQL到Map-Reduce的映射射器ZooKeeper用于协协调分分布Avro数据序序列化化工具具,用于支支持大大批量量数据据交换换的应应用。。支持持二进进制序序列化化方式式,可可以便便捷,,快速速地处处理大大量数数据Chukwa在Hadoop之上的的数据据采集集与分分析框框架、、主主要进进行日日志采采集和和分析析Pig可以看17云计算算核心心技术术——英特尔尔hadoop发行版版组件件SQL-to-HDFS工具,利用用jdbc连接关关系形形数据据库如连接接Oracle要安装装:ojdbc6.jar如连接接My-Sql要安装装:mysql-connector18云计算算核心心技术术——hadoop的发展展历史史2004年,Google发表论论文,,向全世界界介绍绍了MapReduce。2005年初,,为了了支持持Nutch搜索引引擎项项目,,Nutch

2006年1月,DougCutting加入雅虎,Yahoo!提供一个专门的团队和资源将Hadoop发展成一个可在网络上运行的系统。2007年,百度开始使用Hadoop做离线处理,目前差不多80%的Hadoop集群用作日志处理。2007年,中国移动开始在“大云”研究中使用Hadoop技术,规模超过1000台。2008年,淘宝开始投入研究基于Hadoop的系统——云梯,并将其用于处理电子商务相关数据。云梯1的总容量大概为9.3PB,包含了1100台机器,每天处理约18000道作业,扫描500TB数据。

19云计算算核心心技术术——hadoop的发展展历史史2008年7月,Hadoop打破1TB数据排序序基准测试试记录。。Yahoo!的一个Hadoop集群用209秒完成1TB数据的排排序,比比上一年年的纪录录保持者者保持的的297秒快了将将近90秒。2009年5月,Yahoo的团队使使用Hadoop对1TB的数据进进行排序序只花了62秒时间。2010年5月,IBM提供了基基于Hadoop的大数据据分析软软件——InfoSphereBigInsights,包括基基础版和和企业版版。2011年8月,Cloudera公布了一项有有益于合合作伙伴伴生态系系统的计计划——创建一个个生态系统统,以便硬硬件供应应商、软软件供应应商以及及系统集集成商可可以一起起探索如如何使用用Hadoop更好的洞洞察数据据。2011年8月,Dell与Cloudera联合推出出Hadoop解决方案案——ClouderaEnterprise。20Hadoop框架云计算核核心技术术1、管理文文件系统统的命名名空间记录每个个文件数数据块在在各个Datanode上的位置置和副本本信息2、协调客客户端对对文件的的访问3、记录命命名空间间内的改改动或空空间本身身属性的的改动4、Namenode使用事务务日志记记录HDFS元数据的的变化。。使用映映像文件件存储文文件系统统的命名名空间,,包括文文件映射射,文件件属性等等1、负责所所在物理理节点的的存储管管理2、一次写写入,多多次读取取3、文件由由数据块块组成,,典型的的块大小小是64MB4、数据块块尽量散散布道各各个节点点21——分布式文文件系统统(HDFS)/MapReduce原理云计算核核心技术术MAPReduce22云计算核核心技术术——MapReduce编程模型型23Example:CountingWordsMap()‏Input<filename,filetext>Parsesfileandemits<word,count>pairseg.<”hello”,1>Reduce()‏Sumsvaluesforthesamekeyandemits<word,TotalCount>eg.<”hello”,(3527)>=><””hello””,17>24云计算核核心技术术——Hbase数据库的的基本概概念1、HBase是一个分布式的、面向列的的开源数数据库,来自Google论文“Bigtable:一个结构化数数据的分分布式存存储系统统”2、HBase不同于一一般的关关系数据据库,它是一个个适合于于非结构化化数据存存储的数数据库.另一个不不同的是是HBase基于列的而不是是基于行行的模式式25——Hbase逻辑模型云计算核核心技术术1、以表的的形式存存放数据据2、表由行行与列组组成,每每个列属属于某个个列族,,由行和和列确定定的存储储单元称称为元素素3、每个元元素保存存了同一一份数据据的多个个版本,,由时间戳来标识区区分限定符,,列名Key值天生面向向时间查查询的数数据库26——Hbase物理模型型云计算核核心技术术Hmaster管理元数数据(表表分区、、管理该该分区的的RegionServer)RegionSer通过过client读写写数数据据Hbase的所所有有数数据据((Hlog和Hfile)均均存存储储到到HDFS上灾难难分分析析一个个列列簇簇27云计计算算核核心心技技术术———行式式数数据据库库与与列列式式数数据据库库理理解解281、对对应应每每次次数据据操操作作的的时时间间,可可由由系统统自自动动生生成成,也也可可以以由由用用户户显式式的的赋赋值值2、Hbase支持持两两种种数数据据版版本本回回收收方方式式::A、每个个数数据据单单元元,,只只存存储储指指定定个个数数的的最新新版版本本B、保存存指定定时时间间长长度度的版版本本((例例如如7天))3、常常见见的的客客户户端端时时间间查查询询::““某个个时时刻刻起起的的最最新新数数据据”或或““给我我全全部部版版本本的的数数据据”。。云计计算算核核心心技技术术———Hba29云计计算算核核心心技技术术———Hba1、Hbase适合合大量量插插入入同时时又又有读读取取的情情况况2、Hbase的瓶颈颈是硬盘盘传传输输速速度度3、Oracle的瓶颈颈是硬盘盘寻寻道道时时间间4、Hbase很适合合寻寻找找按按照照时时间间排排序序topn的场场景景30云计计算算核核心心技技术术———Hbase场景景案案列列::浏浏览览历历史史31云计计算算的的核心心技技术术在现现实实应应用用注意意::下下面面实实例例大大部部分分摘摘录录于于2012年hadoop与大大数数据据技技术术大大会会该会会议议举举行行时间间::2012年11月30日-12月1日在在北北京京该会会议议权权威威级级别别::32------应用用之之一一HadoopinTelecom云计计算算核核心心技技术术载波波的的优优化化用户户的的分分割割瞬间间查查询询3G用户户数数量量的的记记录录33云计计算算核核心心技技术术------应用用之之二二HadoopinSmartCity罚单单信息息流流处处理理34云计计算算核核心心技技术术------应用用之之三三阿里里云云““云云梯梯””集集群群发发展展淘宝宝的的搜搜索索引引擎擎能能够够对对数十十亿亿的商商品品数数据据进进行行实时时搜搜索索,另另外外还还拥拥有有自自主主研研发发的的文件件存存储储系系统统和缓缓存存系系统统,以以及及Java中间间件件和和消消息息中中间间件件系系统统,,这这一一切切组组成成了了一个个庞庞大大的的电电子子商商务务操操作作系系统统。35云计计算算核核心心技技术术------应用用之之三三阿里里云云““云云梯梯””数数据据平平台台框框架架36云计计算算核核心心技技术术------应用用之之三三百度度数数据据仓仓库库框框架架DW37云计计算算核核心心技技术术HADOOP------数据据存存入入和和抽抽取取每小小时时移移动动数数十十TB的交易易数数据、、交交互互数数据据和和流流数数据据38全球球领领先先的的独独立立企企业业数数据据集集成成软软件件提提供供商商云计计算算核核心心技技术术----应用用五五大数数据据是是云云计计算算的的两两大大核核心心内内容容之之一一39云计计算算核核心心技技术术全世界权威IT咨询公司研究究报告预测KB,MB,GB、TB,PB、EB、ZB、YB、BB1ZB=1.153*1018KB40一、大数据存储管理和索引查询问题二、Hadoop性能优化问题三、图数据并并行计算模型型和框架四、并行化机器学习和数据挖掘算法五、社会网络分析六、排名和推推荐七、Web信息挖掘和检索八、媒体分析析检索九、自然语言处理理十、大数据可视化计算与分析云计算核心技技术当今数据热点研究的十个问题::----数据分析发展展趋势系统层基础算法应用算法应用技术41Hadoop----发展形势hadoop42BerkeleyBDAS平台43NoSQL数据库基础理论CAP理论与一致性性模型数据存储模型型与数据库Key-valueDBColumn-orientedDBDocument-orientedDBGraphDB…44CAP理论强一致性(Consistency)系统在执行某某操作后仍处处于一致的状状态。可用性(Availability)每一个操作能够在在一定时间内内返回结果,,如果超时则则被认为不可可用。分区容错性((Partitiontolerance)在网络分区((被划分成孤孤立的区域))的情况下仍仍可接受请求求。45/101多副本数据一一致性模型强一致性无论更新在哪哪个副本上进进行,之后的的所有操作都都能获得更新新的数据。弱一致性用户读到某一一操作对系统统的更新需要要一段时间最终一致性保证用户最终终能够读到某一操作作对系统的更更新46/10147应用场景:内容缓存,,主要用于处处理大量数据据的高访问负负载,也用于于一些日志系系统。优点:查找迅迅速缺点:数据无无结构,通常常只被当做字字符串或二进进制数据48Java实现的开源key-value数据库特征数据自动冗余余备份于多个个结点上数据分区存储储单点故障对整整个系统透明明支持复杂数据据类型的序列列化将数据项进行行版本化,出出现故障时最最大限度保证证数据的完整整性49开源项目,源源代码采用了了Apache2.0的使用许可特征自动将在线数数据迁移到低低延迟的存储储介质的技术术(内存,固固态硬盘,磁磁盘)可选的写操作作一一异步,,同步(基于于复制,持久久化)多线程低锁争争用尽可能使用异异步处理自动实现重复复数据删除动态再平衡现现有集群通过把数据复复制到多个集集群单元和支支持快速失败败转移来提供供系统的高可可用性。5051应用场景:分布式文件件系统优点:查找迅迅速,可扩展展性强,更容容易进行分布布式扩展缺点:功能相相对有限525354最初由Facebook开发,用于储储存收件箱等等简单格式数数据,集GoogleBigTable的数据模型与与AmazonDynamo的完全分布式式的架构于一身Facebook于2008将Cassandra开源,此后,,由于Cassandra良好的可扩放放性,被Digg、Twitter等知名Web2.0网站所采纳,,成为了一种种流行的分布布式结构化数数据存储方案案。主要特征:模式灵活:使用Cassandra,像文档存储储,你不必提提前解决记录录中的字段。。真正的可扩展展性:Cassandra是纯粹意义上上的水平扩展展。为给集群群添加更多容容量,可以指指向另一台电电脑。你不必必重启任何进进程,改变应应用查询,或或手动迁移任任何数据。分布式写操作作:有可以在任何何地方任何时时间集中读或或写任何数据据。并且不会会有任何单点点失败。列表数据结构构:在混合模式可可以将超级列列添加到5维。对于每个个用户的索引引,这是非常常方便的。55应用场景:web应用等优点:数据要要求不严格,,不需要预先先定义结构缺点:查询能能力不高,缺缺乏统一的查查询语法56可以通过JavaScriptObjectNotation(JSON)API访问“Couch”=“ClusterOfUnreliableCommodityHardware””,目标具有高高度可伸缩性性,提供了高高可用性和高高可靠性,即即使运行在容容易出现故障障的硬件上也也是如此特点CouchDB是分布式的数数据库,他可可以把存储系系统分布到n台物理的节点点上面,并且且很好的协调调和同步节点点之间的数据据读写一致性CouchDB是面向文档的的数据库,存存储半结构化化的数据CouchDB支持RESTAPI,可以让用户户使用JavaScript来操作CouchDB数据库,也可可以用JavaScript编写查询语句句,用AJAX技术结合CouchDB开发出来的CMS系统会简单方便57工作原理CouchDB构建在强大的的B+树储存引擎之上上。这种引擎擎负责对CouchDB中的数据进行行排序,并提提供一种能够够在对数均摊摊时间内执行行搜索、插入入和删除操作作的机制。数据库的结构构独立于模式式,依赖于使用视视图创建文档档之间的任意意关系,使用Map/Reduce计算这些视图图的结果在CouchDB中没有锁机制制,它使用的的是多版本并并发性控制((Multiversionconcurrencycontrol,MVCC)58特点介于关系数据库和非关系数据据库之间的产产品,是非关关系数据库当当中功能最丰丰富,最像关关系数据库的的支持的数据结结构非常松散散,是类似json的bson格式,因此可可以存储比较较复杂的数据据类型支持的查询语语言非常强大大,其语法有有点类似于面面向对象的查查询语言,几几乎可以实现现类似关系数数据库单表查查询的绝大部部分功能,而而且还支持对对数据建立索索引59技术特点面向集合存储,易易存储对象类类型的数据。。模式自由。支持动态查询。支持完全索

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论