版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
AnIntroductiontoDatabaseSystem数据库系统概论AnIntroductiontoDatabaseSystem大数据管理引言2014年,马云在一次演讲中说道:“人类正从IT时代走向DT时代”。DT时代,推动世界前进的动力是大数据+大算力,我们在前进动力上领先全球。海量的数据+5G物联网+芯片技术我们正进入DT时代,千真万确。AnIntroductiontoDatabaseSystem大数据管理14.1大数据概述14.2大数据的应用14.3大数据管理系统14.4小结AnIntroductiontoDatabaseSystem14.1大数据概述14.1.1什么是大数据14.1.2大数据的特征AnIntroductiontoDatabaseSystem14.1.1什么是大数据超大规模数据库(VeryLargeDatabase,VLDB)是20世纪70年代中期出现的词数据库中管理的数据集有数百万条记录就是超大规模实现技术DBMS相关理论与技术三级模式、数据独立性的思想(增加了DBMS的适应性和应用系统的稳定性)、RDBMS-SQL语言、基于代价的优化技术,事务管理与故障恢复技术等。关系数据理论促进了以OLTP和OLAP为标志的商务管理与商务智能应用的发展。其技术精华和成功经验为今天大数据管理和分析奠定了基础。AnIntroductiontoDatabaseSystem14.1.1什么是大数据海量数据是21世纪初出现的词用来描述更大的数据集以及更加丰富的数据类型。为了应对“海量数据”的挑战,研究了半结构化数据和各种非结构化数据的数据模型及对它们的有效管理、多数据源的集成问题等。大数据并不是当前时代所独有的特征,而是伴随着人类社会的发展以及人类科技平的提高而不断发展演化的。AnIntroductiontoDatabaseSystem大数据的定义2008年9月,《Science》发表了一篇文章“BigData:ScienceinthePetabyteEra”数据规模超出了当时的计算机存储和处理技术水平,需要更加先进的技术,才能有效地存储、管理和处理它们定义一般意义上,大数据是指无法在可容忍的时间内用现有IT技术和软硬件工具对其进行感知、获取、管理、处理和服务的数据集合。还有专家给出的定义是,大数据通常被认为是PB(103TB)或EB(1EB=106TB)或更高数量级的数据,包括结构化的、半结构化的和非结构化的数据。其规模或复杂程度超出了传统数据库和软件技术所能管理和处理的数据集范围。AnIntroductiontoDatabaseSystem大数据的分类按大数据的应用类型将大数据分为海量交易数据(企业OLTP应用)数据海量、读写操作比较简单、访问和更新频繁、一次交易的数据量不大,但要求支持事务ACID特性,对数据的完整性及安全性要求高,必须保证强一致性。海量交互数据(社交网、传感器、GPS、Web信息)类型多样异构、不完备、噪音大、数据增长快,不要求具有强一致性。实时交互性强,但不要求支持事务特性。海量处理数据(企业OLAP应用)面向海量数据分析,计算复杂,往往涉及多次迭代完成,追求数据分析的高效率,但不要求支持事务特性。其数据的特点是同构性(如关系、文本、列模式数据)和较好的稳定性(不存在频繁的更新操作)。典型的应用是采用并行与分布处理框架实现。AnIntroductiontoDatabaseSystem大数据的分类有些专家将网络空间(cyberspace)中各类应用引发的大数据称为网络大数据。按数据类型分为自媒体数据日志数据富媒体数据AnIntroductiontoDatabaseSystem14.1.2大数据的特征巨量(Volume)多样(Variety)快变(Velocity)价值(Value)AnIntroductiontoDatabaseSystem巨量(Volume)大数据的首要特征数据量巨大,而且在持续、急剧地膨胀大规模数据的几个主要来源如下:(1)科学研究(天文学、生物学、高能物理等)、计算机仿真领域。(2)互联网应用、电子商务领域。(3)传感器数据(sensordata)。(4)网站点击流数据(clickstreamdata)。(5)移动设备数据(mobiledevicedata)。(6)无线射频识别数据(RFIDData)(7)传统的DB和DW所管理的结构化数据。AnIntroductiontoDatabaseSystem巨量(Volume)观点:大是相对的,是和当时的计算机处理能力相关的,超过了现有技术的能力。但是,“大规模”又是大数据的基本要求。80年代,百万条记录就是VERYLARGEDATA00年代,TB级别就是DATAINTENSIVE10年代,100T以上,甚至PB级才能够算得上是大数据从现在起,每18个月,新增的存储量等于有史以来存储量之和!(1998年图灵奖获得者JimGray)应对大数据的措施设计新的计算机硬件以及新的系统架构设计新硬件下的存储子系统。存储子系统的改变将影响数据管理和数据处理的各个方面,包括数据分布、数据复制、负载平衡、查询算法、查询调度、一致性控制、并发控制和恢复方法,等等。AnIntroductiontoDatabaseSystem多样(Variety)数据的多样性通常是指异构的数据类型、不同的数据表示和语义解释。纯粹的关系数据结构化、半结构化的数据,如文本、图形、图像、音频、视频、网页、推特和博客(blogs)等。针对半结构化、非结构化数据的高效表达、存取和分析技术,需要大量的基础研究。对异构海量数据的组织、分析、检索、管理和建模是基础性的挑战。对非结构化数据的分析在许多应用中成为一个显著的瓶颈。例如,图像和视频数据虽具有存储和播放结构,但这种结构不适合进行上下文语义分析和搜索。传统的数据分析算法在处理同构数据方面比较成熟,是否将各种类型的数据内容转化为同构的格式以供日后分析?此外,考虑到当今大多数数据是直接以数字格式生成的,是否可以干预数据的产生过程以方便日后的数据分析?在数据分析之前还要对数据进行清洗和纠错,还必须对缺失和错误数据进行处理等。AnIntroductiontoDatabaseSystem快变(Velocity)快变性也称为实时性一方面指数据到达的速度很快。另一方面指能够进行处理的时间很短,或者要求响应速度很快,即实时响应。许多大数据往往以数据流的形式动态、快速地产生和演变,具有很强的时效性,要想立即得到分析结果,对流数据的采集、过滤、存储和利用需要充分考虑和掌控它们的快变性。例如,在进行信用卡交易时,如果怀疑该信用卡涉嫌欺诈,应该在交易完成之前做出判断,以防止非法交易的产生。这就要求系统具有极强的处理能力和妥当的处理策略。事先对历史交易数据进行分析和预计算,再结合新数据进行少量的增量计算便可迅速做出判断。对于大数据上的实时分析处理,大数据查询和分析中的优化技术具有极大的挑战性,需要借鉴传统数据库中非常成功的查询优化技术以及索引技术等。AnIntroductiontoDatabaseSystem价值(Value)大数据的价值是潜在的、巨大的。数据就是资源,数据就是财富。大数据价值的潜在性,是指数据蕴含的巨大价值只有通过对大数据以及数据之间蕴含的联系进行复杂的分析、反复深入的挖掘才能获得。巨大潜力和目标实现之间还存在着巨大的鸿沟。大数据规模巨大、异构多样、快变复杂,隐私等自身的问题,以及数据孤岛、信息私有、缺乏共享的客观现实都阻碍了数据价值的创造。大数据具有巨大的经济价值和产业价值已经开始显现。AnIntroductiontoDatabaseSystem价值(Value)大数据研究的科学价值数据科学是以大数据为研究对象,横跨信息科学、社会科学、网络科学、系统科学、心理学、经济学等诸多领域的新兴交叉学科。大数据的研究方式(2007年1月11日JamesGray在加州山景城召开的NRC-CSTB上的演讲提出)几千年前的实验科学(第一范式)以模型和归纳为特征的理论科学(第二范式)几十年来以模拟仿真为特征的计算科学(第三范式大数据研究的第四范式(thefourthparadigm)数据密集型科学发现(dataintensivescientificdiscovery)科研第四范式将不仅是研究方式的转变,也是人们思维方式的大变化。AnIntroductiontoDatabaseSystem14.2大数据的应用案例14.2.1感知现在预测未来——互联网文本大数据管理与挖掘14.2.2数据服务实时推荐——基于大数据分析的用户建模AnIntroductiontoDatabaseSystem14.2.1感知现在预测未来——互联网文本大数据管理与挖掘互联网媒体又称网络媒体、第四媒体,是以互联网为传输平台,以计算机、移动电话、便携设备等为终端,以文字、声音、图像等形式来传播新闻信息的一种数字化、多媒体的传播媒介。如何处理和分析互联网媒体大数据,帮助人们在海量数据中获取及分析真实有价值的信息,从而正确感知现在,迅速预测未来,做好应急事件的预案和防范是一个具有重大价值并且亟待解决的研究问题。1.互联网媒体文本大数据应用:时事探针2.互联网文本大数据管理的挑战3.互联网文本大数据管理系统AnIntroductiontoDatabaseSystem时事探针系统时事探针系统是中国人民大学研制开发的一个互联网舆情分析系统。该系统可以实时监控、收集互联网媒体数据,并对数据进行深入的挖掘和分析。可以有效地帮助用户、企业以及政府机构对所关注的新闻话题在互联网媒体中的报道进行感知、获取、跟踪、预警和深入分析,具有极大的应用价值。其主要功能包括动态数据抓取、历史数据保留、数据深度智能分析、数据可视化展示、敏感信息实时捕捉、预定阈值报警等。AnIntroductiontoDatabaseSystem时事探针系统“高考”话题进行分析图14.1显示,媒体对于高考这一话题整体关注度较高,从2014年5月份开始,随着高考的临近,报道量持续增加。AnIntroductiontoDatabaseSystem时事探针系统“高考”热议话题的多维分析图14.2展示了对“高考”热议话题的多维分析。该图显示了与“高考”有关的主要人物、主要相关地点、主要相关机构、相关话题AnIntroductiontoDatabaseSystem时事探针多维度交叉分析图14.3显示了有关该“英语退出高考”话题的正面报道、负面报道和中性报道的分布情况。相关报道集中在5月19日左右,热门人物是顾明远,讨论最多的地点为上海和北京,核心报道内容为顾明远和教育部否认“英语退出高考”。AnIntroductiontoDatabaseSystem2.互联网文本大数据管理的挑战挑战首先,文本数据中的主题开放多样且无直接关联,无法事先预定义关系模式和值域。其次,文本大数据一般由自然语言生成,没有确定的结构,无法直接用关系型数据进行存储和查询。最后,互联网上的数据量巨大、变化速度快,对数据管理系统的可扩展性和实时性提出了很高的要求。现状对于文本大数据处理,目前广泛使用的互联网搜索引擎(包括新闻搜索引擎)只是对文本数据的简单索引和查找,不能满足用户对所关注的话题进行实时监测、深入分析以及决策支持等需求。AnIntroductiontoDatabaseSystem3.互联网文本大数据管理系统互联网文本大数据管理的特点如下:(1)蕴含着丰富的社会信息,可以看作是对真实社会的网络映射。(2)通过实时、深入分析能帮助人们在海量数据中获取有价值的信息,发现蕴含的规律,可以更好地感知现在、预测未来,体现了第四范式数据密集型科学发现的研究方式和思维方式。(3)对大数据系统和技术的挑战是全面的、跨学科跨领域的,需要创新,也要继承传统数据管理技术和数据仓库分析技术的精华。设计策略需要参考并融合传统信息检索系统、数据库系统以及数据分析系统(如数据仓库和OLAP)的特长和技术来设计数据处理的模型、存储、索引、查询等机制。同时,需要吸收和借鉴分布式大数据处理系统(如Hadoop和NoSQL系统)的设计和经验以满足可扩展性和实时性的需求,。AnIntroductiontoDatabaseSystem时事探针系统结构AnIntroductiontoDatabaseSystem时事探针系统核心设计理念通用的管理和分析平台使用信息检索技术对无结构的互联网文本数据进行索引以满足用户查找相关新闻的需求;同时,对相关文档中包含的关键信息进行挖掘和抽取以生成结构化数据,并对这些数据进行汇总和分析,以辅助用户对报道中包含的高阶知识进行理解。整个系统分为离线处理和在线处理两个部分,其中离线部分是设计的重点。AnIntroductiontoDatabaseSystem时事探针系统-功能(1)多源异构网络大数据的感知和获取(2)文档理解及结构化数据集成和抽取(3)数据存储和索引(4)离线主题文本立方体建立及更新AnIntroductiontoDatabaseSystem(1)多源异构网络大数据的感知和获取由于互联网内在的分布性和自组织性,数据的感知和获取是网络大数据处理非常重要的第一步。和传统搜索引擎一样,使用网络爬虫对互联网媒体网站内容进行抓取并存储到原始文档库中。主要挑战如何针对给定的主题实时智能地收集相关的网络数据,从而为后续的处理提供准确丰富的数据来源。AnIntroductiontoDatabaseSystem(2)文档理解及结构化数据集成和抽取数据集成和抽取是指将在多个数据源中以不同的形式表示同一个实体或概念的缺乏统一结构、质量良莠不齐、“大而低质量”的无结构数据进行深入分析,采用相应数据抽取技术从中挖掘出高质量的结构化信息的过程。数据集成和抽取技术,具体包括文档编码检测及HTML文本转换、文档语言(如中文、日文或者英文)检测、正文及相关属性(标题、时间、作者、主要图片等)抽取、文档内容段落及句子切分、文本分词、命名实体(时间、地点、人物、机构等)识别、动词专有名词抽取、情感分析、话题检测、知识库实体匹配及消歧、事件检测及抽取等。AnIntroductiontoDatabaseSystem(3)数据存储和索引原始文档库主要用于保存抓取下来的原始网页。原始文档库上主要进行文档的写入和读取,无删除操作,并发计算和查询的需求不大,可直接使用关系型数据库或者NoSQL数据库。由于原始文档库中的文档在写入时一般按照时间顺序写入,在对原始文档库中的文档进行处理时,也一般按照时间顺序进行,因此需要对文档抓取时间进行索引。结构化文档库主要存储对文档进行深入理解后所抽取的信息,包括文档标题、文档正文、文档时间、文档作者、主要图片等文档级别的信息,也包括句子级别的信息,如句子文本、情感值、句子所包含的命名实体、关键词等。AnIntroductiontoDatabaseSystem(3)数据存储和索引增加部分数据冗余来降低交叉查询的代价,提高数据查询的效率例如,冗余存储“文档正文”和句子中的“句子文本”。在传统的关系数据库中,关系一般遵循范式的要求以尽可能地节省存储空间并保证数据一致性。互联网文本数据量巨大,若严格按照范式的要求进行设计,查询时可能需要大量的连接(join)操作和随机读取,写入时也可能需要在多个表上进行査找和加锁,导致大大降低系统性能。结构化文档库上尽量减少读写锁并采用较低的事务隔离级别在结构化文档库上会有大量的并发读写和查询操作。针对互联网文本数据的特点,对数据一致性和完整性的要求可适当放宽。在一定程度上能够容忍丢失更新、不可重复读和读“脏”数据等不一致性问题。AnIntroductiontoDatabaseSystem(4)离线主题文本立方体建立及更新文本立方体对特定主题建立的多维度数据立方体,是时事探针系统的主要分析模型。和传统的RDW上建立的单个数据立方体不同,系统中每个主题都可以建立一个对应的文本立方体以对该主题进行分析操作。文本立方体可根据用户查询在匹配的所有文档上对结构化数据进行高效并行统计而建立。每个维度中的项由所有文档中出现的实例构成。和传统的数据立方体不同,在文本立方体中不具有直接的度量值可以使用。如时事探针系统通过比较文档(记录)和维度值的紧密程度来计算度量值。对于相关人物A,考虑A在文档D中出现的次数、位置、所在句子的长短等特征,并同时考虑报道的来源来计算A在D中的度量值。在线处理部分负责接收用户查询,检索相关文档及文本立方体并返回给用户。其主要模块包括关键词分词、倒排表文档匹配及排序、文本立方体生成及缓存、文档及文本立方体展示及交互等。AnIntroductiontoDatabaseSystem14.2.2数据服务实时推荐—基于大数据分析的用户建模基于大数据分析的用户建模是指面向大众的信息服务类应用在为用户提供信息服务的同时,依托庞大的用户群,通过用户原创内容(UserGeneratedContent,UGC)或者系统日志等方式不断地收集数据,利用这些与用户的行为紧密相关的数据来分析用户的兴趣特征,创建用户的描述文件(userprofile)。用户建模的目标是为了准确把握用户的行为特征、兴趣爱好等,进而较为精准地向用户提供个性化的信息服务或信息推荐。互联网网站通过对用户点击日志的分析,识别用户的偏好,以支持个性化的页面布局、进行精准的广告投放等;电信行业通过对用户消费信息、当前位置、使用习惯等数据的分析,为用户及时推荐符合用户需求的服务、产品、内容等。AnIntroductiontoDatabaseSystem基于大数据分析的用户建模1.面向用户建模的大数据系统架构2.数据分析:用户建模的基础工具3.数据服务:用户建模的价值体现AnIntroductiontoDatabaseSystem1.面向用户建模的大数据系统架构在大数据采集和存储的基础上,使用在线分析和离线分析两类技术,从大数据中发现用户的兴趣属性,构建动态的用户兴趣模型,以数据服务的方式管理和维护用户兴趣模型中的数据,支持上层的信息推荐等各种各样的应用。这类系统中数据分析和数据服务构成了大数据系统的两类典型的负载。AnIntroductiontoDatabaseSystem2.数据分析:用户建模的基础工具静态的用户建模方法系统在构建之初就定义好了用户兴趣模型所包含的属性维度。被传统的信息服务类应用广泛采用。动态的用户建模方法从用户行为相关的实时大数据中使用数据分析和挖掘技术,得到能够反映用户兴趣和其变化的动态用户兴趣模型。动态性不仅包含属性值的变化,还包含用户兴趣模型中属性类型、属性数量的变化。依赖大数据的用户建模方法通常会为每个用户生成高维度的兴趣属性向量,维度可以达到数百甚至数千以上。可以较为细致和深入地刻画用户在众多方面的兴趣属性。针对不同属性,系统会运行很多不同的用户建模任务,一个用户建模任务为用户或用户群生成一部分属性值。AnIntroductiontoDatabaseSystem2.数据分析:用户建模的基础工具用户兴趣建模方法-离线分析对结构化或半结构化的历史日志数据进行SQL分析或者使用数据挖掘和机器学习的深度分析方法。特点数据量大、分析复杂度高、处理代价巨大,不能够频繁调用。适合于分析那些通过大规模数据得出的相对稳定的用户属性。典型应用Hadoop+MapReduce+SQLAnIntroductiontoDatabaseSystem2.数据分析:用户建模的基础工具用户兴趣建模方法-实时的在线分析方法数据即来即分析,更强调数据的实时分析处理能力和时效性。数据以流的形式持续不断地涌入系统,系统要在很短的时间内处理完大量流数据,获取和分析用户属性,。数据采集、聚集计算等实时用户建模方法并不复杂,但有时会涉及一些在线分析的方法,比如时序分析、在线回归分析等,相应的计算负载就会高很多。AnIntroductiontoDatabaseSystem3.数据服务:用户建模的价值体现数据服务是指管理维护各种数据分析任务得到的用户建模的结果,利用这些高价值的用户兴趣模型数据,为以信息推荐为代表的众多上层应用提供数据访问服务,从而将大数据的价值与上层应用需求打通。类似于传统意义上的数据管理,为下层的数据分析任务和上层的各种应用提供高吞吐的数据读写服务。AnIntroductiontoDatabaseSystem3.数据服务:用户建模的价值体现用户建模背景下的数据服务VS传统数据管理首先,被管理的对象是一张高维度、大规模的用户属性宽表,而且表中的列不是固定的:其次,很多属性值存在空值或多值的情况:最后,这张表的数据读写负载非常巨大。用户属性表管理解决方案采用Key/Value模型下的NoSQL数据库,以适应高并发的读写负载和可变的数据模式。牺牲了数据一致性和SQL查询分析功能优势采用NewSQL数据库技术。在内存数据库基础上,保持事务的ACID特性,通过事务串行化和去除封锁等技术简化事务处理过程,提高系统的事务吞吐能力,以应对大规模数据并发读写的挑战。AnIntroductiontoDatabaseSystem基于大数据分析的用户建模(1)模型的建立来自对大数据的分析结果,通俗地讲是“用数据说话”。建模的过程是动态的,随着实际对象的变化,模型也在变化。(2)数据处理既有对历史数据的离线分析和挖掘,又有对实时流数据的在线采集和分析,体现了大数据上不同层次的分析:流分析、SQL分析、深度分析的需求。(3)用户模型本身也是大数据,维度高,信息稀疏,用户模型的存储、管理是数据服务的重要任务,要满足大规模应用需要的高并发数据更新与读取。AnIntroductiontoDatabaseSystem14.3大数据管理系统14.3.1NoSQL数据管理系统14.3.2NewSQL数据库系统14.3.3MapReduce技术14.3.4大数据管理系统的新格局AnIntroductiontoDatabaseSystem14.3.1NoSQL数据管理系统NoSQL是以互联网大数据应用为背景发展起来的分布式数据管理系统。NoSQL有两种解释:Non-Relational,即非关系数据库;NotOnlySQL,即数据管理技术不仅仅是SQL。特点NoSQL系统为了提高存储能力和并发读写能力采用了极其简单的数据模型,支持简单的查询操作,而将复杂操作留给应用层实现。数据进行分区和备份,以应对结点可能的失败,提高系统可用性;通过大量结点的并行处理获得高性能,采用的是横向扩展的方式(scaleout)。AnIntroductiontoDatabaseSystemNoSQL数据模型(1)Key-Value模型采用KV(Key,Value)数据模型。每个Key值对应一个Value。Value可以是任意类型的数据值。支持按照Key值来存储和提取Value值。Value值是无结构的二进制码或纯字符串,通常需要在应用层去解析相应的结构。(2)BigTable模型、又称ColumnsOriented模型,能够支持结构化的数据,包括列、列簇、时间戳以及版本控制等元数据的存储。特点是列簇式,即按列存储,每一行数据的各项被存储在不同的列中,这些列的集合称作列簇。每一列的每一个数据项都包含一个时间戳属性,以便保存同一个数据项的多个版本。AnIntroductiontoDatabaseSystemNoSQL数据模型(3)文档(document)模型该模型在存储方面有以下改进:Value值支持复杂的结构定义,通常是被转换成JSON或者类似于JSON格式的结构化文档;支持数据库索引的定义,其索引主要是按照字段名来组织的。(4)图(graph)模型记为G (V,E),K为结点(node)集合,每个结点具有若干属性,E为边(edge)集合,也可以具有若干属性。该模型支持图结构的各种基本算法。可以直观地表达和展示数据之间的联系。AnIntroductiontoDatabaseSystem14.3.2NewSQL数据库系统NewSQL系统是融合了NoSQL系统和传统数据库事务管理功能的新型数据库系统。SQL应用广泛,扩展性差、成本高,难以应对海量数据的挑战。NoSQL数据管理系统具有灵活性和良好的扩展性,不支持SQL,不支持事务ACID特性,导致应用程序开发困难。NewSQL将SQL和NoSQL的优势结合,充分利用计算机硬件的新技术、新结构,技术上实现若干创新。提出了串行执行事务,避免加锁开销和全内存日志处理等技术;改进体系架构,结合计算机多核、多CPU、大内存的特点,融合关系数据库和内存数据库的优势,充分利用固态硬盘技术,从而显著提高了对海量数据的事务处理性能和吞吐量。关系数据库在分布式环境下为实现事务一致性使用了两阶段提交协议,这种技术在保证事务强一致性的同时造成系统性能和可靠性的降低。AnIntroductiontoDatabaseSystemSQL系统、NoSQL系统与NewSQL系统的比较AnIntroductiontoDatabaseSystem14.3.3MapReduce技术Google公司于2004年提出的大规模并行计算解决方案,主要应用于大规模廉价集群上的大数据并行处理。如Google中的文档抓取、创建倒排索引、计算pagerank等操作。由于其简单而强大的数据处理接口和对大规模并行执行、容错及负载均衡等实现细节的隐藏,该技术一经推出便迅速在机器学习、数据挖掘、数据分析等领域得到应用。是一种简单易用的软件框架。基于它可以开发出运行在成千上万个结点上,并以容错的方式并行处理海量数据的算法和软件。通常,计算结点和存储结点是同一个结点,即MapReduce框架和Hadoop分布式文件系统(HadoopDistributedFileSystem,HDFS)运行于相同的结点集。以key/value的分布式存储系统为基础,通过元数据集中存储、数据以chunk为单位分布存储和数据chunk冗余复制来保证其高可用性。设计的初衷解决大数据在大规模并行计算集群上的高可扩展性和高可用性分析处理,其处理模式以离线式批量处理为主。AnIntroductiontoDatabaseSystemMapReduce并行计算过程AnIntroductiontoDatabaseSystemMapReduce并行计算过程计算过程分解为两个阶段,即Map阶段和Reduce阶段。首先对输入的数据源进行分块,交给多个Map任务去执行,Map任务执行Map函数,根据某种规则对数据分类,写入本地硬盘。然后进入Reduce阶段,在该阶段由Reduce函数将Map阶段具有相同key值的中间结果收集到相同的Reduce结点进行合并处理,并将结果写入本地磁盘。程序的最终结果可以通过合并所有Reduce任务的输出得到。Map函数和Reduce函数是用户根据应用的具体需求编写的。AnIntroductiontoDatabaseSystemMapReduce不足(1)使用成本高基于MapReduce的应用软件较少,许多数据分析功能需要用户自行开发。(2)程序员负担过重,程序与数据缺乏独立性。原来由DBMS完成的工作,如文件存储格式的设计、模式信息的记录、数据处理算法的实现等都转移给了程序员,(3)在同等硬件条件下,性能远低于并行数据库。由于采取基于扫描的处理模式和对中间结果步步物化的执行策略,从而导致较高的I/O代价。(4)MapReduce处理连接的性能尤其不尽如人意在数据分析领域,连接是关键操作(如传统的星形查询和雪片查询均是依赖于连接来处理查询)。AnIntroductiontoDatabaseSystem并行数据库+MapReduce的三种架构近年来大量研究着手将并行数据库和MapReduce两者结合起来,设计兼具两者优点的大数据分析平台。AnIntroductiont
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 结构设计原理课程设计综述
- 自动喂料搅拌机课程设计
- 环保物资合同范例
- 工厂包装合同范例
- 公关公司媒体专员实习生劳动协议3篇
- 出口代理协议填写范例3篇
- 代理记账及财务处理服务合同3篇
- 农田承揽劳作合同3篇
- 公有住房交易协议样本3篇
- 加油站施工合同中的技术支持条款3篇
- JCT 2789-2023 涂料用长石粉 (正式版)
- DB11-T 1832.22-2023 建筑工程施工工艺规程 第22部分:装配式装修工程
- 四川省成都市成华区2023-2024学年七年级上学期期末语文试题
- 医疗陪护行业前景分析报告
- 个体诊所药品清单模板
- 有机更新工作总结
- eviews操作说明课件
- 教师法律法规讲座课件
- 战场侦察课件
- 2023年道德与法治的教学个人工作总结
- GB 31241-2022便携式电子产品用锂离子电池和电池组安全技术规范
评论
0/150
提交评论