大数据管理简介_第1页
大数据管理简介_第2页
大数据管理简介_第3页
大数据管理简介_第4页
大数据管理简介_第5页
已阅读5页,还剩3页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

引言大数据时代的到来意味着新技术、新系统和新产品的出现.如何客观地比较和评价不同系统之间的优劣自然成为一个热门研究课题,这种情形与三十多年前数据库系统蓬勃发展时期甚为相似.众所周知,在数据库系统取得辉煌成就的发展道路上,基准评测研究一直扮演着重要角色,极大推进了数据库技术和系统的长足发展.数据管理系统评测基准是指一套可用于评测、比较不同数据库系统性能的规范,以客观、全面反映具有类似功能的数据库系统之间的性能差距,从而推动技术进步、引导行业健康发展.数据管理系统评测基准与应用息息相关:应用发展产生新的数据管理需求,继而引发数据管理技术革新,再催生多个数据管理系统/平台,进而产生新的数据管理系统评测基准.数据管理系统评测基准种类多样,不仅包括面向关系型数据的基准评测,还包括面向半结构化数据、对象数据、流数据、空间数据等非关系型数据的评测基准.在当今新的数据系统发展中,面向大数据管理系统的评测基准的研究热潮也如期而至.大数据评测基准研究与应用密切相关.总体而言,尽管已有的数据管理系统评测基准未能充分体现大数据的特征,但是从方法学层面而言,三十多年来数据管理系统评测基准的发展经验是开展大数据系统研发最值得借鉴和参考的,这也是该文的主要动机.该文系统地回顾了数据管理系统评测基准的发展历程,分析了取得的成就,并展望了未来的发展方向.大数据管理简介及主要内容大数据管理简介数据管理是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。其目的在于充分有效地发挥数据的作用。实现数据有效管理的关键是数据组织。随着计算机技术的发展,数据管理经历了人工管理、文件系统、数据库系统三个发展阶段。在数据库系统中所建立的数据结构,更充分地描述了数据间的内在联系,便于数据修改、更新与扩充,同时保证了数据的独立性、可靠、安全性与完整性,减少了数据冗余,故提高了数据共享程度及数据管理效率。面向数据应用前面讲到数据管理经历了人工管理、文件管理、数据库管理等三个阶段,主要是利用计算机硬件和软件技术对数据进行有效的收集、存储、处理和应用的过程。随着信息技术的进步,管理信息系统将面向大规模的组织提供业务支持,不仅要覆盖整个组织的各类业务,而且要覆盖整个组织(全球或者全国)。为此,作为管理信息系统的核心功能,数据管理将要进入一个新的阶段,即面向数据应用的数据管理。面向数据应用的数据管理概念数据管理,即对数据资源的管理。按照en:DAMA的定义:“数据资源管理,致力于发展处理企业数据生命周期的适当的建构、策略、实践和程序”。这是一个高层而包含广泛的定义,而并不一定直接涉及数据管理的具体操作(摘自维基百科)。与百度百科的定义比较,百度百科的定义针对的是数据应用过程中数据的管理,即传统的数据管理,而维基百科的定义更高一层,针对的是企业数据全生命周期所涉及应用过程数据的管理,即对数据变化的管理,或者说是针对描述数据的数据(元数据)的管理,在此我们称之为面向应用的数据管理。根据管理学理论,几个人的团队可以靠自觉、自律,几十个人就要有人管理,几百个人就要有一个团队管理,几千或几万人就必须要依靠计算机辅助团队管理。通常覆盖全国的企业和机构,其整个组织的管理分为总部机构、省级机构、市级机构、以及基层机构等等各层级机构;在每个层级机构中还设置了直接从事相应业务的管理和职能部门和非直接从事业务的管理和职能部门(如人事、办公、后勤、审计等);每个部门又是由若干员工为管理对象构成的。同时,还制定了一系列的制度去规范和约束机构、部门、人员等管理对象的活动、行为等。同样,数据管理随着管理对象——数据的增加,管理的方式(阶段)也会随之提升。通常的大型管理信息系统,其整个项目分为总集成、分项目、子项目、每个子项目又有若干内部项目组等等管理层级;在每个管理层级中都涉及直接服务于业务的业务功能(如业务交易、账务处理、行政管理、结果展现等等)和非直接服务于业务的非业务功能(如定义、配置、监控、分析、记录、调度等等);每个业务和非业务性质的功能又分别由若干数据集合为对象(如流程、表单、数据项、算法、元数据、日志等等)所构成的。同时,也需要制定一系列制度、规则和标准去约束项目、功能、数据等管理对象的活动和变化。由此可见,传统的数据管理侧重的数据对象是流程、表单、数据项、算法等直接面向具体业务需求的数据;面向应用的数据管理所涉及的数据对象,还增加了通过标准化的手段,描述流程、表单、数据项、算法等应用对象的数据(即它们对应的元数据),以及记录各类数据变化结果的档案、记录运行状态的日志等等非直接面向业务的数据,以实现对各类应用业务需求的加载、变化、记录、复用等过程的管理。2.2.2面向数据应用的数据管理对象面向数据应用的数据管理对象。面向数据应用的数据管理所管理的数据对象,主要是那些描述构成应用系统构件属性的元数据,这些应用系统构件包括流程、文件、档案、数据元(项)代码、算法(规则、脚本)、模型、指标、物理表、ETL过程、运行状态记录通常意义的元数据(Metadata),是描述数据的数据(dataaboutdata),主要是描述数据属性(property)的信息。这些信息包括数据的标识类属性,如命名、标识符、同义名、语境等等;技术类属性,如数据类型、数据格式、阈值、计量单位等等;管理类属性,如版本、注册机构、提交机构、状态等等;关系类属性,如分类、关系、约束、规则、标准、规范、流程等等。而面向数据应用的数据管理所涉及的元数据,主要是描述那些应用系统构件属性的信息。除了传统元数据属性以外,每个不同的构件还有其特有的属性,比如流程要有参与者和环节的属性、物理表要有部署的属性、ETL要有源和目标的属性、指标要有算法和因子的属性等等。每一个构件必然对应一个或多个(一个构件的不同分类)元模型,元模型是元数据的标准,每一个元数据都应该遵循其对应元模型的定义。比如每个数据项(元)都有自己的名字、标识符、数据类型、数据格式、发布状态、注册机构等等属性,这些属性的集合就是这个数据项的元数据。而每个数据项的元数据都是由哪些属性描述、每个属性应该如何描述、以及描述的规则等等约束称之为元模型。电子政务数据元标准(GB/T19488.1-2004)就是电子政务数据项(元)的元模型。传统的元数据管理通常均在相关业务实现后,通过专门元数据管理系统的抽取功能加载元数据,这种方式由于需要在事后人工地启动加载或维护(事后补录业务属性)元数据的过程,往往很难及时获取元数据的变化,确保元数据与实际情况的一致性。在实现面向应用的数据管理时,应该采用主动的元数据管理模式,即遵循元模型的标准,通过人机交互过程加载元数据(本地元数据),在可能的情况下同时产生数据对象(应用系统构件)的配置或可执行脚本(如果条件不具备,也要利用人机交互所产生的元数据,作为其它相关工具产生可执行脚本的依据)。每当需要变更配置或修改脚本时,也是通过这个人机交互过程实现,同步产生新的元数据,保证了元数据与实际的一致性。面向数据应用的数据管理意义和方法传统应用系统(ApplicationSystems)往往是针对特定应用的,需要固化需求的,难以支持变化的管理信息系统。而金税三期项目是建立针对全国性的组织,覆盖整个组织所有管理业务和所有用户的管理信息系统。这样的应用系统,业务需求的“变化”是常态的,“不变”是暂态的;面对整个组织,各部门和层级的业务“不同”是客观存在的,“统一”是逐步实现的,继而持续拓展(开始新的不同)的。为此,必须要有一个不仅能提供业务需求的实现,更要能够提供可支持业务需求的变化,可对它们变化进行跟踪和管理,可以支持持续优化的用户体验的,企业化生产的新型应用系统(AS2.0)产品集合作为支撑。AS2.0中必须对整个组织业务需求的变化过程和结果加以控制、记录和管理,面向数据应用的数据管理就是AS2.0关键基础构件的一个产品,并且是它可行性的基础。传统应用系统的数据管理所关注的是数据的增值过程,其功能的实现重在关注和强调业务需求内容的加载、内容的ETL、内容的组织、内容的加工以及内容的反映。这些功能的都是通过编码实现的,固化的软件代码°AS2.0的数据管理所关注的增加了元数据的集合、历史数据的集合和状态数据的集合,并且利用主动的元数据管理工具进行配置和加载实现的软件代码。同时,将其对应的本地元数据汇集形成元数据集合,实现对各种业务需求的变化实施加载,加以捕获,进行记录,实现跟踪达到对变化的管理;将与内容和变化相关的历史记录加以标准化的封装形成档案,实现历史资料的组织、复用和卸载等功能达到对历史的管理;将AS2.0各种构件运行状态信息实时捕获,加以记录,综合分析,及时反映,实现整个系统运行时状态的综合管理。综上所述,随着数据对象拓展了变化的记录、历史的记录、状态的记录,标志着数据管理进入了新的阶段一一面向数据应用的数据管理,也标志着应用系统开始进入AS2.0时代。大数据管理的发展历程人工管理阶段20世纪50年代中期以前,计算机主要用于科学计算,这一阶段数据管理的主要特征是:(1) 不能长期保存数据。在20世纪50年代中期之前,计算机一般在关于信息的研究机构里才能拥有,当时由于存储设备(纸带、磁带)的容量空间有限,都是在做实验的时候暂存实验数据,做完实验就把数据结果打在纸带上或者磁带上带走,所以一般不需要将数据长期保存。(2) 数据并不是由专门的应用软件来管理,而是由使用数据的应用程序自己来管理。作为程序员,在编写软件时既要设计程序逻辑结构,又要设计物理结构以及数据的存取方式。(3) 数据不能共享。在人工管理阶段,可以说数据是面向应用程序的,由于每一个应用程序都是独立的,一组数据只能对应一个程序,即使要使用的数据已经在其他程序中存在,但是程序间的数据是不能共享的,因此程序与程序之间有大量的数据冗余。(4) 数据不具有独立性。应用程序中只要发生改变,数据的逻辑结构或物理结构就相应的发生变化,因而程序员要修改程序就必须都要做出相应的修改,给程序员的工作带来了很多负担。文件系统阶段20世纪50年代后期到60年代中期,计算机开始应用于数据管理方面。此时,计算机的存储设备也不再是磁带和卡片了,硬件方面已经有了磁盘、磁鼓等可以直接存取的存储设备了。软件方面,操作系统中已经有了专门的数据管理软件,一般称为文件系统,文件系统一般由三部分组成:与文件管理有关的软件、被管理的文件以及实施文件管理所需的数据结构。文件系统阶段存储数据就是以文件的形式来存储,由操作系统统一管理。文件系统阶段也是数据库发展的初级阶段,使用文件系统存储、管理数据具有以下4个特点:八、、・(1) 数据可以长期保存。有了大容量的磁盘作为存储设备,计算机开始被用来处理大量的数据并存储数据。(2) 有简单的数据管理功能。文件的逻辑结构和物理结构脱钩,程序和数据分离,是数据和程序有了一定的独立性,减少了程序员的工作量。(3) 数据共享能力差。由于每一个文件都是独立的,当需要用到相同的数据时,必须建立各自的文件,数据还是无法共享,也会造成大量的数据冗余。(4)数据不具有独立性。在此阶段数据仍然不具有独立性,当数据的结构发生变化时,也必须修改应用程序,修改文件的结构定义;而应用程序的改变也将改变数据的结构。数据库系统阶段20世纪60年代后期以来,计算机管理的对象规模越来越大,应用范围又越来越广泛,数据量急剧增长,同时多种应用、多种语言互相覆盖地共享数据集合的要求越来越强烈,数据库技术便应运而生,出现了统一管理数据的专门软件系统——数据库管理系统。用数据库系统来管理数据比文件系统具有明显的优点,从文件系统到数据库系统,标志着数据库管理技术的飞跃。大数据管理的发展趋势近期力推数据管理系统评测基准发展的几股力量伴随着应用的发展,数据管理系统评测基准受到各方面的大力关注.前面的章节已经简要介绍了最近几年所出现的代表性基准,它们不仅仅来自于学术界,也来自于工业界.但不可否认的是,单个学者或者科研小组的科研工作所辐射的影响面还是相对较窄,很难受到学术界和工业界的广泛肯定.因此,一些较大规模的机构/组织也在集聚力量,努力推动数据管理系统评测基准向前发展.TPC组织是最知名的数据管理系统评测基准标准化组织■在过去二十多年间,该机构发布了多款数据库评测基准,影响深远;其中一部分基准业已成为工业化标准.TPC组织每年都组织技术会议(TPCTC),讨论在数据库评测领域的研究进展,这些内容并不局限于关系型数据库.例如,在TPCTC2012年会上,MichaelCarey就探讨了面向大数据管理系统性能评测的若干实践、瑕疵和未来发展可能性,呼吁重视大数据基准.因此,尽管目前没有发布大数据基准,但不排除未来TPC组织会发布相关基准.欧共体第7框架程序(FP7)资助成立了链接数据基准委员会(LinkedDataBenchmarkCouncil,LDBC),旨在设计针对非关系型数据的评测基准,特别是图数据和RDF数据■荷兰计算机科学与数学研究中心(CWI)的PeterBoncz教授是该项目的科学主任■目前已经有近十家公司/学术机构加入到LDBC计划之中.LDBC的远景目标是成为类似TPC的标准化组织.LDBC正在筹划多个基准,但到目前为止还未在官网上发布出来.美国圣地亚哥超级计算中心(SDSC)的大规模数据系统研究中心(CLDS)发起创立大数据Top100计划(Bigdatatop100),通过学术界和工业界之间的合作来制定和发布大数据基准■同时,在NSF的资助下,该机构还创办了大数据基准研讨会 (WBDB),专门研究大数据基准的各方面的工作.2013年7月份,第3届研讨会在西安举行.目前,该组织正在积极考虑进一步细化两个基准草案,一个是前面提到的BigBench,另外—个是DAP(DataAnalyticsPipeline).可以看出,数据管理系统评测基准的研究工作(特别是大数据基准)正走在发展的快车道上.数据管理系统评测基准未来发展的依据学术界与工业界一致看好大数据基准会在未来具有巨大发展潜力,这是事出有因的.大数据基准评测基础研究以及领域应用的基准制定是大数据研究的重要组成部分,符合国家发展战略.大数据基准评测是大数据研究的重要组成部分,其成功实施有助于引领整个大数据产业的良性发展.大数据基准评测还在基础理论方面存在巨大挑战.大数据与现有数据模型显著不同,因此现有数据基准无法有效评测大数据库系统的性能.数据库系统的体系结构也在发展.近十年来,在应用和硬件两方面的发展使得数据库体系结构不断变迁.内存价格不断下跌,使得布置一个拥有海量内存的计算机系统成为可能.多核芯片的出现,使得数据库系统需要考虑基于多核框架的并行架构,以提高性能;应用的发展,使得传统的关系型数据管理系统未必能够处理海量数据,迫切需要搭建分布式计算环境,以管理NoSQL类型的应用.从历史经验来看,大数据基准制定将是一个漫长的过程■第一波针对RDBMS的基准评测从1983年开始,直到TPC发布3个重要的基准TPC-C(1991年)、TPC-H(1998年)和TPC—E(2006年),前后历时23年,且目前仍在不断完善过程中.其他面向非关系型数据的基准也在不断发展过程之中.随着应用的发展,大数据应用不再只考虑一种数据模式,而是混合多种模式.目前,大数据基准的研究比较火热,同时也还在不断发展过程之中.从影响力较大的早期大数据基准CALDA(2009年提出)算起,迄今不足5年,也尚未出现可称为工业化标准的大数据基准.在未来,评测数据库系统的基准必须面对以下几个挑战.未来的挑战(1)待测系统的公平性保障.基准评测的目标是客观、公正地评判各个大数据系统的性能.但是,鉴于大数据理论仍在发展过程中,大数据系统的差异性显著,要做到“公平性”并非易事.首先,需要确保各个系统的表达能力一致.大数据系统的工作语言和应用接口可能不一致,一些系统以类SQL语言作为工作语言,但表达能力并不相同.其次,需要确保各个系统的运行状态一致.大数据系统往往会保留一组缺省参数配置以确保系统易于启用,但使用缺省配置无法获得最佳性能,需要合理调整参数才可达到最佳性能.大数据系统的某些优化举措具有局限性,需要不过分彰显这些优化举措.模拟数据生成■模拟数据生成是数据管理系统评测基准的重要研究内容■模拟数据应该能够反映出真实应用的特征.模拟数据的仿真性是基准评测优劣的先决条件,所生成的模拟数据应符合真实应用场景下的数据分布、约束条件等,如何在分布式环境下设计并行算法以高效地生成模拟数据集合是一个挑战.测试数据生成技术可分为应用无关的生成技术和应用相关的生成技术两类.前者并不指定应用背景,而后者与真实应用场景紧密相联,力图仿真真实应用场景.传统的数据管理系统评测基准所用的数据规模较小,可在单机上生成.但在大数据应用中数据量大,数据的并行生成与分布式存储就显得尤为关键.模拟数据生成还需考虑约束条件和分布特性.典型的约束条件包括唯一性约束、空值约束、参照完整性约束、(条件)函数依赖等.当已知数据分布式类型时,创建测试数据集较为容易;但是当无法用简单公式来描述数据集合特征时,测试数据生成显得比较困难.工作负载设定.负载设定要仿真真实应用运行情况,以较为全面地衡量数据库系统的性能.多用户评测的重要性在于几乎所有大数据平台均不会仅仅运行单一任务(即单用户模式),而是会同时运行多个任务.面向单用户模式的基准仅具备参考价值,所获得的度量值可能与多用户模式下的度量值可能相距甚远.多负载评测检测大数据系统在多套不同负载条件下的性能表现.工作

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论