




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、数据库架构设计最佳实践One Size Does not Fit All?OneSize DoesNot FitAll !M.Stonebraker 1943-获得2014图灵奖自80年代后期开始,数据库届就开始讨论关系数据库的后继者是谁?在关系数据库内部的最大努力来自于两个方向:(1)模型扩展:面向对象数据库与XML数据库(2)专用系统,one-size-does-not-fit-all(以M. Stonebraker为代表)Failed Aspirations in Database Systems(VLDB 2017)Oracle XML 和 面向对象数据库现状是:这两个方向一度都非常热
2、,无论是学术界还是 数据库厂商,都投入了大量的人力进行这方面的研究。始终没有大规模应用,是一个无足轻重的特性。Stonebraker 研制的专用系统c-store(后改名Vertica)column store 系统,适用于OLAP,后被HP收购。h-store(后改名VoltDB)行存储数据库, 适用于事务OLTP。StreamBase,流数据库,被TIBCO收购。SciDB,科学数据库,支持数组(array)然而。Google三件套彻底改变了非结构化数据管 理的生态。GFSMapReduceBigtableStonebraker对Hadoop的批评之声Hadoop并非完美 “MapRedu
3、ce: A Major Step Backward”, Database ColumnBlog, Jan. 17, 2008丢失了大多数DBMS的特性不支持事务或者只支持简单的事务较低级的程序设计范型缺乏应用开发工具和环境没有索引Stonebraker数据库市场呈现“百花齐放”的景象关 系 型非 关 系 型分析型操作型Sybase IQ VeticaInfobrightOracle DB2SQL Server Informix MySQL PostgreSQLMariaDBHive HAWQAster Teradata Greenplum Netzza图CouchDBDynamoDBRedis
4、CouchbaseKey-value文档Neo4JInfiniteGraphIngresSybase ASEOracle NoSQLMangoDBMemcacheDBF1MemSQLOceanbaseSpannerNewSQLAuroraHbase出路何在?Driven Force应用驱动创新数据库应用的变化推动了数据库技术的发展 软硬件技术及计算平台的发展水平与应用需求 有着互动的关系数据库应用的变化OLT POLA P?Store & Acces s第一代第二代第三代第四代第五代Store & Acces s非结构化 数据结构化 数据1、从无到有:数据管理概念的出现第一阶段:从无到有,为了
5、让数据存取高效ENIAC,美国1946Charles.W.Bachman1924-20171960年为通用电气制造 了世界上第一个网 状数据库系统IDS积极推动与促成了数据库 标准的制定:DBTG 报告由于他在在数据库技术的 产生、发展与推广 应用方面都发挥了 巨大的作用 1973 获图灵奖2、OLTP第二阶段:从层次/网状走向关系,支持企 业级应用Edgar F. Codd1922-20031970年Codd博士提出了关系模型,奠定了 关系数据库的理论基础,1981年获得 图灵奖Jim Gray由于事务处理研究方面的元创性 贡献以及在将研究原型转化为商业产 品的系统实现方面的技术领袖地位,
6、1998年获奖(时任微软研究员)1980-2010的三十年是关系数据库大行其道、 独霸天下 的时期Jim Gray1944-20073、OLAP第三阶段:从关系数据库到数据仓库,支 持复杂数据分析与决策支持SQL语言只能支持“小分析”Bill Inmon 提出了数据仓库的概念 多维数据模型(CUBE模型) 面向主题的、集成的数据集OLAP分析(上钻,下钻操作等) 支持分析决策4、非结构化数据存储与访问第四阶段:从关系走向非结构化数据关系数据库的优点来自关系模型,主要限 制也来自关系模型,无法管理非结构 化数据!系统的扩展之路成本高效率 低!最大的改变来自非数据库圈,Google的贡献 彻底改变
7、了非结构化数据管理的生态Google三件套GFSMapRuduceBigtable新时代:以数据为中心计算机硬件数据库等操作系统工具软件应用软件大数据分析云计算以软件为中心的体系以数据为中心的体系大数据应用以数据为中心的计算(Data-Centric Computing)以数据为中心的计算汇聚和监护多种数据源超大规模的数据存储与管理通过数据分析实现数据增值高可控弹性资源管理(a) 传统以计算为中心的模式(b) 以数据为中心的计算数据分析数据管理数据 汇聚 与 数据 监护异 构 大 数 据 源数据增值访问 瓶颈整体架构数据汇聚与 数据监护*全球规模 数据管理多计算模型 数据分析高可控弹性资源管理
8、以数据为中心的计算(Data-Centric Computing)各类大数据 与人工智能 应用各类数据源物联网企业日志视频监控车联网移动互联网PC智能制造电子商务商务智能社交网络 搜索, 推荐智慧法务机器人自动驾驶金融科技智慧物流医学影像诊断医疗数据*Data Curation数据汇聚与数据监护多源异构数据的清洗集成如何针对多数据源中的异构数据(关系、文本、图等)进行有效的清洗与链接大规模数据标注如何在成本可控的前提下,获得高质量的标注数据面向数据分析的隐私保护如何保护隐私的前提下,尽可能降低对数据分析效果的损失数据监护的易用性优化如何构建端到端的数据准备,提升数据监护的易用性全球规模数据管理
9、全球规模分布式数据管理架构如何基于计算与存储分离思想,设计全球规模(global-scale)的分 布式数据管理系统架构多数据模型存储如何针对多种数据模型,动态进行多数据模型的存储与管理优化,提 升多种计算模型的数据访问效率自适应索引结构如何针对不同数据模型和数据访问规律,自适应建立和调优数据索引 结构基于近数据计算的数据查询优化如何利用近数据计算思想,在更接近数据的层面进行数据处理,减少 数据传输,优化大数据查询操作性能大规模分布式事务处理如何提高分布式事务的可靠性和执行效率多计算模型数据分析基于异构计算的数据分析如何围绕数据,充分利用多核CPU、GPU、FPGA等多元异构 计算器件协同进行
10、高效率的大数据分析基于近似计算的数据分析如何在保障近似比的前提下,大幅减小数据分析的开销多计算模型的深度融合如何从接口到引擎,深度融合批处理、流计算等主流计算模型机器学习计算模型优化如何在保障计算效率的前提下,提升分布式机器学习计算模型 支持的模型维度,以及如何基于迭代优化方法,自动调优机器 学习模型参数国家重点研发计划项目,高时效、可扩展的大数据计算模型、优化技术与系 统(主持人:中国人民大学 陈红教授)高可控弹性资源管理面向多元异构硬件的协同优化问题如何针对计算新硬件和存储新硬件的特性,充分发挥新硬件的优势, 以及做好新硬件之间的协同优化面向多租户的资源隔离问题如何保障每个租户不会互相干扰
11、,能够准确获得预期的资源资源服务的质量保障问题如何保障计算/存储/网络等资源服务的质量智能分布式资源管理问题如何对分布式系统的多维资源进行自动化的高效分配、组织和管理国家重点研发计划项目,软件定义的云计算基础理论与方法(主持人:中国科学院计算技术研究所 徐志伟研究员)数据库的主流应用:OLMLStore & AccessOLTPOLAPOLML第一代第二代第三代第四代第五代Store & Access非结构化 数据结构化 数据OLMLOnline Machine Learning在一个数据集上选择一个子集进行训练用类SQL语言描述数据子集和学习任务实时更新模型(例如,一分钟就需要更新模型)OL
12、ML vs OLTP/OLAPOLTP : relation model/ simple queryOLAP: cube model/ statistical analysisOLML: matrix model/ predictive analysis结果查询cube分析预测分析Software Engineering for Machine Learning:A Case StudyICSE 2019最佳论文Best practices with machine learningin software engineeringA. End-to-end pipeline supportint
13、egrating ML development support into the traditional software development infrastructure.build environments to help engineers discover, gather, ingest, understand, and transform data, and then train, deploy, and maintain models.Best practices with machine learningin software engineeringB. Data avail
14、ability, collection, cleaning, and managementdata 对于ML很重要data attributes: “accessibility, accuracy, authoritativeness, freshness, latency, structuredness, ontological typing, connectedness, and semantic joinability.”Microsoft teams have found it necessary to blend data management tools with their ML
15、 frameworks to avoid the fragmentation of data and model management activities.the rapid evolution of data sources requires rigorous data versioning and sharing techniques讨论:Data discovery and managementEngineers have to find, collect, curate, clean, and process data for use in model training and tu
16、ning.All the data has to be stored, tracked, and versioned.the data schema (and the data) change frequently, even many times per day多人协作场景的data versioning支撑OLML的“新型”数据库长啥样?支持多数据模型(single engine multi models)支持存算分离(decoupling)支持自优化自适应自管理(self driven)支持混合架构(integrated architecture)多数据模型应用只关注系统性能和开发效率,
17、不关心如何实现为不同类型的数据提供最合适的数据存储键值对图文档存储 管理一个重要的判断:大数据管理系统是 多数据模型并 存的,以便适 应不用的要求。多模型数据库TabularRDFXMLSpatialTextMulti-model DBJSON统一的数据库引擎支持多模型存储。不是不同的数据类型采用不同 的数据库引擎。数据库分类Relational DBMSSearch enginesDocument storesKey-value storesWide column storesGraph DBMSTime Series DBMSObject oriented DBMSRDF storesMu
18、ltivalue DBMSNative XML DBMSEvent StoresContent storesNavigational DBMS流行度排名Top 50数据库类型数量Relational15Relational, Multi-model14Search engine4Search engine,Multi-model1Document3Document, Multi-model2Key-value1Key-value, Multi-model2Wide column2Wide column, Multi-model1Multi-model3Graph1Time Series1总计50存算分离(decoupling storage and omputation)存储与计算分离是实现“以数据为中心计算时代”的必经之路存储与计算各自独立扩展。可以更好地应对单一方面的不足。数据规模超过了集群存储能力,则扩展存储(例如时序数据的管理)。“涌现式”大数据处理需求导致计算能力跟不上,则扩展计算(例如阿里“双十一”、12306的“春运”)。以数据为中心的计算。同一份数据存储(数据湖,Data Lake),同时支持上层各种
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 财产处理协议书
- 表5安全教育与培训
- 2024-2025学年七年级数学北师大版上册期末检测卷(含答案)
- 幼儿园《雨天的活动》科学教案
- 大班幼儿全面发展指南策略分析
- 2024-2025学年下学期高二生物人教版期末必刷常考题之生态系统的信息传递
- 森林之旅心理题目及答案
- 2025届河南省九师联盟高三下学期2月教学质量检测语文试题(解析版)
- 年底员工评价的评语
- 渣土车辆超速检讨书
- 好书推荐-《三毛流浪记》77955课件
- 变更户主情况登记表(填写样式)
- (新版)供电可靠性(初级)理论普考题库及答案汇总-下(判断题)
- 事业单位工勤人员技师考试职业道德复习试题
- 职业安全健康现场检查记录表参考范本
- GA∕T 1699-2019 法庭科学 复制笔迹检验指南
- 杭电 通信电路复习
- 初物管理办法及规定
- 对照品管理SOP双语
- 积雪草提取物对胃粘膜的保护作用及其机制探讨
- STEP7下冗余IO编程
评论
0/150
提交评论