《大数据存储技术与应用》 课件 项目四 深入结构化数据存储_第1页
《大数据存储技术与应用》 课件 项目四 深入结构化数据存储_第2页
《大数据存储技术与应用》 课件 项目四 深入结构化数据存储_第3页
《大数据存储技术与应用》 课件 项目四 深入结构化数据存储_第4页
《大数据存储技术与应用》 课件 项目四 深入结构化数据存储_第5页
已阅读5页,还剩72页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《大数据存储技术与应用》实战篇大数据存储技术与应用1970年,IBM的研究员(“关系数据库之父”埃德加·弗兰克·科德(E.F.Codd))发表了题为“ARelationalModelofDataforLargeSharedDataBanks(大型共享数据库的关系模型)”的论文,首次提出了数据库的关系模型。篇章引入章节任务大数据存储技术与应用项目四深入结构化存储任务一走进结构化数据存储Swift的特性?Swift的应用工作场景?CAP定义?CAP理论?回顾任务引入-MPP技术Greenplum。该公司成立于2003年,2006年推出了首款产品,其主营业务关注在数据仓库和商业智能方面,GreenplumDW/BI软件可以在虚拟化x86服务器上运行无分享(shared-nothing)的大规模并行处理(MPP)架构。任务描述:本节任务从认识结构化数据、关系数据库和结构化查询语言SQL开始。任务教学目标:领会关系数据库理论基础。掌握关系数据库模型设计。应用结构化数据存储。任务概要教学内容结构化数据存储介绍结构化数据存储技术路线一二结构化数据存储介绍知识点一

安装依赖(53&54)结构化数据是指可以使用关系型数据库表示和存储,表现为二维形式的数据。通常,采用关系数据库查询语言SQL来操作结构化数据。(一)结构化数据典型的结构化数据包括:身份证号码、日期、数量、金额、地址、电话等。主要应用领域:教务系统、学工系统、CRM系统、一卡通系统等。结构化数据通常以行为单位,一行数据表示一个实体的信息,每一行数据的属性是相同的。

安装依赖(53&54)建立在E-R(Entity-Relationship,实体-关系模型)基础上的数据库,典型的关系数据库如:PostgreSQL、MySQL等。(二)关系数据库

安装依赖(53&54)结构化查询语言(StructuredQueryLanguage)简称SQL,SQL从功能上可以分为3部分:DDL(DataDefinitionLanguage,数据定义语言)、DML(datamanipulationlanguage,数据操纵语言)DCL(DataControlLanguage,数据控制语言)。(三)结构化查询语言结构化数据存储技术路线知识点一

安装依赖(53&54)大数据结构化数据存储技术路线有三种:采用关系数据库存储架构;采用MPP并行数据存储架构;基于Hadoop的技术扩展和封装。国内已经广泛应用于行业各种数据库,锁定行业应用特性,提供数据存储整体解决方案,如华为GaussDB数据库、中兴GoldenDB分布式数据库、南大通用GBase数据库、TiDB数据库、武汉达梦数据库、人大金仓KingbaseES数据库等。结构化数据存储技术路线

安装依赖(53&54)1.关系数据库存储架构采用关系数据库存储架构技术来存储结构化数据,通过对关系数据库系统的优化来解决大数据工程项目中的海量数据的存储和大量用户的并行访问问题。如:对开源关系数据库MySQL进行优化,构建MySQL数据库集群来存储海量结构化数据;部署开源关系对象数据库PostgreSQL系统,构建海量结构化数据存储系统;结构化数据存储技术路线赖(53&54)2.MPP并行数据存储架构MPP(也被称为SharedNothing架构),指有两个或者多个处理器协同执行一个操作的并行系统,每一个处理器都有其自己的内存、操作系统和磁盘。结构化数据存储技术路线

安装依赖(53&54)Hadoop开源大数据技术,扩展、封装,衍生出适合特定应用场景的存储系统和存储产品。Hadoop技术扩展和封装任务小结通过本节任务的学习,我们认识了什么是结构化数据、关系数据库和结构化查询语言。对结构化数据的存储技术路线进行了系统的探讨和学习。拓展训练PostgreSQL独立学习起源于加利福尼亚大学伯克利分校的PostgreSQL作为世界上最先进的开源数据库,已经有30多年的历史,并且以无与伦比的开发速度继续发展。PostgreSQL的成熟功能不仅与顶级商业数据库系统匹配,而且在高级数据库功能、可扩展性、安全性和稳定性方面超过了它们。学习postgresql官方文档:/v2/document1.什么是结构化数据?2.结构化数据存储的技术路线?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目四深入结构化存储任务二深入PostgreSQL存储技术什么是结构化数据?什么是MPP?结构化数据存储的技术路线?Hadoop?回顾任务引入-MPP技术Greenplum。该公司成立于2003年,2006年推出了首款产品,其主营业务关注在数据仓库和商业智能方面,GreenplumDW/BI软件可以在虚拟化x86服务器上运行无分享(shared-nothing)的大规模并行处理(MPP)架构。任务描述:本节任务从认识结构化数据、关系数据库和结构化查询语言SQL开始。任务教学目标:领会关系数据库理论基础。掌握关系数据库模型设计。应用结构化数据存储。任务概要教学内容PostgreSQL概述PostgreSQL安装配置一二PostgreSQL数据类型PostgreSQL数据库设计三四PostgreSQL数据表操作PostgreSQL数据操作五六PostgreSQL应用案例七PostgreSQL概述知识点一

安装依赖(53&54)PostgreSQL是以加州大学伯克利分校计算机系开发的POSTGRES,版本4.2为基础的对象关系型数据库管理系统(ORDBMS)。POSTGRES领先的许多概念在很久以后才出现在一些商业数据库系统中。(一)PostgreSQL概述PostgreSQL安装配置知识点二

安装依赖(53&54)/download/(二)PostgreSQL安装配置

安装依赖(53&54)~$psqlpsql(10.10.0)Type"help"forhelp.postgres=#(二)PostgreSQL安装配置进入PostgreSQL退出PostgreSQL\q~$PostgreSQL数据类型知识点三

安装依赖(53&54)(三)PostgreSQL数据类型PostgreSQL数据库设计知识点四

安装依赖(53&54)以学生选课为例来学习PostgreSQL逻辑模型和物理模型的设计。学生信息表:学号、姓名、性别、年龄、所在系;课程信息表:课程号、课程名、学分;学生选课信息表:学号、课程号、成绩。(四)PostgreSQL数据库设计

安装依赖(53&54)1.查看数据库(四)PostgreSQL数据库设计

安装依赖(53&54)2.选择数据库(四)PostgreSQL数据库设计

3.删除数据库PostgreSQL数据表操作知识点五

安装依赖(53&54)1.创建学生信息表(五)PostgreSQL数据表操作PostgreSQL数据操作知识点六

安装依赖(53&54)1.插入数据到学生信息表(六)PostgreSQL数据操作PostgreSQL应用案例知识点七

安装依赖(53&54)以学生选课为案例。学生信息表:学号、姓名、性别、年龄、所在班级;课程信息表:课程号、课程名、学分;学生选课信息表:学号、课程号、成绩。本案例可以采用Postgres企业版本Stork集群实现,Stork是以Postgres为内核,在此基础上开发的数据库系统;也可以采用开源PostgresSQL版本实现。(七)PostgreSQL应用案例任务小结通过本节任务的学习,我们认识了什么是结构化数据、关系数据库和结构化查询语言。对结构化数据的存储技术路线进行了系统的探讨和学习。扩展训练PostgreSQL独立学习起源于加利福尼亚大学伯克利分校的PostgreSQL作为世界上最先进的开源数据库,已经有30多年的历史,并且以无与伦比的开发速度继续发展。PostgreSQL的成熟功能不仅与顶级商业数据库系统匹配,而且在高级数据库功能、可扩展性、安全性和稳定性方面超过了它们。学习postgresql官方文档:/v2/document1.什么是结构化数据?2.结构化数据存储的技术路线?作业谢谢!THANKS!《大数据存储技术与应用》大数据存储技术与应用项目四深入结构化存储任务三深入MPP并行数据存储技术什么是结构化数据?什么是MPP?结构化数据存储的技术路线?Hadoop?回顾任务引入-MPP技术Greenplum。该公司成立于2003年,2006年推出了首款产品,其主营业务关注在数据仓库和商业智能方面,GreenplumDW/BI软件可以在虚拟化x86服务器上运行无分享(shared-nothing)的大规模并行处理(MPP)架构。任务描述:节以开源数据库GreenPlum为基础系统学习MPP并行数据存储技术。在任务实践过程中,可以选择企业版本Teryx或开源GreenPlum版本进行部署。任务教学目标:领会关系数据库理论基础。掌握关系数据库模型设计。应用结构化数据存储。任务概要教学内容MPP并行数据存储概述Greenplum数据存储架构一二Greenplum数据存储操作Greenplum应用案例三四MPP并行数据存储概述知识点一

安装依赖(53&54)MPP(MassivelyParallelProcessing,大规模并行处理)也被称为SharedNothing架构,指有两个或者多个处理器协同执行一个操作的并行系统,每一个处理器都有其自己的内存、操作系统和磁盘。GreenPlum使用这种高性能系统架构来分布数T字节数据负载并且能够使用系统的所有资源并行处理一个查询。(一)MPP并行存储概述Greenplum数据存储操作知识点三

安装依赖(53&54)GreenPlum数据库是一种大规模并行处理(MPP)数据库服务器,GreenPlum架构特别适合大规模数据分析、机器学习和AI。(二)Greenplum数据存储架构Greenplum数据存储架构知识点二

安装依赖(53&54)(三)Greenplum数据库操作1.创建数据库CREATEDATABASEnew_dbname;2.克隆数据库CREATEDATABASEnew_dbnameTEMPLATEold_dbname;3.创建不同Owner的数据库CREATEDATABASEnew_dbnameWITHowner=new_user;4.修改数据库ALTERDATABASEmydatabaseSETsearch_pathTOmyschema,public,pg_catalog;5.删除数据库DROPDATABASEmydatabase;

安装依赖(53&54)(三)Greenplum数据操作1.Insert操作INSERT语句向GreenPlum数据表中添加数据。INSERTINTOStudents(SNo,SName,SClass)VALUES('2020101001','李**','2020级大数据1班');INSERTINTOStudentsVALUES('2020101001','李**','2020级大数据1班');INSERTINTOStudentsSELECT*FROMtmp_StudentsWHERESClass='2019级大数据1班';INSERTINTOStudents(SNo,SName,SClass)VALUES('2020101001','李**','2020级大数据1班');

安装依赖(53&54)(三)Greenplum数据操作UPDATE语句更新GreenPlum数据表中的数据。UPDATEStudentsSETSAge=21WHERESNo='2020101003';3.Delete操作DELETE语句从GreenPlum数据表中删除行。DELETEFROMStudentsWHERESNo='2020101003';4.Truncate操作使用TRUNCATE语句可以快速地清空GreenPlum表中的所有数据。TRUNCATEtmp_Students;Greenplum应用案例知识点四

安装依赖(53&54)(四)Greenplum应用案例Teryx是一款MPP架构的分布式数据库引擎,基于GreenPlum开源数据库实现,相比于原生数据库,总体性能有一定提升。本案例基于Teryx实现对score(成绩表)的结构化数据操作。也可以基于开源Greenplum安装实现。(

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论