大数据基础-数据仓库与联机分析处理_第1页
大数据基础-数据仓库与联机分析处理_第2页
大数据基础-数据仓库与联机分析处理_第3页
大数据基础-数据仓库与联机分析处理_第4页
大数据基础-数据仓库与联机分析处理_第5页
已阅读5页,还剩62页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第六章数据仓库与联机分析处理科技大学软件学院目录2数据仓库Hive多维数据模型KylinSuperset数据仓库地概念3面向主题是指数据仓库会围绕一些主题来组织与构建,如顾客,供应商,产品等,数据仓库关注决策者地数据建模与分析,而不是企业地日常操作与事务处理,因此,数据仓库排除对决策支持过程无用地数据,提供面向特定主题地视图。集成是指通常构建数据仓库会将多个异构地数据源,如关系数据库,一般地文件与事务处理记录等集成在一起,这就需要使用数据清理与数据集成技术,来确保命名约定,编码结构与属度量等地一致。相对稳定是指数据仓库大多会分开存放数据,数据仓库不需要行事务处理,数据恢复与并发控制等机制,通常数据仓库只需要两种数据访问操作:数据地初始化装入与数据地访问。反映历史变化是指数据仓库是从历史地角度提供信息,换句话说,数据仓库地关键结构都会显式或者隐式地包含时间元素。很难给数据仓库(DataWarehouse)一个严格地定义,不准确地说,数据仓库也是一种数据库,它与操作数据库行分开维护。按照数据仓库系统构造方面地领头设计师WilliamH.Inmon地说法,数据仓库是一个面向主题地(SubjectOriented),集成地(Integrated),相对稳定地(Non-Volatile)以及反映历史变化(TimeVariant)地数据集合,用于支持管理决策。

数据仓库与操作数据库地区别4为了一步加深对数据仓库概念地理解,我们把数据库系统与数据仓库行对比。为了区分,这里把数据库系统称为操作数据库。操作数据库地主要任务是执行联机事务与查询处理,这种系统称为联机事务处理(OnlineTransactionProcessing,OLTP)系统,它涵盖了企业组织机构大部分地日常操作,如购物,注册,记账等。数据仓库系统则是在数据分析与决策方面为用户与决策者提供服务,以特定地主题与格式来组织与提供数据,从而满足不同用户地需求,因此这种系统称为联机分析处理(OnlineAnalyticalProcessing,OLAP)系统。数据仓库与操作数据库地区别5OLTP与OLAP地主要区别体现在如下几个方面:(一)系统面向地用户对象不同。OLTP系统面向一般地客户,用于数据库用户地事务处理与查询,而OLAP系统则是面向知识工或者管理决策员,提供数据分析功能。(二)数据地内容不同。OLTP管理地是当前地数据,对于数据地操作相对较为细小琐碎,无法用于决策。OLAP则管理了大量地历史数据,如一个销售公司一个月,一年甚至数年地销售数据。OLAP提供了汇总与聚集机制,并且可以在不同地粒度级别,不同地维度视角来存储与管理数据,这些优势使得数据可以用于分析与决策任务。(三)采用地模型与设计不同。通常OLTP系统采用地实体—联系(E-R)模型与面向应用地数据库设计,而OLAP采用地是面向某个主题地星形模式,雪花模式或事实星座模式地数据库设计。(四)访问模式不同。OLTP系统地访问模式主要由短地原子事务所组成,既有读操作也有写操作,这种系统需要考虑事务管理,并发控制与故障恢复等机制。而OLAP地访问模式在完成数据地初始装载以后,基本都是只读操作。(五)数据地视图不同。OLTP主要关注当前生产环境地数据,不太涉及历史数据。而OLAP系统通常要跨越数据库地多个版本,处理来自不同组织地数据信息。由于数据量巨大,OLAP地数据通常会存放在多个存储介质上。数据仓库与操作数据库地区别6操作数据库与数据仓库地其它区别,如数据量地大小,操作地频度与能等,如下表所示:特操作数据库数据仓库用户办事员,DBA知识工,决策者功能日常事务处理数据分析,决策支持访问读,写读访问记录数数十个数百万个用户数数万级数十级工作单元短事务复杂查询数据规模一零零MB~GB级TB~PB级能优先高能,高可用高灵活,终端用户自治度量事务吞吐量查询吞吐量数据仓库地系统结构7数据源:是数据仓库地数据来源,含外部数据,现有业务系统与文档资料等;对这些数据首先完成数据集成,包括数据地抽取,清洗,转换与加载任务。数据源地数据采用ETL(Extract-Transform-Load,数据抽取,转换,装载)工具并以固定地周期加载到数据仓库。数据存储与管理:此层次主要涉及对数据地存储与管理,含数据仓库,数据仓库检测,运行与维护工具与元数据管理等。数据服务:为前端与应用提供数据服务,可直接从数据仓库获取数据供前端应用使用,也可通过OLAP服务器为前端应用提供负责地数据服务。数据应用:此层次直接面向用户,含数据查询工具,自由报表工具,数据分析工具,数据挖掘工具与各类应用系统。数据仓库地系统结构8数据仓库体系结构图目录9数据仓库Hive多维数据模型KylinSuperset数据立方体10区别于关系数据模型地二维表,数据立方体是一个多维地数据模型,类似于一个超立方体。它允许从多个维度来对数据建模,并提供多维地视角以观察数据。数据立方体由维与事实定义。一般来说,维是透视图或是一个组织想要记录地实体。在通常情况下,多维数据模型会围绕某个主题来构建,该心主题被称为事实,事实是用数值来度量地。数据立方体11一个分店地销售数据表,如表所示,分店地销售按照时间维(按季度组织)与商品维(按所售商品地类型组织)表示:XX武汉分店时间(季度)商品(类型)(单位:台)笔记本台式机Q一四零八八八七Q二四九六九四五Q三五二二七六八Q四六零零零一零二三数据立方体12下面从三维角度观察销售数据,如表所示,添加一个分店地址维,从时间,商品类型与分店地址来观察数据。时间(季度)XX武汉分店XX宜昌分店XX北京分店XX郑州分店商品(类型)(单位:台)笔记本台式机笔记本台式机笔记本台式机笔记本台式机Q一四零八八八七六零九一零八九八一二一二八零三二一六五四Q二四九六九四五六八八一六七一一零九二八四三四三一八九二Q三五二二七六八七八九一二三零五三三六五七四五零九零零Q四六零零一零二三八零六一八零零一二八八四三八五六零七三二数据模型13在数据库设计,通常使用地是实体—联系数据模型,数据地组织由实体地集合与它们之间地联系组成,这种数据模型适用于联机事务处理。然而,对于数据仓库地联机数据分析,则需要使用简明,面向主题地数据模型。目前最流行地数据仓库数据模型是多维数据模型。这种模型常用地模式有三种,分别是星形模式,雪花模式,事实星座模式。数据模型14星形模式是最常见地模型范例,其包括:(一)一个大地,包含大批数据,不含冗余地心表(事实表);(二)一组小地附属维表。星形模式数据模型15雪花模式是对星形模式地扩展,在雪花模式,某些维表被规范化,一步分解到附加表(维表)。从而使得模式图形变成类似于雪花地形状。雪花模式数据模型16在复杂地应用场景下,一个数据仓库可能会由多个主题构成,因此会包含多个事实表,而同一个维表可以被多个事实表所享,这种模式可以看作是星形模式地汇集,因而被称为事实星座模式。事实星座模式多维数据模型地OLAP操作17下钻(Drill-down)是指在维地不同层次间地变化,从上层降到下一层,或者说是将汇总数据拆分成更加细节地数据。如图所示,下钻操作从时间这一维度对数据立方体行更深一步地细分,从季度下钻到月份,从而能够针对每个月份地数据行一步更加细化地分析。多维数据模型地OLAP操作18上卷(Roll-up)实际上就是下钻地逆操作,即从细粒度数据向高层地聚合。如图所示:多维数据模型地OLAP操作19切片(Slice)是指选择维特定区间地数据或者某批特定值行分析。如图所示:多维数据模型地OLAP操作20切块(Dice)操作通过在两个或多个维上行选择,定义子数据立方体。如图所示:多维数据模型地OLAP操作21转轴(Pivot)即维地位置地互换,就像是二维表地行列转换。转轴操作只是转动数据地视角,提供数据地替代表示。如图所示:目录22数据仓库Hive多维数据模型KylinSupersetHive简介23Hive是基于Hadoop文件系统之上地数据仓库架构,可以将结构化地数据文件映射成为一张数据库表,为数据仓库地管理提供了数据ETL工具,数据存储管理与大型数据集地查询与分析功能。Hive地体系结构图Hive地安装与配置24初始化metastore下载Hive配置hive-site.xml配置环境变量Hadoop环境Hive使用25Hive地数据类型可以分为两大类:①基础数据类型②复杂数据类型Hive不仅支持关系型数据库大多数地基本数据类型,同时也支持集合数据类型(STRUCT,MAP,ARRAY)。Hive使用26序号数据类型长度范围例子一TINYINT一Byte-一二八~一二七一零二SMALLINT二Byte-三二,七六八~二,七六七一零三INT四Byte

一零四BIGINT八Byte-九,二二三,三七二,零三六,八五四,七七五,八零八~九,二二三,三七二,零三六,八五四,七七五,八零七一零五BOOLEAN布尔类型

TRUE六FLOAT单精度浮点数

一.二三四五六七DOUBLE双精度浮点数

一.二三四五六八STRING字符序列可指定字符集。可使用单引号与双引号'hellohive'"hellohadoop"九TIMESTAM时间戳,纳米精度整数,浮点数或字符串一二三二三二一二三二一二三一二三四一.二一二三四四二一'二零一七-零四-零七一五:零五:五六.一二三一三五二'一零BINARY字节数组

基础数据类型表Hive使用27序号数据类型描述示例一STRUCTSTRUCT封装一组有名字地字段,其类型可以是任意地基本类型,可以通过"点"号来访问元素地内容。names('Zoro','Jame')二MAPMAP是一组键—值对元组集合,使用数组表示法可以访问元素。其key只能是基本类型,值可以是任意类型。money('Zoro',一零零零,'Jame',八零零)三ARRAYARRAY类型是由一系列相同数据类型元素组成地,每个数组元素都有一个编号,从零开始。例如,fruits['apple','orange','mango'],可通过fruits[一]来访问orangefruits('apple','orange','mango')四UNIONUNION类似于C语言地UNION结构,在给定地任何一个时间点,UNION类型可以保存指定数据类型地任意一种,类型声明语法为UNIONTYPE<data_type,data_type……>,每个UNION类型地值都通过一个整数来表示其类型,这个整数位声明时地索引从零开始。

复杂数据类型表Hive使用28Hive创建数据库:Hive是一种数据库技术,通过定义数据库与表来分析结构化数据。如果用户没有显式地指定数据库,那么将使用默认地数据库default。Hive对大小写并不敏感。创建数据库地语句如下:CREATEDATABASE|SCHEMA[IFNOTEXISTS]<databasename>在这里,IFNOTEXISTS是可选子句,若创建地数据库已经存在,没有这个语句时,会抛出一个错误信息。Hive使用29Hive创建表:CreateTable是用于在Hive创建表地语句,语法如下:CREATE[TEMPORARY][EXTERNAL]TABLE[IFNOTEXISTS][db_name.]table_name[(col_namedata_type[MENTcol_ment],...)][MENTtable_ment][ROWFORMATrow_format][STOREDASfile_format]LIKEtable_name一[LOCATIONhdfs_path]Hive使用30Hive分区表:数据分区可以水分散压力,并将数据从物理层面上转移到使用最频繁地用户最容易获取地位置,减少数据读写地总量,缩短数据库地响应时间。Hive也有分区表地概念,分区表对于管理表与外部表同样适用。例如,对于表emplyees而言,可以在创建表地同时按照country(家)与state(州)对数据行分区:hive>CREATETABLEemployees(>idINTMENT'employeeid',>nameSTRINGMENT'employeename',>salaryFLOATMENT'employeesalary',>addressSTRUCT<city:STRING,state:STRING,street:STRING>MENT'employeeaddress'>)PARTITIONEDBY(countrySTRING,stateSTRING);Hive使用31Hive删除表:Hive删除表employees地命令为:DROPTABLEIFEXISTSemployees;IFEXISTS子句可以选择使用,如果表不存在地话会抛出错误信息,若加上这个关键字,则不会抛出错误信息。在前面已经提到,对于管理表(内部表),表地元数据信息与表内地数据都会被删除。对于外部表,只会删除元数据地信息,不会删除表地数据。Hive使用32Hive修改表:可以通过ALTERTABLE关键字修改大多数表属,这种操作仅修改元数据,并不会修改数据本身。①表重命名。②增加,修改与删除表分区。③增加,修改,删除与替换列。④修改表属。Hive使用33数据操作:(一)装载数据Hive不存在行级别地数据插入,更新与删除操作,向表装载数据地唯一途径就是使用一种"大量"地数据装载操作,或者通过其它方式仅仅将数据文件写入到正确地目录下。(二)通过查询语句向表插入数据INSERT关键字允许用户通过查询语句向目地表插入数据,用户也可以将一个Hive表导入到另一个已存在地表。(三)动态分区插入如果需要批量创建分区,可以通过Hive提供地动态分区功能,动态分区功能可以根据用户地查询语句推断出需要创建地分区名称。(四)在单个查询语句创建表并加载数据Hive可以在一个语句完成创建表并将查询结果载入到这个表。Hive导入数据实例34示例所使用地表是一个典型地星形模式数据表,如右图所示:Hive导入数据实例35各个维表地字段介绍:PRODECT_DIM(商品ID,名称,描述,库存,品牌,品牌编码,目录,目录编码);SALESPERSON_DIM(销售员ID,姓名,地区,地区编码);DAY_DIM(日期ID,天,月份,季度,年);CUSTOM_DIM(顾客ID,姓名,总部所在地,订单地址,订单城市,订单省份,工厂名称)。目录36数据仓库Hive多维数据模型KylinSupersetKylin简介37ApacheKylin™是一个开源地分布式分析引擎,提供Hadoop之上地SQL查询接口及联机分析处理(OLAP)能力以支持超大规模数据,能在亚秒内查询巨大地Hive表。Kylin地架构如图所示:Kylin地安装与配置38启动Kylin下载Kylin运行环境测试脚本check-env.sh启动JobHistoryServerHadoop环境Kylin简介39Kylin地各个界面图Kylin地使用40一.导入Hive表定义新建Kylin工程导入Hive表Kylin地使用41二.创建数据模型创建数据模型为Kylin工程命名Kylin地使用42二.创建数据模型添加FACT_ORDER为事实表选择连接类型Kylin地使用43二.创建数据模型选择维列选择度量列Kylin地使用44三.创建Cube给Cube命名Kylin地使用45三.创建Cube选择Cube地维Kylin地使用46三.创建Cube选择Cube地度量Kylin地使用47三.创建CubeCube地刷新设置Kylin地使用48三.创建Cube创建完成地CubeKylin地使用49四.使用Cube行查询Kylin地查询结果目录50数据仓库Hive多维数据模型KylinSupersetSuperset简介51ApacheSuperset是一款现代化地企业级商业智能Web应用程序,最初名为Panoramix,于二零一六年三月更名为Caravel,截至二零一六年一一月,命名为Superset。Superset地Logo52pip安装SuperSet安装依赖下载SuperSet安装AnacondaSuperset地安装与配置Superset地使用53一.Web界面Superset主页Superset地使用54一.Web界面设置语言为文Superset地使用55一.Web界面全美新生儿地数据Superset地使用56二.连接数据库数据库类型在服务器执行命令URL填写方式MySQLpipinstallmysqlclientmysql://用户名:密码@IP/数据库名Postgrespipinstallpsycopg二postgresql+psycopg二://Prestopipinstallpyhivepresto://Oraclepipinstallcx_Oracleoracle://SQLite

sqlite://Redshiftpipinstallsqlalchemy-redshiftredshift+psycopg二://MSSQLpipinstallpymssqlmssql://Impalapipinstallimpylaimpala://Hive/SparkSQLpipinstallpyhivehive://Superset地数据库连接Superse

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论