




已阅读5页,还剩50页未读, 继续免费阅读
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第9章 数据库系统的研究与发展,9.1 分布式数据库系统 Distributed Database System DDBS,3,分布式数据库 逻辑上是一个统一的数据库系统 物理上分散在不同的场地(节点) 各场地通过计算机网络连接在一起 统一由一个分布式数据库管理系统( DDBMS )管理 特点 分布性: 数据的分布性 事务的分布性 协调性:逻辑上整体、具整体完整性约束,4,数据的分布性 分布式数据存储 复制 分片 复制 + 分片 数据的冗余 提高数据的可用性、并发性、减少网络传输 增加了数据更新的开销,副本一致性问题 事务的分布性 局部事务 仅访问当地数据库的事务 全局事务 需访问其他场地数据库的事务,5,分布式数据库环境下的访问代价 磁盘读写 网络传输 分布式数据库的目标 部门组织分布,降低成本 数据资源共享,提高数据库的利用率,6,全局外模式 全局应用的用户视图,全局概念模式的子集 全局概念模式 是全局概念视图 全局概念模式名、属性名、域 分片模式 定义分片片段以及全局关系到片段的映象 是一对多的,一个全局关系可对应多个片段,一个片段只来自全局关系 分布模式 分片的物理分配视图 局部概念模式 局部数据库中的概念模型,关于本地数据库的描述 如果局部数据库中还有独立应用,则应有局部外模式,提供给本地应用使用 局部内模式 局部数据库的物理描述 局部数据库:本地的局部数据库,7,网络,LDB,CM,GDBMS,LDBMS,全局数据字典,LDB,CM,GDBMS,LDBMS,全局数据字典,DDBMS的结构,8,全局数据字典 存放数据概念模式、分片模式、分布模式的定义及各模式之间映象的定义 存放有关用户存取权限的定义 存放数据完整性约束条件的定义 分布式数据库的基本原则 对用户(最终用户、程序员)来说,一个分布式系统应该看起来完全象一个非分布式系统,9,Sybase Enterprise Connect 数据库互联与复制解决方案 提供在同 / 异构数据源中进行分布事务复制、位置透明、与应用独立的数据存取功能 集成 Repliaction Server / Replication Agent (复制服务器/代理) Jconnect(J连接) Open Server/Open Client (开放式服务器/客户机) Omni Connect / Direct Connect (总连接/直接连接),SQL Remote,ASA 联机用户,ASA 远程移动用户,ASA/ASE,企业数据,ASA的远程工作组 (办事处 1),总部,SQLRemote,SQLRemote,SQLRemote,复制服务器,ASA的远程工作组 (办事处 2),9.2 数据仓库技术与联机分析处理 Data Warehouse & OLAP,12,数据库处理的两大应用 联机事务处理(OLTP) 操作型处理,为企业的特定应用服务 是对数据库的联机的日常操作,通常是对一个或一组记录的查询和修改 人们关心的是响应时间、数据的安全性和完整性 决策支持系统(DSS) 分析型处理,用于管理人员的决策分析 经常需要访问大量的历史数据 数据仓库 + 联机分析处理 + 数据挖掘 ( DW + OLAP + DM ) DSS,13,数据仓库 是一个面向主题的、集成的、非易失的(不可修改)且随时间变化的数据集合,用来支持管理人员的决策,14,数据仓库的特点 面向主题 主题是在较高层次上对数据抽象 面向主题的数据组织分为两步骤 抽取主题 确定每个主题所包含的数据内容 每个主题在数据仓库中都是由一组关系表实现的 集成的 数据不可更改 随时间变化的,15,数据仓库的特点 面向主题,16,数据仓库的特点 面向主题 集成的 数据仓库的数据是从原有的分散数据库数据中抽取来的 消除数据表述的不一致性(数据的清洗) 数据的综合 数据不可更改 随时间变化的,17,数据仓库的特点 集成,18,数据仓库的特点 面向主题 集成的 数据不可更改 数据仓库的主要数据操作是查询、分析 不进行一般意义上的数据更新(过期数据可能被删除) 数据仓库强化查询、淡化并发控制和完整性保护等技术 随时间变化的,19,数据仓库的特点数据不可更改,20,数据仓库的特点 面向主题 集成的 数据不可更改 随时间变化的 不断增加新的数据内容 不断删除旧的数据内容 定时综合 数据仓库中数据表的键码都包含时间项,以标明数据的历史时期,21,数据仓库的特点 随时间变化,22,数据仓库的结构,OLTP系统,RDBMS Sybase,VSAM,SAP/ERP,5-10 年,过去 详细数据,当前 详细数据,轻度 汇总数据,高度 汇总数据,数据集市,分析型CRM,业务指标分析,数据仓库,数据仓库/决策分析系统,EXCEL,23,数据仓库的结构 数据由操作型环境(综合)导入数据仓库 数据具有不同的细节级 早期细节级(过期数据) 当前细节级 轻度综合数据级(数据集市) 高度综合数据级,24,25,26,数据仓库中的数据组织形式 简单堆积 轮转综合 数据按一定的格式进行轮转的累加 简化直接 按一定的时间间隔,对数据进行提取,是操作型数据的一个快照 连续 把新的快照追加到以前的连续数据上去,27,数据仓库中的数据组织形式 简单堆积 每日由数据库中提取并加工的数据逐天积累堆积,28,数据仓库中的数据组织形式 轮转综合 数据按一定的格式进行轮转的累加,29,数据仓库中的数据组织形式 简单堆积与轮转综合的比较,30,数据仓库中的数据组织形式 简化直接 按一定的时间间隔,对数据进行提取,是操作型数据的一个快照,31,数据仓库中的数据组织形式 连续 把新的快照追加到以前的连续数据上去,32,数据仓库的数据追加 数据追加 数据仓库的数据初装完成以后,再向数据仓库输入数据的过程称为数据追加 变化数据的捕获 时标法:加标识 DELTA法:对更新作记录 前后映象法:两次快照的对比 日志法:利用DBMS的日志,需改进,33,数据库的体系化环境 是在一个企业或组织内部,由各面向应用的OLTP数据库及各级面向主题的数据仓库所组成的完整的数据环境 操作型环境、分析型环境 四层体系化环境 操作型环境OLTP 全局级数据仓库 部门级局部仓库 个人级个人仓库,用于启发式的分析 数据集市(Data Mart) 特定的、面向部门的小型数据仓库 是为满足用户特定需求而创建的数据仓库 是数据仓库的子集,34,数据库的体系化环境,35,数据库的体系化环境,36,数据仓库的开发生命周期,37,数据仓库的基本数据模式 星型模式(Star Schema) 事实表(fact table),存放基本数据,相关主题的数据主体(BCNF) 维(dimension),影响、分析主体数据的因素 量(measure),事实表中的数据属性 维表(dimension table),表示维的各种表 维是量的取值条件,维用外键表示 以事实表为中心,加上若干维表,组成星型数据模式 例:产品-商店-销售额,38,数据仓库的基本数据模式,CustSales,LocationSales,ProdSales,TimeSales,Sales,time id,product id,location id,customer id,sales revenue,units sold,Product,product id,make,model,Time,time id,date,year,quarter,month,week,Location,location id,region,district,store,Customer,customer id,category,group,Sales fact,Sales measures,Time dimension,Attributes of the time dimension,39,数据仓库的基本数据模式 雪花模式(Snowflake Schema) 维一般是由若干层次组成 把维按其层次结构表示成若干个表 规范化、节省存储空间 但需多做连接操作 数据仓库的解决方案 通用的关系数据库系统 专门的数据仓库服务器,40,数据仓库系统的体系结构 数据仓库层 数据仓库工具层 最终用户,41,数据仓库系统 数据仓库 居系统的核心地位 是信息挖掘的基础 数据仓库管理系统 是整个系统的引擎 负责管理整个系统的运转 数据仓库工具 一般的查询工具、功能强大的分析工具 是整个系统发挥作用的关键,42,数据分析模型 早期 静态数据值的相互比较 需求 从多个不同的数据源中综合数据 从不同的角度观察数据 多变的主题、多维数据 E-R不能完全支持 四种分析模型(Codd) 绝对模型 解释模型 思考模型 公式模型,43,四种分析模型(Codd) 绝对模型 静态数据分析 只能对历史数据进行值的比较,描述基本事实 用户交互少 解释模型 静态数据分析 在当前多维视图的基础上找出事件发生的原因 思考模型 动态数据分析 多维分析 在决策者的参与下,找出关键变量 需要高级数据分析人员的介入 公式模型 动态性最高的一类 自动完成变量的引入工作,44,数据仓库系统的工具层 查询工具 主要是对分析结果的查询 很少有对记录级数据的查询 验证型工具 多维分析工具 用户首先提出假设,然后利用各种工具通过反复、递归的检索查询以验证或否定假设 发掘型工具 从大量数据中发现数据模式 预测趋势和行为,45,联机分析处理OLAP 是针对特定问题的联机访问和分析。 通过对信息的很多种可能的观察形式进行快速、稳定一致和交互性的存取,允许分析人员对数据进行深入观察,46,一些概念 变量是数据的实际意义,描述数据是什么 维是人们观察数据的特定角度 维的层次是维在不同细节程度的描述 维成员是维的一个取值 多层次维的维成员是各层次取值的组合 对应一个数据项,维成员是该数据项在该维中位置的描述 多维数组可以表示为(维1,维2,变量),如(地区,时间,销售渠道,销售额) 多维数组的取值称为数据单元(单元格) 可以理解为交叉表的数据格,47,一些基本操作 在多维数组的某一维选定一个维成员的动作称为切片。 舍弃一些观察角度 在多维数组的某一维上选定某一区间的维成员切块 多个切片的叠加 旋转是改变一个报告或页面显示的维方向 以用户容易理解的角度来观察数据,48,基于多维数据库的OLAPMOLAP 以多维方式组织数据(综合数据) 以多维方式显示(观察)数据 多维数据库的形式类似于交叉表,可直观地表述一对多、多对多的关系 如:产品、地区、销售额 关系 多维 多维数据库由许多经压缩的、类似于数组的对象构成,带有高度压缩的索引及指针结构 以关系数据库存放细节数据、以多维数据库存放综合数据,49,基于关系数据库的OLAPROLAP 以二维表与多维联系来表达多维数据(综合数据) 星型结构 事实表,存储事实的量及各维的码值(BCNF) 维表,对每一个维,至少有一个表用来保存该维的元数据(多层次、冗余) 事实表通过外键与每个维表相联系 雪花、星座、雪暴 模拟多维方式显示(观察)数据,50,MOLAP与ROLAP MOLAP 计算速度较快 支持的数据容量较小 缺乏细节数据的OLAP ROLAP 结构较复杂 以关系模拟多维 支持适当细节的OLAP 较成熟 HOLAP是以上两种的综合,51,数据挖掘(Data Mining) 探测型的数据分析 发现信息、发现知识 基于人工智能、机器学习、统计学 由计算机自动智能地分析数据,获取信息,作出预测或帮助决策 需要算法的支持和机器的环境,52,数据挖掘的常用方法 决策树方法 利用信息论中的互信息,寻找数据库中具有最大信息量的属性字段,建立决策树的节点,再根据该属性字段的不同取值建立树的分支 在每个分支子集中重复建立下层节点和分支,53,数据挖掘分析方法 关联分析 为了挖掘出隐藏在数据间的相互关系 支持度/置信度作为输入的条件,进行筛选、分析 序列模式分析 类似与关联分析 着重于分析数据的前因后果 分类分
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 西南林业大学《智能医学图像处理课程设计》2023-2024学年第一学期期末试卷
- 重庆健康职业学院《第二外国语一》2023-2024学年第二学期期末试卷
- 云南省广南县第三中学2025届招生全国统一考试生物试题模拟试题含解析
- 中国计量大学《物联网通信技术》2023-2024学年第二学期期末试卷
- 江苏省扬中学市重点名校2025年初三下学期4月调研考试数学试题试卷含解析
- 攀枝花市重点中学2025年初三下学期期末语文试题含解析
- 眉山职业技术学院《描述统计学》2023-2024学年第二学期期末试卷
- 辽宁建筑职业学院《书法书法临摹与创作》2023-2024学年第二学期期末试卷
- 湖南幼儿师范高等专科学校《绿色建筑与系统工程》2023-2024学年第一学期期末试卷
- 平顶山工业职业技术学院《教育技术学学科前沿》2023-2024学年第二学期期末试卷
- 重庆市建筑安全员C证考试题库
- 绘本故事《小鲤鱼跳龙门》课件
- TCACM 1554-2023 肛漏中医诊疗指南
- 直播间搭建培训
- 刑事诉讼中电子数据冻结的性质及其法律规制
- 2025年重庆三支一扶招募469人高频重点提升(共500题)附带答案详解
- 企业投资项目后评估管理制度
- 健身会籍顾问
- 电力系统分析知到智慧树章节测试课后答案2024年秋东北电力大学
- 2025年济南政金投资限公司招聘工作人员高频重点提升(共500题)附带答案详解
- 2025年中航证券有限公司招聘笔试参考题库含答案解析
评论
0/150
提交评论