数据仓库与数据挖掘课件_第1页
数据仓库与数据挖掘课件_第2页
数据仓库与数据挖掘课件_第3页
数据仓库与数据挖掘课件_第4页
数据仓库与数据挖掘课件_第5页
已阅读5页,还剩19页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

数据仓库

----SQLserver2000AnalysisServices

1.面向主题:按主题进行组织,为按主题进行决策的过程提供信息2.集成:经过系统加工、汇总和整理3.稳定:长期保留,插入和查询4.包含历史数据:过去某一时点到目前的信息,发展历程和未来趋势

利用数据仓库解决四种类型的问题:

1.2005年10月25日肝脏外科的住院人次数是多少?2.呼吸内科明年的就诊情况如何?(科室应作何相应调整?)

3.2005年1-10月份经消化内科某医师诊治的十二指肠球部溃疡患者的平均住院天数及药品费用构成比是多少?

4.影响患者住院费用高低的因素是哪些?其中哪个是最关键因素?数据仓库设计与开发的一般过程:1.任务和环境的评估2.需求的收集和分析3.设计数据仓库4.创建数据准备区5.创建数据仓库数据库6.从联机事务处理系统中析取数据7.清理和转换数据8.向数据仓库数据库中加载数据9.向数据集市发布数据10.创建多维数据集11.进行数据挖掘12.设计并实现终端用户的应用程序13.将数据仓库和基于它的应用投入使用☆

数据仓库的数据模型结构1.星型模型星型模型由一个事实表和维表组成,事实表是星型模型的核心表,包含两种类型的列,第一种列是维度表的索引列,这些列中存储了各维表的主键值,它们组合成事实表的主键;而其他非主属性的列则称为事实列,其中包含了用于计算的信息,即多维数据集中的度量值。事实表中的每个事实指向每个维表中的一个元组。2.雪花模型雪花模型是对星型模型的一个扩展,每个维表都可以向外连接多个维表。雪花模型是对星型模型的维表进一步标准化,维表分解成与事实表直接关联的主维表和与主维表关联的次维表。它的优点是通过最大限度的减少存储量以及将较小的标准化表而不是较大的非标准化表联合在一起来改善查询性能。由于采用标准化及维的较低粒度,雪花模型增加了应用程序的灵活性,但由于雪花模型增加了连接操作的次数,因而也增加了查询的复杂性。度量值:主要是数值型字段,如:费用金额、住院天数等

衍生度量值:就诊人次数等

计算成员:均值、百分比、率等

性别维表年龄维表身份维表时间维表科室维表病种维表转归维表住院事实表星型模型

性别维表年龄维表身份维表时间维表患者代码住院科室代码病种维表转归维表住院事实表雪花模型科室维表患者维表SQLserver2000数据挖掘2005年11月10日分析问题数据数据数据数据仓库多维数据集创建和训练模型校验数据数据挖掘模型维护数据挖掘数据清洗和转换查询数据客户端数据查询OLAP数据挖掘过程数据挖掘结果解释查询数据数据挖掘(datamining,DM)就是通过对大型数据库和数据仓库中大量似乎无关的数据进行分析,以便发现并提取隐藏在数据深处的、人们事先不知道的、但是潜在有用的信息、知识和规律的过程。数据挖掘是一种基于发现的方法,它能够自动分析数据并进行归纳性的推理,从中挖掘出潜在的规律或模式,以帮助管理决策者建立新的模型。目前应用比较广泛的数据挖掘模型和方法主要有基于规则的系统(决策树)、统计方法(聚类)、神经网络、基于事例的推理、机器学习等。在AnalysisServices中系统内置了决策树和聚类分析两种挖掘模型。决策树模型是通过一系列的数据细分来实现最终的数据分析,适合于商业预测;而聚类分析模型常用于对比较类似的数据进行集成,适合于商业中的市场划分。决策树模型AnalysisServices中的决策树模型是一种基于条件和概率的决策方法。它首先选择数据中的显著特征,然后根据这些特征不断的对数据进行分类,缩小数据集,把数据逐步组织成树的形式,直到建立起清晰的相关性,它能够准确的预测事务的发展趋势。10000名循环系统疾病患者男性80%女性20%年龄>4895%年龄<=485%男性52%女性48%司机33%医生31%律师28%其他8%子女数>=285%子女数<215%其他12%医生43%律师45%居住地为省会城市或直辖市82%居住地非省会城市或直辖市18%决策树分析模型聚类模型

聚类分析是一种间接的数据挖掘方法,它是用来查找多维空间中的自然分组,通过提取数据之间的共同点来发现隐藏在数据中的规律。

女男152535455565司机医生律师其他聚类分析模型SQLserver2000中并不是只能使用上述两种模型,分析人员还可以通过SQLserver2000提供的编程接口将其他算法引入到系统中,比如神经网络算法和遗传算法。使用挖掘向导创建数据挖掘模型的过程如下:选择数据源的类型两种数据源:(1)关系数据源:基于关系型数据源的挖掘模型(2)OLAP数据源:基于多维数据集的挖掘模型选择实例表或数据挖掘模型表选择数据挖掘模型

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论