数据仓库与数据挖掘期末综合复习

上传人：无*** IP属地：河北上传时间：2024-06-28 格式：PDF 页数：28 大小：6.10MB 积分：12 举报 版权申诉

已阅读5页，还剩23页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

数据仓库与数据挖掘期末综合复习

第一章

1、数据仓库就是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合.

2、元数据是描述数据仓库内数据的结构和建立方法的数据，它为访问数据仓库提供了一个

信息目录,根据数据用途的不同可将数据仓库的元数据分为技术元数据和业务元数据两类.

3、数据处理通常分成两大类：联机事务处理和联机分析处理。

4、多维分析是指以“维”形式组织起来的数据(多维数据集)采取切片、切块、钻取和旋

转等各种分析动作，以求剖析数据，使拥护能从不同角度、不同侧面观察数据仓库中的数据,

从而深入理解多维数据集中的信息。

5、ROLAP是基于关系数据库的OLAP实现,而MOLAP是基于多维数据结构组织的OLAP实现。

OLAP技术的有关概念：

OLAP根据其存储数据的方式可分为三类：ROLAP、MOLAP、HOLAP

6、数据仓库按照其开发过程，其关键环节包括数据抽取、数据存储与管理和数据表现等。

7、数据仓库系统的体系结构根据应用需求的不同,可以分为以下4种类型:两层架构、独立

型数据集合、以来型数据结合和操作型数据存储和逻辑型数据集中和实时数据仓库。

8、操作型数据存储实际上是一个集成的、面向主题的、可更新的、当前值的(但是可“挥

发”的)、企业级的、详细的数据库，也叫运营数据存储。

9、”实时数据仓库”以为着源数据系统、决策支持服务和仓库仓库之间以一个接近实时的

速度交换数据和业务规则。

10、从应用的角度看，数据仓库的发展演变可以归纳为5个阶段：以报表为主、以分析为

主、以预测模型为主、以运营导向为主和以实时数据仓库和自动决策为主。

11、什么是数据仓库？数据仓库的特点主要有哪些？

数据仓库通常是指一个数据库环境，而不是支一件产品，它是提供用户用于决策支持的当前

和历史数据,这些数据在传统的数据库中通常不方便得到。数据仓库就是一个面向主题的

(SubjectOriented)集成的(Integrate)、相对稳定的(Non—Volatile)、反映历史

变化(TimeVariant)的数据集合，通常用于辅助决策支持。

数据仓库的特点包含以下几个方面：

(1)面向主题.操作型数据库的数据组织是面向事务处理任务，各个业务系统之间各自分离：

而数据仓库中的数据是按照一定的主题域进行组织。

(2)集成的.面向事务处理的操作型数据库通常与某些特定的应用相关，数据库之间相互独

立,并且往往是异构的。也就是说存放在数据仓库中的数据应使用一致的命名规则、格式、

编码结构和相关特性来定义。

(3)相对稳定的。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化.数据

仓库的数据主要供单位决策分析之用，对所涉及的数据操作主要是数据查询和加载，一旦某

个数据加载到数据仓库以后，一般情况下将作为数据档案长期保存，几乎不再做修改和删除

操作，也就是说针对数据仓库,通常有大量的查询操作及少量定期的加载(或刷新)操作.

(4)反映历史变化。操作型数据库(OLTP)主要关心当前某一个时间段内的数据，而数据仓

库中的数据通常包含较久远的历史数据，因此总是包括一个时间维，以便可以研究趋势和变

化。数据仓库系统通常记录了一个单位从过去某一时点(如开始启用数据仓库系统的时点)

到目前的所有时期的信息，通过这些信息，可以对单位的发展历程和未来趋势做出定量分析

和预测。

12、数据挖掘的概念

数据挖掘，就是从大量数据中获取有效的、新颖的、潜在有用的、最终可理解的模式的非平

凡过程，简单的说，数据挖掘就是从大量数据中提取或“挖掘”知识，又被称为数据库中的

知识发现。数据挖掘的方法：直接数据挖掘、间接数据挖掘.

13、数据仓库与数据挖掘的关系

若将数据仓库比作矿井，那么数据挖掘就是深入矿井采矿的工作;数据挖掘是从数据仓库中

找出有用信息的一种过程与技术。

14、数据仓库系统的体系结构的分类

(1)两层架构(GenericTwo-LevelArchitecture)。

(2)独立型数据集市(IndependentDataMart).

(3)依赖型数据集市和操作型数据存储(DependentDataMartandOperationalData

Store)o

(4)逻辑型数据集市和实时数据仓库(LogicalDataMartandReal-TimeDataWarehouse).

15、数据仓库的未来

(1)在数据抽取方面，未来的技术发展将集中在系统集成化方面。它将互连、转换、复制、

调度、监控纳入标准化的统一管理，以适应数据仓库本身或数据源可能的变化，使系统更便

于管理和维护。

(2)在数据管理方面，未来的发展将使数据库厂商明确推出数据仓库引擎，作为数据仓库

服务器产品与数据库服务器并驾齐驱。在这一方面,带有决策支持扩展的并行关系数据库将

最具发展潜力.

(3)在数据表现方面，数理统计的算法和功能将普遍集成到联机分析产品中，并与

Internet/Web技术紧密结合。按行业应用特征细化的数据仓库用户前端软件将成为产品作

为数据仓库解决方案的一部分。数据仓库实现过程的方法论将更加普及，将成为数据库设计

的一个明确分支，成为管理信息系统设计的必备

16、请列出3种数据仓库产品，并说明其优缺点。

(1)IBM公司提供了一套基于可视化数据仓库的商业智能(BI)解决方案，包括:Visual

Warehouse(VW),Essbase/DB2OLAPServer5.0,IBMDB2UDB,以及来自第三方的前端数

据展现工具(如B0)和数据挖掘工具(如SAS)。其中,VW是一个功能很强的集成环境，既

可用于数据仓库建模和元数据管理，又可用于数据抽取、转换、装载和调度.Essbase/DB2

OLAPServer支持“维”的定义和数据装载。Essbase/DB2OLAPServer不是ROLAP

(RelationalOLAP)服务器，而是一个(ROLAP和M0LAP)混合的HOLAP服务器，在Essbase

完成数据装载后，数据存放在系统指定的DB2UDB数据库中。它的前端数据展现工具可以选

择BusinessObjects的BO、Lotus的Approach、Cognos的Impromptu或IBM的Query

ManagementFacility；多维分析工具支持ArborSoftware的Essbase和IBM(与Arbor联

合开发)的DB2OLAP服务器；统计分析工具采用SAS系统。

(2)Oracle数据仓库解决方案主要包括OracleExpress和OracleDiscoverer两个部分。

OracleExpress由四个工具组成:OracleExpressServer是一个MOLAP(多维OLAP)服务

器，它利用多维模型，存储和管理多维数据库或多维高速缓存，同时也能够访问多种关系数

据库；OracleExpressWebAgent通过CGI或Web插件支持基于Web的动态多维数据展

现；OracleExpressObjects前端数据分析工具(目前仅支持Windows平台)提供了图形

化建模和假设分析功能，支持可视化开发和事件驱动编程技术，提供了兼容VisualBasic语

法的语言，支持OCX和OLE；OracleExpressAnalyzer是通用的、面向最终用户的报告和

分析工具(目前仅支持Windows平台)。OracleDiscoverer即席查询工具是专门为最终

用户设计的，分为最终用户版和管理员版。在Oracle数据仓库解决方案的实施过程中，通

常把汇总数据存储在Express多维数据库中，而将详细数据存储在Oracle关系数据库中，

当需要详细数据时，ExpressServer通过构造SQL语句访问关系数据库。

(3)Microsoft将OLAP功能集成到SQLServer数据库中，其解决方案包括BI平台、BI终

端工具、BI门户和BI应用四个部分，如图1.1.

①BI平台是BI解决方案的基础，包括ETL平台SQLServer2005Integration

Service(SSIS),数据仓库引擎SQLServer2005RDBMS以及多维分析和数据挖掘引擎SQL

Server2005AnalysisService、报表管理引擎SQLServer2005ReportingService。

②BI终端用户工具，用户通过终端用户工具和AnalysisService中的OLAP服务和数据

挖掘服务进行交互来使用多维数据集和数据挖掘模型，终端用户通常可使用预定义报表、交

互式多维分析、即席查询、数据可视化、数据挖掘等多种方法。

③BI门户提供了各种不同用户访问BI信息的统一入口。BI门户是一个数据的汇集地，

集成了来自不同系统的相关信息.用户可以制定个性化的个人门户，选择和自己相关性最强

的数据，提高信息访问和使用的效率。

④BI应用是建立在BI平台、BI终端用户工具和BI统一门户这些公共技术手段之上的满

足某个特定业务需求的应用，例如零售业务分析、企业项目管理组合分析等

第二章

1、调和数据是存储在企业级数据仓库和操作型数据存储中的数据。

2,抽取、转换、加载过程的目的是为决策支持应用提供一个单一的、权威数据源。因此，

我们要求ETL过程产生的数据（即调和数据层）是详细的、历史的、规范的、可理解的、即

时的和质量可控制的。

3、数据抽取的两个常见类型是静态抽取和增量抽取。静态抽取用于最初填充数据仓库，增

量抽取用于进行数据仓库的维护。

4、粒度是对数据仓库中数据的综合程度高低的一个衡量。粒度越小，细节程度越高，综合

程度越低，回答查询的种类越多。

5、使用星型模式可以从一定程度上提高查询效率.因为星型模式中数据的组织已经经过预处

理，主要数据都在庞大的事实表中。

6、维度表一般由主键、分类层次和描述属性组成.对于主键可以选择两种方式：自然键，代

理键。

7、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。

8、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别：早期细节级、当前细

节级、轻度综合级和高度综合级.

9、（1）状态数据与事件数据

前者描述对象的状态，后者描述对象发生的事件；（前象）状态数据一事件数据一（后象）

状态数据

（2）当前数据与周期数据

当前数据只保留最新数据，现存的最新记录将改变以前中的数据。

周期数据则相反，一旦保存物理上就不在改变或删除数据。通常每个周期数据记录都会包含

一个时间戳来只是日期甚至时间。

（3）数据仓库中的元数据

分技术元数据和业务元数据。

技术元数据是描述关于数据仓库技术细节的数据，包括：数据仓库结构的描述，业务系统、

数据仓库和数据集市的体系结构和模式，汇总算法，操作性业务环境导数据仓库环境的映射

等。

10、业务元数据是从业务角度描述数据仓库中的数据，提供了使用者和系统的语义层，使非

专业人员能“读懂”仓库中的数据。包括：（1）使用者的业务属于所表达的数据类型、对

象名和属性名；（2）访问数据的原则和数据的来源；（3）系统所提供的分析方法及公式和

报表的信息。简言之，元数据是数据仓库的帮助和导航图

11＞什么是数据仓库的3层数据结构？

数据是从企业内外部的各业务处理系统（操作型数据）流向企业级数据仓库或操作型数据存

储区，在这个过程中，要根据企业（或其他组织）的数据模型和元数据库对数据进行调和处

理，形成一个中间数据层，然后再根据分析需求，从调和数据层将数据引入导出数据层，如

形成满足各类分析需求的数据集市.

12、什么是数据仓库的数据ETL过程？

数据的ETL过程就是负责将操作型数据转换成调和数据的过程.这两种数据具有明显的区

别，因此,数据调和是构建一个数据仓库中最难的和最具技术挑战性的部分。在为企业级数据

仓库填充数据的过程中，数据调和可分为两个阶段:一是企业级数据仓库（EDW）首次创建时

的原始加载；二是接下来的定期修改，以保持EDW的当前有效性和扩展性。

整个过程由四个步骤组成：抽取、清洗、转换、加载和索引。事实上，这些步骤可以进行不

同的组合，如,可以将数据抽取与清洗组合为一个过程,或者将清洗和转换组合在一起。通常,

在清洗过程中发现的拒绝数据信息会送回到源操作型业务系统中，然后将数据在源系统中加

以处理，以便在以后重新抽取.

13、什么是星型模式?它的特征是什么？

在星模式中，事实表居中，多个维表呈辐射状分布于其四周，并与事实表连接.位于星形中

心的实体是事实表，是用户最关心的基本实体和查询活动的中心，为数据仓库的查询活动提

供定量数据。位于星模式四周的实体是维度实体，其作用是限制和过滤用户的查询结果，缩

小访问范围。每个维表都有自己的属性，维表和事实表通过关键字相关联。

14、为什么时间总是数据仓库或数据集市的维？

信息包图法，也叫用户信息需求表，就是在一张平面表格上描述元素的多维性，其中的每一

个维度用平面表格的一列表示,通常的维度如时间、地点、产品和顾客等；而细化本列的对

象就是类别,例如时间维度的类别可以细化到年、月、日，甚至小时；平面表格的最后一行（代

表超立方体中的单元格）即为指标度量值,例如，某年在某销售点的某类产品的实际销售额。

创建信息包图时需要确定最高层和最低层的信息需求，以便最终设计出包含各个层次需要的

数据仓库。总之，信息包图法是一种自上而下的数据建模方法，即从用户的观点开始设计（用

户的观点是通过与用户交流得到的），站在管理者的角度把焦点集中在企业的一个或几个主

题上，着重分析主题所涉及数据的多维特性,这种自上而下的方法几乎考虑了所有的信息源,

以及这些信息源影响业务活动的方式.

第三章

1、WQLServerSSAS提供了所有业务数据的同意整合试图，可以作为传统报表、

在线分析处理、关键性能指示器记分卡和数据挖掘的基砒.

2、数据仓库的概念模型通常采用信息包图法来进行设计，要求将其5个组成部

分（包括名称、维度、类别、层次和度量）全面地描述出来.

3、数据仓库的建辑模型通常采用星型图法来进行设计，要求将星型的各类避辑

实体完整地描述出来.

4、按照事实表中度量的可加性情况，可以把事实表对应的事实分为4种类型：

事务事实、快照事实、线性项目事实和事件事实.

5、确定了数据仓库的粒度模型以后，为提高数据仓库的使用性能，还需要根据

拥护需求设计聚合模型.

6、在项目实施时，根据事实表的特点和拥护的查询需求，可以选用时间、业务

类型、区域和下属组织等多种数据分割类型.

7、当维表中的主键在事实表中没有与外键关联时，这样的维称为退化维.它于

事实表并无关系，但有时在查询限制条件（如订单号码、出货单编号等）中需

要用到.

8、维■可以根据其变化快慢分为元变化维度、线慢变化维度和剧烈变化维度三

类.

9、.数据仓库的数据量通常较大，且数据一般很少更新，可以通过设计和优化索

引结构来提高数据存取性能.

1。、数据仓库数据库常见的存储优化方法包括表的归并与俄文件、反向规瓶化

引入冗余、衰的物理分割（分区）.

12、简述数据仓库系统设计过程？

收集、分析和确认业务分析需求，分析和理解主题和元数据、事实及其量度、粒度和维度的

选择与设计、数据仓库的物理存储方式的设计等。书P49

13、一个数据仓库系统的建立通畅需要经过哪些步骤？

（1）收集和分析业务需求；（2）建立数据模型和数据仓库的物理设计；（3）定义数据源；

（4）选择数据仓库技术和平台；（5）从操作型数据库中抽取、清洗及转换数据到数据仓库；

（6）选择访问和报表工具，选择数据库连接软件，选择数据分析和数据展示软件；（7）更

14、/立一不数据仓库系统的参考步骤

（1）收集和分析业务需求步骤（2）建立数据模型和数据仓库的物理设计（3）定义数据源

（4）选择数据仓库技术和平台（5）从操作型数据库中抽取、清洗及转换数据到数据仓库（6）

选择访问和报表工具，选择数据库连接软件，选择数据分析和数据展示软件（7）更新数据

仓库

15、创建数据仓库系统的两种思维模式

自顶向下（Top-down）OLTP数据通过ETL进入DW,再复制推进各个数据集市；

自底向上（Bottom-Up）OLTP数据通过ETL进入数据集市，再复制提升到DW;

16、数据仓库数据库的设计过程

（1）分析组织的业务状况及数据源结构（2）组织需求调研，收集业务需求（3）采用信息

包图法进行数据仓库的概念模型设计（4）利用星形图进行数据仓库的逻辑模型设计（5）

数据仓库的物理模型设计

17、利用星形图进行数据仓库的逻辑模型设计

（1）根据分析需求与信息包图制作星形图或雪花图（2）确定主题的属性组（3）事实表及其

特征、事实表的类型与设计（4）粒度的选择与设计步骤（5）关于数据仓库的聚合模型与

数据的分割处理（6）星形图中的维度表简介（7）常用维度的设计模式

第四章

1、关联规则的经典算法包括Apriori算法和FP—growth算法,其中FP-grownth算法的效率

更高。

2、如果L2={{a,b},{a,c},{a,d},{b,c},{b,d}},则

连接产生的C3={{a,b,c},{a,b,d},{a,c,d},{b,c,d}}再经过修剪，C3={{a,b,c）,

{a,b,d}}

3、设定supmin=50%,交易集如

则L1={A},{B},{C}L2={A,C}

T1ABC

T2AC

T3AD

T4BEF

4、什么是关联规则？关联规则的应用有哪些？

关联规则挖掘最初由R。Agrawal等人提出，用来发现超级市场中用户购买的商品之间的隐

含关联关系，并用规则的形式表示出来，称为关联规则（AssociationRule）。关联规则除

了可以发现超市购物中隐含的关联关系之外，还可以应用于其他很多领域.关联规则的应用

还包括文本挖掘、商品广告邮寄分析、网络故障分析等.

5、关联规则的分类有哪些?关联规则挖掘的步骤包括什么？

关联规则的分类：

（1）基于规则中涉及到的数据的维数，关联规则可以分为单维的和多维的。

（2）基于规则中数据的抽象层次，可以分为单层关联规则和多层关联规则。

（3）基于规则中处理的变量的类型不同,关联规则可以分为布尔型和数值型。

关联规则挖掘的步骤：（1）找出交易数据库中所有大于或等于用户指定的最小支持度的频

繁项集；

（2）/用频繁项集生成所需要的关联规则，根据用户设定的最小可信度进行取舍，产生强

关联规则。

第五章

1、分类的过程包括获取数据、预处理、分类器设计和分类决策。

2、分类器设计阶段包含三个过程：划分数据集、分类器构造和分类器测试。

3、分类问题中常用的评价准则有精确度、查全率和查准率和集合均值.

4,支持向量机中常用的核函数有多项式核函数、径向基核函数和S型核函数。

5、分类的定义：分类是指把数据样本映射到一个事先定义的类中的学习过程，即给定一组

输入的属性向量及其对应的类，用基于归纳的学习算法得出分类

6、分类的应用领域有哪些？

分类问题是数据挖掘领域中研究和应用最为广泛的技术之一，许多分类算法被包含在统计分

析工具的软件包中，作为专门的分类工具来使用.分类问题在商业、银行业、医疗诊断、生

物学、文本挖掘、因特网筛选等领域都有广泛应用.例如，在银行业中，分类方法可以辅助工

作人员将正常信用卡用户和欺诈信用卡用户进行分类，从而采取有效措施减小银行的损失；

在医疗诊断中，分类方法可以帮助医疗人员将正常细胞和癌变细胞进行分类，从而及时制定

救治方案，挽救病人的生命；在因特网筛选中，分类方法可以协助网络工作人员将正常邮件

和垃圾邮件进行分类，从而制定有效的垃圾邮件过滤机制，防止垃圾邮件干扰人们的正常生

活。

7、分类问题使用的数据集格式

（1）描述属性可以是连续型属性，也可以是离散型属性；而类别属性必须是离散型属性.

(2)连续型属性是指在某一个区间或者无穷区间内该属性的取值是连续的，例如属性

“Age”

(3)离散型属性是指该属性的取值是不连续的，例如属性"Salary”和“Class”

8、分类的过程

(1)获取数据：输入数据、对数据进行量化

(2)预处理：去除噪声数据、对空缺值进行处理；数据集成或者变换

(3)分类器设计：划分数据集、分类器构造、分类器测试

(4)分类决策：对未知类标号的数据样本进行分类

9、决策树的优点:进行分类器设计时，决策树分类方法所需时间相对较少；决策树的分类模

型是树状结构，简单直观，比较符合人类的理解方式；可以将决策树中到达每个叶节点的路

径转换为IF-THEN形式的分类规则，这种形式更有利于理解

10、决策树的基本概念：适用于离散值属性、连续值属性；采用自顶向下的递归方式产生一

个类似于流程图的树结构；在根节点和各内部节点上选择合适的描述属性，并且根据该属性

的不同取值向下建立分枝

11、决策树剪枝：决策树剪枝过程试图检测和去掉多余的分枝，以提高对未知类标号的数据

进行分类时的准确性。

a)先剪枝方法：在生成决策树的过程中对树进行剪枝

b)后剪枝方法：在生成决策树之后对树进行剪枝

第六章

1、聚类分析包括连续型、二值离散型、多值离散型和混合类型4种类型描述属性的相似度

计算方法。

2、连续型属性的数据样本之间的距离有欧氏距离、曼哈顿距离和明考斯基距离。

3、划分聚类方法对数据集进行聚类时包含三个要点：选种某种距离作为数据样本减的相似

性度量、选择评价聚类性能的准则函数和选择某个初始分类，之后用迭代的方法得到聚类结

果，使得评价聚类的准则函数取得最优值.

4、层次聚类方法包括凝聚型和分解型两中层次聚类方法。

5、什么是聚类分析？聚类分析的应用领域有哪些？书P131

聚类分析是将物理的或者抽象的数据集合划分为多个类别的过程，聚类之后的每个类别

中任意两个数据样本之间具有较高的相似度，不同类别的数据样本之间具有较低的相似度。

6、数据挖掘技术对聚类分析的要求：

(1)可伸缩性(适用于增长的大数据集)

(2)处理不同类型属性的能力(支持多种类型属性的数据集)

(3)发现任意形状聚类的能力(除了球形聚类外，能划分出任意形状聚类)

(4)减小对先验知识和用户自定义参数的依赖性

(5)处理噪声数据的能力(对孤立点、缺失值、错误数据等噪声数据的抗干扰性)

(6)可解释性和实用性(降维，可视化显示)

7、通常聚类算法可以分为以下几类：

(1)划分聚类方法

选择适当的初始代表点将数据样本进行初始聚类，之后通过迭代过程对聚类的结果进行不断

的调整，直到使评价性能的准则函数的值达到最优为止。

(2)层次聚类方法(3)基于密度的聚类方法(4)基于网格的聚类方法

第十章

1＞遗传算法(GeneticAlgorithms,GA)是一种有效的全局搜索方法，是一种基于达尔文自

然选择和遗传变异等生物进化机制而发展起来的仿生算法.

2、例1利用遗传算法求解区间［0,31］上的二次函数y=x2的最大值.

解(1)设定种群规模，编码染色体，产生初始种群。

将种群规模设定为4；用5位二进制数编码染色体；取下列个体组成初始种群S1：

sl=13(01101),s2=24(11000)

s3=8(01000),s4=19(10011)

(2)定义适应度函数，取适应度函数:f(x)=x2

f(si)=f(13)=132=169f(s2)=f(24)=242=576

f(s3)=f(8)=82=64f(s4)=f(19)=192=361

由此可求得

P(sl)=P(13)=0。14P(s2)=P(24)=0。49

P(s3)=P(8)=0。06P(s4)=P(19)=0。31

(3)计算各代种群中的各个体的适应度，并对其染色体进行遗传操作，直到适应度最高的

个体(即31(11111))出现为止。

填空题20分，简答题25分，计算题2个(25分)，综合题30分

1、数据仓库的组成？P2

数据仓库数据库，数据抽取工具，元数据，访问工具，数据集市，数据仓库管理，信息发布

系统

2、数据挖掘技术对聚类分析的要求有哪几个方面?P131

可伸缩性；处理不同类型属性的能力；发现任意形状聚类的能力；减小对先验知识和用户自

定义参数的依赖性；处理噪声数据的能力;可解释性和实用性

3、数据仓库在存储和管理方面的特点与关键技术?P7

(1)数据仓库面对的是大量数据的存储与管理(2)并行处理(3)针对决策支持查询的优化

(4)支持多维分析的查询模式

4、常见的聚类算法可以分为几类？P132

基于划分的聚类算法,基于层次的聚类算法,基于密度的聚类算法,基于网格的聚类算法，基

于模型的聚类算法等。

5、一个典型的数据仓库系统的组成？P12

数据源、数据存储与管理、0LAP服务器、前端工具与应用

6、数据仓库常见的存储优化方法？P71

表的归并与簇文件；反向规范化，引入冗余；表的物理分割。

7、数据仓库发展演变的5个阶段？P20

以报表为主以分析为主以预测模型为主以运行向导为主以实时数据仓库自动决策应用

为主

8、ID3算法主要存在的缺点？P116

(1)ID3算法在选择根结点和各内部结点中的分枝属性时，使用信息增益作为评价标准。

信息增益的缺点是倾向于选择取值较多的属性，在有些情况下这类属性可能不会提供太多有

价值的信息.

(2)ID3算法只能对描述属性为离散型属性的数据集构造决策树。

9、简述数据仓库ETL软件的主要功能和对产生数据的目标要求。P30

ETL软件的主要功能：数据的抽取,数据的转换，数据的加教

对产生数据的目标要求：详细的、历史的、规范化的、可理解的、即时的、质量可控制的

10、简述分类器设计阶段包含的3个过程。

划分数据集，分类器构造，分类器测试

11、什么是数据清洗?P33

数据清洗是一种使用模式识别和其他技术，在将原始数据转换和移到数据仓库之前来升级原

始数据

12、支持度和置信度的计算公式及数据计算(P90)

找出所有的规则X0Y,使支持度和置信度分别大于门限支持度：事务中X和Y同时发生

的比例,P(XflY)置信度：项集X发生时,Y同时发生的条件概率P(Y|X)

Example：

c(Xt{Milk,Diaper}=>Beer(0.4,0.67)

13、利用信息包图洲徽鬻矗概念模型需要确定的三方面内容。P57

确定指标，确定维度，确定类别

14、K一近邻分类方法的操作步骤（包括算法的输入和输出）。P128

输入：幅集工…未知类标号的数据样本X国,"小）.。

输出：未知类标号的数据样本x的类标号…

（1）对于未知类标号的软据样本X,按照下式计算它与训练集X…中每一个数

据样本的欧氏距露。

如向）=工和-xj，i=l,2,…,totals

（2）将第（1）步中的所有欧氏距霭按照由小到大的顺序进行防，并且取前k

个距露从而找出x在Xi中的k个近邻，假没p“p」,p,分别是k个近

邻中属于类别c“c「,c.的样本数量…

（3）如果A=maxR,i=l,2,…加则x的类标号为c“即xWc,・，

15、什么是技术元数套，主要包含的内容？P29

技术元数据是描述关于数据仓库技术细节的数据，应用于开发、管理和维护DW,包含:

DW结构的描述，如DW的模式、视图、维、层次结构和导出数据的定义，数据集市的位

置和内容等

业务系统、DW和数据集市的体系结构和模式

汇总算法。包括度量和维定义算法，数据粒度、主题领域、聚合、汇总和预定义的查询和

报告.

由操作型业务环境到数据仓库业务环境的映射。包括源数据和他们的内容、数据分割、数

据提取、清洗、转换规则和数据刷新规则及安全（用户授权和存取控制）

16、业务元数据主要包含的内容？P29

业务元数据:从业务角度描述了DW中的数据,提供了介于使用者和实际系统之间的语义

层主要包括：

雇用者的业务属于所表达的数据模型、对象名和属性名

访问数据的原则和数据的来源

提供的分析方法及公式和报表的信息.

17、K—means算法的基本操作步骤（包括算法的输入和输出）。P138

输入：数据集X={x.|n=l,2,…，total},其中的数据样本只包含描述属性，不

包含类别属性；聚类个数k.。

输出：使误差平方和准则最小的k个聚类.。

（1）从数据集X中随机地选择k个数据样本作为聚类的初始代表点，每一个代表

点表示一个类别.”

（2）对于X中的任一数据样本x.（iWmWtotal）,计算它与k个初始代表点的

距离，并且将它划分到距离最近的初始代表点所表示的类别中.，

（3）完成数据样本的划分之后，对于每一个聚美，计算其中所有数据样本的均值，

并且将其作为该聚类的新的代表点，由此得到k个均值代表点."

（4）对于X中的任一数据样本x.（iWmWtotal）,计算它与k个均值代表点的

距离，并且将它划分到距离最近的均值代表点所表示的类别中.。

（5）重复步骤（3）和（4）,直到各个聚类不再发生变化为止，即误差平方和准

则函数的值达到最优.。

18、数据从集结区加载到数据仓库中的主要方法？P36

SQL命令（如Insert或Update）

由DW供应商或第三方提供专门的加载工具

由DW管理员编写自定义程序

19、多维数据模型中的基本概念：维，维类别，维属性，粒度P37

维：人们观察数据的特定角度，是考虑问题的一类属性，如时间维或产品维

维类别：也称维分层。即同一维度还可以存在细节程度不同的各个类别属性（如时间维

包括年、季度、月等）

维属性：是维的一个取值，是数据线在某维中位置的描述。

粒度:DW中数据综合程度高低的一个衡量。粒度低，细节程度高，回答查询的种类多

20、Apriori算法的基本操作步骤P93

Apriori使用一种称作逐层搜索的迭代方法，K项集用于探索K+1项集。

该方法是基于候选的策略，降低候选数

Apriori剪枝原则：若任何项集是非频繁的，则其超集必然是非频繁的（不用产生和

测试超集）

该原则基于以下支持度的特性：

vx,y：（xcr）=>s（x）>s（y）

项集的支持度不会超过其子集

支持度的反单调特性（anti—monotone）：如果一个集合不能通过测试，则它

的所有超集也都不能通过相同的测试.

令k=l

产生长度为1的频繁项集

循环，直到无新的频繁项集产生

从长度为k的频繁项集产生长度为k+1的候选频繁项集

连接步：项集的各项排序，前k—1个项相同

若候选频繁子集包含长度为k的非频繁子集，则剪枝

剪枝步：利用支持度属性原则

扫描数据库，计算每个候选频繁集的支持度

删除非频繁项，保留频繁项

明考斯基距离：

那得号你规定的权是多少啊，(xl,….，xn)和(yl,….，yn)间权p的minkowski

距离就是[Ixl—yl|-p+o.o+|xn-ynI"p]'{1/p}意义么，得看你的空间是什么.一般这

个迤数是用在函数空间上的,比如L~p([0,1]),它与向量(这时是[0,1]区间上的1/p函

数)的模长是相容的。

笫1个样品与第，仝样品间的明考夫斯基距离定义为.

%卜)=亩%-%「

这里g为某一自然数，这是一个最常用最直观的更离。.

当g=l时，4(1)=£除-5|,称为绝时距离…

JU1

当g=2时，4式2)=恪”,称为欧氏距离…

当。=oo时，%(oo)=蹈称为切比雪夫电离；*

当各变量的单位不同或里里像相同但各变量的测量值相差很大时，不应直接

采用明考夫斯基距国，而应先对各变量的数据作标准化处理，然后用标准化后的

数据计算距言.最常用的标准化处理是，令-

¥=^^J=L2,,%/=1,2.…，p・

其中弓=金》为第J个变量的样本均值.S尸生X(%_方为第/:t变量的

样本方差。一

联机事务处理OLTP（on-linetransactionprocessing）

传统的关系DBMS的主要任务

他们涵盖了一个组织的大部分日常操作：购买、库存、制造、银行、工资、注

册、记账等.

联机分析处理OLAP（on-lineanalyticalprocessing）

数据仓库系统的主要任务

数据分析和决策

OLTP和OLAP的区别

用户和系统的面向性：OLTP面向顾客，而OLAP面向市场

数据内容：OLTP系统管理当前数据，而OLAP管理历史的数据.

数据库设计；OLTP系统采用实体-联系（ER）模型和面向应用的数据库设计，

而OLAP系统通常采用星形和雪花模型

视图：OLTP系统主要关注一个企业或部门内部的当前数据，而OLAP系统

主要关注汇总的统一的数据。

访问模式：OLTP访问主要有短的原子事务组成，而OLAP系统的访问大部分

是只读操作，尽管许多可能是复杂的查询

数据仓库和OLAP工具基于多维数据模型.这种模型将数据看作数据立方体形

式.数据立方体允许从多维对数据建模和观察.它由维和事实定义.

3最流行的数据仓库数据模型是多维模型，这种模型可以以星形模式、雪花型

模式或事实星座模式形式存在・

建立数据仓库模型：维与度量

星型模型：最常见的模型范例是星形模式，其中数据仓库包括（D一个大的

包含大批数据并且不含冗余的中心表（事实表）；（2）一组小的附属表（维表），

每维一个.中间是事实表，连接一组维表

雪花模式：雪花模式是星型模式的变种，其中某些维表是规范化的，而数据进

一步分解到附加的维表中，它的图形类似于雪花的形状

事实星座表：多个事实表共享维表，这种模式可以看作星型模式及，因此称为

星系模式或事实星座

数据立方体度量是一个数值函数，可以对数据立方体空间的每一个点求值.通

过对给定点的各维值对聚集数据，计算该点的度量值.

度量可以根据所用的聚集函数类型可以分成三类（即分布的、代数的和整体的）.

概念分层定义一个映射序列，将低层概念映射到更一般的较高层概念。

多维数据模型中的OLAP操作

(1)上卷：上卷操作通过沿一个维的概念分层向上攀升或者通过维规约，对数据

立方体进行聚集；

(2)下钻：下钻是上卷的逆操作，它由不太详细的数据到更详细的数据.下钻可

以通过沿维的概念分层向下或引入附加的维来实现：

(3)切片和切块；切片操作对给定立方体的一个维进行选择，导致一个子立方体.

切块操作通过对两个或多个维执行选择，定义子立方体；

(4)转轴(旋转)：转轴是一种可视化操作，它转动数据的视角，提供数据的普

代表示；

(5)其他OLAP操作：钻过执行涉及多个事实表的查询；钻透操作使用关系SQL

机制，钻透数据立方体的底层，到后段关系表。

三层数据仓库的系统结构

(1)底层是仓库数据服务器，它几乎总是关系数据库系统.

(2)中间层是OLAP服务器，其典型的实现或者是(i)关系OLAP(ROLAP)模

型,即扩充的关系DBMS,它将对多维数据的操作映射为标准的关系操作；或

者是(ii)多维OLAP(MOLAP膜型即专门的服务器，它直接实现多维数据

和操作.

(3)顶层是前段客户层,它包括查询和报表工具、分析工具和/或数据挖掘工具(例

如趋势分析、预测等).

从结构的角度看，有三种数据仓库模型：企业仓库、数据集市和虚拟仓库.

数据集市(DataMart),数据集市包含企业范围数据的一个子集，对于特定的

用户群是有用的.其范围限于选定的主题.

根据数据的来源不同，数据集市分为独立的和依赖的两类.

数据仓库后端工具和实用程序包含以下功能：数据提取；数据清理；数据变换;

装入；刷新.

数据立方体的物化有三种选择：(1)不物化：(2)完全物化：(3)部分物化.

有三种数据仓库应用：信息处理、分析处理和数据挖掘.

分类和预测

找出描述并区分数据类和概念的模型（或函数）以便能够使用模型预测类标记

未知的对象类.

例如：依据气候划分国家类型或者依据每里的耗油量划分汽车类型.

表示形式：判定树，分类规则，神经网络.

预测：预测某些未知的或空缺的数据值.

聚类分析

类标记未知：把数据聚类或分组成新的类，例如：把房子聚类来找出房子的分

布模式.

聚类依据以下原则：最大化类内的相似性和最小化类间的相似性.

FP-树结构的优点

完整性：不会破坏任何交易的长模式为频繁模式挖掘保存了完整的信息

简洁性减少了不相关的信息一非频繁项集被删掉

频繁项集技支持度递减顺序排列:越是频繁的项集越有可能被共享

不会比原数据库大（如果不算节点链和计数）

基本思想（分治策略）：

使用FP-树循环的产生频繁模式路径

方法对于每一个项.先构造它的条件模式基.然后构造它的条件FP-树

在每一个新创建的条件FP-树上重复此过程

直到结果FP树为空、或它只包含一条路径（单路径将产生所有的它的子路径的

结合.每一条子路径都是一个频繁模式）

挖掘FP-树的主要步骤

1）为FP-箱中的每一个节点构造条件模式基

2）为每一个条件模式基条件FP-树

3）循环的挖掘条件FP-树，生成至今为止获得的频繁模式

如果条件FP-树只包含单条路径，简单的列举所有的模式

一、名词解释

1.数据仓库：是一种新的数据处理体系结构，是面向主题的、集成的、不可

更新的（稳定性）、随时间不断变化（不同时间）的数据集合，为企业决策支

持系统提供所需的集成信息.

2.孤立点:指数据库中包含的一些与数据的一般行为或模型不一致的异常数

据.

3.OLAP：OLAP是在OLTP的基础上发展起来的，以数据仓库为基础的数

据分析处理，是共享多维信息的快速分析，是被专门设计用于支持复杂的

分析操作，侧重对分析人员和高层管理人员的决策支持.

4.粒度，指数据仓库的数据单位中保存数据细化或综合程度的级别.粒度影

响存放在数据仓库中的数据量的大小，同时影响数据仓库所能回答查询问

题的细节程度。

5.数据规范化：指将数据按比例缩放（如更换大单位），使之落入一个特定的

区域（如0—1）以提高数据挖掘效率的方法.规范化的常用方法有：量

大一最小规范化、零一均值规范化、小数定标规范化.

6.关联知识：是反映一个事件和其他事件之间依赖或相互关联的知识.如果

两项或多项属性之间存在关联，那么其中一项的属性值就可以依据其他属

性值进行预测.

7.数据挖掘：从大量的、不完全的、有噪声的、模糊的、随机的数据中，提

取隐含在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过

程.

8.OLTPsOLTP为联机事务处理的缩写，OLAP是联机分析处理的缩写.

前者是以数据库为基础的，面对的是操作人员和低层管理人员，对基本数

据进行查询和增、删、改等处理.

9.ROLAP：是基于关系数据库存储方式的，在这种结构中，多维数据被映

像成二维关系表，通常采用星型或雪花型架构，由一个事实表和多个维度

表构成.

10.MOLAP,是基于类似于“超立方”块的OLAP存储结构，由许多经压缩

的、类似于多维数组的对象构成，并带有高度压缩的索引及指针结构，通

过直接偏移计算进行存取。

11.数据归约：缩小数据的取值范围，使其更适合于数据挖掘算法的需要，并

且能够得到和原始数据相同的分析结果.

12.广义知识：通过对大量数据的归纳、概括和抽象，提燎出带有普遍性的、

概括性的描述统计的知识.

13.预潴型知识：是根据时间序列型数据，由历史的和当前的数据去推测未来

的数据，也可以认为是以时间为关键属性的关联知识.

14.偏差型知识：是对差异和极端特例的描述，用于揭示事物偏离常规的异常

现象，如标准类外的特例，数据聚类外的离群值等.

15.遗传算法：是一种优化搜索算法，它首先产生一个初始可行解群体，然后

对这个群体通过模拟生物进化的选择、交叉、变异等遗传操作遗传到下一

代群体，并最终达到全局最优.

16.聚类：是将物理或抽象对象的集合分组成为多个类或候(cluster)的过程，

使得在同一个靛中的对象之间具有较高的相似度，而不同簇中的对患差别

较大.

17.决策树：是用样本的属性作为结点，用属性的取值作为分支的树结构.它

是分类规则挖掘的典型方法，可用于对新样本进行分类.

18.相异度矩阵：是聚类分析中用于表示各对较之间相异度的一种短阵，n个

对象的相异度矩阵是一个nn维的单模矩阵，其对角线元素均为0,对角

线两侧元素的值相同。

19.频繁项集：指满足最小支持度的项集，是挖掘关联规则的基本条件之一.

20.支持度:规则、-B的支持度指的是所有事件中A与B同地发生的的概率,

即P(AUB),是AB同时发生的次数与事件总次数之比.支持度是对关联

规则重要性的衡量.

21.可信度:规则A-B的可信度指的是包含A项集的同时也包含B项集的条

件概率P(B|A),是AB同时发生的次数与A发生的所有次数之比.可信度

是对关联规则的准确度的衡量.

22.关联规则r同时满足最小支持度阙值和最小可信度假值的规则称之为关联

规则.

二、综合题

1.何谓数据挖掘？它有哪些方面的功能？

从大直的、不完全的、有噪声的、模糊的、随机的数据中，提取隐含

在其中的、人们事先不知道的、但又是潜在有用的信息和知识的过程称为

数据挖掘.相关的名称有知派发现、数据分析、数据融合、决策支持等.

数据挖掘的功能包括：概念描述、关联分析、分类与测、聚类分析、

趋势分析、孤立点分析以及偏差分析等。

2.何谓数据仓库？为什么要建立数据仓库？

数据仓库是一种新的数据处理体系结构，是面向主题的、集成的、不

可更新的（稳定性）、随时间不断变化（不同时间）的数据集合，为企业决策支

持系统提供所希的集成信息.

建立数据仓库的目的有3个：

一是为了解决企业决策分析中的系统响应问题，数据仓库能提供比传

统事务数据库更快的大规模决策分析的响应速度.

二是解决决策分析对数据的特殊需求问题。决策分析需要全面的、正

确的集成数据，这是传统事务数据库不能直接提供的.

三是解决决策分析对数据的特殊操作要求.决策分析是面向专业用户

而非一般业务员，需要使用专业的分析工具，对分析结果还要以商业智能

的方式进行表现，这是事务数据库不能提供的.

3.列举操作型数据与分析型数据的主要区别.

操作型数据分析型数据

固前的、细节的

历史的、综合的

面向应用、事务驱动面向分析、分析驱动

频繁增、删、改几乎不更新，定期追加

操作需求事先知道分析需求事先不知道

区命周期符合

SDLC完全不同的生命周期

,性能要求高

对性能要求宽松

卜次操作数据量小一次操作数据量大

支持日常事务操作支持管理决策需求

4.何谓OLTP和OLAP?它们的主要异同有哪些？

OLTP即联机事务处理，是以传统数据库为基础、面向操作人员和低层

管理人员、对基本数据进行查询和增、删、改等的日常事务处理.OLAP

即联机分析处理，是在OLTP基础上发展起来的、以数据仓库基础上的、

面向高层管理人员和专业分析人员、为企业决策支持服务。

OLTP和OLAP的主要区别如下表:

OLTPOLAP

数据库数据数据库哪雎库数据

细节性数据综合性数据

当前数据历史数据

经常更新不更新，但周期性刷新

一次性处理的数据量小一次处理的数据量大

对响应时间要求高响应时间合理

用户数量大用户数据相对较少

面向操作人员，支持日常操作面向决策人员，支持管理需要

面向应用，事务驱动面向分析，分析驱动

5.何谓粒度？它对数据仓库有什么影响？按粒度组织数据的方式有哪些？

粒度是指数据仓库的数据单位中保存数据细化或综合程度的级别。粒

度影响存放在数据仓库中的数据量的大小，同时影响数据仓库所能回答查

询问题的细节程度.按粒度组织数据的方式主要有：

①简单堆积结构

②轮转综合结构

③筒单直接结构

④连续结构

6.简述数据仓库设计的三级模型及其基本内容.

概念模型设计是在较高的抽薮层次上的设计，其主要内容包括：界定

系统边界和确定主要的主题域.

逻辑模型设计的主要内容包括：分析主题域、确定粒度层次划分、确

定数据分割策略、定义关系模式、定义记录系统.

物理数据模型设计的主要内容包括：确定数据存储结构、确定数据存

放位置、确定存储分配以及确定索引策略等.在物理数据模型设计时主要

考虑的因素有：I/O存取时间、空间利用率和维护代价等.

提高性能的主要措施有划分粒度、数据分割、合并表、建立数据序列、

引入冗余、生成导出数据、建立广义索引等.

7.在数据挖掘之前为什么要对原始数据进行预处理？

原始业务数据来自多个数据库或数据仓库，它们的结构和规则可能是

不同的，这将导致原始数据非常的杂乱、不可用，即使在同一个数据库中,

也可能存在重复的和不完整的数据信息，为了使这些数据能够符合数据挖

掘的要求，提高效率和得到清晰的结果，必须进行数据的预处理.

为数据挖掘算法提供完整、干净、准确、有针对性的数据，减少算法

的计算量，提高挖掘效率和准确程度.

8.筒述数据预处理方法和内容。

①数据清洗：包括填充空缺值，识别孤立点，去掉噪声和无关数据.

②数据集成：将多个数据源中的数据结合起来存放在一个一致的数据存储

中.需要注意不同数据源的数据匹配问题、数值冲突问题和冗余问题等.

③数据变换：将原始数据转换成为适合数据挖掘的形式.包括对数据的汇

总、聚集、概化、规范化，还可能需要进行属性的重构。

④数据归约：缩小数据的取值范围，使其更适合于数据挖掘算法的需要，

并且能够得到和原始数据相同的分析结果.

9.简述数据清理的基本内容.

①尽可能赋予属性名和属性值明确的含义；

②统一多数据源的属性值编码；

③去除无用的惟一属性或键值（如自动增长的id）：

④去除重复属性（在某些分析中，年龄和出生日期可能就是重复的属性，

但在某些时候它们可能又是同时需要的）

⑤去除可忽略字段（大部分为空值的属性一般是没有什么价值的，如果不

去除可能造成错误的数据挖掘结果）

®合理选择关联字段（对于多个关联性较强的属性，重复无益，只需选择

其中的部分用于数据挖掘即可，如价格、数据、金额）

⑦去掉数据中的噪音、填充空值、丢失值和处理不一致数据.

10.陆述处理空缺值的方法.

①忽略该记录：

②去掉属性；

⑧手工填写空缺值；

④使用默认值：

⑤使用属性平均值；

⑥使用同类样本平均值；

⑦预测量可能的值.

II.常见的分箱方法有哪些？数据平滑处理的方法有隰些？

分箱的方法主要有：

①统一权重法（又称等深分箱法）

②统一区间法（又称等宽分箱法）

⑧最小篇法

④自定义区间法

数据平滑的方法主要有：平均值法、边界值法和中值法.

12.何谓数据规范化？规范化的方法有嵋些？写出对应的变换公式.

将数据按比例缩放（如更换大单位）,使之落入一个特定的区域（如0.0〜

1.0）,称为规范化.规瓶化的常用方法有：

（1）最大一最小规范化，max-min.

x--................—（^-

（2）零一均值规范化3

(3)小数定标规范化；x=xo/10,

13.数据归约的方法有哪些？为什么要进行雉归的？

①数据立方体聚集

②维归约

③数据压缩

④数值压缩

⑤离散化和概念分层

维归约可以去掉不重要的属性，减少数据立方体的维数，从而减少数

据挖掘处理的数据量，提高挖掘效率.

14.何谓聚类？它与分类有什么异同？

聚类是将物理或抽盆对能的集合分组成为多个类或候(cluster)的过

程，使得在同一个展中的对象之间具有较高的相似度，而不同麟中的对象

差别较大.

聚类与分类不同，聚类要划分的类是未知的，分类则可按已知规则进

行；聚类是一种无指导学习，它不依赖预先定义的类和带类标号的训练实

例，属于观察式学习，分类则属于有指导的学习，是示例式学习.

15.举例说明聚类分析的典型应用.

①商业：帮助市场分析人员从客户基本库中发现不同的客户群，并且用不

同的购买模式描述不同客户群的特征。

②生物学：推导植物或动物的分类，对基于进行分类，获得对种群中固有

结构的认识。

③WE5文档分类

④其他：如地球观测数据库中相似地区的确定；各类保险投保人的分组I

一个城市中不同类型、价值、地理位置房子的分组等.

⑤聚类分析还可作为其他数据挖掘算法的预处理：即先进行聚类，然后再

进行分类等其他的数据挖掘.聚类分析是一种数据简化技术，它把基于

相似数据特征的变量或个案组合在一起.

16.聚类分析中常见的数据类型有哪些？何谓相异度矩阵？它有什么特点？

常见数据类型有区间标度变量、比例标度型变量、二元变量、标称型、

序数型以及混合类型等.相异度矩阵是用于存储所有对象两两之间相异度

的矩阵，为一个nn维的单模矩阵。其特点是d(ij)=d(j,i),d(i,i)=O,d(j1)=O.

如下所示：

(K2,1)0

d(3,1)d(3,2)0

•♦••

•・・・

♦・・・

d(nj)d(n,2)…...0

17.分类知识的发现方法主要有哪些？分类过程通常包括哪两个步骤？

分类规则的挖掘方法通常有：决策树法、贝叶斯法、人工神经网络法、

粗糙集法和遗传算法.分类的过程包括2步：首先在已知训练数据集上，

根据属性特征，为每一种类别找到一个合理的描述或模型，即分类规则；

然后根据规则对新

人人文库> 全部分类> 教育资料 > 辅导培训

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

数据仓库与数据挖掘期末综合复习

文档简介

温馨提示

最新文档

评论

数据仓库与数据挖掘期末综合复习

文档简介

温馨提示

最新文档

评论

相关文档