浙江工商大学数据仓库与数据挖掘以及试卷真题回忆

上传人：彩*** IP属地：上海上传时间：2023-09-25 格式：DOCX 页数：5 大小：86.92KB 积分：20 举报 版权申诉

全文预览已结束

 下载本文档

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

1、数据仓库的定义：数据仓库就是面对主题的、集成的、不行更的〔稳定性、随时间不断变化〔不同时间〕的数据集合，用以支持经营治理中的决策制定过程。数据仓库特征：数据仓库是将原始的操作数据进展各种处理并转换成综合信息，供给功能强大的分析工具对这些信息进展多方位的分析以帮助企业领导做出更符合业务进展规律的决策。2、数据仓库与数据库的一样点与不同点：3、数据仓库的重要特性：面对主题性、集成性、时变性、非易失性、集合性和支持决策作用。4、数据挖掘的定义：从技术角度看，数据挖掘就是从大量的、不完全的、有噪声的、模糊的、随机的实际应用数据中，提取隐含在其中的、人们事先不知道的，但又是潜在有用的信息和学问的过程。5、数据挖掘与数据仓库的关系：数据挖掘是数据仓库进展的必定结果：数据挖掘可以看作是联机分析处理的高级阶段。数据仓库为数据挖掘供给应用根底总之，数据仓库为数据挖掘供给了更宽阔的活动空间。数据仓库完成数据的收集、集成、存储和治理工作，数据挖掘面对的是经初步加工的数据，使得数据挖掘更能专注于学问的觉察。6、数据仓库的体系构造：数据仓库系统是由数据源、数据仓库的数据存储、数据仓库的应用工具和可视化用户界面组成。7、主题数据是数据仓库的核心数据，一般以多维数据模型的形式存储在数据仓库中。8、在数据仓库中涉及数据存储包括以下几种：数据源、主题数据、数据预备区和查询效劳数据。9、数据集市定义：数据集市一般是为满足某个业务部门进展分析决策的需求而建立的，我们可以将数据集市理解,则这个数据集市为独立数据集市。10、元数据的定义：元数据就是关于数据的数据。元数据是任何信息处理环境的一个重要组成局部。元数据描述了数据仓库的数据和环境，并使得用户能够更便利地使用数据仓库中的数据进展各种分析，关心决策。11、元数据的主要两种作用：元数据进展数据仓库的治理和通过元数据来使用数据仓库。用于对元数据进展治理的元数据称为治理元数据，而帮助我们使用数据仓库的元数据又称作用户元数据。12、元数据的分类：依据元数据的内容我们将其分为四类：数据源元数据、预处理数据源元数据、数据仓库主题数据元数据、查询效劳元数据。13、数据仓库的数据模型：概念模型：多维数据模型是一种能够清楚地表达分析领域的数据模型。实体关系模型留意的是数据的构造，而多维数据模型留意的是数据的含义。数据仓库的概念模型一般承受多维数据模型来建模。在多维数据模型中，包含两种建模要素：观看事物的角度和观看得到的事实数据，前者被称作维度，后者被称作事实。一个分析领域或主题表达为由多个维度和一组事实数据构成的一个星型模型。一个数据仓库通常包含多个主题，其概念模型也就由多个星型模型组成。14、数据仓库中的粒度是指数据仓库的数据单位中保存数据的细化或综合程度的级别。越是具体的数据，粒度级别就越小；越是概括的的数据，粒度级别就越大。推断：粒度问题是设计数据仓库的一个格外重要的方面，它既是一个规律设计的问题，也是一个物理设计的问题。15、数据分割是把大的数据集划分成多个较小的数据集，并分散到多个物理单元中进展存储，使它们能独立的被处理。粒度的划分和数据的分割对数据仓库的设计和实现有重大的影响。16、确定粒度大小的一般原则：假设数据仓库的空间很有限的话，为了节约存储空间，宜承受大粒度集表示数据。假设追求数据仓库能够答复的问题类型的力量，要求能够答复格外具体的问题，那么使用较小的粒度级别。假设想要减轻效劳器的负担，提高查询性能，则承受较大的数据集粒度。假设没有存储空间的限制，则可以在一个数据仓库中承受多重粒度级别，既存储多粒度级别的数据，也存储高粒度级别的数据，以同时获得高的查询效率和查询力量。17、数据仓库的建设应当以建立部门级的数据集市为动身点，同时统观全局，使建立的数据集市成为整个企业数据仓库的规律子集。从而由多个数据集市集成企业级的数据仓库。为了实施这种数据仓库建设的思想，提出了一种总数据仓库的总线型构造。这种数据仓库构造的核心思想是使用统一的维和统一的事实来构造数据仓库的总线。18、统一的维是指该维可以在数据集市中共享，且不管它与哪个事实表相连接，维的含义都是完全一样的。19、统一的事实是指一个事实数据，比方销售额，假设在多个数据集市中消灭，则该事实数据必需是全都的。20、在数据仓库治理中，最关键的是对数据的治理。21、休眠数据的治理数据仓库治理的第一块根本内容。、数据仓库治理的三个根本内容〔〕2〕3〕数据清理。23、休眠数据是那些存在与数据仓库中、当前并不使用的、将来也很少使用或者根本就不会使用的数据。休眠数据会以多种方式进入数据仓库，我们在识别和处理它们之前需要理解它们的进入方式。造成这些休眠数据在数据仓库中存在的缘由至少有四种：由于概括表格的创立由于错误估量实际上所需要的历史数据的年限由于随着时间的推移，需求的现实性渐渐明显由于坚持让具体数据驻留在数据仓库中24、休眠数据的处理：查找休眠数据、删除休眠数据、选择删除的数据、确定访问可能性。我们认为数据仓库中包25%50%的休眠数据时，数据仓库的构造或许比较适当。25、(必考填空)数据治理中最重要的一步是协调分布在多种数据仓库中的元数据，而建立企业级的中心学问库则是实现元数据治理的根本途径和关键。26、脏数据进入的四种方式：数据源系统中的脏数据进入数据仓库不适宜的集成造成脏数据进入数据仓库数据仓库中以前输入的数据过期用户需求的转变或添加了对数据质量有不同要求的用户27、OLAP：联机分析处理OLTP：联机事务处理OLAM：联机分析挖掘FASMI共享多维信息的快速分析28OLAP应当具有的准则：根本特性、特别特性、报表特性、维掌握特性29、OLAP的根本概念：度量值：度量值是人们观看事物的焦点维：维是人们观看事物的角度多维数据集的度量值及其关联的维的维成员构成一个多维数据集，当维数为3时，多维数据集表现为一个数据立方体。多维数据集能支持各种各样的查询，是OLAP的核心。每一个多维数据集都可以用一个多维数组表示。30、虚拟维度是基于物理维度内容的规律维度。31、OLAP的根本操作主要包括对多维数据进展切片、切块、旋转、钻取等分析操作。据的一种分析方式。切片就是在各个维上取肯定区间的成员属性或全部成员属性来观看数据的一种分析方式。32、钻取包含下钻和上钻/上卷操作。下钻是从概括性的数据动身获得相应的更具体的数据，上钻则相反。旋转即转变一个报告或页面显示的维方向。33〔解答必考〕OLTP称作联机事务处理，OLAPOLTP之后进展起来进展起来的一种技术。他们的区分如下：OLAP和OLTP产生的背景和目的不同。前者的目的是通过对现有数据进展分析处理，获得信息，支持决策；而后者的目的则是则是加速对业务数据的处理，支持企业的业务运作。使用的数据模型不同使用的综合程度不同OLAP中的数据不行更改，但需周期性的刷；而OLTP中的数据可以更改OLTPSQLOLAP则进展切片、切块、旋转、钻取等分析性处理。34OLAP时，有两种实施方案可供选择：多维联机分析处理，直接承受多维数据库进展联机分析处理；关系联机分析处理，承受关系数据库来存放多维数据进展联机分析处理35、MOLAPROLAP的特征查询功能：MOLAP在查询性能和相应速度上要优于ROLAP空间占用：假设全部维成员组合都存在相应度量值，MOLAP比较节约空间，反之，当大量维成员组合不存在MOLAP会造成空间大量铺张。分析查询力量：MOLAPROLAP假设建立功能简单、规模较大的企业级数据仓库，则一般选择ROLAP方式；而假设是建立功能单一，小型的数据集市则宜承受MOLAP方式。MOLAPTB级(只能10~20G)需要进展估量算，可能导致数据爆炸无法支持维的动态变化缺乏数据模型和数据访问的标准ROLAP缺点一般响应速度较慢不支持有关估量算的读写操作SQL无法完成局部计算无法完成多行的计算无法完成维之间的计算36、星型模式：一般地，我们用一张事实表和多张维表表示星型模式。事实表在模式图中处于中心位置，存放的是业务数据，具有可加性。维表的信息用做对事实表进展查询时的约束条件。37、星座模式：一系列同质而不同综合程度的事实表共享一系列维度表38、雪花模式：维度层次较多，使用多个维度表来描述一个维，形成二级维表构造，可以大大削减数据冗余，节约存储空间39、KDD是基于数据库的学问觉察，指的是从大型数据库中或数据仓库中提取人们感兴趣的学问，这些学问是隐含的，事先未知的，易被理解的模式。KDD过程可分为三局部：数据预备、数据挖掘及结果的解释和评估40、数据挖掘的任务：关联分析、时序模式、聚类、分类、偏差检测及推测关联分析：用来觉察关联规章，这星系模式：多个不同的事实表共享多个维度表，且维度表不完全一样时序模式：时间序列模式是用变量过去的值来推测将来的值聚类：把整个数据库分成不同的群组分类：数据挖掘应用最多的任务要属分组，分类找出描述并区分数据类或概念的模型，以便能够使用模型推测类标记未知的对象类偏差检测：在数据分析中觉察很多特别状况存在于数据库中，我们可以依据这些特别状况获得很多信息。推测：推测可以利用历史数据或数据分布依据肯定的模型计算出数值数据或识别出将来分布的趋势。41、数据挖掘与专家系统的区分〔必考〕数据挖掘和专家系统的共同点是它们都是利用已有的信息来帮助人们解决问题。不同的是，数据挖掘是利专家系统是“唯专家42〔填空〕数据挖掘用各种方法获得学问的表现形式主要有五种：规章、决策树、学问基〔浓缩数据、网络权值和公式。数据挖掘的信息论方法所获的学问一般表示为决策树。43〔填空〕遗传算子主要有：生殖算子〔复制、选择算子、穿插算子〔重组、配对算子。遗传算法是一种基于自然选择原理和自然遗传的搜寻算法。44、关联规章的形式如下：X→Y[a,b]，其中X、Y为不相交的交易工程集，其含义关系为在交易中X的发生将会导Y的发生，X和Y之间存在一种关联关系，a为关联规章的支持度，b为关联规章的信任度。大题真题：1、雪花模式，星系模式，星型模式等2、一元线性回归3、关联规章大题解答题：聚类算法步骤、OLTPOLAP区分，数据库与数据仓库区分时间维度时间码〔PK〕日期月份季度产品维度产品码〔PK〕产品名称产品小类产品大类

销售事实表时间码〔PK〕日期月份季度星型模式

地区维表地区码〔PK〕城市地区时间维度时间码〔PK〕日期月份季度产品维度产品码〔PK〕产品名称产品小类产品大类

销售事实表时间码〔PK〕产品码〔PK〕产品码〔FK〕销售量销售额星座模式

地区维表地区码〔PK〕城市地区供给商维表供给商维表供给商名称选购事实表时间码〔PK〕产品码〔FK〕选购量选购额时间维度时间码〔PK〕日期月份季度产品维度产品码〔PK〕产品名称产品小类产品大类销售事实表时间码〔PK〕日期月份季度地区维表地区码〔PK〕城市地区国家星系模式季度维度季度维度季码〔PK〕季度年度维度年码〔PK〕年度时间维度时间码〔PK〕季码年码小类维度小类码〔PK〕产品小类产品维表〔PK〕小类码大类码销售事实表时间码〔PK〕产品码〔PK〕产品码〔FK〕销售量销售额城市维度城市码〔PK〕城市名地区维

人人文库> 全部分类> 教育资料 > 课件下载

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

浙江工商大学数据仓库与数据挖掘以及试卷真题回忆

文档简介

温馨提示

最新文档

评论

浙江工商大学数据仓库与数据挖掘以及试卷真题回忆

文档简介

温馨提示

最新文档

评论

相关文档