数据仓库与数据挖掘必考点_第1页
数据仓库与数据挖掘必考点_第2页
数据仓库与数据挖掘必考点_第3页
数据仓库与数据挖掘必考点_第4页
数据仓库与数据挖掘必考点_第5页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章1、 数据仓库:是一个面向主题的、集成的、相对稳定的、反映历史变化的数据集合。组成:数据仓库数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统;2、元数据:技术元数据业务元数据。3、 数据处理:联机事务处理(OLTP) 联机分析处理。(OLAP)4、 多维分析采取:切片、切块、钻取和旋转等各种分析动作。5、 ROLAP:关系数据库MOLAP:多维数据结构组织 的OLAP实现。HOLAP:混合数据组织 6、数据仓库开发过程:数据抽取、数据存储与管理、数据表现;7、数据仓库系统的体系结构根据应用需求的不同:两层架构,独立型数据集市,依赖型数据集市和操作型数据存储,逻辑型数据集市和实时数据仓库8、操作型数据存储:是一个集成的、面向主题的、可更新的、当前值的、企业级的、详细的数据库,也叫运营数据存储。9、“实时数据仓库”:接近实时的速度交换数据和业务规则。10、一个典型的数据仓库系统的组成?P12数据源、数据存储与管理、OLAP服务器、前端工具与应用第二章1、调和数据:是存储在企业级数据仓库和操作型数据存储中的数据。2、抽取、转换、加载(ETL)目的:是为决策支持应用提供一个单一的、权威数据源。因此,我们要求ETL过程产生的数据(即调和数据层)是详细的、历史的、规范的、可理解的、即时的和质量可控制的。3、 数据抽取:从源文件和源数据库中获取相关数据用于填充数据仓库;两个常见类型静态抽取用于:最初填充数据仓库;增量抽取用于:数据仓库的维护;4、 数据清洗:使用模式识别和其他技术将原始数据转换和移到数据仓库之前升级数据质量的技术;5、数据转换:把数据从源操作业务系统的格式转换到企业数据仓库的数据格式;6、粒度越小,细节程度越高,综合程度越低,回答查询的种类越多。7、多维数据建模:以维度为中心、多个角度分析有关数据的建模。存在形式:星型、雪花型、事实星座模式8、星型模式可以从一定程度上提高查询效率。因为星型模式中数据的组织已经经过预处理,主要数据都在庞大的事实表中。9、维度表一般由主键、分类层次和描述属性组成。对于主键可以选择两种方式:一种是采用自然键,另一种是采用代理键。10、雪花型模式是对星型模式维表的进一步层次化和规范化来消除冗余的数据。11、数据仓库中存在不同综合级别的数据。一般把数据分成4个级别:早期细节级、当前细节级、轻度综合级和高度综合级。12、简述数据仓库ETL软件的主要功能和对产生数据的目标要求。P30ETL软件的主要功能:数据的抽取,数据的转换,数据的加载对产生数据的目标要求:详细的、历史的、规范化的、可理解的、即时的、质量可控制的13、多维数据模型中的基本概念:维,维类别,维属性,度量,粒度,分割P37l 维:人们观察数据的特定角度,是考虑问题的一类属性,如时间维或产品维l 维类别:也称维分层。即同一维度还可以存在细节程度不同的各个类别属性(如时间维包括年、季度、月等)l 维属性:是维的一个取值,是数据线在某维中位置的描述。l 粒度:DW中数据综合程度高低的一个衡量。粒度低,细节程度高,回答查询的种类多 第四章 P931、 关联规则的经典算法包括Apriori算法和FP-growth算法,其中FP-growth算法的效率更高。第五章1、 分类:把数据样本映射到一个事先定义的类中的学习过程;过程:包括获取数据、预处理、分类器设计和分类决策。评价准则: 精确度 查全率查准率F-measure几何均值2、 分类器设计阶段包含三个过程:划分数据集、分类器构造、分类器测试。3、 支持向量机:统计学习算法4、 最优超平面:分类超平面不但能将两类数据无错误地分开,而且要使两类数据样本的分类间隔最大;5、 ID3算法主要存在的缺点?P116(1)ID3算法在选择根结点和各内部结点中的分枝属性时,使用信息增益作为评价标准。信息增益的缺点是倾向于选择取值较多的属性,在有些情况下这类属性可能不会提供太多有价值的信息。(2)ID3算法只能对描述属性为离散型属性的数据集构造决策树。6、 近邻分类方法有几种?:最近邻分类方法、k-近邻分类方法7、 支持向量机中常用的核函数:多项式核函数、径向基核函数和S型核函数。P126第六章1、 聚类分析包括:连续型、二值离散型、多值离散型、混合类型。2、 连续型属性的数据样本之间的距离有欧氏距离:曼哈顿距离:明考斯基距离:3、K-means算法的基本操作步骤(包括算法的输入和输出)。P1384、 划分聚类方法对数据集进行聚类时包含三要点:a、 选种某种距离作为数据样本间的相似性度量;b、 选择评价聚类性能的准则函数c、 选择某个初始分类,之后用迭代的方法得到聚类结果,使得评价聚类的准则函数取得最优值。5、 层次聚类方法:包括 (底-上) 凝聚型 层次聚类 (顶-下) 分解型6、数据挖掘技术对聚类分析的要求有哪几个方面?P131可伸缩性;处理不同类型属性的能力;发现任意形状聚类的能力;减小对先验知识和用户自定义参数的依赖性;处理噪声数据的能力;可解释性和实用性7、 常见的聚类算法可以分为几类?P132基于划分的聚类算法基于层次的聚类算法基于密度的聚类算法基于网格的聚类算法基于模型的聚类算法第8章1. 粗糙集:粗糙集理论是一种新型处理不完整性和不确定性问题的数学工具,它能对不完整资料(数据)进行分析,推理,学习和发现,具有很强的知识获取能力。第9章x1x2xnFy1、其中x1,x2,xn是输入y是输出为内部状态的反馈信息和为阈值,F是表示神经元活动的特性函数。特征函数又包括分段线性特性函数、阈值特性函数、S型逻辑特性函数第10章1、 遗传算法步骤:SGA的基本流程如下:(1)初始化,产生初始种群。(2)个体评价,即计算种群中每个个体的适应度。(3)按选择概率Ps,执行选择算子,从当前种群中选择部分个体进入下一代种群。(4)按交叉概率Pc,执行交叉算子。(5)按变异概率Pm,执行变异算子。(6)若满足设定的终止条件,则输出种群中适应度最优的个体作为问题的最优解或满2、遗传算法设计到的参数:(1)确定编码方式,以便对问题的解进行编码,即用个体表示问题的可能解。(2)确定种群大小规模。(3)确定适应度函数,决定个体适应度的评估标准。(4)确定选择的方法及选择率。(5)确定交叉的方法及交叉率。(6)确定变异的方法及变异

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论