




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第一章
1、数据挖掘的概念。P3
数据挖掘是从大量数据中提取或者“挖掘”知识。
数据挖掘是个过程,目的是知识发现。
数据挖掘的过程:
1数据预处理:。1数据清理(消除重复的、不彻底的、违反语义约束的数据),0
数据集成(多种数据源可以组合在一起),。3数据选择(从数据库中检索与
分析任务相关的数据),©数据变换(数据变换或者统一成适合挖掘的形式,如
通过汇总或者会萃操作)。
2数据挖掘(使用智能方法提取数据模式)
3模式评估(根据某种兴趣度度量,识别表示知识的真正有趣的模式)
4知识表示(使用可视化和知识表示技术,向用户提供挖掘的知识)
2、数据挖掘有哪些模式。P3
数据挖掘的模式:1分类模式,2回归模式,3时间序列模式,4聚类模式,5关联规
则模式,6序列模式。
3、什么是故意义的模式。
1)它易于理解。2)在某种必然程度上,对于新的或者检验数据是有效的。3)
是潜在实用的。4)是新颖的。如果一个模式符合用户确信的某种假设,它也是
有趣的。有趣的模式就是知识。
4、数据挖掘中能否挖掘出所有模式。
数据挖掘可能产生数以千计的模式或者规则,但并非所有的模式或者规则都
是令人感兴趣的。
第二个问题——数“据挖掘系统能够产生所有有趣的模式吗?”一涉及数据挖掘算
法的彻底性。第三个问题——数”据挖掘系统能够仅产生有趣的模式吗''一是数据
挖掘的优化问题。
5、数据挖掘的步骤(4),以及每一步骤的作用。P4
数据仓库
数据摩:展开文件
图1-4数据挖掘视为知识发现过程的一个步骤
6、数据挖掘与知识发现有什么关系。
有趣的数据挖掘模式代表知识。如果一个模式符合用户确信的某种假设,
它也是有趣的。有趣的模式就是知识。
7、数据挖掘的对象(11)。P6-13
1)数据存储库包括:关系数据库、数据仓库、事务数据库、高级数据库系统、
普通文件、数据流和万维网。
2)高级数据库系统包括对象一关系数据库和面向特殊应用的数据库,如空间
数据库、时间序列数据库、文本数据库和多媒体数据库。
2
8、数据挖掘的功能(6)。P14-18
功能:1概念/类描述:特征化和区分;2挖掘频繁模式,关联和相关;3分类和
预测;4聚类分析;
9、数据挖掘5个相关学科、技术。P19图
数据挖掘是交叉学科,受多个学科影响。包括数据库系统,统计学,机器学习,
可视化和信息科学还有其他科学。
第二章
1、数据挖掘的第一阶段是数据预处理。
数据清理是用于去掉数据中的噪声数据,纠正不一致。
2、数据预处理的分类、每一个分类的作用、有什么技术。P31
1数据清理(可以去掉数据中的噪声,纠正不一致):试图填充缺失的值,光
滑噪声并识别离群点,并纠正数据的不一致。主要技术:1缺失值;1忽略元
组2人工填写缺失值3使用全局常量填充缺失值4使用属性的均值填充缺失值
5使用与给定元组属同一类的所有样本的属性均值6使用最可能得值填充缺失
值(使用推理进行预测);2光滑技术:1分箱,2回归,3聚类
2数据集成(将多个数据源合并成一致的数据存储,构成一个完整的数据集,
如数据仓库或者数据立方体);
3数据变换(将一种格式的数据转换为另一格式的数据(如规范化)或者统一成
合适于挖掘的形式。;
主要技术:
。1光滑(去掉数据中的噪声,如分箱技术,回归,聚类);
。会萃(对数据进行汇总或者会萃);数据泛化(分层,用高层概念代替低层);
。3规范化(1最大最小规范化
vmin...
v.Rew,哽)newA_min;
AA
3
[new_min,new_max]是映射后的区域,[min,max]是变换前数据的最大
AAAA
最小值。V是转换后的数据。2z-scor规e范化VAX一分别是原始
AA
A
数据的平均值,和标准差);3小数定标规范化、v/
10i
©属性构造;
4数据归约(可以通过会萃、删除冗余特性或者聚类等方法来压缩数据):
数据归约是保持原来数据的完整性,将数据集变小,并不影响对结果的分析。
归约的策略:1数据立方体会萃2属性子集的选择3维度归约4数值归约5离散
化和概念分层产生。
3、数据清理所需要的方法(6)。P39
数据清理可以分为有监督和无监督两类。
主要技术:1缺失值;1忽略元组2人工填写缺失值3使用全局常量填充缺失值
4使用属性的均值填充缺失值5使用与给定元组属同一类的所有样本的属性均
值6使用最可能得值填充缺失值(使用推理进行预测);2光滑技术:1分箱,
2回归,3聚类
4、什么是噪声数据。如何处理(3)。P40噪
声是被测量的变量的随机误差或者方差。
处理:(19箱。(2)聚类。(3)计算机和人工检查结合.(4)回归
5、数据集成的概念。用来干什么。方法有哪些。P43
数据集成是将多个数据源合并成一致的数据存储,构成一个完整的数据集,
如数据仓库或者数据立方体
它需要统一原始数据中的所有矛盾之处,如字段的:同名异义、异名同义、
单位不统一
字长不一致,从而把原始数据在最低层上加以转换,提炼和集成。
4
1模式集成,2冗余问题,3数据值冲突的检测与处理
6、有哪些冗余(2),解决方法。P43-44
属性冗余:常用的解决方法是相关分析检测;卡方检验(分类或者离散数据);
元组冗余
7、数据变换内容和含义(5)。P45
数据变换将数据转换成适合于挖掘的形式。主要是找到数据的特征表示,
对数据进行规格化处理。用维变换或者转换方式减少有效变量的数目或者找
到数据的不变式
8、规范化有哪些方法。至少掌握2种计算方法。P45-46
。1最大最小规范化
vmin
-N(new-maxpew_理in)ne叱min;
maxmirr
AA
[new_min,new_max]是映射后的区域,[min,max]是变换前数据的最大
AAAA
最小值。V是转换后的数据。
0z-score规范化V'一,分别是原始数据的平均值,和标准差);
AA
A
。3小数定标规范化、vV
1Q
9、数据规约策略(47)。P47
归约的策略:1数据立方体会萃2属性子集的选择3维度归约4数值归约5离散
化和概念分层产生。
10、属性子集选择的基本启示式方法包括什么技术(4)。P48-49
5
1逐步向前选择2逐步向后删除3向前选择和向后删除的结合4决策树归纳
第三章
1、数据仓库的概念、目的、特点。P67
数据仓库是一个面向主题的(环绕主题组织数据),集成的(由多个异构数据源
集成),时变的和非易失的数据集合,支持管理部门的决策过程。
2、数据仓库的逻辑模式。P72
星形,雪花和事实星座模式
3、星型模式的事实表包括(2)。P73
事实表:包含度量值和关联维度表的码。
星形事实模型:包括维表和事实表。维表记录的是基本信息,事实表记录业务过
程。
所以星形事实模型中,普通在维表上建立主键,在事实表上建立外键。事实表包
括了外键和业务过程的数据。事实表包含联系事实与维度表的数字度量值和键。
事实数据表包含描述业务内特定事件的数据。
4、数据仓库的物理结构(3:MRH-SQLServer是H*)。P86
5、OLAP操作(5)。P79
1上卷:就是将高维的数据压缩到低维,是个数据的累加过程。Eg:从街道
上卷到城市。就是把同一城市的所有街道的数据累加起来。(维度高低是属性
的个数,维度高属性个数多)。通过一个维德概念分层向上攀升,或者通过维
归纳,对数据立方体进行会萃。
2下钻:是把数据的维度进一步分解,跟上卷相反。Eg:从城市分解到街道。
上卷操作的逆操作。从高层概括到底层概括,从不详细到更加详细。
3切片和切块:就是固定某一维数据,再观察其它维度的数据。Eg:固定时
6
间维,观察不同地点的销售数量。
4投影和选择。
转轴:可视化操作,从不同角度观察数据。
6、数据仓库的实现(3)。P88
高效的立方体计算技术,存取方法和查询处理技术;
7、数据立方体的有效计算(2)。P88
olcomputecube操作与维灾难
Computecube操作对操作指定维的所有子集计算会萃。(立方体计算的方体或
者分组总数为2的N次方。如3维(3个属性)数据的立方体,分组总数:20=8)。
0部份物化:方体的选择计算。(数据立方体的物化:不物化、彻底物化、部
分物化。)
8、维灾难概念。P89
彻底物化指定义数据立方体的格中所有的方体的计算。通常需要过多的存储
空间,特殊是当维数和相关联的概念分层增长时,该问题称为维灾难。
9、N维有多少个顶点。
2的N次方。2N
10、数据仓库的查询(取)方法(3)。P90
1位图索引2连接索引3位图连接索引。
11、OLAP查询的有效处理步骤(2)。P92
1确定哪些操作应当在可利用的方体上执行
2确定相关操作应当使用哪些物化的方法。
7
第四章
1、冰山立方体的概念。(多路数据会萃不能计算冰山立方体)。
冰山立方体:不能满足阈值的单元,这种部份物化的单元称作冰山立方体。
2,BUC计算冰山立方体。P109
1从顶点方体向下计算冰山立方体。2Aprioii剪枝。3无共享会萃计算
优点:分治策略,减少不必要计算开消。
计算流程:
1扫描整个输入,计算整个度量。2针对方体的每一维进行划分。3针对每一个划
分,对它进行会萃,为该划分创建一个元组并得到该元组的计算。判断其分组计
算是否满足最小支持度。4如果满足,输出该划分的会萃元组,并在该划分上对
下一维进行递归调用,否则进行剪枝操作。
3、OLAP估计算壳片段,缺点、计算。P116-118
4、点查询、子立方体查询概念、计算。P119-120
5、面向属性的归纳是用来干什么。过程有哪些。P128
面向属性的归纳用于复杂的数据类型并依赖数据驱动的泛化过程。
1使用数据库查询采集任务相关的数据;2采集工作关系的统计量。3导出主关
系P
6、类比较的过程。P136
1数据采集。2维相关分析。3同步泛化。4导出比较的表示。
8
7、类描述:特征化和比较的表示?(这里不知道考什么)
第五章
1、支持度、置信度、提升度概念?P147
定义N为总事务数,N(A)、N(B)分别为项集A、项集B浮现的次数,N(AB)为项
集A、项集B同时浮现的次数,A、B为不相交项集ACB=,规则A-B表示由
A推到B:
支持度:对整体
c,N(AB)
Support(At->B)=———
置信度:对条件
...(46N(AB)
Confidence[A->B)—…
N(A)
提升度:联合概率
Lift(A-^S叩portM->0_NxN(AB)
,TSupj)ort(A)xSupport(B)N(A)xN(B)
2、频繁项集概念。P147
项的集合称为项集。Eg:{computer,antivinjs_softwa是ne}2项集。支持
度计数:项集浮现的频率。
满足最小支持度的阀值的项集就是频繁项集。
3、Apriori算法、如何实现、缺点、改进方法。P151»P156,P157-159
Apriori算法:是为布尔关联规则挖掘频繁项集的原创性算法。
性质:频繁项集的所有非空子集也必须是频繁的。
缺陷:1、它可能需要产生大量候选项集。
2、它可能需要重复地扫描数据库,通过模式匹配检查一个很大的候选集
9
合。
改进:1、不候选产生挖掘频繁项集。
2、使用垂直数据格式挖掘频繁项集。
3、挖掘闭频繁项集。
第六章
1、分类、预测的区别、关系。P186
预测分为:分类和数值预测。
分类是的目标值离散数据。
数值预测是的目标值是连续值或者有序值。但是为了方便,把数值预测简称为预
测。
分类:*预测分类标号(或者离散值)
*根据训练数据集和类标号属性,构建模型来分类现有数据,并用来分类
新数据
预测:是构造和使用模型评估无样本类,或者评估给定样本可能具有的属性或者
值空间。
预测和分类的异同
相同点:*两者都需要构建模型
*都用模型来估计未知值
不同点:*分类法主要是用来预测类标号(分类属性值)
10
*预测法主要是用来估计连续值(量化属性值)
2、决策树算法过程,计算。P198
1计算信息量。2计算信息埔。3计算信息增益。4选择根节点,递归操作
3、信息增益公式、概念、如何计算。P192
-选择信息场最大的作为分类属性
-设乃是D中任一元组属于类。的概率,用|Q;DI/|D|估计
・D中元组分类所需的期望信息(entropy):
m
Info(D);一工)Jog23)
■Information按属性A对D中元组进行划分所需的信息
'D.\
/吹(o=Z需"(4)
-信息漕益:原来的信息需求(近基于类的)与新的需求
(即对A划分之后得到的)之间的差
Gain(A)-Info(D)-Info^D)
4、神经网络输入层、输出层如何计算。P215-216
向前传播输入:IW-o
j«j•j
i1
输出的计算:c,1
Lj1e)
神经网络的上一层输出构成下一层的输入。
5、例题6-9。P261
11
6、线性回归、最小二乘法计算。P231
(x.Xy.)
1XI
)2
uw
y1X
是y的平均值,是X的平均值
yX
最终回归方程为:ywww
i0Ii
第七章
1、聚类分析的数据类型。不同数据类型如何计算。P253-254
数据结构:数据矩阵(原数据),相异度矩阵(例如数据间的距离,反映对象
之间的相异度,测量差);
数据类型:区间标度变量,二元变量,分类、序数和比例标度变量,混合类型的
变量
区间标度变量:。1标准化:z'z是标准化后的数据矩阵。x原始数据,
是x平均值,是x的方差。②计算距离dn(xy)2(欧氏距离)。把距
ijVjikjk
离小的规划为一类。
I*S
二元变量:*qrstq(l』)r(l』)s(O,l)t(l,O);
pm
d
分类变量:ijF_P是全部变量总是,m是匹配数目
r
2、分类、序数和比例标度变量,计算例题7-3,7-5,7-6oP256-260
对象标识符Testi(分类的)T9st2序数的Test3比例标
度
12
1Code-A优秀445
2Code-B普通22
3Code-C好164
4Code-A优秀1210
7-3:计算分类变量的相异度
数据是Testi(分类的)行是对象(记录),列是属性(惟独一列【维】)o
7-5计算比例标度量间的相异度。
数据是Test3比例标度
先对照例标度变量进行对数变换。再计算距离。
Test3数据取对数得:2.65,1.34,2.21,3.08o求欧氏距离:
01.30590.43350.4344
1.305900.87241.7404
0.43350.872400.8679
0.43441.74040.86790
7-6计算混合类型变量间的相异度
temp=log10(Test3得)到:
2.6484
1.3424
2.2148
3.0828
13
Temp2=temp/(max(temp)-min(temp))得至U
1.5217
0.7713
1.2726
1.7713
在对Temp2求距离。
00.75040.24910.2496
0.750400.50131.0000
0.24910.501300.4987|
0.24961.00000.49870
3、主要聚类方法的分类P261。
划分法,层次法,基于网格的方法,基于模型的方法。
4、K均值、k中
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025-2030年中国集成建筑行业运营状况与发展潜力分析报告
- 2025-2030年中国螺旋藻行业发展现状及前景趋势分析报告
- 2025-2030年中国葡萄籽提取物opc行业运营状况与发展潜力分析报告
- 2025天津市建筑安全员知识题库
- 2025-2030年中国航空客运行业市场发展现状及前景趋势分析报告
- 2025-2030年中国电解锰废渣处理行业竞争状况及发展趋势分析报告
- 长江大学《设计软件基础》2023-2024学年第二学期期末试卷
- 中国石油大学(华东)《强化学习(双语)》2023-2024学年第二学期期末试卷
- 西安体育学院《食品分析技术》2023-2024学年第二学期期末试卷
- 广西卫生职业技术学院《食品研究开发》2023-2024学年第二学期期末试卷
- 电气控制线路的设计和元器件选择
- 剖宫产术后子宫瘢痕妊娠诊治专家共识
- 注塑一线工资考核方案
- 工程质量回访记录
- GB/T 18268.1-2010测量、控制和实验室用的电设备电磁兼容性要求第1部分:通用要求
- 第三节对化学武器的防护
- 人教版高一物理必修二第六章《圆周运动》课后练习(有答案解析)
- 施工进度计划-报审表本
- 基于单片机的老人跌倒报警装置获奖科研报告
- 呼吸机及管路的管理课件
- 维修质量检验制度
评论
0/150
提交评论