数据挖掘考纲gzip_第1页
数据挖掘考纲gzip_第2页
数据挖掘考纲gzip_第3页
全文预览已结束

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

1、填空:1、神经元是神经网络的基本组成单元。2、常见的数据类型有定距数据、定序数据、定类数据及计数数据。3、K-mean聚类是一种基于划分的聚类方法,在聚类分析中,EM聚类是一种 基于模型的聚类算法。4、在CART算法中,我们采用Gini指标作为分枝指标。5、线性回归的因变量必须是连续型的,Logistic回归的因变量必须是分类 型的。6、在频繁项目集中挑选出所有不被其他元素包含的频繁项目集称为最大频繁 项目集7、在STATISTICA软件中我们可以通过交叉验证方法寻找最佳聚类数k。8、决策树的剪枝技术有预剪枝和后剪枝9、ARMA模型由两个特殊模型发展而来,一个特例是AR或自回归模型,另一 特例

2、是MA或滑动平均模型。10、ARMA(p,q)模型中的参数p,q与自相关函数和偏自协相关函数有关。11、神经网络可分为输入层、隐藏层、输出层。12、基于关联规则中数据的抽象层次,可以分为单层关联规则和多层关联规 则。13、层次聚类分析可以分为两种类型,一种是自下而上的聚合型聚类,另一 种是自上而下的拆分型聚类。14、在ID3算法中,通常用熵来衡量一个内部节点的信息量;而在C4.5算法 中,分枝指标采用的是信息增益。15、BP网络中,信号是正向传播的,而误差是反向传播的。16、RBF网络的最显著的特点是隐节点的基函数采用距离函数,并使用径向 基作为激励函数。17、决策树的剪枝技术有预剪枝和后剪枝

3、。18、ARMA模型由两个特殊模型发展而来,一个特例是自回归模型或AR模型, 另一特例是滑动平均模型或MR模型。名词解释:考四道数据挖掘(技术定义)强关联规则聚类分析时间序列数据挖掘(商业定义)频繁项集二叉决策树简答题考两道简述数据挖掘的步骤。简述数据挖掘与传统的数据分析的本质区别,并列举三种数据挖掘的对象。简述CHAID决策树算法的基本步骤。简述CART决策树算法的基本步骤。综合分析题(购物篮分析)1.以下是20条超市交易记录。tidhh技h以tidhh技/4110000_0010020111001211111030001101310111401011014111005000011150011060101001601100r00101017101010g010111IS10111900001019000101100101020010LL1(1)设最小支持度为30%,试用Apriori算法写出所有频繁项目集。(2)设最小置信度为60&,试求出所有的关联规则。2.交易ID购买项1牛奶,啤酒,尿布2面包,黄油,牛奶3牛奶,尿布,饼干4面包,黄油,饼干5啤酒,饼干,尿布6牛奶,尿布,面包,黄油7面包,黄油,尿布8啤酒,尿布9牛奶,尿布,面包,黄油10

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论