《数据挖掘》课程期末考试试卷_第1页
《数据挖掘》课程期末考试试卷_第2页
《数据挖掘》课程期末考试试卷_第3页
《数据挖掘》课程期末考试试卷_第4页
《数据挖掘》课程期末考试试卷_第5页
已阅读5页,还剩179页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

浙江财经大学2014~2015学年第一学期

《数据挖掘》课程期末考试试卷(A卷)

考核方式:闭卷考试日期:2015年1月日

适用专业、班级:13经济统计

题号—二三四五六七A九十总分

得分

应评卷人

(共五大题)

一、判断题(以下各题正确的打错误的打X。每题2分,共20分)

1.DBSCAN是相对抗噪声的,并且能够处理任意形状和大小的簇。(对)

2.聚类分析可以看作是一种非监督的分类。(对)

命3.分类模型的误差大致分为两种:训练误差(trainingerror)和泛化误差(generalizationerror).(对)

4.具有较高的支持度的项集具有较高的置信度。(错)

5.利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)八

6.商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商务之上,一旦

系统设计完毕,其程序和规那么不会轻易改变;而前者那么是一个学习型系统,能自动适应商务不

断变化的要求。(对)

7.离群点可以是合法的数据对象或者值。(对)

8.可视化技术对于分析的数据类型通常不是专用性的。[错)

9.数据挖掘的主要任务是从数据中发现潜在的规那么,从而能更好的完成描述数据、预测数据等任务。

(对)

10.从点作为个体簇开始,每一步合并两个最接近的簇,这是一种分裂的层次聚类方法。(错)

二、单项选择题(每题2分,共30分)

1.以下说明错误的选项是(C)

A性别="男”=>职业="司机”,是布尔型关联规那么

B性别="女”=>avg(收入)=2300,是一个数值型关联规那么

C肝炎=>ALT(丙氨酸转氨酶)升高,是一个单层关联规那么

D性别:“女”=>职业=“秘书”,是多维关联规那么。

2.在有指导的数据挖掘中,有关测试集的说法错误的选项是(A)

A.测试集和训练集是相互联系的

B.测试集是用以测试模型的数据集

C.通常测试集大约占总样本的三分之一

D.K-次交叉验证中,测试集只有1个,训练集有K-1个。

3.一个对象的离群点得分是该对象周围密度的逆。这是基于(C)的离群点定义。

A.概率B、邻近度C、密度D、聚类

4.考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般不

会共享许多近邻,所以应该选择(D)的相似度计算方法。

A、平方欧儿里德距离B、余弦距离C、直接相似度D、共享最近邻

5.(D)将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是一种凝聚层次聚类技术v

A、MIN(单链)B、MAX(全链)C、组平均D、Ward方法

6.(C)是一个观测值,它与其他观测值的差异如此之大,以至于疑心它是由不同的机制产生的。

A、边界点B、质心C、离群点D、核心点

7.考虑两队之间的足球比赛:队。和队1。假设65%的比赛队0胜出,剩余的比赛队1获胜。队0获胜

的比赛中只有30%是在队1的主场,而队1取胜的比赛中75%是主场获胜。如果下一场比赛在队1

的主场进行队1获胜的概率为(C)

A,0.75B,0.35C,0.4678D,0.5738

8.在基于规那么分类器的中,依据规那么质量的某种度量对规那么排序,保证每一个测试记录都是由覆

盖它的“最好的”规格来分类,这种方案称为(B)

A.基于类的排序方案

B.基于规那么的排序方案

C.基于度量的排序方案

D.基于规格的排序方案。

9.以下_(A)_不是将主观信息参加到模式发现任务中的方法。

A、与同一时期其他数据比照

B、可视化

C、基于模板的方法

D、主观兴趣度量

10.关rOLAP和OLTP的区别描述,小止确的选项是:(C)

A.OLAP主要是关于如何理解聚集的大量不同的数据.它与OTAP应用程序不同.

B.与OLAP应用程序不同,OLTP应用程序包含大量相对简单的事务.

C.OLAP的特点在于事务量大,但事务内容比拟简单且重复率高.

D.OLAP是以数据仓库为根底的,但其最终数据来源与OLTP一样均来自底层的数据库系统,两者面对

的用户是相同的.

11.在有关数据仓库测试,以下说法不正诲的选项是:(D)

A.在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元测试和系统

测试.

B.当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.

C.系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.

D.在测试之前没必要制定详细的测试方案.

12.关于根木数据的元数据是指:(D)

A.根本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;

B.根本元数据包括与企业相关的管理方面的数据和信息;

C.根本元数据包括日志文件和简历执行处理的时序调度信息;

D.根本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.

13,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A)

A18.3B22.6C26.8D27.9

14.建立一个模型,通过这个模型根据的变量值来预测其他某个变量值属于数据挖掘的哪一类任务?(C)

A.根据内容检索B.建模描述

C.预测建模D.寻找模式和规那么

15.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相别离?

(B)

A.分类B.聚类C.关联分析D.隐马尔可夫链

三、程序设计(10分)

有10个同类企业的生产性固定资产价值O)和工业总产值(V)资料如下

企业编号生产性固定资产价值工业总产值

(力兀)(万元)

1318524

29101019

3200638

4409815

5425913

6502928

7314605

812101516

910221219

1012251624

合计65259801

要求用R语言按以下要求写出相应程序:

①写出数据输入程序;

②画出它们的散点图

③工业总产值对生产性固定资产线性回归方程。

>x<-c(318,910,200,409,415,502,314,1210,1022,1225)

>y<-c(524,1019,638,815,913,928,605,1516,1219,1624)

>plot(x,y)

>lm.reg<-lm(y~l+x)

>summary(lm.reg)

四、程序编写(10分)

用R语言写出求y=x2+\最大值、最小值的程序。

>x<-seq(-5,5,0,01)

>y<-l+x"2

>plot(y)

>max(y)

>min(y)

五、程序分析:这是某个程序运行结果。(15分)

Call:

Im(formula=y~xl+x2zdata=sales)

Residuals:

MinIQMedian3QMax

-3.8312-1.2063-0.24361.49193.3025

Coefficients:

EstiHiateStd.ErrorzvaluePr(>|t|)

(Intercept)3.44572842.42669341.4200.181

xl0.49597240.006045582.039<2e-16***

x20.00920490.00D966S9.5216.07e-07***

Signif.codes:0'****0.0D1、**'0.01、*'0.05、・'0.1

Residualstandarderror:2.173on12degreesoffreedom

MultipleR-squared:0.9989,AdjustedR-squared:0.99SS

F-statistic:5699on2and12DF,p-value:<2.2e-16

写出:⑴残差情况。

⑵回归方程的具体形式。

⑶分析方程与回归参数的显著性情况。

⑴残差情况。

残差最小值为-3.8312残差下四分位数为T.2063残差中位数-0.2436

残差上四分位数1.4819残差最大值3.3025(5分)

⑵回归方程的具体形式。

),=3.4457+0.496x1+0.0092x2(5分)

⑶分析方程与回归参数的显著性情况。

方程F值为5699相应概率为2.2e16回归方程具有显著性

xl参数的t值为82.039,概率为2eT6,回归参数显著

x2参数的t值为9.521,概率为6.07e-07,回归参数显著

六、简答题:评述数据缺失常见的处理方法。

解:常见的数据缺失处理有四种方法:

⑴将含有缺失值的案例删除。(3分)

当数据较多,缺失数据记录所占比重较小时可用该方法。

⑵根据变量之间的相关关系填补缺失值。(3分)

⑶根据案例之间的相似性填补缺失值。(4分)

⑷使用能够处理缺失值数据的工具。(5分)

(15分)

浙江财经大学2014~2015学年第一学期

《数据挖掘》课程期末考试试卷(A卷)

考核方式:闭卷考试日期:2015年1月日

适用专业、班级:13经济统计

题号一二三四五六七A九十总分

得分

评卷人

(共五大题)

一、判断题(以下各题正确的打错误的打X。每题2分,共20分)

1.序列数据没有时间戳。(对)

2.定量属性可以是整数值或者是连续值。(对)

篇3.可视化技术对于分析的数据类型通常不是专用性的。[错)

njp

卦4.DSS主要是基于数据仓库.联机数据分析和数据挖掘技术的应用。(对)

5.OLAP技术侧重于把数据库中的数据进行分析、转换成辅助决策信息,是继数据库技术开展之后迅猛

开展起来的一种新技术。(对)

6.SVM是这样一个分类器,他寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器

(minimalmarginclassifier)(错)

7.在聚类分析当中,簇内的相似性越大,簇间的差异越大,聚类的效果就越差。(错)

8.聚类分析可以看作是一种非监督的分类。(对)

9.K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。(错

10.给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较优。(错)

二、单项选择题(每题2分,共30分)

1.端是为消除不确定性所需要获得的信息量,投掷均匀正六面体般子的埼是:(B)

A1二匕特B2.6比特C3.2比特D3.8比特

2.假设属性income的最大最小值分别是12000元和98000元。利用最大最小标准化的方法将属性的值

映射到0至1的范围内。对属性income的73600元将被转化为:(D)

A0.821B1.224C1.458D0.716

3.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,15,16,16,19,20,

20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,46,52,70,问题:使用按箱平均

值平滑方法对上述数据进行平滑,箱的深度为3。第二个箱子值为:(A)

A18.3B22.6C26.8D27.9

4.考虑值集{12243324556826},其四分位数极差是:(A)

A31B24C55D3

5.一所大学内的各年纪人数分别为:一年级200人,二年级160人,三年级130人,四年级110人。那

么年级属性的众数是:(A)

A一年级B二年级C三年级D四年级

6.(C)是一个观测值,它与其他观测值的差异如此之大,以至于疑心它是由不同的机制产生的。

A、边界点B、质心C、离群点D、核心点

7.BIRCH是一种(B

A、分类器B、聚类算法C、关联分析算法D、特征选择算法

8.检测一元正态分布中的离群点,属于异常检测中的基于(A)的离群点检测。

A、统计方法B、邻近度C、密度D、聚类技术

9.(C)将两个簇的邻近度定义为不同簇的所有点对的平均逐对邻近度,它是一种凝聚层次聚类技术。

A、MIN(单链JB、MAX(全链JC、组平均D、Ward方法

10.(D)将两个簇的邻近度定义为两个簇合并时导致的平方误差的增量,它是•种凝聚层次聚类技术。

A、MIN(单链)B、MAX卜全链)C、组平均D、Ward方法

11.DBSCAN在最坏情况下的时间复杂度是(B)o

A、O(m)B、O(m2)C^O(logm)D、O(m*logm)

12.在基于图的簇评估度量表里面,如果簇度量为proximity(Ci,C),簇权值为mi,那么它的类型是

(C)o

A、基于图的凝聚度B、基于原型的凝聚度C、基于原型的别离度D、基于图的凝

聚度和别离度

13.关于K均值和DBSCAN的比拟,以下说法不正确的选项是(A)。

A、K均值丢弃被它识别为噪声的对象,而DBSCAN一般聚类所有对象。

B、K均值使用簇的基于原型的概念,而DBSCAN使用基于密度的概念。

C,K均值很难处理毛球形的簇和不司大小的簇,DBSCAN可以处理不同大小和不同形状的簇。

D、K均值可以发现不是明显别离的簇,即便簇有重叠也可以发现,但是DBSCAN会合并有重叠的

O

14.以下是哪一个聚类算法的算法流程:①构造k—最近邻图。②使用多层图划分算法划分图。③repeat:

合并关于相对互连性和相对接近性而言,最好地保持簇的自相似性的簇。④until:不再有可以合并的簇。

(C

A、MSTB、OPOSSUMC、ChameleonD、Jarvis-Patrick(JP)

15.考虑这么一种情况:一个对象碰巧与另一个对象相对接近,但属于不同的类,因为这两个对象一般

不会共享许多近邻,所以应该选择(D)的相似度计算方法。

A、平方欧几里德距离B、余弦距离C、直接相似度D、共享最近邻

三、程序设计(10分)

用函数rep构造一个向量x,它由5个3,10个2,9个1构成。

四、程序编写(10分)

自已编写个程序求数据y=1yLy2,y3…yn)的均值标,准差,偏度与峰度

五、程序分析:这是某个程序运行结果。(15分)

Binomialdistribution,n=20,p=0.2

(

d

c

±

)

E

O

£

q

p

k

写出此图程序

>n<-20

>p<-0.2

>k<-seq(0,n)

>plot(k,dbinom(k,n,p),type-h,,main-Binomialdistribution,n=20,p=0.2*,xlab='k')

六、简答题:说出常用分布的概率函数中的三种(15分)

正念分布

>curve(dnorm(x,0,1),xlim=c(-5,5),ylim=c(0,.8),

col=red',lwd=2,lty=3)

>curve(dnorm(x,0,2),add=T,col=*blue\lwd=2,lty=2)

>curve(dnorm(x,0,1/2),add=T,lwd=2,lty=l)

>title(main="Gaussiandistributions0)

>Iegend(par('usr')[2],par(*usr')[4],xjust=l,

c(,sigma=l',,sigma=2\,sigma=l/2'),

lwd=c(2,2,2),

lty=c(3,2,l),

col=c('red','blue',par(,'fg',)»

超几何分布

>N<-30

>M<-10

>n<-10

>k<-seq(0J0)

>plot(k,dhyper(k,N,M,n),type-h',

main='Hypergeometricdistribution,

N=30,M=10,n=10,,xlab='k,)

几何分布

>p<-0.5

>k<-seq(0,10)

>plot(k,dgeom(k,p),type=,h,,

main='Geometricdistribution,p=0.5',xlab='k')

泊松分布

>lambda<-4.0

>k<-seq(0,20)

>plot(k,dpois(k,lambda),type='h',

mair.=,Poissondistribution,lambda=5.5',xlab='k,)

>n<-20

>p<-0.2

>k<-seq(0,n)

>plol(k,dbinom(k,n,p)jype='h',

mair-Binomialdistribution,n=20,p=0.2,,Klab=,k,)

浙江财经大学2015~2016学年第一学期

《数据挖掘》课程期末考试试卷(A卷)

考核方式:闭卷考试日期:2015年1月日

适用专业、班级:14经济统计

题号—二三四五六七A九十总分

得分

评卷人

(共五大题)

一、判断题(以下各题正确的打错误的打X。每题2分,共20分)

1、数据挖掘的主要任务是从数据中发现潜在的规那么,从而能更好的完成描述数据、预

测数据等任务。(对)

2、寻找模式和规那么主要是对数据进行干扰,使其符合某种规那么以及模式。(错)

3、离群点可以是合法的数据对象或者值。(对)

4、离散属性总是具有有限个值。(错)

5、序列数据没有时间戳。(对)

6、定量属性可以是整数值或者是连续值。(对)

7、关联规那么挖掘过程是发现满足最小支持度的所有项集代表的规那么。(错)

8、分类和回归都可用于预测,分类的输出是离散的类别值,而回归的输出是连续数值。

(对)

9、可视化技术对于分析的数据类型通常不是专用性的。(错)

s10、聚类分析可以看作是一种非监督的分类。(对)

二、单项选择题(每题2分,共30分)

料1、在数据挖掘的分析方法中,直接数据挖掘不包括(D)

A分类B关联C估值D预言

手2、下面不属于创立新属性的相关方法的是:(C)

布A特征提取

B特征修改

C映射数据到新的空间

D特征构造

3、数据分类的评价准那么包括(C)

a精确度b查全率和查准率cF-Measured儿何均值

Aa、b、cBb、c、dCa、b、dDa、b、c、d

4、层次聚类方法包括(A)

a划分聚类方法b凝聚型层次聚类方法c分解型层次聚类方法d基于密度聚类方法

Aa、bBa、cCb、cDb、d

5、将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?(D)

A.频繁模式挖掘B.分类和预测

C.数据预处理D.数据流挖掘

6、什么是KDD?(A)

A.数据挖掘与知识发现B.领域知识发现

C.文档知识发现D.动态知识发现

7、下面哪种不属于数据预处理的方法?(D)

A变量代换B离散化C聚集D估计遗漏值

8、下面哪个不属于数据的属性类型:(D)

A标称B序数C区间D相异

9、以下哪种方法不属于特征选择的标准方法:(D)

A嵌入B过滤C包装D抽样

10、以下哪个不是专门用于可视化时间空间数据的技术:(B)

A等高线图B饼图C曲面图D矢量场图

11、在图集合中发现一组公共子结构,这样的任务称为(B)

A、频繁子集挖掘B、频繁子图挖掘C、频繁数据项挖掘D、频繁模式挖掘

12、以下哪些分类方法可以较好地防止样本的不平衡问题,(A)

AKNNBSVMCBayesD神经网络

13、在基于规那么分类器的中,依据规那么质量的某种度量对规那么排序,保证每一个测

试记录都是由覆盖它的“最好的”规格来分类,这种方案称为(B)

A.基于类的排序方案

B.基于规那么的排序方案

C.基于度量的排序方案

D.基于规格的排序方案

14、检测一元正态分布中的离群点,属于异常检测中的基于(A)的离群点检测。

A、统计方法B、邻近度C、密度D、聚类技术

15、在基于图的簇评估度量表里面,如果簇度量为proximity(Ci,C),簇权值为mi,那

么它的类型是(C)o

A、基于图的凝聚度

B、基于原型的凝聚度

C、基于原型的别离度

D、基丁图的凝聚度和别离度

三、程序设计(10分)

表有关15个地区某种食物年需求量(X,单位:10吨)和地区人口增加量(X,单位:千人)

的资料.利用此表数据展示一元回归模型的统计分析过程。

某种食物年需求量与人口增加量

要求用R语言按以下要求写出相应程序:

①写出数据输入程序;

②画出它们的散点图

③食物年需求量对地区人口增加量线性回归方程。

编123456789101112131415

X274180375205862659833019553430372236157370

Y162120223131671698119211655252234144103212

>x

<-c(274,180,375,205,86,265,98,330,195,53,430,372,236,157,370)

>y<-c(162,120,223,131,67,169,81,192,116,55,252,234,144,103,212)

>plot(x,y)

>lm.reg<-lm(y~x)

>summary(lm.reg)

四、程序编写(10分)

用R语言写出求y=2入2+3最大值、最小值的程序

>x<-seq(-5,5,0.01)

>y<-3+2*xA2

>plot(y)

>max(y)

>min(y)

五、程序分析:这是某个程序运行结果。(15分)

Call:

lm(fbrmula=y~x1+x2+x3,data=blood)

Residuals:

MinIQMedian3QMax

-3.2692-1.2305-0.20231.48864.6570

Coefficients:

EstimateStd.ErrortvaluePr(>|t|)

(Inlercept)6.49962.39622.7130.01242*

x10.40230.15412.6120.01559♦

X2-0.28700.1117-2.5700.01712*

X30.66320.23032.8800.00845**

Sigmt.codes:0'*"'0.001'"'0.01'*'0.0510.1''1

Residualstandarderror:1.972on23degreesoffreedom

MultipleR-squared:0.5981,AdjustedR-squared:0.5456

F-statistic:11.41on3and23DF,p-value:8.793e-05

写出:⑴残差情况。

⑵回归方程的具体形式。

⑶分析方程与回归参数的显著性情况。

⑴残差情况。

残差最小值为-3.2692残差下四分位数为T.2305残差中位数-0.2023

残差上四分位数1.4886残差最人值4.6570(5分)

⑵回归方程的具体形式。

7=6.4996+0.4023x1-0.2870x2+0.6632%3(5分)

⑶分析方程与回归参数的显著性情况。

方程F值为11.41相应概率为8.793e-05回归方程具有显著性

xl参数的t值为2.612,概率为0.01559,回归参数显著

x2参数的t值为-2.570,概率为0.01712,回归参数显著(5分)

x3参数的I值为2.880,概率为0.00845,回归参数显著

六、简答题:数据挖掘的分类方法有哪些,请详细阐述之.(15分)

分类方法归结为四种类型:

基于距离的分类方法(3分)

决策树分类方法(3分)

贝叶斯分类方法(3分)

规那么归纳有四种策略:减法、加法,先加后减、先减后加策略(6分)

浙江财经大学2014~2015学年第一学期

《数据挖掘》课程期末考试试卷(A卷)

考核方式:闭卷考试日期:2015年1月日

适用专业、班级:14经济统计

题号—二三四五六七A九十总分

得分

应评卷人

(共五大题)

一、判断题(以下各题正确的打错误的打X。每题2分,共20分)

1、模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述;模型那么对变量

变化空间的一个有限区域做出描述。(错)

命2、Web数据挖掘是通过数据库仲的一些属性来预测另一个属性,它在验证用户提出的假设

过程中提取信息.(错)

3、序列数据没有时间戳。(对)

4、商业智能系统与一般交易系统之间在系统设计上的主要区别在于:后者把结构强加于商

务之上,一旦系统设计完毕,其程序和规那么不会轻易改变;而前者那么是一个学习型

系统,能自动适应商务不断变化的要求。(对)

5、在决策树中,随着树中结点数变得太大,即使模型的训练误差还在继续减低,但是检验

误差开始增大,这是出现了模型拟合缺乏的问题。(错)

6、模式为对数据集的全局性总结,它对整个测量空间的每一点做出描述:模型那么对变量

变化空间的一个有限区域做出描述。(错)

7、如果规那么不满足置信度阈值,那么形如的规那么一定也不满足置信度阈值,其中是

X的子集。(对)

8、给定由两次运行K均值产生的两个不同的簇集,误差的平方和最大的那个应该被视为较

优。(错)

9、数据仓库中间层0LAP效劳器只能采用关系型0LAP(错)

10、利用先验原理可以帮助减少频繁项集产生时需要探查的候选项个数(对)

二、单项选择题(每题2分,共30分)

1.当不知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签

的数据相别离?(B)

A.分类B.聚类C.关联分析D.隐马尔可夫链

2.对于向量v〈-c(4,7,23.5,76.2,80)来说,length(v)显示的应该是:(C)

(A)4(B)5(C)80(D)76.2

3,为数据的总体分布建模;把多维空间划分成组等问题属于数据挖掘的哪一类任务?

(B)

A.探索性数据分析B.建模描述

C,预测建模D.寻找模式和规那么

4.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,

204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第几个箱

子内?(B)

A第一个B第二个C第三个D第四个

5.假定用于分析的数据包含属性age。数据元组中age的值如下(按递增序):13,

15,16,16,19,20,20,21,22,22,25,25,25,30,33,33,35,35,36,40,45,

46,52,70,问题:使用按箱平均值平滑方法对上述数据进行平滑,箱的深度为3。第二

个箱子值为:(A)

A18.3B22.6C26.8D27.9

6.关于根本数据的元数据是指:(D)

A.根本元数据与数据源,数据仓库,数据集市和应用程序等结构相关的信息;

B.根本元数据包括与企业相关的管理方面的数据和信息;

C.根本元数据包括日志文件和简历执行处理的时序调度信息;

D.根本元数据包括关于装载和更新处理,分析处理以及管理方面的信息.

7.在有关数据仓库测试,以下说法不正确的选项是:(D)

A.在完成数据仓库的实施过程中,需要对数据仓库进行各种测试.测试工作中要包括单元

测试和系统测试.

B.当数据仓库的每个单独组件完成后,就需要对他们进行单元测试.

C.系统的集成测试需要对数据仓库的所有组件进行大量的功能测试和回归测试.

D.在测试之前没必要制定详细的测试方案.

8.OLAM技术一般简称为"数据联机分析挖掘”,下面说法正确的选项是:(D)

A.OLAP和OLAM都基于客户机/效劳器模式,只有后者有与用户的交互性;

B.由于OLAM的立方体和用于OLAP的立方体有本质的区别.

C.基于WEB的OLAM是WEB技术与OLAM技术的结合.

D.OLAM效劳器通过用户图形借口接收用户的分析指令,在元数据的知道下,对超级立方体

作一定的操作.

9.下面选项中t不是s的子序列的是(C)

A、s=<{2,4},{3,5,6},{8}>t=<{2},{3,6},{8}>

B、s=<{2,4},{3,5,6),{8}>t=<{2},{8}>

C、s=<{1,2},{3,4}>t=<{l},{2}>

D、s=<{2,4},{2,4}>t=<{2},{4}>

10.以下哪些分类方法可以较好地防止样本的不平衡问题(A)

A,KNNB,SVMC,BayesD,神经网络

11.在基于规那么分类器的中,依据规那么质量的某种度量对规那么排序,保证每一

个测试记录都是由覆盖它的“最好的”规格来分类,这种方案称为()

A.基于类的排序方案B

B.基于规那么的排序方案

C.基于度量的排序方案

D.基于规格的排序方案。

12.如果允许一条记录触发多条分类规那么,把每条被触发规那么的后件看作是对相

应类的一次投票,然后计票确定测试记录的类标号,称为1A)

A,无序规那么B,穷举规那么C,互斥规那么D,有序规那么

13.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种

聚类类型称作(B)

A、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类

14.简单地将数据对象集划分成不重叠的子集,使得每个数据对象恰在一个子集中,这种

聚类类型称作(B)

A、层次聚类B、划分聚类C、非互斥聚类D、模糊聚类

15.回归分析的以下说法中错误的选项是(D)

A作回归分析的变量之间要有实际意义,不能把毫无关联的两种现象随意进行回归分析,

要结合专业知识对两事物之间是否存在因果关系作出合理解释和结论。

B在进行线性回归分析进行的数据准备的时候,要求因变量y和自变量x都是符合总体正

态的随机变量。

C回归直线不要随意外延

D所有非线性回归都可以转化为线性回归

三、程序设计(10分)

.应用R图表对各类产品供货走势图分析

类别'月份123456789101112

彩电Al

冰箱A2

空调A3

洗衣机A4

(1)要求:数据由R随机数函数生成,产生[20,50]间的均匀随机数。

(2)制作趋势线图:

解:首先对R进行初始化,设定参数,再生成随机数,代码如下:

rm(list=ls())

options(digits=4)

par(mar=c(4,4,2,1)+0.1,cex=0.75)

Al=runif(12,20,50);Al

A2=runif(12,20,50);A2

A3=runif(12,20,50);A3

A4=runif(12,20,50);A4

四、程序编写(10分)

设y=2+3*x+e,试用R拟合y=a+bx的线性回归模型

解:x=runif(25,10,30)

e=rnorm(25,0,0.3)

y=c(2+3*x+e)

fm=lm(y-x)

fm

Call:

lm(formula=y~x)

Coefficients:

(Intercept)x

2.063.00

故y=2.06+3.00x.

五、程序分析:这是某个程序运行结果。(15分)

在一个农业试验中,考虑四种不同的种子品种Al,A2,A3,A4和三种不同的施肥方法B1,

B2,B3得到产量数据如表所示。

BithB3

A\325292316

317310318

310320318

330370365

DfSumSqMeanSqFvaluePr(>F)

A33824.31274.755.22620.04126

B2162.581.250.33310.72915

Residuals61463.5243.92

Signif.codes:0、***'0.0010.01、*'0.05'・'0・l''1

试分析种子与施肥对产量有无显著影响:

结果数据中Df表示自由度,SumSq表示平方和,MeanSq表示均方,Fvalue表

示F值,即F比。PrOF)表示P值,A就是因素A,Rwsiduals是残差,即误差。

门)种子P值=0.041266.05,故应拒绝H0即不同的种子品种对产量有显著的影响。

(2)施肥P值=0.72915X).05,没有充分的理由说明H0不正确,也就是说应该接受H0。

即不同的施肥方法对产量无显著的差异。

六、简答题:简述1.安装R添加包、2.了解已安装添加包、3.获取添加包、4.检查gengxin

版本、5.更新已安装R软件包的代码(15分)

1.>install.packages('DMwR')

2.>installed.packages()

3.library()

4.old.packages()

5.update,packages()

三、程序设计(10分)

(1)解:首先对R进行初始化,设定参数,再生成随机数,代码如下:

rm(list=ls())

options(digits=4)

par(mar=c(4,4,2,1)+0.1,cex=0.75)

Al=runif(12,20,50);Al

A2=runif(12,20,50);A2

A3=runif(l2,20,50);A3

A4=runif(12,20,50);A4

(2)解:趋势线图如下

彩电(A1)冰箱(A2)

空调(A3)洗衣机(A4)

代码如下:

par(mfrow=c(2,2))

plot(A1,type=nr\ylab=n销售量”,xlab="月份二main=”彩电

(Al)n,xlim=c(l,12),ylim=c(0,50))

plot(A2,type二T,ylab=”销售量”,xlab="月份",main=M冰箱

(A2)",xlim=c(l,12),ylim=c(0,50))

plot(A3,type=T,ylab二”销售量”,xlab="月份",main="空调

(A3)",xlim=c(l,l2),ylim=c(0,50))

plot(A4,type=*'r\ylab=n销售量,',xlab=u月份”,main="洗衣机

(A4)n,xlim=c(l,l2),ylim=c(0,50))

浙江财经大学2014~2015学年第一学期

《数据挖掘》课程期末考试试卷(A卷)

考核方式:闭卷考试日期:2015年1月日

适用专业、班级:13经济统计

题号—二三四五六七A九十总分

得分

应评卷人

(共五大题)

一、判断题(以下各题正确的打错误的打X。每题2分,共20分)

1、数据挖掘这课用的编程语言为R语言(对)

2、这门课任课老师名字黄秀海(对)

命3、R是一个有着强大统计分析及作图功能的软件系统,在GNU协议General

PublicLicence下免费发行。(对)

4、R可以看作是贝尔实验室(BellLaboratories)的RickBecker,John

Chambers和AllanWilks开发的S语言的一种实现或形式.(对)

5、R的核心开发与维护小组通过R的主页,即R工程(RProject)网

站(://r-project.org)及时发布有关信息(对)

6、R语言不能在winxp系统上运行(错)

7、数据挖掘这门课期末考试方式为闭卷()

8、数据挖掘上课地点在zufe-F楼()

9、这学期数据挖掘一周课时为3课时()

10、这门课同学们都希望能通过。()

二、单项选择题(每题2分,共30分)

1.以下数据挖掘任务中,哪些属于非定向数据挖掘任务(D)

A分类B回归C预测D聚类

2、对于向量(4,7,23.5,76.2,80)来说,length(v)显示的应该是:(B)

(A)4(B)5(C)80(D)76.2

3、以下哪种软件是集成的窗口型的R语言的编程环境C

ARwindowBRgoCRstudioDR-111

4、以下哪种软件

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论