R语言数据分析与挖掘智慧树知到期末考试答案章节答案2024年中央财经大学_第1页
R语言数据分析与挖掘智慧树知到期末考试答案章节答案2024年中央财经大学_第2页
R语言数据分析与挖掘智慧树知到期末考试答案章节答案2024年中央财经大学_第3页
R语言数据分析与挖掘智慧树知到期末考试答案章节答案2024年中央财经大学_第4页
R语言数据分析与挖掘智慧树知到期末考试答案章节答案2024年中央财经大学_第5页
已阅读5页,还剩11页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

R语言数据分析与挖掘智慧树知到期末考试答案+章节答案2024年中央财经大学将5个数1,2,5,10,12按照欧氏距离、最短距离法进行系统聚类,则下面说法正确的是()。

答案:分为两类时1,2,5构成一类;最先合并为一类的是1和2;分为3类时10,12构成一个类评价统计量的标准有.()

答案:相合性;有效性;无偏性参数用来描述样本的数量特征,而统计量用来描述总体的数量特征。()

答案:错为了保证OLS估计量的优良性质,在多元线性回归分析中需要假设自变量和因变量之间不存在多重共线性。()

答案:错设随机事件A与B相互独立,P(A)=0.4,P(B)=0.3,则P(A∪B)=0.7.()

答案:错计算加权综合指数时,如果计算的是质量指数,应该选择数量指标作为同度量因素。()

答案:对mutate()函数主要用于添加或定义新变量.()

答案:对x<-seq(1,2,0.5),执行该语句后,x的取值为:1,1.5和2.()

答案:对在检验两个总体均值之差的假设检验时,若总体方差未知,需要用样本方差来代替.()

答案:对左连接是按照左表匹配数据,把右表中匹配到的观测样本连接到左表中,并保留右表中所有观测样本.()。

答案:错只能采用假设检验来检验因素各水平的方差是否相同.()

答案:错样本量越大,假设检验的结果越可靠.()

答案:对当样本量比较大时,样本比例的分布可以用正态分布来近似.()

答案:对union()函数的输入是两个及两个以上的数据表,这些表的列可以不同.()

答案:错设随机变量X~N(1,4),则2X-3~N(-1,16).()

答案:对已知P(A)=0.4,P(B)=0.3,P(AB)=0.2,则P(B|A)=0.5.()

答案:对两个变量之间的Pearson相关系数为0.1,说明这两个变量不存在任何相关关系。()

答案:错描述统计和推断统计方法的区别在于,描述统计方法适用于总体,推断统计方法适用于样本。()

答案:错intersect()函数是取两个数据表中观测样本的交集.()

答案:对数据通常被组织为变量和个体,变量即要测量的某种特征,个体即样本.()

答案:对右连接是按照右表匹配数据,把左表中匹配到的观测样本连接到右表中,并保留右表中所有观测样本.()

答案:对当样本量较大时,两个总体比例之差的检验统计量近似服从正态分布.()

答案:对可以通过增加样本量来降低第一类错误和第二类错误犯错的概率.()

答案:对

答案:如果X和Y分别是来自两个正态总体的样本,若总体均值分别为和,那么对于假设检验的步骤为:()①求样本的统计量、方差、标准误②求两个样本的差值③给定显著水平,构造拒绝域,并判断是否接受原假设④计算检验统计量

答案:①④③根据乘法模型进行时间序列分解时,若没有季节变动,则各期季节指数应等于100%。()

答案:对在不考虑交互效应的双因素方差分析中,若因素A的处理平方和为SSA,因素B的处理平方和为SSB,误差平方和为SSE,那么总平方和SST等于____.()。

答案:SSA+SSB+SSE一组数据的偏度系数为3,则该数据的统计分布一定有如下特征()

答案:右偏分布调查了一个企业10名员工上个月的缺勤天数,有3人缺勤0天,2人缺勤2天,4人缺勤3天,1人缺勤4天。则缺勤天数的()

答案:中位数为2.5在对全班86位同学进行抽样调查的过程中,如果所有可能的样本量等于10的样本都有相同的机会被抽中,这是()

答案:简单随机抽样关于一个总体方差的置信区间的估计说法正确的是.()。

答案:置信区间总是大于等于0关于Φ系数,下面说法正确的是___.()

答案:Φ系数越大,说明两个分类变量相关性越大为了检验两个独立样本对应总体的中位数是否相等,可以使用的检验方法是()

答案:Wlicoxon秩和检验

答案:H0:分类变量X与分类变量Y不相关和H0:分类变量X与分类变量Y独立都正确

答案:1或-1为了快速了解上海市居民家庭的收支情况,最适合的调查方式是.()

答案:抽样调查

答案:必不能拒绝原假设下面哪个是一个总体比例的置信区间.()。

答案:K均值是一种产生划分聚类的基于密度的聚类算法,簇的个数由算法自动地确定。()

答案:错数据挖掘的挖掘方法包括:()

答案:回归分析;决策树算法;聚类分析;神经网络在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差。()

答案:错如果一个对象不强属于任何簇,那么该对象是基于聚类的离群点。()

答案:对Logistic回归与多重线性回归比较()

答案:Logistic回归的因变量为二分类变量Logistic回归可用于()

答案:均可下面哪些指标可以用来度量数据的分布形状?()。

答案:峰度系数;偏度系数tibble也是一种数据框,与data.frame数据框类似.()

答案:对欲抽查某生产线上一批罐装可乐的糖分,已知该生产线每天匀速运转10个小时,产量为1万罐儿,首先从生产线末端的第1到100罐中随机抽取1罐,而后每隔6分钟抽取1罐,直到抽取100罐为止,对这100罐进行检验。此种抽样方法属于()。

答案:等距抽样;概率抽样dplyr包的核心函数主要包括.()

答案:select()函数;summarize()函数;filter()函数;arrange()函数一个箱子中装有质量均匀的10个白球和9个黑球,一次摸出5个球,在已知它们的颜色相同的情况下,该颜色是白色的概率大于0.5.()

答案:对显著水平越大,检验效果越好.()

答案:错当单因素方差分析不满足正态分布或方差齐性的假设前提时,不能采用非参数检验的方法.()

答案:对read.table()函数主要用于读取.txt文件.()

答案:对

答案:错用最小二乘方法估计多元回归模型得到的残差项求和一定等于0.()

答案:错样本是否来自正态分布可以用t分布来检验.()

答案:错设随机变量X~N(0,1),则P(-1<X≤3)=0.9.()

答案:错因素各水平的差异由系统性差异和随机误差组成.()

答案:对x<-c(-1:-5),该语句存在语法错误.()

答案:错样本统计量的概率分布也称为抽样分布(samplingdistribution),它是由样本统计量的所有可能取值形成的相对频数分布.()

答案:对RData只能存放一个数据对象.()

答案:对单因素方差分析可以用于分析一个分类变量与一个数值变量之间的关系.()

答案:对x<-2,x的类型是Integer.()

答案:错在k-均值聚类中,设置的初始类中心不同,不会影响最终的聚类结果。()

答案:错标准误是指统计量的标准差,也称为标准误差.()

答案:对一张数据表不可能存在重复健.()

答案:错定序变量不能计算中位数。()

答案:错

答案:错F分布中两个自由度的位置可以随意互换.()

答案:错根据加法模型进行时间序列分解时,季节成分之和等于0。()

答案:对方差分析中的因变量也称为因素.()

答案:错x<-1:10,x是向量.()

答案:对P值是原假设成立的情况下,统计量发生的概率.()

答案:对只考虑两个因素单独对因变量影响的模型称为交互效应的双因子方差分析.()

答案:错计算加权综合指数时,如果同度量因素固定在基期,则相应的指数称为拉氏指数.()

答案:对x=rep("1",2),执行该语句后x的取值为1,1.()

答案:错总体是全部待研究的对象.()

答案:对在单因素方差分析中,多重比较的目的是比较两个水平之间均值的差异性.()

答案:对F统计量的值有可能小于0.()

答案:错Logistic回归的结果并非数学定义中的概率值,不可以直接当做概率值来用.()

答案:对假设x<-c(1,-2,3,5,8),那么取x的第二个元素的语句为x[1].()

答案:错已知P(A∪B)=0.7,P(A)=0.4,则当A与B不相容时,P(B)=0.3.()

答案:对某汽车电瓶商声称其生产的电瓶具有均值为60个月,标准差为6个月的寿命分布。现假设质检部门决定检验该厂的说法是否准确,为此随机抽取了50个该厂生产的电瓶进行寿命实验。假设厂商声称是正确的,则50个样品组成的样本的平均寿命不超过57个月的概率很小.()

答案:对虚拟变量陷阱是一种特殊的完全多重共线性.()

答案:对与直方图相比,茎叶图.()

答案:适合描述小样本数据的分布关于k-均值聚类方法,以下正确的是.()

答案:需要事先人为确定k的值

答案:2.65下面哪些是统计量?()

答案:多元线性回归分析中,使用普通最小二乘进行参数估计时需要假设.()

答案:任何一个自变量不能是其他自变量和常数项的线性函数某研究人员于2009年发表的一篇文章讨论了男性和女性硕士应届毕业生起薪的差别。文章称,从某重点大学统计学院毕业的20名女性的平均起薪是3500元,中位数是3600元,标准差是550元。根据这些数据可以判断,女性硕士应届毕业生起薪的分布形状是.()

答案:左偏下列哪个现象会使得通常的最小二乘法的t统计量无效?()。

答案:异方差select()函数主要用来选取.()

答案:列

答案:H0:两个类别变量独立使用K-S检验来进行正态性检验时,以下说法正确的是()。

答案:检验的原假设是总体服从正态分布在不考虑交互效应的双因素方差分析中,若因素A的处理平方和为SSA=20,因素B的处理平方和为SSB=80,误差平方和为SSE=10,那么因素A的偏效应量为.()。

答案:20/30如果一个假设在5%的显著水平下被拒绝,则它___.()。

答案:在10%的显著水平下一定被拒绝某研究部门准备在全市200万个家庭中抽取2000个家庭,据此推断该城市所有职工家庭的年人均收入。这项研究的参数是.()

答案:200万个家庭的年人均收入如够想研究我们班同学对不同的手机品牌是否有明显的偏好,应该选用什么方法?()。

答案:卡方拟合优度为了估计总体比例p,已经求得其95%的置信区间为(72%,78%),下列说法中错误的是()。

答案:总体比例落在这个置信区间的概率为95%关于V系数,错误的是___.()。

答案:V系数值不可能会等于1下列是涉及虚拟变量的回归方程,哪个回归模型的形式不对?()

答案:在假设检验中,如果得到一个很小的p-值(比如小于5%),则___.()。

答案:该结果不利于原假设

答案:单元格中的样本量不要太少,否则检验会出现偏差在统计推断中,总体参数是一个.()

答案:未知的量

答案:6.23在抽样调查中以下哪一项会造成非抽样误差?()。

答案:其余选项都对假设要研究性别对个人收入的影响,其中个人年收入是因变量,解释变量包括两个变量:Male和Female。其中:个体性别为男性时,Male=1;否则,Male=0。同理,个体性别为女性时,Female=1;否则,Female=0。因为女性的平均收入通常低于男性,因此,你预计的回归结果是___.()

答案:回归系数无法估计,因为存在完全多重共线性将学生的考试成绩分成优、良、中、及格和不及格,所得到的数据属于.()

答案:定序数据如果X和Y分别是来自两个正态总体的配对样本,若总体均值分别为和,那么对于假设检验的步骤为:()①求样本的统计量、方差、标准误②求两个样本的差值③给定显著水平,构造拒绝域,并判断是否接受原假设④计算检验统计量

答案:②①④③以下属于聚类算法的是()。

答案:K-Means这些数据特性都是对聚类分析具有很强影响的。()

答案:高维性;规模;稀疏性;噪声和离群点聚类分析可以看作是一种非监督的分类。()

答案:对以下描述错误的是?()

答案:在决策树中,随着树中节点变得太大,即使模型的训练误差还在继续减低,但是检验误差开始增大,这是出现了模型拟合不足的问题在有监督学习中,我们如何使用聚类方法?()

答案:我们可以使用聚类“类别id”作为一个新的特征项,然后再用监督学习分别进行学习;我们可以先创建聚类类别,然后在每个类别上用监督学习分别进行学习聚类(clustering)是这样的过程:它找出描述并区分数据类或概念的模型(或函数),以便能够使用模型预测类标记未知的对象类。()

答案:错以下两种描述分别对应哪两种对分类算法的评价标准?()

(a)警察抓小偷,描述警察抓的人中有多少个是小偷的标准。

(b)描述有多少比例的小偷给警察抓了的标准。

答案:Precision,Recall以下哪些算法是基于规则的分类器()

答案:C4.5对于神经网络的说法,下面正确的是:()

答案:增加神经网络层数,可能会增加测试数据集的分类错误率以下说法正确的是:()

答案:一个机器学习模型,如果有较高准确率,总是说明这个分类器是好的对于SVM分类算法,待分样本集中的大部分样本不是支持向量,移去或者减少这些样本对分类结果没有影响。()

答案:对如下哪些不是最近邻分类器的特点。()

答案:最近邻分类器基于全局信息进行预测分类规则的挖掘方法通常有:决策树法、贝叶斯法、人工神经网络法。()

答案:对以下哪些算法是分类算法()

答案:C4.5对于一个分类任务,如果开始时神经网络的权重不是随机赋值的,二是都设成0,下面哪个叙述是正确的?()

答案:神经网络可以训练,但是所有的神经元最后都会变成识别同样的东西Web内容挖掘实现技术()

答案:关联规则;文本分类;文本总结;文本聚类Logistic回归中自变量若为多分类变量,宜将其按哑变量处理,与其他变量进行变量筛选时可用()

答案:应将几个哑变量作为一个因素,整体进入回归方程Logistic回归中,若因变量交换赋值,则关于两个Logistic回归方程的下列解释中错误的是()

答案:参数估计符号相同为研究低龄青少年吸烟的外在因素,研究者采用整群抽样,在某中心城区和远城区的初中学校,各选择初一年级一个班的全部学生进行调查,针对上述问题,可采用Logistic回归筛选影响因素。()

答案:错Logistic回归模型的参数估计为加权最小二乘估计。()

答案:错Logistic回归适用于因变量为()

答案:多分类有序变量;多分类无序变量;二分类变量筛选危险因素常用的方法有()

答案:都可当因变量的取值在[0,1]变化,而自变量的取值范围超出了[0,1],甚至在整个实数轴上取值时,可以采用Logistic回归模型解决这个问题。()

答案:错关于不完全共线性,如下哪个说法是正确的?()。

答案:两个或者多个自变量是高度相关的在多元回归分析中,回归系数可以直接用来评价自变量的重要性。()。

答案:错多重共线性会导致回归系数不显著、回归系数正负号颠倒等与常识违背的现象。()。

答案:对

答案:对虚拟变量陷阱(dummyvariabletrap)是以下哪个情形?()。

答案:完全多重共线性考虑有两个自变量X1和X2的回归模型,这两个自变量都是Y的影响因素。如果先使用X1对Y做回归,估计得到的回归系数很小,但是同时使用X1,X2做回归,发现X1前面的回归系数变大了很多。这意味的前面的一元线性回归存在___.()。

答案:遗漏变量偏差

答案:如果模型有遗漏变量偏差,会使得哪一个最小二乘的假设条件不满足?.()。

答案:如果回归模型中遗漏了能够影响因变量的变量,会产生的后果是___.()。

答案:如果遗漏的变量和现存的变量相关,会使得当前的最小二乘估计量有偏

答案:未受过高等教育的群体判别一元线性回归是否显著不仅可以使用t检验,也可以使用F检验.()。

答案:对用于建立回归模型的样本是否独立不会影响OLS对回归系数的估计结果()。

答案:错回归分析前,要先通过相关系数或散点图观察变量之间是否存在线性关系.()。

答案:对在一元线性回归中,如果因变量与自变量存在明显的正相关关系,那么其回归系数将显著大于0()。

答案:对散点图也可以用来观察样本中是否存在离群点.()。

答案:对将因变量的值扩大10,将自变量的值同时扩大100,则___.()。

答案:

答案:一元线性回归的基本假设有___.()。

答案:如果一个假设在5%的显著水平下不能被拒绝,则它___.()。

答案:在1%的显著水平下一定不会被拒绝

答案:

答案:

答案:估计量具有抽样分布的原因是___.()。

答案:在给定X的情况下,误差项的不同实现会导致Y的取值有所不同误差项的异方差会影响OLS估计量的___.()。

答案:最优性

答案:解释变量X有更多变差判断总体是否服从正态分布的方法除了图形法外,还可以使用检验的方法.()。

答案:对方差分析是分析数值变量与分类变量之间关系的统计方法,可以在一个模型中包括任意多的分类变量.()。

答案:错方差分析对各水平方差的假设条件应满足___.()。

答案:方差相等设因素有k个水平,若每个水平的均值用表示,那么方差分析的原假设是___.()。

答案:H0:各水平的均值相等和H0:自变量与因变量无关都可以在方差分析中,效应量是指随机误差与总体误差之比.其值越大,拟合效果越差.()。

答案:错检验因素各水平是否服从正态分布的方法有__.()。

答案:都可以方差分析对数据分布的假设前提___.()。

答案:总体服从正态分布无论总体是否服从正态分布,都可以使用非参数方差分析方法来实现方差分析.()。

答案:对单因素方差分析的效应量反应___.()。

答案:处理效应平方和SSA与总平方和SST的比例对于方差分析而言,要比较任意两个水平的均值是否相等,可以使用LSD多重比较或t检验.()。

答案:对

答案:对

答案:对

答案:两个类别变量是否独立

答案:一致性检验

答案:对

答案:该检验应该构造Z统计量来检验

答案:该检验应该构造t统计量来检验对于一个总体均值的假设检验,应该选用哪个统计量来检验(已知样本量大于50).()。

答案:Z统计量下面关于假设检验两类错误正确的是.()。

答案:降低第一类错误的概率,会增加犯第二类错误的概率下面关于假设检验两类错误正确的是.()。

答案:

答案:

答案:接受原假设

答案:检验前,要先检验方差是否相等

答案:

答案:-0.5无论样本量大小,样本比例的区间估计都是相同的.()。

答案:错

答案:错在构造总体均值的置信区间的过程中,首先需要确定分位数,关于分位数确定正确的是.()。

答案:分位数同时由样本量和总体方差是否已知决定矩估计和似然估计都可用来估计总体的未知参数.()。

答案:对关于配对的两个总体均值之差的置信区间的说法正确的是.()。

答案:要先对配对样本做差值,得到差值序列假设X和Y是分别来自正态总体的两个样本,总体均值都已知且相等,那么构成总体方差之比的置信区间的F分位数的第一自由度和第二自由度总是相等的.()。

答案:错关于两个总体均值之差的置信区间的形式说法正确的是.()。

答案:两个总体均值之差的点估计±分位数×标准误关于置信区间的构造,正确的是.()。

答案:置信区间的宽度会受到总体方差或样本方差的影响关于两个正态总体方差之比的置信区间,正确的是.()。

答案:置信区间不可能包含0标准误就是样本的标准差.()。

答案:错卡方分布和t分布都是由正态分布导出的.()。

答案:对某汽车电瓶商声称其生产的电瓶具有均值为60个月,标准差为6个月的寿命分布。现假设质检部门决定检验该厂的说法是否准确,为此随机抽取了50个该厂生产的电瓶进行寿命实验。假设厂商声称是正确的,则50个电瓶的平均寿命的抽样分布为N(60,6).()。

答案:错设从一个均值μ=10、标准差σ=0.6的总体中随机选取容量为n=36的样本。假定总体不是很偏,则样本均值在总体均值附近0.1范围内的近似概率大于0.7.()。

答案:错设X~N(16,4),则10X~N(160,40).()。

答案:错假定某统计人员在其填写的报表中有2%至少会有一处错误,如果我们检查一个由600份报表组成的随机样本,其中至少有一处错误的报表所占的比例在0.025~0.070之间的概率大于20%.()。

答案:错设某地有甲乙两种报纸,该地成年人中有30%读甲报纸,15%读乙报纸,10%两种报纸都读,则成年人中有5%至少读一种报纸.()。

答案:错当两事件A和B互斥时,P(A∪B)有可能大于P(A)+P(B).()。

答案:错设X~N(0,1),则P(X<1.5)<0.9.()。

答案:错随机变量可分为连续型随机变量和离散型随机变量.()。

答案:对设有1000件产品,其中850件是正品,150件是次品,从中依次抽取2件,2件都是次品的概率是0.025.()。

答案:错外键是另外一个数据表中观测样本的唯一标识.()。

答案:对外连接包括:内连接、左连接、右连接、全连接.()。

答案:错内连接是一种最简单的连接,内连接匹配两个数据表中键值相等的观测样本.()。

答案:对合并连接是把两个表格组合在一起的数据操作方式.()。

答案:对主键是数据表中观测样本的唯一标识.()。

答案:对下面关于table()函数说法正确的是?()。

答案:table()函数本质是实现分类变量的频数统计;tabl

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论