CDA数据分析师Level Ⅱ考试题库（含答案）

上传人：r*** IP属地：山东上传时间：2022-10-31 格式：DOCX 页数：96 大小：2.61MB 积分：15 举报 版权申诉

已阅读5页，还剩91页未读，继续免费阅读

版权说明：本文档由用户提供并上传，收益归属内容提供方，若内容存在侵权，请进行举报或认领

文档简介

PAGEPAGE96CDA数据分析师LevelⅡ考试题库（含答案）一、单选题1.单因素方差分析中,计算F统计量,其分子与分母的自由度各为A、r-n,n-rB、n-r,r-1C、r,nD、r-1,n-r答案：D2.研究性别与是否失眠的相关性,可以用A、偏度B、卡方检验C、F检验D、T检验答案：B3.下面关于回归分析,说法错误的是?A、按照自变量和因变量的函数关系来分类,可以分为线性回归分析和非线性回归分析B、非线性回归问题可以转化为线性回归C、线性回归对异常值不敏感D、按照自变量和因变量的个数来分类,可分为一元回归分析和多元回归分析答案：C4.主成分分析法的主要作用是A、剔除异常值B、控制变量C、正则化D、降维答案：D5.在推导线性回归参数时,我们会做出以下哪些假设?(1)因变量y和预测变量x之间的真实关系是线性的;(2)模型的误差在统计意义上是独立的;(3)误差通常分布是均值为0,且标准差为常数;(4)预测变量x是非随机的,而且不存在测量误差A、1,2,3,4B、1,2,3C、1,3,4D、1,2答案：A6.以下哪种情境更适合使用线性回归?A、考察广告费对产品销售量的影响B、考察目标客户的行为规则,做出用户画像C、考察五个城市居民的有效收入的差异是否显著D、考察哪些客户最终是否购买产品答案：A7.以下哪个不是分群标签的用途?A、服务于产品和服务匹配策略B、定位客户的需求C、建立对客户的洞察D、解决工作的效率问题答案：D8.主成分分析的前提条件是各变量之间应该满足A、低度相关B、相互独立C、完全相关D、高度相关答案：A9.某电商的年销售量呈现Xt=0.72Xt-1+0.81Xt-2+εt,则xt为()A、ARIMA(n,m)B、AR(n)C、MA(m)D、ARMA(n,m)答案：B10.用户分层是在用户管理时最常被使用的标签类型,其中RFM模型是指()A、投入、效率、产出B、成交率、客流、客单价C、首次购买时间、消费频率、消费金额D、最近购买时间、消费频次、消费金额答案：D11.将原始数据进行整合、变换、特征降维、缺失值处理是在以下哪个步骤的任务A、数据预处理B、数据挖掘C、分类和预测D、模式发掘答案：A12.问卷测量通常可以从态度测量、能力测量等角度测试用户评分,一般来说态度测量经常使用的量表是哪一类?A、哥特曼(guttman)量表B、李克特5点测量量表C、李克特3点测量量表D、李克特9点测量量表答案：B13.假设我们使用LogistiC.回归模型分析n类分类问题,在这种情况下,我们可以使用留一法(One-vs-rentmothoD.)。关于这个问题,下面哪个选项是正确的A、我们需要在n类分类问题中拟合n+1个模型B、我们需要在n类分类问题中拟合1个模型C、我们需要在n类分类问题中拟合n个模型D、我们需要在n类分类问题中拟合n-1个模型答案：D14.针对该公式y(t)=3xy(t-1)+2xy(t-3)是()阶的时间序列A、1B、3C、2D、4答案：B15.在逻辑回归输出与目标对比的情况下，以下评估指标中哪一项不适用?A、均方误差B、AUC-ROCC、LoglossD、准确度答案：A16.能够用于总体估计的是A、自愿抽样B、滚雪球抽样C、方便抽样D、系统抽样答案：D17.某分析师希望通过聚类算法进行欺诈分析,发现结果不是很理想。下列方法中哪项不能为聚类效果带来提升?A、对变量进行主成分分析B、对变量进行变量聚类C、对变量进行分箱处理D、对变量进行标准化答案：C18.在因子分析中,为了帮助解释因子,可以使用()A、因子负载B、因子得分C、因子旋转D、主成分分析答案：C19.以下哪种方法可以用于仓析面板数据A、自回归法(A.R)B、移动平均值法(MA.)C、随机效应法(RM)D、差分法答案：C20.多元线性回归中,检验异方差的方法是?A、如果回归拟合值与自变量相关则存在异方差B、如果回归残差与因变量相关则存在异方差C、如果回归因变量与自变量相关则存在异方差D、如果回归残差与自变量相关则存在异方差答案：B21.从两个总体中独立选取两个样本,两个总体的方差未知,但是样本为大样本,则两个总体的平均值之差的估计需要用到A、正态分布B、卡方分布C、F分布D、t分布答案：C22.在方差分析中,多重比较的目的是通过配对比较来进一步检验A、哪两个样本均值之间有差异B、哪两个样本方差之间有差异C、哪两个总体方差之间有差异D、哪两个总体均值之间有差异答案：D23.以下哪个不属于根据麦肯锡问题分析方法中的分类:A、问题解决型问题B、追求理想型问题C、恢复原状型问题D、防范潜在型问题答案：A24.时间序列MA(q)模型,其中q指的是()A、时间序列的偏自相关系数是q阶截尾的B、时间序列的自相关系数是q阶拖尾的C、时间序列的偏自相关系数是q阶拖尾的D、时间序列的自相关系数是q阶截尾的答案：D25.为了估计北京市使用华为品牌手机的市场占有率,在收集数据时,最有可能采用的数据搜集方法是?A、方便抽样B、配额抽样C、实验D、随机抽样答案：D26.以下哪个不属于根据麦肯锡问题分析方法中的分类:A、恢复原状型问题B、防范潜在型问题C、问题解决型问题D、追求理想型问题答案：C27.回归模型犹如一列火车,引擎牵引的列车节箱数受速度、动力等因素所限,并不能无限增加,否则这列火车会存在安全隐患,回归也存在这类由维度(列车节箱)所引起的安全问题,因此,在数据挖掘的场景中,认为自变量的维度最好不要超出15个,那么控制自变量个数的方法主要是哪种?A、因子分析B、卡方分析C、方差分析D、相关分析答案：A28.关于K-MeA.ns算法,正确的描述是?A、不能使用核函数B、能找到任意形状的聚类C、初始值不同,最终结果可能不同D、每次迭代的时间复杂度是0(n2),其中n是样本数量答案：C29.一个一元线性回归模型的判定系数R2=0.8,那么下列解释中错误的是()A、在训练集中,因变量的估计精度上限为80%B、自变量与因变量之间有着较强的线性关系C、在因变量的变动中有80%是由自变量所决定的D、因变量的变差中有80%的概率可以由自变量与因变量之间的线性关系来解释答案：A30.多元线性回归中F检验的原假设是A、所有回归系数都等于预估值B、所有回归系数都不等于预估值C、所有回归系数都不等于0D、所有回归系数都等于0答案：D31.以下哪种方法可以用于分析面板数据A、自回归法(AR)B、差分法C、随机效应法(RM)D、移动平均值法(MA)答案：C32.以下关于一元线性回归分析y=bo+bix+s描述错误的是?A、一元线性回归中F检验的检验统计量与t检验是一致的B、若用于预测的x数值与样本中的自变量偏差很大,那么预测得到y的可靠性也会降低C、即便建立了一元线性回归,也不能直接认为x是y的原因D、一元线性回归中F检验的作用与t检验是一致的答案：A33.假设我们使用Logistic回归模型分析类分类问题。在这种情况下,我们可以使用留一法(One-vs-restmethod).关于这个问题,下面哪个选项是正确的A、我们需要在n类分类问题中拟合1个模型B、我们需要在n类分类问题中拟合n-1个模型C、我们需要在n类分类问题中拟合n+1个模型D、我们需要在n类分类问题中拟合n个模型答案：B34.对于一元线性回归,回归系数显著性检验需要用到A、Z检验B、t检验C、卡方检验D、F检验答案：B35.有一款产品的重量标准为10克,现在分别用A和B两个厂家来生产这一产品,分别各随机抽取50个样品,A厂生产的样本重量的标准差为0.01,B厂生产的样本重量的标准差为0.1,现在需要比较两家广商在产品重量指标是否有显著差异,我们应该选择A、单侧t检验B、双侧t检验C、单侧F检验D、双侧F检验答案：B36.应用回归分析应注意的问题,下面说法错误的是?A、回归分析的自变量选取要符合业务需要,选择合适的数据资料B、回归分析的自变量必须是连续型数据C、应用回归分析时,要注意时间窗口的一致性D、因为回归分析是研究自变量与因变量的因果关系,所以要注意孰因孰果答案：B37.在进行多元线性回归分析时,对于变量较多的情况下,可以选择变量筛选方法,下列不正确的是A、交叉验证法B、向后剔除法C、向前选择法D、逐步法答案：A38.回归分析中定义的A、解释变量和被解释变量都为非随机变量B、解释变量为非随机变量,被解释变量为随机变量C、解释变量和被解释变量都是随机变量D、解释变量为随机变量,被解释变量为非随机变量答案：B39.若线性规划问题没有可行解,可行解集是空集,则此问题()A、没有无界解B、没有无穷多最优解C、有无界解D、没有最优解答案：D40.主成分分析的前提条件是各变量之间应该满足A、低度相关B、完全相关C、相互独立D、高度相关答案：A41.在时间序列分析中,指数平滑法的平滑系数A.的取值A、越小越好B、取值范围在-1到1之间C、取值范围在0到1之间D、越大越好答案：C42.以下关于系统聚类的描述中,错误的是()A、系统聚类也叫层次聚类B、系统聚类适用于数据量非常大或者变量非常多的项目C、系统聚类法通常分为自底向上和自顶向下D、系统聚类的过程非常清楚,会形成类似树状的聚类图谱,便于理解和检查答案：B43.下列关于主成分分析的表述不正确的有()A、所确定的几个主成分之间是高度相关的B、所确定的几个主成分之间是互不相关的C、使用主成分分析方法的前提是原来的多个指标之间是相关的D、主成分分析的目的是寻找少数几个主成分代表原来的多个指标答案：A44.在系统聚类中,我们需要定义两个类之间的距离,下列哪种方法能够缓解异常值对计算距离造成的影响?A、离差平方和法B、最短距离法C、最长距离法D、以上都不是答案：A45.多元线性回归中,检验异方差的方法是?A、如果回归拟合值与自变量相关则存在异方差B、如果回归残差与因变量相关则存在异方差C、如果回归残差与自变量相关则存在异方差D、如果回归因变量与自变量相关则存在异方差答案：C46.多元线性回归中检验的原假设是A、对应单个回归系数等于0B、对应单个回归系数不等于0C、对应单个回归系数等于预估值D、对应单个回归系数不等于预估值答案：A47.如果时间序列的各期增长量相等,A、各期环比增长速度有升有降B、环比增长速度逐期上升C、各期的环比增长速度保持不变D、环比增长速度逐期下降答案：D48.某电商的年销售量呈现Xt=0.72Xt-1+0.81Xt-εt，则xt为()A、RIMA(n,m)B、MA(m)C、ARMA(n,m)D、AR(n)答案：D49.方差分析的主要目的是判断()A、各样本数据之间是否有显著差异B、分类型因变量对数值型自变量的影响是否显著C、分类型自变量对数值型因变量的影响是否显著D、各总体是否存在方差答案：C50.下面关于选择何种机器学习建损思路,说法错误的是?A、当需要获得特征与目标间的关系时,需建立有监督模型B、当需要获得特征与特征间的关系时,需建立无监督模型C、在反欺诈领域,当没有反欺诈人群时,可用有监督模型来识别用户D、在反欺诈领域,当已知有欺诈观测时,可用有监督模型来识别用户答案：C51.针对字段"用户姓名”,下列方法最适宜的是()A、需要编码为分类变量B、需要编码为数值变量C、需要编码为二分变量D、需要编码为字符变量答案：D52.研究职业与收入的相关性可以使用A、F检验B、方差分析C、t检验D、皮尔逊相关系数答案：C53.市场调查主要用于解决的问题是以下哪一类?A、关联问题B、归因问题C、预测问题D、细分问题答案：D54.绩效考核问题中,不合理项的选择是多选项,如果并不强调择的个数,而强调选择的题项,则使用的多选题编码方式为?如下图:项所示:A、与项的设置相同B、多重响应的多分法C、多重响应的二分法D、与开放题项的设置相同答案：B55.下面关于关系型数据库描述错误的是?A、RDBMS指的是关系型数据库管理系统,RDBMS中的数据存储在被称为表(tables)的数据库对象中B、所有数据库系统均要求在每条SQL命令的末端使用分号,否则会运行报错C、SQL语言对大小写不敏感D、SQL是指结构化查询语句,是一种ANS的标准计算机语言答案：B56.以下哪个不属于标签加工方式区分的分类?A、行为标签B、统计标签C、模型标签D、基础标签答案：A57.建立模型,拆分数据集为训练集和测试集的一般比例为?A、5:5B、7:3C、9:1D、6:4答案：B58.关于逻辑回归分析说法正确的是A、逻辑回归中的因变量和自变量均为分类变量B、逻辑回归中因变量为分类变量C、逻辑回归中自变量为分类变量D、逻辑回归中,因变量和自变量均为连续型变量答案：B59.下列哪项不是主成分分析的推荐应用?A、作为线性回归的替代算法:对于大多数学习应用,主成分分析和线性回归给出了基本相似的结果B、数据压缩:减少输入数据的维数,并用于监督学习算法,能够使监督学习算法运行得更快C、数据可视化,减少输入数据的维数,能够将数据在2D平面中进行绘制D、数据压缩:减少输入数据的维数,使得数据占用更少的内存/磁盘空间答案：A60.关于用户画像的说法错误的是()A、用户标签必须描述客观的事实B、用户画像本质上是应用用户标签做客群定位C、用户画像的标签分为定量标签和定性标签D、用户画像的应用场景有:产品设计,营销推荐,风险控制等答案：A61.总体方差未知情形下,进行两个总体均值差的假设检验,首先会判别A、总体均值是否相等B、样本均值是否相等C、总体方差是否相等D、样本方差是否相等答案：C62.在方差分析中,多重比较的目的是通过配对比较来进一步检验()A、哪两个样本方差之间有差异B、哪两个样本均值之间有差异C、哪两个总体方差之间有差异D、哪两个总体均值之间有差异答案：D63.多元线性回归y=b0+b1x1+b2x2...+bnxn+8进行线性关系检验时，原假设是?A、bo=b1=bn=0B、b1=...=bn=0C、b1..,bn中存在任意一个不为0D、b0,b1..bn中存在任意一个不为0答案：B64.若你获得数据分析需求,需要分析同一客群,产品改造对客户是否满意是否有显著差异,你可以使用什么方法?A、单样本T检验B、独立样本T检验C、配对样本T检验D、卡方检验答案：C65.下列对K-means聚类算法解释正确的是()A、不能自动识别类的个数,随机挑选初始点为中心点计算B、能自动识别类的个数,不是随机挑选初始点为中心点计算C、不能自动识别类的个数,不是随机挑选初始点为中心点计算D、能自动识别类的个数,随机挑选初始点为中心点计算答案：A66.针对5WHY,以下表述不正确的是A、只是单纯地把Why重复5次以上是行不通的B、随着问为什么的推进,内容必须变得更加具体、详细C、要避免一切抽象、模糊的表达方式D、5W就是要思考5个为什么答案：D67.在一次年级考试中随机抽取100名学生,并将数学成绩分成五段:50-69,70-89,90-109,110-129130-150它的频率分布直方图如下,则该批学生中成绩不低于90的人数是?A、70B、65C、80D、90答案：B68.对A.,B.两个总体方差比进行区间估计,在95%置信水平下,得到的置信区间是(0.6,0.9),以下叙述正确的是()A、如果希望降低估计误差,可以增加样本量B、总体方差比应该等于0.65C、(0.6,0.9)覆盖了总体方差比D、提高置信水平,可以使得区间变小答案：A69.在系统聚类中R2是指()A、组内离差平方和除以组间离差平方和B、组间均方除以总均方C、组间离差平方和除以总离差平方和D、组间离差平方和除以组内离差平方和答案：C70.标准化残差图主要用于直观地判断A、回归模型的线性关系是否显著B、误差项等方差的假定是否成立C、误差项服从正态分布的假定是否成立D、回归系数是否显著答案：C71.变量之间的关系可以分为两大类A、函数关系与相关关系B、简单相关关系和复杂相关关系C、线性相关关系和非线性相关关系D、正相关关系和负相关关系答案：A72.关于K-means聚类算法的特点,下列说法错误的是()A、K-means对于噪声比较敏感B、当处理较大数据集时,无法保持可伸缩性和高效率C、不能对变量进行聚类D、当簇近似为正态分布时,效果较好答案：C73.在管理类鱼骨图中,“人”的因素一般放在哪个层次上?A、大要因B、中要因C、孙要因D、小要因答案：A74.用于描述数据的数据或关于数据的结构化数据的是?A、主数据B、元数据C、数据元D、交易数据答案：B75.当一元线性回归模型的残差出现异方差时,可以尝试哪项工作()A、自变量做归一化处理B、对自变量做非线性变换C、对因变量做线性变换D、对自变量做线性变换答案：B76.某学校组织投篮比赛,在预赛中每个同学需要投篮100次,成绩前50%的将进入决赛,现在小明一共投中了48次,他希望评估自己是否有希望参加决赛,因此将他的成绩与全校成绩的()进行比较是最合理的。A、平均数B、中位数C、众数D、四分位差答案：B77.正态曲线下,从均数到+0o的面积为A、0.95B、0.35C、不确定,和标准差有关D、0.5答案：D78.如果我们拿到一份数据,直接对这组数据建模型肯定会造成一系列的问题,因此是需要进行预分析,而关于预分析描述错误的是?A、数据维度本身比较多,容易产生高维灾难问题,因此需要进行降维B、数据可能会受到各种干扰,因此会产生各种误差,需要进行数据清理C、统计模型有很多假设,这些假设需要满足,因此需要做统计上的准备工作D、统计模型有固定的数据清理流程,不建议改变答案：D79.下面关于主成分分析,说法错误的是?A、将大量相关变量转化成一组很少的不相关变量,这些无关变量称为主成分B、主成分分析是一种数据降维技术,能够过滤掉不相关变量C、主成分是变量的线性组合D、使用PC.A.可将30个相关的变量转化为5个无关的变量,并且尽可能地保留原始数据集的信息答案：B80.当我们对一份数据进行建模分析时,如果出现数据集变量数较多,而对应的样本数相对较少的情况,下列哪种处理方法不能提升被型的适用性:A、主成分分析B、样本聚类C、增加样本量D、变量聚类答案：B81.在二元线性回归模型Yi=B.0+B.1Xu+B.2X2i+ui中,B.1表示A、当x1不变时,x2每变动一个单位Y的平均变动B、当x1和x2都保持不变时,Y的平均变动C、当x2不变时,x1每变动一个单位Y的平均变动D、当x1和x2都变动一个单位时,Y的平均变动答案：C82.时间序列MA.(q)模型,其中q指的是()A、时间序列的偏自相关系数是q阶拖尾的B、时间序列的自相关系数是q阶截尾的C、时间序列的偏自相关系数是q阶截尾的D、时间序列的自相关系数是q阶拖尾的答案：B83.以下关于一元线性回归分析y=B.o+B.ix+描述错误的是?A、一元线性回归中F检验的作用与t检验是一致的B、一元线性回归中F检验的检验统计量与t检验是一致的C、若用于预测的x数值与样本中的自变量偏差很大,那么预测得到y的可靠性也会降低D、即便建立了一元线性回归,也不能直接认为x是y的原因答案：B84.若想要对一个电商企业的产品销售状况和销售趋势进行数据可视化,最佳的图表表示方式为()A、直方图B、条形图和趋势线组合图C、饼图D、气泡图答案：B85.如果x和Y在统计上独立,则相关系数等于A、0B、00C、-1D、1答案：A86.以下哪个不是分群标签的用途?A、定位客户的需求B、解决工作的效率问题C、建立对客户的洞察D、服务于产品和服务匹配策略答案：B87.K-MeA.ns聚类法要求自变量之间不存在共线性的原因是()A、变量存在多重共线性时无法解释聚类结果B、变量存在多重共线性时无法得到聚类结果C、变量存在多重共线性时,得到的聚类结果是完全错误的D、变量存在多重共线性时,相关变量会在距高计算中占据高的权重,从而对聚类结果有负面的影响答案：D88.线性规划问题若有最优解,则一定可以在可行域的()上达到A、内点B、外点C、几何点D、顶点答案：D89.在方差分析中,检验统计量F是?A、组间均方除以组内均方B、组间平方除以总平方和C、组间平方和除以组内平方和D、组间均方除以总均方答案：A90.在方差分析中,检验统计量F是A、组间均方除以总均方B、组间均方除以组内均方C、组间平方除以总平方和D、组间平方和除以组内平方和答案：B91.对于因子分析说法错误的是A、因子载荷绝对值越大代表相应的公共因子表达变量的信息越少B、所有公共因子的因子载荷和随机因子的平方和越接近1,则说明因子分析的效果越好C、公共因子的方差贡献,即在所有变量中该公共因子的因子载荷的平方和,可以衡量公共因子能提供多少信息D、因子分析和主成分分析一样,都是一种降维的统计方法答案：A92.对于逻辑回归和SVM算法说法中不正确的是()A、逻辑回归可以用于预测事件发生概率的大小B、SVM可以有效避免模型过拟合C、逻辑回归的目标是最小化后验概率D、SVM的目标是最小化结构风险答案：C93.关于系统聚类,下列说法正确的是?A、系统聚类之前需要先给出各个类别的初始类中心B、系统聚类之后,模型能给出唯一的分类别数量C、系统聚类之后,类别数量需要参考聚类过程给出D、系统聚类之前需要先给出聚类的数量答案：C94.下列哪项不是主成分分析的推荐应用?A、数据可视化:减少输入数据的维数,能够将数据在2D.平面中进行绘制B、作为线性回归的替代算法,对于大多数学习应用,主成分分析和线性回归给出了基本相似的结果C、数据压缩:减少输入数据的维数,使得数据占用更少的内存/磁盘空间D、数据压缩:减少输入数据的维数,并用于监督学习算法,能够使监督学习算法运行得更快答案：B95.针对字段"用户姓名”,下列方法最适宜的是?A、需要编码为数值变量B、需要编码为二分变量C、需要编码为分类变量D、需要编码为字符变量答案：D96.以下哪类不属于分层标签?A、RFMB、VIP客户级别C、生命周期阶段D、家庭状态答案：D97.线性规划模型不包括下列()要素A、约束条件B、决策变量C、目标函数D、状态变量答案：D98.在对某个多元线性回归模型的分析中,如果某自变量的VIF=1,这说明()A、此多元回归模型的R2=0B、此模型存在非常严重的共线性C、此自变量与因变量不存在线性相关性D、此自变量与其他自变量不存在线性相关性答案：D99.在因子分析中,为了帮助解释因子,可以使用()A、因子负载B、主成分分析C、因子旋转D、因子得分答案：C100.两个变量y与x的回归模型中,分别选择了4个不同模型,它们的决定系数R方如下,其中拟合效果最好的模型是()A、R方=0.98B、R方=0.50C、R方=0.25D、R方=0.80答案：A101.已知某一元线性回归模型的判定系数R2=0.64,则自变量与因变量之间的相关系数为()A、0.6B、1.0C、0.8D、0.4答案：C102.某手机生产商希望研发一款新型的手机及配置选项,需要对全国的目标用户进行调研,项目时间为一个月,经费20万,请问此时使用哪种调研方式比较合适?A、问卷调查6000人B、定性访谈20人+问卷调查300人C、定性访谈500人D、定性访谈200人+问卷调查200人答案：B103.问题理解阶段事件还原工具是哪个?A、关键事件B、雷达图C、绩效矩阵或严重度评估矩阵D、流程图答案：D104.市场调研的量表中,量表中所表示的只能是差距关系和顺序关系,不具备真正的零点的量表是?A、顺序量表B、等距量表C、类别量表D、等比量表答案：B105.已知某公司的广告投入和销售业绩复合y=564.23+0.59x(单位:万)的形式,下面说法正确的是?A、投入产出比大于1B、投入产出比小于1C、若广告每投入1万元,销售业绩增加59万元D、如果没有广告投入,销售业绩为564.23百万元答案：B106.有关根因分析下列说法不正确的是?A、异常事件严重度评估准则可以用理解问题B、根因分析最后一步是提出改善措施,消除根原因C、头脑风暴法常用于找到问题最可能的原因D、只能用5WHY分析法确定根原因答案：D107.当我们对一份数据进行建模分析时,如果出现数据集变较多,而对应的样本数相对较少的情况,下列哪种处理方法不能提升模型的适用性A、变量聚类B、增加样本量C、主成分分析D、样本聚类答案：D108.关于主成分分析的特点,理解错误的是A、前几个主成分的变异无法解释原多元数据中的所有变异B、如果原始变量不相关,即协方差为0,则不需要做主成分分析C、有多少个变量就会有多少个正交的主成分D、主成分的变异之和等于原始变量的所有变异答案：C109.在建立线性回归模型时,因变量与自变量之间非线性相关,以下做法正确的是?A、剔除掉自变量的高杠杆点B、对自变量进行变量变换C、剔除掉自变量的离群点D、对因变量进行变量变换答案：B110.关于混淆矩阵,下面说法错误的是?A、预测为真,实际为假,标记为FN(FA.lseNegA.tive)B、召回度(reC.A.l1)计算公式为TP/(TP+FN),表示真实为真中有多少被预测正确C、预测为真,实际为真,标记为TP(TruePositive)D、精准度(preC.ision)计算公式为TP/(TP+FP),表示预测为真中有多少真实为真答案：A111.关于K-Means算法,正确的描述是A、不能使用核函数B、每次选代的时间复杂度是0(n2),其中n是样本数量C、能找到任意形状的聚类D、初始值不同,最终结果可能不同答案：D112.线性规划问题是针对()求极值问题A、约束B、秩C、目标函数D、决策变量答案：C113.在线性回归分析中,当发现自变量之间相关性较强时,可以采用A、Lasso回归B、广义线性回归C、非线性回归D、逻辑回归答案：A114.在方差分析中,数据的误差是用平方和来表示的。其中反映一个各观测值误差大小的平方和称为A、水平项平方和B、总平方和C、组间平方和D、组内平方和答案：D115.样本预设分类的情况下,通过样本的现有特征对样本进行分类的方法称为()A、关联规则发现B、分类分析C、描述性分析D、聚类分析答案：B116.某客户为欺诈的概率为0.6,则优势比为?A、0.6B、1.5C、0.085416667D、0.4答案：B117.线性规划问题是针对()求极值问题A、秩B、目标函数C、约束D、决策变量答案：B118.基于对未来的预测和在可选策略集上得到的行动方案,称为A、策略B、信息C、数据D、知识答案：A119.以下说法不正确的是?A、鱼骨图不只用于根原因定位,还用于分析对策B、因果图包括传统鱼骨图和过程图,但是都是以鱼骨图的形式体现的C、对策型的鱼骨图鱼头在右,特性值通常以“如何提高?"来写D、原因型鱼骨图的鱼头在右,特性值通常以“为什么?“来写答案：C120.在数据库设计的需求分析阶段,一般采用()表示业务流程分析的结果A、数据流图B、程序结构图C、E-R图D、程序框图答案：A121.某商店为了计算商品的热销程度,可以通过计算商品的A、偏度B、平均数C、众数D、加权平均数答案：A122.全国性大规模调查,通常需要多种抽样方法,而多段集群抽样(muti-stageclustersampling)提供了多种整合技术,据此说法正确的是?A、是指在第一个阶段先抽出一部分集群,然后在下一阶段选中的集群中,再抽出一部分集群,到最后阶段再抽取若干基本单元(最小单位)B、大规模抽样最多使用到两阶段抽样,因为误差无法控制C、抽样阶段每增加一级,其抽样误差不变,因此最终对总体的估计与简单抽样相同D、如果是全国性调查的多段集群抽样,其最小单元只能是行政区块村,不能是个人答案：A123.关于相关关系,下面说法正确的是?A、相关关系必是因果关系,因果关系不一定是相关关系B、完全不相关时,相关系数为0C、从相关程度分为强相关和弱相关D、相关关系按照方向分为线性相关和非线性相关答案：B124.5WHY分析法又被称为A、矩阵分析法B、因果分析法C、头脑风暴法D、五问分析法答案：D125.在鱼骨图分析中,以下哪个是正确的?A、选取重要原因时,不要超过7项,且应标识在大要因层面B、选取重要原因时,不要超过7项,且应标识在小要因层面C、选取重要原因时,不要超过7项,且应标识在中要因层面D、选取重要原因时,不要超过7项,且应标识在最未端原因答案：D126.根原因消除工具不包括哪个?A、六项思考帽B、价值树模型C、系统发明思想D、创造性解决问题理论答案：B127.据研究发现,身高服从正态分布。则在一次抽样中,取到的身高小于等于中位数的概率为()A、0.05B、小于50%C、大于50%D、0.5答案：D128.方差分析表中用于检验总体模型假设的统计量是()A、FB、SSEC、SSTD、SSM答案：A129.当时间序列的环比增长速度大体相同时,适宜拟合A、直线B、对数曲线C、抛物线D、指数曲线答案：A130.如果时间序列的各期增长量相等,则A、各期的环比增长速度保持不变B、环比增长速度逐期上升C、环比增长速度逐期下降D、各期环比增长速度有升有降答案：C131.研究性别与是否抽烟的相关性,可以用A、卡方检验B、皮尔逊相关系数C、方差分析D、t检验答案：A132.在假设检验问题中,原假设为H0,给定显著水平为a,则正确的是()A、P(接受H0|H0正确)=aB、P(接受H0|H0不正确)=1-aC、P(拒绝H0|H0正确)=aD、P(拒绝H0|H0不正确)=1-a答案：C133.5WHY分析法又被称为A、矩阵分析法B、头脑风景法C、因果分析法D、五问分析法答案：D134.相比获得全市员工名单而言,获取全市的企业名单会容易的多,并以企业为单位随机抽样,重点调查某个企业,这样可以节省调研成本,请问这是哪种抽样方法?A、分群抽样(C.lustersA.mpling)B、简单随机抽样(simplerA.nD.omsA.mpling)C、系统抽样(systemA.tiC.sA.mpling)D、分层随机抽样(strA.tifeD.rA.nD.omsA.mpling)答案：D135.下列关于逻辑回归的说法正确的是A、逻辑回归必须对缺失值做预处理B、逻辑回归比决策树,更容易过度拟合C、逻辑回归要求自变量和目标变量是线性关系D、逻辑回归只能做2值分类,不能直接做多值分类答案：A136.研究性别与是否抽烟的相关性,可以用()A、方差分析B、卡方检验C、皮尔逊相关系数D、检验答案：B137.如何才能尽快掌握5W方法A、凡事都问几个为什么B、求教领导C、邀请专家指导D、参加培训答案：A138.K-Means聚类法要求自变量之间不存在共线性的原因是()A、变量存在多重共线性时无法得到聚类结果B、变量存在多重共线性时,相关变量会在距离计算中占据高的权重,从而对聚类结果有负面的影响C、变量存在多重共线性时,得到的聚类结果是完全错误的D、变量存在多重共线性时无法解释聚类结果答案：B139.以下哪个不是根原因分析中问题原因头脑风暴的技术和工具?A、绩效矩阵B、是非矩阵C、配对比较D、名义群组技术答案：A140.按经典假设,线性回归模型中的解释变量应是非随机变量,且()A、与随机误差项不相关B、与被解释变量不相关C、与回归值不相关D、与残差项不相关答案：A141.下列说法错误的是A、若原问题有可行解,但目标函数无界,其对偶问题无可行解B、若原问题为mA.xZ=C.X,A.XsB.,x20,则对偶问题为minW=YB.,YA.>=C.,Y>=0C、任何线性规划问题都有一个与之对应的对偶问题D、对偶问题无可行解时,其原问题的目标函数无界答案：D142.对相同的数据进行逻辑回归时,会节省时间、提高精度的做法是?A、降低学习率,减少迭代次数B、增加学习率,减少迭代次数C、降低学习率,增加选代次数D、提高学习率,增加送代次数答案：B143.当进行因子分析时,KMO值在()范围内,因子分析才是有效的A、小于0B、0.3-0.5C、0-0.2D、大于0.6答案：D144.根原因分析中解决方案实施阶段包括哪些技术和工具?A、精益价值树和因果矩阵B、力场分析和系统创新思维方法C、精益价值树和力场分析D、因果矩阵和系统创新思维方法答案：C145.关于回归分析和相关分析的区别和联系,下面说法错误的是?A、为了了解两变量直线方向的密切程度,宜选用线性相关分析B、回归方程y=kx+b中的k表示两变量间的相关程度C、为了了解自变量对因变量的影响大小,宜选用线性回归分析D、相关分析看的是因果关系答案：D146.目前收集110份问卷,数据质量控制良好,需要分析用户推荐指数(1-100评分)的影响因素,其中包括行为类6个指标。请问一般使用什么统计方法来解决这类归因问题?A、logistiC.回归模型B、深层神经网络模型C、结构方程模型D、线性回归模型答案：A147.箱线图的矩形中间的横线表示的是这组数据的()A、上四分位数B、下四分位数C、中位数D、平均数答案：C148.检验两个群体老年人口比例差,用A、t检验B、卡方检验C、F检验D、z检验答案：D149.多元线性回归中F检验的原假设是?A、所有回归系数都等于0B、所有回归系数都等于预估值C、所有回归系数都不等于0D、所有回归系数都不等于预估值答案：A150.当对多元线性回归y=bn+b1n+b2nt+__+bnxn+E，进行线性关系检验时，原假设可以设为()A、bo,b1,……bn中在任意一个不为0B、b1,……,bn中存在任意一个不为0C、b1……=bn=0D、b0=b1=……bn=0答案：C151.研究性别与是否失眠的相关性,可以用A、偏度B、卡方检验C、t检验D、F检验答案：B152.两个变量y与x的回归模型中,通常用R方来刻画回归的效果,下列叙述正确的是()A、R方越大,残差平方和越大B、R方越小,残差平方和越小C、R方与残差平方和无关D、R方越小,残差平方和越大答案：D153.回归分析中定义的A、解释变量和被解释变量都是随机变量B、解释变量和被解释变量都为非随机变量C、解释变量为随机变量,被解释变量为非随机变量D、解释变量为非随机变量,被解释变量为随机变量答案：D154.主成分分析需要考虑样本的A、协方差矩阵B、方差C、权重矩阵D、关联矩阵答案：A155.用于描述数据的数据或关于数据的结构化数据的是()A、交易数据B、数据元C、主数据D、元数据答案：D156.在线性回归分析中,发现两个变量之间存在正向线性相关,则pearson相关系数应:A、r=0B、r<0C、r>0D、r!=0答案：C157.对于数据仓库的特点下列说法中错误的是?A、将来自多个数据源的数据进行整合B、主要功能就是用来存储数据的C、数据仓库一般支撑数据和修改D、数据仓库通过ETL将数据进行清洗整合答案：C158.问题理解阶段事件还原工具是哪个?A、流程图B、雷达图C、关键事件D、绩效矩阵或严重度评估矩阵答案：A159.如果多元线性回归模型中残差不等于0,而是一个常数,那么()A、这个常数应该包含在常数项B、应该去除常数项C、型有效D、应该去除残差项答案：A160.下面关于选择何种机器学习建模思路,说法错误的是?A、当需要获得特征与特征间的关系时,需建立无监督模型B、在反欺诈领域,当已知有欺诈观测时,可用有监督模型来识别用户C、在反欺诈领域,当没有反欺诈人群时,可用有监督模型来识别用户D、当需要获得特征与目标间的关系时,需建立有监督模型答案：C161.关于用户画像的说法错误的是()A、用户画像的标签分为定量标签和定性标签B、用户画像本质上是应用用户标签做客群定位C、用户标签必须描述客观的事实D、用户画像的应用场景有:产品设计,营销推荐,风险控制等答案：C162.关于下图描述错误的是?A、横坐标x和纵坐标Y之间是正相关的B、横坐标X和纵坐标Y之间很大可能是非线性关系C、分析两者之间的关系可用逻辑回归模型D、这些散点中存在异常点答案：C163.统计软件处理的数据类型通常包括文本型、数值型、日期型等格式,那么分析师录制数据时,通常以哪种录入方式为主?A、不进行任何编码,保持原始问卷格式,这样可以保证原始信息不变性B、数值编码后,保持协方差格式录入,这种格式可以改善运行时间C、文本编码后,保持一行表示一条观测数据D、数值编码后,保持一行表示一条观测数据答案：D164.对于逻辑回归和SVM算法,说法中不正确的是()A、SVM的目标是最小化结构风险B、SVM可以有效避免模型过拟合C、逻辑回归可以用于预测事件发生概率的大小D、逻辑回归的目标是最小化后验概率答案：D165.移动平均法用于测定A、季节趋势B、循环变动C、长期趋势D、短期变化答案：C166.对于不平稳的序列进行时间序列分析可以A、差分B、微分C、积分D、不能使用答案：A167.一元线性回归方程y=3+4x,当x增加一个单位,以下哪个表述最准确?A、y平均增加7个单位B、y增加7个单位C、y增加4个单位D、y平均增加4个单位答案：D168.对一元线性回归y=b0+b1x1+ε进行F检验,其结果与对回归系数b1做t检验得到的结果()A、相同B、相反C、无法确定D、无关答案：A169.近因分析阶段(现状问题描述)不能使用的图表类型是?A、帕累托图B、折线图C、柱状图D、雷达图答案：B170.对于一元线性回归,回归系数显著性检验需要用到A、F检验B、T检验C、Z检验D、卡方检验答案：B171.数据被称为()的原材料A、元数据B、信息C、知识D、策略答案：B172.关于主成分分析的特点,理解错误的是A、有多少个变量就会有多少个正交的主成分B、前几个主成分的变异无法解释原多元数据中的所有变异C、如果原始变量不相关,即协方差为0,则不需要做主成分分析D、主成分的变异之和等于原始变量的所有变异答案：A173.样本预设分类的情况下,通过样本的现有特征对样本进行分类的方法称为()A、分类分析B、关联规则发现C、聚类分析D、描述性分析答案：A174.下列哪一项不属于5W分析的注意事项A、注意现象只记录事实B、先入为主C、注意层和层间的相关性,不要跳步D、避免找原因牵涉到了人的心理答案：D175.在假设检验问题中,原假设为H0,备择假设为H1,则错误可以表示为A、p{接受H0|H0为真}B、p{拒绝H0|H0为真}C、p{接受H1|H0为真}D、p{接受H0|H1为真}答案：D176.主成分分析算法认为数据的信息是包含在()中A、均值B、极值C、误差D、方差答案：D177.在时间序列分析中,指数平滑法的平滑系数a的取值()A、取值范围在0到1之间B、越大越好C、取值范围在-1到1之间D、越小越好答案：A178.以下哪个是快速聚类法A、系统聚类法B、层次聚类法C、两步聚类法D、K-meA.ns聚类法答案：D179.对某商品抽样调查,抽取其中400个商品,其中98%的商品合格,以下描述正确的是A、整个商品的合格率为98%B、整个商品的合格率大于98%C、根据以上信息,我们不知道整个商品的合格率比值D、整个商品的合格率小于98%答案：C180.如果多元线性回归模型中残差不等于0,而是一个常数,那么()A、模型有效B、应该去除常数项C、这个常数应该包含在常数项D、应该去除残差项答案：C181.根据马斯洛需求层次理论,其中最低层次是()A、安全需要B、地位和收入尊重需要C、感情和归属需要D、生理需要答案：D182.根原因分析的工具箱包括以下哪个数据近因分析阶段的工具A、根原因识别B、问题原因头脑风暴、数据收集、数据分析C、根原因消除D、问题理解答案：A183.应用回归分析应注意的问题,下面说法错误的是?A、应用回归分析时,要注意时间窗口的一致性B、因为回归分析是研究自变量与因变量的因果关系,所以要注意孰因孰果C、回归分析的自变量选取要符合业务需要,选择合适的数据资料D、回归分析的自变量必须是连续型数据答案：D184.下列关于主成分分析的描述错误的是?()A、是一类常用的针对连续变量的降维方法B、我们一般保留的前k个主成分累计能够解释数据80%以上的变异C、各主成分之间的方向夹角需要尽可能的大D、我们一般保留的前k个主成分中最后一个主成分对应的不应小于1答案：C185.多元线性回归y=b0+b1x1+b2x2+..+bnxn+&进行线性关系检验时,原假设是A、b1=..bn=0B、b0=b1=..=0C、b1,..,bn中存在任意一个不为0D、b0,b1,..,bn中存在任意一个不为0答案：A186.下面关于回归分析,说法错误的是?A、线性回归对异常值不敏感B、按照自变量和因变量的函数关系来分类,可以分为线性回归分析和非线性回归分析C、按照自变量和因变量的个数来分类,可分为一元回归分析和多元回归分析D、非线性回归问题可以转化为线性回归答案：A187.在进行多元线性回归模型的分析中,如果自变量的VIF=1,这说明()A、此自变量与其他自变量不存在线性相关性B、此多元回归模型的R2=0C、此模型存在非常严重的共线性D、此自变量与因变量不存在线性相关性答案：A188.若线性规划问题没有可行解,可行解集是空集,则此问题()A、没有最优解B、有无界解C、没有无穷多最优解D、有无界解(重复选项)答案：A189.统计分析涉及高维运算,因此需要对高维空间中的数据结构进行探索,以发现其内部的模式,但高维探索特别困难,所以因子分析可以将高维空间进行降维,然后探索其内部结构。下面有关因子分析说法错误的是?A、因子分析与主成分分析都是数据降维的主要手段B、数据结构探索是因子分析功能之一C、降维是因子分析的功能之一D、因子分析在探索问题上,常用于效度分析答案：B190.两个随机变量的线性相关系数为0,说明A、两个变量线性无关B、两个变量独立C、至少有一个变量是0D、两个变量无关答案：A191.某奶茶店为了预测每天订单数,建立了一个线性回归模型,其中有一个自变量为天气类型(分类变量),分为晴、阴、雨、雪等4种类型,请问如何处理这种变量?A、直接作为自变量使用B、设置哑变量C、剔除变量D、变量标准化答案：B192.对于因子分析说法错误的是A、因子分析和主成分分析一样,都是一种降维的统计方法B、所有公共因子的因子载荷和随机因子的平方和越接近1,则说明因子分析的效果越好C、因子载荷绝对值越大代表相应的公共因子表达变量的信息越少D、公共因子的方差贡献,即在所有变量中该公共因子的因子载荷的平方和,可以衡量公共因子能提供多少信息答案：C193.以下说法不正确的是?A、对策型的鱼骨图鱼头在右,特性值通常以"如何提高"来写B、鱼骨图不只用于根原因定位,还用于分析对策C、因果图包括传统鱼骨图和过程图,但是都是以鱼骨图的形式体现的D、原因型鱼骨图的鱼头在右,特性值通常以"为什么"来写答案：A194.某分析师希望通过聚类算法进行欺诈分析,发现结果不是很理想。下列方法中哪项不能为聚类效果带来提升?A、对变量进行变量聚类B、对变量进行标准化C、对变量进行主成分分析D、对变量进行分箱处理答案：D195.市场调研的量表中,量表中所表示的只能是差距关系和顺序关系,不具备真正的零点的量表是()A、等比量表B、等距量表C、类别量表D、顺序量表答案：B196.检验两个群体老年人口比例差,用()A、Z检验B、t检验C、F检验D、卡方检验答案：A197.在系统聚类中R2是指()A、组内离差平方和除以总离差平方和B、组内离差平方和除以组间离差平方和C、组间离差平方和除以总离差平方和D、组间离差平方和除以组内离差平方和答案：C198.在进行策划时,按照一定的程序进行精准营销策划的方法是A、程序法B、案例法C、计划法D、模型法答案：A199.在进行策划时,按照一定的程序进行精准营销策划的方法是A、程序法B、计划法C、模型法D、案例法答案：A200.数据被称为()的原材料A、信息B、策略C、元数据D、知识答案：A多选题1.回归分析中多重共线性的处理方法有A、逐步回归B、变量标准化C、工具变量D、岭回归答案：AD2.因果图的分析要点有哪些?A、如果某种原因可同时归属于两种或两种以上因素,请以关联性最强者为准B、脑力激荡时,应尽可能多而全地找出所有可能原因,而不仅限于自己能完全掌控或正在执行的内容,对人的原因,宜从行动而非思想态度面着手分析C、大要因必须用中性词描述(不说明好坏),中、小要因必须使用价值判断(如..不良)D、确定大要因时,现场作业一般从“人、机、料、法、环"着手,管理类问题一般从"人、事、时、地、物"层别,应视具体情况决定答案：ABCD3.反映回归直线拟合优度的指标有()A、样本决定系数B、回归系数C、相关系数D、剩余变差(或残差平方和)答案：ACD4.下列属于线性回归假设的是()A、解释变量之间不能强线性相关B、解释变量和被解释变量之间存在线性关系C、抗动项独立同分布D、解释变量和扰动项不能相关答案：CD5.线性规划模型包括的要素有()A、环境变量B、目标函数C、决策变量D、状态变量答案：BC6.多元线性回归中,内生性的解决方法有?A、变量别除B、联立方程C、工具变量D、变量转换答案：ACD7.以下属于线性回归基本假设的有A、误差项ε相互独立B、误差项ε服从正态分布C、误差项ε的期望等于1D、误差项ε的方差等于1答案：AB8.根原因分析中问题理解的常用工具包括()A、雷达图B、关键事件C、绩效矩阵D、流程图答案：ABCD9.现希望获得某地区32所小学中,所有学生的数学成绩状况,总人数为6800名,但项目费用有限,前提限定了抽样样本不能超过600个,通过调查发现,全市小学分成3个地区(根据师资、人口等因素),学生人数分别为1700,2266,2834,并且平均调查费用比为5,2:1,预调查样本标准差为12、8、14(分别对应地区一三三),下列选项说法不正确的是()A、需要分群抽样和简单抽样两项计算才能完成样本搜集工作B、分层抽样技术可以完成样本搜集工作C、可以使用简单随机抽样技术完成样本搜集工作D、使用系统抽样技术完成样本搜集工作答案：ACD10.在层次聚类中,可以用来定义两个类之间距离的方法有A、离差平方和法B、中间距离法C、最短距离法D、类平均距离法答案：ABCD11.因果图的分析要点有哪些?A、确定大要因时,现场作业一般从"人、机、料、法、环"着手,管理类问题一般从"人、事、时、地、物"层别,应视具体情况决定B、脑力激荡时,应尽可能多而全地找出所有可能原因,而不仅限于自己能完全掌控或正在执行的内容,对人的原因,宜从行动而非思想态度面着手分析C、大要因必须用中性词描述(不说明好坏),中、小要因必须使用价值判断(如、..不良)D、如果某种原因可同时归属于两种或两种以上因素,请以关联性最强者为准答案：ABCD12.给定独立同分布的随机变量,期望为u,方差为o2当样本容量趋近于无穷时,以下正确的是A、样本均值的分布与n有关B、样本的平均值的分布近似服从正态分布C、样本的均值也是随机变量D、样本的均值也是随机变量样本的平均值趋近于μ↵答案：BCD13.RFM模型是衡量客户价值和客户创利能力的重要工具和手段,以下属于RFM模型分析指标的是()A、消费金额B、消费趋势C、消费频率D、最近一次消费答案：ACD14.线性规划问题若有最优解,则最优解()A、只有一个B、会有无穷多个C、定在其可行域顶点达到D、唯一或无穷多个答案：CD15.关于K-means聚类算法说法正确的是()A、k值无法自动获取,初始聚类中心随机选择B、初始聚类中心的选择对聚类结果影响不大C、是一种无监督学习方法D、对大数据集有较高的效率并且具有可伸缩性答案：ACD16.以下哪种方法可以用于分析时间序列数据A、移动平均值法(MA)B、自回归法(AR)C、随机效应法(RM)D、差分法答案：ABD17.主成分分析方法的优点有()A、使得数据集更易使用B、去除噪声C、降低算法的计算开销D、变量更易解释答案：ABC18.使用一次多元线性回归来预测销售量,但最终模型结果无效,可能的原因有()A、序列相关B、多重共线性C、非条件异方差D、条件异方差答案：ABD19.在系统聚类中,下列哪些方法可以用来定义两个类之间距离()A、重心B、最长距离法C、中间距离法D、最短距离法答案：ABCD20.常用的聚类分析方法有A、模糊聚类B、有序样本聚类C、分层聚类D、动态聚类答案：ABCD21.市场调查经常需要使用问卷技术,下面有几种说法不正确的是?A、永远需要考虑经费问题B、借用经典问卷时,题目不能做任何改动C、多轮测试和多种方法结合通常是不必要的D、尽量借助现有资源,查阅成熟的问卷,优化并修改,以形成一套自己的问卷答案：BC22.ETL过程包含下列哪些步骤()A、装载B、整理C、转换D、抽取答案：ACD23.对于多元线性回归方法,叙述正确的是A、均方误差MSE和均方根误差RMSE是检验模型拟合优度的评的值据B、当有多个自变量可以同时影响因变量时,可以考虑建立多元线性回归模型C、多元线性回归模型中的自变量和因变量都要求是连续型变量D、多元线性回归模型的参数估计方法使用加权最小二乘法答案：ABD24.分类变量关注频数,有关下图描述正确的是A、累计占比强调变量的主次关系B、异常值才是这幅图的主要信息点C、数据波动问题是传达的最主要信息D、频数占比相比累计而言为次要信息答案：AD25.市场调查中的数据收集,涉及随机抽样样本采样,获取数据的过程需要考虑的因素,不包括哪一项?A、抽样技术及误差控制B、成本控制C、样本量及有效样本质量D、是否需随机分组答案：AD26.在参数估计中,下面哪些选项属于点估计讨论的问题?A、用样本平均数x来估计总体平均数μB、用样本比例p来估计总体比例πC、用样本方差S2来估计总体方差σ2D、用总体平均数H来估计样本平均数x答案：ABC27.在参数估计中,下面哪些选项属于点估计讨论的问题?A、用样本方差S2来估计总体方差0B、用样本比例p来估计总体比例ΠC、用总体平均数来估计样本平均数xD、用样本平均数来估计总体平均数μ答案：ABD28.对于多元线性回归模型的模型检验,主要包含以下哪几方面A、参数显著性检验B、模型拟合度检验C、模型显著性检验D、误差检验答案：ABC29.在对某网页版本进行线上AB实验时,得到实验前的AA测试和实验后的AB测试结果如下,根据z检验(z值a=0.05取1.96)以下说法正确的是A、实验前AB两组的转化率差异不显著,因此可以进行AB实验B、实验后AB两组的转化率差异显著,因此版本差异有显著影响C、实验前AB两组的转化率差异显著,因此可以不适合进行AB实验D、实验后AB两组的转化率差异不显著,因此版本差异无显著影响答案：AD30.加权算术平均数的大小的影响因素有()A、分组的组数B、变量值C、样本容量D、权数答案：BD31.下列哪些方法有助于提高聚类的有效性()A、标准化B、变量聚类C、主成分分析D、因子分析答案：ABCD32.下列情况会影响K-means聚类的效果的是()A、数据点密度分布不均B、数据点呈非凸形状分布C、数据点呈圆形状分布D、数据中有异常点存在答案：ABD33.下列哪些元素属于元数据内容()A、linkB、scriptC、metaD、title答案：ABCD34.多元线性回归过程中,需要满足的前提假设包括?A、随机误差项在不同样本点之间是相互独立的B、同方差性C、随机误差项εi应服从正态分布D、自变量之间不相关答案：ABCD35.从加工方式区分,标签可以分为哪三类?A、统计标签B、模型标签C、行为标签D、基础标签答案：ABD36.主成分分析一般需要进行以下哪些步骤A、计算协方差矩阵B、计算协方差矩阵的特征值及特征向量C、计算主成分得分D、数据标准化答案：ABCD37.在回归方程E(y)=bx+a中A、系数b和a可以利用最小二乘法确定B、拟合的程度可以用总平方和SST来测度C、拟合的程度可以用判定系数R^2来测度D、拟合的程度可以用残差平方和SSR来测度答案：AC38.根原因分析中问题理解的常用工具包括()A、绩效矩阵B、雷达图C、关键事件D、流程图答案：ABCD39.下列属于逻辑回归与多元回归分析不同点的是()A、逻辑回归回归系数的评估B、逻辑回归有较高的拟合效果C、逻辑回归预测某事件发生的概率D、逻辑回归拟合效果较差答案：ABC40.加权算术平均数的大小的影响因素有()A、权数B、样本容量C、分组的组数D、变量值答案：AD案例分析（总共36题）1.1-1.聚类分析常用的方法不包括哪个()A、动态聚类法B、合成法C、加入法D、分解法答案：B2.

2-1.针对该图，以下描述最合理的是?A、大专学历的客户对对投资品的风险忍耐力最高B、学历越高，对投资品的风险忍耐力越高C、客户的需求与对风险的忍耐程度没有明显关系D、学历越高，对投资品的风险忍耐力越低答案：C3.3-1.计算第二季度人均销售额为()A、8.22B、8.16C、8.05D、8.34答案：B4.240、某汽车生产商欲了解广告费用(x)对销售量(y)的影响，收集了过去12年的有关数据。通过计算得到下面的有关结果:4-1.回归系数的含义是什么?A、汽车销量每增加一个单位，广告费用就增加1.42个单位B、汽车销量每增加一个单位，广告费用就增加19.98个单位C、广告费用每增加一个单位，汽车销量就增加19.98个单位D、广告费用每增加一个单位，汽车销量就增加1.42个单位答案：D5.5-1.如果定义“信度”的计算方式为不同场景预测值标准差的倒数，那谁的预测值的信度最高?A、营销副总经理B、无法判断C、市场部经理D、销售经理答案：D6.6-1.则阈值取0.5时，针对出行方式"1"的召回率为()

A、0.821B、无法判断C、0.867D、0.769答案：D7.7-1.计算6月份人均销售额为A、2.87B、2.93C、2.75D、2.82答案：A8.8-1.以下哪一项不属于市场调研项目的标准流程A、目标设定B、调研前准备C、编写调研报告D、目标客户精准识别答案：D9.9-1.从聚类结果来看，与其他国家相似度最低，处于最高类别的国家是()A、巴西B、中国C、俄罗斯D、美国答案：C10.10-1.剔除七夕节效应的影响，20XX年8月21日(周六)最合理的销售额应该是多少?A、210.62万元B、239.16万元C、196.42万元D、217.79万元答案：A11.

11-1.下列说法不正确的是A、时间序列中的数值都有可加性B、时间序列分析是一种图形分析法C、时间序列是进行动态分析的基础D、时间序列分析中变量的变化可能表现为季节性变动答案：A12.

12-1.下列各项关于聚类分析的描述中，不正确的是()A、相关聚类度量是表示两个事物之间关联度的值，常见的计算方法包括SAD、SSD、MAE、MSE等B、层次聚类算法是自下而上的一种分类方法C、层次聚类算法的缺点是必须提前知道数据有多少组/类，即K值，否则会造成严重的错误和偏差D、常用的聚类算法包括层次聚类、K-均值聚类和DBSCAN聚类答案：C13.

13-1.从拟合优度表中可以看出，本次模型拟合程度如何?

A、无法评估B、非常好C、一般D、无解释力度答案：D14.14-1.则阈值取0.5时，预测的准确度为()

A、0

人人文库> 全部分类> 教育资料 > 考试试卷

温馨提示

1. 本站所有资源如无特殊说明，都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
2. 本站的文档不包含任何第三方提供的附件图纸等，如果需要附件，请联系上传者。文件的所有权益归上传用户所有。
3. 本站RAR压缩包中若带图纸，网页内容里面会有图纸预览，若没有图纸预览就没有图纸。
4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
5. 人人文库网仅提供信息存储空间，仅对用户上传内容的表现方式做保护处理，对用户上传分享的文档内容本身不做任何修改或编辑，并不能对任何下载内容负责。
6. 下载文件中如有侵权或不适当内容，请与我们联系，我们立即纠正。
7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

CDA数据分析师Level Ⅱ考试题库（含答案）

文档简介

温馨提示

最新文档

评论

CDA数据分析师Level Ⅱ考试题库（含答案）

文档简介

温馨提示

最新文档

评论

相关文档