版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
注:仅客观题第一章单元测试第二章单元测试第三章单元测试第四章单元测试第五章单元测试第六章单元测试第七章单元测试第八章单元测试第九章单元测试第十章单元测试第一章单元测试1【单选题】(2分)下面哪句话是正确的()A.机器学习模型的精准度越高,则模型的性能越好B.增加模型的复杂度,总能减小训练样本误差C.其余选项说法都不对D.增加模型的复杂度,总能减小测试样本误差2【单选题】(2分)评估模型之后,得出模型存在偏差,下列哪种方法可能解决这一问题()A.向模型中增加更多的特征B.减少模型中特征的数量C.增加更多的数据D.向模型中增加更多的特征和增加更多的数据E.其余选项全是3【单选题】(2分)以垃圾微信识别为例,TomMitchell的机器学习的定义中,任务T是什么?()A.T是性能度量B.T是垃圾微信C.T是不必要条件D.T是识别4.【多选题】(3分)正确答案:AD如何在监督式学习中使用聚类算法()?A.在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征B.在应用监督式学习算法之前,不能将其类别ID作为特征空间中的一个额外的特征C.在应用监督式学习之前,不能创建聚类D.首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法5.【多选题】(3分)正确答案:ABC想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如此大数据,如何有效地训练模型()?A.尝试使用在线机器学习算法B.使用PCA算法减少特征维度C.对训练集随机采样,在随机采样的数据上建立模型6.【多选题】(3分)正确答案:AC机器学习兴起于()。A.1980年B.1960年C.1990年D.1970年7.【多选题】(3分)正确答案:AD监督学习包括是()。A.分类B.聚类算法C.关联算法D.回归8【判断题】机器学习可以对电子商务产品评价进行好评与差评分类。()A.对B.错9【判断题】机器学习必备知识包括数学基础、心理学基础、算法设计基础、商业模式基础。()A.错B.对2【判断题】k-NN算法在测试时间而不是训练时间上进行了更多的计算。A.对B.错3【单选题】(2分)假设算法是k最近邻算法,在下面的图像中,____将是k的最佳值。A.50B.10C.20D.34【单选题】(2分)一个kNN分类器,该分类器在训练数据上获得100%的准确性。而在客户端上部署此模型时,发现该模型根本不准确。以下哪项可能出错了?注意:模型已成功部署,除了模型性能外,在客户端没有发现任何技术问题A.可能是模型过拟合B.可能是模型未拟合C.其余三个选项都不是D.不能判断5【单选题】(2分)以下是针对k-NN算法给出的两条陈述,其中哪一条是真的?1、我们可以借助交叉验证来选择k的最优值2、欧氏距离对每个特征一视同仁A.1和2B.1C.1和2都不是D.26【单选题】(2分)你给出了以下2条语句,发现在k-NN情况下哪个选项是正确的?1、如果k的值非常大,我们可以将其他类别的点包括到邻域中。2、如果k的值太小,该算法会对噪声非常敏感A.1和2B.2C.1和2都不是D.17【单选题】(2分)在下图中,下列哪一个k值可以给出最低的留一法交叉验证精度?A.1B.3C.5D.28【单选题】(2分)如果一个经过训练的机器学习模型在测试集上达到100%的准确率,这是否意味着该模型将在另外一个新的测试集上也能得到100%的准确率呢?A.是的,因为这个模型泛化能力已经很好了,可以应用于任何数据B.不行,因为还有一些模型不确定的东西,例如噪声9【单选题】(2分)关于K折交叉验证,下列说法正确的是?A.选择合适的K值,能减小验方差B.选择更大的K值,会让偏差更小,因为K值越大,训练集越接近整个训练样本C.其余选项都正确D.K值并不是越大越好,K值过大,会降低运算速度;第三章单元测试1【单选题】(2分)下面有关决策树的描述,错误的是()。A.决策树(DecisionTree)是在已知各种情况发生概率的基础上,通过构成决策树来求取净现值的期望值大于等于零的概率,评价项目风险,判断其可行性的决策分析方法B.对于决策树,数据的准备需要海量的,并且需要能够同时处理数据型和常规型属性,在相对短的时间内能够对大型数据源做出可行且效果良好的结果C.决策树易于理解和实现,人们在在学习过程中不需要使用者了解很多的背景知识,这同时是它的能够直接体现数据的特点,只要通过解释后都有能力去理解决策树所表达的意义D.决策树是一种树形结构,其中每个内部节点表示一个属性上的测试,每个分支代表一个测试输出,每个叶节点代表一种类别2【单选题】(2分)决策树的优点在于()。A.便于解决多阶段问题差B.直观简洁C.其余三方面均是D.简化决策过程3【单选题】(2分)在决策树方法中,由决策节点引出的分支称为__,由自然状态节点引出的分支称为___。()A.方案分支、状态分支B.方案分支、概率分支C.决策分支、状态分支D.决策分支、概率分支4【单选题】(2分)决策树一般不包括。()A.结果节点B.时间节点C.决策节点D.状态节点5【单选题】(2分)以下哪个领域不是决策树算法擅长的应用领域?()A.机器视觉B.医疗诊断C.垃圾邮件分类D.客户信用度分类6.【多选题】(3分)正确答案:ABCD决策树的构成要素包括:()?A.决策点B.状态节点C.方案枝D.概率枝7.【多选题】(3分)正确答案:ACD在决策树剪枝中,常用的后剪枝法有:()?A.PEP悲观剪枝法B.TP阈值剪枝法C.REP错误率降低剪枝法D.CCP代价复杂度剪枝法8.【多选题】(3分)正确答案:ABD决策树特征选择准则较常采用的三种指标是:()?A.信息增益(InformationGain)B.信息增益率(InformationGainRatio)C.信息熵(Informationentropy)D.基尼指数(GiniIndex)9.【多选题】(3分)正确答案:ACD决策树的学习过程主要包括:()?A.特征选择B.数据清洗C.决策树的剪枝D.决策树的生成10【判断题】如果决策树过度拟合训练集,那么可以适当降低max_depth值,因为这样会限制模型,使其正则化。()A.错B.对11【判断题】绘制决策树时,节点上的数字为此方案的损益期望值。()A.错B.对1【单选题】(2分)p1(x,y)属于类别R,p2(x,y)属于类别B,一个新数据点(x1,y1),可以用下面的规则来判断它的类别()。A.如果p1(x1,y1)<p2(x1,y1),那么类别为RB.如果p1(x1,y1)<p2(x1,y1),不清楚C.如果p1(x1,y1)p2(x1,y1),那么类别为RD.如果p1(x1,y1)p2(x1,y1),那么类别为B2【单选题】(2分)在PYTHON中实现中文商品评价词条向量应用()。A.根据在字典中存在情况转化为0和1B.分词函数jieba,再做向量化格式C.直接使用D.分词函数jieba3.【多选题】正确答案:BCD朴素贝叶斯中的朴素一词的来源就是()A.一般的意思B.牺牲一定的分类准确率C.使得朴素贝叶斯算法变得简单D.假设各特征之间相互独立4.【多选题】正确答案:ABC朴素贝叶斯算法优缺点包括()。A.数据集属性之间是相互独立情况下,算法的逻辑性十分简单B.数据集属性之间是相互独立情况下,对于不同类型的数据集不会呈现出太大的差异性C.数据集属性之间是相互独立情况下,算法较为稳定D.数据集属性之间是相互独立情况下,会导致分类的效果大大降低5.【多选题】正确答案:ABD朴素贝叶斯算法工程应用分为三个阶段()A.数据准备阶段B.朴素贝叶斯分类器构建与训练学习C.计算概率阶段D.部署与应用阶段6【判断题】全概率公式解决的是由果索因的问题。()A.对B.错7【判断题】将数据表格中数据进行预处理,转化为0、1格式,便于算法计算。()A.错B.对8【判断题】拉普拉斯平滑(LaplaceSmoothing)是比较常用的平滑方法,是为了解决0概率问题。()A.错B.对1【判断题】线性回归要求因变量符合正态分布?()A.错B.对3【单选题】(2分)下列关于线性回归说法错误的是()A.线性回归的前提假设之一是残差必须服从独立正态分布B.自变量和残差不一定保持相互独立C.残差的方差无偏估计是SSE/(n-p)D.在现有模型上,加入新的变量,所得到的R^2的值总会增加4【单选题】(2分)在以下四个散点图中。其中适用于做线性回归的散点图为A.1和2B.2和3C.1和3D.3和45【单选题】(2分)下列变量中,属于负相关的是A.收入增加,支出增加B.收入增加,储蓄额增加C.产量增加,生产费用增加D.价格下降,消费增加6【单选题】(22分)二次多项式回归,x的列数为2,则执行如下程序后,polynomial=PolynomialFeatures(degree=3)x_transformed=polynomial.fit_transform(x)x_transformed的列数为A.4B.2C.3D.5E.1F.67【单选题】(2分)逻辑回归主要用来做回归吗?A.是B.否8【单选题】(2分)逻辑回归能否解决多分类问题?A.是B.否9【单选题】(2分)下列关于梯度下降法说法正确的是A.梯度下降法就是不断地更新和调整学习率B.梯度下降法就是不断地更新w和b的值C.梯度下降法就是不断寻找损失函数的最大值D.梯度下降法就是不断地更新w和b的导数值10【单选题】(2分)逻辑回归中采用以下哪种方法来调整参数?A.杰卡德距离B.最大似然法C.最小二乘法第六章单元测试1【单选题】(2分)对于常用在高斯核的支持向量分类,参数gamma对分类效果有影响,图1、图2和图3是不同gamma值g1、g2、g3对应的分类结果,则关于g1、g2、g3大小下列说法正确的是()。A.g1<g3<g2B.g1<g2<g3C.g1g3g2D.g1g2g32【单选题】(2分)线性SVM和一般线性分类器的区别主要是:()。A.训练误差通常较低B.是否进行了空间映射C.是否确保间隔最大化D.是否能处理线性不可分问题3【单选题】(2分)假设超平面为w*x+b=0,其间隔(margin)的大小为:()A.|b|/||w||B.1/||w||C.2|b|/||w||D.2/||w||4.【多选题】正确答案:AB求解线性SVM优化问题时,为什么要通过求解原始问题的对偶问题来获得原始问题的最优解?()。A.能自然地引入核函数,进而高效地解决高维非线性分类问题B.对偶问题往往更容易求解C.对偶问题更容易理解D.对偶问题等价于原始问题5【单选题】(2分)为什么通常要选择margin最大的分类器?()A.训练误差最低B.有望获得较低的测试误差C.所需的支持向量个数最少D.计算复杂度最低6【判断题】如果训练集有上千万个实例和几百个特征,应该使用SVM原始问题来训练模型。()A.对B.错7【判断题】通过求解线性可分SVM的拉格朗日对偶问题,可以得出所有样本对应的拉格朗日乘子,其中支持向量是对应的样本点。()A.错B.对8【判断题】硬间隔SVM存在对对离群点敏感的弱点,因此引入软间隔SVM,硬间隔SVM可以看作软间隔SVM一种特例。()A.错B.对9【判断题】对于任意的数据,核函数一定存在。()A.错B.对10【判断题】对于常用在高斯核的SVC,参数gamma对分类效果的影响gamma值越大,则模型越倾向于出现过拟合的问题。()A.错B.对第七章单元测试1【判断题】Adaboost是一种迭代算法,其核心思想是针对同一个训练集训练不同的分类器(弱分类器),然后把这些弱分类器集合起来,构成一个更强的最终分类器(强分类器)。()A.对B.错2【判断题】Adaboost方法不仅可以用于设计弱分类器,还可以用于设计弱预测器。()A.错B.对3【判断题】相较于与BP神经网络的弱分类器,基于Adaboost强分类器的分类模型可以具有更高的分类准确率。()A.对B.错4【判断题】Adaboost算法在样本训练集使用过程中,对其中的关键分类特征集进行多次挑选,逐步训练分量弱分类器,用适当的阈值选择最佳弱分类器,最后将每次迭代训练选出的最佳弱分类器构建为强分类器。()A.错B.对5【判断题】Aadboost算法系统具有较高的检测速率,但是容易出现过拟合现象。()A.错B.对6.【多选题】正确答案:ABCDE以下哪些内容是Adabosst权值更新方法。()A.找到误差最小的弱分类器;B.计算弱分类器的权值;C.更新下一轮样本的权值分布;D.集合多个弱分类器成一个最终的强分类器。E.初始化权值分布;7.【多选题】正确答案:ABDAdaBoost中基础分类器的权重设置策略存在的问题有()。A.不能保证是最优解B.需要用户进行手工设置C.不能根据测试样本进行自适应调整D.计算复杂8.【多选题】正确答案:AB集成学习(ensemblelearning)通过构建并结合多个学习器(learner)来完成学习任务,目前集成学习主要分为两大类,以下哪些算法中个体学习器是串行序列化生成的。()。A.boostingB.AdaboostC.baggingD.RandomForest9.【多选题】正确答案:ABCDAdaBoost算法的优点有:()。A.简单,不用做特征筛选。B.可以使用各种方法构建子分类器,Adaboost算法提供的是框架。C.adaboost是一种有很高精度的分类器。D.当使用简单分类器时,计算出的结果是可以理解的。而且弱分类器构造极其简单。10【判断题】由于AdaBoost是boosting的改进方法,而且性能比较稳定,故在实际中一般都直接使用AdaBoost而不会使用原始的boosting。()A.对B.错第八章单元测试1【单选题】(2分)如图是某个p值闵可夫斯基距离表示的单位圆,请问p的值为()。A.p=2B.p=4C.p=∞D.p=12【单选题】(2分)使用k-means算法得到了三个聚类中心,分别是[1,2],[-3,0],[4,2],现输入数据X=[3,1],则X属于第几类()。A.3B.1C.2D.不能确定3【单选题】(2分)以下关于经典的k-means聚类的说法哪个是错误的?()A.k-means聚类算法是全局收敛的B.k-means聚类算法无法自动确定聚类团数量C.k-means聚类算法的时间复杂度是O(NKT),其中N为样本个数,K为聚类团数量,T为迭代次数D.k-means的聚类结果和初始聚类中心点的选取有关4【单选题】(2分)关于K-means的说法正确的有()。A.该算法不会存在陷入局部极值的情况B.K值的选取往往需要依靠经验或者数据集的情况来确定。C.初始化聚类中心时,一定要将各个聚类中心的坐标设置为相同的值D.K-means算法属于层次聚类。5【单选题】(2分)对一组无标签的数据,使用不同的初始化值运行k-mens算法50次,如何评测这50次聚类的结果哪个最优()。A.最后一次运行结果最优。B.优化目标函数值最小的一组最优C.暂无方法。D.需要获取到数据的标签才能评测。6【单选题】(2分)在市场营销中,聚类最有可能帮助经营者()。A.对客户群进行划分。B.辅助商品定价C.进行商品推荐。D.识别优质客户7【判断题】聚类算法中通常使用某种形式的距离来定义“相似度”,但相似度度量不一定满足距离度量的所有基本性质。()A.对B.错8【判断题】K-means++算法是针对新的质心选取方式问题的改进。()A.错B.对9【判断题】所有聚类算法都是基于某种距离的。()A.对B.错10【判断题】聚类属于无监督学习,其样本数据无需标注信息,因此有标注信息对聚类算法无帮助。()A.对B.错第九章单元测试1【判断题】Apriori算法的优点是容易编码实现。()A.错B.对2【判断题】Apriori算法的缺点是在速度可能较慢。()A.错B.对3.【多选题】正确答案:ABC标称型数据的特点是()A.无序B.有类别C.互斥D.可区分大小4.【多选题】正确答案:AD下列哪类数据是标称型数据()A.肤色B.高矮C.胖瘦D.性别5【判断题】关联分析是从大规模数据集中寻找物品间的隐含关系。()A.错B.对6【判断题】频繁项集(frequentitemsets)是经常出现在一块的物品的集合。()A.对B.错7【判断题】关联规则(associationrules)暗示两种物品之间可能存在一些关系。()A.错
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 楚雄州元谋县县级事业单位选调工作人员真题
- 经营挂靠合同书参考
- 狂犬病传染知识
- 幼儿教师师德工作个人总结5篇
- 幼儿园活动收获心得美文五篇
- 急诊科临床诊疗常规-技术操作规范标准
- 毕业典礼的致辞语怎么写5篇
- 道理感悟类满分作文范文(6篇)
- 关于中国新兴产业发展未来问卷调查
- 山东高速合同制员工待遇标准
- 职业技术学校老年保健与管理专业(三年制)人才培养方案
- 2024年秋季人教版新教材七年级上册语文全册教案(名师教学设计简案)
- 有子女民政局常用协议离婚书格式2024年
- 中国介入医学白皮书(2021 版)
- 2024中华人民共和国农村集体经济组织法详细解读课件
- 代运营合作服务协议
- 婚内财产协议书(2024版)
- 有限空间作业应急管理制度
- 2024全国普法知识考试题库及答案
- 化工企业中试阶段及试生产期间的产品能否对外销售
- 篮球智慧树知到期末考试答案章节答案2024年浙江大学
评论
0/150
提交评论