2024年春江苏开放大学机器学习形考作业二答案_第1页
2024年春江苏开放大学机器学习形考作业二答案_第2页
2024年春江苏开放大学机器学习形考作业二答案_第3页
2024年春江苏开放大学机器学习形考作业二答案_第4页
2024年春江苏开放大学机器学习形考作业二答案_第5页
已阅读5页,还剩1页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

2024年春江苏开放大学机器学习形考作业二答案注意:学习平台题目可能是随机,题目顺序与本答案未必一致,同学们在本页按“Ctrl+F”快捷搜索题目中“关键字”就可以快速定位题目,一定注意答案对应的选项,如果答案有疑问或遗漏,请在下载网站联系上传者进行售后。如需其它科目的答案也可以联系上传者。一、2024年春江苏开放大学机器学习形考作业二单选题答案1、下列关于软投票说法错误的是?A、投票表决器可以组合不同的基分类器B、使用概率平均的⽅式来预测样本类别C、可以对每个基分类器设置权重,⽤于对预测概率求进⾏加权平均D、软投票过程中每个基分类器都预测⼀个类别学生答案:D2、下列有关词袋表示法的理解有误的是()A、将每个⽂本对应词表转化为特征向量B、仅出现在少数本⽂的词汇,⼀般被标记为停⽤词不计⼊特征向量C、不考虑词语出现的顺序,每个出现过的词汇单独作为⼀列特征D、不重复的特征词汇集合为词表学生答案:B3、兰德系数和轮廓系数都是常⽤的聚类分析指标,以下对兰德系数和轮廓系数说法错误的是A、轮廓系数适⽤于实际类别信息未知的情况B、在聚类结果随机产⽣的情况下,兰德系数不能保证系数接近于0、C、兰德系数取值为[0,1],越⼤聚类结果与真实情况越接近D、调整兰德系数取值范围为[-1,1],负数代表结果不好,越接近于0越好学生答案:D4、箱线图是检测离群值的⽅法,下⾯关于箱线图的说法不正确的是?A、箱线图中框的上边线表示上四分位数,框的下边线表示下四分位数B、箱外的两条线(胡须)分别延伸到最⼩和最⼤⾮异常点C、四分位距IQR=1.5(Q3-Q1),其中Q3为上四分位数,Q1为下四分位数D、箱中⾼于上边缘和低于下边缘的值为离群点学生答案:C5、若集成模型中,预测值表示为,真实值为,则Adaboost的损失函数(LossFunction)表示为()学生答案:B6、关于三种常⻅的稳健性回归⽅法–Huber回归、RANSAC回归和泰尔森回归,下列选项说法正确的是:A、从回归的速度上看,⼀般来说,Huber回归最快,其次是RANSAC回归,最慢的是泰尔森回归B、泰尔森回归⽐RANSAC回归在样本数量上的伸缩性(适应性)好C、⼀般情况下,泰尔森回归可以更好地处理y⽅向的⼤值异常点D、Huber回归可以更好地应对X⽅向的中等⼤⼩的异常值,但是这个属性将在⾼维情况下消失学生答案:A7、下列有关轮廓系数的说法错误的是()A、所有样本的轮廓系数均值为聚类结果的轮廓系数,是该聚类是否合理、有效的度量B、某个样本的轮廓系数近似为0,说明该样本在两个簇的边界上C、某个样本的轮廓系数的绝对值接近1,说明该样本聚类结果合理D、某个样本的轮廓系数接近1,说明该样本聚类结果合理学生答案:C8、下列模型中属于回归模型的是?A、ID3、B、DBSCANC、线性回归D、逻辑回归学生答案:C9、下列有关ROC曲线与AUC的描述错误的是A、ROC曲线越靠近(0,1)证明模型整体预测能⼒越差B、AUC的取值为[0.5,1]C、AUC的⼏何意义为ROC曲线与横轴FPR之间的⾯积D、ROC曲线可以⽤来考察模型的预测能⼒学生答案:A10、下列有关包裹式和嵌⼊式特征选择的说法错误的是()A、嵌⼊式特征选择的思想是根据模型分析特征的重要性,常⽤正则化⽅式来做特征选择B、包裹式特征选择的思想是把特征选择看做⼀个特征⼦集搜索问题,筛选各个特征⼦集,⽤模型评估各个⼦集的效果C、Scikit-learn中实现嵌⼊式特征选择的类SelectFromModel必须与有feature_importances_或者coef_属性的模型⼀起使⽤,如随机森林和逻辑回归D、Scikit-learn中实现嵌⼊式特征选择的类有SelectFromModel、RFE和RFECV学生答案:D11、下列有关特征抽取和特征选择的说法有误的⼀项是()A、特征抽取和特征选择是达到降维⽬的的两种途径B、PCA和LDA是特征选择的两种主要⽅法C、特征抽取的⽬标是根据原始的d个特征的组合形成k个新的特征,即将数据从d维空间映射到k维空间D、特征选择的⽬标是从原始的d个特征中选择k个特征学生答案:B12、以下程序语句有误的是()A、clf=LogisticRegression(penalty=’l1′,random_state=10,solver=’liblinear’)B、clf=LogisticRegression(penalty=’l2′,random_state=10,solver=’liblinear’)C、clf=LogisticRegression(penalty=’l1′,random_state=10,solver=’lbfgs’)D、clf=LogisticRegression(penalty=’l2′,solver=’newton-cg’)学生答案:C13、关于线性回归模型的正则化,下列选项叙述不正确的是:A、正则化的常⽤⽅法为岭回归和LASSO,主要区别在于岭回归的⽬标函数中添加了L2惩罚函数,⽽LASSO的⽬标函数中添加的是L1惩罚函数B、正则化可以减⼩线性回归的过度拟合和多重共线性等问题C、对⽐岭回归和LASSO,岭回归更容易得到稀疏解D、在求解LASSO时,常⽤的求解算法包括坐标下降法、LARS算法和ISTA算法等学生答案:C14、下列关于特征选择⽬的和原则的说法错误的是()A、特征选择能有效降低特征维度,简化模型B、与⽬标特征相关性⾼的特征应该优先被选择C、⽅差较⾼的特征应该被剔除D、特征选择可以有效提升模型性能学生答案:C15、下列有关过滤式特征选择的说法错误的是()A、过滤式特征选择的⽅法是评估单个特征和结果值之间的相关程度,留下相关程度靠前的特征B、过滤式特征选择的评价指标主要有Pearson相关系数,互信息,距离相关度等;其中卡⽅检验(chi2),F检验回归(f_regression),互信息回归(mutual_info_regression)⽤于回归问题,F检验分类(f_classif),互信息分类(mutual_info_classif)⽤于分类问题C、Scikit-learn中实现过滤式特征选择的SelectKBest类可以指定过滤个数,SelectPercentile类可以指定过滤百分⽐D、过滤式特征选择的缺点是只评估了单个特征对结果的影响,没有考虑到特征之间的相关作⽤,可能剔除有⽤的相关特征学生答案:B16、以下四个算法中,哪个不属于Scikit-learn聚类的主要算法()A、cluster.SpectralClusteringB、neighbors.KNeighborsRegressorC、cluster.KMeansD、cluster.AgglomerativeClustering学生答案:B17、下列有关DBSCAN聚类算法的理解有误的⼀项是()A、对数据集中的异常点敏感B、不需要预先设置聚类数量kC、调参相对于传统的K-Means之类的聚类算法稍复杂,需要对距离阈值ϵ,邻域样本数阈值MinPts联合调参,不同的参数组合对最后的聚类效果有较⼤影响D、可以对任意形状的⾼密度数据集进⾏聚类,相对的,K-Means之类的聚类算法⼀般只适⽤于凸数据集学生答案:A18、下图给出了三个节点的相关信息,请给出特征A1、A2及A3的特征重要性递减排序()A、A3>A1>A2B、所给信息不⾜。C、A2>A3>A1D、A1>A2>A3学生答案:A二、2024年春江苏开放大学机器学习形考作业二多选题答案1、下列关于缺失值处理的说法错误的是()A、可以将缺失值作为预测⽬标建⽴模型进⾏预测,以此来插补缺失值B、连续型特征可以使⽤众数来插补缺失值C、根据经验,可以⼿动对缺失值进⾏插补D、离散型特征可以使⽤平均值来插补缺失值学生答案:B;D2、将连续型特征离散化后再建⽴逻辑回归模型,这样做对模型有什么影响()A、计算结果⽅便存储,容易扩展。B、起到简化逻辑回归模型的作⽤C、易于模型的快速迭代D、离散化后的特征对异常数据敏感学生答案:A;B;C3、下列哪些⽅法可以解决数据集的线性不可分问题()A、⾼斯核SVMB、多项式核SVMC、软间隔SVMD、硬间隔SVM学生答案:A;B;C4、以下关于集成模型中提升法(boosting)与装袋法(bagging)的⽐较,说法正确的是()A、Boosting主要⽤于⽤于抑制过拟合;⽽Bagging主要⽤于优化弱分类器。B、Boosting的学习器可并⾏训练,⽆顺序;Bagging的学习器需要串⾏进⾏,有顺序。C、Boosting⼀般采⽤整个训练集训练学习器;Bagging则采⽤部分训练集,没⽤到的数据可⽤于测试。D、Adaboost是⼀种Boosting⽅法;RandomForest是⼀种Bagging⽅法。学生答案:C;D5、下列关于软投票说法正确的是?(多选)A、软投票过程中每个基分类器都预测⼀个类别B、可以对每个基分类器设置权重,⽤于对预测概率求进⾏加权平均C、投票表决器可以组合不同的基分类器D、使用概率平均的⽅式来预测样本类别学生答案:B;C;D6、下列有关scikit-learn中TfidfVectorizer类和CountVectorizer类的说法错误的是()A、属性stop_words:返回停⽤词表B、参数stop_words:设置停⽤词,默认为None(没有),可设置为english或list(⾃⾏给定)C、参数min_df:设定阈值,忽略频率⾼于此阈值的词汇,默认为1、D、属性vocabulary_:返回词汇表(字典型)学生答案:A;C7、模型输⼊的特征通常需要是数值型的,所以需要将⾮数值型特征通过特征编码转换为数值特征。下列选项对DataFrame对象df1中的Make字段进⾏特征编码,其中正确的是?A、fromsklearn.preprocessingimportLabelEncoderle=LabelEncoder()df1[‘Make’]=le.fit_transform(df1[“Make”])B、df1[‘Make’]=df1[‘Make’].str.replace({‘Toyota’:1,‘Ford’:2,‘Volvo’:3,‘Audi’:4,‘BMW‘:5,‘Nissan’:6})C、df1[‘Make’]=df1[‘Make’].map({‘Toyota’:1,‘Ford’:2,‘Volvo’:3,‘Audi’:4,‘BMW’:5,‘Nissan’:6})D、df1[‘Make’]=df1[‘Make’].replace({‘Toyota’:1,‘Ford’:2,‘Volvo’:3,‘Audi’:4,‘BMW’:5,‘Nissan’:6})学生答案:A;C;D8、关于sklearn中的KNeighborsClassifier算法类,下列说法正确的是()A、距离度量附属参数p可设置为p=2“euclidean”(欧式距离)、p=1为“manhattan”(曼哈顿距离),默认为2、B、K近邻算法通过对以样本a为圆⼼,半径为k的圆内的训练样本进⾏多数投票来确定样本a的类别。C、当样本分布较乱,预测效果不好时,可将weights设置为“distance”,将距离⽬标更近的近邻点赋予更⾼的权重,来改善预测效果D、参数’n_neighbors’的取值应该越⼤越好学生答案:A;C9、现有⼀个垃圾邮件分类问题,⽤N个关键词汇X1,X2,…,XN作为特征,将所有的邮件分类为垃圾邮件C1与正常邮件C2。m1为出现了关键词汇X1的垃圾邮件数量,m为垃圾邮件总数,M为所有邮件总数,则下列加⼊Laplace平滑(平滑系数为1)的概率公式表示正确的是()学生答案:B;D10、分类正确率、混淆矩阵是评价分类模型效果的重要依据,下列编程语句有错误的是()(其中x,y是训练集和训练集标签,分别为DataFrame对象和Series对象)A、语句(4)B、语句(3)C、语句(2)D、语句(1)学生答案:A;B11、下列关于⽂本特征抽取中TF-IDF⽅法理解正确的是()A、TF即词频:某词汇在该⽂本中出现的频率B、TF-IDF=TF*IDFC、TF-IDF⽅法有效过滤掉不常⻅的词语D、IDF即逆⽂本频率:词频的权重调整系数学生答案:A;B;D题型:多选题客观题分值4分难度:一般得分:012、Scikit-learn中,对函数metrics.accuracy_score使⽤⽅法描述正确的是A、fromsklearn.metricsimportaccuracy_scoreprint(accuracy_score(y_test,y_pred,norm

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论