《机器学习-Python实践》试卷及答案 卷1_第1页
《机器学习-Python实践》试卷及答案 卷1_第2页
《机器学习-Python实践》试卷及答案 卷1_第3页
《机器学习-Python实践》试卷及答案 卷1_第4页
《机器学习-Python实践》试卷及答案 卷1_第5页
已阅读5页,还剩4页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第1页,共1页一、单项选择题(本大题共10小题,每题3分,共30分)试卷(试卷(学年第1学期)考试科目机器学习-Python实践(A卷)适用专业班级(年级)得分命题人:审阅人:班级学号姓名考试科目装订线1、关于支持向量机SVM,下列说法错误的是()A.L2正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力B.Hinge损失函数,作用是最小化经验分类错误C.分类间隔为1||w||1||w||,||w||代表向量的模D.当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习2、假定某同学使用NaiveBayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是:()A.这个被重复的特征在模型中的决定作用会被加强B.模型效果相比无重复特征的情况下精确度会降低C.如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样。D.当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题3、关于Logit回归和SVM不正确的是()A.Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。A错误B.Logit回归的输出就是样本属于正类别的几率,可以计算出概率,正确C.SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化。D.SVM可以通过正则化系数控制模型的复杂度,避免过拟合。4、以下哪些方法不可以直接来对文本分类?()A、KmeansB、决策树C、支持向量机D、KNN正确答案:A分类不同于聚类。5、关于Logit回归和SVM不正确的是()A.Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。A错误B.Logit回归的输出就是样本属于正类别的几率,可以计算出概率,正确C.SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化。D.SVM可以通过正则化系数控制模型的复杂度,避免过拟合。6、下列不是SVM核函数的是()A.多项式核函数B.logistic核函数C.径向基核函数D.Sigmoid核函数7、模型的高bias是什么意思,我们如何降低它?机器学习ML基础易()A.在特征空间中减少特征B.在特征空间中增加特征C.增加数据点D.B和C8、当你使用Boosting提升算法时,你会考虑弱学习器,以下哪项是使用弱学习器的主要原因?()A.防止过拟合B.防止欠拟合C.防止过拟合和防止欠拟合D.都不对9、梯度提升中,利用学习率来获得最优输出是非常重要的,在选择学习速率时, 下列描述正确的是:()A.学习率越大越好B.学习率越小越好C.学习率应该小一点但是不能太小D.学习率不能太大也不能太小,根据情况而定10、下列哪个算法不是集成学习算法的例子:()A.RandomForestB.AdaBoostC.GBDTD.XgboostE.DecisionTree二、判断题(本大题共10小题,每题1分,共10分)1、错误率(ErrorRate)是分类错误的样本数占样本总数的比例。()2、决策树算法可以用于小数据集。()3、支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。()4、SVM在小样本训练集上能够得到比其它算法好很多的结果。()5、最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。()6、决策树只能处理数据型属性。()7、逻辑回归计算速度快。()8、集成学习(ensemblelearning)通过构建并结合多个学习器(learner)来完成学习任务()9、集成学习可获得比单一学习器更良好的泛化性能(特别是在集成弱学习器(weaklearner)时)。()10、集成学习以bagging、RandomForest等算法为代表的,各个学习器之间相互独立、可同时生成的并行化方法。()三、填空(本大题共10小题,每题3分,共30分)1、熵指的是体系的的程度。2、算法利用信息增益进行特征的选择,信息增益反映的是给定条件后不确定性减少的程度。3、算法在决策树生成的过程中,用信息增益比来选择特征。4、p(x|θ)是给定参数θ的概率分布:。5、线性回归如果是泊松分布,那就是。6、回归常用评估方法:,,。7、基尼指数(基尼不纯度)=*。8、聚类(Clustering)是指把相似的数据划分到一起,具体划分的时候并不关心这一类的标签,目标就是把相似的数据聚合到一起,聚类是一种。9、分类(Classification):是把不同的数据划分开,其过程是通过训练数据集获得一个分类器,再通过分类器去预测未知数据,分类是一种。10、聚类的一般过程数据准备:和。四、简答题(本大题共3小题,共30分)1、L1和L2正则先验分别服从什么分布?什么是最小二乘法?常用的降维技术有哪些?一、选择题1.C 2.BD 3.A 4.A 5.A 6.B 7.B 8.B 9.D 10.E二、判断题1.对 2.对 3.对 4.对 5.对 6.错 7.对 8.对 9.对 10.对 三、填空题1.混乱 2.ID3 3.C4.5 4.似然函数 5.泊松回归 6.平均误差绝对值误差R2 7.样本被选中的概率样本被分错的概率 8.无监督学习(UnsupervisedLearning)方法 9.监督学习(SupervisedLearning)方法 10.特征标准化降维四、简答题1、答:L1和L2正则先验分别服从什么分布,L1是拉普拉斯分布,L2是高斯分布。2、答:最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。3、答:(1)主成分分析(PCA)在PCA中,数据从原来的坐标系转换到新的坐标系,由数据本身决定。转换坐标系时,以方差最大的方向作为坐标轴方向,因为数据的最大方差给出了数据的最重要的信息。第一个新坐标轴选择的是原始数据中方差最大的方法,第二个新坐标轴选择的是与第一个新坐标轴正交且方差次大的方向。重复该过程,重复次数为原始数据的特征维数。大部分方差都包含在最前面的几个新坐标轴中,因此,可以忽略余下的坐标轴,即对数据进行了降维处理。(2)因子分析(FA)在因子分析中,假设在观察数据的生成中有一些观察不到的隐变量;假设观察数据是这些隐变量和某些噪声的线性组合;那么隐变量的数据可能比观察数据的数目少,也就是说通过找到隐变量就可以实现数据的降维。(3)独立成分分析(ICA)

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论