《机器学习-Python实践》习题库 试题及答案_第1页
《机器学习-Python实践》习题库 试题及答案_第2页
《机器学习-Python实践》习题库 试题及答案_第3页
《机器学习-Python实践》习题库 试题及答案_第4页
《机器学习-Python实践》习题库 试题及答案_第5页
已阅读5页,还剩112页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

第一章机器学习入门基础B.包裹法(wapper)B.PyCharm是一种PythonIDE(IntegratedDevelopmD.Spyder是一个Python爬虫框架。解析:Spyder是Python(x,y)的作者为它开发的一个简单的集成开发7.下列选项中机器学习主要涉及三大要素不包含哪个?A.数据解析:机器学习主要涉及数据、算法和模型这三大要素。第一章,1.1小节。8.在实际的企业应用场景中,为了让训练效果更好,以下哪个操作是错误的?A.清洗不完整的数据B.清洗多噪音的数据C.清洗矛盾和有差异的数据D.删除关键特征数据解析:常识。第一章,1.4小节。8.在实际的企业应用场景中,为了让训练效果更好,以下哪个操作是错误的?A.清洗不完整的数据B.清洗多噪音的数据C.清洗矛盾和有差异的数据D.删除关键特征数据解析:常识。第一章,1.4小节。9.根据表格,请选择说法正确的选项?表1-2脏数据举例姓名性别身高(cm)体重(kg)张三男李四女红色男黑色女B.王五的身高是250cm,属于异常情况。D.以上三种答案均正确解析:常识。第一章,1.4小节。10.以下哪个命令可以查看Python的版本号?11.从研究领域角度分,机器学习的类型不包含以下哪种()。A.监督学习B.无监督学习C.强化学习D.强调学习解析:第一章,1.3小节。12.常用的Python编程环境有哪些?A.Jupyternotebook_。已有数据输入新的数据①模型②未来属性解析:教材原话,第一章,1.3小节。无监督学习也可称为非监督学习,通过学习没有标记的半监督学习,它是一种在预测时,既使用已标记的所谓增强学习,是通过与环境的交互,以推测和优化实际的动作,从而实现决策。2.如果在模型诊断中发现了过拟合和欠拟合问题,请简述解决思路。过拟合、欠拟合是模型诊断中常见的问题,如果出现过拟合(指所训练的模型在训练集上表现得非常优秀,可以有效地区分每一个样本,但在测试集上表现得很差),可以通过增加数据量和降低模型复杂度来优化,如果出现欠拟合(指所训练的模型在训练集中就已经表现得很差,准确度很低),可以通过提高特征数量和质量,增加模型复杂而深度学习又是机器学习里的特定分支技术,三者第2-7章1.关于支持向量机SVM,下列说法错误的是()A.L2正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力D.当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习y<-1是负类,决策面y=0,加入一个y=-30的正类噪声样本,那么决策面将会变“歪”很多,分类间隔变小,泛化能力减小。加入正则项之后,对噪声样本的容错能力增强,B正确。6.下列不是SVM核函数的是()7.模型的高bias是什么意思,我们如何降低它?机器学习ML基础易下的结论是:B.增加学习率(learningD.以上都不是A.正态分布具有集中性和对称性B.正态分布的均值和方差能够决定正态分布的位置和形态C.正态分布的偏度为0,峰度为1D.标准正态分布的均值为0,方差为1目标变量在训练集上的8个实际值[0,0,0,1,1,1,1,1],目标变量的熵是多少?B.5/8log(5/8)+3/8C.3/8log(5/8)+5/8解析:信息熵的计算公式为H(x)=E[I(xi)]=E[log(2,1/P(xi))]=-∑12.决策树的父节点和子节点的熵的大小关系是什么?A.决策树的父节点更大B.子节点的熵更大13.下列关于极大似然估计(MaximumLikelihoodEstimA.线性回归B.逻辑回顾16.假如我们利用Y是X的3阶多项式产生一些数据(3阶多项式能很好地拟合数据)。那么,下列说法正确的是(多选)?A.1和2都错误B.1正确,2错误C.1错误,2正确X100)。现在,我们把其中一个特征值扩大10倍(例如是特征X1),然后用相XC.无法确定特征X1是否被舍弃解析:SSE是平方误差之和(SumofSquaredError),+(-0.8)^2+(1.3)^2+(-20.关于“回归(Regression)”和“相关(CorD.LeakyReLU函数A.绿色模型的β1比黑色模型的β1大B.绿色模型的β1比黑色模型的β1小C.两个模型的β1相同D.以上说法都不对解析:逻辑回归模型最终还要经过Sigmoid非线性函数,Sigmoid是增函数,其说明其β1<0。所以,得出结论:绿色模型的β1比黑色模型的β1小。23.在n维空间中(n>1),下列哪种方法最适合用来检测异常值?A.正态概率图B.箱形图C.马氏距离D.散点图解析:正态概率图(NormalProbabilityPlot)一般用来检查一组数据是否服从24.逻辑回归与多元回归分析有哪些不同之处?A.逻辑回归用来预测事件发生的概率B.逻辑回归用来计算拟合优度指数C.逻辑回归用来对回归系数进行估计解析:A选项,逻辑回归是用来解决分类问题的,可以用于预测事件发生的概率。B选项,一般来说,为了测量真实样本与模型的拟合C选项,在拟合逻辑回归模型之后,我们还与目标输出的关系(正相关或负相关)。25.如果一个SVM模型出现欠拟合,那么下列哪种方法能解决这一问题?A.增大惩罚参数C的值B.减小惩罚参数C的值C.减小核系数(gamma参数)大于或等于0.6的才预测为正类。则准确率(Precision)和召回率(Recall)会发生什么变化(多选)?B.准确率(Precision)减小C.召回率(Recall)减小或者不变27.点击率预测是一个正负样本不平衡问题(例如99%的没有点击,只有1%点击)。正确率。对于此题来说,如果我们预测的结果是100说正确率是99%,因为只有1%的点击预测错误。但是,我们其实更关心的那1%的点B.增加学习率29.我们想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如个更小的数据集,比如说,有1000个特征和300000个样本进行训练。使用在线学习(onlinelearning)算法31.如何在监督式学习中使用聚类算法(多选)?32.下面哪句话是正确的?果发现3对变量(Var1和Var2、Var2和Var3、Var3和Var1)之间的相关性分别为-0.98、0.45和1.23。我们能从中推断出什么呢?C.Var3和Var1相关系数为1.23是不可能的果相关大于0.7或小于-0.7,那么我们认为特征之间有很高的相关性。第三个选项是35.下列哪种方法可以用来减小过拟合?(多选)本例中,LO范数为5,L1范数为19,L2范数为√111。A.增大B.减小C.不变40.下列哪一项能反映出X和Y之间的强相关性?A.相关系数为0.9B.对于无效假设β=0的p值为0.0001C.对于无效假设β=0的t值为30C.平均互信息A.SVM对噪声(如来自其他分部的噪声样本)具备鲁棒性43.以下描述错误的是(C)C.剪枝解析:线性回归能完成的任务是预测连续值。46.产量(X,台)与单位产品成本(y,元/台)之家你的回归方程为y=356-1.5x,这说A。产量每增加一台,单位产品成本增加356元B。产品每增加一台,单位产品的成本减少1.5元C.产量每增加一台,单位产品的成本平均增加356元D。产量每增加一台,单位产品成本平均减少1.5元解析:首先观察这个函数,y=356-1.5x,这条直线的斜率是负值,从直线可以看出,y与x之间呈反比关系。可是根据实际情况而言,当产量越来越多的时候,成本就越来越少,那么当x无限接近于正无穷的时候,x岂不是为负值了吗???不知道你们远不愿意,反正如果是我的话,我肯定不愿意。所以说他只是在某一个阶段符合上述条件。当x=1,y=354.5;当x=2,y=353;x=3,y=351.5;将这三个数进行计算,平均值是1.5.所以正确答案为D47.直线方程y=wx+b,其中b表示(B)解析:在机器学习中w表示系数,斜率和权重,b表示截距48.以下描述中,对梯度解释正确的是(AB)A梯度是一个向量,有方向有大小B求梯度就是对梯度向量的各个元素求偏导C梯度只有大小没有方向D梯度只有方向没有大小解析:theta是一个几行几列的矩阵,求偏导之后还是一个矩阵。所以说梯度是一个向量,有方向有大小。定义,求梯度就是对梯度向量的各个元素求偏导。49.关于误差ε的说法正确的是(AB)k-Means和k-NN都需要使用距离。而决策树对于数值特征,只在乎其大小排序,而非绝对大小。不管是标准化或者归一化,都不会影响数值之间的相对大小。关于决策树如何对数值特征进行划分53.选择Logistic回归中的One-Vs-All方法中的哪个选项是真实的。A我们需要在n类分类问题中适合n个模型B我们需要适合n-1个模型来分类为n个类C我们需要只适合1个模型来分类为n个类D这些都没有正确答案是:A解析:如果存在n个类,那么n个单独的逻辑回归必须与之相适应,其中每个类的概率由剩余类的概率之和确定。54.假设对给定数据应用了Logistic回归模型,并获得了训练精度X和测试精度Y。现在要在同一数据中添加一些新特征,以下哪些是错误的选项。注:假设剩余参数相同。A训练精度提高B训练准确度提高或保持不变C测试精度提高或保持不变正确答案是:B解析:将更多的特征添加到模型中会增加训练精度,因为模型必须考虑更多的数据来适应逻辑回归。但是,如果发现特征显着,则测试精度将会增加55.假定特征F1可以取特定值:A、B、C、D、E和F,其代表着学生在大学所获得的评分。在下面说法中哪一项是正确的?A特征F1是名义变量(nominalvariable)的一个实例。B特征F1是有序变量(ordinalvariable)的一个实例。C该特征并不属于以上的分类。D以上说法都正确。正确答案是:B58.假设我们有一个数据集,在一个深度为6的决策树的帮助下,它可以使用100%的1深度为4时将有高偏差和低方差2深度为4时将有低偏差和低方差2错误分类率是~0.914真正率(Truepositiverate)是~0.952树深3树叶样本65.甲盒中有200个螺杆,其中有160个A型螺杆;乙盒中有240个螺母,其中有从各交通工具迟到的概率分别是1/4,1/3,1/12,0,下列语句中正确的?D.坐陆路(火车、汽车)交通工具准点机会比坐水路(轮船)要低。乘坐火车准点的概率为:3/10*(1-1乘坐轮船准点的概率为:2/10*(1-1/3)=16/120乘坐汽车准点的概率为:1/10*(1-1/12)=11/120乘坐飞机准点的概率为:4/10*1=48/120A:9/120/18/120=0.5对C:48/120/(27+16+11+48)/120=48/102错D:27/120+11/120>16/120错68.对于信息增益,决策树分裂节点,下面说法正确的是()2信息增益可以用”1比特-熵”获得3如果选择一个属性具有许多归类值,那么这个信息增益是有偏差的C2和3D所有以上纯度越高,表示不确定越少,更少的信息就可以区分69.假设三个稠密矩阵(DenseMatrix)A,B,C的尺寸分别为m*n,n*q和p*q,且所有效率都相同mp(2n-1)<mq(2n-1);mp(2n-1)<mq(2nmq(2p-1)<nq(2p-1);mq(2p-1)<nq(2p所以(AB)C运算次数最少,效率最高;越小越要先乘70.梯度下降可以从以下哪些地方调优?B.参数初始值C.归一化D.激活函数71.以下()不属于线性分类器最佳准则?A感知准则函数B贝叶斯分类C支持向量机DFisher准则答案B感知准则函数:准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通支持向量机:基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基本出发点是使期望泛化风险尽可能小。(使用核函数可解决非线性问题)Fisher准则:更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出面方程是()A2x+y=4Bx+2y=5Cx+2y=3斜率是两点连线的斜率的负倒数-1/((-1-3)/(0-2))=-1/2,可得y=-(1/2)x+c,过中点((0+2)/2,(-1+3)/2)=(1,1),可得c=3/2,故选C.2.如果两个变量相关,那么它们一定是线性关系吗?(错)3.两个变量相关,它们的相关系数r可能为0。(对)果两个变量相互独立,那么相关系数r一定为0,如果相关系数r=0,则不一定相互能优于经典回归方法。(对)该模型将在另外一个新的测试集上也能得到100%的准确率。(错)分类问题。(对)9.决策树只用来分类。(错)10.回归及分类常用的评估指标都是准确率和召A的条件概率。(对)寻找数据的最佳函数匹配。(对)17.决策树的剪枝基本策略有预剪枝(Pre-Pruning)和后剪枝。(对)27.SVM不涉及核函数。(错)28.SVM自带正则项。(对)29.SVM无法做多分类。(错)30.决策树容易发生过拟合。(对)31.决策树容易发生欠拟合。(对)34.FP——将负类预测为正类数。(对)36.P(θ)是在没有数据支持下,θ发生的概率:先验概率。(对)37.P(θ|x)是在数据X的支持下,θ发生的概率:后验概率。(对)化。(对)越小。(错)41.矩阵的L0范数:矩阵的非0元素的个数,通常素越多,也就越稀疏。(对)45.标量是0阶张量。(对)46.朴素贝叶斯适合高维数据。(错)48.SVM对缺失数据敏感。(对)49.逻辑回归计算速度快。(对)50.决策树只能处理数据型属性。(错)51.SVM适合高维数据。(对)53.正确肯定(TruePositive,TP):预测为真,实际为真。(对)54.错误否定(FalseNegative,FN):预测为假,实际为真。(对)这样结果的参数值。(对)59.决策树算法可以用于小数据集。(对)60.错误率(ErrorRate)是分类错误的样本数占样本总数的比例。(对)8.提取出的正确信息条数/提取出的信息条数是正确率。计算误差(Error)来确定模型的精确性。征选择14.已知坐标轴中两点A(2,-2)B(-1,2),这两点的曼哈顿距离(L1距离)是7。20.基尼指数(基尼不纯度)=样本被选中的概率*样本被分错的概率。21.p(x|θ)是给定参数0的概率分布:似然函数。23.马式距离的特征则是:平移不变性、旋转不变性、尺度不变性。多个数的数组)。30.经验误差(empiricalerror)也叫训练误差。题不能叫平面)上下降最快的方向。在PracticalImplementation中,牛顿方向(考虑海12.有数据集D1,其中样本的特征是离散取值(可以简单地考虑取二值),数据集D2和D1E(ei)=0i=1,2,…,n21.什么是梯度?27.如何对决策树进行剪枝?第8章随机森林一、选择题(30题)1.当你使用Boosting提升算法时,你会考虑弱学习器,以下哪项是使用弱学习器的主要原因?(B)A.防止过拟合B.防止欠拟合C.防止过拟合和防止欠拟合D.都不对①这两种方法都可以用来解决分类问题④这两种方法都可以用来解决回归问题A.随机森林中每个学习器是相互独立的B.随机森林利用了bagging的思想来构建强学习器C.GBDT利用了Boosting的思想来构建强学习器7.关于AdaBoost,下列说法中正确的是(多选):(AC)8.集成学习策略有哪些(D)B.平均法B.平均法C.学习法B.传统决策树在选择划分属性时是在当前结点的属性A.从原始样本集M个样本中使用bootstrap(有放回的随机抽样)采样法选出mC.对部分缺失特征敏感B.不需要通过交叉验证D.以上都是C.均方差D.上述都对D.上述都是29.属于随机森林超参数的是(A)D.以上都不是30.能用于对随机森林进行剪枝或约束树生长的参数有不包括哪一个(D)B.min_samples_leaf二、对错题(25题)20Bagging的代表算法有:Adaboost和GradientBoostingTree(GBD23.随机森林(RandomForest,简称RF)[Breiman,2001a]是Bagging的一个扩三、填空题(5题)四、问答题(6题)做?如果不行,为什么?如,一个SVM分类器,一个决策树分类器,以及一个Logis果更优。如果它们是在不同的训练实例(这是bagging和pasting集成的关键点)上呢?boosting集成呢?随机森林或stacking集成呢?整?A升高B降低2.RegionBoost与AdaBoost相比:(A)A确保在t+1代所有样本权重之和为1B基础分类器可以任意弱(准确率高于50%)8.在scikit-learn中,如何处理多类分类(Multi-classclDB.scikit-learn只能用oneC.scikit-learn只能用one-vs.-the-rest方法实现多类分类解析:最小可执行demo,创业阶段最重要方案可行。A.可以集成出训练误差任意低的分类器B.基础分类器可以任意弱C.通过对样本进行加权达到改变训练集的效果D.被当前基础分类器分错的样本的权重将会减小解析:Adaboost属于加法模型,通过对样本进行加权达到改变训练集的效果A能够降到的维数不同B计算效率不同C降维的目标不同D我读书少,看不出来A.拟合效果更好B.并行能力更强C.对缺失值的处理效果更好D.小样本处理能力更差13.Adaboost如何处理多分类问题(A)B.使用多棵树进行多分类分析C.使用softmax进行多分类分析D.以上都不对14.关于Adaboost多分类描述正确的是(D)D.上述都对15.关于Adaboost优点描述正确的是(B)A.容易受到噪声干扰B.不用做特征筛选C.训练时间长D.执行效果依赖于弱学习器的选择A.Boosting:降低方差。B.Boosting:每一轮的训练集不变,只是训练集中每个样本的权重发生变化,权值根B.max_samples_leafD.min_weight_fraction_leafA.AdaBoost于1997年提出。六、对错题(25题)是独立的。(T)21.Bagging:每个样本七、填空题(5题)八、问答题(5题)对g(a)求导得:,得到:其中,在计算过程中用到的em为:由于Wmi=exp(-y₁fm-1(x₁)),所以得到新的损失为:最终的wmi通过规范化得到:第10章聚类九、选择题(30题)A.1个B.2个C.3B.可使用性(用户友好性):可以很方便地使用。D.以上全是3.算法的重要特性:(D)B.确定性:每一条指令无二义性。D.上述全是4.T(n)表示当输入规模为n时的算法效率,以下算法效率最优的是(C)。A.T(n)=T(n-1)+1,T(1)=1C.T(n)=T(n/2)+1,T(1)=1D.T(n)=3nlog2n5.某超市研究销售纪录数据后发现,买啤酒的人很大概率也会购买尿布,这种属于数据挖掘的哪类问题?(A)A.关联规则发现B.聚类C.分类6.以下两种描述分别对应哪两种对分类算法的评价标准?(A)A.Precision,Recall准确率和召回率7.将原始数据进行集成、变换、维度规约、数值规约是在以下哪个步骤的任务?A.频繁模式挖掘B.分类和预测C.数据预处理D.数据流挖掘8.当知道数据所带标签时,可以使用哪种技术促使带同类标签的数据与带其他标签的数据相分离?(A)A.分类B.聚类C.关联分析C.预测建模务?(B)B.建模描述C.预测建模15.假设12个销售价格记录组已经排序如下:5,10,11,13,15,35,50,55,72,92,204,215使用如下每种方法将它们划分成四个箱。等频(等深)划分时,15在第16.上题中,等宽划分时(宽度为50),15又在哪个箱子里?(A)B序数C区间C映射数据到新的空间D特征构造解析:特征修改无法创建新的属性23.考虑值集{1、2、3、4、5、90},其截断均值(p=20%)是(C)?解析:(2+3+4+5)/4=3.524.下面哪个属于映射数据到新的空间的方法?(A)A傅立叶变换B特征加权C渐进抽样D维归约解析:傅立叶变换将时间域映射到频率域25.熵是为消除不确定性所需要获得的信息量,投掷均匀正六面体骰子的熵是:A.电信29.属于原型聚类算法的是()30Kmeans中确定K值的方法包括哪些:()C.手肘法(Elbow)十、对错题(25题)样本的聚类。(T)21.AGNES算法(AGglomerativeNESting)采用自上而下的策略。(F)22.DIANA算法(DIvisiveANALysis)采用自下而上的策十一、填空题(7题)Learning)方法。十二、问答题(6题)第11章降维技术与关联规则挖掘十三、选择题(30题)A.分类B.聚类C.关联规则D.主成分分析题?(B)A.项头表B.条件概率C.联合概率D.簇9.关于欠拟合(under-fitting)C.训练误差较大,测试误差较大D.训练误差不变,测试误差较大A.删除缺少值太多的列B.删除数据差异较大的列C.删除不同数据趋势的列D.都不是B.分类准则C.特征选取D.模式相似性测度12.影响基本K-均值算法的主要因素有(B)A.样本输入顺序B.模式相似性测度C.聚类准则D.样本的数量B.求出X的协方差矩阵C;A.生成频繁项集和生成规则B.找出强关联规则C.找到所有满足强关联规则的项集26.以下关于频繁项表述不正确的是(A)?A.频繁项的子集是非频繁的。B.频繁项的子集是频繁的。C.非频繁项的超集是非频繁的。D.非频繁项的支持度一定小于最小支持度。27.以下属于Apriori算法优点的的是(A)?A.使用先验原理,大大提高了频繁项集逐层产生的效率B.每一步产生侯选项目集时循环产生的组合过多,没有排除不应该参与组合的元素C.只需要读取两次数据库D.每次计算项集的支持度时,都对数据库D中的全部记录进行了一遍扫描比较,如果是一个大型的数据库的话,这种扫描比较会大大增加计算机系统的I/0开销。28.以下不属于Apriori算法超参数的是(D)?D.频繁项十四、对错题(26题)构强加于商务之上,一旦系统设计完毕,其程序和规则不会轻易改变;而前者则是的大(T)22.支持度:(→)=|交|/,表示物品集X和Y同十五、填空题(5题)2.置信度计算规则为:同时购买商品A和商品B的交易次数÷购买了商品A的次5.决策树包含三种结点:根结点(矩形表示)、内部结点(矩形表示)、叶结点/终结点(椭圆表示)。十六、问答题(6题)答:(1)主成分分析(PCA)(2)因子分析(FA)(3)独立成分分析(ICA)想要把它降到500维。降维的过程就是找个一个从1000是9,那么特征选择选到这个特征后它的值还是9,并没有改变。第12章神经网络十七、选择题(30题)D.AlloftheaboveD:以上所有A)ItcanhelpindimensionalityreductD)Al1oftheaboveD)B和CB)WeightbetweenhiddenC

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论