《机器学习-Python实践》习题库 试题及答案_第1页
《机器学习-Python实践》习题库 试题及答案_第2页
《机器学习-Python实践》习题库 试题及答案_第3页
《机器学习-Python实践》习题库 试题及答案_第4页
《机器学习-Python实践》习题库 试题及答案_第5页
已阅读5页,还剩112页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

《机器学习-Python实践》习题库第一章机器学习入门基础一、选择题1.人工智能、机器学习、深度学习三者的关系是怎样的?A.人工智能包括机器学习与深度学习两部分,机器学习与深度学习是并列关系。B.深度学习包括人工智能与机器学习两部分,人工智能与机器学习是并列关系。C.人工智能包含机器学习,机器学习包含深度学习,三者属于包含关系。D.深度学习包含人工智能,人工智能包含机器学习,三者属于包含关系。答案:C解析:当今AI中包含了有两个关键技术——机器学习和深度学习,所以说,其实机器学习和深度学习都属于AI的范畴。只不过,机器学习是AI的一个分支技术,而深度学习又是机器学习里的特定分支技术,三者是包含关系,不冲突也不并列。2.从研究领域角度分,机器学习可分为哪几大类?A.监督学习B.无监督学习C.半监督学习D.增强学习答案:ABCD解析:教材原话,第一章,1.3小节。3.特征选择的必要性主要在于以下几点?A.减少训练的时间,能使用较少的特征更快地生成模型。B.简化模型,使模型更容易被使用者所解释。C.可以选择一些多余的特征。D.使模型的泛化能力更好,避免过拟合。答案:ABD解析:教材原话,第一章,1.4小节第三步。4.下面哪个不是特征选择的主要方法:A.过滤法(filter)B.包裹法(wapper)C.嵌入法(Embedded)D.幻想法(imagination)答案:D解析:特征选择的方法有过滤法(filter)、包裹法(wapper)、嵌入法(Embedded)等。5.机器学习的应用领域有以下哪些:A.智能汽车B.诈骗检测C.金融交易D.个性化营销推广答案:ABCD解析:人工智能在各行业应用越来越广泛,机器学习作为人工智能关键技术领域,其应用涉及产品推荐、自动驾驶、金融预测、自然语言处理等领域。6.以下说法错误的是哪一项:A.Anaconda是一个基于Python的数据处理和科学计算平台,它已经内置了许多非常有用的第三方库B.PyCharm是一种PythonIDE(IntegratedDevelopmentEnvironment,集成开发环境),带有一整套可以帮助用户在使用Python语言开发时提高其效率的工具C.JupyterNotebook的本质是一个Web应用程序,便于创建和共享文学化程序文档,支持实时代码,数学方程,可视化和markdown。D.Spyder是一个Python爬虫框架。答案:D解析:Spyder是Python(x,y)的作者为它开发的一个简单的集成开发环境。7.下列选项中机器学习主要涉及三大要素不包含哪个?A.数据B.设备C.算法D.模型答案:B解析:机器学习主要涉及数据、算法和模型这三大要素。第一章,1.1小节。8.在实际的企业应用场景中,为了让训练效果更好,以下哪个操作是错误的?A.清洗不完整的数据B.清洗多噪音的数据C.清洗矛盾和有差异的数据D.删除关键特征数据答案:D解析:常识。第一章,1.4小节。8.在实际的企业应用场景中,为了让训练效果更好,以下哪个操作是错误的?A.清洗不完整的数据B.清洗多噪音的数据C.清洗矛盾和有差异的数据D.删除关键特征数据答案:D解析:常识。第一章,1.4小节。9.根据表格,请选择说法正确的选项?表1-2脏数据举例序号姓名性别身高(cm)体重(kg)喜欢的颜色1001张三男17560蓝色1002李四女160Null红色1003王五男25065黑色1004赵六女16550赵六A.李四的体重是空值,属于数据不完整的情况。B.王五的身高是250cm,属于异常情况。C.赵六喜欢的颜色是赵六,属于矛盾情况。D.以上三种答案均正确答案:D解析:常识。第一章,1.4小节。10.以下哪个命令可以查看Python的版本号?A.python-VB.py-vC.py-VD.py--version答案:A解析:实训内容。11.从研究领域角度分,机器学习的类型不包含以下哪种()。A.监督学习B.无监督学习C.强化学习D.强调学习答案:D解析:第一章,1.3小节。12.常用的Python编程环境有哪些?A.JupyternotebookB.PyCharmC.SpyderD.ScalaIDE答案:D解析:D选项是编写Scala代码的。二、判断题1.机器学习简单来说就是让机器进行学习,学习的目的是实现对世界上的人事物进行预测或者判断。答案:正确解析:教材原话,第一章,1.2小节。2.在机器学习实际的应用场景中,绝对不允许出现错误。答案:错误解析:机器学习实际的应用场景中,允许有一定的错误,只是对不同场景的准确率要求会有所不同。3.机器学习的一般实施流程,包括数据收集、数据清洗、特征提取与选择、模型训练、模型评估测试、模型部署应用等步骤。答案:正确解析:教材原话,第一章,1.4小节。4.数据对于模型来说就是至关重要的,是模型能力的天花板,没有好的数据,就没有好的模型。答案:正确解析:教材原话,第一章,1.4小节。5.通过在测试集上完成评估的模型,就可以用来预测新数据的值。这时,需要将该模型部署到实际的生产场景中,部署好后为了确保模型的准确性,则不再需要对模型进行调整。答案:错误解析:部署好后,需要根据业务场景的真实数据对模型进行不断的微调。6.业界普遍认为机器学习是专门研究计算机怎样模拟人类的学习行为,进行新知识和新技能的获取,并不断通过重组知识结构来改善自身性能的一种技术。答案:正确解析:参考教材第一章,1.1小节。7.增强学习,在一些书籍里也称为强化学习。答案:正确解析:扩展题。8.在机器学习实施流程的特征提取与选择步骤,我们不会把“蓝色”、“红色”、“黑色”直接输入给模型。答案:正确解析:需要将类别数据编码成为对应的数值表示。9.对于一些简单统计的应用场景,为了体现统计领域的专业性,也需要使用上机器学习。答案:错误解析:对于一些简单统计的应用场景,通过个别规则就可以解决时,就不需要“大材小用”地应用机器学习来完成。10.机器学习本质上是一个提高效率的工具。答案:正确解析:参考教材第一章,1.2小节。三、填空题1.请给下方图中序号处填入相应的内容:、。答案:训练、预测解析:教材原图,第一章,1.2小节。2.典型的数据集类似于一个二维的电子表格或数据库表,每一行称为一个,每一列的属性称为。答案:数据样本(或者样本)、特征。解析:教材原话,第一章,1.4小节第一步。3.数据经过预处理之后,就可以用来训练模型,一般会把数据集分为和。答案:训练集、测试集。解析:教材原话,第一章,1.4小节第四步。4.从研究领域角度分,机器学习可分、、、四大类。答案:监督学习,无监督学习,半监督学习,增强学习。解析:教材原话,第一章,1.3小节。5.在实际应用场景中,使用最多的还是和两大类。答案:监督学习,无监督学习。解析:教材原话,第一章,1.3小节。四、问答题1.请简述一下对监督学习、无监督学习、半监督学习和增强学习的基本概念。参考答案:监督学习是通过学习已有的标记数据样本构建模型,再利用模型对新的数据进行预测。无监督学习也可称为非监督学习,通过学习没有标记的数据样本,发掘未知数据间的隐藏结构关系,从而实现预测。半监督学习,它是一种在预测时,既使用已标记的样本数据,也使用未标记的样本数据的方法,通常情况下,无标记样本的数量远超过有标记样本,因为有时候获得有标记数据的成本很高,所以在训练分类器模型时,先使用部分已经标记的数据,在学习了数据的内在结构联系以后,再使用大量无标记的数据进一步学得更好的模型,从而实现对数据的有效预测。所谓增强学习,是通过与环境的交互,以推测和优化实际的动作,从而实现决策。2.如果在模型诊断中发现了过拟合和欠拟合问题,请简述解决思路。参考答案:过拟合、欠拟合是模型诊断中常见的问题,如果出现过拟合(指所训练的模型在训练集上表现得非常优秀,可以有效地区分每一个样本,但在测试集上表现得很差),可以通过增加数据量和降低模型复杂度来优化,如果出现欠拟合(指所训练的模型在训练集中就已经表现得很差,准确度很低),可以通过提高特征数量和质量,增加模型复杂度来优化。3.请描述机器学习的实施流程参考答案:数据采集、数据清洗、特征提取与选择、模型训练、模型评估测试、模型部署应用4.请简述人工智能、机器学习、深度学习的关系。参考答案:机器学习为实现人工智能提供了方法,而深度学习则为实现机器学习提供了技术。总的来看,其实机器学习和深度学习都属于AI的范畴,机器学习是AI的一个分支技术,而深度学习又是机器学习里的特定分支技术,三者是包含关系,而非并列。5、请简述算法、数据、模型的概念及关系。参考答案:数据:输入给计算机的数据。算法:用系统的方法描述解决问题的策略机制。模型:指由输入到输出的映射关系。三者之间的关系可以理解为:提供数据给算法,然后算法通过运算产生模型。第2-7章一、选择题题目考查范围:关于支持向量机SVM,下列说法错误的是()A.L2正则项,作用是最大化分类间隔,使得分类器拥有更强的泛化能力B.Hinge损失函数,作用是最小化经验分类错误C.分类间隔为1||w||1||w||,||w||代表向量的模D.当参数C越小时,分类间隔越大,分类错误越多,趋于欠学习正确答案:C解析:A正确。考虑加入正则化项的原因:想象一个完美的数据集,y>1是正类,y<-1是负类,决策面y=0,加入一个y=-30的正类噪声样本,那么决策面将会变“歪”很多,分类间隔变小,泛化能力减小。加入正则项之后,对噪声样本的容错能力增强,前面提到的例子里面,决策面就会没那么“歪”了,使得分类间隔变大,提高了泛化能力。B正确。C错误。间隔应该是2||w||2||w||才对,后半句应该没错,向量的模通常指的就是其二范数。D正确。考虑软间隔的时候,C对优化问题的影响就在于把a的范围从[0,+inf]限制到了[0,C]。C越小,那么a就会越小,目标函数拉格朗日函数导数为0可以求出,a变小使得w变小,因此间隔2||w||2||w||变大假定某同学使用NaiveBayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是:(BD)A.这个被重复的特征在模型中的决定作用会被加强B.模型效果相比无重复特征的情况下精确度会降低C.如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样。D.当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题正确答案:BD解析:NB的核心在于它假设向量的所有分量之间是独立的。在贝叶斯理论系统中,都有一个重要的条件独立性假设:假设所有特征之间相互独立,这样才能将联合概率拆分。关于Logit回归和SVM不正确的是(A)A.Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。A错误B.Logit回归的输出就是样本属于正类别的几率,可以计算出概率,正确C.SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化。D.SVM可以通过正则化系数控制模型的复杂度,避免过拟合。答案:A答案解析:Logit回归目标函数是最小化后验概率,Logit回归可以用于预测事件发生概率的大小,SVM目标是结构风险最小化,SVM可以有效避免模型过拟合。以下哪些方法不可以直接来对文本分类?(A)A、KmeansB、决策树C、支持向量机D、KNN正确答案:A分类不同于聚类。解析:A:Kmeans是聚类方法,典型的无监督学习方法。分类是监督学习方法,BCD都是常见的分类方法。关于Logit回归和SVM不正确的是(A)A.Logit回归本质上是一种根据样本对权值进行极大似然估计的方法,而后验概率正比于先验概率和似然函数的乘积。logit仅仅是最大化似然函数,并没有最大化后验概率,更谈不上最小化后验概率。A错误B.Logit回归的输出就是样本属于正类别的几率,可以计算出概率,正确C.SVM的目标是找到使得训练数据尽可能分开且分类间隔最大的超平面,应该属于结构风险最小化。D.SVM可以通过正则化系数控制模型的复杂度,避免过拟合。答案:A解析:Logit回归目标函数是最小化后验概率,Logit回归可以用于预测事件发生概率的大小,SVM目标是结构风险最小化,SVM可以有效避免模型过拟合。下列不是SVM核函数的是()A.多项式核函数B.logistic核函数C.径向基核函数D.Sigmoid核函数正确答案:B解析:SVM核函数包括线性核函数、多项式核函数、径向基核函数、高斯核函数、幂指数核函数、拉普拉斯核函数、ANOVA核函数、二次有理核函数、多元二次核函数、逆多元二次核函数以及Sigmoid核函数。模型的高bias是什么意思,我们如何降低它?机器学习ML基础易A.在特征空间中减少特征B.在特征空间中增加特征C.增加数据点D.B和C答案:B解析:bias太高说明模型太简单了,数据维数不够,无法准确预测数据。假设,现在我们已经建了一个模型来分类,而且有了99%的预测准确率,我们可以下的结论是:A.模型预测准确率已经很高了,我们不需要做什么了B.模型预测准确率不高,我们需要做点什么改进模型C.无法下结论D.以上都不对答案:B解析:99%的预测准确率可能说明,你预测的没有点进去的人很准确(因为有99%的人是不会点进去的,这很好预测).不能说明你的模型对点进去的人预测准确,所以,对于这样的非平衡数据集,我们要把注意力放在小部分的数据上,即那些点击进去的人。我们想在大数据集上训练决策树,为了使用较少时间,我们可以:A.增加树的深度B.增加学习率(learningrate)C.减少树的深度D.减少树的数量答案:C解析:增加树的深度,会导致所有节点不断分裂,直到叶子节点是纯的为止.所以,增加深度,会延长训练时间。对于线性回归,我们应该有以下哪些假设?1.找到离群点很重要,因为线性回归对利群点很敏感2.线性回归要求所有变量必须符合正态分布3.线性回归假设数据没有多重线性相关性A.1和2B.2和3C.1,2和3D.以上都不是答案:D解析:离群点要着重考虑,第一点是对的不是必须的,当然,如果是正态分布,训练效果会更好有少量的多重线性相关性是可以的,但是我们要尽量避免关于正态分布,下列说法错误的是:A.正态分布具有集中性和对称性B.正态分布的均值和方差能够决定正态分布的位置和形态C.正态分布的偏度为0,峰度为1D.标准正态分布的均值为0,方差为1答案C解析:标准正态分布即如此。目标变量在训练集上的8个实际值[0,0,0,1,1,1,1,1],目标变量的熵是多少?A.-(5/8log(5/8)+3/8log(3/8))B.5/8log(5/8)+3/8log(3/8)C.3/8log(5/8)+5/8log(3/8)D.5/8log(3/8)–3/8log(5/8)答案为(A)解析:信息熵的计算公式为H(x)=E[I(xi)]=E[log(2,1/P(xi))]=-∑P(xi)log(2,P(xi))(i=1,2,..n)。其中,x表示随机变量,与之相对应的是所有可能输出的集合,定义为符号集,随机变量的输出用x表示。P(x)表示输出概率函数。变量的不确定性越大,熵也就越大,把它搞清楚所需要的信息量也就越大。决策树的父节点和子节点的熵的大小关系是什么?A.决策树的父节点更大B.子节点的熵更大C.两者相等D.根据具体情况而定正确答案:B。在特征选择时,应该给父节点信息增益最大的节点,而信息增益的计算为IG(Y|X)=H(Y)-H(Y/X),H(Y/X)为该特征节点的条件熵,H(Y/X)越小,即该特征节点的属性对整体的信息表示越“单纯”,IG更大。则该属性可以更好的分类。H(Y/X)越大,属性越“紊乱”,IG越小,不适合作为分类属性。下列关于极大似然估计(MaximumLikelihoodEstimate,MLE),说法正确的是(多选)?A.MLE可能并不存在B.MLE总是存在C.如果MLE存在,那么它的解可能不是唯一的D.如果MLE存在,那么它的解一定是唯一的答案:AC解析:如果极大似然函数L(θ)在极大值处不连续,一阶导数不存在,则MLE不存在。一般来说,下列哪种方法常用来预测连续独立变量?A.线性回归B.逻辑回顾C.线性回归和逻辑回归都行D.以上说法都不对答案:A解析:线性回归一般用于实数预测,逻辑回归一般用于分类问题。个人健康和年龄的相关系数是-1.09。根据这个你可以告诉医生哪个结论?A.年龄是健康程度很好的预测器B.年龄是健康程度很糟的预测器C.以上说法都不对D:两者没关系答案:C假如我们利用Y是X的3阶多项式产生一些数据(3阶多项式能很好地拟合数据)。那么,下列说法正确的是(多选)?A.简单的线性回归容易造成高偏差(bias)、低方差(variance)B.简单的线性回归容易造成低偏差(bias)、高方差(variance)C.3阶多项式拟合会造成低偏差(bias)、高方差(variance)D.3阶多项式拟合具备低偏差(bias)、低方差(variance)答案:AD解析:偏差和方差是两个相对的概念,就像欠拟合和过拟合一样。如果模型过于简单,通常会造成欠拟合,伴随着高偏差、低方差;如果模型过于复杂,通常会造成过拟合,伴随着低偏差、高方差。解析:因为相关系数的范围是[-1,1]之间,所以,-1.09不可能存在。假如你在训练一个线性回归模型,有下面两句话:1.如果数据量较少,容易发生过拟合。2.如果假设空间较小,容易发生过拟合。关于这两句话,下列说法正确的是?A.1和2都错误B.1正确,2错误C.1错误,2正确D.1和2都正确答案:B解析:先来看第1句话,如果数据量较少,容易在假设空间找到一个模型对训练样本的拟合度很好,容易造成过拟合,该模型不具备良好的泛化能力。再来看第2句话,如果假设空间较小,包含的可能的模型就比较少,也就不太可能找到一个模型能够对样本拟合得很好,容易造成高偏差、低方差,即欠拟合。假如我们使用Lasso回归来拟合数据集,该数据集输入特征有100个(X1,X2,…,X100)。现在,我们把其中一个特征值扩大10倍(例如是特征X1),然后用相同的正则化参数对Lasso回归进行修正。那么,下列说法正确的是?A.特征X1很可能被排除在模型之外B.特征X1很可能还包含在模型之中C.无法确定特征X1是否被舍弃D.以上说法都不对答案:B解析:Lasso回归类似于线性回归,只不过它在线性回归的基础上,增加了一个对所有参数的数值大小约束。假如使用逻辑回归对样本进行分类,得到训练样本的准确率和测试样本的准确率。现在,在数据中增加一个新的特征,其它特征保持不变。然后重新训练测试。则下列说法正确的是?A.训练样本准确率一定会降低B.训练样本准确率一定增加或保持不变C.测试样本准确率一定会降低D.测试样本准确率一定增加或保持不变答案:B解析:在模型中增加更多特征一般会增加训练样本的准确率,减小bias。但是测试样本准确率不一定增加,除非增加的特征是有效特征。这题对应的知识点也包括了增加模型复杂度,虽然会减小训练样本误差,但是容易发生过拟合。下面这张图是一个简单的线性回归模型,图中标注了每个样本点预测值与真实值的残差。计算SSE为多少?A.3.02B.0.75C.1.01D.0.604答案:A解析:SSE是平方误差之和(SumofSquaredError),SSE=(-0.2)^2+(0.4)^2+(-0.8)^2+(1.3)^2+(-0.7)^2=3.02关于“回归(Regression)”和“相关(Correlation)”,下列说法正确的是?注意:x是自变量,y是因变量。A.回归和相关在x和y之间都是互为对称的B.回归和相关在x和y之间都是非对称的C.回归在x和y之间是非对称的,相关在x和y之间是互为对称的D.回归在x和y之间是对称的,相关在x和y之间是非对称的答案:C解析:相关(Correlation)是计算两个变量的线性相关程度,是对称的。也就是说,x与y的相关系数和y与x的相关系数是一样的,没有差别。回归(Regression)一般是利用特征x预测输出y,是单向的、非对称的。逻辑回归将输出概率限定在[0,1]之间。下列哪个函数起到这样的作用?A.Sigmoid函数B.tanh函数C.ReLU函数D.LeakyReLU函数答案:A解析:Sigmoid函数输出值限定在[0,1]之间。关于两个逻辑回归模型中的β0、β1值,下列说法正确的是?注意:y=β0+β1*x,β0是截距,β1是权重系数。A.绿色模型的β1比黑色模型的β1大B.绿色模型的β1比黑色模型的β1小C.两个模型的β1相同D.以上说法都不对答案:B解析:逻辑回归模型最终还要经过Sigmoid非线性函数,Sigmoid是增函数,其图形与上图中的黑色模型相近。黑色模型是增函数,说明其β1>0,绿色模型是减函数,说明其β1<0。所以,得出结论:绿色模型的β1比黑色模型的β1小。在n维空间中(n>1),下列哪种方法最适合用来检测异常值?A.正态概率图B.箱形图C.马氏距离D.散点图答案:C解析:正态概率图(NormalProbabilityPlot)一般用来检查一组数据是否服从正态分布。是实数与正态分布数据之间函数关系的散点图。如果这组实数服从正态分布,正态概率图将是一条直线。逻辑回归与多元回归分析有哪些不同之处?A.逻辑回归用来预测事件发生的概率B.逻辑回归用来计算拟合优度指数C.逻辑回归用来对回归系数进行估计D.以上都是答案:D解析:A选项,逻辑回归是用来解决分类问题的,可以用于预测事件发生的概率。B选项,一般来说,为了测量真实样本与模型的拟合程度,可以使用逻辑回归来计算拟合优度指数。C选项,在拟合逻辑回归模型之后,我们还可以根据系数值,来判断各个独立特征与目标输出的关系(正相关或负相关)。如果一个SVM模型出现欠拟合,那么下列哪种方法能解决这一问题?A.增大惩罚参数C的值B.减小惩罚参数C的值C.减小核系数(gamma参数)D.以上都不是答案:A解析:SVM模型出现欠拟合,表明模型过于简单,需要提高模型复杂度。我们知道二元分类的输出是概率值。一般设定输出概率大于或等于0.5,则预测为正类;若输出概率小于0.5,则预测为负类。那么,如果将阈值0.5提高,例如0.6,大于或等于0.6的才预测为正类。则准确率(Precision)和召回率(Recall)会发生什么变化(多选)?A.准确率(Precision)增加或者不变B.准确率(Precision)减小C.召回率(Recall)减小或者不变D.召回率(Recall)增大答案:AC解析:准确率和召回率都不能很好地反映模型性能,通常使用F1score来作为模型预测水平判据。F1Score被定义为准确率和召回率的调和平均数。点击率预测是一个正负样本不平衡问题(例如99%的没有点击,只有1%点击)。假如在这个非平衡的数据集上建立一个模型,得到训练样本的正确率是99%,则下列说法正确的是?A.模型正确率很高,不需要优化模型了B.模型正确率并不高,应该建立更好的模型C.无法对模型做出好坏评价D.以上说法都不对答案:B解析:模型训练过程中正负样本分布不均是常见的问题。这时候不能单独只看预测正确率。对于此题来说,如果我们预测的结果是100%没有点击,0%点击,那么可以说正确率是99%,因为只有1%的点击预测错误。但是,我们其实更关心的那1%的点击率并没有预测出来。可以说这样的模型是没有任何意义的。对应正负样本不平衡的情况需要做一些数据处理,主要包括:采样、数据合成、惩罚因子加权、一分类。其中,一分类即是在正负样本分布极不平衡的时候,把它看做一分类(OneClassLearning)或异常检测(NoveltyDetection)问题。这类方法的重点不在于捕捉类间的差别,而是为其中一类进行建模,经典的工作包括One-classSVM等。如果在大型数据集上训练决策树。为了花费更少的时间来训练这个模型,下列哪种做法是正确的?A.增加树的深度B.增加学习率C.减小树的深度D.减少树的数量答案:C解析:本题考查的是决策树相关概念。一般用决策树进行分类,从根结点开始,对实例的某一特征进行测试,根据测试结果,将实例分配到其子结点。这时,每一个子结点对应着该特征的一个取值。如此递归地对实例进行测试并分类,直至达到叶结点。最后将实例分到叶结点的类中。——引自李航《统计学习方法》决策树深度越深,在训练集上误差会越小,准确率越高。但是容易造成过拟合,而且增加模型的训练时间。对决策树进行修剪,减小树的深度,能够提高模型的训练速度,有效避免过拟合。单决策树中,学习率不是一个有效参数。决策树是单树,随机森林由多个决策树组成。我们想要训练一个ML模型,样本数量有100万个,特征维度是5000,面对如此大数据,如何有效地训练模型?A.对训练集随机采样,在随机采样的数据上建立模型B.尝试使用在线机器学习算法C.使用PCA算法减少特征维度D.以上都对答案:D解析:本题考查的是如何解决样本数量和特征维度过大的问题。在有限的内存下,如何处理高特征纬度的训练样本是一项非常艰巨的任务。下面这些方法可以用来解决这一问题。我们可以随机抽样数据集,包括样本数量和特征数量。这意味着,我们可以创建一个更小的数据集,比如说,有1000个特征和300000个样本进行训练。使用在线学习(onlinelearning)算法使用主成分分析算法(PCA)挑选有效的特征,去除冗余特征。关于在线学习与离线学习,离线学习是我们最为常见的一种机器学习算法模式,使用全部数据参与训练。训练完成,整个模型就确定了;而在线学习一般每次使用一个数据或是小批量数据进行训练,每次训练都会优化模型,模型处于不断优化更改状态。PCA(principalComponentAnalysis),是一种使用最广泛的数据压缩算法。在PCA中,数据从原来的坐标系转换到新的坐标系,由数据本身决定。转换坐标系时,以方差最大的方向作为坐标轴方向,因为数据的最大方差给出了数据的最重要的信息。第一个新坐标轴选择的是原始数据中方差最大的方法,第二个新坐标轴选择的是与第一个新坐标轴正交且方差次大的方向。重复该过程,重复次数为原始数据的特征维数。机器学习中做特征选择时,可能用到的方法有?a.卡方b.信息增益c.平均互信息d.期待交叉熵答案:ABCD解析:在文本分类中,首先要对数据进行特征提取,特征提取中又分为特征选择和特征抽取两大类,在特征选择算法中有互信息,文档频率,信息增益,卡方检验以及期望交叉熵。期望交叉熵,以文本分类为例子,期望交叉熵用来度量一个词对于整体的重要程度。在ID3决策树中,也使用信息增益作为特征选择的方法,在C4.5决策树中,使用信息增益比作为特征选择的方法,在CART中,使用基尼指数作为特征选择的方法如何在监督式学习中使用聚类算法(多选)?A.首先,可以创建聚类,然后分别在不同的集群上应用监督式学习算法B.在应用监督式学习算法之前,可以将其类别ID作为特征空间中的一个额外的特征C.在应用监督式学习之前,不能创建聚类D.在应用监督式学习算法之前,不能将其类别ID作为特征空间中的一个额外的特征答案:AB解析:本题考查的是聚类算法与监督式学习。我们可以为不同的集群构建独立的机器学习模型,并且可以提高预测精度。将每个类别的ID作为特征空间中的一个额外的特征可能会提高的精度结果。下面哪句话是正确的?A.机器学习模型的精准度越高,则模型的性能越好B.增加模型的复杂度,总能减小测试样本误差C.增加模型的复杂度,总能减小训练样本误差D.以上说法都不对答案:C解析:本题考查的是机器学习模型的评判指标。机器学习模型的精准度(Precision)越高,模型性能不一定越好,还要看模型的召回率(Recall),特别是在正负样本分布不均的情况下。一般使用F1score评判标准。如果使用线性回归模型,下列说法正确的是?A.检查异常值是很重要的,因为线性回归对离群效应很敏感B.线性回归分析要求所有变量特征都必须具有正态分布C.线性回归假设数据中基本没有多重共线性D.以上说法都不对答案:A解析:本题考查的是线性回归的一些基本原理。异常值是数据中的一个非常有影响的点,它可以改变最终回归线的斜率。因此,去除或处理异常值在回归分析中一直是很重要的。了解变量特征的分布是有用的。类似于正态分布的变量特征对提升模型性能很有帮助。例如,数据预处理的时候经常做的一件事就是将数据特征归一化到(0,1)分布。但这也不是必须的。当模型包含相互关联的多个特征时,会发生多重共线性。因此,线性回归中变量特征应该尽量减少冗余性。C选择绝对化了。建立线性模型时,我们看变量之间的相关性。在寻找相关矩阵中的相关系数时,如果发现3对变量(Var1和Var2、Var2和Var3、Var3和Var1)之间的相关性分别为-0.98、0.45和1.23。我们能从中推断出什么呢?A.Var1和Var2具有很高的相关性B.Var1和Var2存在多重共线性,模型可以去掉其中一个特征C.Var3和Var1相关系数为1.23是不可能的D.以上都对答案:D解析:本题考查的是相关系数的基本概念。Var1和Var2之间的相关性非常高,并且是负的,因此我们可以将其视为多重共线性的情况。此外,当数据中存在多重线性特征时,我们可以去掉一个。一般来说,如果相关大于0.7或小于-0.7,那么我们认为特征之间有很高的相关性。第三个选项是不言自明的,相关系数介于[-1,1]之间,1.23明显有误。下列哪种方法可以用来减小过拟合?(多选)A.更多的训练数据B.L1正则化C.L2正则化D.减小模型的复杂度答案:ABCD解析:增加训练样本、L1正则化、L2正则化、减小模型复杂度都能有效避免发生过拟合。向量X=[1,2,3,4,-9,0]的L1范数为?A.1B.19C.6D.√111答案:B解析:L0范数表示向量中所有非零元素的个数;L1范数指的是向量中各元素的绝对值之和,又称“稀疏矩阵算子”;L2范数指的是向量中各元素的平方和再求平方根。本例中,L0范数为5,L1范数为19,L2范数为√111。关于L1、L2正则化下列说法正确的是?A.L2正则化能防止过拟合,提升模型的泛化能力,但L1做不到这点B.L2正则化技术又称为LassoRegularizationC.L1正则化得到的解更加稀疏D.L2正则化得到的解更加稀疏答案:C解析:L1、L2正则化都能防止过拟合,提升模型的泛化能力。L1正则化技术又称为LassoRegularization。L1正则化得到的解更加稀疏。有N个样本,一般用于训练,一般用于测试。若增大N值,则训练误差和测试误差之间的差距会如何变化?A.增大B.减小C.不变D.以上均不对答案:B解析:增加数据,能够有效减小过拟合,减小训练样本误差和测试样本误差之间的差距。在回归模型中,下列哪一项在权衡欠拟合(under-fitting)和过拟合(over-fitting)中影响最大?A.多项式阶数B.更新权重w时,使用的是矩阵求逆还是梯度下降C.使用常数项D.学习率答案:A解析:选择合适的多项式阶数非常重要。如果阶数过大,模型就会更加复杂,容易发生过拟合;如果阶数较小,模型就会过于简单,容易发生欠拟合。如果有对过拟合和欠拟合概念不清楚的。下列哪一项能反映出X和Y之间的强相关性?A.相关系数为0.9B.对于无效假设β=0的p值为0.0001C.对于无效假设β=0的t值为30D.以上说法都不对答案:A解析:相关系数的概念我们很熟悉,它反映了不同变量之间线性相关程度,一般用r表示。r取值范围在[-1,1]之间,r越大表示相关程度越高。A选项中,r=0.9表示X和Y之间有较强的相关性。而p和t的数值大小没有统计意义,只是将其与某一个阈值进行比对,以得到二选一的结论。机器学习中做特征选择时,可能用到的方法有?(ABCD)A.卡方B.信息增益C.平均互信息D.期望交叉熵答案:ABCD以下说法中正确的是(C)A.SVM对噪声(如来自其他分部的噪声样本)具备鲁棒性B.在adaboost算法中,所有被分错样本的权重更新比例相同C.boosting和bagging都是组合多个分类器投票的方法,二者都是根据单个分类器的正确率确定其权重D.给定n个数据点,如果其中一半用于训练,一半用户测试,则训练误差和测试误差之间的差别会随着n的增加而减少以下描述错误的是(C)A.SVM是这样一个分类器,它寻找具有最小边缘的超平面,因此它也经常被称为最小边缘分类器B.在聚类分析当中,簇内的相似性越大,簇间的差别越大,聚类的效果就越差C.在决策树中,随着树中结点输变得太大,即使模型的训练误差还在继续降低,但是检验误差开始增大,这是出现了模型拟合不足的原因D.聚类分析可以看作是一种非监督的分类若在二维空间中线性不可分,SVM算法会通过()方法解决。核函数激活函数剪枝特征选择答案:A解析:线性不可分场景使用核函数。线性回归能完成的任务是(B)预测离散值预测连续值分类聚类答案:B解析:线性回归能完成的任务是预测连续值。产量(X,台)与单位产品成本(y,元/台)之家你的回归方程为y=356-1.5x,这说明(D)A。产量每增加一台,单位产品成本增加356元B。产品每增加一台,单位产品的成本减少1.5元C.产量每增加一台,单位产品的成本平均增加356元D。产量每增加一台,单位产品成本平均减少1.5元解析:首先观察这个函数,y=356-1.5x,这条直线的斜率是负值,从直线可以看出,y与x之间呈反比关系。可是根据实际情况而言,当产量越来越多的时候,成本就越来越少,那么当x无限接近于正无穷的时候,x岂不是为负值了吗???不知道你们远不愿意,反正如果是我的话,我肯定不愿意。所以说他只是在某一个阶段符合上述条件。当x=1,y=354.5;当x=2,y=353;x=3,y=351.5;将这三个数进行计算,平均值是1.5.所以正确答案为D直线方程y=wx+b,其中b表示(B)A.系数B截距C.斜率D权重解析:在机器学习中w表示系数,斜率和权重,b表示截距以下描述中,对梯度解释正确的是(AB)A梯度是一个向量,有方向有大小B求梯度就是对梯度向量的各个元素求偏导C梯度只有大小没有方向D梯度只有方向没有大小解析:theta是一个几行几列的矩阵,求偏导之后还是一个矩阵。所以说梯度是一个向量,有方向有大小。定义,求梯度就是对梯度向量的各个元素求偏导。关于误差ε的说法正确的是(AB)A误差可以看做随机比变量B误差的概率分布符合正态分布C误差的概率分布符合均匀分布D如果模型设计优良,误差可以避免解析:误差是ytrue与yhat的差值,它的值是不固定的,他是可以看做随机变量的。误差的概率分布符合正态分布的规律。从生活中获取到的数据是不完备的,误差是不可以避免的。标准差与方差的关系是(ABC)A标准差是方差的算术平方根B标准差可以反映离散程度,也可以反映出样本的量纲C方差只能反映离散程度D标准差的平方是方差解析:标准差是方差的算术平方根,标准差的平方是方差,标准差可以反映数据的离散程度,也可以反映样本的量纲SVM中的核技巧(Kernaltrick)的作用包括以下哪项?A.特征升维B.特征降维C.防止过拟合答案:C核技巧使用核函数将样本从原特征空间映射到更高维的空间,使得样本在更高维的空间中线性可分。在数据预处理阶段,我们常常对数值特征进行归一化或标准化(standardization,normalization)处理。这种处理方式理论上不会对下列哪个模型产生很大影响?A.k-MeansB.k-NNC.决策树答案:Ck-Means和k-NN都需要使用距离。而决策树对于数值特征,只在乎其大小排序,而非绝对大小。不管是标准化或者归一化,都不会影响数值之间的相对大小。关于决策树如何对数值特征进行划分选择Logistic回归中的One-Vs-All方法中的哪个选项是真实的。A我们需要在n类分类问题中适合n个模型B我们需要适合n-1个模型来分类为n个类C我们需要只适合1个模型来分类为n个类D这些都没有正确答案是:A解析:如果存在n个类,那么n个单独的逻辑回归必须与之相适应,其中每个类的概率由剩余类的概率之和确定。假设对给定数据应用了Logistic回归模型,并获得了训练精度X和测试精度Y。现在要在同一数据中添加一些新特征,以下哪些是错误的选项。注:假设剩余参数相同。A训练精度提高B训练准确度提高或保持不变C测试精度提高或保持不变正确答案是:B解析:将更多的特征添加到模型中会增加训练精度,因为模型必须考虑更多的数据来适应逻辑回归。但是,如果发现特征显着,则测试精度将会增加假定特征F1可以取特定值:A、B、C、D、E和F,其代表着学生在大学所获得的评分。在下面说法中哪一项是正确的?A特征F1是名义变量(nominalvariable)的一个实例。B特征F1是有序变量(ordinalvariable)的一个实例。C该特征并不属于以上的分类。D以上说法都正确。正确答案是:B解析:有序变量是一种在类别上有某些顺序的变量。例如,等级A就要比等级B所代表的成绩好一些。下面哪一项对梯度下降(GD)和随机梯度下降(SGD)的描述是正确的?1在GD和SGD中,每一次迭代中都是更新一组参数以最小化损失函数。2在SGD中,每一次迭代都需要遍历训练集中的所有样本以更新一次参数。3在GD中,每一次迭代需要使用整个训练集的数据更新一个参数。A只有1B只有2C只有3D都正确正确答案是:A解析:在随机梯度下降中,每一次迭代选择的批量是由数据集中的随机样本所组成,但在梯度下降,每一次迭代需要使用整个训练数据集。假定你正在处理类属特征,并且没有查看分类变量在测试集中的分布。现在你想将onehotencoding(OHE)应用到类属特征中。那么在训练集中将OHE应用到分类变量可能要面临的困难是什么?A分类变量所有的类别没有全部出现在测试集中B类别的频率分布在训练集和测试集是不同的C训练集和测试集通常会有一样的分布DA和B都正确正确答案是:D解析:A、B项都正确,如果类别在测试集中出现,但没有在训练集中出现,OHE将会不能进行编码类别,这将是应用OHE的主要困难。选项B同样也是正确的,在应用OHE时,如果训练集和测试集的频率分布不相同,我们需要多加小心。假定你现在解决一个有着非常不平衡类别的分类问题,即主要类别占据了训练数据的99%。现在你的模型在测试集上表现为99%的准确度。那么下面哪一项表述是正确的?1准确度并不适合于衡量不平衡类别问题2准确度适合于衡量不平衡类别问题3精确率和召回率适合于衡量不平衡类别问题3精确率和召回率不适合于衡量不平衡类别问题A1and3B1and4C2and3D2and4正确答案是:A假设我们有一个数据集,在一个深度为6的决策树的帮助下,它可以使用100%的精确度被训练。现在考虑一下两点,并基于这两点选择正确的选项。注意:所有其他超参数是相同的,所有其他因子不受影响。1深度为4时将有高偏差和低方差2深度为4时将有低偏差和低方差A只有1B只有2C1和2D没有一个正确答案是:A解析:如果在这样的数据中你拟合深度为4的决策树,这意味着其更有可能与数据欠拟合。因此,在欠拟合的情况下,你将获得高偏差和低方差。假设你正在做一个项目,它是一个二元分类问题。你在数据集上训练一个模型,并在验证数据集上得到混淆矩阵。基于上述混淆矩阵,下面哪个选项会给你正确的预测。1精确度是~0.912错误分类率是~0.913假正率(Falsecorrectclassification)是~0.954真正率(Truepositiverate)是~0.95A1和3B2和4C1和4D2和3正确答案是:C解析:精确度(正确分类)是(50+100)/165,约等于0.91。真正率是你正确预测正分类的次数,因此真正率将是100/105=0.95,也被称作敏感度或召回。对于下面的超参数来说,更高的值对于决策树算法更好吗?1用于拆分的样本量2树深3树叶样本A1和2B2和3C1和3D1、2和3E无法分辨正确答案是:E解析:对于选项A、B、C来说,如果你增加参数的值,性能并不一定会提升。例如,如果我们有一个非常高的树深值,结果树可能会过拟合数据,并且也不会泛化。另一方面,如果我们有一个非常低的值,结果树也许与数据欠拟合。因此我们不能确定更高的值对于决策树算法就更好。假如我们使用非线性可分的SVM目标函数作为最优化对象,我们怎么保证模型线性可分?A设C=1B设C=0C设C=无穷大D以上都不对答案:C解析:无穷大保证了所有的线性不可分都是可以忍受的.NaveBayes是一种特殊的Bayes分类器,特征变量是X,类别标签是C,它的一个假定是:()A.各类别的先验概率P(C)是相等的B.以0为均值,sqr(2)/2为标准差的正态分布C.特征变量X的各个维度是类别条件独立随机变量D.P(X|C)是高斯分布正确答案:C解析:朴素贝叶斯的条件就是每个变量相互独立假定某同学使用NaiveBayesian(NB)分类模型时,不小心将训练数据的两个维度搞重复了,那么关于NB的说法中正确的是:A.这个被重复的特征在模型中的决定作用会被加强B.模型效果相比无重复特征的情况下精确度会降低C.如果所有特征都被重复一遍,得到的模型预测结果相对于不重复的情况下的模型预测结果一样。D.当两列特征高度相关时,无法用两列特征相同时所得到的结论来分析问题正确答案:BD统计模式分类问题中,当先验概率未知时,可以使用()A.最小最大损失准则B.最小误判概率准则C.最小损失准则D.N-P判决正确答案:AD甲盒中有200个螺杆,其中有160个A型螺杆;乙盒中有240个螺母,其中有180个A型的。现从甲乙两盒中各任取一个,则能配成A型螺栓的概率为多少?A.1/20B.15/16C.3/5D.19/20参考答案:C解析:这题也很简单了,P(A型螺杆)*P(A型螺母)=3/5。一个部门1/2为系统工程师,2/5为软件工程师,1/4两者都是,那么两者都不是的比例?A.0.23B.0.35C.0.4D.0.32参考答案:B解析:P(都不是)=1-(P(系统工程师)+P(软件工程师)-P(两者都是))有朋自远方来,他乘火车,轮船,汽车,飞机来的概率分别是0.3,0.2,0.1,0.4,从各交通工具迟到的概率分别是1/4,1/3,1/12,0,下列语句中正确的?A.如果他迟到,乘火车来的概率是0.5。B.如果他准点,坐轮船或汽车的概率等于坐火车的概率。C.如果他准点,那么乘飞机的概率大于等于0.5。D.坐陆路(火车、汽车)交通工具准点机会比坐水路(轮船)要低。参考答案:AB解析:乘坐火车迟到的概率为:3/10*1/4=9/120乘坐轮船迟到的概率为:2/10*1/3=8/120乘坐汽车迟到的概率为:1/10*1/12=1/120乘坐飞机迟到的概率为:4/10*0=0迟到概率:9/120+8/120+1/120=18/120;乘坐火车准点的概率为:3/10*(1-1/4)=27/120乘坐轮船准点的概率为:2/10*(1-1/3)=16/120乘坐汽车准点的概率为:1/10*(1-1/12)=11/120乘坐飞机准点的概率为:4/10*1=48/120A:9/120/18/120=0.5对B:16/120+11/120=27/120对C:48/120/(27+16+11+48)/120=48/102错D:27/120+11/120>16/120错对于信息增益,决策树分裂节点,下面说法正确的是()1纯度高的节点需要更多的信息去区分2信息增益可以用”1比特-熵”获得3如果选择一个属性具有许多归类值,那么这个信息增益是有偏差的A1B2C2和3D所有以上答案:C纯度越高,表示不确定越少,更少的信息就可以区分假设三个稠密矩阵(DenseMatrix)A,B,C的尺寸分别为m*n,n*q和p*q,且m<n<p<qm<n<p<q,一下计算顺序会加速的是?(AB)CB.AC(B)A(BC)所有效率都相同答案:A(AB)C要mp(2n-1)+mq(2p-1)次运算;A(BC)要nq(2p-1)mq(2n-1)次运算;又因为m<n<p<q又因为m<n<p<q;所以mp(2n−1)<mq(2n−1);mp(2n−1)<mq(2n−1);mq(2p−1)<nq(2p−1);mq(2p−1)<nq(2p−1);所以(AB)C运算次数最少,效率最高;越小越要先乘梯度下降可以从以下哪些地方调优?学习率参数初始值归一化激活函数答案:ABC以下()不属于线性分类器最佳准则?A感知准则函数B贝叶斯分类C支持向量机DFisher准则答案B解析:线性分类器有三大类:感知器准则函数、SVM、Fisher准则,而贝叶斯分类器不是线性分类器。感知准则函数:准则函数以使错分类样本到分界面距离之和最小为原则。其优点是通过错分类样本提供的信息对分类器函数进行修正,这种准则是人工神经元网络多层感知器的基础。支持向量机:基本思想是在两类线性可分条件下,所设计的分类器界面使两类之间的间隔为最大,它的基本出发点是使期望泛化风险尽可能小。(使用核函数可解决非线性问题)Fisher准则:更广泛的称呼是线性判别分析(LDA),将所有样本投影到一条远点出发的直线,使得同类样本距离尽可能小,不同类样本距离尽可能大,具体为最大化“广义瑞利商”。有两个样本点,第一个点为正样本,它的特征向量是(0,-1);第二个点为负样本,它的特征向量是(2,3),从这两个样本点组成的训练集构建一个线性SVM分类器的分类面方程是()A2x+y=4Bx+2y=5Cx+2y=3D2x-y=0答案:C解析:这道题简化了,对于两个点来说,最大间隔就是垂直平分线,因此求出垂直平分线即可。斜率是两点连线的斜率的负倒数-1/((-1-3)/(0-2))=-1/2,可得y=-(1/2)x+c,过中点((0+2)/2,(-1+3)/2)=(1,1),可得c=3/2,故选C.判断题:“过拟合”只在监督学习中出现,在非监督学习中,没有“过拟合”,这是()答案:错解析:我们可以评估无监督学习方法通过无监督学习的指标,如:我们可以评估聚类模型通过调整兰德系数(adjustedrandscore)如果两个变量相关,那么它们一定是线性关系吗?(错)答:相关不一定是线性关系,也有可能是非线性相关。两个变量相关,它们的相关系数r可能为0。(对)解析:一般来说,相关系数r=0是两变量相互独立的必要不充分条件。也就是说,如果两个变量相互独立,那么相关系数r一定为0,如果相关系数r=0,则不一定相互独立。相关系数r=0只能说明两个变量之间不存在线性关系,仍然可能存在非线性关系。那么,若两个变量相关,存在非线性关系,那么它们的相关系数r就为0。在训练完SVM之后,我们可以只保留支持向量,而舍去所有非支持向量。仍然不会影响模型分类能力。答:对解析:该算法决定分类面的一般是关键的几个点,这几个点构建了分类面,因此被称为支持向量。该算法也就叫支持向量机了。训练完毕之后,其它非支持向量对分类面并无影响,去掉无妨。如果自变量X和因变量Y之间存在高度的非线性和复杂关系,那么树模型很可能优于经典回归方法。(对)解析:当数据是非线性的时,经典回归模型泛化能力不强,而基于树的模型通常表现更好。如果一个经过训练的机器学习模型在测试集上达到100%的准确率,这是否意味着该模型将在另外一个新的测试集上也能得到100%的准确率。(错)解析:因为还有一些模型不确定的东西,例如噪声。回归问题与分类问题都有可能发生过拟合。(对)解析:过拟合就是用复杂的模型刻画简单问题,对于分类回归均有可能出现。一般来说,回归不用在分类问题上,但也有特殊情况,逻辑回归可以用来解决0/1分类问题。(对)解析:逻辑回归就是分类器。预测样本类别。决策树只用来分类。(错)解析:决策树分为分类树及回归树。回归及分类常用的评估指标都是准确率和召回率。(错)解析:回归问题用的不是准确率,而是误差MSE或MAE。输出变量为连续变量的预测问题是分类问题。(错)解析:输出为连续的是回归问题。P(A|B)表示事件B已经发生的前提下,事件A发生的概率,叫做事件B发生下事件A的条件概率。(对)解析:就是朴素贝叶斯公式。朴素贝叶斯(分类器)是一种生成模型,它会基于训练样本对每个可能的类别建模。答案:对最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。(对)解析:定义决策树的剪枝是为了简化决策树模型,避免过拟合。答案:对常见的决策树算法是ID3,C4.5,CART树。答案:对决策树的剪枝基本策略有预剪枝(Pre-Pruning)和后剪枝。(对)预剪枝是在决策树生成过程中,对树进行剪枝,提前结束树的分支生长。(对)分类任务是预测连续值。(F)回归任务是预测连续值。(T)解析:回归和分类属于机器学习中的有监督学习。分类任务是预测离散值,回归任务是预测连续值。Σ是求和符号。(T)Π是求积符号。(T)用线性代数的方式描述函数或者方程的好处之一是书写方便。(T)解析:现实生活中的数据比较复杂,尚且不完备。把他们拟合成一个函数或者方程,使用线性代数来描述他们是为了书写方便。逻辑回归的目的就是提高二分类的效率。(对)SGD计算根据全部样本构造出来的代价函数的梯度。(错)BGD计算根据全部样本的构造出来的代价函数的梯度。(对)SVM不涉及核函数。(错)SVM自带正则项。(对)SVM无法做多分类。(错)解析:一对多方法:每一次把某个样本定为正样本,其余样本作为负样本。优点:每个优化问题规模小,分类器少,分类速度快;缺点:因为训练集是1:M,这种情况下存在biased.因而不是很实用。可以在抽取数据集的时候,从完整的负集中再抽取三分之一作为训练负集。一对一方法:每次选一个类的样本作正类样本,负类样本则变成只选一个类。优点:不会出现分类重叠现象。缺点:这种方法虽然好,但是当类别很多的时候,model的个数是n*(n-1)/2,代价还是相当大的。层次支持向量机(H-SVMs)。层次分类法首先将所有类别分成两个子类,再将子类进一步划分成两个次级子类,如此循环,直到得到一个单独的类别为止。决策树容易发生过拟合。(对)决策树容易发生欠拟合。(对)解析:对于样本不均衡的数据集表现不好,欠拟合。因为会出现过拟合,所以会剪枝。逻辑回归假设数据服从伯努利分布,通过极大化似然函数的方法,运用梯度下降来求解参数,来达到将数据二分类的目的。(对)交叉熵损失函数的好处是可以克服方差代价函数更新权重过慢的问题。(对)FP——将负类预测为正类数。(对)F1值定义为:F1=2PR/(P+R)。(对)P(θ)是在没有数据支持下,θ发生的概率:先验概率。(对)P(θ|x)是在数据X的支持下,θ发生的概率:后验概率。(对)logit回归输出的是Y属于某一类的概率,也可以表示某事件发生的概率。(对)SVM通过寻找使得训练数据尽可能分开且分类间隔最大的超平面实现结构风险最小化。(对)随机事件X所包含的信息量与其发生的概率有关。发生的概率越小,其信息量就越小。(错)矩阵的L0范数:矩阵的非0元素的个数,通常用它来表示稀疏,L0范数越小0元素越多,也就越稀疏。(对)随机变量可以分为离散型随机变量和连续型随机变量。(对)联合分布可求边缘分布,但若只知道边缘分布,无法求得联合分布。(对)协方差是衡量两个变量线性相关性强度及变量尺度。(对)标量是0阶张量。(对)朴素贝叶斯适合高维数据。(错)解析:这是决策树的特点。决策树短时间内处理大量数据,得到可行且效果较好的结果。(对)SVM对缺失数据敏感。(对)逻辑回归计算速度快。(对)决策树只能处理数据型属性。(错)解析:还可处理常规性属性。SVM适合高维数据。(对)逻辑回归的因变量可以是二分类的,也可以是多分类的,但是二分类的更为常用,也更加容易解释。所以实际中最常用的就是二分类的逻辑回归。(对)正确肯定(TruePositive,TP):预测为真,实际为真。(对)错误否定(FalseNegative,FN):预测为假,实际为真。(对)最大似然估计的目的就是:利用已知的样本结果,反推最有可能(最大概率)导致这样结果的参数值。(对)SVM是一个凸优化问题,因此局部最优解一定是全局最优解的优点。(对)SVM在小样本训练集上能够得到比其它算法好很多的结果。(对)支持向量是SVM的训练结果,在SVM分类决策中起决定作用的是支持向量。(对)决策树算法可以用于小数据集。(对)错误率(ErrorRate)是分类错误的样本数占样本总数的比例。(对)填空题:熵指的是体系的混乱的程度。信息越有序,信息熵越低。训练过程中用到的数据叫训练集。训练用到的每个样本叫训练样本。分类是预测离散值,比如把人分为好人和坏人之类的学习任务。模型没有很好地捕捉到数据特征,不能够很好地拟合数据叫欠拟合。模型把训练样本学习“太好了”,可能把一些训练样本自身的特性当做了所有潜在样本都有的一般性质,导致泛化能力下降叫过拟合。提取出的正确信息条数/提取出的信息条数是正确率。评判分类效果好坏的三个指标就是上面介绍的三个指标:正确率,召回率,F值。回归问题对数值型连续随机变量进行预测和建模的监督学习算法。回归往往会通过计算误差(Error)来确定模型的精确性。从已有的M个特征(Feature)中选择N个特征使得系统的特定指标最优化叫特征选择。损失函数也叫代价函数或目标函数求函数机制的方法有两大类,分别是解析解(闭式解)和数值解。已知坐标轴中两点A(2,−2)B(−1,2),这两点的曼哈顿距离(L1距离)是7。解析:答案:7。向量AB(-3,4),L1是向量中非零元素的绝对值和。机器学习中做特征选择时,可能用到的卡方、信息增益、平均互信息、期望交叉熵。ID3算法利用信息增益进行特征的选择,信息增益反映的是给定条件后不确定性减少的程度。C4.5算法在决策树生成的过程中,用信息增益比来选择特征。基尼指数(基尼不纯度)表示在样本集合中一个随机选中的样本被分错的概率。Gini指数越小表示集合中被选中的样本被分错的概率越小,也就是说集合的纯度越高。基尼指数(基尼不纯度)=样本被选中的概率*样本被分错的概率。p(x|θ)是给定参数θ的概率分布:似然函数。欧式距离的特征是:平移不变性、旋转不变性。马式距离的特征则是:平移不变性、旋转不变性、尺度不变性。一个标量表示一个单独的数,它不同于线性代数中研究的其他大部分对象(通常是多个数的数组)。一个向量表示一组有序排列的数。通过次序中的索引,我们可以确定每个单独的数。矩阵是具有相同特征和纬度的对象的集合,表现为一张二维数据表。在某些情况下,我们会讨论坐标超过两维的数组。一般地,一个数组中的元素分布在若干维坐标的规则网格中,我们将其称之为张量。线性回归如果是泊松分布,那就是泊松回归。回归常用评估方法:平均误差,绝对值误差,R2.经验误差(empiricalerror)也叫训练误差。问答题:L1和L2正则先验分别服从什么分布?答:L1和L2正则先验分别服从什么分布,L1是拉普拉斯分布,L2是高斯分布。为什么朴素贝叶斯如此“朴素”?答:因为它假定所有的特征在数据集中的作用是同样重要和独立的。正如我们所知,这个假设在现实世界中是很不真实的,因此,说朴素贝叶斯真的很“朴素”。简单说下有监督学习和无监督学习的区别?答:有监督学习:对具有标记的训练样本进行学习,以尽可能对训练样本集外的数据进行分类预测。(LR,SVM,BP,RF,GBDT)无监督学习:对未标记的样本进行训练学习,比发现这些样本中的结构知识。(KMeans,DL)梯度下降法找到的一定是下降最快的方向么?答:梯度下降法并不是下降最快的方向,它只是目标函数在当前的点的切平面(当然高维问题不能叫平面)上下降最快的方向。在PracticalImplementation中,牛顿方向(考虑海森矩阵)才一般被认为是下降最快的方向,可以达到Superlinear的收敛速度。梯度下降类的算法的收敛速度一般是Linear甚至Sublinear的(在某些带复杂约束的问题)。什么是最小二乘法?答:最小二乘法(又称最小平方法)是一种数学优化技术。它通过最小化误差的平方和寻找数据的最佳函数匹配。利用最小二乘法可以简便地求得未知的数据,并使得这些求得的数据与实际数据之间误差的平方和为最小。简单介绍下Logistics回归。答:Logistic回归目的是从特征学习出一个0/1分类模型,而这个模型是将特性的线性组合作为自变量,由于自变量的取值范围是负无穷到正无穷。因此,使用logistic函数(或称作sigmoid函数)将自变量映射到(0,1)上,映射后的值被认为是属于y=1的概率。常见的分类算法有哪些?答:SVM、神经网络、随机森林、逻辑回归、KNN、贝叶斯常见的监督学习算法有哪些?答:感知机、SVM、人工神经网络、决策树、逻辑回归带核的SVM为什么能分类非线性问题?答:核函数的本质是两个函数的內积,而这个函数在SVM中可以表示成对于输入值的高维映射。注意核并不是直接对应映射,核只不过是一个内积。决策树的剪枝方法有哪些?答:预剪枝:提前结束决策树的增长:类目数量、方差性能提升后剪枝:决策树生长完成之后再进行剪枝SVM的超参有哪些?答:C和gamma,C正则系数,gamma决定支持向量的数量。有数据集D1,其中样本的特征是离散取值(可以简单地考虑取二值),数据集D2和D1基本一样,唯一的区别是D2中每个样本的某个特征被重复了100次,请问在这两个数据集上训练的朴素贝叶斯分类器是否一样,请给出具体分析。解:分类器是不一样的。因为朴素贝叶斯方法假设了特征间的独立性,但D2中的100个特征彼此不独立,因此不在适用,如果用了两者的结果不等。在D2上训练,被重复的特征的概率会被乘100次,放大了它的影响。一元线性回归有哪些基本假定?答:假设1、解释变量X是确定性变量,Y是随机变量;假设2、随机误差项ε具有零均值、同方差和不序列相关性:E(εi)=0i=1,2,…,nSVM、LR、决策树的对比。模型复杂度:SVM支持核函数,可处理线性非线性问题;LR模型简单,训练速度快,适合处理线性问题;决策树容易过拟合,需要进行剪枝。损失函数:SVMhingeloss;LRL2正则化;Adaboost指数损失。数据敏感度:SVM添加容忍度对outlier不敏感,只关心支持向量,且需要先做归一化;LR对远点敏感。数据量:数据量大就用LR,数据量小且特征少就用SVM非线性核。朴素贝叶斯的特点是?答:优点:在数据较少的情况下仍然有效,可以处理多类别问题。缺点:对于输入数据的准备方式较为敏感。适用数据类型:标称型数据。朴素贝叶斯的应用场景有哪些?答:文档的自动分类。决策树算法特点。答:优点:计算复杂度不高,输出结果易于理解,数据有缺失也能跑,可以处理不相关特征。缺点:容易过拟合。适用数据类型:数值型和标称型。预剪枝核心思想是?答:其中的核心思想就是,在每一次实际对结点进行进一步划分之前,先采用验证集的数据来验证划分是否能提高划分的准确性。如果不能,就把结点标记为叶结点并退出进一步划分;如果可以就继续递归生成节点。两种剪枝策略对比。答:后剪枝决策树通常比预剪枝决策树保留了更多的分支;后剪枝决策树的欠拟合风险很小,泛化性能往往优于预剪枝决策树;后剪枝决策树训练时间开销比未剪枝决策树和预剪枝决策树都要大的多。SVM算法应用场景有哪些?答:人脸识别(facerecognition)、文本分类(textcategorization)等模式识别(patternrecognition)问题当中。什么是梯度?答:梯度就是把每一个维度的偏导数集合在一起做一个向量。对于多元函数的θ,每次减去梯度值就能让多元损失函数朝着最佳解迈进一步什么是下降?答:负梯度这个向量构成的方向我们通常称为下降方向梯度下降就是把每一个维度的偏导数集合在一个组合的一个向量按照负方向进行估测计算,从而找出最优的解。过拟合出现的原因?答:抽取的数量比较小,观测到的特征少,在模型训练的过程中将训练集中的一些偶然现象做了规律。什么是损失函数?损失函数的用途是什么?答:损失函数用于评估ytrue和yhat之间差值的优良程度。损失函数用于求最优解,一般是利用求导求出损失函数导函数,再利用数值解找到最小值,此时可以求出最优解。定义一下prediction精准率、recall召回率答:(准确率是accuracy)召回率就是Q4中的真正率。精准率指的是:正样本被预测为正所占所有预测为正样本数的比例。概率和似然有什么区别?答:概率和似然都是指可能性,但在统计学中,概率和似然有截然不同的用法。概率描述了已知参数时的随机变量的输出结果;似然则用来描述已知随机变量输出结果时,未知参数的可能取值。例如,对于“一枚正反对称的硬币上抛十次”这种事件,我们可以问硬币落地时十次都是正面向上的“概率”是多少;而对于“一枚硬币上抛十次,我们则可以问,这枚硬币正反面对称的“似然”程度是多少。概率(密度)表达给定θ下样本随机向量X=x的可能性,而似然表达了给定样本X=x下参数θ1(相对于另外的参数θ2)为真实值的可能性。我们总是对随机变量的取值谈概率,而在非贝叶斯统计的角度下,参数是一个实数而非随机变量,所以我们一般不谈一个参数的概率,而说似然。如何对决策树进行剪枝?答:剪枝是决策树发生过拟合后,为了降低模型复杂度,提高模型准确率的一种做法。可以分为自上而下和自下而上两种。常见的方法有:误差降低剪枝(REP)和代价复杂度剪枝(CCP)。REP简单的来说就是对树的每一个结点进行剪枝,如果剪掉某个结点不会降低模型准确率,那么将其剪掉。这种启发式的做法实际上就是为了最大化准确率。什么时候你应该使用分类而不是回归?分类会产生离散的数值,使得数据严格的分为不同类。回归会得到连续的值,使你更好的区分独立点之间的区别。当你需要知道你的数据明确的属于那些类时你可以用分类。什么是核技巧,有什么用处?答:核技巧使用核函数,确保在高维空间不需要明确计算点的坐标,而是计算数据的特征空间中的内积。这使其具有一个很有用的属性:更容易的计算高维空间中点的坐标。许多算法都可以表示称这样的内积形式,使用核技巧可以保证低维数据在高维空间中运用算法

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

最新文档

评论

0/150

提交评论