下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
一、 判断题(共30分,每题2分,打诚X)1、如果问题本身就是非线性问题,使用支持向量机( SVM)是难以取得好的预测效果的。(X)2、只要使用的半监督学习方法合适, 利用100个标记样本和1000个无标记样本的预测效果,TOC\o"1-5"\h\z同样可以达到利用1100个标记样本使用监督学习方法的预测效果。 (X)3、深度学习中应该尽量避免过拟合。 (X)4、在随机森林Bagging过程中,每次选取的特征个数为 m,m的值过大会降低树之间的关联性和单棵树的分类能力。 (X)5、决策树学习的结果,是得到一组规则集,且其中的规则是可以解释的。 (V)6、在FCM聚类算法中交替迭代优化目标函数的方法不一定得到最优解。 (V)7、在流形学习ISOMAP中,测地距离即是欧氏距离。 (X)8、贝叶斯决策实质上是按后验概率进行决策的。 (V)9、非参数估计需要较大数量的样本才能取得较好的估计结果。 (V)10、不需要显示定义特征是深度学习的优势之一。 (V)判断题为反扣分题目;答对得 2分,不答得0分,答错得-2分;尹老师没有给出问答题的参考答案是怕限制大家的思路, 我简要给出答题思路,仅供大家参考。我发现好几个问题直接百度就可以找到答案, 大家不妨自己搜一下。也可以看一下机器学习十大算法那个PDF文件。Co-training和ensemblelearning两个文件大家有时间可以看一下了解了解。二、 问答题(共60分)1、 从样本集推断总体概率分布的方法可以归结为哪几种类型?请分别简要解释之。3种方法:监督参数估计、非监督参数估计、非参数估计这个可以参照第三章概率密度函数估计 -1.ppt,写的不能再详细了。监督参数估计:样本所属类别及类条件总体概率密度的形式已知, 而表征概率密度函数的某些参数未知,需要根据样本集对总体分布中的某些参数进行估计。非监督参数估计:已知总体概率密度函数形式, 但未知样本所属类别,需要根据样本集对总体分布中的某些参数进行估计。非参数估计:已知样本所属类别,未知总体概率密度的形式, 需要依据样本集直接推断概率密度函数2、 什么是k-近邻算法?K近邻算法,即给定一个训练数据集,对新的输入实例,在训练数据集中找到与该实例最邻近的K个实例(也就是K个邻居),这K个实例的多数属于某个类,就把该输入实例分类到这个类中。主=少昭m=argmax(kn\kn是K个样本中第打类的样本个叛该方法在定类决策上只依据最邻近的一个或者几个样本的类别来决定待分样本所属的类别。因此对于类域的交叉或重叠较多的待分样本集来说, KNN方法较其他方法更为适合。是计算量较大,因为对每一个待分类的文本都要计算它到全体已知样本的距离, 才能求得它的K个最近邻点。当样本不平衡时,如一个类的样本容量很大,而其他类样本容量很小时,有可能导致当输入一个新样本时,该样本的 K个邻居中大容量类的样本占多数。3、决策树的C4.5算法与ID3算法相比主要有哪些方面的改进?FromID3toC4.5:1、用信息增益比来选择属性, 克服了用信息增益选择属性时偏向选择取值多的属性的不足;2、 增加了后剪枝操作。3、 能够完成对连续属性的离散化处理;4、 能够处理属性存在不同损失的情况;5、 能够对不完整数据进行处理。4、 就您的理解,谈谈什么是集成学习?集成学习要想取得好的效果,应该满足的两个条件是什么?集成学习是使用一系列学习器进行学习, 并使用某种规则把各个学习结果进行整合从而获得比单个学习器更好的学习效果的一种机器学习方法。集成学习的思路是在对新的实例进行分类的时候, 把若干个单个分类器集成起来,通过对多个分类器的分类结果进行某种组合来决定最终的分类, 以取得比单个分类器更好的性能。如果把单个分类器比作一个决策者的话,集成学习的方法就相当于多个决策者共同进行一项决尺S策。必要条件:被集成的各个基学习器(分类器)性能越高(分类正确率越高)越好。各个基学习器(分类器)具有互补性,或者说互补性越大越好。5、就您的理解,谈谈什么是半监督学习?请简要介绍 Co-training的基本思想半监督学习是监督学习与无监督学习相结合的一种学习方法。它主要考虑如何利用少量的标注样本和大量的未标注样本进行训练和分类的问题。Co-training是将特征x分为互相独立的两个部分,分别训练两个分类器,用 learnerl分类未标记的数据,选取置信度高的结果放入标记的数据中,对新生成的数据集再训练 learner2,同样将learner2产生的结果放入数据集中形成新的数据集,训练 learnerl,重复这个过程,最终两个分类器趋于相同的分类结果。Co-training算法假设数据属性拥有两个充分冗余的视图,称之为 viewl和view2。算法基本流程是:首先在标记数据集 L的view1和view2,分别上训练出两个分类器 C1和C2;然后从未标记数据集 U上随机的选取u个示例放入集合U'中;分别用C1和C2对U'中的所有元素进行标记;接着从两个分类器标记结果中各取可信度最高的 p个正标记和n个负标记放入L中;最后从U中选取2p+2n个数据补充到U'中;重复上述过程直到满足截止条件。6、就您的理解,请分别概述何谓代价敏感性学习、何谓类别不平衡学习。(1)不同错误的代价或者是后果是不一样的,甚至差别很大。(2)不追求总的错误率最小,而是尽量避免代价大的分类错误,是代价敏感性学习的基本思想。(3)在代价敏感性学习的思想下,要使分界面远离分类错误代价大的那一类,或者说尽量减少犯分类代价大的那类错误。代价敏感的学习方法是机器学习领域中的一种新方法, 它主要考虑在分类中,当不同的分类错误会导致不同的惩罚力度时如何训练分类器。不同的分类错误有不同的代价 (cost),代价敏感学习的目标就是最小化总分类代价。现实生活中,经常会存在这样的数据,即某一类别所包含的样本的数量远远小于其他类别所包含的样本数量,我们称这样的数据为类别不平衡数据。 在这些数据集中,人们主要关注的是小类样本的信息(少数类),但是传统的分类方法由于追求总体的准确率,很容易将全部样本判别为多数类,使得分类器在少数类样本上的效果变得很差。这样误分的代价是巨大的。类别不平衡数据的研究主要集中在两个个层面 :对数据集的处理和对分类算法的改进。对数据集的处理主要是用重采样的方法对数据集重构, 改变原始数据集的分布,缩减其不平衡程度,主要方法有欠取样和过取样; 对分类算法的改进主要是修改传统分类算法, 使之适应类别不平衡数据分类,如代价敏感学习及基于 Boosting的方法等。7、 试简述流型学习方法ISOMAP的基本思想及其优缺点。ISOMAP就是把任意两点的测地距离作为流形的几何描述, 用MDS理论框架理论上保持这个点与点之间的最短距离。 算法的关键在于利用样本向量之间的欧氏距离 dx(i,j)计算出样本之间的测地距离dG(i,j),从而真实再现高维数据内在的非线性几何结构。 然后使用经典MDS算法构造一个新的d维欧氏空间Y(d是降维空间的维数),最大限度地保持样本之间的欧式距离dY(i,j)与dG(i,j)误差最小,从而达到降维的目的。ISOMAP的优点:可以最大限度的保留原始数据的信息; 依赖于线性代数的特征值和特征向量问题,保证了结果的稳健性和全局最优性缺点:适用范围有限,流形必须是内部平坦的;计算每两个点的距离,时间复杂度较大。Isomap优点:能处理非线性流形之类的高维数据;全局优化;不管输入空间是高度折叠的,还是扭曲的,或者弯曲的, Isomap仍然能全局优化低维的欧式表示;⑷Isomap能保证渐进地恢复到真实的维度。Isomap缺点:(1)可能在数据拓扑空间是不稳定的,依赖的;⑵保证渐进恢复到非线性流形的几何结构的时候:当 N增加的时候,点对距离提供更加接近于测地的距离,但是花更多计算时间;假如 N是小的,测地距离将会非常不精确。8、 就您的理解,请概述何谓多标记学习。多标记学习关注于如何对具有多个不同概念标记的对象进行有效地建模, 在该框架下,学习系统通过对具有一组概念标记(labelset)的训练例进行学习,以尽可能正确地对训练集之外示例的概念集合进行预测。形式化地说,多标记学习的任务是从数据集 {(x1,Y1),(x2,Y2),…,(xm,Ym)中学得函数f:x宀2y其中xi€x为一个示例而Yiy为示例xi所属的一组概念标记。9、 就您的理解,谈谈什么是聚类?请简要介绍您所熟悉的一种聚类方法。聚类是将多个对象按照某种相似度的度量方式分成不同的组(簇) 。是一种无监督的学习方法,聚类的样本中没有类别 y只有特征x,聚类的目的是找到每个样本 x潜在的类别y,并将同类别y的样本x放在一起。
k-means算法是一种很常见的聚类算法,它的基本思想是:通过迭代寻找 k个聚类的一种划分方案,使得用这k个聚类的均值来代表相应各类样本时所得的总体误差最小。其算法描述如下:选择K个点作为初始质心Repeat将每个点指派到离它最近的质心,形成 K个簇重新计算每个簇的质心Until簇不再发生变化或者达到最大迭代次数三、计算题(共10分)1、有如图所示的神经网络。Squashfunction三、计算题(共10分)1、有如图所示的神经网络。Squashfunction为:f(x)=r,11,x_1X:::1,输入样本
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 人力工作计划4篇
- 集团年度工作计划
- 小学语文低段教研组工作计划
- 第二次月考八年级上册道德与法治试题
- 投资成立小额贷款公司可行性研究报告
- 教育咨询服务合同协议书范本(5篇)
- 动物疫病预防控制中心建设项目可行性研究报告
- 《光伏发电系统集成》课件-项目二:太阳能路灯系统设计
- 12.13国家公祭日PT南京大屠杀死难者国家公祭日主题课件
- 《大自然的语言》公开课课件
- 施工现场临时用电验收表参考模板范本
- 中央空调竣工验收报告中央空调竣工验收报告八篇
- 古希腊文明智慧树知到答案章节测试2023年
- 宣州谢朓楼饯别校书叔云【精品课件】-A3演示文稿设计与制作【微能力认证优秀作业】
- 2023年高校财务处长述职报告范文
- GB/T 28799.2-2020冷热水用耐热聚乙烯(PE-RT)管道系统第2部分:管材
- 设计图纸(文件)清单
- 施工现场监控设备安装验收单
- 国有企业经理层工作规则指引
- 公司派车表单模板
- 癃闭医学课件
评论
0/150
提交评论