




下载本文档
版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、解析:这题有两个同学做错。过拟合的英文名称是Over-fitting(过拟合)。为了说清楚“过”机器学习练习题与解答1.小刚去应聘某互联网公司的算法工程师,面试官问他“回归和分类有什么相同点和不同点” 他说了以下言论,请逐条判断是否准确。1)回归和分类都是有监督学习问题必答题单选题参考答案:对。解析:这道题只有一个同学做错。本题考察有监督学习的概念。有监督学习是从标签化训练数 据集中推断出函数的机器学习任务。有监督学习和无监督学习的区别是:监督学习-给定数据(X/JjX諾和(X屛)-对新的知预测其t-分类,回tn非监督学习-给定数据X*凡-fxx fx,xp-概率佔计,降维,聚类机器学习算法的
2、图谱如下:机黑学习分类.监督学习:例如用户盍击/购矣预测.房价预测*无监督学习;便如由P件/新闻聚类*强化学习:例如动态糸统以及机器人桂制在回归问题中,标签是连续值;在分类问题中,标签是离散值。具体差别请看周志华机器学 习书中的例子,一看便懂:若我们欲预测的处离故flu例如好瓜“坏瓜”,此类学习任务称为“分类”似映曲怦tbiO;若欲预W的巫连级值、例血函瓜成熟度0卫乩0.37, 此类学习任务称为冋!RM (regrGflwionX2.背景同上题。请判断2)回归问题和分类问题都有可能发生过拟合单选题必答题答案:对拟合,首先说一下“拟合”【拟合的几何意义】:从几何意义上讲,拟合是给定了空间中的一些
3、点,找到一个已知形式未知参数的连续曲线或曲 面来最大限度地逼近这些点。一个直观的例子,是下面的电阻和温度的例子。已知热敏屯阻数据:温度: 2(L5 32-7imn)! 765 8265173.0 95.7873 942 1032求6C时的电阻&设 R=aah|上为待定系数我们知道 在物理学中,电阻和温度是线性的关系,也就是R=at+b。现在我们有一系列关于“温 度”和“电阻”的测量值。一个最简单的思路,取两组测量值,解一个线性方程组,就可以求 出系数a、b 了!但是理想是丰满的,现实是残酷的!由于测量误差等的存在,我们每次测量得 到的温度值和电阻值都是有误差的!因此,为了提高测量精度,我们会测
4、量多次,得到多组的 值,这样就相当于得到二维平面上的多个点,我们的目标是寻找一条直线,让这条直线尽可能 地接近各个测量得到的点。拟合的数学意义: 在数学的意义上,所谓拟合(fit)是指已知某函数的若干离散函数值f1,f2,fn(未必都是 准确值,有个别可能是近似甚至错误值),通过调整该函数中若干待定系数 f(入1,入2,入n), 使得该函数与已知点集的差别(最小二乘意义)最小。【说说过拟合】 古人云“过犹不及”。所谓“过”拟合,顾名思义,就是在学习的集合(也就是训练集)上拟合的很不错,但是有点过头了,什么意思?他能够在学过的数据上判断的很准,但是如果再扔 给它一系列新的没学习过的数据,它判断的
5、非常差!比如古时候有个教书先生教小明写数字,“一”字是一横,“二”字是两横,“三”字是三横。然后,小明说,老师你不用教我写数字 了,我都会写。老师很惊讶,那你说“万”字怎么写,结果小明在纸上写下了无数个“横”。用台湾大学林轩田老师的话说,过拟合是“书呆子”,“钻牛角尖”。如果用过于复杂的模型 来刻画简单的问题,就有可能得到“聪明过头”的结果。比如下面预测房子的价格 size(p rice)和之间关系的问题(来源于andrew ng 的 ppt)fOn + iJT + 弘工乂通过五组数据,我们通过肉眼直观地看,可以初步判断房屋的价格和 size之间是二次函数的 关系,也就是中间这幅图所拟合的情况
6、。而右边这幅图中,自作聪明地用了一个四次函数来拟 和这五组数据,虽然在已知的五个数据上都是100%准确,却得出了“当房子的 size大于某个值时 房子的价格会随着房屋面积增大而越来越低”这样的荒谬结论!这样的是过拟合。左边 这个用一条直线来拟合但是拟合的误差很大 也不置信,这叫“欠拟合”。在周志华老师的书中,举的例子是这样的:W卄训咼坤礼it轨合舷分类结更:1S为祐7渔有n古JdiN*T爰邂廿F(篠以为养色的枫定热畔1过拟合r纵含妁直观类比发现了没有?周志华老师用的是“是不是树叶”这样的分类问题举例,andrew ng用的“房价和房屋面积的关系”这样的回归问题举例。这说明,分类和回归都有可能过
7、拟合。3.3)0/1背景同上题。请判断一般来说,回归不用在分类问题上,但是也有特殊情况,比如logistic回归可以用来解决分类问题单选题必答题答案:对解析:Logistic回归是一种非常高效的分类器。它不仅可以预测样本的类别,还可以计算出分 类的概率信息,在一线互联网公司中广泛的使用,比如应用于CTR预估这样的问题中。这里我们不详细说明其原理,后续课程会讲到。很多人对它的名字会产生疑问,挂着“回归”的头, 卖的是“分类”的肉,别扭的慌。其实我们不用纠结它到底是“回归”,还是“分类”,非得二选一。可以参考一下百度 百科关于“logistic 回归”的词条其中举了一个富士康员工“自杀的日期”与“
8、累计自杀人数”之间关系的例子,并通过logistic 回归分析来拟合出一条曲线。这说明logistic回归本身也有一定的解决“回归”问题的能力,只是工业界都用它来解决分类问题。4.背景同上题。请判断4)对回归问题和分类问题的评价 最常用的指标都是 准确率和召回率单选题必答题答案:错 解析:本题有四个同学选错。这道题的用意 是提醒大家注意,对回归问题的评价指标通常并不 是准确率和召回率,从“房价与房屋面积之间关系预测”这个例子来说,一个已知数据点离预 测的曲线之间的距离是多少时能够判定为“准确”,距离为多少时判定为“不准确”?没办法 区别。准确率对于度量回归问题的效果其实并不适用。回归问题的误差
9、一般通过“误差”来评 估,比如RMS等。在滴滴大数据竞赛中 用的是这样的一个指标以皿心乍为最笔的i羽介指标:MAE =扌扌|g如-叫I很显然不是用的“准确率”来评定。5.背景同上题。请判断5)输出变量为有限个离散变量的预测问题是回归问题;输出变量为连续变量的预测问题是分类问题;单选题必答题答案:错解析:说反了6.向量x=1,2,3,4,-9,0 的L1范数是多少单选题必答题19 sqrt(111)答案:19 解析:这题错了三个同学,其实很简单。请记住:L0范数是指向量中非0的元素的个数。L1范数是指向量中各个元素绝对值之和,也有个美称叫“稀疏规则算子” (Lasso regularizati
10、on)。L2范数是指向量各元素的平方和然后求平方根。7.小明参加某公司的大数据竞赛,他的成绩在大赛排行榜上原本居于前二十,后来他保持特 征不变,对原来的模型做了 1天的调参,将自己的模型在自己本地测试集上的准确率提升了 5% 然后他信心满满地将新模型的预测结果更新到了大赛官网上,结果懊恼地发现自己的新模型在 大赛官方的测试集上准确率反而下降了。对此,他的朋友们展开了讨论,请将说法正确的选项 打勾(不定项选择题)多选题必答题 小芳:从机器学习理论的角度,这样的情况不应该发生,快去找大赛组委会反应 小刚:你这个有可能是由于过拟合导致的 小月:早就和你说过了,乖乖使用默认的参数就好了,调参是不可能有
11、收益的 小平:你可以考虑一下,使用交叉验证来验证一下是否发生了过拟合答案:选择第二项、第四项 解析:大家都同意第二项,是过拟合导致的。设置第四项的目的,是提醒大家,交叉验证可以 用于防止模型过于复杂而引起的过拟合。具体什么是交叉验证,请期待后续课程。8.关于L1正则和L2正则 下面的说法正确的是多选题必答题L1正则做不到这一点L2范数可以防止过拟合,提升模型的泛化能力。但 L2正则化标识各个参数的平方的和的开方值。 the users the most releva nt images. What features can you choose to use?单选题必 答题L2正则化有个名称叫
12、“Lasso regularizatio n” L1范数会使权值稀疏答案:第二项、第四项解析:同第6题9.判断这个说法对不对:给定n 练误差和测试误差之间的差别会随着个数据点,如果其中一半用于训练,另一半用于测试,贝U训 n的增加而减小单选题必答题答案:解析:训练数据越多,拟合度越好,训练误差和测试误差距离自然越小八卦:亲们,这道题曾经出现在百度 2016研发工程师笔试题。咱们有四个同学做错。10. Con Sider a p roblem of build ing an on li ne image advertiseme nt systemthat showscon Crete, abst
13、ract con Crete, raw, abstract con crete, raw con crete答案:解析:本题源于林轩田机器学习基石课件,给在线图片广告系统挑选特征。con crete user features, raw image features,a nd maybe abstract user/image IDs大致理解一下 特征的几种类型,请做错的同学去看一下林轩田老师的视频Raw Features: Digit Recognition Problem (2/2by Concrete Featuresby Raw FeaturesInX =(syniniefry. density)Other Problems with Raw Fea
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 深夜食堂二零二五特殊时段补贴用工合同
- 五年级上册音乐教案
- 运维方案-模板
- 乡镇购房合同样本
- 新教材数学人教B版必修第二册教学案:6.1.2-向量的加法
- 2025年工程项目招投标合同(全新版银行担保书)
- 专业分包工程合同标准文本
- 设计类保密协议模板
- 淘宝店铺运营教学设计
- 优惠率建设工程合同样本
- 餐饮店菜品成本计算表
- 《水土保持监测技术规范SLT 277-2024》知识培训
- 2025年江苏南京事业单位招聘(787人)高频重点模拟试卷提升(共500题附带答案详解)
- 档案管理制度培训宣贯
- GB/T 33136-2024信息技术服务数据中心服务能力成熟度模型
- 《保护地球爱护家园》课件
- 雾化吸入疗法合理用药专家共识(2024版)解读
- 2024年度产学研合作与科研奖励协议3篇
- 电力工程线路交叉跨越施工主要工序及特殊工序施工方法
- 【MOOC】软件度量及应用-中南大学 中国大学慕课MOOC答案
- 24秋国家开放大学《儿童发展问题的咨询与辅导》周测验参考答案
评论
0/150
提交评论