




版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
第二章模型评估与选择
1.数据集包含1000个样本其中500个正例,500个反例,将其划分为包含70M¥本的训练集和30%样
本的测试集用于留出法评估,试估算共有多少种划分方式。
一个组合问题.从500500正反例中分别选出150150正反例用于留出法评估.所以可能取法应该是9盅2
2.数据集包含100个样本,其中正反例各一半,假定学习算法所产生的模型是将新样本预测为训练样本
数较多的类别(训练样本敬相同时进行随机猜测),试给出用10折交叉验证法和留一法分别对错误率进行
评估所得的结果.
10折交叉检验:由于每次训练样本中正反例数目一样.所以讲结果判断为正反例的概率也是一样的.所以错
误率的期望是5050%。
留一法:如果留下的是正例.训练样本中反例的数目比正例多一个.所以留出的样本会被判断是反例;同理.
留出的是反例,则会被判断成正例,所以错误率是100乳
3.若学习器A的F1值比学习器B高,试析A的BEP值是否也比B高。
小,*fi们的0EHB大小井沿有明^的芙展:投去找〉
诅・!£谊里用&控.设it两个8£附相同纺分及8L至口索他们的,;值不一晚.鹿幺之道3t的^论激8!百更的
再加点残,「评坨贮的14惑:
BEP值祝疼R值遍)
BEP侦*&P叫取划&SttffBElMM.义心.耶么Fi和-用会怕等TBEP.聚么P.R.F&这里有什
么小义龈〉
这里分两
M-M1R的理精,在R,再IRlgw八Sn节谊个分美研正蝴・*时,斯•虹8EP4L古妁8EP的计算小If.川中南
的咋怖是育浏一。一步级试P'♦•二B£P.
的1?分英M将卬有ft本痊分为正例的
wmwfi.注I:贯茎面分具为it.后面分类为公:.但H这个可使咯?RTFi=FLRR用成立,分类,
';分迪邮掰有训练代您按自
己认为虽正例的敏Wt序U杵的面分裂慎可竦它却断为iFfftBKWff个M病12为正,当酬》看与查全
率《珈,准奉二直全率.当然^88的真实榆出幽曲个g帅的姓陟"仞■.嗣面的版记为正.占面的IS记为ft,
说钳的巨准率与苴全茎用束HWFlffi.可以U出白同择的旺Pffl的两个分类骞在不同位・tHK可S女台和的
P10所以F1<S麻不
ttao;
1/*Aw・w-IM
)♦*♦s%7/.&,取、卬.
1/*y*4/•&♦Wi*・uv,
家Tm?rm试衅本分%下二=行整两个分类蜀对隔有侔木按为n=伊问制的罹序,以》判斯的&毕.可然两个
5浚篇彳i粗向的旺p<3.伊#ftm8qgHHT#0.8D.-tB0.8.
4.试述真正例率(TPR)、假正例率(FPR)与查准率(Ph查全率(R)之间的联系.
查全率:真实正例被预测为正例的比例
真正例率:真实正例被预测为正例的比例
显然查全率与真正例率是相等的。
查准率:预测为正例的实例中真实正例的比例
假正例率:实反例被预测为正例的比例
两者并没有直接的数值关系❷
5.试证明(2.22MU&=1-I瑚
从书34页bIS君餐式不应族写的谊么彩会后来才发现原察这个使力并坨有正例反例预期馅19等的情况.当
出现这肺雨况时,AOC曲境会呈够上升,而不是这#只有水平和垂RFtHSS况.
由于-J»的嫩我时畀没有理浬ROC1BHI不可以?m,K&iTfiflffi,皿票不布在it他反倒玻纪ftMH等的情
况,家!么物^也没必要存
的时C-IB定不知ifl畲义是古和我这里写的•好
hUpS//en.wikipediA.<Mg/vnki/Receiver_operAtingch>r«cter»$tk
引用一’有料性的》《曲找‘
与BEP7.学习SB先给所有38试样本贵能]奠16捌4瘁可能尸访的Si*W旋.魅岛&次谊所与村德列一个
伯・,WE40更只有iE<W."犷破H.曲比水平往右.团更匿有正例也有反例,费阚向上.加图所示
由于TPRTPPRflY海整烘败所以读甲撞比例W大了坐撮(分别正例<0!夜反例的教目檐),可以
FBF8出曲统专势.
可以百出一共有20个M蜩本,miF.mE.NUftl序的结毕里
问中话♦内BW木川在相同的位・・
<(+,+LL)M+L),(+,-)arafttW果>
公式2.2ijun了所存不在正&«皈例救口,只中同tr的位•环记为os,aimssE八i.从图中可以■出,折找跖次
向右佑上册伸,表示日HB仃反例.》rt£JJ5WSB9»P.拓凰例居而孑]•多少个正饱每个正例星TiK形,对
应的面枳fi»LP]位■上的讦伽S个三角形,时应的囱枳3M5计算出Qto枳后.由于时。图邮怔屋归仙
丸所以总血枳耐以Httiffl火翊WJLtfettttmF
6.试述错误率与ROC曲线之间的关系
ROCiB炭GJ个点文寸曲了TTPR.FPR此时文寸应了一Mg谡率.
A
Eg=(1—TPH)acoMs+m~»FPR八coai)/(vv*+m)
*J{»会浜错误g小的位M为馨断点.
7.试证明任意一条ROC曲线都有一条代价曲线与之对应.反之亦然.
由定义可以知BWT火与FJ”担里由0上开?H.喝么F」Wfl!焜由1下陪到0.
础浓OCifU交都会肘阪一》《价圈0*TJWW:<nCESfl9B(0,0),(1,1).»A»(0.1)(1,0).
所右代价啪每会有公共区械议个区域就是期史然H代价,而这块远域的刀界峥曙ffll编目知以(0.0倒(1,0)
在有限个林木情况下.AOCSV雇此助R1剧知88场无i突厚AOCS1旧但卷5!理论上有无艰个样
木./QCJ2f连续的折成代tnffljeg^的折纭每个桐切《可以求出丁PR与FNR从而得SW-的加。啪氐
8.MinMax规范化宇score规范化如7^面试析二者跳缺点.
M识-01可£筮化方法匍甲,面目保瓯规处化GWi有兀素松R正的,句当有新的刀糠进采,只有在谊元素大
fit大俱或者小于争小便时7te«»ntM全都元赋但呈若存在个极大(小lag元既会导致具他元索提
agiKMv(大'
皈准化对个别极蜷元索彳蜘虬目肥所有元索分布在0M患时TSffi况下元弑坦多.0周图、何会分布
大部分的元索.ft1当有制的无宣进来.曜室制计冬令方蚱与均值.
计IM粮对大T
杏ISftWE杆^郦《«(«
以入曲超出当mu〃而囹时蛔计岫洛之削6陶荣9试述卡方检验过程.I步骤
《1〉关出Ifftti
以6Px的分布画数为尸句.
如果总体分布为有曜・KKiftAW八
Ho:ettxffj分布结为P(X"J『・i.2・
《2》将gitX的数围分做个苴不粗史的・bZfSjALA2.A3,….Ak.t(W
Al»<a0.al|.A2=01・a2]…AkMuk-tak).
其中ao可取~・ak可iR2,区间的好介视具力情茂而定,沮美便&个小区间附系的岸本值个致不小于
5•荷医何个数k不委太大也不蠢太小.
<3>3E语入第[个小讯同的AiKWTttKJ个奴记作<K«fi)•职有用氛奴之钮fiy•fk等于样玄
容•
n.
<4)当NO为宾鸵•根结年使我抓色〈理论分花,可箪出总、X的恰需入匆个1、叵间A1的嗷率
pl.于龟npWt是占人第I个亦区向Ai的样:fc值的理论阪数《寿论依》.
<5>当HO为同片,n次谟^中样掌值3入知个小区@2的倾室fim与布率pi应彼搜近,
SH07JIM.WJnmnpi珥芋茂大.
«TiS».S®.皮尔资引盛如下倏般增计看j在0麻波段立的情况下阳从自由室为仁1的卡方分方
10.试逑在使用PT配mQ〃检验中使用式(2.34)与(2.35)的区别
书上iRFri€dmdr>榆2平行障怕七也敝于正杏分布均假为与k
一工为m±HlIR
jj・EEELin/7•匹[空r.
BP:rFN(宁…A)
序以爵s导)FJ(1)
统计■忌£〃(「■与油)矽骨江的平濒耕nr@有艾或的,HhflH中*KSttfelt出皿T\系以ArtiSM
Httifl.B^iFrtcdmafiKvY.为
/i•芋,^疝(〃蜩),
猜酚由于Frirrfman统计■只有虑了不问H法间的g,而怜去噢◎不曰It强敏曰他方均棚罗的I州.所以书
卜淄今FriuE&n«h计■太VS守.
总、方SSST—N・(£(Xo-(EX)2)=Ni,(P-1)/12目出0、•伏一1)
■iifBjfi&SSA=N^£&(r,一埠I1自由质k1
二旭方ISSSE=SSTSS4自由盾(ND・(fe1)
的计./二再^龄二森给-nw(N-1).(fc-LW八
第三章线性模型
1.试分析在什么情况下.在以下式子中不比考虑偏置项b.
母珈珈=tt"+a两个或机林得判w■如=打食一瓦),以此消除了如所以可以对UlkMS站个巴本BW去第一
样本.燃后文寸新89椁木做费性1时日.只需£用》6型3=以二
2.试证明,对于参数w,对率回归(logistics回归)的目标函数(式1)是非凸的,但其对
数似然函数(式2)是凸的.
如果一个多元函数是凸的,那么它的Hessian矩阵是半正定的。
0_1+厂/巾)
止虹商5=1_"2)
器尸流,或1-2切(提)(y-1)(l-2y):rN合同于单位炬州所以切/呈半正
定坦四
缅丽颁0,侦细e(0.5,1)肘,仙-1)(1-2g)V0月牧名(皇片员定.所以1/〃始足非凸的.
1(°)=1X1(-叫膈+m(i+小舟))会(^)=xxTpl(x;p)(l-pl(x]/3))
HAm»plG(0,1).叫IS;闵(1pl(r;人))>0.所以0)=品H施Hn(l5))Hflg
3.编程实现对率回归.并给出西瓜数据集3.0a上的结果
httpA/iceflre_tvhZailide/details/52068844
4.选择两个UCI数据集,比较10折交叉验证法和留一法所估计出的对率回归的错误率.
http://bl()O.csdrwet/icefheIyh/a「tic»e/deiails/52068900
5.编程实现线性判别分析,并给出西瓜故据集3.0a上的结果。hup://blog・/iccfire-
tyh/articie/de【3ils/52069003
6.LDA仅在线性可分数据上能获得理想结果,试设计一个改进方法,使其能较好地用于非线性可分数
据.
在当前维度线性不可分.可以使用适当的映射方法.使其在更高一维上可分,典型的方法有KLDA.可以很好
的划分数据。
7.令码长为9,类别数为4,试给出海明距离意义下理论最优的EOOC二元码并证明之.
对十二元刊,当到I长为2*N至少N以位2n个奖89达到易以邮,他们的淹为比如长由为8时.叫以的。
列为
-14
旦中4,5,是女寸1,2,3彳亍的◎反若分沏为4一共可共由2'-2咐服了全全0).住砖,为8的恳优分雀器后隔
如一列投有出购的分奖ar就具码长为9的IB优令共{#・
8.EOOC编码能起到理想纠倡作用的聿娈条(榻:在每码上出楮的概率相当且独立.试析多
溜论上03政78玛濒哄纠俺的I®安枷目母个疏出帽的1J阳相学因为《》¥.个殆位品亦对很餐,领鲍佗妍的*
同的蜡果.不饵&分类作用.谊就相当于全0础全I的分类stiasmNFLffiwffi®®.<B由于单实的杆木开不
f潢足位g仲.所以书中拒驾了有步阵域S依顿的EC0C的出.
9.使用OvR和MvM将多分类任务分藉为二分类任务求解时,试述为何无需专门针对类别不平衡性进
行处理.
书中提到.对于OvROvR.MvMMvM来说,由于对每个类进行了相同的处理.其拆解出的二分类任务中
类别不平衡的影响会相互抵消,因此通常不需要专门处理。以ECOCECOC编码为例.每个生成的二分
类器会将所有样本分成较为均衡的二类.使类别不平衡的影响减小。当然拆解后仍然可能出现明显的类别
不平衡现象.比如一个超级大类和一群小类。w.iO出多分类代价敏感学习(仅考鹿:基于类别的错误分鬓代
价)使用〃再缩放“能获得理论最优解的条件.
靴目JS到仗号虑类别分部旗分剩顷,ffii由JK认正《胎关的R价为0.
:J■是得到分类卷(假ifi为3类)
oWC”
c»0CU
文寸于二分奖而卷柘样本为正例的后物龄祓为屈p刑么隔为正的代价侵(1-p)-E,
预泊为ffl的代价gp.cj”当(Ip)。cm样本会倾制成正例,齿枷的代价史小.当不导式g不寸.BWTW八J
分.区个顾m二番二这表示正例与反倒的,分比础MfiWM黜)弟倍。林冶美■瞄的g»pj考必代价顷耕
L当若》此明正队当枷甘W蛔舆岩A晋,去=芸,冷?
推广阱片多分兑任芯海郑曜状只砌翎如二句々)燃而彳行有捌109♦优础系赦并4•一疔能他时卷矿当代价表
那£卜而落件虬隆口的知础得到■伽W.
设七二g/Wj•财位/叼二*/<〉对所有Lj成立,段设有*类,心个与无炒:代价衷中&*仕一1)个敌,
aARfi.Wffl2•仕】)球IB出E袤,
第四章决策树
4_L试证明对于不含冲突数据(即特征向量完全相同但标记不同)的训练集,必存在与训练集一致(即训练
误差为0)的决策树.
因为决策树是通过属性来划分,相同属性的样本最终肯定会进入相同的叶节点。一个叶节点只有一个分类.
如果样本属性相同而分类不同.必然产生训练误差。反之.决策树只会在当前样本集合是同一类或者所有属
性相同时才会停止划分,最终得到训练误差为0的决策树。
4.2.试析使用“最小训练误差”作为决策树划分选择的缺陷.
从机器学习最开始就讲起,最小训练误差并不可靠,由于过度学习样本特性最终导致严重的过拟合,而没
有泛化能力。
4.3.试编程实现基于信息墉进行划分选择的决策树算法,并为表4.3中数据生成一棵决策树.
hug/blgcsdrwel/icefireiyh/article/deiails/5208]556
重写的不剪枝的决策树
hl(D:〃blOO.Csdn・net/icefire」yh/auicle/details/54575527
即ID3算法
44试编程实现基于基尼指数进行划分选择的决策树算法,并为表4.2中数解生成JR豹枝.后势枝决策树,
并与未劳枝决策树进行比较・
h"D://blog•csdn.neMcefire」yh/anicle/de【als/52081879
即CART算法
4.5.试编程实现基于对率回归进行划分选择的决策树算法,并为表4.3中数据生成一棵决策树。
hup:/7blog•csdn.nei/icefire【yh/article/deiails/52081770
思路:参考书P90・91的多变量决策树模型.这里我们将每个非叶节点作为一个对率回归分类器,输出为・
是。、.否•两类.形成形如二叉树的决策树.
4.6.试选择4个UCI数据集,对上述3种算法所产生的未勇枝、预剪枝、后剪枝决策树进行实验比较,
并进行适当的统计显著性检验.答案一
简要的分析一下:
ID3算法基于信息炳增益.CART算法则采用了基尼系数。两种划分属性选择均是基于数据纯度的角度.方
法差距应该不大(CART可能要好一点而对率同归进行划分选择,以斜划分的方式.实现了多变量参与划
分.其模型决策边界更光滑.
相比于决策树的生成算法.勇枝操作更影
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 2025年安徽省太和县事业单位公开招聘辅警考试题带答案分析
- 工程资料课件
- 疫情常规班会课件内容
- 元宵节作文400字以上六年级(14篇)
- 疫情后主题班会课课件
- 疟疾防治知识讲座课件
- 济宁地区数学试卷
- 哈尔滨市初升高数学试卷
- 湖北荆州高一数学试卷
- 2024学年上海市彭浦第三中学中考三模数学试题(B)(解析版)
- 小儿心律失常的护理讲课件
- ❤六年级奥数练习 全国版 含答案
- 2025-2030年中国电机控制中心(MCC)行业市场现状供需分析及投资评估规划分析研究报告
- 2024江西现代职业技术学院招聘笔试真题及参考答案详解
- 2025-2030年中国杀线虫剂行业市场现状供需分析及投资评估规划分析研究报告
- 2025至2030中国智能投顾产业发展趋势分析与未来投资战略咨询研究报告
- 边坡整治建设项目可行性研究报告
- 2025-2030中国蒸气产品行业市场发展趋势与前景展望战略研究报告
- (高清版)DB62∕T 25-3069-2013 城市园林绿地养护管理标准
- 2025年呼和浩特天骄航空有限公司招聘笔试冲刺题(带答案解析)
- 2025建筑工程专业分包劳务分包合同范本
评论
0/150
提交评论