版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
模型选择和评价王秋月中国人民大学信息学院如何选择模型?对一个给定的有监督学习任务,应该选择哪个学习模型?如何选择该模型的最优参数?如何估计训练好的模型在学习样例之外的数据上可能的性能?模型评价(1)训练精度(trainingaccuracy)在整个数据集上训练模型并在同一个数据集上测试模型,得到模型的预测结果,和真实结果做比较,计算模型的精度问题:机器学习的目标是期望模型能在学习样例之外的数据上有好的表现(面向未来,而不是过去)最大化训练精度,通常会产生过于复杂的模型,从而导致过拟合,模型不能很好地泛化010 20NumberofMalignantNodes6040200K=160402010 20NumberofMalignantNodes4K=34K值会影响判定边界XYModelTrue
FunctionSamplesXYX5YPolynomialDegree
=
1 PolynomialDegree=
4PolynomialDegree=
15不同复杂度的模型YModelTrue
FunctionSamplesXYYPolynomialDegree
=
1 PolynomialDegree=
4PolynomialDegree=
15XPooratTrainingPoorat
PredictingJust
RightXGoodatTrainingPoorat
Predicting6不同模型的泛化能力XYModelTrue
FunctionSamplesXYXYPolynomialDegree=
1PolynomialDegree=
4PolynomialDegree=
15UnderfittingJust
RightOverfitting7欠拟合与过拟合欠拟合和过拟合都会导致较大的泛化误差。监督学习中的误差来源Error=Bias2+Variance+Noise偏差(Bias):模型的期望输出值(即用不同数据集训练出的所有模型输出的平均值)与真实值之间的差异。即学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力。方差(Variance):用不同数据集训练出的模型的输出值之间的差异。即数据的变动所导致的学习性能的变化,刻画了学习算法的稳定性。偏差与方差偏差-方差权衡YModelTrue
FunctionSamplesXYYPolynomialDegree=
1PolynomialDegree=
4PolynomialDegree=
15XHighBiasLow
VarianceJust
RightXLowBiasHigh
Variance11偏差-方差权衡模型评价(2)测试精度(testingaccuracy)把数据集划分成两个子集:训练集和测试集在训练集上训练模型在测试集上测试模型,并计算精度划分训练集和测试集测试数据14划分训练集和测试集训练数据训练模型训练数据
评价模型
-用模型预测类别标签-和真实值比较-计算误差15测试数据使用训练集和测试集0.01.02.00.01.02.0x108x1081.0162.03.04.0x108x1081.02.03.04.0训练数据测试数据使用训练集和测试集0.01.02.00.0x108x1081.02.03.04.0x108x1081.02.03.04.0训练数据测试数据1.0 2.0训练模型17使用训练集和测试集0.01.0 2.00.01.02.0x108x1081.02.03.04.0x108x1081.02.03.04.0训练数据测试数据预测18使用训练集和测试集0.00.01.02.0x108x1081.02.03.04.0x108x1081.02.03.04.0训练数据测试数据1.0 2.0计算误差(或精度)19使用训练集和测试集20导入划分训练集和测试集的函数:fromsklearn.model_selectionimporttrain_test_split划分数据集,测试集数据占全集的30%:train,test=train_test_split(data,test_size=0.3)划分训练集和测试集的语法/stable/modules/generated/sklearn.model_selection.train_test_split.html21超越单个测试集:交叉验证验证数据训练数据0.0 1.0 2.00.01.02.0x108x1081.02.03.04.0x108x1081.02.03.04.0训练数据测试数据对这个测试集的最优模型22超越单个测试集:交叉验证23超越单个测试集:交叉验证验证数据1训练数据124验证数据2训练数据2超越单个测试集:交叉验证25超越单个测试集:交叉验证验证数据3训练数据326超越单个测试集:交叉验证验证数据4训练数据427超越单个测试集:交叉验证error𝐽𝑐𝑣𝜃crossvalidation
error𝐽𝑡𝑟𝑎𝑖𝑛𝜃training
error28模型复杂度与误差error𝐽𝑐𝑣𝜃crossvalidation
error𝐽𝑡𝑟𝑎𝑖𝑛𝜃training
error29模型复杂度与误差YModelTrue
FunctionSamplesPolynomialDegree=
1error𝐽𝑐𝑣𝜃crossvalidation
error𝐽𝑡𝑟𝑎𝑖𝑛𝜃training
error30模型复杂度与误差欠拟合:训练误差和交叉验证误差都很高YPolynomialDegree=
15ModelTrue
FunctionSamples31模型复杂度与误差error𝐽𝑐𝑣𝜃crossvalidation
error𝐽𝑡𝑟𝑎𝑖𝑛𝜃training
error过拟合:训练误差低,交叉验证误差高error𝐽𝑐𝑣𝜃crossvalidation
error𝐽𝑡𝑟𝑎𝑖𝑛𝜃training
errorYPolynomialDegree=
4ModelTrue
FunctionSamples32模型复杂度与误差33导入划分训练集和测试集的函数:fromsklearn.model_selectionimport
cross_val_score用一个给定的模型执行交叉验证:cross_val=cross_val_score(KNN,X_data,y_data,
cv=4,scoring='neg_mean_squared_error')交叉验证的语法/stable/modules/generated/sklearn.model_selection.cross_val_score.html34导入划分训练集和测试集的函数:fromsklearn.model_selectionimport
cross_val_score用一个给定的模型执行交叉验证:cross_val=cross_val_score(KNN,X_data,y_data,
cv=4,scoring='neg_mean_squared_error')交叉验证的语法其他CVsplitter:
LeaveOneOut,ShuffleSplit,StratifiedShuffleSplit……/stable/modules/cross_validation.htmlcv的可能取值:None,tousethede
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 畜牧业防水堵漏施工合同
- 航空公司公车使用承诺
- 门窗安装工程合同
- 科教年度工作计划模板7篇
- 体育馆门头房租赁合同
- 化肥公司医师聘用合同
- 学校建设电梯司机劳务协议
- 旅游度假鱼塘施工合同范本
- 临时司机招聘协议零时工
- 城市化妆品运输安全管理办法
- GB/T 17892-2024优质小麦
- 调酒初级基础理论知识单选题100道及答案解析
- 危废治理项目经验-危废治理案例分析
- 南京市2024-2025学年六年级上学期11月期中调研数学试卷二(有答案)
- 汽车防冻液中毒
- 粉条产品购销合同模板
- 2024至2030年中国自动车配件行业投资前景及策略咨询研究报告
- 2024-2030年中国蔗糖行业市场深度调研及发展趋势与投资前景研究报告
- 北师版 七上 数学 第四章 基本平面图形《角-第2课时 角的大小比较》课件
- 外研版小学英语(三起点)六年级上册期末测试题及答案(共3套)
- 北师大版(2024新版)七年级上册生物期中学情调研测试卷(含答案)
评论
0/150
提交评论