05-模型选择和评价_第1页
05-模型选择和评价_第2页
05-模型选择和评价_第3页
05-模型选择和评价_第4页
05-模型选择和评价_第5页
已阅读5页,还剩30页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

模型选择和评价王秋月中国人民大学信息学院如何选择模型?对一个给定的有监督学习任务,应该选择哪个学习模型?如何选择该模型的最优参数?如何估计训练好的模型在学习样例之外的数据上可能的性能?模型评价(1)训练精度(trainingaccuracy)在整个数据集上训练模型并在同一个数据集上测试模型,得到模型的预测结果,和真实结果做比较,计算模型的精度问题:机器学习的目标是期望模型能在学习样例之外的数据上有好的表现(面向未来,而不是过去)最大化训练精度,通常会产生过于复杂的模型,从而导致过拟合,模型不能很好地泛化010 20NumberofMalignantNodes6040200K=160402010 20NumberofMalignantNodes4K=34K值会影响判定边界XYModelTrue

FunctionSamplesXYX5YPolynomialDegree

=

1 PolynomialDegree=

4PolynomialDegree=

15不同复杂度的模型YModelTrue

FunctionSamplesXYYPolynomialDegree

=

1 PolynomialDegree=

4PolynomialDegree=

15XPooratTrainingPoorat

PredictingJust

RightXGoodatTrainingPoorat

Predicting6不同模型的泛化能力XYModelTrue

FunctionSamplesXYXYPolynomialDegree=

1PolynomialDegree=

4PolynomialDegree=

15UnderfittingJust

RightOverfitting7欠拟合与过拟合欠拟合和过拟合都会导致较大的泛化误差。监督学习中的误差来源Error=Bias2+Variance+Noise偏差(Bias):模型的期望输出值(即用不同数据集训练出的所有模型输出的平均值)与真实值之间的差异。即学习算法的期望预测与真实结果的偏离程度,刻画了学习算法本身的拟合能力。方差(Variance):用不同数据集训练出的模型的输出值之间的差异。即数据的变动所导致的学习性能的变化,刻画了学习算法的稳定性。偏差与方差偏差-方差权衡YModelTrue

FunctionSamplesXYYPolynomialDegree=

1PolynomialDegree=

4PolynomialDegree=

15XHighBiasLow

VarianceJust

RightXLowBiasHigh

Variance11偏差-方差权衡模型评价(2)测试精度(testingaccuracy)把数据集划分成两个子集:训练集和测试集在训练集上训练模型在测试集上测试模型,并计算精度划分训练集和测试集测试数据14划分训练集和测试集训练数据训练模型训练数据

评价模型

-用模型预测类别标签-和真实值比较-计算误差15测试数据使用训练集和测试集0.01.02.00.01.02.0x108x1081.0162.03.04.0x108x1081.02.03.04.0训练数据测试数据使用训练集和测试集0.01.02.00.0x108x1081.02.03.04.0x108x1081.02.03.04.0训练数据测试数据1.0 2.0训练模型17使用训练集和测试集0.01.0 2.00.01.02.0x108x1081.02.03.04.0x108x1081.02.03.04.0训练数据测试数据预测18使用训练集和测试集0.00.01.02.0x108x1081.02.03.04.0x108x1081.02.03.04.0训练数据测试数据1.0 2.0计算误差(或精度)19使用训练集和测试集20导入划分训练集和测试集的函数:fromsklearn.model_selectionimporttrain_test_split划分数据集,测试集数据占全集的30%:train,test=train_test_split(data,test_size=0.3)划分训练集和测试集的语法/stable/modules/generated/sklearn.model_selection.train_test_split.html21超越单个测试集:交叉验证验证数据训练数据0.0 1.0 2.00.01.02.0x108x1081.02.03.04.0x108x1081.02.03.04.0训练数据测试数据对这个测试集的最优模型22超越单个测试集:交叉验证23超越单个测试集:交叉验证验证数据1训练数据124验证数据2训练数据2超越单个测试集:交叉验证25超越单个测试集:交叉验证验证数据3训练数据326超越单个测试集:交叉验证验证数据4训练数据427超越单个测试集:交叉验证error𝐽𝑐𝑣𝜃crossvalidation

error𝐽𝑡𝑟𝑎𝑖𝑛𝜃training

error28模型复杂度与误差error𝐽𝑐𝑣𝜃crossvalidation

error𝐽𝑡𝑟𝑎𝑖𝑛𝜃training

error29模型复杂度与误差YModelTrue

FunctionSamplesPolynomialDegree=

1error𝐽𝑐𝑣𝜃crossvalidation

error𝐽𝑡𝑟𝑎𝑖𝑛𝜃training

error30模型复杂度与误差欠拟合:训练误差和交叉验证误差都很高YPolynomialDegree=

15ModelTrue

FunctionSamples31模型复杂度与误差error𝐽𝑐𝑣𝜃crossvalidation

error𝐽𝑡𝑟𝑎𝑖𝑛𝜃training

error过拟合:训练误差低,交叉验证误差高error𝐽𝑐𝑣𝜃crossvalidation

error𝐽𝑡𝑟𝑎𝑖𝑛𝜃training

errorYPolynomialDegree=

4ModelTrue

FunctionSamples32模型复杂度与误差33导入划分训练集和测试集的函数:fromsklearn.model_selectionimport

cross_val_score用一个给定的模型执行交叉验证:cross_val=cross_val_score(KNN,X_data,y_data,

cv=4,scoring='neg_mean_squared_error')交叉验证的语法/stable/modules/generated/sklearn.model_selection.cross_val_score.html34导入划分训练集和测试集的函数:fromsklearn.model_selectionimport

cross_val_score用一个给定的模型执行交叉验证:cross_val=cross_val_score(KNN,X_data,y_data,

cv=4,scoring='neg_mean_squared_error')交叉验证的语法其他CVsplitter:

LeaveOneOut,ShuffleSplit,StratifiedShuffleSplit……/stable/modules/cross_validation.htmlcv的可能取值:None,tousethede

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论