版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领
文档简介
1、 机器学习模型的可解释性算法的概念及其重要意义目前很多机器学习模型可以做出非常好的预测,但是它们并不能很好地解释他们是如何进行预测的,很多数据科学家都很难知晓为什么该算法会得到这样的预测结果。这是非常致命的,因为如果我们无法知道某个算法是如何进行预测,那么我们将很难将其前一道其它的问题中,很难进行算法的debug。本文介绍目前常见的几种可以提高机器学习模型的可解释性的技术,包括它们的相对优点和缺点。我们将其分为下面几种:PartialDependencePlot(PDP);IndividualConditionalExpectation(ICE)PermutedFeatureImportanc
2、eGlobalSurrogateLocalSurrogate(LIME)ShapleyValue(SHAP)六大可解释性技术01PartialDependencePlot(PDP)PDP是十几年之前发明的,它可以显示一个或两个特征对机器学习模型的预测结果的边际效应。它可以帮助研究人员确定当大量特征调整时,模型预测会发生什么样的变化。X.-=P43P&01002QOQ0203006ra上面图中,轴表示特征的值,轴表示预测值。阴影区域中的实线显示了平均预测如何随着值的变化而变化。PDP能很直观地显示平均边际效应,因此可能会隐藏异质效应。例如,一个特征可能与一半数据的预测正相关,与另一半数据负相关。
3、那么PDP图将只是一条水平线。02IndividualConditionalExpectation(ICE)ICE和PDP非常相似,但和PDP不同之处在于,PDP绘制的是平均情况,但是ICE会显示每个实例的情况。ICE可以帮助我们解释一个特定的特征改变时,模型的预测会怎么变化。ICEtmodel.XQDD5A-CL06如上图所示,与PDP不同,ICE曲线可以揭示异质关系。但其最大的问题在于:它不能像PDP那样容易看到平均效果,所以可以考虑将二者结合起来一起使用。03PermutedFeatureImportancePermutedFeatureImportance的特征重要性是通过特征值打乱后
4、模型预测误差的变化得到的。换句话说,PermutedFeatureImportance有助于定义模型中的特征对最终预测做出贡献的大小。Feature_ImportaritefmodeLX.yFarlur|irparunos-VZIF3fo-QjG04-04)2XOO口畑CKO4Cig0-00如上图所示,特征f2在特征的最上面,对模型的误差影响是最大的,fl在shuffle之后对模型却几乎没什么影响,生息的特征则对于模型是负面的贡献。04GlobalSurrogateGlobalSurrogate方法采用不同的方法。它通过训练一个可解释的模型来近似黑盒模型的预测。首先,我们使用经过训练的黑盒模型
5、对数据集进行预测;然后我们在该数据集和预测上训练可解释的模型。训练好的可解释模型可以近似原始模型,我们需要做的就是解释该模型。注:代理模型可以是任何可解释的模型:线性模型、决策树、人类定义的规则等。Prediction使用可解释的模型来近似黑盒模型会引入额外的误差,但额外的误差可以通过R平方来衡量。由于代理模型仅根据黑盒模型的预测而不是真实结果进行训练,因此全局代理模型只能解释黑盒模型,而不能解释数据。05LocalSurrogate(LIME)LIME(LocalInterpretableModel-agnosticExplanations)和globalsurrogate是不同的,因为它不
6、尝试解释整个模型。相反,它训练可解释的模型来近似单个预测。LIME试图了解当我们扰乱数据样本时预测是如何变化的。上面左边的图像被分成可解释的部分。然后,LIME通过“关闭”一些可解释的组件(在这种情况下,使它们变灰)来生成扰动实例的数据集。对于每个扰动实例,可以使用经过训练的模型来获取图像中存在树蛙的概率,然后在该数据集上学习局部加权线性模型。最后,使用具有最高正向权重的成分来作为解释。06ShapleyValue(SHAP)ShapleyValue的概念来自博弈论。我们可以通过假设实例的每个特征值是游戏中的“玩家”来解释预测。每个玩家的贡献是通过在其余玩家的所有子集中添加和删除玩家来衡量的。一名球员的ShapleyValue是其所有贡献的加权总和。Shapley值是可加的,局部准确的。如果将所有特征的Shapley值加起来,再加上基值,即预测平均值,您将得到准确的预测值。这是许多其他方法所没有的功能。frodelQHJlpPTRAIIO=3该图显示了每个特征的Shapley值,表示将模型结果从基础值推到最终预
温馨提示
- 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
- 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
- 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
- 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
- 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
- 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
- 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。
最新文档
- 9格塑料盒课程设计
- 你好中班课程设计
- 2024年海洋石油修井机项目可行性研究报告
- 2023年人造石英石树脂投资申请报告
- 4 《花之歌》教案2024-2025学年统编版语文六年级上册
- 人音版 音乐一年级上册咏鹅-反复记号 教学设计
- 《静女》教案- 2023-2024学年高教版(2023)中职语文基础模块上册
- 《第二单元 黄河旅游智慧行:9 美食点评试参与》教学设计-2024-2025学年泰山版信息技术三年级上册
- 期末综合素质评价(试题)-2023-2024学年外研版(三起)英语六年级下册
- 第三单元 角的度量(单元测试)-2024-2025学年四年级上册数学人教版
- 第二单元测试卷-2024-2025学年统编版语文四年级上册
- 江苏省南京市2024-2025学年高三9月学情调研数学试卷(原卷版)
- 【教案】Starter+Unit+2+keep+tidy++Section+B+project+2a-2d+Guess+what+it+is+说课稿人教版英语七年级上册
- 高三上学期月考(一)读后续写+Emily的音乐梦想之旅+讲义
- 2024年泸州市市直机关考试转任公务员职位调整高频500题难、易错点模拟试题附带答案详解
- 2024年河南省郑州航空港实验区部分单位招聘52人历年高频考题难、易错点模拟试题(共500题)附带答案详解
- 2024秋国开学习网《形势与政策》形考任务专题测验1-5答案
- 部编人教版小学四年级上册道德与法治全册教案
- 2024-2025学年八年级上学期英语第一次月考模拟考试卷01(人教版)
- 2024年北京移动校园招聘(高频重点提升专题训练)共500题附带答案详解
- 小学主题班会:爱眼护眼-保护视力课件
评论
0/150
提交评论