《数据科学统计基础(第二版)》 课件 第五章 再抽样方法_第1页
《数据科学统计基础(第二版)》 课件 第五章 再抽样方法_第2页
《数据科学统计基础(第二版)》 课件 第五章 再抽样方法_第3页
《数据科学统计基础(第二版)》 课件 第五章 再抽样方法_第4页
《数据科学统计基础(第二版)》 课件 第五章 再抽样方法_第5页
已阅读5页,还剩149页未读 继续免费阅读

下载本文档

版权说明:本文档由用户提供并上传,收益归属内容提供方,若内容存在侵权,请进行举报或认领

文档简介

再抽样方法第五章第5章再抽样方法5.1自助法参数估计5.2刀切法5.3再抽样假设检验5.4交叉验证5.5数据科学中的PCS准则5.6与本章相关的R语言操作自助法参数估计PART5.15.1自助法参数估计自助法的基本假定:原始样本中包含的关于数据的生成机制的信息也包含在再抽样样本中。再抽样样本近似于从总体中产生新的随机样本。本节的基本目标是解释在什么情况下为什么自助法效果更好,以及自助法如何被应用到广泛又多样的真实数据情况中。5.1自助法参数估计5.1.1标准误差的自助法估计随机样本X=(𝑋1,𝑋2,…,𝑋n)来自未知的概率分布F,根据样本X估计参数θ=t(F)。

定义5.1.1插件原则(plug-inprinciple)

5.1自助法参数估计5.1.1标准误差的自助法估计定义5.1.2标准误差是某一统计量抽样分布的标准差,用来衡量统计量的分布的离散程度,是评价该统计量推断总体的准确性的重要指标

理论探讨基于计算机技术的方法5.1自助法参数估计

5.1.1标准误差的自助法估计5.1自助法参数估计5.1.1标准误差的自助法估计

星号标记表明x∗

并不是原样本数据集x,而是等概率有放回的从样本x的随机再抽样。

当n趋于无穷大时,这一概率就将趋近于𝑒−1=0.368,所以留在训练集中的样本大概就占原来数据集的63.2%。5.1自助法参数估计例5.1.2举一个简单的例子,从某分布抽取的一个样本量为10的数据为(25,37,14,69,43,26,76,29,57,68).一次自助法抽样的数据集为:(14,69,37,26,14,29,26,68,37,14).其中第3个样品14被抽中三次,第2个、第6个样品37、26被抽中两次,第4、8、10个样品69、29、68被抽中一次.第1、5、7、9个样品未被抽中.再一次自助法抽样的数据集为(25,37,57,43,37,25,14,43,76,29),与之前的实现值不同.根据这些信息判断治疗对于延长小鼠的生命是否有用。5.1自助法参数估计5.1.1标准误差的自助法估计

5.1自助法参数估计5.1.1标准误差的自助法估计

5.1自助法参数估计5.1.1标准误差的自助法估计

5.1自助法参数估计5.1.1标准误差的自助法估计

5.1自助法参数估计例5.1.3表5.1.1给出了对16只小鼠进行分组实验的数据。它们被随机分配到治疗组和对照组(非治疗组),记录下它们的生存时间(单位:天)。根据这些信息判断治疗对于延长小鼠的生命是否有用。分组数据样本规模均值标椎误差治疗组94,197,16,38,99,141,23786.8625.24对照组52,104,146,10,51,30,40,27,46956.2214.1430.6428.945.1自助法参数估计5.1.1标准误差的自助法估计两组的组内均值分别为

两组差异值的估计为86.86−56.22=30.64,这表明治疗有着相当大的延长生存期的作用。5.1自助法参数估计5.1.1标准误差的自助法估计

两组试验平均存活时间之差30.64是标准误差的1.06倍,也就是说在治疗不起任何作用的前提下也很有可能会随机出现。5.1自助法参数估计5.1.1标准误差的自助法估计

5.1自助法参数估计5.1.1标准误差的自助法估计如果,我们想通过中位数而非均值比较两组数的差异治疗组的中位数为94对照组的中位数为46差异值的估计为48,高于均值的差异值通过自助法估计差异值的精度5.1自助法参数估计5.1.1标准误差的自助法估计

B501002505001000均值19.7223.6322.3223.7923.02中位数32.2136.3534.4636.7236.48表5.1.2治疗组均值和中位数的标准误差的自助法估计5.1自助法参数估计例5.1.4一项关于小片阿司匹林对中年健康男子心脏病的预防是否有效的研究中,采用控制、对照、双盲研究方法收集数据。控制、随机、双盲实验的精心设计是为了更好的避免无关影响因素的干扰,发现感兴趣的因素的影响。实验数据如下:5.1自助法参数估计表5.1.3阿斯匹林对心脏病预防效果的数据(致命加非致命)心脏病受试者阿司匹林组10411037安慰剂组189110345.1自助法参数估计5.1.1标准误差的自助法估计

实验获得样本看起来很大,包含了所有22071个受试者,但是实际上阿司匹林的作用的结论仅依赖于293个心脏病发作的受试者的分组。这样无法确定实验再进行一次结果不会有很大改变。5.1自助法参数估计5.1.1标准误差的自助法估计

(致命加非致命)中风受试者阿司匹林组11911037安慰剂组9811034表5.1.4中风数据仅从这个数字看来服用阿司匹林事实上是有害的,然而中风比率θ的95%置信区间为(0.93,1.59),这个区间包含了中立值θ=1,即明阿司匹林与安慰剂相比对中风并没有显著影响。5.1自助法参数估计5.1.1标准误差的自助法估计使用自助法估计中风数据

一个粗糙的95%置信区间可以用1000次重复之中从大到小排列的第25位和975位表示,结果是(0.93,1.60)。5.1自助法参数估计5.1.2偏差的自助法估计

5.1自助法参数估计

5.1.2偏差的自助法估计5.1自助法参数估计

5.1.2偏差的自助法估计5.1自助法参数估计

5.1.2偏差的自助法估计5.1自助法参数估计5.1.2偏差的自助法估计

5.1自助法参数估计例5.1.5历史上,统计学家很担忧比率估计量可能产生的偏差。表5.1.5中的贴片数据提供了一个实用的例子。将某种天然激素注入八名使用医疗贴片的受试者的血流中。测量每个受试者使用三种不同的贴片(一种不含激素的安慰剂贴片,一种在旧工厂生产的“旧”贴片,以及一种在新开设的工厂生产的“新”贴片)后血液中的激素水平。5.1自助法参数估计例5.1.5表中的前三列显示了每个受试者的三种情况下血液中激素水平的测量结果。对每个受试者,z=旧贴片的测量值-安慰剂的测量值,y=新贴片的测量值-旧贴片的测量值。这个测试目的是为了证明新厂生产的贴片与旧厂生产的贴片是等效的。5.1自助法参数估计受试者安慰剂旧贴片新贴片zy1924317649164498406-12002967112013146142342260131179219979172748187-27054133572181623798845919825905513850125604795-1290662909806101573516-35171241217208165704796-638818806290442632510238-2719均值

6342-452.35.1自助法参数估计5.1.2偏差的自助法估计美国食品和药物管理局(FDA)已批准在旧工厂生产的贴片的销售。如果能够证明新工厂生产的贴片与旧工厂的贴片生物等效,那么新工厂的贴片不需要进行新一轮的FDA调查就能被批准出售。FDA的生物等效性标准是使用新贴片测量结果的期望值与使用旧贴片测量结果的期望值满足以下条件:

5.1自助法参数估计5.1.2偏差的自助法估计换句话说,FDA希望新贴片与旧帖片的差别控制在旧贴片相比于安慰剂贴片所增加血液的激素水平的20%的范围内。θ为参数:

在此我们讨论θ的插件估计量偏差和标准误差。5.1自助法参数估计5.1.2偏差的自助法估计

5.1自助法参数估计5.1.3自助法的区间估计

为了实现这个目标,我们在此介绍两种基础的方法。

5.1自助法参数估计5.1.3自助法的区间估计

5.1自助法参数估计5.1.3自助法的区间估计

那么,95%的中心化分位数区间为

5.1自助法参数估计5.1.3自助法的区间估计

这就验证了变换不变性。在这种意义上,百分位数方法改进了标准置信区间。该方法要求自助法的样本量达到B=2000。除了百分位数法,还有其他的自助法构造置信区间的算法,更复杂和准确的方法请读者参考相关文献。5.1自助法参数估计例5.1.6有22名同学参加了机械学和矢量学的考试,表5.1.6展示了他们的成绩。表5.1.6考试成绩数据

1234567891011机械学74449593446032495244矢量学5169417042404045576461

1213141516171819202122机械学364252218414831424663矢量学59603058516338426949635.1自助法参数估计5.1.3自助法的区间估计

百分位法利用自助法获得分布的形状来提高置信区间的精度,图5.1.2中的直方图的0.025和0.975的分位数分别是0.118和0.758,也是非参数中心化的95%分位数区间的端点。5.1自助法参数估计5.1.4讨论上面几个小节介绍了自助法的基本概念,以及如何使用自助法估计参数的标准误差,偏差,置信区间等。

5.1自助法参数估计

除了上述介绍的内容,自助法有着更广泛的应用,包括多总体、相关非独立样本、贝叶斯情形等。刀切法PART5.25.2刀切法5.2.1刀切法介绍

5.2刀切法5.2.1刀切法法介绍定义5.2.2偏差的刀切法估计定义为

其中

标准误的Jackknife估计定义为

5.2Jackknife方法5.2.1Jackknife方法介绍

5.2刀切法方法5.2.1刀切法介绍直觉上,刀切法的这个“膨胀因子”是必要的,由于典型的刀切法样本比自助法样本更接近原始数据集,因此刀切法中的偏差

比自助法的偏差

要小得多。5.2刀切法5.2.1刀切法介绍证

(5.2.5)的定义使得我们很容易估计任何统计量的标准误差。5.2刀切法5.2.1刀切法介绍相似地,偏差刀切法估计的定义式(5.2.3)中的乘数因子(n-1)与式(5.2.5)标准误的Jackknife估计中的因子(n−1)/n相似,也是一个“膨胀因子”。习题1以样本方差为例讨论这个问题。5.2刀切法例5.2.1表5.2.1中给出了88个学生的测验成绩,我们感兴趣的统计量是协方差矩阵的最大特征值与特征值之和的比率。

5.2刀切法例5.2.1

5.2刀切法例5.2.1我们可以看到,刀切法直方图比自助法直方图(图5.2.1的第三幅)的宽度要小很多(使用了相同的水平刻度)。这说明平均意义上,刀切法数据集比自助法数据集更加接近原始数据。图5.2.1的第二幅展示了“膨胀因子”调整后的刀切法值的直方图(为了对比,进行了平移)。5.2刀切法5.2.1刀切法介绍

5.2刀切法5.2.2刀切法和自助法的联系自助法和刀切法哪个更好呢?事实上刀切法可以看作是自助法的近似。以下是其核心思想。考虑一个线性统计量,可以写成以下形式

5.2刀切法5.2.2刀切法和自助法的联系

5.2刀切法5.2.2刀切法和自助法的联系然而对于非线性统计量,则存在信息损失。刀切法估计标准误差的准确性取决于𝜃的线性程度。刀切法对高度非线性函数是无效的,有时甚至是危险的。5.2刀切法5.2.2刀切法和自助法的联系类似地,Jackknife方法在对偏差的估计上与自助法近似.这种近似体现在二次统计量(非线性)上,其形式如下:

二次统计量的一个简单例子是样本方差,将其展开,我们发现它可以表示如上式的形式.对于这类统计量,它们的刀切法偏差估计与自助法偏差估计仅差一个因子(n-1)/n5.2刀切法5.2.2刀切法和自助法的联系我们可以看出刀切法在估计偏差和标准误差时是自助法的一个简单的较好的近似.但当统计量不是一个光滑函数时,刀切法可能会导致较大的错误.

本书介绍的刀切是去一法,也就是每次忽略一个样本点.有时我们也使用去d法,每次忽略d个样本点.有兴趣的读者可以参阅更多的文献.再抽样假设检验PART5.35.3再抽样假设检验5.3.1置换检验置换检验的主要假定是原假设下的可交换性,即在原假设成立的条件下所有样本都是随机的,通过所有的置换来比较观测数据。置换检验主要的应用是两样本问题:我们从两个概率分布F和G中抽取两个独立随机样本:

5.3再抽样假设检验例5.3.1在例5.1.3的小鼠药物试验的例子中,7只治疗组小鼠和9只对照组小鼠的存活时间的均值差为30.63,这样我们倾向于认为治疗组的分布F的平均存活时间高于对照组的分布G的平均存活时间。但需要进行假设检验。

5.3再抽样假设检验例5.3.1图5.3.1给出了B=1000次置换抽样的结果,其中132次的数值超过30.63,因此该检验的p值为132/1000=0.132,在0.05的显著性水平下,不能拒绝原假设。图5.3.1置换检验直方图5.3再抽样假设检验5.3.1置换检验需要说明的是,这里置换检验的结果与两样本t检验的结果很相似,尽管这里没有正态性的假设。如果均值差的抽样分布的确是正态的,那么t检验给出精确的p值,而对于均值差的抽样分布远不是正态时,t检验就非常不牢靠,但置换检验仍会给出精确的p值。置换检验给出了两样本均值检验的一个黄金标准:如果置换检验和t检验的p值显著不同,这说明t检验的条件不满足,因此当分布和正态分布很不一样时,需要使用置换检验而不是t检验。5.3再抽样假设检验例5.3.2上例中的数据显示,两组小鼠更明显的差异可能不是均值,而是方差。方差的估计比是2.48,这是系统差异,还是样本量较小造成的随机差异,我们可以通过置换检验回答这个问题。图5.3.2给出了1000次置换样本的实现值(对数公式),146次实现值超过了原统计量的取值,所以检验的p值时0.146,不能拒绝原假设。(单边检验和双边检验)。5.3再抽样假设检验例5.3.2图5.3.2方差比的置换检验总结之前的叙述,我们可以得到基于度量某个感兴趣效应的统计量的置换检验的一般操作步骤为:(a)计算原始数据的该统计量;(b)不放回地以符合零假设及研究的设计一致的方式从数据抽取置换样本,从大量的再抽样所得到的样本统计量中构造相应的抽样分布;(c)在抽样分布中,找到原数据统计量的位置以求出p值。5.3.1置换检验5.3再抽样假设检验下面介绍k样本均值F检验的置换检验问题。

5.3再抽样假设检验5.3.1置换检验

而p值则为这些F值中大于原始统计量实现值的比例。5.3再抽样假设检验5.3.1置换检验例5.3.3图5.3.3四种饲料与小鸡体重的箱线图比较四种饲料,数据来自R程序包datasets中的数据ChickWeight。这四个样本的箱线图如图5.3.3所示:5.3再抽样假设检验

用不放回抽样的方法抽取10000个样本进行置换检验,得到的p值为9.999e-05.图5.3.4为F统计量置换样本的直方图和密度估计图:5.3再抽样假设检验5.3.1置换检验5.3再抽样假设检验例5.3.4这是一个关于教育与态度的二维表检验的问题,该数据来源于市场调查。这个数据有2个分类变量,第一个是最高学历,有3个水平:中学以下、中学或初级学院、大学以上,第二个分类变量是态度,有三个水平:支持、中立、反对。5.3再抽样假设检验态度学历支持中立反对合计大学以上138252252642中学5706484421660中学以下178138108424合计886103880227265.3再抽样假设检验例5.3.4这个问题也可以应用置换检验,结果为0.00001。

5.3再抽样假设检验

置换检验和自助法假设检验都可以使用的情况下他们的结果是相似的,但自助法假设检验的应用范围更广,虽然有时精度略低。5.3再抽样假设检验5.3.2自助法检验自助法假设检验的步骤:

5.3再抽样假设检验注意到该算法与置换算法的不同在于样本是否通过替换获得。置换检验和自助法检验之间还有一些重要的差异。置换检验利用原假设成立的条件下存在的特殊的对称性给出了检验统计量。5.3再抽样假设检验例5.3.5

5.3再抽样假设检验通过使用t统计量可以获得更精确的检验,在上面的检验中,我们还可以用

5.3再抽样假设检验5.3.2自助法检验上述方法检验的原假设为两总体独立的条件下分布F=G,如果只检验两总体均值是否相等应该怎么做?

一种方法是用两样本t统计量,在原假设成立的条件下,并假设两总体正态且方差相等,则该学生化t检验统计量的自由度为n+m-2。如果假设两总体的方差不等,则检验可以依赖于统计量对于正态总体,上式不服从学生化t分布,针对这个问题提出了许多渐近解决方法,许多文献将这个问题称为Behrens-Fisher问题。5.3.2自助法检验5.3再抽样假设检验

5.3再抽样假设检验5.3.2自助法检验

5.3.2自助法检验5.3再抽样假设检验例5.3.6下面只考虑例5.1.3处理组小鼠,即单样本问题。假设其他调查员对更多小鼠进行了相似的实验,他们发现经过处理的小鼠的平均生命为129.0天。我们想要检验表5.1.1中处理组小鼠的生命均值是否为129.0,即

5.3再抽样假设检验对于这个假设检验问题,应用自助法检验。自助法假设检验基于原假设成立条件下检验统计量的分布:

5.3再抽样假设检验5.3.2自助法检验但什么是合适的原假设成立时该统计量的分布?

5.3.2自助法检验5.3再抽样假设检验

5.3再抽样假设检验5.3.2自助法检验交叉验证PART5.45.4交叉验证在本章前三节,我们讨论的重点是标准误差、偏差和置信区间(假设检验)。这些都是模型参数精度的度量,更注重模型的可解释性。

有一些模型则是关注预测的。预测误差是评价模型预测未来观测值准确性的指标,通常用于模型选择,例如在一组候选模型中选择一个预测误差最小的模型。交叉验证是估计预测误差的方法,它的出现比自助法早,近年来随着计算能力和速度的提高又兴起。5.4.1交叉验证简介

统计推断的问题是评价预测模型的准确性。5.4交叉验证5.4.1交叉验证简介定义5.4.1

最常用的两种预测误差的度量是:

5.4.1交叉验证简介5.4交叉验证

理想情况下是从产生原始数据相同的总体中获得数据。然而通常情况下不能获得这些数据,于是为了解决这个问题提出了交叉验证的方法,即使用一部分数据来拟合模型,

用另一部分数据验证。为了得到预测误差更准确地估计,我们希望获得一个与我们的训练集互相独立的样本集,称为测试样本或测试数据集。对于总量较大的数据,通常的做法是将数据分为两部分,而对于较小的数据集使用K折交叉验证可以更加充分的利用可用信息。5.4交叉验证5.4.1交叉验证简介交叉验证是估计预测误差的方法,它的出现比自助法早,近年来随着计算能力和速度的提高又兴起。K折交叉验证具体步骤如下:将数据规模分成大致相同的K组。

对于第k部分,用剩余的K-1部分的数据去拟合模型,然后用第k部分的数据计算拟合模型的预测误差。5.4.1交叉验证简介5.4交叉验证

5.4交叉验证5.4.1交叉验证简介比如说,我们的样本有100个数据点,我们使用5折交叉验证,

五次之后,所有的样本点都有了预测值,之后计算样本真实值和预测值的误差的平均,这就是模型的交叉验证误差。5.4.1交叉验证简介5.4交叉验证例5.4.1图5.4.1展示的是激素量随服用时间而变化的数据,对应的具体数据如表5.4.1,因变量𝑌𝑖为激素消炎药在服用𝑍𝑖小时后剩余的量,样本量为27.下面我们考虑回归模型

对给定服用时间后,预测药物剩余量的效果。5.4交叉验证5.4交叉验证图5.4.1激素量散点图5.4.1交叉验证简介表5.4.1激素数据5.4交叉验证5.4.1交叉验证简介

但是这个量很可能会低估真实的预测误差,因为我们在拟合模型和评价模型时使用了相同的数据,这个残差称为“回代”的残差。因为数据量较少,在此应用弃一法交叉验证,得到CV结果为6.03。“回代法”得到的平均误差方差为5.24,低估了大约13%的预测误差。

5.4交叉验证5.4.1交叉验证简介图5.4.2激素量残差散点图5.4交叉验证5.4.1交叉验证简介能够正确使用交叉验证的方法非常重要。对于一个回归或者分类问题,我们可能会按以下步骤进行分析:变量初步筛选:使用全部数据在p个解释变量中(通常p比较大)挑选出m个(m较小)与响应变量最相关的变量。使用挑选出来的m个变量建立预测模型。使用交叉验证方法估计调节参数和模型的预测误差。实际结果表明这不是一个正确的分析方法5.4交叉验证5.4.2进一步讨论正确使用交叉验证的方法应该是:随机将数据分成K份。对于每一部分数据k=1,…,K:使用除了第k份以外的数据挑选与响应变量最相关的m个变量;使用除了第k份以外的数据以及挑选出来的m个变量建立模型;使用上一步建立的模型测试它在第k份数据上的表现。5.4交叉验证5.4.2进一步讨论例5.4.2随机生成一个样本量为50的二分类样本点,以及5000个服从标准正态分布的连续型解释变量,这些解释变量与响应变量(二分类样本点)是独立的。在这个问题中,任一分类器的真实测试误差应为50%。首先使用全部数据在这5000个解释变量中挑选出100个与响应变量最相关的变量,用1-近邻分类器模拟50次,并用交叉验证计算平均误差。然后在50个二分类样本点中随机选择10个,计算其标签与预先挑选的100个解释变量的标签的相关系数。5.4交叉验证例5.4.2交叉验证得到的平均误差仅为3.4%,远远小于真实误差50%。然而这些解释变量和响应变量的相关系数的平均值为0.33,远远大于真实值0。图5.4.3错误方法的相关系数图5.4交叉验证例5.4.2正确方法结果:平均误差为48.68%,平均相关系数接近0,相关系数的直方图如图5.4.4所示。图5.4.4正确方法的相关系数图5.4交叉验证交叉验证可能存在的问题是因训练集数量减少而引起偏差。图5.4.5给出了一个理论的假想情况,用于讨论训练集样本量与模型准确性之间的关系。图5.4.5训练集样本量与模型准确性关系示意图5.4交叉验证数据科学中的PCS准则PART5.55.5数据科学中的PCS准则数据科学生命周期(DSLC)以某一实际问题为开端,历经数据收集,管理、处理与清洗、探索、建模等过程,

并最终阐释数据结果来指导新的行为(见图5.5.1)。由于整个处理过程的跨学科多样性,数据科学需要那些既掌握了数据领域又了解如何去收集处理数据的人才参与。经过整个DSLC,参与者可以做出含蓄的或者明确的决策。数据科学要求有丰富严格的语言对行为决策中的实证信息进行传播和评估。最近YuandKumbier(2020)提出了数据科学的PCS准则,包括可预测性(Predictability)、可计算性(Computability)和稳定性(Stability),以在整个数据科学生命周期中提供有利可靠、透明清晰、可复现的结果。5.5数据科学中的PCS准则图5.5.1数据科学生命周期(DSLC)5.5.1DSLC中的PCS原则1.稳定性假设启动DSLC5.5数据科学中的PCS准则下面首先介绍这三个原则并阐述他们在PCS框架中的作用。DSLC的最终目的是为未来行动获取有价值的信息,不论是生物实验、商业决策还是政府政策。稳定性是一个有用的概念,可以解决另一位研究者做出其他适当的决策时是否会获得类似的结论。下面我们概述了在建模之前影响DSLC的稳定性的考虑因素。问题构建:DSLC开始于一个特定领域问题,这可以是假设驱动的或基于发现的。例如,生物学家可能想要发现调节基因表达的生物分子。在DSLC中,这个问题必须转化为关于模型输出或可以被测量或收集的数据分析的问题。通常会有多种方式将该问题转换为数据科学问题。5.5数据科学中的PCS准则数据收集:为了回答某一领域问题,领域专家和数据科学家根据先前的知识和可用资源收集数据。当这些数据用于指导未来的决策时,研究人员隐含地假设数据与未来时间和未来条件相关。换句话说,他们假设影响数据收集的条件是稳定的,至少相对于数据的某些方面而言是这样的。5.5.1DSLC中的PCS原则数据清洗和预处理:统计和机器学习模型或算法可帮助数据科学家回答某一领域的问题。使用这些模型或算法需要将原始数据清理或处理成合适的格式,不管是分类人口统计特征还是生物标记物浓度的连续测量。探索性数据分析(EDA):在建模阶段之前和事后分析时,数据科学家经常参与探索性数据分析,以识别数据中的关系并解释数据结果。当使用可视化或描述总结来传达这些分析时,隐含假设数据之间的关系或数据结果相对于数据科学家做出的任何决策是稳定的。5.5数据科学中的PCS准则(1)构建预测我们用数据D=(x,y)描述了预测的一般框架,其中x∈𝑋代表输入特征,𝑦∈𝑌表示预测目标。预测准确性提供了一个简单的定量度量,用于评估模型在D中表现数据关系的程度。它相对于预测函数、测试数据和评估函数是意义明确的。我们将在下面详细介绍这些元素。5.5.1DSLC中的PCS原则2.可预测性作为对现实的检验5.5数据科学中的PCS准则5.5.1DSLC中的PCS原则预测函数:

其中Λ表示模型/算法集合。更广泛地说,Λ可以描述一组竞争算法,例如线性模型、随机森林和神经网络,每个算法对应于不同的问题的转换与理解。测试(留存)

数据:我们区分用于拟合预测函数集合的训练数据和用于评估拟合预测函数精度的留存测试数据(在一些情况下,还使用一部分的验证数据进行模型参数的选择)。内部测试数据是在与训练数据相同的条件下收集,至少应该评估内部测试数据的预测准确性。5.5数据科学中的PCS准则

(2)交叉验证如前所述,当数据大体为i.i.d时,交叉验证(CV)已成为选择正则化参数的强大工具。CV将数据划分为几个部分,在除一个部分之外的所有其他数据上训练模型,并评估每个留存部分上的预测误差。也就是说,CV通过评估模型是否准确地预测伪重复的响应来体现可重复的科学原则。CV作为选择正则化参数的工具比作为预测误差的估计更有效,是因为CV误差在汇总时与估计的预测误差之间经常存在正相关性,由此产生了更大变动。5.5数据科学中的PCS准则5.5.1DSLC中的PCS原则3.可计算性从广义上讲,可计算性是数据科学的把关人。

从狭义上讲,可计算性是指算法或模型构建的计算可行性。计算技术的进步提升了我们在实践中分析数据结果稳定性的能力。5.5数据科学中的PCS准则5.5.1DSLC中的PCS原则4.建模阶段的稳定性在建模阶段,稳定性测量了数据或模型受到扰动时数据结果的变化程度。

稳定性扩展延伸了统计中抽样数据变动的概念,这是相对于可以从同一分布产生的其他数据的不稳定性的度量。统计不确定性的评估默认产生数据的分布形式是稳定的。该假设强调了在类似条件下可以观察到的其他数据集的重要性(例如,实验室中的另一个人或另一个时间的另一个实验室)。我们说我们研究问题服从概率分布,分布的概念是一种构想。当明确地进行随机抽样时,可以将真实分布视为客观存在。5.5数据科学中的PCS准则5.5.1DSLC中的PCS原则4.建模阶段的稳定性否则,它是一个心理构想,必须通过相关领域知识和对数据生成过程和下游功效性的理解来证明。统计推断使用分布来得出关于现实世界的结论。这些结论的相关性需要对假定的真实分布进行实证支持,特别是当它是一种心理构想时。在数据科学和统计问题中,研究人员通常不会尝试对这种内心结构的分布进行证明。与此同时,他们非常重视不确定性结论。5.5数据科学中的PCS准则虽然稳定性原理包含了关于不确定性的度量(当真正的分布结构得到很好的支持时),但它旨在涵盖更广泛的扰动,例如问题确立、预处理、EDA、随机算法以及模型或算法的选择。5.5.1DSLC中的PCS原则虽然很少在实践中进行,但评估整个DSLC的稳定性是必要的,以确保结果是可靠的和可复现的。例如,研究基因调控的生物学家必须选择如何标准化原始数据以及她将在分析中使用哪些算法。当没有原则性的方法来做出这些决定时,科学家从分析中提取的信息知识数据仅限于在适当的选择中保持稳定的结论。这确保了研究相同数据的另一位科学家将得出类似的结论,尽管他们各自的选择略有不同。5.5数据科学中的PCS准则5.5.1DSLC中的PCS原则(1)建模阶段的稳定性建模阶段的稳定性是指:相对于所要考虑的目标,对数据、算法或模型进行适当的扰动,以及用于测量由扰动产生的目标变化的程度.我们将在下面详细阐释。稳定性目标:稳定性目标

对应于感兴趣的数据结果或估计值。它取决于输入的数据D和用于分析数据的特定模型或算法𝜆。为简单起见,我们有时会在符号中省略对D和𝜆的依赖。数据和模型/算法扰动:为了评估数据结果的稳定性,我们测量目标T的变化,该变化是由对输入数据或学习算法的扰动引起的。更准确地说,我们定义了数据扰动D和模型/算法扰动Λ的集合,并计算稳定性目标分布。

5.5数据科学中的PCS准则稳定性评估指标:稳定性评估指标s(𝑇;𝐷;Λ)总结了方程公式(5.5.5)中的稳定性目标分布。例如,如果T表示由在数据D上训练的模型选择的特征,我们可以报告在数据扰动D∈𝐷中每个特征被选中次数的比例。当稳定性评估指标与在模型或算法扰动中的目标结合时,重要的是这些不同的目标有适当的量纲以确保可比性。5.5数据科学中的PCS准则(2)数据扰动稳定性原则下的数据扰动的目标是模仿本可以用于产生最终输入数据但并没有的过程。这包括人为决策,例如预处理和数据清理,以及数据生成机制。利用来自于充分证明概率的模型获得可能的数据实现后,我们关注于目标的变化,并且同时我们在统计中得出了充分合理的抽样变异性考虑因素。因此,稳定性原则下的数据扰动包括抽样变异性,但是比后者的概念更广泛。它正式承认了DSLC中除样本可变性之外的许多其他重要因素。此外,当概率模型没有被充分证明并因此抽样的解释不适用时,它提供了一个框架来建立对T估计的置信度。5.5数据科学中的PCS准则算法或模型扰动的目标是为了明确对相同数据的替代性分析如何影响目标估计。一个经典的数据模型扰动的例子来自于稳健性统计,其中通过考虑具有比高斯模型更厚的尾部的替代模型来搜索位置族的均值的稳健性估计。模型扰动的另一个例子是贝叶斯模型中的灵敏度分析。在因果推理中使用的许多模型条件实际上是稳定性的概念,它通过断言不同的条件分布是相同的来排除混淆因素的影响。(3)算法或模型扰动5.5数据科学中的PCS准则(3)算法或模型扰动现代算法通常包含随机成分,例如随机投影或梯度下降中的随机初始值和随机梯度下降。这些随机成分提供了可用于评估稳定性T的自然模型的扰动。除使用单一算法的随机成分之外,还可以使用多个模型或者算法来评估目标的稳定性。当有许多适当的模型或者算法选择,并且没有既定标准或没有给定的领域知识可供选择时,采用这个办法是有用的。稳定性原则要求仅解释在这些算法或模型选择中稳定的感兴趣的目标。与数据扰动一样,模型扰动可以帮助减少目标中的变异性或不稳定性。5.5数据科学中的PCS准则5.5.1DSLC中的PCS原则5.生成模型在PCS中的双重作用生成模型是指事先假定的数据生成机制,一般包括概率模型和具有初始或边界条件的偏微分方程(PDE)。这些模型在PCS框架中扮演着双重角色。一方面,他们可以简明地总结过去的数据和先验知识。

另一方面,它们可用于生成提供数据扰动形式的合成观测值。当使用生成模型来总结数据时,常见的感兴趣的目标是模型的参数。用来近似数据生成过程的生成模型,可以用作数据扰动的一种形式。在这里,使用生成模型新生成的数据加强了观察到的数据。与观察数据相结合的合成数据反映了我们对模型的信任程度。可以将相同的算法和计算平台应用于组合数据。5.5数据科学中的PCS准则5.5.1DSLC中的PCS原则6.PCS原则之间的联系虽然我们已经单独讨论了PCS的三个原则,但它们有着重要的联系。

计算方面的考虑可能会限制方便易行的预测模型或者算法,特别是对于大型高维数据集。这些可靠性问题通常通过可扩展的优化方法(如梯度下降(GD)或随机梯度下降(SGD))来解决。评估留存数据的可预测性是稳定性分析的一种形式,其中训练或测试样本拆分代表数据扰动。用于评估稳定性的其他扰动需要多次进行类似的分析。并行计算非常适合这些扰动。5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断当数据结果用来引导未来决策和行动时,对目标估计的质量非常重要。

预测的变异性传达了关于人们的信任程度的重要信息。在传统统计中,置信度描述了在得到充分证明的概率模型下由于抽样数据变动导致的估计的不确定性。5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断但是,整个DSLC的决策增加了另一层不确定性,可能会让数据结果产生偏差。这个问题在建模阶段曾有人提出,他们推导出“黑客区间(hackingintervals)”来评估针对可能的数据集和算法扰动优化的描述统计量的范围。

在PCS框架中,我们提出扰动区间(perturbationinterval)来量化目标估计相对于不同扰动的稳定性,包括数据清理/预处理和问题转换。扰动区间在概念上类似于置信区间。主要的不同之处在于扰动区间明确地与扰动相关联,并由独立研究者和领域专家进行评估。5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断举个例子,基于自助抽样的单个方法的扰动区间专门针对基于自助法的传统置信区间。更广泛地说,扰动区间量化了整个DSLC上目标参数的可变性。它们的可靠性在一定程度上取决于这组扰动是否考虑了整个DSLC过程可以做出的全部适当的选择,这应由领域专家和独立研究人员进行评估。这突出了扰动的重要性,该扰动可以合理地生成观测数据,尽可能地代表分析的不确定性范围,并且透明公开地记录以供其他人评估。作为一个起点,我们专注于涵盖了传统统计推断的基本形式的PCS推理。

我们的推断方法允许一系列数据和算法或模型扰动,使其在整个DSLC中表示不确定性的能力变得更加灵活。5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断1.PCS扰动区间(1)问题构想将领域问题翻译成数据科学问题,并指出解决问题的方法。

定义预测目标y,适当的数据D或模型Λ扰动,预测函数ℎ(𝜆):𝜆∈Λ,训练/测试数据分割,预测评估的度量l,稳定性度量s和稳定性目标T(D,𝜆)。记录为什么这些选择适合于特定领域的问题。5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断1.PCS扰动区间(2)预测筛选对于阈值𝜏,筛选出不能有效拟合数据的模型(通过预测精度衡量)

适当阈值的示例包括领域内可接受基准、最好的k个模型或精度与最准确模型类似的模型。如果分析的目标是预测,则应该留存测试数据,直到在步骤4中报告模型的最终预测准确性。当测试数据不能用于筛选模型时,上式可以通过代理样本分割方法(例如CV)进行评估。如果分析的目标超出预测(例如,特征选择),则上式可以对留存的测试数据进行评估。5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断1.PCS扰动区间(3)目标值扰动分布对于来自步骤2的每个筛选下的模型Λ∗,计算每个数据扰动D下的稳定性目标。这导致目标会与数据和模型扰动上产生联合分布,

如公式(5.5.5)所示。对于一系列扰动的集合,要求在所有扰动中目标T的稳定性在犯第一类错误方面比对任何单个扰动要求的稳定性更加保守。但是,不同的领域问题需要控制不同类型的错误。因此,如何以及何时将结果与扰动结合起来算是一种人为判断与决定,应该清晰地证明和记录。5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断1.PCS扰动区间(4)扰动结果报告使用稳定性指标s可以总结目标值扰动分布。例如,如果T是一维的,我们可以使用第10和第90百分位数或数据可视化来总结其扰动分布。如果T是多维的,我们可以展现扰动分布的低维投影。当扰动结果通过模型或者算法和目标值相关联时,可能需要重新调整它们以确保可比性。当针对模型或算法扰动单独报告扰动区间时,在步骤2中评估的预测准确度可以用作对每个区间进行对比排序的可靠度量。5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断2.PCS假设检验传统统计中的假设检验通常用于科学和商业决策。

尽管假设检验在道理上是行得通的,但它依赖的许多假设在实践中是无法实现的。今天实践中的假设检验通常依赖于分析近似或蒙特卡罗方法,其中出现了这种小概率估计的问题。实际上,有一个专门的重要抽样领域来处理模拟小概率情形,但这些思想在实践中尚未被重视。5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断PCS假设检验建立在扰动区间的基础上,以解决这些实际问题和有关较小p值的认知错觉。它使用原假设来定义代表合理数据生成过程的有限扰动,在理想情况下,它甚至可以对应于现有的科学理论。这些理论包括概率模型(如果这些模型可以被充分证明的话),以及其他数据或算法扰动。通过考虑各种各样的扰动,PCS假设检验允许我们将观察到的数据与有代表性的领域问题的数据进行比较,后者遵循一些该领域内的简单架构。当然,扰动是否适当是一种人为的判断,要在PCS文档中清楚地传达并由研究人员进行讨论。

就像科学家在实验中考虑要进行适当控制一样,数据科学家应该在PCS分析中讨论适当的扰动。5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断PCS假设检验的数学形式:我们考虑具有可观测输入特征𝑥∈𝑋、预测目标𝑦∈𝑌、预测函ℎ(𝜆):𝜆∈Λ以及定性地描述领域问题的某些方面的原假设的情况。PCS假设检验将原假设转换为受约束的扰动并根据这种扰动生成的数据:

约束扰动的特定选择应明确记录并通过领域知识证明其合理性。我们使用受约束的扰动来构造和比较𝐷0和D的扰动区间,并评估观察到的数据是否与内在假设一致。5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断例5.5.1稀疏线性模型背景下的PCS推断的模拟研究在本例中,我们通过模拟研究来考虑所提出的PCS扰动区间。

我们专注于稀疏线性模型中的特征选择,以展示PCS推断在ROC评价标准下可以得到很好的结果。本例最后的补充知识给出了稀疏线性模型和ROC的简单介绍。不仅在这种简单的假设下,PCS推断具有良好的性能,它的主要优势在于它具有对当今数据科学家所面临的新情况的普适性。也就是说,PCS可以应用于任何可以定义适当扰动的算法或分析。5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断例5.5.1给定n=1000,p=630,𝑋𝑖=(𝑋𝑖1,𝑋𝑖2,⋯,𝑋𝑖𝑝

),𝑖=1,2,⋯,𝑛。并且进行了标准化。随机选择了𝑠=⌊√𝑝⌋=25个活动特征来生成响应,也就是说630个自变量中只有25个是有效的。𝛽𝑗

=1代表特征活跃,反之则为0,𝜖∈𝑅𝑛代表来自于各种分布中的噪声。一共考虑了6种不同的情况。

5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断

5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断

模型存在变量遗漏(Misspecified_miss)模型形式设定错误(Misspecified_rule):

5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断数据按照以上形式生成,其中S代表将25个活跃变量随机两两结对所得的13对变量(其中1对只有单个变量)组成的集合。建模时采用线性模型,代表模型形式设定有误的情形。对于以上各种情况,我们使用PCS扰动区间评估lasso模型进行特征选择的效果。下面是构造这种区间的每个步骤。(1)我们的预测目标是模拟响应Y,我们的稳定性目标是Y关于X回归时选择的特征的集合𝑇⊆{1,2,⋯,𝑝}。为了评估预测准确性,我们随机抽取50%的观察结果作为留存测试集。

(2)我们以平方预测误差为标准通过选取对应于~10个最准确模型的𝜆构建了一系列筛选过的模型集合𝜆∗

。对于数据的扰动,我们使用bootstrap方法,B=100次。由于我们的分析目标是特征选择,我们评估了留存测试数据的预测准确性。我们对每一半数据重复以下步骤,并对最终结果进行平均。(3)对每一个𝜆∈Λ∗和b=1,…,100,我们用𝜏(𝑥

(𝑏),𝜆)来表示由惩罚参数𝜆,第b个自助法样本拟合lasso模型选择的特征。5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断(4)对于数据和模型扰动得到的一系列𝜏可以被看成稳定性区间。计算每一个特征𝑋𝑗,𝑗=1,⋯,𝑝的稳定性得分:其中,B=100,|Λ∗|=10。直观地,稳定性分数反映了我们对模型中给定特征是活跃的信任程度,较高分数意味着更高程度的确定性。在实践中,这些得分可用于对特征进行排名并识别最可靠的集合以供进一步考虑(例如,实验验证)。

5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS推断将上述PCS稳定性分数与传统渐近正态性检验的方法进行了对比。具体做法是,使用lasso方法选出特征,使用这些特征拟合普通的最小二乘回归,对每个系数进行检验,得到一系列p值𝑝𝑗。该值越小,就越倾向拒绝原假设,认为该变量的系数不应该为零,该变量属于活跃集合。因此在绘制ROC曲线时,采用得分1−𝑝𝑗。5.5数据科学中的PCS准则5.5.2通过扰动分析进行PCS

温馨提示

  • 1. 本站所有资源如无特殊说明,都需要本地电脑安装OFFICE2007和PDF阅读器。图纸软件为CAD,CAXA,PROE,UG,SolidWorks等.压缩文件请下载最新的WinRAR软件解压。
  • 2. 本站的文档不包含任何第三方提供的附件图纸等,如果需要附件,请联系上传者。文件的所有权益归上传用户所有。
  • 3. 本站RAR压缩包中若带图纸,网页内容里面会有图纸预览,若没有图纸预览就没有图纸。
  • 4. 未经权益所有人同意不得将文件中的内容挪作商业或盈利用途。
  • 5. 人人文库网仅提供信息存储空间,仅对用户上传内容的表现方式做保护处理,对用户上传分享的文档内容本身不做任何修改或编辑,并不能对任何下载内容负责。
  • 6. 下载文件中如有侵权或不适当内容,请与我们联系,我们立即纠正。
  • 7. 本站不保证下载资源的准确性、安全性和完整性, 同时也不承担用户因使用这些下载资源对自己和他人造成任何形式的伤害或损失。

评论

0/150

提交评论